Prévia do material em texto
SUMÁRIO DO CONTEÚDO Capítulo I. O que é qualidade da evidência? a. Definição de conceitos b. Diferença entre qualidade da evidência e qualidade de estudos c. Critérios para avaliação da qualidade Capítulo II. Avaliação da qualidade da evidência a. Sistema GRADE aplicado b. Risco de viés c. Heterogeneidade d. Imprecisão e. Evidência indireta f. Viés de publicação Capítulo III. Risco de viés em ensaios clínicos randomizados a. Viés no processo de randomização b. Viés devido a desvios das intervenções pretendidas c. Viés devido a dados faltantes dos desfechos d. Viés na aferição dos desfechos e. Viés na seleção dos resultados relatados f. Exemplos aplicados Capítulo IV. Ameaças à validade a. Validade interna b. Validade da conclusão estatística c. Validade de construto d. Validade externa Capítulo V. Como interpretar um corpo de evidência de ensaios clínicos randomizados? Capítulo VI. Formulação de recomendações e tomada de decisão a. Força de recomendação e nível de evidência b. Situações paradigmáticas Capítulo VII. Avaliação crítica: estudo PARADIGM-HF a. Resenha sobre o estudo b. Identificação de vieses c. Interpretação crítica Capítulo VIII. Considerações finais 2 CAPÍTULO I. O que é “qualidade da evidência”? Qualidade dos estudos Existe uma diferença fundamental entre qualidade da evidência e qualidade dos estudos. Quando pensamos em qualidade de estudos, o termo “qualidade” certamente pode ter diferentes significados para diferentes pessoas. Por exemplo, quem trabalha decidindo o destino de financiamento para projetos científicos dentro de uma universidade pode dizer que “um bom estudo é aquele que no final das contas recebe verba”. Em contrapartida, um professor universitário poderia acreditar que um bom estudo é aquele que gera conhecimento que pode melhorar o entendimento de uma condição clínica, e para um médico com atuação clínica poderia dizer que bons estudos são os que de fato impactam na prática. Um editor de revista científica pode acreditar que um estudo bom é aquele que é frequentemente citado, uma vez que gerar mais citações é um desfecho importante para o editor; enquanto isso, um revisor científico pode acreditar que um bom estudo é aquele que adota métodos sólidos e interpreta seus achados de forma apropriada. Veja: todas as definições acima são válidas em seus respectivos contextos. No contexto de uma revisão da evidência disponível, um bom estudo é aquele em que os métodos estão bem alinhados com a questão de pesquisa sob investigação. É isso que o autor de uma revisão sistemática valoriza quando ele fala de qualidade dos estudos, e é isso que você, leitor, também deve valorizar. Quando descrevemos a qualidade do estudo como sendo o grau de compatibilidade entre os objetivos da pesquisa e a questão 3 de pesquisa que a originou, fica claro que as considerações que faremos variam de acordo com a natureza da questão de pesquisa. Os pontos mais relevantes para determinar a qualidade de estudos de modelos animais será um pouco diferente do que em estudos avaliando comportamento humano em sala de aula, que será um pouco diferente também em relação a estudos epidemiológicos que buscam associar exposições e desenvolvimento de câncer de cavidade oral. Dessa forma, o delineamento do estudo é um fator importante para decidir os critérios utilizados para avaliar sua qualidade. Bom, até aqui ficou claro o que a qualidade de estudo representa em termos gerais, e como isso pode variar de acordo com o objetivo da pesquisa. Agora, mais importante, como é que podemos avaliar a qualidade de um estudo? Antes de tudo, é importante lembrar que qualidade é um construto multidimensional. Por essa razão, é impossível fazer um julgamento simples e unitário em relação a um estudo (por exemplo, o estudo é de “boa qualidade” ou de “baixa qualidade”). Coloquialmente, até podemos fazer isso; no entanto, ao analisarmos um artigo científico, essa não pode ser a forma como nos organizamos mentalmente. O ideal é se referir às dimensões da qualidade do estudo e seus indicadores associados. O que isso significa? Como vamos ver mais adiante com ensaios clínicos randomizados, cada tipo de estudo possui domínios importantes a serem avaliados, e cada domínio está associado a diversos indicadores de desenho, análise, aferição de dados, e por aí vai. No caso dos ensaios clínicos randomizados, por exemplo, devemos avaliar os domínios (neste livro eu também me refiro a domínios como “dimensões”) que dizem respeito ao processo de randomização e sigilo de alocação, processo de aferição dos desfechos, e processo de seleção do resultado relatado. Cada domínio é separadamente avaliado por você, leitor, e a gravidade de cada limitação que 4 por ventura possa existir é incorporada no seu julgamento de “até que ponto eu posso confiar no resultado final desse estudo?” Qualidade da evidência Ao tomar qualquer decisão em saúde, os profissionais e os próprios pacientes precisam sopesar os benefícios e malefícios (ou lados positivos e negativos) de todas as possíveis tomadas de decisão. Ao tomar uma decisão, nós não podemos nos influenciar apenas pelo tamanho do risco ou tamanho do benefício (ou seja, pelos resultados dos estudos). É importante levar em consideração a nossa própria confiança nesses resultados. Um resultado pode ser estatisticamente significativo e demonstrar um benefício clinicamente muito grande de um tratamento para um desfecho importante e, mesmo assim, ser muito pouco confiável. Chegamos aqui ao ponto crucial: a utilidade de qualquer resultado vai depender do quão confiantes estamos naquele determinado resultado – em outras palavras, o quão confiantes estamos na evidência disponível. O meteorologista acredita que há 40% de chance de ocorrer um temporal, mas apenas 10% de chance de que ele saiba do que está falando. Existe uma moderada chance de que haja temporal, mas a chance dessa estimativa estar correta é muito baixa. 5 O termo qualidade da evidência foi formalizado no início dos anos 2000 pelo GRADE Working Group para criar uma abordagem única e universal de avaliação da evidência. Até então, diversos sistemas diferentes eram utilizados por sociedades diferentes, o que criava muita confusão e desentendimento entre desenvolvedores de diretrizes, pesquisadores e consumidores da literatura científica. Resumidamente, o sistema GRADE estabelece critérios e diretrizes para determinar a qualidade de um corpo de evidência de maneira estruturada e transparente. Além disso, o sistema também norteia o desenvolvimento e apresentação de recomendações clínicas de diretrizes e guidelines. A ideia por trás do GRADE é oferecer uma abordagem sistemática, explícita e transparente que facilita a avaliação crítica da evidência, protege nossas condutas e crenças contra erros e vieses, facilita a resolução de discordâncias e melhora a comunicação da informação. O leitor da literatura científica deve entender os critérios do sistema GRADE por três principais razões: 1. Quando uma metanálise ou guideline não apresenta a avaliação da qualidade da evidência, é necessário entender os critérios para fazer essa avaliação por conta própria 2. Quando uma metanálise ou guideline apresenta a qualidade da evidência, é necessário entender os critérios para reconhecer se os autores os utilizaram de forma razoável ou não 3. Todos os critérios envolvem conceitos importantes para leitura e interpretação crítica de artigos científicos e agregam ao conhecimento necessário para avaliar a evidência Os pontos fundamentais da avaliação da qualidade da evidência nos permitem julgar o agregado da evidência apresentado em uma metanálise para uma determinada questão clínica qualquer (por exemplo: “suplementar ômega-3 reduz incidência de diabetes tipo II?”).O resultado dessa avaliação é a 6 resposta para a seguinte pergunta: o quanto podemos confiar que o resultado do agregado desses estudos está correto? Para responde-la, utilizamos cinco critérios que podem reduzir a nossa confiança na evidência, e três critérios que podem aumentar nossa confiança na evidência. Critérios que reduzem nossa confiança Critérios que aumentam nossa confiança Risco de viés Grandes efeitos Inconsistência Gradiente dose resposta Imprecisão Todos os fatores de confusão plausíveis aumentariam a estimativa de efeito Evidência indireta Viés de publicação A presença de um critério vermelho (por exemplo, presença de inconsistência) é razão para reduzir em pelo menos um nível a confiança na evidência. No entanto, a ausência de inconsistência (ou seja, os resultados dos estudos de uma metanálise são consistentes entre si) não é um motivo para aumentar a confiança na evidência. De forma similar, a ausência de um critério verde (por exemplo, gradiente dose resposta) não é razão para confiar menos na evidência, mas se gradiente dose resposta está presente então a confiança na evidência é aumentada. Mas afinal, de que forma esses critérios são aplicados? É nisso que vamos nos aprofundar daqui em diante. 7 CAPÍTULO II. Avaliação da qualidade da evidência A qualidade da evidência é um construto que deve ser entendido de forma contínua, com extremos representando baixíssima confiança (acreditamos que a evidência é extremamente incerta e muito pouco informativa) até altíssima confiança (acreditamos que a evidência é extremamente certa e muito informativa). No entanto, por questões operacionais e de transparência, foi necessário que o conceito de qualidade fosse categorizado em quatro níveis para julgar a qualidade da evidência. Por essa razão, o sistema GRADE funciona com uma classificação em quatro níveis: alta qualidade, moderada qualidade, baixa qualidade e muito baixa qualidade. Cada nível possui uma interpretação formal da inferência que pode ser feita a partir dos resultados obtidos através de uma metanálise. A priori, a evidência produzida por ensaios clínicos randomizados é assumida como de alta qualidade. Sendo assim, a qualidade da evidência de uma metanálise de ensaios clínicos randomizados é inicialmente definida como alta, mas pode ser nivelada para baixo (ou seja, podemos perder confiança nos resultados da metanálise) de acordo com a avaliação dos cinco critérios que reduzem confiança. Por sua vez, estudos observacionais são inicialmente assumidos como de baixa qualidade de evidência por limitações inerentes a esse tipo de estudo, mas podem ter a qualidade nivelada para cima (ou seja, podemos aumentar nossa confiança nos resultados produzidos por uma metanálise de estudos observacionais) caso duas condições forem verdadeiras: 1) não há problema em relação a nenhum dos 8 cinco critérios que nos fariam reduzir confiança na evidência; e 2) existem razões para aumentar a nossa confiança na evidência, de acordo com os três critérios expostos na tabela anterior. É importante notar que a qualidade da evidência é determinada para um conjunto de estudos que avalia o mesmo desfecho, e não para estudos individuais! No sistema GRADE, o ponto de partida da avaliação da qualidade da evidência é sempre o delineamento dos estudos. Por exemplo, uma revisão sistemática de estudos randomizados começará classificando o corpo de evidência como de alta qualidade – ou seja, estamos altamente confiantes de que o resultado final gerado pela metanálise seja uma estimativa muito próxima da realidade. Partimos deste pressuposto porque estudos randomizados, quando perfeitamente conduzidos, são capazes de isolar e estimar o efeito de uma intervenção livre de vieses confundidores. No entanto, seria grande ingenuidade assumir que todos os ensaios clínicos randomizados tenham sido perfeitamente conduzidos (isto é, que possuam excelente validade interna ou baixíssimo risco de viés) – e é por isso que utilizamos os critérios do sistema GRADE para nortear nosso grau de confiança em um corpo de evidência de ensaios clínicos randomizados. Existem cinco critérios que podem reduzir a nossa confiança na evidência, conforme previamente apresentados: ● Risco de viés (ou validade interna) ● Heterogeneidade ● Imprecisão ● Evidência indireta ● Viés de publicação 9 Risco de viés Por definição, avaliar o risco de viés de um estudo significa identificar até que ponto o resultado final do estudo é reflexo de uma estimativa não enviesada da realidade. Podemos chamar esse critério de limitações dos estudos ou de validade interna dos estudos. Quanto maior o risco de viés – ou seja, o risco do resultado final do estudo ser uma estimativa enviesada da realidade – menor é a validade interna e mais graves são suas limitações metodológicas. É importante esclarecer o uso da palavra gravidade no contexto de limitações metodológicas em estudos científicos. O risco de viés apenas é preocupante quando as limitações metodológicas são suficientemente graves para que acreditemos que o estudo deva ser considerado como menos confiável. É possível que um estudo tenha sido conduzido e/ou analisado com diversas limitações, mas nenhuma destas limitações (ou o agregado de limitações) foram graves ou preocupantes o suficiente a ponto de justificar com que classifiquemos o estudo como em alto risco de viés. Existem estudos com múltiplas limitações triviais e não importantes; nesses casos, nossa preocupação seria pequena e julgaríamos estes estudos como em baixo risco de viés. Em contrapartida, outros estudos com pouquíssimas, mas graves limitações, nos deixariam mais preocupados com a validade dos resultados apresentados e, por essa razão, julgaríamos estes estudos como em alto risco de viés. Fica evidente que parte fundamental da leitura crítica de estudos individuais é entender a diferença entre presença de limitações e gravidade das limitações presentes. Por fim, é importante notar que o “limiar de gravidade” (até que ponto as limitações 10 são toleráveis) é inevitavelmente sujeito a certo grau de subjetividade e julgamento pessoal. Exemplo: é possível que um ensaio clínico randomizado tenha criado dois grupos desiguais entre si no início do estudo: vamos supor que a média de idade de um grupo era superior à média de idade de outro grupo. Podemos considerar isso como um problema se o desfecho de interesse é altamente impactado pela idade – como em estudos que avaliam mortalidade cardiovascular, por exemplo. Como idade é um fator prognóstico de grande importância para morte cardiovascular, esse desbalanço prognóstico entre os grupos poderia ser problemático. No entanto, ao avaliar a Tabela 1 do estudo (mais adiante, neste eBook, veremos exemplos concretos disto), identificamos que os grupos são bastante similares entre si em relação a todos os outros fatores prognósticos relevantes. Ou seja, por acaso, um grupo acabou mais velho, em média, do que o outro. Isso é totalmente aceitável, pois o princípio da randomização assume que pelo menos uma a cada 20 variáveis serão desbalanceadas entre os grupos simplesmente ao acaso. Esse desbalanço, por si só, não é evidência de que houve problema na randomização – não há razão para suspeitar que a alocação aleatória para os grupos foi subvertida de alguma forma. Mesmo assim, esse desbalanço (que ocorreu por acaso) poderia ter sido problemático o suficiente para reduzir nossa confiança no resultado final; no entanto, ao ler os métodos do estudo, descobrimos que os autores realizaram uma análise estatística ajustada para fatores prognósticos importantes – e veja só, a variável idade foi incluída neste modelo! Os grupos foram comparados entre si, ajustando para um fator importante (idade) que estava desbalanceado. Nessecaso, um problema que poderia ter sido grave foi resolvido com um procedimento analítico apropriado. Criticar este estudo pelo desbalanço entre grupos na variável idade não faria sentido pois: 1) foi 11 apenas uma variável desequilibrada dentre diversas outras variáveis importantes que estavam equilibradas; 2) a análise foi adequadamente ajustada para a variável idade. De maneira geral, as limitações metodológicas podem ser avaliadas utilizando instrumentos formais construídos especificamente para esse propósito. O instrumento mais completo da atualidade é o Risk of bias tool 2.0 (ou RoB 2), elaborado por equipe de metodologistas da Cochrane e de uso recomendado pela mesma organização. A avaliação de risco de viés de ensaios clínicos pelo instrumento RoB 2 é realizada considerando cinco domínios: D1. Viés no processo de randomização D2. Viés devido a desvios das intervenções pretendidas D3. Viés devido a dados faltantes dos desfechos D4. Viés na mensuração dos desfechos D5. Viés na seleção dos resultados relatados No instrumento, formalmente aplicado por autores de revisões sistemáticas, existem diversas questões sinalizadoras que devem ser respondidas para cada domínio, com “sim”, “provavelmente sim”, “provavelmente não”, “não” ou “nenhuma informação”. Dependendo das respostas a cada questionamento, o domínio é finalmente julgado como de “baixo risco de viés”, “algumas preocupações” ou “alto risco de viés”. Estudos que apresentam pelo menos um domínio com “algumas preocupações” não podem ser classificados como de baixo risco de viés; de forma similar, um estudo que apresenta pelo menos um domínio como de “alto risco de viés” não pode ser classificado como de “baixo risco de viés” ou com “algumas preocupações”. Na página seguinte, o clássico gráfico de semáforo representa a avaliação de risco de viés de nove hipotéticos estudos. Cada 12 domínio (do D1 ao D5) é julgado em relação ao risco de viés, e cada estudo também recebe um julgamento geral de risco de viés (última coluna). Gráfico de Semáforo (RoB 2) 13 Para que um estudo seja classificado como de baixo risco de viés (alta validade interna), todos os domínios obrigatoriamente devem ter sido julgados como em baixo risco de viés. Ainda, quando um estudo apresenta pelo menos três domínios com “algumas preocupações”, é razoável julgar o risco de viés geral do estudo como alto (baixa validade externa), mesmo que nenhum dos cinco domínios esteja em alto risco. Ao aplicar o instrumento RoB 2 em revisões sistemáticas de ensaios clínicos randomizados, os autores devem ser transparentes e relatar explicitamente o raciocínio por trás de cada julgamento. Nas melhores revisões sistemáticas, esses julgamentos são apresentados em tabelas no material suplementar. As revisões sistemáticas de tratamento e profilaxia para COVID-19, ambas publicadas no BMJ, contam com materiais suplementares que disponibilizam tabelas completas da avaliação do risco de viés de cada estudo, com justificativas para cada respectivo julgamento. Clique para acessar o material suplementar da revisão sobre profilaxia Clique para acessar o material suplementar da revisão sobre tratamento Os instrumentos formais como RoB 2 para avaliação de limitações metodológicas dos estudos primários podem ser utilizados também por você ao avaliar a evidência científica – não se trata de uma ferramenta exclusiva a autores de revisões sistemáticas! Nos casos em que você for aplicar os https://www.bmj.com/content/bmj/suppl/2021/04/26/bmj.n949.DC1/barj064893.ww.pdf https://www.bmj.com/content/bmj/suppl/2020/07/30/bmj.m2980.DC1/sier059724_3.w1.pdf 14 pressupostos do RoB 2 nos artigos científicos, não há necessidade de aplicar o instrumento em sua forma mais estrita (o que seria imprescindível para autores de revisões sistemáticas). Uma forma mais rápida e fácil de aplicar o RoB 2 fora do contexto de revisões sistemáticas é simplesmente ter os questionamentos das perguntas sinalizadoras para cada domínio em mente durante a leitura do artigo, e anotar os problemas que você julga que poderiam causar importante viés sistemático no resultado final do estudo de acordo com as perguntas sinalizadoras. Maiores detalhes sobre avaliação do risco de viés pelo RoB 2, bem como avaliação da validade interna dos estudos primários, serão elaborados no capítulo III. Heterogeneidade Este domínio diz respeito à variabilidade entre os resultados dos estudos de uma metanálise. É esperado que estudos obtenham estimativas de efeito diferentes entre si para uma mesma intervenção ou exposição, o que pode ser fruto do acaso ou por diversidade clínica e metodológica entre os estudos. Por exemplo, os efeitos de estatinas podem ser diferentes dependendo do risco basal da população sendo estudada (pessoas com maior gravidade da doença podem se beneficiar mais; idosos podem se beneficiar menos; indivíduos com evento cardiovascular prévio podem se beneficiar mais). Formalmente, dizemos que existe heterogeneidade (ou inconsistência) quando o verdadeiro efeito da intervenção é representado por resultados variados entre os estudos incluídos na análise. É importante destacar, de antemão, que a heterogeneidade avaliada pelo sistema GRADE diz respeito apenas aos resultados dos estudos, e não às características 15 clínicas e metodológicas dos estudos. Para evitar confusão, quando nos referimos à heterogeneidade nos resultados dos estudos, utilizamos o termo heterogeneidade estatística e, quando nos referimos à heterogeneidade clínica e metodológica entre os estudos, utilizamos os termos diversidade clínica e diversidade metodológica. A diversidade clínica e metodológica entre os estudos é responsável por criar heterogeneidade estatística entre os resultados finais dos estudos primários. É um erro interpretar a heterogeneidade estatística como se fosse reflexo, necessariamente, de diversidade clínica e metodológica entre os estudos. Estudos muito similares entre si, apesar de tenderem a apresentar resultados consistentes, podem muito bem apresentar resultados muito diferentes e isso refletirá em heterogeneidade estatística. Em contrapartida, estudos muito diferentes entre si podem apresentar resultados bastante consistentes e com baixa heterogeneidade estatística. A heterogeneidade estatística pode ser avaliada por quatro indicadores diferentes em uma metanálise: ● Estimativas pontuais variam muito entre os estudos: quando diversos estudos, principalmente os de maior peso na metanálise, apresentam estimativas pontuais muito discrepantes entre si. Esse problema é mais grave quando as estimativas pontuais variam de benefício clinicamente relevante até malefício clinicamente relevante. ● Sobreposição dos intervalos de confiança: inspeção visual dos intervalos de confiança no forest plot. Quanto menos sobrepostos estão os ICs, mais heterogêneos são os resultados da metanálise. Esse método é uma forma “qualitativa” de avaliar heterogeneidade. Uma limitação deste método é o fato de que intervalos de confiança muito amplos (típico de metanálises de estudos pequenos) estarão provavelmente bastante sobrepostos 16 entre si, mas não significa que os resultados não são heterogêneos. Os resultados podem ser heterogêneos e simplesmente não aparentarem ser por conta dos amplos intervalos de confiança. Nestes casos, dizemos que a imprecisão dos estudos (resultados com amplos intervalos de confiança) está mascarando a heterogeneidade da metanálise. ● Teste estatístico para heterogeneidade (Cochran’s Q-test): trata-se de um teste de hipótese que avalia se todos os estudos estão estimando o mesmo efeito. Esse teste gera um p-valor, que se resultar menor do que o limiar pré-definido de significância estatística (por exemplo, menor que 0.05) pode ser interpretado como evidência de presença deheterogeneidade estatística – ou seja, os estudos não estão todos estimando o mesmo efeito e, portanto, há heterogeneidade estatística. Caso não seja significativo, é possível considerar isto como ausência de evidência de heterogeneidade. Em geral, o poder estatístico deste tipo de teste tende a ser muito baixo. Isso significa que a taxa de falso negativo na detecção de heterogeneidade estatística a partir do Cochran’s Q-test não deve ser negligenciada, especialmente em metanálises de poucos estudos. É possível que haja heterogeneidade e o teste simplesmente não seja capaz de identifica-la. É argumentável que o teste de significância para avaliar heterogeneidade não faça muito sentido para a maioria das metanálises, considerando que revisões sistemáticas incluem estudos diferentes o que, por definição, significa que é mais do que esperado que exista heterogeneidade estatística. O interesse maior seria em estimar o grau de heterogeneidade (através de 17 métodos como o I²) e se ela pode ser explicada por análises quantitativas, e não simplesmente se há ou não heterogeneidade. ● Magnitude do I² (%): trata-se de uma métrica que quantifica o grau de heterogeneidade, que varia de 0% a 100%. A definição formal do I² é “o percentual de variação total entre os resultados dos estudos devido a heterogeneidade, e não ao acaso”. Quase sempre está presente no gráfico de funnel plot. Um valor de 0% indica que não foi observada heterogeneidade estatística alguma, e maiores valores representam maior heterogeneidade. Os autores (e leitores) de metanálises não apenas devem se limitar apenas a identificar e interpretar a heterogeneidade estatística de forma apropriada, mas também buscar explicações para a heterogeneidade. A ideia aqui é simples: os estudos mostram resultados altamente diferentes entre si, então a saída é adotar alguns métodos quantitativos para conseguir explicar por que houve essa heterogeneidade nos resultados. As situações mais problemáticas em termos de heterogeneidade são quando os estudos de maior peso na metanálise (isto é, os que mais fortemente contribuem para o resultado final) apresentam resultados muito discrepantes entre si 18 e/ou quando a heterogeneidade estatística permanece inexplicada após análises exploratórias. Isso significa que os autores, mesmo explorando os resultados obtidos através de análises de subgrupo ou meta-regressões, não conseguiram identificar os motivos pelos quais os estudos apresentam resultados diferentes. Nesses casos, é razoável nivelar a evidência para baixo e confiar menos no resultado final da metanálise, pois a interpretação dos resultados se torna mais difícil. Uma dúvida bastante recorrente é o que significa uma heterogeneidade estatística inexplicada. Para ilustrar esse conceito vamos analisar um exemplo concreto de metanálise que encontrou alta heterogeneidade estatística, e decidiu investigar a razão pela qual os resultados foram tão discrepantes assim entre os estudos. Na imagem abaixo, o forest plot apresenta uma metanálise de 9 estudos avaliando o efeito de uma intervenção para redução de mortalidade. No final das contas, o efeito foi de proteção de 26%, e o intervalo de confiança de 95% indica que os dados são compatíveis com redução de 6% até uma redução de 42% (RR = 0.74, 95%CI: 0.58 – 0.94, p = 0.02). Os resultados entre os estudos são altamente heterogêneos: um estudo apresenta pequeno malefício (Ademiro), dois estudos apresentam moderado malefício (Ronaldo e Denise), três estudos apresentam moderado benefício (Maria, Juquinha e Manuela) e três estudos apresentam grande benefício (José, Reginaldo e Joana). Essa heterogeneidade é evidenciada pelo teste de heterogeneidade com resultado estatisticamente significativo (Chi² = 24.26, p < 0.01) e alto I² (67%). 19 Existem várias possíveis explicações para essa heterogeneidade: em relação à população, pode haver diferença entre os estudos na gravidade da doença ou idade dos participantes; em relação aos métodos, pode haver diferença entre estudos de maior ou menor risco de viés; em relação a intervenção, pode haver diferença entre tempo de tratamento, doses, co- intervenções e tempo de intervenção. É possível ainda que muitas outras variáveis relacionadas à população, intervenção, comparação e desfecho (PICO) sejam diferentes entre os estudos e essas diferenças sejam responsáveis por gerar resultados heterogêneos. Vamos investigar um aspecto metodológico para tentar explicar essa heterogeneidade: o risco de viés. Os estudos serão divididos entre alto risco de viés (menor qualidade metodológica) e baixo risco de viés (maior qualidade metodológica). 20 A imagem acima apresenta o forest plot de uma análise de subgrupo de acordo com risco de viés. O subgrupo de estudos em baixo risco de viés são José, Maria, Reginaldo e Joana, enquanto os estudos remanescentes foram classificados como em alto risco de viés. Como nosso propósito com essa análise de subgrupo foi explicar a heterogeneidade nos resultados entre os estudos, vamos nos atentar aos indícios de heterogeneidade (estimativas pontuais, sobreposição dos intervalos de confiança, teste de heterogeneidade e I²) para responder às seguintes questões: 1. A análise de subgrupo foi suficiente para explicar de forma satisfatória a heterogeneidade estatística entre os estudos? 2. O que podemos usar como evidência indicando que a heterogeneidade estatística foi (ou não foi) explicada por essa análise de subgrupo? A primeira pergunta pode ser respondida olhando para os indicadores de heterogeneidade após análise de subgrupo. Usualmente, avaliamos 21 primeiro o I², por ser um indicador mais informativo de heterogeneidade estatística. O I² da metanálise inteira foi de 67%, como visto anteriormente – o que representa um alto grau de heterogeneidade. Após análise de subgrupo, cada subgrupo se apresentou com I² de 0%. Isso significa que, agora, temos dois subgrupos de estudos sem heterogeneidade estatística alguma. Dizemos, então, que a análise de subgrupo foi capaz de explicar a heterogeneidade estatística de maneira satisfatória, evidenciado pelo I² de 0% em cada subgrupo após estratificação da metanálise de acordo com classificação do risco de viés. Apesar de fugir do escopo deste eBook, é importante notar que análises de subgrupo dentro de metanálises são, por definição, exploratórias e de natureza observacional. A credibilidade de análises de subgrupo em metanálises deve ser avaliada a partir de critérios que, se presentes, aumentam a validade da inferência da análise de subgrupo e consequentemente sua confiabilidade. Um dos maiores problemas da análise de subgrupo em metanálise é que os subgrupos são formados por estudos que não diferem entre si apenas em relação ao risco de viés. Por exemplo, dentro da categoria de estudos com alto risco de viés, é certo que outras diferenças (clínicas e/ou metodológicas) existam. Por sua vez, essas diferenças podem ser responsáveis pelos diferentes resultados encontrados. Qual é a razão para que, dentre os estudos de alto risco de viés, dois (Juquinha e Manuela) tenham encontrado benefício moderado a alto, enquanto os outros estudos encontraram efeito trivial ou de pequeno malefício? Poderíamos tentar conduzir outra análise de subgrupo adicional baseada em algum fator plausível de justificar as diferenças nos resultados obtidos; no entanto, essa análise seria muito pouco informativa pela pequena quantidade de estudos sendo estratificados (apenas cinco), o que geraria resultados imprecisos e pouco conclusivos. Concluindo nossa resposta: a análise de subgrupo explicou de forma satisfatória a 22 heterogeneidade estatística da metanálise, e nossa confiança no resultado final está preservada (o I² de 67% não foi uma razão para nivelar parabaixo a qualidade da evidência desta metanálise, pois a análise de subgrupo foi capaz de demonstrar que a heterogeneidade deixa de existir quando estratificamos por risco de viés). Já temos uma resposta parcial para a segunda pergunta: o I² de 67% da análise geral não foi um problema, pois cada subgrupo (após estratificação por risco de viés) apresentou 0% de I². Outros indicadores podem corroborar essa conclusão, evidenciando que a heterogeneidade estatística foi satisfatoriamente explicada: 1) o teste de heterogeneidade não foi significativo para ambos subgrupos (p = 0.57 e p = 0.81), 2) as estimativas de efeito são similares entre si dentro de cada subgrupo e 3) os intervalos de confiança estão razoavelmente sobrepostos entre si em dentro de cada subgrupo. Na próxima página, o forest plot é reproduzido com destaque para os indicadores de heterogeneidade analisados. Exemplo 2: forest plot com oito ensaios clínicos randomizados de amantadina para prevenção de influenza A imagem acima é um forest plot que apresenta estudos de resultados diferentes entre si: um deles beira a nulidade (Kantor), outro estudo sugere pequeno benefício (Quarles), quatro estudos sugerem moderado benefício (Oker-Blom, Mont, Pettersson e Reuman) e dois estudos (Dolin e Muldoon) sugerem grande benefício. As estimativas pontuais variam de uma redução de 16% até 93%, e há pouca sobreposição de intervalos de confiança entre todos os estudos. No entanto, perceba: o teste de heterogeneidade (p = 0.09) não foi significativo! Uma interpretação simplesmente baseada no p-valor do teste de heterogeneidade seria de que “não há heterogeneidade estatística nesta metanálise”. Entretanto, temos evidência de heterogeneidade estatística ao avaliar a discrepância nas estimativas pontuais e a pobre sobreposição de intervalos de confiança: os resultados são bastante heterogêneos. Além disso, o I² observado foi de 44%. Isso significa que, apesar de não haver heterogeneidade estatística pelo teste de heterogeneidade (p = 0.09), o grau de heterogeneidade estatística é 25 moderado – e isso não é negligível. O teste de heterogeneidade não foi significativo porque não houve poder estatístico (poucos estudos analisados). Em contrapartida, seria possível que houvesse excesso de poder estatístico caso tratasse de uma metanálise com muitos estudos, situação propícia para erro tipo I (ou falso positivo): isto é, identificar heterogeneidade quando, na realidade, não há. Esse problema ficou evidente na metanálise que comparou o uso de inibidores seletivos de recaptação da serotonina comparado a antidepressivos tricíclicos em relação a taxa de desistência dos participantes nos ensaios clínicos, conduzida por Barbui e colaboradores (2003) e publicada na base da Cochrane. Apesar do teste (Cochran’s Q) de heterogeneidade ter sido altamente significativo (p = 0.005), o valor de I² indica baixa heterogeneidade (26%). Neste estudo, houve significância estatística para o teste de heterogeneidade provavelmente pelo excesso de poder (foram incluídos 135 estudos!), sendo um exemplo claro de falso positivo: apesar do teste ter sido estatisticamente significativo, na realidade a heterogeneidade não era grande o suficiente para causar preocupação ou afetar de maneira importante a conclusão dos resultados apresentados, evidenciado pelo I² razoavelmente baixo (26%). O que seria uma grande heterogeneidade? Apesar da leitura mais adequada da heterogeneidade estatística medida pelo I² existir dentro de um contínuo (de 0% a 100%), é inevitável que muitos autores (e leitores) sintam a necessidade de classificar a heterogeneidade em categorias, a partir de pontos de corte. Afinal, o que vamos considerar uma “moderada” ou “alta” heterogeneidade? O leitor deve ser avisado que julgar o grau de heterogeneidade com base em pontos de corte rígidos pode ser uma abordagem enganosa, já que a importância da heterogeneidade depende de outros fatores além do percentual apresentado pelo I², como a avaliação da magnitude e direção dos efeitos 26 apresentados pela metanálise (um exemplo sobre isso será demonstrado nas próximas páginas) e qual é o indicador que sugere heterogeneidade. De qualquer forma, os seguintes pontos de corte podem servir de guia: ● 0 a 40% pode representar uma heterogeneidade não importante; ● 30 a 60% pode representar moderada heterogeneidade; ● 50 a 90% pode representar heterogeneidade substancial; ● 75% a 100% pode representar heterogeneidade considerável. Note que as faixas se sobrepõem e uma linguagem equívoca foi utilizada (“pode representar”). Com isso, estamos reconhecendo, de forma implícita, que os pontos de corte são arbitrários e incertos. Limitações do I² Finalmente, em relação ao I², é importante destacar duas importantes limitações. Quando os estudos analisados têm pouco poder estatístico (apresentando intervalos de confiança muito amplos), o I² tende a falhar em reconhecer heterogeneidade estatística, uma vez que intervalos muito amplos tendem a ficar sobrepostos entre si. Outro problema é quando os estudos têm muito poder estatístico e geram resultados com intervalos de confiança muito precisos. Nessas circunstâncias, o I² tende a ser superestimado, indicando heterogeneidade onde não há: se os estudos têm intervalos muito curtos, é possível que não se sobreponham, mesmo quando a estimativa pontual parece ser razoavelmente similar entre os estudos. Nesses casos, é mais importante avaliar as diferenças nas estimativas pontuais entre os estudos do que o grau de sobreposição dos intervalos de confiança – uma vez que os intervalos estão maiores do que deveriam. A imagem na página seguinte ilustra um exemplo em que o I² é subestimado devido ao pequeno tamanho amostral dos estudos incluídos 27 na metanálise. Os resultados são bastante heterogêneos, mas seus intervalos são bastante amplos e consequentemente ficam sobrepostos. Este é um clássico exemplo de imprecisão mascarando heterogeneidade estatística. Impacto da direção de efeito na interpretação da heterogeneidade Heterogeneidade estatística só é um problema quando reduz a confiança nos resultados em relação a decisões na vida real. Por essa razão, a preocupação em relação ao I² depende da direção de efeito dos estudos mais relevantes da metanálise: se os estudos são heterogêneos entre si, mas apontam consistentemente para a mesma direção de efeito, estamos confiantes de que o efeito é benéfico (ou maléfico, dependendo da direção!) e a tomada de decisão na vida real seria clara. Dessa forma, é perfeitamente possível que os resultados de uma metanálise mesmo com heterogeneidade substancial (por exemplo, com I² superior a 80%) sejam confiáveis, sem razão para nivelar para baixo a qualidade da evidência, desde que sejam consistentes na direção de efeito. Em outros casos, é possível que mesmo um I² não muito elevado (por exemplo, 40%) seja razão suficiente para perder confiança no resultado final, desde que sejam inconsistentes na direção de efeito. 28 A imagem abaixo ilustra três situações diferentes: 1) resultados similares entre si, com grande sobreposição dos intervalos de confiança; 2) resultados heterogêneos entre si, para a mesma direção de efeito; 3) resultados heterogêneos entre si, para diferentes direções de efeito. Na primeira imagem, os estudos consistentemente demonstram resultados próximos da nulidade, e os intervalos de confiança se sobrepõem entre si. A interpretação é simples: não há razão para nivelar para baixo a qualidade da evidência por conta de heterogeneidade, simplesmente porque não há heterogeneidade. Na segunda imagem, os estudos são inconsistentes entre si (há algum grau de heterogeneidade): dois estudos estimam grande benefício e dois estudos estimam moderado benefício. Apesar de serem inconsistentes entresi em relação à estimativa pontual, a direção de efeito é consistente: todos os estudos apontam para benefício, e os intervalos de confiança não cruzam a nulidade estatística. A interpretação mais adequada deste forest plot é de que, apesar de algum grau de heterogeneidade estatística, isto não é um problema para concluir que a intervenção é benéfica. A única incerteza que temos é em relação ao tamanho de efeito da intervenção - qual é a magnitude desse benefício? 29 Na terceira imagem, os resultados são inconsistentes entre si em relação à direção de efeito: dois estudos estimam benefício moderado e dois outros estudos estimam malefício moderado. Assumindo que efeitos moderados sejam clinicamente relevantes, esse seria um forest plot bastante problemático para interpretar: será que o efeito da intervenção é benéfico, maléfico ou nulo? Evidentemente, se fosse uma metanálise real (e com mais estudos, preferivelmente) o mais apropriado seria conduzir análises com objetivo de explicar a heterogeneidade observada, através de análises de subgrupo ou meta-regressões. A identificação e interpretação da heterogeneidade em metanálises pode ser uma tarefa bastante desafiadora. Em muitos estudos, a conclusão final envolverá algum grau de subjetividade no julgamento do que caracteriza uma heterogeneidade preocupante ou não. Além disso, muitas vezes dependemos de métodos para determinação ou explicação de heterogeneidade que não são inquestionáveis – como vimos anteriormente, todos os indicadores de heterogeneidade têm limitações, e análises de subgrupo e meta-regressões podem ser complexas de interpretar ou simplesmente inviáveis de conduzir. O leitor deve se atentar a alguns detalhes para se resguardar de inferências inapropriadas: ● Investigar a heterogeneidade estatística dos resultados apresentados em uma metanálise utilizando os quatro indicadores de heterogeneidade; ● Considerar as possíveis limitações dos indicadores de heterogeneidade (I², teste de significância e sobreposição dos resultados); ● Considerar a direção de efeito dos estudos que mais impactam no resultado final; 30 ● Certificar-se de que os autores tenham tentado explicar a heterogeneidade observada, quando apropriado, através de análises de subgrupo e/ou meta-regressões. Imprecisão Para interpretar adequadamente o resultado final de qualquer estudo, seja uma metanálise ou estudo primário, é necessário que a precisão seja quantificada e relatada. A precisão é evidenciada através do intervalo de confiança em torno da estimativa pontual de um resultado, e representa o grau de erro aleatório de um resultado. Por exemplo, em um ensaio clínico randomizado que testou o efeito de dexametasona em pacientes hospitalizados com COVID-19, a estimativa pontual foi uma redução de 17% no risco de mortalidade, com intervalo de confiança abrangendo redução de 25% a 7%. O intervalo de confiança nada mais é do que uma forma de quantificar a incerteza em relação à estimativa pontual apresentada. A interpretação mais correta do intervalo de confiança é uma discussão estatística que foge o escopo deste eBook, mas é seguro interpretá-lo como “a faixa de valores compatíveis com os dados do estudo”. Estritamente falando, a estatística frequentista afirma que o intervalo de confiança de 95% representa uma faixa de resultados e que, se o estudo fosse replicado da mesma forma infinitamente e o intervalo de confiança fosse calculado para cada um desses infinitos estudos, então 95% dos intervalos de confiança incluiriam o verdadeiro valor da intervenção. Por ora, podemos ficar com a interpretação mais simples de compatibilidade dos 31 dados ou, ainda, podemos dizer que o intervalo de confiança “é uma faixa na qual é plausível que o verdadeiro valor esteja contido”. No estudo da dexametasona, a melhor estimativa foi uma redução de risco de 17%, mas o intervalo de confiança indica que os dados do estudo são compatíveis com uma redução menor, de 7%, até uma redução maior, de 25%. Os extremos do intervalo de confiança são chamados de limite superior e limite inferior. No caso da dexametasona, o limite inferior (menor efeito) do intervalo de confiança seria 7% (em risco relativo, 0.93) enquanto o limite superior do intervalo seria 25% (em risco relativo, 0.75). Esse intervalo de confiança não é particularmente preocupante: ele está totalmente para o lado do benefício, e não abrange o efeito nulo (e, por essa razão, o resultado é estatisticamente significativo). O maior benefício compatível com os dados é uma grande redução no risco de mortalidade, e o menor benefício compatível com os dados é uma pequena redução no risco de mortalidade de “apenas 7%” (note que, apesar de numericamente parecer pequeno, um efeito de 7% ainda seria clinicamente relevante para o desfecho óbito). Quanto mais distante da estimativa pontual e mais próximo dos extremos, menor é a probabilidade de que aquele seja o efeito real da intervenção. No caso da dexametasona, o efeito mais compatível com os dados é a redução de 17%, enquanto as reduções extremas (de 7% e de 25%), apesar de serem compatíveis, são muito improváveis de representarem o verdadeiro efeito da dexametasona em pacientes hospitalizados com COVID- 19. Dessa forma, a melhor estimativa é sempre a estimativa pontual, e os limites do intervalo de confiança são os extremos mais improváveis (mas ainda compatíveis com os dados) de serem os verdadeiros valores. No que diz respeito à qualidade da evidência, a imprecisão é um problema quando o intervalo de confiança abrange efeitos que afetariam (ou dificultariam) nossa tomada de decisão caso fossemos guia-la com base nos 32 resultados apresentados. De maneira geral, resultados muito imprecisos (isto é, intervalos de confiança exageradamente amplos) são razão para nivelar para baixo a qualidade da evidência; no entanto, assim como o critério de heterogeneidade, a imprecisão deve ser avaliada dentro do contexto da metanálise, em conjunto com outros fatores. Exemplo aplicado Vamos utilizar de exemplo para julgar imprecisão uma metanálise que avaliou o efeito de corticoides para manejo de exacerbações em pacientes com doença pulmonar obstrutiva crônica (DPOC), conduzida por Quon e colaboradores (2008). Foram incluídos 4 ensaios clínicos randomizados, e o forest plot abaixo indica benefício da intervenção para redução do tempo de internação hospitalar. O intervalo de confiança da metanálise indica que os dados são compatíveis com redução de 2,18 dias até uma redução de 0,65 dias, e a melhor estimativa é uma redução de 1,42 dias. Em termos de direção de efeito, o intervalo de confiança não nos causa preocupação: tanto o limite inferior quanto o limite superior estão incluindo efeitos benéficos (isso significa que o resultado é estatisticamente significativo, pois o intervalo de confiança do efeito final não abrange a nulidade). A única razão para nivelar 33 para baixo a qualidade da evidência do ponto de vista de precisão seria se o melhor efeito possível (-2,18 dias de internação) justificasse o uso de corticoide, mas o pior efeito possível (-0,65 dias de internação) não justificasse o uso de corticoide. Veja, se esse fosse o caso, então nosso intervalo de confiança abrangeria efeitos que resultariam em diferentes tomadas de decisão na vida real. Isso reduz a nossa confiança na evidência, pois o verdadeiro efeito poderia ser uma redução clinicamente relevante que nos faria prescrever o medicamento, mas também poderia ser uma redução clinicamente irrelevante que não justificaria a prescrição. Nessa situação, é razoável reduzir em um ponto a qualidade da evidência; se a confiança no resultado final da metanálise estava alta, agora está moderada. É importante notar que a definição do que é um efeito clinicamente relevante é dependentede conhecimento clínico e teórico sobre a condição clínica específica sendo estudada. Existem muitos estudos que podem servir de norte para auxiliar o leitor a determinar o que são efeitos clinicamente relevantes, e isso depende fortemente do desfecho sendo avaliado. É argumentável que óbito, por exemplo, seja um desfecho tão importante que qualquer redução de 5 a 10% já seria benéfica; em contrapartida, existem desfechos menos críticos que exigiriam um benefício muito maior para poder justificar o uso de determinada intervenção, principalmente se a intervenção estiver associada a efeitos adversos importantes e/ou alto custo. É aconselhável que o leitor se familiarize com o mínimo efeito clinicamente relevante para o seu desfecho de interesse (na literatura, busca-se por “minimal clinically relevant effect”). Em outro exemplo, uma metanálise de 9 estudos avaliando o efeito de corticoides para mortalidade em pacientes com choque séptico demonstrou estimativa pontual com benefício para a intervenção, com resultado estatisticamente não-significativo: RR, 0.88 (95%CI, 0.75 – 1.03). 34 Neste estudo, a imprecisão do intervalo de confiança é suficiente para fazer com que a qualidade da evidência seja nivelada para baixo em um ponto. Embora os resultados do estudo sejam compatíveis com redução expressiva de mortalidade (em pacientes sépticos, redução de 25% é altamente desejável), eles também são compatíveis com um pequeno aumento de 3% na mortalidade, considerando o limite superior do intervalo de confiança. Isso resultaria em duas condutas completamente distintas: se o efeito verdadeiro fosse de redução de 25% do risco, com certeza iríamos recomendar o uso de corticoide; em contrapartida, existe a possibilidade (mesmo que remota) de que o verdadeiro efeito seja um aumento pequeno, mas clinicamente relevante no risco de morte. Em casos mais extremos de imprecisão, como quando o intervalo e confiança abrange efeitos muito grandes para malefício e para benefício simultaneamente, é recomendável que o nível de evidência seja graduado para baixo em dois pontos. Dessa forma, uma metanálise que começou com alto nível de evidência passaria a ser julgada como de baixo nível de evidência apenas pelo critério de imprecisão. 35 Outro ponto importante a ser avaliado ao julgar a imprecisão de uma metanálise, além dos efeitos abrangidos pelo intervalo de confiança, é o conceito de Optimal Information Size (em português: tamanho ótimo da informação). O tamanho ótimo da informação indica o poder estatístico do estudo para fornecer resultados suficientemente precisos (e, portanto, conclusivos) para determinado desfecho. Consideramos que uma metanálise não tenha atingido o tamanho ótimo da informação quando o número total de participantes incluídos é menor do que o número de participantes sugerido pelo cálculo de tamanho amostral para um ensaio clínico com poder estatístico adequado. Apesar de ser difícil estipular uma regra de bolso, é recomendado que metanálises (salvo raras exceções) com menos de 400 participantes tenham sua qualidade da evidência 36 automaticamente nivelada para baixo em, pelo menos, um nível por imprecisão. É evidente que a imprecisão é um dos critérios mais complexos a serem avaliados, mas não por questões operacionais: é relativamente fácil identificar e interpretar imprecisão em termos de amplitude de intervalos de confiança. No entanto, a decisão de nivelar para baixo a evidência com base na imprecisão depende fortemente do limiar a partir do qual acreditamos que uma intervenção é clinicamente relevante ou não. Embora esse limiar seja informado pela literatura científica, na maioria das vezes a base de evidência não é sólida e acaba envolvendo um alto grau de arbitrariedade e dependendo fortemente de opinião de especialista. Evidência indireta Os resultados de qualquer metanálise são mais confiáveis quando a evidência subjacente é completamente aplicável à questão clínica que a revisão sistemática se propôs a responder. Quando dizemos “completamente aplicável”, queremos dizer que a evidência é totalmente direta – não há divergência entre os componentes da PICO da revisão sistemática (população, intervenção, controle, desfecho ou delineamento) e dos estudos incluídos. Infelizmente, para boa parte das questões clínicas não há um corpo de evidência 100% direto. É comum que diversos estudos avaliem desfechos substitutos em vez de desfechos clínicos (ex: pressão arterial seria um desfecho substituto para eventos cardiovasculares), ou que não haja estudos em determinada população de interesse. Essa “incompatibilidade” na população, intervenção e desfecho de interesse da revisão sistemática comparado aos estudos que ela incluiu existe em maior ou menor grau, e o que vai determinar se devemos reduzir nossa confiança na evidência por evidência indireta é o julgamento do quanto os estudos incluídos na metanálise desviam da questão clínica originalmente proposta, e o quão problemáticos são esses desvios. Diferenças muito grandes entre a população de interesse e a população estudada nos estudos primários podem servir de razão para nivelar para baixo a qualidade da evidência, principalmente se há um racional biológico e/ou evidência de que o efeito da intervenção seria realmente diferente. Em geral, é recomendado que se aborde com cautela o nivelamento da qualidade da evidência por evidência indireta: só perdemos confiança na evidência quando há razão convincente 39 para acreditar que a população de interesse é biologicamente diferente da população testada, a ponto de mudar de forma importante o efeito do tratamento. A forma mais comum de evidência indireta é por diferenças nos desfechos de interesse. É possível que nenhum (ou poucos) estudos tenham realmente aferido o desfecho de interesse da revisão sistemática de forma apropriada ou não tenham tido o tempo adequado de acompanhamento. Outra razão para confiar menos na evidência é pelo uso de desfechos substitutos em vez de desfechos importantes para os pacientes. Raros serão os casos em que desfechos substitutos são comprovadamente bem correlacionados com desfechos clínicos importantes (um exemplo é a hemoglobina glicada para pacientes com diabetes, um marcador válido para complicações microvasculares e mortalidade), então é razoável pensar que, na maioria das vezes em que o interesse é avaliar desfecho clínico, mas desfechos substitutos forem utilizados, a evidência deve ser nivelada para baixo em pelo menos um ponto. Um exemplo de evidência indireta para infarto agudo do miocárdio (IAM) seria calcificação das coronárias; e evidência muito indireta para IAM seriam marcadores do metabolismo do cálcio e fosfato. Condição Desfecho importante para o paciente Desfecho substituto Diabetes mellitus Sintomas diabéticos, internação hospitalar, complicações microvasculares Glicemia de jejum e hemoglobina glicada Hipertensão Morte cardiovascular, infarto do miocárdio Pressão arterial Doenças demenciais Capacidade funcional, comportamento, impacto negativo nos cuidadores Função cognitiva Osteoporose Fraturas Densidade mineral óssea Doença respiratória crônica Qualidade de vida, exacerbações, mortalidade Função pulmonar, capacidade física Doença cardiovascular Eventos vasculares, mortalidade Lipidograma Síndrome da Angústia Respiratória Aguda (SARA) Mortalidade Oxigenação 40 Outra forma de evidência indireta são comparações indiretas, tipicamente vistas em metanálises em rede. A ideia de uma metanálise em rede é poder comparar, indiretamente, duas intervenções que não foram comparadas entre si em estudos primários. Por exemplo, se existem alguns estudos que compararam intervenção A contra intervenção B e outros estudos compararam intervenção B contra intervenção C, mas nenhum estudocomparou diretamente intervenção A contra intervenção C, é possível que uma metanálise em rede tente estimar como a intervenção A se compara com a intervenção C de forma indireta. Questão clínica de interesse Fator indireto Oseltamivir para profilaxia de gripe aviária causada por vírus influenza A Diferença na população: ensaios clínicos randomizados de oseltamivir existem apenas para gripe comum, não gripe aviária Rastreio por colonoscopia para prevenção de mortalidade causada por câncer colorretal Diferença na intervenção: ECRs demonstrando benefício de pesquisa de sangue oculto nas fezes podem servir de evidência indireta para colonoscopia Sevelamer vs. Ligadores de fosfato baseados em cálcio para eventos vasculares em insuficiência renal crônica Diferença no desfecho: reduzir a carga de cálcio- fosfato teoricamente reduz calcificação vascular, que teoricamente reduz eventos vasculares Escolha de antidepressivo Comparação indireta: alguns antidepressivos foram comparados diretamente contra outros, mas vários não foram 41 Viés de publicação O fenômeno ocorre quando certos estudos não são publicados por causa da direção, força ou significância dos próprios resultados – o que jamais deveria acontecer. A decisão de publicar ou não estudos científicos (seja por parte dos próprios autores quanto por parte dos editores de revistas científicas) não deveria depender do resultado produzido, mas apenas da validade de seus métodos e relevância do seu assunto e/ou questão clínica. Infelizmente, a realidade é que a literatura científica publicada é uma amostra bastante enviesada da realidade: os pesquisadores têm grandes incentivos (e pressões) para publicar artigos científicos, e as próprias revistas e editores também são recompensados por publicar resultados interessantes, inovadores e significativos. A maioria dos estudos “negativos” acabam sendo engavetados ou publicados de forma mais obscura (em formato de teses ou resumos de congressos) e, por conta disto, são omitidos da literatura científica e das revisões sistemáticas. Os estudos não obtidos nas buscas podem sistematicamente estimar que o efeito da intervenção seja maior ou menor do que o efeito observado em uma metanálise de estudos publicados. Os resultados de uma revisão sistemática serão enviesados se a amostra de estudos incluídos não for representativa de todos os estudos conduzidos sobre aquela determinada questão clínica – sejam eles publicados ou não. Um fenômeno interessante que pode levar a viés de publicação é o “lag bias”. Esse fenômeno ocorre quando “revisões precoce” são conduzidas logo no surgimento de alguma condição clínica ou intervenção nova (exemplo mais atual: COVID-19 e seus infinitos tratamentos reposicionados). Após apenas poucos e pequenos estudos terem sido conduzidos, uma revisão sistemática neste momento provavelmente estimará um efeito final enviesado e não representativo da realidade. Depois 42 de alguns meses, outras revisões terão de ser conduzidas para atualizar a síntese de evidência incorporando os dados de ensaios clínicos maiores e mais confiáveis que demoraram mais tempo até serem conduzidos e publicados. Uma das principais suspeitas de viés de publicação, além de revisões sistemáticas de estudos pequenos, é quando a maioria dos estudos publicados são pequenos e financiados pela indústria. Quando este for o caso, pode ser razoável reduzir um ponto na qualidade da evidência da metanálise. Uma revisão sistemática bem conduzida lança mão de diversas estratégias para minimizar o risco de viés de publicação: ● Uso de diversas bases bibliográficas para a pesquisa por artigos relevantes: para avaliar este ponto, verifique se a revisão sistemática utilizou uma busca completa e bem estruturada pela literatura, além das bases que foram utilizadas; ● Busca pela literatura cinzenta: verifique se os autores descrevem se buscaram por artigos não publicados e como esse processo foi feito; ● Consulta com bibliotecários e outros profissionais: os autores podem descrever que consultaram outras fontes e adotaram outras estratégias para identificar trabalhos não publicados; ● Não realizar buscas com limitações desnecessárias (ex: linguagem e data de publicação): similar ao primeiro ponto, é importante verificar se a estratégia de busca foi adequada e permitiu grande sensibilidade; ● Inspeção visual do gráfico do funil (funnel plot); ● Teste de regressão de Egger. 43 Um critério importante utilizado para investigar viés de publicação é baseado no uso dos resultados dos próprios estudos através de dois métodos distintos: um teste de regressão e um gráfico de funil. Gráfico de funil (funnel plot) e teste de Egger A leitura do gráfico de funil funciona da seguinte maneira: os círculos representam as estimativas pontuais de cada estudo incluído na metanálise. O padrão de distribuição, idealmente, deveria lembrar um funil invertido em que os estudos (círculos) maiores e com mais poder estatístico estão no topo e os estudos menores estão na base. Além disso, a tendência é que os estudos maiores estejam mais próximos do centro do funil (ou seja, próximos do efeito final encontrado na metanálise) enquanto espera-se que os estudos menores se espalhem ao longo eixo X de forma homogênea, tanto para o lado direito quanto para o lado esquerdo. Dessa forma, alguns estudos pequenos estariam subestimando e outros superestimando o efeito real do tratamento, enquanto os estudos grandes tendem a estimar algo mais próximo do efeito real (ou mais próximo do efeito final encontrado pela metanálise, no centro do funil). Idealmente, espera-se que o gráfico seja simétrico e que varie mais 44 na base (devido a erro aleatório, pois os estudos da base são menores) do que no topo. Quando o gráfico não é simétrico, podemos interpretar isso como evidência de viés de publicação. Por exemplo, na imagem acima, era esperado que um apanhado de estudos fosse ocupar o lado direito do funil (estimando malefício para a intervenção). No entanto, há um buraco exatamente onde ficariam os estudos pequenos que demonstrariam efeito negativo da intervenção. É importante notar que assimetria no funnel plot não deve ser interpretada como evidência inequívoca de viés de publicação, pois existem outras explicações para essa assimetria. Por exemplo, se os estudos pequenos sofrem de problemas metodológicos que levam a resultados sistematicamente enviesados para uma direção em particular, então a assimetria no funnel plot pode ser explicada pelo fato de estudos pequenos estarem superestimando o efeito da intervenção ao passo que os estudos maiores não sofrem deste problema, mesmo sem haver viés de publicação. Outra explicação pode ser pelo fato de que estudos pequenos selecionaram amostras mais restritas, específicas e homogêneas. Essa amostra mais restrita pode ter sido mais responsiva ao tratamento por alguma razão, o que fez com que os estudos pequenos sistematicamente estimassem maior benefício do que os estudos grandes. Em estudos que requerem habilidade por parte de quem aplica as intervenções, é possível também que estudos pequenos consigam gerar melhores resultados do que estudos grandes justamente por aplicarem as intervenções com mais cuidado ou atenção. Por fim, ainda, o funnel plot pode ser assimétrico simplesmente por fruto do acaso. Outra forma comum de investigar viés de publicação é a partir da regressão de Egger, em que a significância estatística do teste pode servir de evidência de que existe viés de publicação. O teste de Egger é uma regressão linear dos efeitos do tratamento sobre seus desvios padrões, 45 ponderado pelo inverso da variância (ou seja, seu “peso” na metanálise). Existem limitações importantes em relação ao uso do teste de Egger e de funnel plots emtermos de poder estatístico. Por essa razão, não são recomendáveis em metanálises de menos de 10 estudos – um ponto de corte definido arbitrariamente. Apesar do enfoque em estudos randomizados neste eBook, é importante notar que o risco de viés de publicação é muito maior em metanálises de estudos observacionais, especialmente pequenos estudos observacionais e estudos retrospectivos conduzidos a partir de dados já coletados previamente. Isso acontece porque a maioria dos estudos observacionais dessa natureza não segue um planejamento pré-registrado com objetivo claramente determinado, critérios de inclusão e exclusão, definições de exposição e desfechos, e análise estatística definidos a priori. Os investigadores, nesses casos, têm um alto grau de liberdade para manipular o banco de dados e formas de análise e apresentação de dados com opções virtualmente infinitas, de maneira que um resultado positivo possa ser produzido. É quase impossível saber, então, se os estudos observacionais produzidos são uma amostra representativa da realidade ou simplesmente uma seleção de estudos produzidos justamente para “dar certo”. Risco de viés de ensaios clínicos randomizados Qualidade da evidência Objeto de estudo Estudos primários Corpo de evidência (agregado de estudos individuais para uma PICO) Critérios Processo de randomização Desvio da intervenção pretendida Dados faltantes do desfecho Aferição do desfecho Seleção do resultado relatado Risco de viés Imprecisão Heterogeneidade Evidência indireta Viés de publicação Dose-resposta Tamanho de efeito Fatores confundidores Sinônimos Limitações do estudo (ou validade interna) Nível de evidência Confiança na evidência Na prática, o sistema GRADE é aplicado em revisões sistemáticas (com ou sem metanálise) e em guidelines pelos próprios autores, e os julgamentos são apresentados em tabelas. Para cada desfecho, a qualidade da evidência é avaliada e julgada de acordo com os critérios da tabela anterior. Dessa forma, é possível que em uma mesma metanálise com os mesmos estudos haja alta qualidade de evidência para um desfecho e baixa qualidade de evidência para outro! Caso os autores do trabalho não tenham avaliado a qualidade da evidência, o leitor não tem informação suficiente para acreditar nos resultados apresentados e muito menos tomar decisões na vida real: é impossível saber se um medicamento que aparentemente tem benefício deveria ser utilizado ou não sem conhecer a qualidade da evidência por trás do resultado apresentado. Por isso, é recomendado que sempre busquemos por revisões sistemáticas de alta qualidade, que tenham conduzido uma avaliação da qualidade da evidência de forma transparente e de acordo com as orientações do GRADE Working Group. Para a nossa questão clínica de ômega-3, temos uma revisão sistemática recente, completa e de alto rigor 48 metodológico que consegue nos informar a estimativa de efeito e o quanto podemos confiar na evidência disponível. Omega-3, omega-6, and total dietary polyunsaturated fat for prevention and treatment of type 2 diabetes mellitus: systematic review and meta- analysis of randomised controlled trials (doi: 10.1136/bmj.l4697) O que essa metanálise nos apresenta? Como a ideia aqui é avaliar a qualidade da evidência, vamos nos ater à confiabilidade nos resultados que ela demonstra. No entanto, é fundamental que o leitor se atente à credibilidade de qualquer revisão sistemática e metanálise. Apesar da metanálise ser um tipo de estudo que nos apresenta o corpo de evidência inteiro, ela também é um estudo individual e, por isso, deve ter sua validade interna julgada. Ao avaliar a credibilidade de uma revisão sistemática, então, avaliamos sua validade interna, de acordo os seguintes critérios: 49 ● A revisão formulou uma questão de pesquisa coerente? ● A busca por estudos relevantes foi abrangente? ● A seleção e avaliação da qualidade dos estudos foi reprodutível? ● A revisão apresentou resultados prontos para aplicabilidade clínica? ● Os autores julgaram e relataram a confiança nas estimativas de efeito (sistema GRADE)? ● O quão sensíveis são os resultados? Os achados são robustos frente às decisões que foram tomadas no processo de obtenção dos resultados? De volta à metanálise do BMJ. O desfecho primário foi incidência de diabetes tipo II, e os resultados foram divididos de acordo com o tipo de intervenção (ômega-3 de cadeia longa ou ácido graxo alfa-linolênico, ALA). Na próxima página, vemos o sumário dos achados da metanálise, com destaque para incidência de DM2 de acordo com essas duas intervenções. 50 51 Na primeira linha, que diz respeito ao efeito de ômega-3 de cadeia longa na incidência de diabetes tipo II, temos as seguintes informações: ● Risco absoluto para diabetes no grupo controle (baixa ingestão de ômega-3): 37 casos a cada 1000 pessoas, ou incidência de 3,7%; ● Risco absoluto para diabetes no grupo intervenção (alta ingestão de ômega-3 de cadeia longa): 37 casos a cada 1000 pessoas, ou incidência de 3,7%, com intervalo de confiança de 3,2 a 4,4%; ● Risco relativo: proporção da incidência de casos no grupo intervenção comparado ao grupo controle, com risco relativo de 1.0 (95%IC 0.85 a 1.17). Ou seja, não há associação estatisticamente significativa; ● Número de participantes e estudos incluídos nessa análise: 58.643 participantes dentre 17 ensaios clínicos randomizados; ● Confiança na evidência: é a qualidade da evidência, julgada pelo sistema GRADE. Para este desfecho, a qualidade foi julgada como “moderada”, pois não havia sérios problemas que nos fizessem crer que devêssemos confiar menos nesse resultado. A única razão pela qual esse resultado não é de “alto nível” (altamente confiável) é pela imprecisão: apesar de não haver associação estatisticamente significativa, o intervalo de confiança abrange efeitos clinicamente relevantes, tanto para proteção quanto para malefício. Note que, sobrescrito ao “MODERATE”, temos cinco letrinhas do ‘a’ ao ‘e’. No rodapé da tabela, cada uma dessas letrinhas corresponde a um dos cinco critérios que poderiam reduzir a confiança na evidência: a) risco de viés, b) inconsistência, c) imprecisão, d) evidência indireta, e) viés de publicação. O raciocínio por trás do julgamento dos autores para cada critério sempre deve estar explicitamente descrito no artigo e, em geral, isso acontece no rodapé da tabela do sumário dos achados mesmo! 52 A partir desses resultados, podemos afirmar que ômega-3 de cadeia longa provavelmente tem pouco ou nenhum efeito na incidência de diabetes tipo 2, com base em resultados de moderada qualidade produzidos por uma metanálise de 17 ensaios clínicos randomizados. Nós estamos moderadamente confiantes que ômega-3 tem pouco ou nenhum efeito na prevenção de diabetes tipo II: o verdadeiro efeito de ômega-3 muito provavelmente está próximo ao efeito estimado por essa metanálise, mas há possibilidade que ele seja diferente. Você pode se perguntar: e quando não há uma boa revisão sistemática sobre o meu assunto de interesse? Pior: e quando sequer houver uma revisão sistemática? Nesse momento, nosso trabalho fica mais difícil (mas não impossível). Primeiro, uma metanálise que não te informa o grau da qualidade da evidência te obriga a avaliar a qualidade da evidência por conta própria. Você, como leitor, é capaz de avaliar os cinco critérios que poderiam reduzir a sua confiança na evidência, pois todas as informações necessárias para esse julgamento estão apresentadas na revisão sistemática/metanálise. Quando a revisão é desatualizada, de baixa validade interna ou simplesmente não existe revisão, o nosso trabalho é mais difícil: nesse momento, precisamos encontrar os estudos primários por conta própria; avaliar a qualidade dos estudos primários(a partir dos métodos de avaliação de risco de viés e validade interna que vamos abordar nas próximas seções do eBook) e daí sim julgar a qualidade do agregado de evidência considerando todos os estudos disponíveis, a partir dos cinco critérios. Perceba como a sua habilidade em avaliar a qualidade dos estudos e a qualidade da evidência não é útil apenas para ler e entender uma revisão sistemática com metanálise, mas também para nortear a sua própria confiança na evidência. Dominando esses aspectos, você consegue identificar a melhor evidência disponível; reconhecer quais estudos são mais 53 confiáveis pela validade interna de cada um; entender os resultados que o corpo de evidência estão te sugerindo (por exemplo, a literatura sugere que ômega-3 não seja útil para proteger contra o desenvolvimento de diabetes tipo II) e entender o quão confiáveis esses resultados são. Com tudo isso em mente, você tem informações suficientes sobre a evidência disponível para auxiliar na sua tomada de decisão na vida real. No entanto, como veremos para o final do eBook, a tomada de decisão não depende apenas da qualidade da evidência, mas também de diversos outros aspectos (como valores e preferências, recursos e balanço entre benefício e malefício). 54 CAPÍTULO III. Risco de viés em ensaios clínicos randomizados Muitas vezes especialistas comentam sobre estudos apontando para problemas altamente específicos que poderiam enviesar completamente os resultados do estudo. Pode ser um detalhe na seleção ou alocação de indivíduos, ou na aferição dos dados, ou uma análise inapropriada que gerou os resultados apresentados pelo estudo. Isso sempre me causou uma aflição muito grande: parecia que existiam milhares de vieses diferentes, e nem sempre era claro como esses vieses poderiam ser identificados nos estudos. De fato, existem centenas de vieses diferentes (dica: eles podem ser facilmente visualizados no site catalogofbias.org), que se enquadram dentro de alguma dessas três grandes categorias de tipos de vieses abaixo: Viés de seleção Os grupos comparados são diferentes em outras características que afetam no desfecho, além do fator em estudo sendo avaliado Viés de informação Ocorre quando o método de aferição é diferente entre os grupos de participantes Viés de confusão Dois fatores estão associados (“viajam juntos”) e o efeito de um é confundido com o outro, ou distorcido pelo outro https://catalogofbias.org/ 55 Felizmente, existem métodos sistemáticos para avaliar os principais problemas de cada delineamento de estudo. Chamamos isso de “avaliação do risco de viés”, que responde uma simples, mas importantíssima pergunta: até que ponto o resultado do estudo é reflexo de uma estimativa não- enviesada da realidade? Quanto mais graves forem as limitações do estudo, mais provável que o resultado apresentado seja uma falsa representação da realidade, o que reduz nossa confiança no resultado final. O intuito é esclarecer quais são os principais problemas que podem existir em ensaios clínicos randomizados e descrevê-los brevemente. Dessa forma, criaremos uma organização mental mais aperfeiçoada para começar a ler os estudos de forma mais crítica. A imagem abaixo ilustra os cinco principais domínios que podem criar vieses nos ensaios clínicos randomizados. A estrutura básica para avaliar o risco de viés de estudos randomizados é organizada em cinco domínios, e cada domínio é avaliado de acordo com diversos questionamentos. A tabela na próxima página resume o que cada domínio investiga e o que você deve perguntar, fundamentalmente, para identificar se 1) existem limitações no estudo? e 2) as limitações afetam de forma importante no resultado final? 56 Domínio Explicação Como avaliar? Quando é um problema? Viés advindo do processo de randomização Os investigadores que recrutam os pacientes podem estar cientes do grupo em que cada participante será alocado. O prognóstico do paciente pode (conscientemente ou não) influenciar em atitudes do investigador que podem fazer o participante ser alocado a determinado grupo, criando um viés sistemático a favor (ou contra) uma intervenção por desbalanço em fatores prognósticos. Primeiro, veja se o relato do método de randomização e sigilo de alocação estão completos e adequados. Em seguida, verifique, nas tabelas do estudo, se os grupos comparados são similares entre si em tamanho e em características na linha de base (ou seja, antes do início do tratamento em si). Se existem muitas discrepâncias de grande magnitude entre os grupos sendo comparados, perdemos confiança no resultado final, principalmente quando as análises não são ajustadas para fatores prognósticos reconhecidamente importantes (exemplo: idade é um fator prognóstico importante para morte cardiovascular). Viés devido a desvios das intervenções pretendidas É possível que os investigadores apliquem intervenções adicionais, inconsistente com o protocolo de estudo; ou falhem em implementar as intervenções conforme planejadas; ou, ainda, os participantes tenham má aderência às intervenções. Houve cegamento nesse estudo? Quem estava cegado? A falta de cegamento pode ter influenciado nas intervenções aplicadas? Se sim, é plausível que tenha afetado um grupo diferentemente do outro? Os investigadores utilizaram análise por intenção de tratar ou por protocolo? Quando existem desvios das intervenções e esses desvios não são balanceados entre os grupos, é provável que o efeito final do tratamento esteja enviesado. Ainda, quando o objetivo é informar efetividade (e não eficácia), o correto é analisar por intenção de tratar, e não por protocolo; caso contrário, o efeito é superestimado. Viés devido a dados faltantes de desfechos Os resultados de um estudo podem estar enviesados quando há perda de dados do desfecho sendo investigado. Isso pode acontecer por perda de acompanhamento ou desistências; pacientes não virem à visita para medir dados; paciente vir à visita, mas não informar/permitir aferição de dados, dentre outras razões. Os dados para seu desfecho de interesse estão disponíveis para todos, ou quase todos, os participantes randomizados? É provável que esses dados faltantes tenham faltado por algum fator prognóstico (ex: pessoas que mais desistem de uma intervenção são as de pior prognóstico)? Quando o mecanismo de não-resposta (ou seja, o motivo pelo qual os dados estão faltando) está associado ao desfecho. Se o motivo de haver dados faltantes também causa pior desfecho, por exemplo, é possível que o efeito final esteja enviesado para melhor. Um medicamento que causa sintomas graves e desistência/baixo retorno às visitas clínicas vai causar perda de dados “ruins”, e selecionar pacientes que estão se dando bem com o tratamento, enviesando para benefício. Viés na aferição dos desfechos Existem dois tipos importantes de erro de aferição: não-diferencial e diferencial. Erros não-diferenciais não estão relacionados às intervenções, e erros diferenciais estão. Estes são erros sistemáticos que podem enviesar o resultado final. O método de aferir o desfecho foi apropriado? É possível que a aferição do desfecho tenha sido diferente entre os grupos? Isso é mais provável quando os avaliadores dos desfechos não estão cegados, e quando é plausível que a aferição do desfecho seja influenciada pelo conhecimento da alocação dos grupos (em geral, desfechos menos objetivos são mais propensos a este viés). Principalmente quando não há cegamento por parte dos avaliadores dos desfechos, e quando é possível que isso introduza um desbalanço na aferição. Exemplo: cefaleia mais intensa pode acontecer em participantes recebendo intervenção versus placebo. As cefaleias neste grupo podem fazer com que os participantes façam mais exames (ex: ressonância magnética),e consequentemente maior diagnóstico de câncer – mesmo que o medicamento em si não cause câncer! Viés na seleção do resultado relatado O resultado apresentado no estudo pode ter sido selecionado com base na sua direção, magnitude ou significância estatística. Os investigadores podem analisar diversos desfechos de diversas formas, e selecionar o que mais convém. Primeiro, investigue o protocolo pré-registrado do estudo. Se houver discordâncias importantes, veja se há justificativa para isso, e se os autores analisaram os dados de formas não-usuais (diferente do que outros estudos geralmente fazem). Se não houver um protocolo, nossa confiança fica muito reduzida, então deve haver boa justificativa para que os investigadores apresentem aqueles dados analisados daquela forma. Quando a forma de relatar os resultados é diferente do que usualmente se esperaria para um estudo desse tipo, desconfiamos que o resultado tenha sido selecionado justamente porque foi positivo ou interessante para o investigador. Isso é mais problemático quando o desfecho poderia ser definido, relatado e analisado de múltiplas formas distintas. Por exemplo, em vez de comparar a perda de peso em quilogramas entre dois grupos, os autores criam categorias de % de perda de peso baseado em pontos de corte arbitrários. 57 CEGAMENTO: QUANDO E PARA QUÊ? doi: 10.1136/bmj.39465.451748.AD Esse estudo meta-epidemiológico avaliou 146 metanálises, incluindo 1346 ensaios clínicos randomizados, com o propósito de identificar a associação entre sigilo de alocação/cegamento e estimativa de efeito de intervenções. A ideia por trás disso é bem simples: imagina-se que estudos que não descrevem, ou descrevem pobremente como os processos de cegamento e sigilo de alocação foram conduzidos tendem a superestimar os efeitos dos tratamentos. Exemplo: dois estudos avaliando o efeito da estatina para reduzir LDL- colesterol. No estudo A, o processo de cegamento e sigilo de alocação não foram bem descritos, e no estudo B tudo foi bem detalhado. Esperamos que o estudo que não descreveu adequadamente os processos de cegamento/sigilo de alocação esteja sob maior risco de viés, pois quando os investigadores conhecem a sequência de alocação dos participantes é possível que eles direcionem participantes de melhor prognóstico para o grupo intervenção (receber estatina) e os de pior prognóstico para o grupo controle (receber placebo). Além disso, sem cegamento, é possível que o tratamento dos pacientes seja sistematicamente diferente entre os grupos: se os investigadores têm interesse no efeito de uma nova droga, é provável que o cuidado dos pacientes que estão recebendo a nova droga seja melhor do que os pacientes recebendo placebo. Isso, em tese, é reduzido (ou 58 evitado) quando utilizamos o cegamento, sigilo de alocação na randomização, e uso de placebos. Sendo assim, é plausível que os efeitos da estatina sejam superestimados no estudo A. A falta de sigilo de alocação ou cegamento é sempre problemática? A resposta para essa pergunta é: depende! Foi justamente isso que os investigadores dessa metanálise nos responderam. Nos estudos com desfechos subjetivos, existe um exagero no tamanho de efeito quando não há sigilo de alocação/cegamento, com razão de odds ratios de 0.69 (95%IC, 0.59 a 0.82) para falta de sigilo de alocação e de 0.75 (95%IC, 0.61 a 0.93) para falta de cegamento. Isso significa que os estudos sem sigilo de alocação descrito superestimam, em média, em 31% o efeito das intervenções comparado aos estudos que relatam o sigilo de alocação adequadamente. Da mesma forma, estudos sem cegamento tendem a superestimar os efeitos dos tratamentos em 25%. Em contrapartida, para desfechos objetivos (como mortalidade), a falta de cegamento ou descrição do sigilo de alocação foram pouco problemáticos, associados com pouco ou nenhum viés no efeito final, com 59 razão de odds ratios de 0.91 (95%IC, 0.80 a 1.03) para ausência de sigilo de alocação e 1.01 (95%IC, 0.92 a 1.10) para ausência de cegamento. Podemos confiar em estudos sem cegamento (open-label)? A resposta para a segunda pergunta é: podemos! Muitos ensaios clínicos randomizados importantes foram conduzidos sem cegamento e, até hoje, são utilizados como evidência forte para nortear condutas. Por exemplo, o estudo LOOK AHEAD foi capaz de demonstrar que uma intervenção mais intensiva de mudança no estilo de vida melhora uma série de parâmetros metabólicos, apneia do sono e qualidade de vida, dentre outros desfechos. Neste estudo, como a maioria dos estudos pragmáticos que avaliam o efeito de recomendação de dietas, não houve cegamento por parte dos investigadores ou dos participantes simplesmente por ser impossível: quem orienta a intervenção vai saber, por definição, o grupo em que o participante está; e o próprio participante também sabe qual dieta está recebendo. É muito diferente do que simplesmente oferecer um comprimido com princípio ativo ou placebo; nestes casos, é muito mais viável implementar cegamento a nível de investigador e participante. O detalhe para avaliar a confiabilidade de estudos sem cegamento é se questionar sobre dois aspectos: primeiro, neste estudo, a falta de cegamento poderia criar viés sistemático favorecendo algum grupo em particular? Existe razão para pensar que o fato de os investigadores conhecerem em qual grupo cada participante está, ou os participantes saberem seus próprios grupos, poderia criar desbalanços entre os dois grupos de forma a enviesar os resultados? Perceba que essa pergunta é fundamental, pois a falta de cegamento só é um problema quando ela causa desvios nas intervenções pretendidas. Por exemplo, estudos de acupuntura para tratamento da dor tendem a encontrar benefício quando acupuntura é comparada a nenhum tratamento e sem cegamento, mas não encontram 60 benefício importante quando a comparação é com procedimentos sham (uma espécie de controle por placebo, em que o participante acredita que algo está sendo feito, mas na realidade não está) em que existe cegamento. Voltando ao LOOK AHEAD, temos aqui um exemplo de como um estudo open-label (ou seja, sem cegamento dos participantes ou dos investigadores aplicando as intervenções) minimizou o risco de viés: os avaliadores dos desfechos foram cegados! Isso significa que os encarregados de aferir todos os desfechos dos participantes do estudo (isso inclui olhar mortalidade, infarto, necessidade de hospitalização por angina, medir pressão arterial, medir peso corporal, etc.) não sabiam em qual grupo cada participante estava. Como isso foi relatado: “The trial was not blinded, but clinical assessors and end-point adjudicators were unaware of study-group assignments” Isso é extremamente valioso, e está contemplado no domínio de “viés na aferição dos desfechos”. Quando se implementa cegamento dos avaliadores de desfechos, o risco de viés é reduzido substancialmente, e isso deixa de ser um problema aos olhos do leitor. Finalmente, é sempre bom lembrar que a tentativa de cegamento/sigilo de alocação não necessariamente garante, na prática, que o cegamento vai funcionar. Em muitos estudos que investigam medicamentos, os efeitos colaterais dos medicamentos podem fazer com que o participante perceba que está recebendo a intervenção. Isso só seria contornado caso o grupo placebo recebesse um “placebo ativo” – ou seja, um composto que cause sintomas similares ao medicamento oferecido ao grupo intervenção. Além disso, quando o sigilo de alocação não foi bem feito durante a randomização, é possível que o conhecimento da alocação (para qual grupo cada participante foi randomizado) por parte dos investigadores 61 influencie no tratamento de forma diferente entre os grupos, consequentemente gerando resultados potencialmente enviesados. Como você pôde perceber,existem vários níveis de cegamento. A literatura científica ainda faz uso predominante de nomenclaturas que simplificam o relato do cegamento, quando dizem que o estudo foi “single- blind”, “double-blind” ou “triple-blind”. Na verdade, apesar de podermos deduzir quem foi cegado, é impossível ter certeza de quem estava cegado quando os autores apenas descrevem isso em termos gerais apenas. Normalmente, assumimos que um estudo double-blind fez cegamento para os investigadores que aplicaram a intervenção e os participantes – mas isso exige uma suposição. O ideal é que os autores especifiquem o nível de cegamento junto às partes que estavam cegadas. Por exemplo, em vez de escrever triple-blind, os autores devem escrever “os participantes, os investigadores encarregados de aplicar as intervenções e os avaliadores dos desfechos estavam cegados”. O processo de randomização foi adequado? O uso da randomização é a “varinha mágica” dos estudos científicos. É com ela que a gente garante que, dado tamanho amostral adequado, ambos grupos terão prognóstico idêntico se a gente não intervir em absolutamente nada. Isso significa que dois grupos criados de forma aleatória (através da randomização, ou “aleatorização”) terão os mesmos resultados em um estudo que não aplicou intervenção alguma. Sendo assim, fica nítido que, a partir do momento que nós adicionarmos uma intervenção em um grupo e não adicionarmos essa 62 intervenção no outro grupo, a diferença final entre os grupos será atribuível apenas à intervenção em estudo. Quando um estudo relata o processo de randomização de forma completa, tendemos a confiar mais na similaridade prognóstica entre os grupos estudados. Abaixo, vemos dois exemplos de descrições adequadas de randomização. Exemplo 1: randomização simples em 1:1 “We generated the two comparison groups using simple randomization, with an equal allocation ratio, by referring to a table of random numbers.” Exemplo 2: randomização por blocos aleatórios em 1:1 “We used blocked randomization to form the allocation list for the two comparison groups. We used a computer random number generator to select random permuted blocks with a block size of eight and an equal allocation ratio.” 63 O que ocorre em muitos artigos é o seguinte: os autores descrevem apenas que o estudo foi “randomizado”. E só. Às vezes, até dizem “nós utilizamos um método de alocação aleatória”, e outras vezes essa informação consta apenas no título e/ou no resumo. Isso não é suficiente para deixar o leitor confiante de que o estudo foi realmente randomizado. Como identificar problemas no processo de randomização? Uma ótima estratégia para avaliar se o processo de randomização foi problemático ou não é avaliando os valores na linha de base para cada grupo. O que isso significa? Simples: vamos olhar para a tabela 1 do estudo, que descreve as características clínicas e gerais dos participantes de cada grupo (dica: se o estudo não apresenta uma tabela dessa, nossa confiança nos resultados apresentados é drasticamente reduzida), e vamos comparar os dois grupos em relação aos valores de diversas variáveis no início do estudo. Caso haja diferenças claramente além do que seria esperado que fossem haver ao acaso, podemos saber que alguma coisa aconteceu durante a randomização, pois os grupos não começaram iguais! Talvez os grupos sejam desiguais por acaso (mesmo com randomização, isso é possível), talvez o processo de alocação tenha sido subvertido. Com desbalanços em variáveis importantes, é possível que um grupo tenha prognóstico muito melhor do que outro, e o resultado final poderá ter sido enviesado justamente por essas diferenças de fatores prognósticos, e não necessariamente ser reflexo do efeito da intervenção sendo testada. 64 A imagem anterior apresenta um exemplo (exagerado) de diferenças grandes em diversos fatores prognósticos importantes. Fica evidente, aqui, que o grupo intervenção tem pior prognóstico: é mais velho, tem maior média de IMC, tem mais homens, maior frequência de tabagistas e pior perfil lipídico e controle pressórico. Se o desfecho em estudo for fortemente impactado por esses fatores, podemos ter certeza que o grupo intervenção já está em grande desvantagem! Isso significa que o efeito benéfico do tratamento, se existir, provavelmente será subestimado ou completamente anulado. Diferenças drásticas entre os grupos no início do estudo podem ter ocorrido por uma tentativa deliberada dos autores de subverter o processo de randomização: eles podem ter alocado pacientes de melhor (ou pior) prognóstico para um grupo específico. No entanto, isso também pode ter acontecido por ações não-intencionais ou erros que ocorreram simplesmente porque o estudo não foi bem desenhado para se resguardar desses vieses. Ao avaliar a tabela 1 do estudo, o ideal é que não haja diferenças clinicamente relevantes nos principais fatores prognósticos para o desfecho sendo avaliado. Por exemplo, se o desfecho é “evento cardiovascular”, não podemos aceitar que logo no início do estudo haja diferenças importantes em LDL-colesterol, idade, IMC ou frequência de tabagismo. Esses são fatores muito importantes que causam evento cardiovascular, e um desbalanço entre grupos nestes fatores poderia ser responsável por enviesar de forma importante os resultados finais, de maneira que não poderíamos confiar se a diferença no risco de evento cardiovascular entre os dois grupos foi realmente por causa da intervenção aplicada ou por causa dos diversos fatores de risco desbalanceados entre grupos. Da mesma forma, desbalanços em fatores prognósticos podem enviesar um resultado para a nulidade: considerando que o grupo que 65 começou pior era o grupo intervenção e o efeito do medicamento realmente existe, e reduziria o risco de eventos cardiovasculares em 15%. No entanto, como o grupo intervenção começou muito pior por diversos fatores prognósticos, o resultado final foi nulo (RR = 0.98; 95%IC, 0.92 – 1.05). Isso aconteceu justamente porque o grupo intervenção estava fadado a piores desfechos simplesmente por ter tido pior prognóstico inicial do que o grupo placebo. O efeito desses fatores aumentou tanto o risco de eventos no grupo intervenção que ele completamente mascarou o benefício do medicamento. Uma comparação mais justa, em que ambos grupos fossem similares em relação aos diversos fatores de risco no início do estudo, poderia ter demonstrado o real efeito do medicamento (por exemplo, RR = 0.85; 95%IC, 0.79 – 0.92). Exemplo 2 Ensaio clínico randomizado sobre o efeito de esteroides anabolizantes em pacientes adultos com doença pulmonar obstrutiva crônica (DPOC). Trata-se de um estudo pequeno, que descreve o processo de randomização da seguinte maneira: “The patients were randomly allocated into two groups (eight patients/group): patients receiving placebo injections and patients receiving anabolic steroid (nandrolone decanoate) treatment. The total duration of the study was 16 weeks. Both anabolic steroid and placebo were administered by deep intramuscular injection in a double-blind fashion every 2 weeks for the entire duration of the study” 66 O processo de randomização não foi detalhadamente relatado: os autores simplesmente dizem que os participantes foram “aleatoriamente alocados em dois grupos”. Além disso, temos um problema adicional: o tamanho amostral é muito pequeno (apenas 16 participantes no total, 8 em cada grupo). Isso significa que a chance de criar grupos dissimilares em relação a fatores prognósticos é muito grande! Nesses casos, os autores poderiam ter lançado mão de uma poderosa estratégia: a randomização estratificada. Esse tipo de randomização garante que os grupos sejam similares em relação a um fator prognóstico importante e outras covariáveis a ele correlacionadas.Suponhamos que idade ou peso corporal inicial sejam fatores prognósticos altamente relevantes para os desfechos do estudo (massa muscular e capacidade funcional). Seria interessante se pudéssemos escolher uma ou duas variáveis para garantir que sejam iguais entre os grupos, não seria? É justamente isso que a randomização por estratificação faz. Por exemplo, poderíamos separar os participantes acima de 60 anos e os participantes abaixo de 60 anos em dois grupos, e em seguida realizar a randomização simples de cada uma dessas categorias para cada um dos grupos em estudo. Isso reduz muito a chance de diferenças importantes em idade entre os dois grupos. De brinde, podemos até reduzir a chance de que outros fatores prognósticos que também estão associados à idade sejam diferentes entre os grupos! A imagem abaixo ilustra melhor o esquema da randomização por estratificação, comparado à randomização simples. 67 O que aconteceu aqui foi o seguinte: na randomização simples, poderíamos ter, por acaso, criado dois grupos muito dissimilares em relação à idade. Para reduzir o risco de isso ocorrer, primeiro separamos a amostra entre os mais velhos e os menos velhos com um ponto de corte arbitrário de 65 anos de idade. Em seguida, realizamos duas randomizações simples: 9 indivíduos acima de 65 anos são randomizados para intervenção ou controle; e 7 participantes abaixo de 65 anos são randomizados para intervenção ou controle. No final, os grupos intervenção e controle ficaram similares entre si em relação à idade, conforme ilustrado na tabela abaixo (valores fictícios): 68 Vejamos agora o que aconteceu de fato no estudo dos esteroides para DPOC. A tabela ao lado descreve as características na linha de base para ambos grupos (controle e intervenção). É evidente que houve uma grande discrepância entre grupos em relação a diversos fatores prognósticos importantes: o grupo intervenção era mais velho, tinha melhor volume expiratório forçado, mais peso corporal e melhor capacidade funcional. O grupo intervenção era um grupo sistematicamente mais saudável do que o grupo controle, com melhores fatores prognósticos. Nesse caso, a intervenção (nandrolona) não foi capaz de melhorar os desfechos avaliados e, por isso, o medicamento foi considerado ineficaz. Mas será que podemos dizer que o resultado final sem diferença entre grupos ocorreu porque a intervenção realmente não tem efeito, ou por outras razões? Eu, particularmente, consigo enxergar razões pelas quais o grupo intervenção não se favoreceria mais do que placebo recebendo um esteroide anabolizante: o grupo intervenção já é mais saudável e de melhor prognóstico; logo, o potencial para esse grupo melhorar ainda mais durante o estudo seria muito pequeno, quase nulo. Na realidade, a tendência deste grupo é sofrer com regressão à média, e piorar espontaneamente ao longo do tempo. Isso significa que os esteroides poderiam até causar um pequeno a moderado benefício, mas isso seria mascarado pelo fato de os participantes terem pouco potencial de melhora na linha de base somado a uma possível regressão à média. 69 Além disso, os participantes no grupo placebo tendem a melhorar espontaneamente simplesmente porque eram inicialmente de pior prognóstico, o que enviesa mais ainda os resultados a favor da nulidade. Se o grupo placebo começa com performance, peso corporal e capacidade respiratória abaixo da média, a tendência é que, por regressão à média, os participantes melhorem espontaneamente simplesmente com o tratamento usual e com o passar do tempo. Temos aqui um cenário em que: o controle estava pior do que a média, potencialmente regredindo à média (melhorando espontaneamente); e o grupo intervenção estava melhor do que a média, tendo pouca oportunidade para melhorar e potencialmente regredindo à média (piorando espontaneamente). O leitor mais familiarizado com o tema poderia, ainda, questionar se faz algum sentido testar o uso isolado de esteroides para pacientes com DPOC sem uma co-intervenção de exercício ou fisioterapia. É plausível que apenas o medicamento seja suficiente para causar benefício, sem exercício associado, nesse tipo de paciente? Infelizmente, a dura realidade é que este é mais um estudo inconclusivo na literatura científica. Ele não nos dá confiança alguma para acreditar nos resultados finais, e terminamos de ler o estudo com a mesma dúvida que começamos: será que nandrolona ajuda pacientes com DPOC? 70 CAPÍTULO IV. Ameaças à validade Há cerca de 50 anos, Campbell e Stanley elaboraram um super catálogo de ameaças à validade, descrevendo razões pelas quais estudos experimentais poderiam falhar em demonstrar resultados verdadeiros. Esse conceito dá luz a quatro tipos de validade: ● Validade interna: até que ponto a associação encontrada no estudo corresponde a uma relação verdadeira entre exposição e desfecho? ● Validade da conclusão estatística: uso apropriado de métodos estatísticos para avaliar a relação entre as variáveis sob estudo. ● Validade de construto: até que ponto as variáveis mensuradas capturam os conceitos que os autores tiveram intenção em capturar com essas medidas? ● Validade externa: até que ponto os resultados desse estudo podem ser generalizados? AMEAÇAS À VALIDADE INTERNA Quando avaliamos qualquer estudo que queira estabelecer uma relação entre duas variáveis (por exemplo, associação entre consumo de peixe e redução de morte cardiovascular), precisamos sempre questionar: existem outras explicações que poderiam explicar essa aparente associação encontrada no estudo? Cada tipo de validade possui uma série de ameaças à sua respectiva validade, que vão ficar expostas mais adiante nas tabelas desta seção do livro. A validade interna é provavelmente o tipo de validade que as pessoas mais se preocupam, e a ameaça mais frequente é o viés de confundimento (uma espécie de “viés de seleção”). O viés de confundimento é apenas uma das nove ameaças à validade interna de um estudo, conforme exposto na tabela da próxima página. 71 Ameaças à Validade Interna Nome da ameaça Definição Temporalidade incerta Não é claro se o desfecho ou exposição ocorreu primeiro, o que pode causar confusão entre qual variável é causa e qual é consequência Seleção Diferenças sistemáticas nas características dos indivíduos podem afetar o desfecho além da exposição (ou intervenção) de interesse, o que pode criar associações confundidas Confusão por eventos concorrentes Eventos ocorrendo concorrentemente com a exposição podem ser os verdadeiros responsáveis por causar os desfechos, o que pode ser confundido com um efeito causal da exposição Maturação (ou história natural) Mudanças que ocorrem naturalmente ao longo do tempo podem ser confundidas com um efeito da exposição, fazendo parecer que a exposição causou (ou contribuiu) para o desfecho Regressão à média Quando os pacientes são selecionados para entrar no estudo com base em valores extremos (ex: IMC > 40, P.A > 140, HDL < 25), esses pacientes naturalmente vão ter valores menos extremos em medidas subsequentes, fazendo com que melhorem espontaneamente, e isso pode ser confundido com um efeito da exposição/intervenção Testagem A própria aferição do desfecho pode influenciar no prognóstico de forma que o paciente melhore, e isso pode ser confundido com o efeito de uma intervenção (ex: o ato de pesar o paciente pode motivá-lo e contribuir para mais perda de peso, a despeito da intervenção que está sendo aplicada). Similar ao “efeito Hawthorne”. Instrumentação A forma de medir o desfecho pode mudar, ao longo do tempo ou conforme outras condições, o que poderia ser confundido com um efeito de uma exposição (ex: critério diagnóstico de uma doença pode mudar, aumentando a sensibilidade e o número de pessoas identificadas como doentes; esseaumento poderia ser atribuído a uma exposição sem relação direta com o desenvolvimento da doença) Atrição Falta de dados por ausência de aferição ou perda de acompanhamento. Essa ausência de dados pode causar efeitos artificiais se o mecanismo que gerou a falta de dado está sistematicamente correlacionado com outras variáveis prognósticas (ex: um fator X é responsável por causar a falta de dados ou desistência dos participantes e também é responsável por causar piores desfechos; dessa forma, os participantes que têm dados completos e que permanecem no estudo têm melhores desfechos do que os que saíram). Efeitos aditivos e interativos entre diferentes ameaças à validade O impacto de uma ameaça (das oito acima descritas) pode ser adicional a outra ameaça. Ainda, diferentes ameaças à validade podem interagir entre si. Por exemplo, é possível que Atrição cause viés de Seleção. 72 AMEAÇAS À VALIDADE DA CONCLUSÃO ESTATÍSTICA Essas ameaças ocorrem quando não foram conduzidas análises estatísticas apropriadas. O que são análises apropriadas? 1) Métodos que evitem erro aleatório (garantindo o máximo de poder estatístico); 2) uso de testes corretos para os tipos de variáveis e distribuição de dados do estudo; e 3) a interpretação adequada dos resultados produzidos pela análise estatística. Como o intuito deste eBook não é o aprofundamento em como interpretar e analisar a análise estatística de artigos, vamos nos ater a visualizar e tomar conhecimento de quais são os problemas mais usuais que afligem as inferências estatísticas e podem reduzir nossa confiança nos resultados finais. Ameaças à Validade da Conclusão Estatística Nome da Ameaça Definição Baixo poder estatístico O estudo pode incorretamente concluir que não há associação entre tratamento e desfecho (erro tipo II). Além disso, baixo poder reduz drasticamente a confiança nos resultados por imprecisão. Violação das suposições dos testes estatísticos Tudo na estatística segue suposições, e determinados testes requerem que algumas suposições sejam cumpridas para que façam sentido. Violar suposições pode fazer com que os testes super ou subestimem a magnitude dos resultados, assim como a sua precisão. Os autores devem relatar como atenderam às suposições dos testes utilizados. Multiplicidade de testes Quanto mais arremessos um jogador de basquete faz, maior é a chance de que algum ele acerte. Na estatística é a mesma coisa: quanto maior o número de hipóteses sendo testadas, maior é a probabilidade de um achado ser estatisticamente significativo simplesmente ao acaso (erro tipo I). Pobre reprodutibilidade entre as aferições Ocorre quando existe um alto grau de erro de aferição: as variáveis são aferidas com baixa reprodutibilidade, o que pode levar a conclusões incorretas. Pouca acurácia na estimativa de tamanho de efeito Alguns métodos estatísticos sistematicamente super ou subestimam a magnitude de algum efeito sendo analisado (ex: em algumas situações, o uso de odds ratio superestima a associação comparado ao uso de risco relativo). Restrição da amplitude Limitar o valor máximo (ou mínimo) que se pode aferir de uma variável, em geral, enfraquece a relação entre essa variável e outra (ex: incapacidade de medir glicemias muito baixas pode enfraquecer a relação entre hipoglicemia e alguma outra exposição ou desfecho). Heterogeneidade dos participantes Excesso de variabilidade no desfecho tende a aumentar a variância, o que aumenta erro aleatório e dificulta a detecção estatística de uma relação verdadeiramente significativa (pois os resultados perdem precisão). 73 AMEAÇAS À VALIDADE DE CONSTRUTO Um construto é uma ideia (ou conceito) que o investigador pretende capturar ou medir dentro de um estudo científico. Em um estudo que precisa medir o hábito dos participantes de consumir alimentos ultra processados (construto), os investigadores podem lançar mão de vários métodos diferentes de aferição: perguntas dicotômicas sobre o consumo usual de ultra processados dos participantes, ou o uso de questionários validados, escalas Likert, recordatório alimentar, questionários elaborados pelos próprios autores, e por aí vai. Podemos imaginar que “consumo de alimento ultra processado” é um construto que pode ser bem captado por um método adequado, da mesma forma como ele pode ser mal representado por um método inadequado. Isso já deixa claro como a validade do construto é fundamental para entender se aquilo que os investigadores estão medindo é de fato o que eles se propuseram a medir. A validade de construto basicamente se refere a capacidade do estudo de captar os construtos que ele deveria conseguir captar através de suas aferições. Qualquer problema nessa etapa do estudo afeta diretamente na interpretação dos resultados e na atribuição dos efeitos observados (será que X explica Y mesmo, ou são outras coisas que estão sendo medidas não- intencionalmente e “poluindo” nossa variável, criando resultados espúrios?). Validade de construto é importantíssima, principalmente para estudos observacionais, então vamos elaborar um pouco melhor com um exemplo contextualizado. Suponha que você queira medir a experiência dos médicos em atender pacientes com COVID-19. De que forma você pretende definir a variável “experiência”? Qual é a informação que será coletada para representar esse construto (“experiência”)? 74 Poderíamos simplesmente perguntar para cada médico se ele já atendeu pacientes com COVID-19, e computar isso como “sim” ou “não”. Até faz sentido, mas na categoria “sim” (já atendeu) provavelmente teríamos médicos com níveis de experiência muito variados: alguns podem ter atendido apenas 1 ou 2 pacientes, enquanto outros podem ter atendido mais de 1000. Bom, provavelmente a pergunta “você já atendeu paciente COVID-19?” não captura informação de forma suficiente para representar bem o nosso construto (experiência com COVID). Que tal agora perguntar o número de pacientes COVID-19 que cada médico atendeu? Talvez isso possa capturar melhor o nível de experiência: quanto mais COVID eu atendo, mais experiente eu sou! No entanto, é possível que médicos que atenderam por volta de 100 pacientes graves tenham desenvolvido mais experiência do que médicos que atenderam 500 pacientes com sintomas leves, que não necessitaram de hospitalização ou suporte ventilatório. Será que simplesmente contar o número de pacientes COVID-19 é uma forma acurada de medir o construto que estamos interessados (experiência em atendimentos COVID-19)? Considerando que nem todo paciente tem o mesmo grau de complexidade, o número de pacientes provavelmente é uma forma bem primitiva e pouco informativa para capturar bem o construto “experiência”. Nesse caso, inclusive, enfrentaríamos um grande problema: a tendência de médicos que atendem casos mais leves e menos complexos é de que atendam um maior volume de pacientes, enquanto os médicos que tratam casos mais complexos tendem a atender um número relativamente menor. Nesse caso, a medida de experiência com base no número de pacientes atendidos estaria gravemente enviesada: médicos com altíssimo número de atendimentos provavelmente não seriam os mais experientes. 75 Obviamente, é bem melhor utilizar o número de pacientes atendidos do que simplesmente perguntar se o médico já atendeu ou não COVID, mas ainda há muito o que melhorar nessa forma de medir experiência. “Certo, mas isso tudo importa para mim, um mero leitor? Isso não é problema dos cientistas que produzem artigos?!” Sim, isso importa principalmente para o leitor de artigos. Para interpretar a relação entre as variáveis do estudo precisamos entender como elas foram medidas e com qual intenção elas foram medidas (eu medi o número de pacientes atendidos para representar experiência). Dessa forma, nós podemos avaliar se essa variávelrepresenta realmente o que os autores quiseram que ela representasse, e se nela está contida a quantidade e o tipo de informação que deveria conter. Medir experiência com COVID-19 baseado na pergunta simples de “sim ou não” provavelmente não captaria muita informação útil. Isso significa que em qualquer análise que fosse comparar a associação entre experiência e algum desfecho, o resultado gerado provavelmente não seria conclusivo para nada, seja ele nulo, positivo ou negativo! Se médicos que atenderam 1 paciente e médicos que atenderam 1000 pacientes foram classificados na mesma categoria (experientes), essa categoria obviamente não tem poder discriminatório algum, o que torna qualquer análise com essa variável completamente não-informativa, e potencialmente enganosa (porque, por acaso, seria até possível gerar associações estatisticamente significativas que não existem na vida real – o que chamamos de achados espúrios). 76 CAPÍTULO V. Como interpretar um corpo de evidência de ensaios clínicos randomizados? Você tem acesso a uma metanálise completa e atualizada sobre a questão clínica de seu interesse, e nela foram incluídos diversos ensaios clínicos randomizados. É possível julgar o risco de viés de cada estudo (de preferência, os autores devem ter feito isto para você, descrevendo explicitamente quais foram as razões por trás dos julgamentos para classificar o risco de viés de cada estudo). Caso os autores não tenham feito isso, é um trabalho extra (mas importante) que deve ser feito por você: será que eu posso confiar nos resultados da metanálise sem saber antes o quão confiáveis são os estudos incluídos? Hora de checar um por um. Quando temos informações sobre o risco de viés dos estudos, tenha sido isso julgado pelos autores da revisão ou por você mesmo, devemos decidir duas coisas: 1) perdemos confiança nos resultados da metanálise? 2) se sim, o quanto de confiança perdemos? Grau do risco de viés Risco de viés dentre todos os estudos Interpretação Poucas limitações, não há motivo para preocupação Maioria da informação disponível vem de estudos com baixo risco de viés Evidência de alta qualidade: o efeito verdadeiro é provavelmente próximo do estimado Limitações sérias, certo motivo para preocupação Maioria da informação disponível vem de estudos com moderado risco de viés Qualidade da evidência é moderada: o verdadeiro efeito é provavelmente próximo do estimado, mas é possível que seja muito diferente Limitações muito sérias, motivo para grande preocupação Maioria da informação disponível vem de estudos com alto risco de viés Qualidade da evidência é baixa: o verdadeiro efeito pode ser muito diferente da estimativa apresentada pelos estudos 77 EXEMPLO APLICADO: METANÁLISE DE FLAVONOIDES PARA TRATAR DOR E SANGRAMENTO ASSOCIADO A HEMORROIDAS (Meta-analysis of flavonoids for the treatment of haemorrhoids, doi: 10.1002/bjs.5378) O desfecho primário foi “persistência de sintomas”. A maioria dos estudos incluídos não descreveu de forma suficiente o processo de randomização ou sigilo de alocação: temos dúvidas em relação a isso (como foi feito? Será que realmente foi feito?). Além disso, a maioria dos estudos não seguiu o princípio da intenção de tratar para análise de dados (ou seja, não analisou todos os participantes randomizados) e também não disponibilizou os dados necessários para que a análise correta fosse realizada, o que poderia ter sido aproveitado pelos autores da metanálise. Esses pontos já seriam suficientes para reduzir um pouco a confiança nos resultados finais. Bom, mas nem todos os estudos são problemáticos, certo? Que tal confiar mais nos resultados dos estudos de melhor rigor metodológico (ou seja, os de menor risco de viés)? Isso é uma ótima ideia! Evidentemente, quando existem poucos estudos, vamos sofrer uma consequência: a perda de precisão nos resultados. Se com 9 estudos o risco relativo teve intervalo de confiança de 0.28 a 0.61, ao analisar apenas os 4 melhores estudos nós definitivamente perderemos certo poder estatístico, pois menos participantes seriam incluídos na análise final. Um intervalo de confiança mais amplo seria, por exemplo, de 0.34 a 0.79. O resultado ficou mais impreciso em termos estatísticos, mas mais confiável em termos metodológicos (sabemos que os estudos que produziram essa estimativa são de maior qualidade). Quando os estudos não analisam de forma adequada, mas pelo menos deixam possível fazer uma reanálise, os autores da revisão podem (e devem) fazer isso! 78 Um detalhe importante dessa metanálise: nenhum estudo utilizou métodos validados para medir sintomas (falamos sobre isso na seção de validade de construto). Mas será que isso é um problema, necessariamente? Quando estamos falando de risco de viés, nosso interesse é identificar razões pelas quais poderiam haver vieses sistemáticos causando uma diferença no efeito final demonstrado pelo estudo. Nossa pergunta aqui, então, é a seguinte: a falta de validação dos questionários utilizados para medir sintomas poderia ter causado um viés sistemático nos resultados? Quando lemos os estudos, isso não parece ser o caso: os investigadores estavam cegados, e os questionários eram simples e transparentes. Essas condições não nos fazem pensar que o resultado final pode estar enviesado para alguma direção em particular (favorecendo controle ou favorecendo intervenção). No máximo, uma forma não-validada de medir sintomas poderia te causar a seguinte preocupação: será que esses resultados são aplicáveis? Será que eu posso considerar que os sintomas estão realmente sendo medidos de forma adequada através desse método? Essas preocupações não são relacionadas ao risco de viés, mas sim ao conceito de evidência indireta. 79 Capítulo VI. Formulação de recomendações e tomada de decisão Uma distinção importante a ser feita é entre a força de uma recomendação e o nível da evidência utilizada para criar aquela recomendação. Apesar de evidência de alto nível em geral implicar em fortes recomendações, isso nem sempre é o caso. Isso acontece porque na formulação de recomendações e tomada de decisão na vida real deve-se considerar outros critérios importantes além da qualidade da evidência. É importante avaliar, ao criar uma recomendação: 1) o balanço entre benefícios e malefícios; 2) valores e preferências das partes interessadas; 3) uso de recursos, financeiros e humanos; 4) viabilidade, equidade e aceitabilidade; 5) qualidade da evidência. Exemplo 1: recomendação fraca mesmo quando a evidência é de alta qualidade apontando benefício de um tratamento Existem diversos ECRs comparando a combinação de quimioterapia e radioterapia versus apenas radioterapia para câncer de pulmão em estágio IIIA. A qualidade da evidência é de alta qualidade: comparado a radioterapia sozinha, combinar quimioterapia e radioterapia aumenta a expectativa de vida em alguns meses; no entanto, essa intervenção também piora qualidade de vida e apresenta outros potenciais malefícios por causa da quimioterapia. Considerando os valores e preferências dos pacientes, é possível que não valorizem um pequeno benefício no desfecho “sobrevivência” (mesmo que com alta qualidade de evidência) frente ao grande malefício em receber a intervenção para o desfecho “qualidade de vida”. A recomendação, então, 80 pode ser fraca a favor da quimioterapia + radioterapia ou, ainda, poderia não se recomendar o uso da terapia combinada para esse tipo de câncer! Exemplo 2: forte recomendação com base em baixa qualidade da evidência É de praxe administrar antibióticos o mais rápido possível em pacientes com sepse ou infecção grave, embora essa prática não tenha sido testada em um ensaio clínico randomizado comparado à prescrição “sem pressa” deantibióticos. Mesmo assim, os guidelines tendem a recomendar fortemente que se use antibiótico o mais rápido possível com base na evidência observacional disponível, classificada como de “baixa qualidade” pelos critérios do sistema GRADE. Isso acontece porque os possíveis benefícios dos antibióticos claramente superam os malefícios na maioria dos pacientes, independente da qualidade da evidência. SITUAÇÕES PARADIGMÁTICAS Muitas vezes, diretrizes podem fazer recomendações fortes com base em evidência fraca ou muito fraca. Isso não é usual! São poucas as circunstâncias em que podemos razoavelmente recomendar fortemente uma intervenção com base em evidência limitada. Existem pelo menos cinco situações paradigmáticas que justificam recomendações fortes a despeito de uma baixa qualidade da evidência, como apresentado na tabela abaixo da próxima página. 81 Condição Exemplo Baixa qualidade da evidência sugere benefício em uma condição de vida ou morte Vitamina K em um paciente recebendo varfarina com INR elevado e sangramento intracraniano. A evidência que dá base para limitar a extensão do sangramento é limitada. Quando evidência de baixa qualidade sugere benefício, mas evidência de alta qualidade sugere malefício e/ou custos importantes Rastreio de câncer por tomografia computadorizada ou ressonância magnética da cabeça aos pés. Evidência de baixa qualidade sugere benefício de detecção precoce, mas evidência de alta qualidade aponta para possíveis malefícios e/ou alto curto (logo, forte recomendação contra o rastreio). Evidência de baixa qualidade sugere que duas alternativas são equivalentes, mas evidência de alta qualidade sugere menos malefício de uma delas Erradicação de H. pylori em pacientes com linfoma gástrico em estágio inicial e H. pylori positivo. A evidência é de baixa qualidade sugerindo que erradicação de H. pylori resulta em taxas similares de sucesso terapêutico em comparação com radioterapia ou gastrectomia, e há evidência de alta qualidade sugerindo menos malefício/morbidade. Quando evidência de alta qualidade sugere equivalência entre duas alternativas, mas evidência de baixa qualidade sugere malefício em uma delas Hipertensão em mulheres que pretendem engravidar, ou durante gravidez. Recomendações fortes podem ser feitas para uso de labetalol e nifedipino, inibidores da ECA (IECA) e bloqueadores do receptor de angiotensina (BRA). No entanto, temos baixa qualidade de evidência apontando para maiores efeitos adversos para IECA e BRA, o que justifica forte recomendação contra IECA/BRA, e a favor de labetalol/nifedipino. Quando evidência de alta qualidade sugere benefícios modestos e evidência de baixa qualidade sugere possibilidade de um dano catastrófico Testosterona em homens com ou em risco de câncer de próstata. A evidência é de alta qualidade apontando benefícios modestos da terapia de reposição hormonal em homens com deficiência androgênica sintomática para melhorar densidade mineral óssea e força muscular. No entanto, existe evidência de baixa qualidade que aponta grande malefício em pacientes com ou em risco para câncer de próstata. 82 Checklist para avaliação crítica dos estudos Preciso destacar aqui um ponto muito importante: checklists não são autossuficientes para avaliação crítica! É impossível incluir todos os aspectos relevantes (e a forma como devem ser analisados) em uma única lista. Primeiro, se o checklist fosse o mais completo possível, provavelmente seria extenso demais para aplicar na prática e certamente contaria com questionamentos redundantes ou, em alguns casos, não aplicáveis ao estudo que você está lendo. Do contrário, caso fosse mais enxuto, correríamos o risco de não contemplar aspectos que potencialmente poderiam ser relevantes. Com isso em mente, tiramos o enfoque das listas e formulários para avaliar a evidência, que passam a ser exatamente o que elas deveriam ser: um material de apoio que pode, no máximo, te nortear. Isso é valioso principalmente quando você está desenvolvendo suas habilidades de avaliação crítica. Assim como qualquer outra habilidade na vida, existe uma curva de aprendizagem que, em média, é compatível com a experiência da maioria das pessoas. Dependendo da pessoa e da habilidade que se pretende adquirir, é possível que essa curva seja mais íngreme logo no início, e você aprenda boa parte (70%) do conhecimento em pouco tempo (modelo 1). Por outro lado, uma curva de aprendizado mais gradual pode fazer com que se leve mais tempo (ou esforço) para chegar nos 70% (modelo 2). 83 Felizmente, o conhecimento necessário para avaliar criticamente artigos científicos não parece seguir o modelo 2: em pouco tempo de estudo, considerando que você tenha acesso a bons materiais e pares que também têm interesse em desenvolver essa habilidade, é possível dominar praticamente tudo que é necessário para se tornar um leitor de alto nível. Até lá, listas e formulários podem ser excelentes recursos. 1. O QUE ESTÁ SENDO AVALIADO? Qual é o tipo de estudo? Estudos observacionais Ensaios clínicos randomizados Revisões sistemáticas, com ou sem metanálise Qual é o tipo de efeito apresentado? Efeito da recomendação (efetividade) Efeito da aderência à recomendação (eficácia) Efeito de uma exposição (associação) Qual é o desfecho? Grau de subjetividade ou objetividade do desfecho Grau de importância do desfecho, sob determinada perspectiva 84 2. CONFIABILIDADE E APLICABILIDADE DOS RESULTADOS O quão grave é o risco de viés? ● Viés advindo do processo de randomização ● Viés devido a desvios das intervenções pretendidas ● Viés devido a dados faltantes de desfechos ● Viés na aferição dos desfechos ● Viés na seleção do resultado relatado Existem ameaças à validade interna do estudo? O quão problemáticas elas são? Considerando os critérios das caixas ao lado, o quão preocupado você está? Até que ponto você acredita que os resultados representam uma estimativa não- enviesada da realidade? Quais são os resultados? Qual é a magnitude da estimativa de efeito do(s) estudo(s)? Qual é a precisão (veja intervalo de confiança, tamanho amostral e número de eventos) da estimativa de efeito? Como eu posso aplicar os resultados? É possível generalizar os resultados para meu(s) paciente(s)? Qual é o significado (grau de importância) destes resultados para meu(s) paciente(s)? Os desfechos que eu estou avaliando são relevantes para o paciente? Qual é o trade off entre as diferentes alternativas? Quais são os lados positivos e negativos de tomar a decisão A e a decisão B? 85 Avaliação Crítica: Estudo PARADIGM-HF BACKGROUND Entresto, um medicamento composto por dois princípios ativos (sacubitril e valsartana), da Novartis, é um anti-hipertensivo que foi comparado ao enalapril para pacientes com insuficiência cardíaca com fração de ejeção de, no máximo, 40%. Sacubitril é o novo componente, um inibidor de neprilisina, que gera efeito anti-hipertensivo por uma série de mecanismos diferentes. Valsartana, por sua vez, é um bloqueador de receptor da angiotensina (BRA), bem estabelecido para tratamento da hipertensão. O estudo foi publicado no New England Journal of Medicine (NEJM) em setembro de 2014. RESENHA Trata-se de um ensaio clínico randomizado de fase III, duplo-cego, em que 8442 pacientes com insuficiência cardíaca foram alocados para receber entresto (4187 pacientes recebendo duas doses de 200 mg por dia) ou enalapril (4212 pacientes recebendo duas doses de 10 mg por dia). O entresto é composto por 40 mg de sacubitril e 160 mg de valsartana. O desfecho primário foi um desfecho composto, que incluiu mortalidade cardiovascular ou hospitalização por insuficiênciacardíaca. Ao final do 86 estudo, o desfecho primário foi significativamente menor no grupo entresto comparado ao grupo enalapril (21,8% versus 26,5%), com hazard ratio de 0.80 (IC95%, 0.73 – 0.87, p<0.001) a favor do entresto – ou seja, uma redução de risco relativo de 20%. Em relação a mortalidade por qualquer causa, o benefício foi de 16% de redução de risco relativo (hazard ratio de 0.84, IC95%, 0.76 – 0.93, p<0.001) a favor do grupo entresto. Entresto também foi capaz de reduzir hospitalização por insuficiência cardíaca, com hazard ratio de 0.79 (IC95%, 0.71 – 0.89, p < 0.001). Os autores concluem que entresto foi superior ao enalapril em reduzir risco de óbito e hospitalização por insuficiência cardíaca. Figura: curva de Kaplan-Meier para mortalidade por todas as causas CARACTERIZAÇÃO DO ESTUDO Primeiramente, sempre começamos a avaliação crítica com uma caracterização do estudo. Aqui é a hora de reconhecer o que foi feito, de forma neutra, e sinalizar os lados positivos do estudo. 87 Os autores publicaram previamente o protocolo de estudo e o plano de análise estatística, o que é a uma ótima prática e deve ser valorizada (observação: o NEJM exige que um protocolo de análise estatística tenha sido definido a priori para que um ECR seja publicado na revista). Isso minimiza a possibilidade dos investigadores “caçarem” resultados ao definir formas de analisar e apresentar os dados depois que os resultados são obtidos (práticas conhecidas como p-hacking, data dredging, data mining, harking e cherry picking), o que poderia aumentar as chances de uma conclusão positiva para a hipótese dos autores. O delineamento é o mais forte possível para demonstrar a efetividade de tratamentos farmacológicos: um ensaio clínico randomizado e duplo- cego. Por questões éticas, seria impossível controlar por placebo (se fosse o caso, o grupo controle faria com que pacientes hipertensos com insuficiência cardíaca não recebessem tratamento algum), então o grupo controle recebe um tratamento usual, comprovadamente efetivo: enalapril (inibidor da enzima ECA, ou IECA). O estudo foi adequadamente dimensionado: para detectar uma redução de risco relativo de 15%, considerando incidência de mortalidade de 7% no grupo controle num período de 34 meses, foi estimado que seriam necessários aproximadamente 8000 pacientes para atingir 1229 eventos (mortes por doença cardiovascular), garantindo ao estudo um poder estatístico de 80% com nível de significância de 5%. 88 Todos os participantes randomizados foram analisados de acordo com a alocação inicial – ou seja, as análises do estudo seguiram o princípio da intenção de tratar, de acordo com o objetivo de demonstrar a efetividade do tratamento: o resultado final é o efeito de prescrever entresto comparado a enalapril, uma soma de efeito do medicamento + efeito da aderência à prescrição. Os desfechos foram avaliados por métodos adequados de análise de sobrevivência, definindo os desfechos binários como “tempo até o evento” em curva de Kaplan-Meier e modelo de azares proporcionais de Cox (do inglês Cox proportional-hazards model), um modelo de regressão semi-paramétrico. Dica estatística: note que o poder estatístico de estudos de mortalidade (que utilizam análise de sobrevivência) depende do número de eventos, e não do tamanho amostral. Se a incidência de morte fosse maior (por exemplo, 10% em vez de 7%) e os investigadores quisessem manter o acompanhamento por 34 meses, o tamanho amostral necessário seria reduzido (pois precisariam de menos pessoas para atingir os 1229 eventos, já que eles ocorrem mais frequentemente). Agora, se os investigadores quisessem acompanhar por apenas 24 meses, seria necessário um tamanho amostral maior do que n = 8000 para poder atingir os 1229 eventos em menos tempo, considerando incidência de morte de 7%. Nesses casos, dizemos que o estudo é “event-driven” – o cálculo foi feito para determinar informação estatística necessária, e não número de participantes necessários em si. 89 AVALIAÇÃO CRÍTICA Agora podemos começar com nossos questionamentos. Será que o desenho do estudo foi coerente com a questão clínica a ser respondida? O que você teria feito diferente? Os grupos provavelmente não estavam em condições equiparáveis Olhando para a intervenção, faz sentido o que os autores se propuseram a fazer? O primeiro ponto que se destaca são as doses dos medicamentos. O grupo entresto incluiu 160 mg de valsartana, duas vezes ao dia. Isso não é uma dose baixa – muito pelo contrário! Na realidade, 160 mg é a dose máxima aprovada pelo FDA para valsartana. O potencial de redução da pressão arterial nesse grupo já é bem elevado simplesmente pela dose de valsartana, independente do outro componente (sacubitril), que teoricamente pode contribuir ainda mais para reduzir a pressão arterial. Em contrapartida, o grupo controle recebeu apenas 10 mg de enalapril – equivalente a metade da dose máxima aprovada pelo FDA. A comparação feita nesse estudo, então, é a seguinte: ● Grupo intervenção (entresto): uma nova droga, sacubitril, que não sabemos o efeito em desfechos clínicos + valsartana em dose máxima permitida ● Grupo controle (enalapril): metade da dose máxima permitida pelo FDA Um ponto importante que devemos questionar: enalapril foi prescrito com metade da dose máxima permitida, mas muita gente na vida real usa a dose máxima (20 mg, duas vezes ao dia). Será que não temos pessoas no grupo enalapril que receberam uma dose menor (10 mg) do que a dose que utilizavam normalmente antes do estudo? Vejamos: 90 Bingo. Graças ao material suplementar, sabemos que 1/5 dos participantes utilizavam enalapril antes do estudo começar. A média de dose de enalapril era de 16,4 mg, com desvio padrão de 8,3. Seria interessante saber quantos participantes de fato estavam usando 10 mg e quantos usavam 20 mg, mas podemos fazer umas estimativas interessantes com conhecimentos básicos de distribuição normal: O que essa curva nos diz? Dentro do universo de participantes utilizando enalapril, considerando que a dose média foi 16,4 mg com desvio padrão de 8,3 mg, é possível estimar qual é o percentual de participantes utilizando pelo menos 20 mg. A área sob curva em rosa é justamente esse valor: são aproximadamente 33%, ou 1/3 dos usuários de enalapril. Sabemos então que pelo menos 1/3 dos usuários de enalapril passaram a usar metade da dose do anti-hipertensivo usual deles, e possivelmente outros participantes que utilizavam outros medicamentos em doses mais potentes do que 10 mg de enalapril também foram prejudicados ao serem alocados ao grupo controle! 91 Outro ponto: se o interesse é descobrir o efeito da nova molécula (sacubitril), será que a comparação adequada não seria testar sacubitril + valsartana comparado apenas à valsartana? Dessa forma, poderíamos isolar o efeito apenas do sacubitril. Se essa comparação entre entresto e enalapril não te parece justa ou coerente, você não está sozinho. Vamos seguir ao segundo ponto. O período de run-in pode ter causado um grave viés de seleção Lembra do nosso grupo entresto, que recebeu um novo anti- hipertensivo junto com a dose máxima de valsartana? Pois bem, esse alto poder anti-hipertensivo no entresto poderia ser preocupante do ponto de vista de efeitos colaterais e eventos adversos. No entanto, o estudo minimizou esse problema com um período de run-in (ou seja, antes da randomização de fato, os participantes receberam entresto por um tempo e quem o tolerou mal simplesmente foi sendo excluído do estudo). Perfeito, faz sentido verificar se os pacientes toleram o medicamento antes da randomização – não queremos perdas de seguimento à toa! O grande problema aqui é que esse período de run-in não foi justo entre os dois grupos! O grupo entresto permaneceu em run-inpor 4 a 6 semanas, enquanto o grupo controle (enalapril) apenas por 2 semanas, antes da randomização. Dessa forma, os participantes tiveram mais tempo para se acostumar ao entresto, e mais tempo para identificar e excluir os participantes não-tolerantes. E pior! O run-in não foi feito em crossover: todos os participantes passaram primeiro por 2 semanas de enalapril, e depois por 4-6 semanas de entresto, e em seguida houve a randomização. 92 Isso significa que todos os participantes randomizados para entresto obrigatoriamente já estavam acostumados a receber entresto há 4-6 semanas e simplesmente continuaram tomando o medicamento. Somando isso ao fato de a amostra inteira do estudo ter sido bem selecionada para tolerar o novo medicamento, com mais tempo de adaptação e mais tempo para identificar e excluir pacientes que responderam mal, temos um grande viés de seleção favorecendo o grupo entresto. O estudo foi desenhado de forma que o grupo de participantes recebendo entresto, um anti- hipertensivo potente, fosse composto por pessoas bem tolerantes ao medicamento, comparado à uma dose sub-ótima de enalapril: um cenário bem elaborado para demonstrar superioridade de uma nova droga. Em suma: ● Uma nova droga foi combinada à dose máxima de um BRA, e comparada com metade da dose máxima de um IECA: ou seja, existe uma discrepância muito grande no potencial anti-hipertensivo entre as duas prescrições 93 ● É incerto o efeito clínico isolado do sacubitril (nova droga), uma vez que entresto é composto em parte por uma dose máxima de valsartana, que poderia por si só justificar totalmente o aparente benefício sobre enalapril demonstrado neste estudo ● O estudo fez dois períodos de run-in com durações desiguais e sem crossover, o que fez com que o grupo entresto fosse efetivamente criado por uma alocação direta de uma amostra já habituada e tolerante ao entresto, enquanto o grupo controle foi obrigado a se “reabituar” com o enalapril, medicamento que não recebiam há mais de 1 mês ● Possivelmente muitos participantes poderiam tolerar e se beneficiar de uma dose maior de enalapril no grupo controle, mas foram obrigados a seguir a prescrição de uma dose sub-ótima de enalapril (a média de enalapril utilizado foi 18,9 ± 3,4 – menos da metade da dose máxima de 40 mg/dia usualmente prescrita; em contrapartida, a média de dose recebida de entresto foi de 375 ± 71 mg/dia, que fornece dose próxima do limite superior permitido pelo FDA de 320 mg/dia de valsartana). 94 CONSIDERAÇÕES FINAIS Antes de se aventurar na literatura científica para praticar a leitura e avaliação crítica (que é a atividade que mais vai aprimorar as suas habilidades de avaliação), é preciso lembrar as diferenças entre a qualidade de estudos individuais e a qualidade da evidência. De que forma você vai avaliar a validade interna dos estudos individuais (coortes, ensaios clínicos randomizados e revisões sistemáticas, por exemplo)? O uso de instrumentos para avaliar o risco de viés (como o RoB 2) e as tabelas de ameaça à validade são ótimos recursos que podem te auxiliar nessa etapa. Em seguida, você precisa avaliar a qualidade da evidência disponível. De que forma você vai conseguir encontrar a melhor evidência disponível, para depois conseguir julgar se ela é pouco ou muito confiável? Em geral, buscamos por boas revisões sistemáticas e metanálises. Na ausência destes estudos, precisamos nos aventurar a buscar e avaliar a validade interna dos estudos primários, para depois julgar qual é a qualidade da evidência disponível. Os melhores estudos parecem sugerir que o medicamento X tem benefício de 20% de redução de óbito, mas o quanto eu confio que esse 20% seja o valor verdadeiro da natureza, e não uma estimativa enviesada da realidade? Neste eBook, tentei reunir informações relevantes para nortear sua interpretação crítica da evidência com exemplos aplicados, de maneira a organizar o seu pensamento ao ler a literatura. Eu espero que o conteúdo tenha sido proveitoso e te desejo ótimos estudos!