Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.
left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Prévia do material em texto

SUMÁRIO DO CONTEÚDO 
Capítulo I. O que é qualidade da evidência? 
a. Definição de conceitos 
b. Diferença entre qualidade da evidência e qualidade de 
estudos 
c. Critérios para avaliação da qualidade 
Capítulo II. Avaliação da qualidade da evidência 
a. Sistema GRADE aplicado 
b. Risco de viés 
c. Heterogeneidade 
d. Imprecisão 
e. Evidência indireta 
f. Viés de publicação 
Capítulo III. Risco de viés em ensaios clínicos randomizados 
a. Viés no processo de randomização 
b. Viés devido a desvios das intervenções pretendidas 
c. Viés devido a dados faltantes dos desfechos 
d. Viés na aferição dos desfechos 
e. Viés na seleção dos resultados relatados 
f. Exemplos aplicados 
Capítulo IV. Ameaças à validade 
a. Validade interna 
b. Validade da conclusão estatística 
c. Validade de construto 
d. Validade externa 
Capítulo V. Como interpretar um corpo de evidência de ensaios clínicos 
randomizados? 
Capítulo VI. Formulação de recomendações e tomada de decisão 
a. Força de recomendação e nível de evidência 
b. Situações paradigmáticas 
Capítulo VII. Avaliação crítica: estudo PARADIGM-HF 
a. Resenha sobre o estudo 
b. Identificação de vieses 
c. Interpretação crítica 
Capítulo VIII. Considerações finais 
 
2 
 
CAPÍTULO I. O que é “qualidade da evidência”? 
Qualidade dos estudos 
Existe uma diferença fundamental entre 
qualidade da evidência e qualidade dos 
estudos. Quando pensamos em 
qualidade de estudos, o termo 
“qualidade” certamente pode ter 
diferentes significados para diferentes 
pessoas. Por exemplo, quem trabalha decidindo o destino de financiamento 
para projetos científicos dentro de uma universidade pode dizer que “um 
bom estudo é aquele que no final das contas recebe verba”. Em 
contrapartida, um professor universitário poderia acreditar que um bom 
estudo é aquele que gera conhecimento que pode melhorar o entendimento 
de uma condição clínica, e para um médico com atuação clínica poderia dizer 
que bons estudos são os que de fato impactam na prática. Um editor de 
revista científica pode acreditar que um estudo bom é aquele que é 
frequentemente citado, uma vez que gerar mais citações é um desfecho 
importante para o editor; enquanto isso, um revisor científico pode acreditar 
que um bom estudo é aquele que adota métodos sólidos e interpreta seus 
achados de forma apropriada. 
 Veja: todas as definições acima são válidas em seus respectivos 
contextos. No contexto de uma revisão da evidência disponível, um bom 
estudo é aquele em que os métodos estão bem alinhados com a questão de 
pesquisa sob investigação. É isso que o autor de uma revisão sistemática 
valoriza quando ele fala de qualidade dos estudos, e é isso que você, leitor, 
também deve valorizar. Quando descrevemos a qualidade do estudo como 
sendo o grau de compatibilidade entre os objetivos da pesquisa e a questão 
3 
 
de pesquisa que a originou, fica claro que as considerações que faremos 
variam de acordo com a natureza da questão de pesquisa. Os pontos mais 
relevantes para determinar a qualidade de estudos de modelos animais será 
um pouco diferente do que em estudos avaliando comportamento humano 
em sala de aula, que será um pouco diferente também em relação a estudos 
epidemiológicos que buscam associar exposições e desenvolvimento de 
câncer de cavidade oral. Dessa forma, o delineamento do estudo é um fator 
importante para decidir os critérios utilizados para avaliar sua qualidade. 
 Bom, até aqui ficou claro o que a qualidade de estudo representa em 
termos gerais, e como isso pode variar de acordo com o objetivo da pesquisa. 
Agora, mais importante, como é que podemos avaliar a qualidade de um 
estudo? Antes de tudo, é importante lembrar que qualidade é um construto 
multidimensional. Por essa razão, é impossível fazer um julgamento simples 
e unitário em relação a um estudo (por exemplo, o estudo é de “boa 
qualidade” ou de “baixa qualidade”). Coloquialmente, até podemos fazer 
isso; no entanto, ao analisarmos um artigo científico, essa não pode ser a 
forma como nos organizamos mentalmente. O ideal é se referir às 
dimensões da qualidade do estudo e seus indicadores associados. O que 
isso significa? Como vamos ver mais adiante com ensaios clínicos 
randomizados, cada tipo de estudo possui domínios importantes a serem 
avaliados, e cada domínio está associado a diversos indicadores de desenho, 
análise, aferição de dados, e por aí vai. No caso dos ensaios clínicos 
randomizados, por exemplo, devemos avaliar os domínios (neste livro eu 
também me refiro a domínios como “dimensões”) que dizem respeito ao 
processo de randomização e sigilo de alocação, processo de aferição dos 
desfechos, e processo de seleção do resultado relatado. Cada domínio é 
separadamente avaliado por você, leitor, e a gravidade de cada limitação que 
4 
 
por ventura possa existir é incorporada no seu julgamento de “até que ponto 
eu posso confiar no resultado final desse estudo?” 
Qualidade da evidência 
Ao tomar qualquer decisão em saúde, os profissionais e os próprios 
pacientes precisam sopesar os benefícios e malefícios (ou lados positivos e 
negativos) de todas as possíveis tomadas de decisão. Ao tomar uma decisão, 
nós não podemos nos influenciar apenas pelo tamanho do risco ou tamanho 
do benefício (ou seja, pelos resultados dos estudos). É importante levar em 
consideração a nossa própria confiança nesses resultados. Um resultado 
pode ser estatisticamente significativo e demonstrar um benefício 
clinicamente muito grande de um tratamento para um desfecho importante 
e, mesmo assim, ser muito pouco confiável. Chegamos aqui ao ponto crucial: 
a utilidade de qualquer resultado vai depender do quão confiantes 
estamos naquele determinado resultado – em outras palavras, o quão 
confiantes estamos na evidência disponível. 
 
O meteorologista acredita que há 40% de chance de ocorrer um temporal, mas apenas 10% de 
chance de que ele saiba do que está falando. Existe uma moderada chance de que haja 
temporal, mas a chance dessa estimativa estar correta é muito baixa. 
5 
 
O termo qualidade da evidência foi formalizado no início dos anos 
2000 pelo GRADE Working Group para criar uma abordagem única e 
universal de avaliação da evidência. Até então, diversos sistemas diferentes 
eram utilizados por sociedades diferentes, o que criava muita confusão e 
desentendimento entre desenvolvedores de diretrizes, pesquisadores e 
consumidores da literatura científica. Resumidamente, o sistema GRADE 
estabelece critérios e diretrizes para determinar a qualidade de um corpo de 
evidência de maneira estruturada e transparente. Além disso, o sistema 
também norteia o desenvolvimento e apresentação de recomendações 
clínicas de diretrizes e guidelines. A ideia por trás do GRADE é oferecer uma 
abordagem sistemática, explícita e transparente que facilita a avaliação 
crítica da evidência, protege nossas condutas e crenças contra erros e vieses, 
facilita a resolução de discordâncias e melhora a comunicação da 
informação. O leitor da literatura científica deve entender os critérios do 
sistema GRADE por três principais razões: 
1. Quando uma metanálise ou guideline não apresenta a avaliação da 
qualidade da evidência, é necessário entender os critérios para 
fazer essa avaliação por conta própria 
2. Quando uma metanálise ou guideline apresenta a qualidade da 
evidência, é necessário entender os critérios para reconhecer se os 
autores os utilizaram de forma razoável ou não 
3. Todos os critérios envolvem conceitos importantes para leitura e 
interpretação crítica de artigos científicos e agregam ao 
conhecimento necessário para avaliar a evidência 
Os pontos fundamentais da avaliação da qualidade da evidência nos 
permitem julgar o agregado da evidência apresentado em uma metanálise 
para uma determinada questão clínica qualquer (por exemplo: “suplementar 
ômega-3 reduz incidência de diabetes tipo II?”).O resultado dessa avaliação é a 
6 
 
resposta para a seguinte pergunta: o quanto podemos confiar que o 
resultado do agregado desses estudos está correto? Para responde-la, 
utilizamos cinco critérios que podem reduzir a nossa confiança na evidência, 
e três critérios que podem aumentar nossa confiança na evidência. 
Critérios que reduzem nossa 
confiança 
Critérios que aumentam nossa 
confiança 
Risco de viés Grandes efeitos 
Inconsistência Gradiente dose resposta 
Imprecisão 
Todos os fatores de confusão 
plausíveis aumentariam a 
estimativa de efeito 
Evidência indireta 
Viés de publicação 
 A presença de um critério vermelho (por exemplo, presença de 
inconsistência) é razão para reduzir em pelo menos um nível a confiança na 
evidência. No entanto, a ausência de inconsistência (ou seja, os resultados 
dos estudos de uma metanálise são consistentes entre si) não é um motivo 
para aumentar a confiança na evidência. De forma similar, a ausência de um 
critério verde (por exemplo, gradiente dose resposta) não é razão para 
confiar menos na evidência, mas se gradiente dose resposta está presente 
então a confiança na evidência é aumentada. Mas afinal, de que forma esses 
critérios são aplicados? É nisso que vamos nos aprofundar daqui em diante. 
 
7 
 
CAPÍTULO II. Avaliação da qualidade da evidência 
A qualidade da evidência é um construto que deve ser entendido de 
forma contínua, com extremos representando baixíssima confiança 
(acreditamos que a evidência é extremamente incerta e muito pouco 
informativa) até altíssima confiança (acreditamos que a evidência é 
extremamente certa e muito informativa). No entanto, por questões 
operacionais e de transparência, foi necessário que o conceito de qualidade 
fosse categorizado em quatro níveis para julgar a qualidade da evidência. Por 
essa razão, o sistema GRADE funciona com uma classificação em quatro 
níveis: alta qualidade, moderada qualidade, baixa qualidade e muito baixa 
qualidade. Cada nível possui uma interpretação formal da inferência que 
pode ser feita a partir dos resultados obtidos através de uma metanálise. 
 
 
A priori, a evidência produzida por ensaios clínicos randomizados é 
assumida como de alta qualidade. Sendo assim, a qualidade da evidência de 
uma metanálise de ensaios clínicos randomizados é inicialmente definida 
como alta, mas pode ser nivelada para baixo (ou seja, podemos perder 
confiança nos resultados da metanálise) de acordo com a avaliação dos cinco 
critérios que reduzem confiança. Por sua vez, estudos observacionais são 
inicialmente assumidos como de baixa qualidade de evidência por limitações 
inerentes a esse tipo de estudo, mas podem ter a qualidade nivelada para 
cima (ou seja, podemos aumentar nossa confiança nos resultados 
produzidos por uma metanálise de estudos observacionais) caso duas 
condições forem verdadeiras: 1) não há problema em relação a nenhum dos 
 
8 
 
cinco critérios que nos fariam reduzir confiança na evidência; e 2) existem 
razões para aumentar a nossa confiança na evidência, de acordo com os três 
critérios expostos na tabela anterior. É importante notar que a qualidade da 
evidência é determinada para um conjunto de estudos que avalia o mesmo 
desfecho, e não para estudos individuais! 
No sistema GRADE, o ponto de partida da avaliação da qualidade da 
evidência é sempre o delineamento dos estudos. Por exemplo, uma revisão 
sistemática de estudos randomizados começará classificando o corpo de 
evidência como de alta qualidade – ou seja, estamos altamente confiantes de 
que o resultado final gerado pela metanálise seja uma estimativa muito 
próxima da realidade. Partimos deste pressuposto porque estudos 
randomizados, quando perfeitamente conduzidos, são capazes de isolar e 
estimar o efeito de uma intervenção livre de vieses confundidores. No 
entanto, seria grande ingenuidade assumir que todos os ensaios clínicos 
randomizados tenham sido perfeitamente conduzidos (isto é, que possuam 
excelente validade interna ou baixíssimo risco de viés) – e é por isso que 
utilizamos os critérios do sistema GRADE para nortear nosso grau de 
confiança em um corpo de evidência de ensaios clínicos randomizados. 
Existem cinco critérios que podem reduzir a nossa confiança na evidência, 
conforme previamente apresentados: 
● Risco de viés (ou validade interna) 
● Heterogeneidade 
● Imprecisão 
● Evidência indireta 
● Viés de publicação 
9 
 
Risco de viés 
 
Por definição, avaliar o risco de viés de um estudo significa identificar 
até que ponto o resultado final do estudo é reflexo de uma estimativa não 
enviesada da realidade. Podemos chamar esse critério de limitações dos 
estudos ou de validade interna dos estudos. Quanto maior o risco de viés – 
ou seja, o risco do resultado final do estudo ser uma estimativa enviesada da 
realidade – menor é a validade interna e mais graves são suas limitações 
metodológicas. É importante esclarecer o uso da palavra gravidade no 
contexto de limitações metodológicas em estudos científicos. O risco de viés 
apenas é preocupante quando as limitações metodológicas são 
suficientemente graves para que acreditemos que o estudo deva ser 
considerado como menos confiável. É possível que um estudo tenha sido 
conduzido e/ou analisado com diversas limitações, mas nenhuma destas 
limitações (ou o agregado de limitações) foram graves ou preocupantes o 
suficiente a ponto de justificar com que classifiquemos o estudo como em 
alto risco de viés. Existem estudos com múltiplas limitações triviais e não 
importantes; nesses casos, nossa preocupação seria pequena e julgaríamos 
estes estudos como em baixo risco de viés. Em contrapartida, outros estudos 
com pouquíssimas, mas graves limitações, nos deixariam mais preocupados 
com a validade dos resultados apresentados e, por essa razão, julgaríamos 
estes estudos como em alto risco de viés. Fica evidente que parte 
fundamental da leitura crítica de estudos individuais é entender a diferença 
entre presença de limitações e gravidade das limitações presentes. Por fim, 
é importante notar que o “limiar de gravidade” (até que ponto as limitações 
10 
 
são toleráveis) é inevitavelmente sujeito a certo grau de subjetividade e 
julgamento pessoal. 
Exemplo: é possível que um ensaio clínico randomizado tenha criado 
dois grupos desiguais entre si no início do estudo: vamos supor que a média 
de idade de um grupo era superior à média de idade de outro grupo. 
Podemos considerar isso como um problema se o desfecho de interesse é 
altamente impactado pela idade – como em estudos que avaliam 
mortalidade cardiovascular, por exemplo. Como idade é um fator 
prognóstico de grande importância para morte cardiovascular, esse 
desbalanço prognóstico entre os grupos poderia ser problemático. No 
entanto, ao avaliar a Tabela 1 do estudo (mais adiante, neste eBook, veremos 
exemplos concretos disto), identificamos que os grupos são bastante 
similares entre si em relação a todos os outros fatores prognósticos 
relevantes. Ou seja, por acaso, um grupo acabou mais velho, em média, do 
que o outro. Isso é totalmente aceitável, pois o princípio da randomização 
assume que pelo menos uma a cada 20 variáveis serão desbalanceadas entre 
os grupos simplesmente ao acaso. Esse desbalanço, por si só, não é evidência 
de que houve problema na randomização – não há razão para suspeitar que 
a alocação aleatória para os grupos foi subvertida de alguma forma. Mesmo 
assim, esse desbalanço (que ocorreu por acaso) poderia ter sido 
problemático o suficiente para reduzir nossa confiança no resultado final; no 
entanto, ao ler os métodos do estudo, descobrimos que os autores 
realizaram uma análise estatística ajustada para fatores prognósticos 
importantes – e veja só, a variável idade foi incluída neste modelo! Os grupos 
foram comparados entre si, ajustando para um fator importante (idade) que 
estava desbalanceado. Nessecaso, um problema que poderia ter sido grave 
foi resolvido com um procedimento analítico apropriado. Criticar este estudo 
pelo desbalanço entre grupos na variável idade não faria sentido pois: 1) foi 
11 
 
apenas uma variável desequilibrada dentre diversas outras variáveis 
importantes que estavam equilibradas; 2) a análise foi adequadamente 
ajustada para a variável idade. 
De maneira geral, as limitações metodológicas podem ser avaliadas 
utilizando instrumentos formais construídos especificamente para esse 
propósito. O instrumento mais completo da atualidade é o Risk of bias tool 
2.0 (ou RoB 2), elaborado por equipe de metodologistas da Cochrane e de 
uso recomendado pela mesma organização. A avaliação de risco de viés de 
ensaios clínicos pelo instrumento RoB 2 é realizada considerando cinco 
domínios: 
D1. Viés no processo de randomização 
D2. Viés devido a desvios das intervenções pretendidas 
D3. Viés devido a dados faltantes dos desfechos 
D4. Viés na mensuração dos desfechos 
D5. Viés na seleção dos resultados relatados 
No instrumento, formalmente aplicado por autores de revisões 
sistemáticas, existem diversas questões sinalizadoras que devem ser 
respondidas para cada domínio, com “sim”, “provavelmente sim”, 
“provavelmente não”, “não” ou “nenhuma informação”. Dependendo das 
respostas a cada questionamento, o domínio é finalmente julgado como de 
“baixo risco de viés”, “algumas preocupações” ou “alto risco de viés”. Estudos 
que apresentam pelo menos um domínio com “algumas preocupações” não 
podem ser classificados como de baixo risco de viés; de forma similar, um 
estudo que apresenta pelo menos um domínio como de “alto risco de viés” 
não pode ser classificado como de “baixo risco de viés” ou com “algumas 
preocupações”. Na página seguinte, o clássico gráfico de semáforo 
representa a avaliação de risco de viés de nove hipotéticos estudos. Cada 
12 
 
domínio (do D1 ao D5) é julgado em relação ao risco de viés, e cada estudo 
também recebe um julgamento geral de risco de viés (última coluna). 
Gráfico de Semáforo (RoB 2) 
13 
 
Para que um estudo seja classificado como de baixo risco de viés (alta 
validade interna), todos os domínios obrigatoriamente devem ter sido 
julgados como em baixo risco de viés. Ainda, quando um estudo apresenta 
pelo menos três domínios com “algumas preocupações”, é razoável julgar o 
risco de viés geral do estudo como alto (baixa validade externa), mesmo que 
nenhum dos cinco domínios esteja em alto risco. 
Ao aplicar o instrumento RoB 2 em revisões sistemáticas de ensaios 
clínicos randomizados, os autores devem ser transparentes e relatar 
explicitamente o raciocínio por trás de cada julgamento. Nas melhores 
revisões sistemáticas, esses julgamentos são apresentados em tabelas no 
material suplementar. As revisões sistemáticas de tratamento e profilaxia 
para COVID-19, ambas publicadas no BMJ, contam com materiais 
suplementares que disponibilizam tabelas completas da avaliação do risco 
de viés de cada estudo, com justificativas para cada respectivo julgamento. 
 
Clique para acessar o material suplementar da revisão sobre profilaxia 
 
Clique para acessar o material suplementar da revisão sobre tratamento 
Os instrumentos formais como RoB 2 para avaliação de limitações 
metodológicas dos estudos primários podem ser utilizados também por você 
ao avaliar a evidência científica – não se trata de uma ferramenta exclusiva a 
autores de revisões sistemáticas! Nos casos em que você for aplicar os 
https://www.bmj.com/content/bmj/suppl/2021/04/26/bmj.n949.DC1/barj064893.ww.pdf
https://www.bmj.com/content/bmj/suppl/2020/07/30/bmj.m2980.DC1/sier059724_3.w1.pdf
14 
 
pressupostos do RoB 2 nos artigos científicos, não há necessidade de aplicar 
o instrumento em sua forma mais estrita (o que seria imprescindível para 
autores de revisões sistemáticas). Uma forma mais rápida e fácil de aplicar o 
RoB 2 fora do contexto de revisões sistemáticas é simplesmente ter os 
questionamentos das perguntas sinalizadoras para cada domínio em mente 
durante a leitura do artigo, e anotar os problemas que você julga que 
poderiam causar importante viés sistemático no resultado final do estudo de 
acordo com as perguntas sinalizadoras. Maiores detalhes sobre avaliação do 
risco de viés pelo RoB 2, bem como avaliação da validade interna dos estudos 
primários, serão elaborados no capítulo III. 
Heterogeneidade 
 
Este domínio diz respeito à variabilidade entre os resultados dos 
estudos de uma metanálise. É esperado que estudos obtenham estimativas 
de efeito diferentes entre si para uma mesma intervenção ou exposição, o 
que pode ser fruto do acaso ou por diversidade clínica e metodológica entre 
os estudos. Por exemplo, os efeitos de estatinas podem ser diferentes 
dependendo do risco basal da população sendo estudada (pessoas com 
maior gravidade da doença podem se beneficiar mais; idosos podem se 
beneficiar menos; indivíduos com evento cardiovascular prévio podem se 
beneficiar mais). Formalmente, dizemos que existe heterogeneidade (ou 
inconsistência) quando o verdadeiro efeito da intervenção é representado 
por resultados variados entre os estudos incluídos na análise. É importante 
destacar, de antemão, que a heterogeneidade avaliada pelo sistema GRADE 
diz respeito apenas aos resultados dos estudos, e não às características 
15 
 
clínicas e metodológicas dos estudos. Para evitar confusão, quando nos 
referimos à heterogeneidade nos resultados dos estudos, utilizamos o termo 
heterogeneidade estatística e, quando nos referimos à heterogeneidade 
clínica e metodológica entre os estudos, utilizamos os termos diversidade 
clínica e diversidade metodológica. A diversidade clínica e metodológica 
entre os estudos é responsável por criar heterogeneidade estatística entre 
os resultados finais dos estudos primários. É um erro interpretar a 
heterogeneidade estatística como se fosse reflexo, necessariamente, de 
diversidade clínica e metodológica entre os estudos. Estudos muito similares 
entre si, apesar de tenderem a apresentar resultados consistentes, podem 
muito bem apresentar resultados muito diferentes e isso refletirá em 
heterogeneidade estatística. Em contrapartida, estudos muito diferentes 
entre si podem apresentar resultados bastante consistentes e com baixa 
heterogeneidade estatística. A heterogeneidade estatística pode ser avaliada 
por quatro indicadores diferentes em uma metanálise: 
● Estimativas pontuais variam muito entre os estudos: quando 
diversos estudos, principalmente os de maior peso na metanálise, 
apresentam estimativas pontuais muito discrepantes entre si. Esse 
problema é mais grave quando as estimativas pontuais variam de 
benefício clinicamente relevante até malefício clinicamente 
relevante. 
● Sobreposição dos intervalos de confiança: inspeção visual dos 
intervalos de confiança no forest plot. Quanto menos sobrepostos 
estão os ICs, mais heterogêneos são os resultados da metanálise. 
Esse método é uma forma “qualitativa” de avaliar 
heterogeneidade. Uma limitação deste método é o fato de que 
intervalos de confiança muito amplos (típico de metanálises de 
estudos pequenos) estarão provavelmente bastante sobrepostos 
16 
 
entre si, mas não significa que os resultados não são 
heterogêneos. Os resultados podem ser heterogêneos e 
simplesmente não aparentarem ser por conta dos amplos 
intervalos de confiança. Nestes casos, dizemos que a imprecisão 
dos estudos (resultados com amplos intervalos de confiança) está 
mascarando a heterogeneidade da metanálise. 
● Teste estatístico para heterogeneidade (Cochran’s Q-test): 
trata-se de um teste de hipótese que avalia se todos os estudos 
estão estimando o mesmo efeito. Esse teste gera um p-valor, que 
se resultar menor do que o limiar pré-definido de significância 
estatística (por exemplo, menor que 0.05) pode ser interpretado 
como evidência de presença deheterogeneidade estatística – ou 
seja, os estudos não estão todos estimando o mesmo efeito e, 
portanto, há heterogeneidade estatística. Caso não seja 
significativo, é possível considerar isto como ausência de 
evidência de heterogeneidade. Em geral, o poder estatístico deste 
tipo de teste tende a ser muito baixo. Isso significa que a taxa de 
falso negativo na detecção de heterogeneidade estatística a partir 
do Cochran’s Q-test não deve ser negligenciada, especialmente 
em metanálises de poucos estudos. É possível que haja 
heterogeneidade e o teste simplesmente não seja capaz de 
identifica-la. É argumentável que o teste de significância para 
avaliar heterogeneidade não faça muito sentido para a maioria 
das metanálises, considerando que revisões sistemáticas incluem 
estudos diferentes o que, por definição, significa que é mais do 
que esperado que exista heterogeneidade estatística. O interesse 
maior seria em estimar o grau de heterogeneidade (através de 
17 
 
métodos como o I²) e se ela pode ser explicada por análises 
quantitativas, e não simplesmente se há ou não heterogeneidade. 
● Magnitude do I² (%): trata-se de uma métrica que quantifica o 
grau de heterogeneidade, que varia de 0% a 100%. A definição 
formal do I² é “o percentual de variação total entre os resultados 
dos estudos devido a heterogeneidade, e não ao acaso”. Quase 
sempre está presente no gráfico de funnel plot. Um valor de 0% 
indica que não foi observada heterogeneidade estatística alguma, 
e maiores valores representam maior heterogeneidade. 
 
Os autores (e leitores) de metanálises não apenas devem se limitar 
apenas a identificar e interpretar a heterogeneidade estatística de forma 
apropriada, mas também buscar explicações para a heterogeneidade. A ideia 
aqui é simples: os estudos mostram resultados altamente diferentes entre 
si, então a saída é adotar alguns métodos quantitativos para conseguir 
explicar por que houve essa heterogeneidade nos resultados. As situações 
mais problemáticas em termos de heterogeneidade são quando os estudos 
de maior peso na metanálise (isto é, os que mais fortemente contribuem 
para o resultado final) apresentam resultados muito discrepantes entre si 
18 
 
e/ou quando a heterogeneidade estatística permanece inexplicada após 
análises exploratórias. Isso significa que os autores, mesmo explorando os 
resultados obtidos através de análises de subgrupo ou meta-regressões, não 
conseguiram identificar os motivos pelos quais os estudos apresentam 
resultados diferentes. Nesses casos, é razoável nivelar a evidência para baixo 
e confiar menos no resultado final da metanálise, pois a interpretação dos 
resultados se torna mais difícil. 
Uma dúvida bastante recorrente é o que significa uma 
heterogeneidade estatística inexplicada. Para ilustrar esse conceito vamos 
analisar um exemplo concreto de metanálise que encontrou alta 
heterogeneidade estatística, e decidiu investigar a razão pela qual os 
resultados foram tão discrepantes assim entre os estudos. Na imagem 
abaixo, o forest plot apresenta uma metanálise de 9 estudos avaliando o 
efeito de uma intervenção para redução de mortalidade. No final das contas, 
o efeito foi de proteção de 26%, e o intervalo de confiança de 95% indica que 
os dados são compatíveis com redução de 6% até uma redução de 42% (RR 
= 0.74, 95%CI: 0.58 – 0.94, p = 0.02). Os resultados entre os estudos são 
altamente heterogêneos: um estudo apresenta pequeno malefício 
(Ademiro), dois estudos apresentam moderado malefício (Ronaldo e Denise), 
três estudos apresentam moderado benefício (Maria, Juquinha e Manuela) e 
três estudos apresentam grande benefício (José, Reginaldo e Joana). Essa 
heterogeneidade é evidenciada pelo teste de heterogeneidade com 
resultado estatisticamente significativo (Chi² = 24.26, p < 0.01) e alto I² (67%). 
 
 
 
19 
 
 
 
Existem várias possíveis explicações para essa heterogeneidade: em 
relação à população, pode haver diferença entre os estudos na gravidade da 
doença ou idade dos participantes; em relação aos métodos, pode haver 
diferença entre estudos de maior ou menor risco de viés; em relação a 
intervenção, pode haver diferença entre tempo de tratamento, doses, co-
intervenções e tempo de intervenção. É possível ainda que muitas outras 
variáveis relacionadas à população, intervenção, comparação e desfecho 
(PICO) sejam diferentes entre os estudos e essas diferenças sejam 
responsáveis por gerar resultados heterogêneos. Vamos investigar um 
aspecto metodológico para tentar explicar essa heterogeneidade: o risco de 
viés. Os estudos serão divididos entre alto risco de viés (menor qualidade 
metodológica) e baixo risco de viés (maior qualidade metodológica). 
 
 
 
 
20 
 
 
A imagem acima apresenta o forest plot de uma análise de subgrupo 
de acordo com risco de viés. O subgrupo de estudos em baixo risco de viés 
são José, Maria, Reginaldo e Joana, enquanto os estudos remanescentes 
foram classificados como em alto risco de viés. Como nosso propósito com 
essa análise de subgrupo foi explicar a heterogeneidade nos resultados 
entre os estudos, vamos nos atentar aos indícios de heterogeneidade 
(estimativas pontuais, sobreposição dos intervalos de confiança, teste de 
heterogeneidade e I²) para responder às seguintes questões: 
1. A análise de subgrupo foi suficiente para explicar de forma 
satisfatória a heterogeneidade estatística entre os estudos? 
2. O que podemos usar como evidência indicando que a 
heterogeneidade estatística foi (ou não foi) explicada por essa 
análise de subgrupo? 
A primeira pergunta pode ser respondida olhando para os indicadores 
de heterogeneidade após análise de subgrupo. Usualmente, avaliamos 
21 
 
primeiro o I², por ser um indicador mais informativo de heterogeneidade 
estatística. O I² da metanálise inteira foi de 67%, como visto anteriormente – 
o que representa um alto grau de heterogeneidade. Após análise de 
subgrupo, cada subgrupo se apresentou com I² de 0%. Isso significa que, 
agora, temos dois subgrupos de estudos sem heterogeneidade estatística 
alguma. Dizemos, então, que a análise de subgrupo foi capaz de explicar 
a heterogeneidade estatística de maneira satisfatória, evidenciado pelo 
I² de 0% em cada subgrupo após estratificação da metanálise de acordo 
com classificação do risco de viés. Apesar de fugir do escopo deste eBook, 
é importante notar que análises de subgrupo dentro de metanálises são, por 
definição, exploratórias e de natureza observacional. A credibilidade de 
análises de subgrupo em metanálises deve ser avaliada a partir de critérios 
que, se presentes, aumentam a validade da inferência da análise de 
subgrupo e consequentemente sua confiabilidade. Um dos maiores 
problemas da análise de subgrupo em metanálise é que os subgrupos são 
formados por estudos que não diferem entre si apenas em relação ao risco 
de viés. Por exemplo, dentro da categoria de estudos com alto risco de viés, 
é certo que outras diferenças (clínicas e/ou metodológicas) existam. Por sua 
vez, essas diferenças podem ser responsáveis pelos diferentes resultados 
encontrados. Qual é a razão para que, dentre os estudos de alto risco de viés, 
dois (Juquinha e Manuela) tenham encontrado benefício moderado a alto, 
enquanto os outros estudos encontraram efeito trivial ou de pequeno 
malefício? Poderíamos tentar conduzir outra análise de subgrupo adicional 
baseada em algum fator plausível de justificar as diferenças nos resultados 
obtidos; no entanto, essa análise seria muito pouco informativa pela 
pequena quantidade de estudos sendo estratificados (apenas cinco), o que 
geraria resultados imprecisos e pouco conclusivos. Concluindo nossa 
resposta: a análise de subgrupo explicou de forma satisfatória a 
22 
 
heterogeneidade estatística da metanálise, e nossa confiança no resultado 
final está preservada (o I² de 67% não foi uma razão para nivelar parabaixo 
a qualidade da evidência desta metanálise, pois a análise de subgrupo foi 
capaz de demonstrar que a heterogeneidade deixa de existir quando 
estratificamos por risco de viés). 
Já temos uma resposta parcial para a segunda pergunta: o I² de 67% 
da análise geral não foi um problema, pois cada subgrupo (após 
estratificação por risco de viés) apresentou 0% de I². Outros indicadores 
podem corroborar essa conclusão, evidenciando que a heterogeneidade 
estatística foi satisfatoriamente explicada: 1) o teste de heterogeneidade não 
foi significativo para ambos subgrupos (p = 0.57 e p = 0.81), 2) as estimativas 
de efeito são similares entre si dentro de cada subgrupo e 3) os intervalos de 
confiança estão razoavelmente sobrepostos entre si em dentro de cada 
subgrupo. Na próxima página, o forest plot é reproduzido com destaque para 
os indicadores de heterogeneidade analisados.
Exemplo 2: forest plot com oito ensaios clínicos 
randomizados de amantadina para prevenção de influenza 
 
 
A imagem acima é um forest plot que apresenta estudos de resultados 
diferentes entre si: um deles beira a nulidade (Kantor), outro estudo sugere 
pequeno benefício (Quarles), quatro estudos sugerem moderado benefício 
(Oker-Blom, Mont, Pettersson e Reuman) e dois estudos (Dolin e Muldoon) 
sugerem grande benefício. As estimativas pontuais variam de uma redução 
de 16% até 93%, e há pouca sobreposição de intervalos de confiança entre 
todos os estudos. No entanto, perceba: o teste de heterogeneidade (p = 0.09) 
não foi significativo! Uma interpretação simplesmente baseada no p-valor do 
teste de heterogeneidade seria de que “não há heterogeneidade estatística 
nesta metanálise”. Entretanto, temos evidência de heterogeneidade 
estatística ao avaliar a discrepância nas estimativas pontuais e a pobre 
sobreposição de intervalos de confiança: os resultados são bastante 
heterogêneos. Além disso, o I² observado foi de 44%. Isso significa que, 
apesar de não haver heterogeneidade estatística pelo teste de 
heterogeneidade (p = 0.09), o grau de heterogeneidade estatística é 
25 
 
moderado – e isso não é negligível. O teste de heterogeneidade não foi 
significativo porque não houve poder estatístico (poucos estudos 
analisados). Em contrapartida, seria possível que houvesse excesso de poder 
estatístico caso tratasse de uma metanálise com muitos estudos, situação 
propícia para erro tipo I (ou falso positivo): isto é, identificar heterogeneidade 
quando, na realidade, não há. Esse problema ficou evidente na metanálise 
que comparou o uso de inibidores seletivos de recaptação da serotonina 
comparado a antidepressivos tricíclicos em relação a taxa de desistência dos 
participantes nos ensaios clínicos, conduzida por Barbui e colaboradores 
(2003) e publicada na base da Cochrane. Apesar do teste (Cochran’s Q) de 
heterogeneidade ter sido altamente significativo (p = 0.005), o valor de I² 
indica baixa heterogeneidade (26%). Neste estudo, houve significância 
estatística para o teste de heterogeneidade provavelmente pelo excesso de 
poder (foram incluídos 135 estudos!), sendo um exemplo claro de falso 
positivo: apesar do teste ter sido estatisticamente significativo, na realidade 
a heterogeneidade não era grande o suficiente para causar preocupação ou 
afetar de maneira importante a conclusão dos resultados apresentados, 
evidenciado pelo I² razoavelmente baixo (26%). 
O que seria uma grande heterogeneidade? 
Apesar da leitura mais adequada da heterogeneidade estatística 
medida pelo I² existir dentro de um contínuo (de 0% a 100%), é inevitável que 
muitos autores (e leitores) sintam a necessidade de classificar a 
heterogeneidade em categorias, a partir de pontos de corte. Afinal, o que 
vamos considerar uma “moderada” ou “alta” heterogeneidade? O leitor deve 
ser avisado que julgar o grau de heterogeneidade com base em pontos de 
corte rígidos pode ser uma abordagem enganosa, já que a importância da 
heterogeneidade depende de outros fatores além do percentual 
apresentado pelo I², como a avaliação da magnitude e direção dos efeitos 
26 
 
apresentados pela metanálise (um exemplo sobre isso será demonstrado 
nas próximas páginas) e qual é o indicador que sugere heterogeneidade. De 
qualquer forma, os seguintes pontos de corte podem servir de guia: 
● 0 a 40% pode representar uma heterogeneidade não importante; 
● 30 a 60% pode representar moderada heterogeneidade; 
● 50 a 90% pode representar heterogeneidade substancial; 
● 75% a 100% pode representar heterogeneidade considerável. 
Note que as faixas se sobrepõem e uma linguagem equívoca foi 
utilizada (“pode representar”). Com isso, estamos reconhecendo, de forma 
implícita, que os pontos de corte são arbitrários e incertos. 
Limitações do I² 
Finalmente, em relação ao I², é importante destacar duas importantes 
limitações. Quando os estudos analisados têm pouco poder estatístico 
(apresentando intervalos de confiança muito amplos), o I² tende a falhar em 
reconhecer heterogeneidade estatística, uma vez que intervalos muito 
amplos tendem a ficar sobrepostos entre si. 
Outro problema é quando os estudos têm muito poder estatístico e 
geram resultados com intervalos de confiança muito precisos. Nessas 
circunstâncias, o I² tende a ser superestimado, indicando heterogeneidade 
onde não há: se os estudos têm intervalos muito curtos, é possível que não 
se sobreponham, mesmo quando a estimativa pontual parece ser 
razoavelmente similar entre os estudos. Nesses casos, é mais importante 
avaliar as diferenças nas estimativas pontuais entre os estudos do que o grau 
de sobreposição dos intervalos de confiança – uma vez que os intervalos 
estão maiores do que deveriam. 
A imagem na página seguinte ilustra um exemplo em que o I² é 
subestimado devido ao pequeno tamanho amostral dos estudos incluídos 
27 
 
na metanálise. Os resultados são bastante heterogêneos, mas seus 
intervalos são bastante amplos e consequentemente ficam sobrepostos. 
Este é um clássico exemplo de imprecisão mascarando heterogeneidade 
estatística. 
 
Impacto da direção de efeito na interpretação da heterogeneidade 
Heterogeneidade estatística só é um problema quando reduz a 
confiança nos resultados em relação a decisões na vida real. Por essa razão, 
a preocupação em relação ao I² depende da direção de efeito dos estudos 
mais relevantes da metanálise: se os estudos são heterogêneos entre si, mas 
apontam consistentemente para a mesma direção de efeito, estamos 
confiantes de que o efeito é benéfico (ou maléfico, dependendo da direção!) 
e a tomada de decisão na vida real seria clara. Dessa forma, é perfeitamente 
possível que os resultados de uma metanálise mesmo com heterogeneidade 
substancial (por exemplo, com I² superior a 80%) sejam confiáveis, sem razão 
para nivelar para baixo a qualidade da evidência, desde que sejam 
consistentes na direção de efeito. Em outros casos, é possível que mesmo 
um I² não muito elevado (por exemplo, 40%) seja razão suficiente para perder 
confiança no resultado final, desde que sejam inconsistentes na direção de 
efeito. 
28 
 
A imagem abaixo ilustra três situações diferentes: 1) resultados 
similares entre si, com grande sobreposição dos intervalos de confiança; 2) 
resultados heterogêneos entre si, para a mesma direção de efeito; 3) 
resultados heterogêneos entre si, para diferentes direções de efeito. 
 
 
Na primeira imagem, os estudos consistentemente demonstram 
resultados próximos da nulidade, e os intervalos de confiança se sobrepõem 
entre si. A interpretação é simples: não há razão para nivelar para baixo a 
qualidade da evidência por conta de heterogeneidade, simplesmente porque 
não há heterogeneidade. 
Na segunda imagem, os estudos são inconsistentes entre si (há algum 
grau de heterogeneidade): dois estudos estimam grande benefício e dois 
estudos estimam moderado benefício. Apesar de serem inconsistentes entresi em relação à estimativa pontual, a direção de efeito é consistente: todos 
os estudos apontam para benefício, e os intervalos de confiança não cruzam 
a nulidade estatística. A interpretação mais adequada deste forest plot é de 
que, apesar de algum grau de heterogeneidade estatística, isto não é um 
problema para concluir que a intervenção é benéfica. A única incerteza que 
temos é em relação ao tamanho de efeito da intervenção - qual é a 
magnitude desse benefício? 
29 
 
Na terceira imagem, os resultados são inconsistentes entre si em 
relação à direção de efeito: dois estudos estimam benefício moderado e dois 
outros estudos estimam malefício moderado. Assumindo que efeitos 
moderados sejam clinicamente relevantes, esse seria um forest plot bastante 
problemático para interpretar: será que o efeito da intervenção é benéfico, 
maléfico ou nulo? Evidentemente, se fosse uma metanálise real (e com mais 
estudos, preferivelmente) o mais apropriado seria conduzir análises com 
objetivo de explicar a heterogeneidade observada, através de análises de 
subgrupo ou meta-regressões. 
A identificação e interpretação da heterogeneidade em metanálises 
pode ser uma tarefa bastante desafiadora. Em muitos estudos, a conclusão 
final envolverá algum grau de subjetividade no julgamento do que 
caracteriza uma heterogeneidade preocupante ou não. Além disso, muitas 
vezes dependemos de métodos para determinação ou explicação de 
heterogeneidade que não são inquestionáveis – como vimos anteriormente, 
todos os indicadores de heterogeneidade têm limitações, e análises de 
subgrupo e meta-regressões podem ser complexas de interpretar ou 
simplesmente inviáveis de conduzir. O leitor deve se atentar a alguns 
detalhes para se resguardar de inferências inapropriadas: 
● Investigar a heterogeneidade estatística dos resultados 
apresentados em uma metanálise utilizando os quatro indicadores 
de heterogeneidade; 
● Considerar as possíveis limitações dos indicadores de 
heterogeneidade (I², teste de significância e sobreposição dos 
resultados); 
● Considerar a direção de efeito dos estudos que mais impactam no 
resultado final; 
30 
 
● Certificar-se de que os autores tenham tentado explicar a 
heterogeneidade observada, quando apropriado, através de 
análises de subgrupo e/ou meta-regressões. 
Imprecisão 
 
Para interpretar adequadamente o resultado final de qualquer estudo, 
seja uma metanálise ou estudo primário, é necessário que a precisão seja 
quantificada e relatada. A precisão é evidenciada através do intervalo de 
confiança em torno da estimativa pontual de um resultado, e representa o 
grau de erro aleatório de um resultado. Por exemplo, em um ensaio clínico 
randomizado que testou o efeito de dexametasona em pacientes 
hospitalizados com COVID-19, a estimativa pontual foi uma redução de 17% 
no risco de mortalidade, com intervalo de confiança abrangendo redução de 
25% a 7%. O intervalo de confiança nada mais é do que uma forma de 
quantificar a incerteza em relação à estimativa pontual apresentada. 
A interpretação mais correta do intervalo de confiança é uma 
discussão estatística que foge o escopo deste eBook, mas é seguro 
interpretá-lo como “a faixa de valores compatíveis com os dados do estudo”. 
Estritamente falando, a estatística frequentista afirma que o intervalo de 
confiança de 95% representa uma faixa de resultados e que, se o estudo 
fosse replicado da mesma forma infinitamente e o intervalo de confiança 
fosse calculado para cada um desses infinitos estudos, então 95% dos 
intervalos de confiança incluiriam o verdadeiro valor da intervenção. Por ora, 
podemos ficar com a interpretação mais simples de compatibilidade dos 
31 
 
dados ou, ainda, podemos dizer que o intervalo de confiança “é uma faixa na 
qual é plausível que o verdadeiro valor esteja contido”. 
No estudo da dexametasona, a melhor estimativa foi uma redução de 
risco de 17%, mas o intervalo de confiança indica que os dados do estudo 
são compatíveis com uma redução menor, de 7%, até uma redução maior, 
de 25%. Os extremos do intervalo de confiança são chamados de limite 
superior e limite inferior. No caso da dexametasona, o limite inferior 
(menor efeito) do intervalo de confiança seria 7% (em risco relativo, 0.93) 
enquanto o limite superior do intervalo seria 25% (em risco relativo, 0.75). 
Esse intervalo de confiança não é particularmente preocupante: ele está 
totalmente para o lado do benefício, e não abrange o efeito nulo (e, por essa 
razão, o resultado é estatisticamente significativo). O maior benefício 
compatível com os dados é uma grande redução no risco de mortalidade, e 
o menor benefício compatível com os dados é uma pequena redução no 
risco de mortalidade de “apenas 7%” (note que, apesar de numericamente 
parecer pequeno, um efeito de 7% ainda seria clinicamente relevante para o 
desfecho óbito). Quanto mais distante da estimativa pontual e mais próximo 
dos extremos, menor é a probabilidade de que aquele seja o efeito real da 
intervenção. No caso da dexametasona, o efeito mais compatível com os 
dados é a redução de 17%, enquanto as reduções extremas (de 7% e de 25%), 
apesar de serem compatíveis, são muito improváveis de representarem o 
verdadeiro efeito da dexametasona em pacientes hospitalizados com COVID-
19. Dessa forma, a melhor estimativa é sempre a estimativa pontual, e os 
limites do intervalo de confiança são os extremos mais improváveis (mas 
ainda compatíveis com os dados) de serem os verdadeiros valores. 
No que diz respeito à qualidade da evidência, a imprecisão é um 
problema quando o intervalo de confiança abrange efeitos que afetariam (ou 
dificultariam) nossa tomada de decisão caso fossemos guia-la com base nos 
32 
 
resultados apresentados. De maneira geral, resultados muito imprecisos 
(isto é, intervalos de confiança exageradamente amplos) são razão para 
nivelar para baixo a qualidade da evidência; no entanto, assim como o 
critério de heterogeneidade, a imprecisão deve ser avaliada dentro do 
contexto da metanálise, em conjunto com outros fatores. 
Exemplo aplicado 
Vamos utilizar de exemplo para julgar imprecisão uma metanálise que 
avaliou o efeito de corticoides para manejo de exacerbações em pacientes 
com doença pulmonar obstrutiva crônica (DPOC), conduzida por Quon e 
colaboradores (2008). Foram incluídos 4 ensaios clínicos randomizados, e o 
forest plot abaixo indica benefício da intervenção para redução do tempo de 
internação hospitalar. 
 
O intervalo de confiança da metanálise indica que os dados são 
compatíveis com redução de 2,18 dias até uma redução de 0,65 dias, e a 
melhor estimativa é uma redução de 1,42 dias. Em termos de direção de 
efeito, o intervalo de confiança não nos causa preocupação: tanto o limite 
inferior quanto o limite superior estão incluindo efeitos benéficos (isso 
significa que o resultado é estatisticamente significativo, pois o intervalo de 
confiança do efeito final não abrange a nulidade). A única razão para nivelar 
33 
 
para baixo a qualidade da evidência do ponto de vista de precisão seria se o 
melhor efeito possível (-2,18 dias de internação) justificasse o uso de 
corticoide, mas o pior efeito possível (-0,65 dias de internação) não 
justificasse o uso de corticoide. Veja, se esse fosse o caso, então nosso 
intervalo de confiança abrangeria efeitos que resultariam em diferentes 
tomadas de decisão na vida real. Isso reduz a nossa confiança na evidência, 
pois o verdadeiro efeito poderia ser uma redução clinicamente relevante que 
nos faria prescrever o medicamento, mas também poderia ser uma redução 
clinicamente irrelevante que não justificaria a prescrição. Nessa situação, é 
razoável reduzir em um ponto a qualidade da evidência; se a confiança no 
resultado final da metanálise estava alta, agora está moderada. É importante 
notar que a definição do que é um efeito clinicamente relevante é 
dependentede conhecimento clínico e teórico sobre a condição clínica 
específica sendo estudada. Existem muitos estudos que podem servir de 
norte para auxiliar o leitor a determinar o que são efeitos clinicamente 
relevantes, e isso depende fortemente do desfecho sendo avaliado. É 
argumentável que óbito, por exemplo, seja um desfecho tão importante que 
qualquer redução de 5 a 10% já seria benéfica; em contrapartida, existem 
desfechos menos críticos que exigiriam um benefício muito maior para 
poder justificar o uso de determinada intervenção, principalmente se a 
intervenção estiver associada a efeitos adversos importantes e/ou alto custo. 
É aconselhável que o leitor se familiarize com o mínimo efeito clinicamente 
relevante para o seu desfecho de interesse (na literatura, busca-se por 
“minimal clinically relevant effect”). 
Em outro exemplo, uma metanálise de 9 estudos avaliando o efeito de 
corticoides para mortalidade em pacientes com choque séptico demonstrou 
estimativa pontual com benefício para a intervenção, com resultado 
estatisticamente não-significativo: RR, 0.88 (95%CI, 0.75 – 1.03). 
34 
 
Neste estudo, a imprecisão do intervalo de confiança é suficiente para 
fazer com que a qualidade da evidência seja nivelada para baixo em um 
ponto. Embora os resultados do estudo sejam compatíveis com redução 
expressiva de mortalidade (em pacientes sépticos, redução de 25% é 
altamente desejável), eles também são compatíveis com um pequeno 
aumento de 3% na mortalidade, considerando o limite superior do intervalo 
de confiança. Isso resultaria em duas condutas completamente distintas: se 
o efeito verdadeiro fosse de redução de 25% do risco, com certeza iríamos 
recomendar o uso de corticoide; em contrapartida, existe a possibilidade 
(mesmo que remota) de que o verdadeiro efeito seja um aumento pequeno, 
mas clinicamente relevante no risco de morte. Em casos mais extremos de 
imprecisão, como quando o intervalo e confiança abrange efeitos muito 
grandes para malefício e para benefício simultaneamente, é recomendável 
que o nível de evidência seja graduado para baixo em dois pontos. Dessa 
forma, uma metanálise que começou com alto nível de evidência passaria a 
ser julgada como de baixo nível de evidência apenas pelo critério de 
imprecisão. 
 
35 
 
 
 
Outro ponto importante a ser avaliado ao julgar a imprecisão de uma 
metanálise, além dos efeitos abrangidos pelo intervalo de confiança, é o 
conceito de Optimal Information Size (em português: tamanho ótimo da 
informação). O tamanho ótimo da informação indica o poder estatístico do 
estudo para fornecer resultados suficientemente precisos (e, portanto, 
conclusivos) para determinado desfecho. Consideramos que uma 
metanálise não tenha atingido o tamanho ótimo da informação quando o 
número total de participantes incluídos é menor do que o número de 
participantes sugerido pelo cálculo de tamanho amostral para um ensaio 
clínico com poder estatístico adequado. Apesar de ser difícil estipular uma 
regra de bolso, é recomendado que metanálises (salvo raras exceções) com 
menos de 400 participantes tenham sua qualidade da evidência 
36 
 
automaticamente nivelada para baixo em, pelo menos, um nível por 
imprecisão. 
É evidente que a imprecisão é um dos critérios mais complexos a 
serem avaliados, mas não por questões operacionais: é relativamente fácil 
identificar e interpretar imprecisão em termos de amplitude de intervalos de 
confiança. No entanto, a decisão de nivelar para baixo a evidência com base 
na imprecisão depende fortemente do limiar a partir do qual acreditamos 
que uma intervenção é clinicamente relevante ou não. Embora esse limiar 
seja informado pela literatura científica, na maioria das vezes a base de 
evidência não é sólida e acaba envolvendo um alto grau de arbitrariedade e 
dependendo fortemente de opinião de especialista.
Evidência indireta 
 
Os resultados de qualquer metanálise são mais confiáveis quando a 
evidência subjacente é completamente aplicável à questão clínica que a 
revisão sistemática se propôs a responder. Quando dizemos 
“completamente aplicável”, queremos dizer que a evidência é totalmente 
direta – não há divergência entre os componentes da PICO da revisão 
sistemática (população, intervenção, controle, desfecho ou delineamento) e 
dos estudos incluídos. 
Infelizmente, para boa parte das questões clínicas não há um corpo de 
evidência 100% direto. É comum que diversos estudos avaliem desfechos 
substitutos em vez de desfechos clínicos (ex: pressão arterial seria um 
desfecho substituto para eventos cardiovasculares), ou que não haja estudos 
em determinada população de interesse. Essa “incompatibilidade” na 
população, intervenção e desfecho de interesse da revisão sistemática 
comparado aos estudos que ela incluiu existe em maior ou menor grau, e o 
que vai determinar se devemos reduzir nossa confiança na evidência por 
evidência indireta é o julgamento do quanto os estudos incluídos na 
metanálise desviam da questão clínica originalmente proposta, e o quão 
problemáticos são esses desvios. Diferenças muito grandes entre a 
população de interesse e a população estudada nos estudos primários 
podem servir de razão para nivelar para baixo a qualidade da evidência, 
principalmente se há um racional biológico e/ou evidência de que o efeito da 
intervenção seria realmente diferente. Em geral, é recomendado que se 
aborde com cautela o nivelamento da qualidade da evidência por evidência 
indireta: só perdemos confiança na evidência quando há razão convincente 
39 
 
para acreditar que a população de interesse é biologicamente diferente da 
população testada, a ponto de mudar de forma importante o efeito do 
tratamento. 
A forma mais comum de evidência indireta é por diferenças nos 
desfechos de interesse. É possível que nenhum (ou poucos) estudos tenham 
realmente aferido o desfecho de interesse da revisão sistemática de forma 
apropriada ou não tenham tido o tempo adequado de acompanhamento. 
Outra razão para confiar menos na evidência é pelo uso de desfechos 
substitutos em vez de desfechos importantes para os pacientes. Raros serão 
os casos em que desfechos substitutos são comprovadamente bem 
correlacionados com desfechos clínicos importantes (um exemplo é a 
hemoglobina glicada para pacientes com diabetes, um marcador válido para 
complicações microvasculares e mortalidade), então é razoável pensar que, 
na maioria das vezes em que o interesse é avaliar desfecho clínico, mas 
desfechos substitutos forem utilizados, a evidência deve ser nivelada para 
baixo em pelo menos um ponto. Um exemplo de evidência indireta para 
infarto agudo do miocárdio (IAM) seria calcificação das coronárias; e 
evidência muito indireta para IAM seriam marcadores do metabolismo do 
cálcio e fosfato. 
Condição Desfecho importante para o paciente Desfecho substituto 
Diabetes mellitus 
Sintomas diabéticos, internação hospitalar, 
complicações microvasculares 
Glicemia de jejum e hemoglobina 
glicada 
Hipertensão Morte cardiovascular, infarto do miocárdio Pressão arterial 
Doenças demenciais 
Capacidade funcional, comportamento, 
impacto negativo nos cuidadores 
Função cognitiva 
Osteoporose Fraturas Densidade mineral óssea 
Doença respiratória crônica Qualidade de vida, exacerbações, mortalidade 
Função pulmonar, capacidade 
física 
Doença cardiovascular Eventos vasculares, mortalidade Lipidograma 
Síndrome da Angústia 
Respiratória Aguda (SARA) 
Mortalidade Oxigenação 
40 
 
Outra forma de evidência indireta são comparações indiretas, 
tipicamente vistas em metanálises em rede. A ideia de uma metanálise em 
rede é poder comparar, indiretamente, duas intervenções que não foram 
comparadas entre si em estudos primários. Por exemplo, se existem alguns 
estudos que compararam intervenção A 
contra intervenção B e outros estudos 
compararam intervenção B contra 
intervenção C, mas nenhum estudocomparou diretamente intervenção A 
contra intervenção C, é possível que uma metanálise em rede tente estimar 
como a intervenção A se compara com a intervenção C de forma indireta. 
Questão clínica de interesse Fator indireto 
Oseltamivir para profilaxia de 
gripe aviária causada por vírus 
influenza A 
Diferença na população: ensaios clínicos 
randomizados de oseltamivir existem apenas para 
gripe comum, não gripe aviária 
Rastreio por colonoscopia para 
prevenção de mortalidade 
causada por câncer colorretal 
Diferença na intervenção: ECRs demonstrando 
benefício de pesquisa de sangue oculto nas fezes 
podem servir de evidência indireta para colonoscopia 
Sevelamer vs. Ligadores de 
fosfato baseados em cálcio para 
eventos vasculares em 
insuficiência renal crônica 
Diferença no desfecho: reduzir a carga de cálcio-
fosfato teoricamente reduz calcificação vascular, que 
teoricamente reduz eventos vasculares 
Escolha de antidepressivo 
Comparação indireta: alguns antidepressivos foram 
comparados diretamente contra outros, mas vários 
não foram 
 
 
 
41 
 
Viés de publicação 
O fenômeno ocorre quando certos estudos não são publicados por 
causa da direção, força ou significância dos próprios resultados – o que 
jamais deveria acontecer. A decisão de publicar ou não estudos científicos 
(seja por parte dos próprios autores quanto por parte dos editores de 
revistas científicas) não deveria depender do resultado produzido, mas 
apenas da validade de seus métodos e relevância do seu assunto e/ou 
questão clínica. Infelizmente, a realidade é que a literatura científica 
publicada é uma amostra bastante enviesada da realidade: os pesquisadores 
têm grandes incentivos (e pressões) para publicar artigos científicos, e as 
próprias revistas e editores também são recompensados por publicar 
resultados interessantes, inovadores e significativos. A maioria dos estudos 
“negativos” acabam sendo engavetados ou publicados de forma mais 
obscura (em formato de teses ou resumos de congressos) e, por conta disto, 
são omitidos da literatura científica e das revisões sistemáticas. Os estudos 
não obtidos nas buscas podem sistematicamente estimar que o efeito da 
intervenção seja maior ou menor do que o efeito observado em uma 
metanálise de estudos publicados. 
Os resultados de uma revisão sistemática serão enviesados se a 
amostra de estudos incluídos não for representativa de todos os estudos 
conduzidos sobre aquela determinada questão clínica – sejam eles 
publicados ou não. Um fenômeno interessante que pode levar a viés de 
publicação é o “lag bias”. Esse fenômeno ocorre quando “revisões precoce” 
são conduzidas logo no surgimento de alguma condição clínica ou 
intervenção nova (exemplo mais atual: COVID-19 e seus infinitos tratamentos 
reposicionados). Após apenas poucos e pequenos estudos terem sido 
conduzidos, uma revisão sistemática neste momento provavelmente 
estimará um efeito final enviesado e não representativo da realidade. Depois 
42 
 
de alguns meses, outras revisões terão de ser conduzidas para atualizar a 
síntese de evidência incorporando os dados de ensaios clínicos maiores e 
mais confiáveis que demoraram mais tempo até serem conduzidos e 
publicados. 
Uma das principais suspeitas de viés de publicação, além de revisões 
sistemáticas de estudos pequenos, é quando a maioria dos estudos 
publicados são pequenos e financiados pela indústria. Quando este for o 
caso, pode ser razoável reduzir um ponto na qualidade da evidência da 
metanálise. 
Uma revisão sistemática bem conduzida lança mão de diversas 
estratégias para minimizar o risco de viés de publicação: 
● Uso de diversas bases bibliográficas para a pesquisa por artigos 
relevantes: para avaliar este ponto, verifique se a revisão 
sistemática utilizou uma busca completa e bem estruturada pela 
literatura, além das bases que foram utilizadas; 
● Busca pela literatura cinzenta: verifique se os autores descrevem 
se buscaram por artigos não publicados e como esse processo foi 
feito; 
● Consulta com bibliotecários e outros profissionais: os autores 
podem descrever que consultaram outras fontes e adotaram 
outras estratégias para identificar trabalhos não publicados; 
● Não realizar buscas com limitações desnecessárias (ex: linguagem 
e data de publicação): similar ao primeiro ponto, é importante 
verificar se a estratégia de busca foi adequada e permitiu grande 
sensibilidade; 
● Inspeção visual do gráfico do funil (funnel plot); 
● Teste de regressão de Egger. 
43 
 
Um critério importante utilizado para investigar viés de publicação é 
baseado no uso dos resultados dos próprios estudos através de dois 
métodos distintos: um teste de regressão e um gráfico de funil. 
Gráfico de funil (funnel plot) e teste de Egger 
A leitura do gráfico de funil funciona da seguinte maneira: os círculos 
representam as estimativas pontuais de cada estudo incluído na metanálise. 
O padrão de distribuição, idealmente, deveria lembrar um funil invertido em 
que os estudos (círculos) maiores e com mais poder estatístico estão no topo 
e os estudos menores estão na base. 
 
Além disso, a tendência é que os estudos maiores estejam mais 
próximos do centro do funil (ou seja, próximos do efeito final encontrado na 
metanálise) enquanto espera-se que os estudos menores se espalhem ao 
longo eixo X de forma homogênea, tanto para o lado direito quanto para o 
lado esquerdo. Dessa forma, alguns estudos pequenos estariam 
subestimando e outros superestimando o efeito real do tratamento, 
enquanto os estudos grandes tendem a estimar algo mais próximo do efeito 
real (ou mais próximo do efeito final encontrado pela metanálise, no centro 
do funil). Idealmente, espera-se que o gráfico seja simétrico e que varie mais 
44 
 
na base (devido a erro aleatório, pois os estudos da base são menores) do 
que no topo. Quando o gráfico não é simétrico, podemos interpretar isso 
como evidência de viés de publicação. Por exemplo, na imagem acima, era 
esperado que um apanhado de estudos fosse ocupar o lado direito do funil 
(estimando malefício para a intervenção). No entanto, há um buraco 
exatamente onde ficariam os estudos pequenos que demonstrariam efeito 
negativo da intervenção. É importante notar que assimetria no funnel plot 
não deve ser interpretada como evidência inequívoca de viés de publicação, 
pois existem outras explicações para essa assimetria. Por exemplo, se os 
estudos pequenos sofrem de problemas metodológicos que levam a 
resultados sistematicamente enviesados para uma direção em particular, 
então a assimetria no funnel plot pode ser explicada pelo fato de estudos 
pequenos estarem superestimando o efeito da intervenção ao passo que os 
estudos maiores não sofrem deste problema, mesmo sem haver viés de 
publicação. Outra explicação pode ser pelo fato de que estudos pequenos 
selecionaram amostras mais restritas, específicas e homogêneas. Essa 
amostra mais restrita pode ter sido mais responsiva ao tratamento por 
alguma razão, o que fez com que os estudos pequenos sistematicamente 
estimassem maior benefício do que os estudos grandes. Em estudos que 
requerem habilidade por parte de quem aplica as intervenções, é possível 
também que estudos pequenos consigam gerar melhores resultados do que 
estudos grandes justamente por aplicarem as intervenções com mais 
cuidado ou atenção. Por fim, ainda, o funnel plot pode ser assimétrico 
simplesmente por fruto do acaso. 
Outra forma comum de investigar viés de publicação é a partir da 
regressão de Egger, em que a significância estatística do teste pode servir 
de evidência de que existe viés de publicação. O teste de Egger é uma 
regressão linear dos efeitos do tratamento sobre seus desvios padrões, 
45 
 
ponderado pelo inverso da variância (ou seja, seu “peso” na metanálise). 
Existem limitações importantes em relação ao uso do teste de Egger e de 
funnel plots emtermos de poder estatístico. Por essa razão, não são 
recomendáveis em metanálises de menos de 10 estudos – um ponto de corte 
definido arbitrariamente. 
Apesar do enfoque em estudos randomizados neste eBook, é 
importante notar que o risco de viés de publicação é muito maior em 
metanálises de estudos observacionais, especialmente pequenos estudos 
observacionais e estudos retrospectivos conduzidos a partir de dados já 
coletados previamente. Isso acontece porque a maioria dos estudos 
observacionais dessa natureza não segue um planejamento pré-registrado 
com objetivo claramente determinado, critérios de inclusão e exclusão, 
definições de exposição e desfechos, e análise estatística definidos a priori. 
Os investigadores, nesses casos, têm um alto grau de liberdade para 
manipular o banco de dados e formas de análise e apresentação de dados 
com opções virtualmente infinitas, de maneira que um resultado positivo 
possa ser produzido. É quase impossível saber, então, se os estudos 
observacionais produzidos são uma amostra representativa da realidade ou 
simplesmente uma seleção de estudos produzidos justamente para “dar 
certo”. 
 
 
Risco de viés de ensaios clínicos 
randomizados 
Qualidade da evidência 
Objeto de 
estudo 
Estudos primários 
Corpo de evidência (agregado de estudos 
individuais para uma PICO) 
Critérios 
Processo de randomização 
Desvio da intervenção pretendida 
Dados faltantes do desfecho 
Aferição do desfecho 
Seleção do resultado relatado 
Risco de viés 
Imprecisão 
Heterogeneidade 
Evidência indireta 
Viés de publicação 
Dose-resposta 
Tamanho de efeito 
Fatores confundidores 
Sinônimos Limitações do estudo (ou validade interna) 
Nível de evidência 
Confiança na evidência 
Na prática, o sistema GRADE é aplicado em revisões sistemáticas (com 
ou sem metanálise) e em guidelines pelos próprios autores, e os julgamentos 
são apresentados em tabelas. Para cada desfecho, a qualidade da evidência 
é avaliada e julgada de acordo com os critérios da tabela anterior. Dessa 
forma, é possível que em uma mesma metanálise com os mesmos estudos 
haja alta qualidade de evidência para um desfecho e baixa qualidade de 
evidência para outro! 
 
Caso os autores do trabalho não tenham avaliado a qualidade da 
evidência, o leitor não tem informação suficiente para acreditar nos 
resultados apresentados e muito menos tomar decisões na vida real: é 
impossível saber se um medicamento que aparentemente tem benefício 
deveria ser utilizado ou não sem conhecer a qualidade da evidência por trás 
do resultado apresentado. Por isso, é recomendado que sempre busquemos 
por revisões sistemáticas de alta qualidade, que tenham conduzido uma 
avaliação da qualidade da evidência de forma transparente e de acordo com 
as orientações do GRADE Working Group. Para a nossa questão clínica de 
ômega-3, temos uma revisão sistemática recente, completa e de alto rigor 
48 
 
metodológico que consegue nos informar a estimativa de efeito e o quanto 
podemos confiar na evidência disponível. 
Omega-3, omega-6, and total dietary polyunsaturated fat for prevention 
and treatment of type 2 diabetes mellitus: systematic review and meta-
analysis of randomised controlled trials 
 
(doi: 10.1136/bmj.l4697) 
 O que essa metanálise nos apresenta? Como a ideia aqui é avaliar a 
qualidade da evidência, vamos nos ater à confiabilidade nos resultados que 
ela demonstra. No entanto, é fundamental que o leitor se atente à 
credibilidade de qualquer revisão sistemática e metanálise. Apesar da 
metanálise ser um tipo de estudo que nos apresenta o corpo de evidência 
inteiro, ela também é um estudo individual e, por isso, deve ter sua validade 
interna julgada. Ao avaliar a credibilidade de uma revisão sistemática, então, 
avaliamos sua validade interna, de acordo os seguintes critérios: 
49 
 
● A revisão formulou uma questão de pesquisa coerente? 
● A busca por estudos relevantes foi abrangente? 
● A seleção e avaliação da qualidade dos estudos foi reprodutível? 
● A revisão apresentou resultados prontos para aplicabilidade 
clínica? 
● Os autores julgaram e relataram a confiança nas estimativas de 
efeito (sistema GRADE)? 
● O quão sensíveis são os resultados? Os achados são robustos 
frente às decisões que foram tomadas no processo de obtenção 
dos resultados? 
De volta à metanálise do BMJ. O desfecho primário foi incidência de 
diabetes tipo II, e os resultados foram divididos de acordo com o tipo de 
intervenção (ômega-3 de cadeia longa ou ácido graxo alfa-linolênico, ALA). 
Na próxima página, vemos o sumário dos achados da metanálise, com 
destaque para incidência de DM2 de acordo com essas duas intervenções.
50 
 
 
 
51 
 
Na primeira linha, que diz respeito ao efeito de ômega-3 de cadeia longa 
na incidência de diabetes tipo II, temos as seguintes informações: 
● Risco absoluto para diabetes no grupo controle (baixa ingestão de 
ômega-3): 37 casos a cada 1000 pessoas, ou incidência de 3,7%; 
● Risco absoluto para diabetes no grupo intervenção (alta ingestão de 
ômega-3 de cadeia longa): 37 casos a cada 1000 pessoas, ou incidência de 
3,7%, com intervalo de confiança de 3,2 a 4,4%; 
● Risco relativo: proporção da incidência de casos no grupo intervenção 
comparado ao grupo controle, com risco relativo de 1.0 (95%IC 0.85 a 
1.17). Ou seja, não há associação estatisticamente significativa; 
● Número de participantes e estudos incluídos nessa análise: 58.643 
participantes dentre 17 ensaios clínicos randomizados; 
● Confiança na evidência: é a qualidade da evidência, julgada pelo sistema 
GRADE. Para este desfecho, a qualidade foi julgada como “moderada”, 
pois não havia sérios problemas que nos fizessem crer que devêssemos 
confiar menos nesse resultado. A única razão pela qual esse resultado 
não é de “alto nível” (altamente confiável) é pela imprecisão: apesar de 
não haver associação estatisticamente significativa, o intervalo de 
confiança abrange efeitos clinicamente relevantes, tanto para proteção 
quanto para malefício. Note que, sobrescrito ao “MODERATE”, temos 
cinco letrinhas do ‘a’ ao ‘e’. No rodapé da tabela, cada uma dessas 
letrinhas corresponde a um dos cinco critérios que poderiam reduzir a 
confiança na evidência: a) risco de viés, b) inconsistência, c) imprecisão, d) 
evidência indireta, e) viés de publicação. O raciocínio por trás do 
julgamento dos autores para cada critério sempre deve estar 
explicitamente descrito no artigo e, em geral, isso acontece no rodapé da 
tabela do sumário dos achados mesmo! 
52 
 
A partir desses resultados, podemos afirmar que ômega-3 de cadeia 
longa provavelmente tem pouco ou nenhum efeito na incidência de diabetes 
tipo 2, com base em resultados de moderada qualidade produzidos por uma 
metanálise de 17 ensaios clínicos randomizados. Nós estamos 
moderadamente confiantes que ômega-3 tem pouco ou nenhum efeito na 
prevenção de diabetes tipo II: o verdadeiro efeito de ômega-3 muito 
provavelmente está próximo ao efeito estimado por essa metanálise, mas há 
possibilidade que ele seja diferente. 
 Você pode se perguntar: e quando não há uma boa revisão 
sistemática sobre o meu assunto de interesse? Pior: e quando sequer 
houver uma revisão sistemática? Nesse momento, nosso trabalho fica mais 
difícil (mas não impossível). Primeiro, uma metanálise que não te informa o 
grau da qualidade da evidência te obriga a avaliar a qualidade da evidência 
por conta própria. Você, como leitor, é capaz de avaliar os cinco critérios que 
poderiam reduzir a sua confiança na evidência, pois todas as informações 
necessárias para esse julgamento estão apresentadas na revisão 
sistemática/metanálise. Quando a revisão é desatualizada, de baixa validade 
interna ou simplesmente não existe revisão, o nosso trabalho é mais difícil: 
nesse momento, precisamos encontrar os estudos primários por conta 
própria; avaliar a qualidade dos estudos primários(a partir dos métodos de 
avaliação de risco de viés e validade interna que vamos abordar nas 
próximas seções do eBook) e daí sim julgar a qualidade do agregado de 
evidência considerando todos os estudos disponíveis, a partir dos cinco 
critérios. Perceba como a sua habilidade em avaliar a qualidade dos estudos 
e a qualidade da evidência não é útil apenas para ler e entender uma revisão 
sistemática com metanálise, mas também para nortear a sua própria 
confiança na evidência. Dominando esses aspectos, você consegue 
identificar a melhor evidência disponível; reconhecer quais estudos são mais 
53 
 
confiáveis pela validade interna de cada um; entender os resultados que o 
corpo de evidência estão te sugerindo (por exemplo, a literatura sugere que 
ômega-3 não seja útil para proteger contra o desenvolvimento de diabetes 
tipo II) e entender o quão confiáveis esses resultados são. Com tudo isso em 
mente, você tem informações suficientes sobre a evidência disponível para 
auxiliar na sua tomada de decisão na vida real. No entanto, como veremos 
para o final do eBook, a tomada de decisão não depende apenas da 
qualidade da evidência, mas também de diversos outros aspectos (como 
valores e preferências, recursos e balanço entre benefício e malefício). 
 
 
54 
 
CAPÍTULO III. Risco de viés em ensaios clínicos 
randomizados 
 
 Muitas vezes especialistas comentam sobre estudos apontando para 
problemas altamente específicos que poderiam enviesar completamente os 
resultados do estudo. Pode ser um detalhe na seleção ou alocação de 
indivíduos, ou na aferição dos dados, ou uma análise inapropriada que gerou 
os resultados apresentados pelo estudo. Isso sempre me causou uma aflição 
muito grande: parecia que existiam milhares de vieses diferentes, e nem 
sempre era claro como esses vieses poderiam ser identificados nos estudos. 
De fato, existem centenas de vieses diferentes (dica: eles podem ser 
facilmente visualizados no site catalogofbias.org), que se enquadram dentro 
de alguma dessas três grandes categorias de tipos de vieses abaixo: 
Viés de seleção 
Os grupos comparados são diferentes em outras 
características que afetam no desfecho, além do 
fator em estudo sendo avaliado 
Viés de informação 
Ocorre quando o método de aferição é diferente 
entre os grupos de participantes 
Viés de confusão 
Dois fatores estão associados (“viajam juntos”) e o 
efeito de um é confundido com o outro, ou 
distorcido pelo outro 
https://catalogofbias.org/
55 
 
 Felizmente, existem métodos sistemáticos para avaliar os principais 
problemas de cada delineamento de estudo. Chamamos isso de “avaliação 
do risco de viés”, que responde uma simples, mas importantíssima pergunta: 
até que ponto o resultado do estudo é reflexo de uma estimativa não-
enviesada da realidade? Quanto mais graves forem as limitações do 
estudo, mais provável que o resultado apresentado seja uma falsa 
representação da realidade, o que reduz nossa confiança no resultado final. 
O intuito é esclarecer quais são os principais problemas que podem existir 
em ensaios clínicos randomizados e descrevê-los brevemente. Dessa forma, 
criaremos uma organização mental mais aperfeiçoada para começar a ler os 
estudos de forma mais crítica. A imagem abaixo ilustra os cinco principais 
domínios que podem criar vieses nos ensaios clínicos randomizados. A 
estrutura básica para avaliar o risco de viés de estudos randomizados é 
organizada em cinco domínios, e cada domínio é avaliado de acordo com 
diversos questionamentos. A tabela na próxima página resume o que cada 
domínio investiga e o que você deve perguntar, fundamentalmente, para 
identificar se 1) existem limitações no estudo? e 2) as limitações afetam de 
forma importante no resultado final?
56 
 
 
Domínio Explicação Como avaliar? Quando é um problema? 
Viés advindo do processo de 
randomização 
Os investigadores que recrutam os pacientes podem estar cientes 
do grupo em que cada participante será alocado. O prognóstico do 
paciente pode (conscientemente ou não) influenciar em atitudes 
do investigador que podem fazer o participante ser alocado a 
determinado grupo, criando um viés sistemático a favor (ou 
contra) uma intervenção por desbalanço em fatores prognósticos. 
Primeiro, veja se o relato do método de randomização e 
sigilo de alocação estão completos e adequados. Em 
seguida, verifique, nas tabelas do estudo, se os grupos 
comparados são similares entre si em tamanho e em 
características na linha de base (ou seja, antes do início do 
tratamento em si). 
Se existem muitas discrepâncias de grande magnitude entre os 
grupos sendo comparados, perdemos confiança no resultado final, 
principalmente quando as análises não são ajustadas para fatores 
prognósticos reconhecidamente importantes (exemplo: idade é um 
fator prognóstico importante para morte cardiovascular). 
Viés devido a desvios das 
intervenções pretendidas 
É possível que os investigadores apliquem intervenções adicionais, 
inconsistente com o protocolo de estudo; ou falhem em 
implementar as intervenções conforme planejadas; ou, ainda, os 
participantes tenham má aderência às intervenções. 
Houve cegamento nesse estudo? Quem estava cegado? A 
falta de cegamento pode ter influenciado nas intervenções 
aplicadas? Se sim, é plausível que tenha afetado um grupo 
diferentemente do outro? Os investigadores utilizaram 
análise por intenção de tratar ou por protocolo? 
Quando existem desvios das intervenções e esses desvios não são 
balanceados entre os grupos, é provável que o efeito final do 
tratamento esteja enviesado. Ainda, quando o objetivo é informar 
efetividade (e não eficácia), o correto é analisar por intenção de 
tratar, e não por protocolo; caso contrário, o efeito é superestimado. 
Viés devido a dados faltantes de 
desfechos 
Os resultados de um estudo podem estar enviesados quando há 
perda de dados do desfecho sendo investigado. Isso pode 
acontecer por perda de acompanhamento ou desistências; 
pacientes não virem à visita para medir dados; paciente vir à visita, 
mas não informar/permitir aferição de dados, dentre outras 
razões. 
Os dados para seu desfecho de interesse estão disponíveis 
para todos, ou quase todos, os participantes randomizados? 
É provável que esses dados faltantes tenham faltado por 
algum fator prognóstico (ex: pessoas que mais desistem de 
uma intervenção são as de pior prognóstico)? 
Quando o mecanismo de não-resposta (ou seja, o motivo pelo qual 
os dados estão faltando) está associado ao desfecho. Se o motivo de 
haver dados faltantes também causa pior desfecho, por exemplo, é 
possível que o efeito final esteja enviesado para melhor. Um 
medicamento que causa sintomas graves e desistência/baixo 
retorno às visitas clínicas vai causar perda de dados “ruins”, e 
selecionar pacientes que estão se dando bem com o tratamento, 
enviesando para benefício. 
Viés na aferição dos desfechos 
Existem dois tipos importantes de erro de aferição: não-diferencial 
e diferencial. Erros não-diferenciais não estão relacionados às 
intervenções, e erros diferenciais estão. Estes são erros 
sistemáticos que podem enviesar o resultado final. 
O método de aferir o desfecho foi apropriado? É possível 
que a aferição do desfecho tenha sido diferente entre os 
grupos? Isso é mais provável quando os avaliadores dos 
desfechos não estão cegados, e quando é plausível que a 
aferição do desfecho seja influenciada pelo conhecimento 
da alocação dos grupos (em geral, desfechos menos 
objetivos são mais propensos a este viés). 
Principalmente quando não há cegamento por parte dos 
avaliadores dos desfechos, e quando é possível que isso introduza 
um desbalanço na aferição. Exemplo: cefaleia mais intensa pode 
acontecer em participantes recebendo intervenção versus placebo. 
As cefaleias neste grupo podem fazer com que os participantes 
façam mais exames (ex: ressonância magnética),e 
consequentemente maior diagnóstico de câncer – mesmo que o 
medicamento em si não cause câncer! 
Viés na seleção do resultado 
relatado 
O resultado apresentado no estudo pode ter sido selecionado com 
base na sua direção, magnitude ou significância estatística. Os 
investigadores podem analisar diversos desfechos de diversas 
formas, e selecionar o que mais convém. 
Primeiro, investigue o protocolo pré-registrado do estudo. 
Se houver discordâncias importantes, veja se há justificativa 
para isso, e se os autores analisaram os dados de formas 
não-usuais (diferente do que outros estudos geralmente 
fazem). Se não houver um protocolo, nossa confiança fica 
muito reduzida, então deve haver boa justificativa para que 
os investigadores apresentem aqueles dados analisados 
daquela forma. 
Quando a forma de relatar os resultados é diferente do que 
usualmente se esperaria para um estudo desse tipo, desconfiamos 
que o resultado tenha sido selecionado justamente porque foi 
positivo ou interessante para o investigador. Isso é mais 
problemático quando o desfecho poderia ser definido, relatado e 
analisado de múltiplas formas distintas. Por exemplo, em vez de 
comparar a perda de peso em quilogramas entre dois grupos, os 
autores criam categorias de % de perda de peso baseado em pontos 
de corte arbitrários. 
57 
 
CEGAMENTO: QUANDO E PARA QUÊ? 
 
doi: 10.1136/bmj.39465.451748.AD 
Esse estudo meta-epidemiológico avaliou 146 metanálises, incluindo 
1346 ensaios clínicos randomizados, com o propósito de identificar a 
associação entre sigilo de alocação/cegamento e estimativa de efeito de 
intervenções. A ideia por trás disso é bem simples: imagina-se que estudos 
que não descrevem, ou descrevem pobremente como os processos de 
cegamento e sigilo de alocação foram conduzidos tendem a superestimar os 
efeitos dos tratamentos. 
Exemplo: dois estudos avaliando o efeito da estatina para reduzir LDL-
colesterol. No estudo A, o processo de cegamento e sigilo de alocação não 
foram bem descritos, e no estudo B tudo foi bem detalhado. Esperamos que 
o estudo que não descreveu adequadamente os processos de 
cegamento/sigilo de alocação esteja sob maior risco de viés, pois quando 
os investigadores conhecem a sequência de alocação dos participantes é 
possível que eles direcionem participantes de melhor prognóstico para o 
grupo intervenção (receber estatina) e os de pior prognóstico para o grupo 
controle (receber placebo). Além disso, sem cegamento, é possível que o 
tratamento dos pacientes seja sistematicamente diferente entre os grupos: 
se os investigadores têm interesse no efeito de uma nova droga, é provável 
que o cuidado dos pacientes que estão recebendo a nova droga seja melhor 
do que os pacientes recebendo placebo. Isso, em tese, é reduzido (ou 
58 
 
evitado) quando utilizamos o cegamento, sigilo de alocação na 
randomização, e uso de placebos. Sendo assim, é plausível que os efeitos da 
estatina sejam superestimados no estudo A. 
A falta de sigilo de alocação ou cegamento é sempre problemática? 
A resposta para essa pergunta é: depende! Foi justamente isso que os 
investigadores dessa metanálise nos responderam. Nos estudos com 
desfechos subjetivos, existe um exagero no tamanho de efeito quando não 
há sigilo de alocação/cegamento, com razão de odds ratios de 0.69 (95%IC, 
0.59 a 0.82) para falta de sigilo de alocação e de 0.75 (95%IC, 0.61 a 0.93) 
para falta de cegamento. Isso significa que os estudos sem sigilo de alocação 
descrito superestimam, em média, em 31% o efeito das intervenções 
comparado aos estudos que relatam o sigilo de alocação adequadamente. 
Da mesma forma, estudos sem cegamento tendem a superestimar os efeitos 
dos tratamentos em 25%. 
 
Em contrapartida, para desfechos objetivos (como mortalidade), a 
falta de cegamento ou descrição do sigilo de alocação foram pouco 
problemáticos, associados com pouco ou nenhum viés no efeito final, com 
59 
 
razão de odds ratios de 0.91 (95%IC, 0.80 a 1.03) para ausência de sigilo de 
alocação e 1.01 (95%IC, 0.92 a 1.10) para ausência de cegamento. 
Podemos confiar em estudos sem cegamento (open-label)? 
A resposta para a segunda pergunta é: podemos! Muitos ensaios 
clínicos randomizados importantes foram conduzidos sem cegamento e, até 
hoje, são utilizados como evidência forte para nortear condutas. Por 
exemplo, o estudo LOOK AHEAD foi capaz de demonstrar que uma 
intervenção mais intensiva de mudança no estilo de vida melhora uma série 
de parâmetros metabólicos, apneia do sono e qualidade de vida, dentre 
outros desfechos. Neste estudo, como a maioria dos estudos pragmáticos 
que avaliam o efeito de recomendação de dietas, não houve cegamento por 
parte dos investigadores ou dos participantes simplesmente por ser 
impossível: quem orienta a intervenção vai saber, por definição, o grupo em 
que o participante está; e o próprio participante também sabe qual dieta está 
recebendo. É muito diferente do que simplesmente oferecer um comprimido 
com princípio ativo ou placebo; nestes casos, é muito mais viável 
implementar cegamento a nível de investigador e participante. 
O detalhe para avaliar a confiabilidade de estudos sem cegamento é 
se questionar sobre dois aspectos: primeiro, neste estudo, a falta de 
cegamento poderia criar viés sistemático favorecendo algum grupo em 
particular? Existe razão para pensar que o fato de os investigadores 
conhecerem em qual grupo cada participante está, ou os participantes 
saberem seus próprios grupos, poderia criar desbalanços entre os dois 
grupos de forma a enviesar os resultados? Perceba que essa pergunta é 
fundamental, pois a falta de cegamento só é um problema quando ela causa 
desvios nas intervenções pretendidas. Por exemplo, estudos de acupuntura 
para tratamento da dor tendem a encontrar benefício quando acupuntura é 
comparada a nenhum tratamento e sem cegamento, mas não encontram 
60 
 
benefício importante quando a comparação é com procedimentos sham 
(uma espécie de controle por placebo, em que o participante acredita que 
algo está sendo feito, mas na realidade não está) em que existe cegamento. 
Voltando ao LOOK AHEAD, temos aqui um exemplo de como um 
estudo open-label (ou seja, sem cegamento dos participantes ou dos 
investigadores aplicando as intervenções) minimizou o risco de viés: os 
avaliadores dos desfechos foram cegados! Isso significa que os encarregados 
de aferir todos os desfechos dos participantes do estudo (isso inclui olhar 
mortalidade, infarto, necessidade de hospitalização por angina, medir 
pressão arterial, medir peso corporal, etc.) não sabiam em qual grupo cada 
participante estava. Como isso foi relatado: 
“The trial was not blinded, but clinical assessors and end-point adjudicators 
were unaware of study-group assignments” 
Isso é extremamente valioso, e está contemplado no domínio de “viés 
na aferição dos desfechos”. Quando se implementa cegamento dos 
avaliadores de desfechos, o risco de viés é reduzido substancialmente, e isso 
deixa de ser um problema aos olhos do leitor. 
Finalmente, é sempre bom lembrar que a tentativa de 
cegamento/sigilo de alocação não necessariamente garante, na prática, que 
o cegamento vai funcionar. Em muitos estudos que investigam 
medicamentos, os efeitos colaterais dos medicamentos podem fazer com 
que o participante perceba que está recebendo a intervenção. Isso só seria 
contornado caso o grupo placebo recebesse um “placebo ativo” – ou seja, um 
composto que cause sintomas similares ao medicamento oferecido ao grupo 
intervenção. Além disso, quando o sigilo de alocação não foi bem feito 
durante a randomização, é possível que o conhecimento da alocação (para 
qual grupo cada participante foi randomizado) por parte dos investigadores 
61 
 
influencie no tratamento de forma diferente entre os grupos, 
consequentemente gerando resultados potencialmente enviesados. 
Como você pôde perceber,existem vários níveis de cegamento. A 
literatura científica ainda faz uso predominante de nomenclaturas que 
simplificam o relato do cegamento, quando dizem que o estudo foi “single-
blind”, “double-blind” ou “triple-blind”. Na verdade, apesar de podermos 
deduzir quem foi cegado, é impossível ter certeza de quem estava cegado 
quando os autores apenas descrevem isso em termos gerais apenas. 
Normalmente, assumimos que um estudo double-blind fez cegamento para 
os investigadores que aplicaram a intervenção e os participantes – mas isso 
exige uma suposição. O ideal é que os autores especifiquem o nível de 
cegamento junto às partes que estavam cegadas. Por exemplo, em vez de 
escrever triple-blind, os autores devem escrever “os participantes, os 
investigadores encarregados de aplicar as intervenções e os avaliadores dos 
desfechos estavam cegados”. 
O processo de randomização foi adequado? 
 O uso da randomização é a “varinha mágica” dos estudos científicos. É 
com ela que a gente garante que, dado tamanho amostral adequado, ambos 
grupos terão prognóstico idêntico se a gente não intervir em absolutamente 
nada. Isso significa que dois grupos 
criados de forma aleatória (através 
da randomização, ou “aleatorização”) 
terão os mesmos resultados em um 
estudo que não aplicou intervenção 
alguma. Sendo assim, fica nítido que, 
a partir do momento que nós 
adicionarmos uma intervenção em um grupo e não adicionarmos essa 
62 
 
intervenção no outro grupo, a diferença final entre os grupos será atribuível 
apenas à intervenção em estudo. 
 
 
 Quando um estudo relata o processo de randomização de forma 
completa, tendemos a confiar mais na similaridade prognóstica entre os 
grupos estudados. Abaixo, vemos dois exemplos de descrições adequadas 
de randomização. 
Exemplo 1: randomização simples em 1:1 
“We generated the two comparison groups using simple randomization, with an equal 
allocation ratio, by referring to a table of random numbers.” 
Exemplo 2: randomização por blocos aleatórios em 1:1 
“We used blocked randomization to form the allocation list for the two comparison 
groups. We used a computer random number generator to select random permuted 
blocks with a block size of eight and an equal allocation ratio.” 
63 
 
 O que ocorre em muitos artigos é o seguinte: os autores descrevem 
apenas que o estudo foi “randomizado”. E só. Às vezes, até dizem “nós 
utilizamos um método de alocação aleatória”, e outras vezes essa informação 
consta apenas no título e/ou no resumo. Isso não é suficiente para deixar o 
leitor confiante de que o estudo foi realmente randomizado. 
Como identificar problemas no processo de randomização? 
 Uma ótima estratégia para avaliar se o processo de randomização foi 
problemático ou não é avaliando os valores na linha de base para cada 
grupo. O que isso significa? Simples: vamos olhar para a tabela 1 do estudo, 
que descreve as características clínicas e gerais dos participantes de cada 
grupo (dica: se o estudo não apresenta uma tabela dessa, nossa confiança 
nos resultados apresentados é drasticamente reduzida), e vamos comparar 
os dois grupos em relação aos valores de diversas variáveis no início do 
estudo. Caso haja diferenças claramente além do que seria esperado que 
fossem haver ao acaso, podemos saber que alguma coisa aconteceu durante 
a randomização, pois os grupos não começaram iguais! Talvez os grupos 
sejam desiguais por acaso (mesmo com randomização, isso é possível), talvez 
o processo de alocação tenha sido subvertido. Com desbalanços em 
variáveis importantes, é possível que um grupo tenha prognóstico muito 
melhor do que outro, e o resultado final poderá ter sido enviesado 
justamente por essas diferenças de fatores prognósticos, e não 
necessariamente ser reflexo do efeito da intervenção sendo testada. 
 
64 
 
 A imagem anterior apresenta um exemplo (exagerado) de diferenças 
grandes em diversos fatores prognósticos importantes. Fica evidente, aqui, 
que o grupo intervenção tem pior prognóstico: é mais velho, tem maior 
média de IMC, tem mais homens, maior frequência de tabagistas e pior perfil 
lipídico e controle pressórico. Se o desfecho em estudo for fortemente 
impactado por esses fatores, podemos ter certeza que o grupo intervenção 
já está em grande desvantagem! Isso significa que o efeito benéfico do 
tratamento, se existir, provavelmente será subestimado ou completamente 
anulado. 
 Diferenças drásticas entre os grupos no início do estudo podem ter 
ocorrido por uma tentativa deliberada dos autores de subverter o processo 
de randomização: eles podem ter alocado pacientes de melhor (ou pior) 
prognóstico para um grupo específico. No entanto, isso também pode ter 
acontecido por ações não-intencionais ou erros que ocorreram 
simplesmente porque o estudo não foi bem desenhado para se resguardar 
desses vieses. Ao avaliar a tabela 1 do estudo, o ideal é que não haja 
diferenças clinicamente relevantes nos principais fatores prognósticos para 
o desfecho sendo avaliado. Por exemplo, se o desfecho é “evento 
cardiovascular”, não podemos aceitar que logo no início do estudo haja 
diferenças importantes em LDL-colesterol, idade, IMC ou frequência de 
tabagismo. Esses são fatores muito importantes que causam evento 
cardiovascular, e um desbalanço entre grupos nestes fatores poderia ser 
responsável por enviesar de forma importante os resultados finais, de 
maneira que não poderíamos confiar se a diferença no risco de evento 
cardiovascular entre os dois grupos foi realmente por causa da intervenção 
aplicada ou por causa dos diversos fatores de risco desbalanceados entre 
grupos. Da mesma forma, desbalanços em fatores prognósticos podem 
enviesar um resultado para a nulidade: considerando que o grupo que 
65 
 
começou pior era o grupo intervenção e o efeito do medicamento realmente 
existe, e reduziria o risco de eventos cardiovasculares em 15%. No entanto, 
como o grupo intervenção começou muito pior por diversos fatores 
prognósticos, o resultado final foi nulo (RR = 0.98; 95%IC, 0.92 – 1.05). Isso 
aconteceu justamente porque o grupo intervenção estava fadado a piores 
desfechos simplesmente por ter tido pior prognóstico inicial do que o grupo 
placebo. O efeito desses fatores aumentou tanto o risco de eventos no grupo 
intervenção que ele completamente mascarou o benefício do medicamento. 
Uma comparação mais justa, em que ambos grupos fossem similares em 
relação aos diversos fatores de risco no início do estudo, poderia ter 
demonstrado o real efeito do medicamento (por exemplo, RR = 0.85; 95%IC, 
0.79 – 0.92). 
 Exemplo 2 
Ensaio clínico randomizado sobre o efeito de esteroides anabolizantes 
em pacientes adultos com doença pulmonar obstrutiva crônica (DPOC). 
Trata-se de um estudo pequeno, que descreve o processo de randomização 
da seguinte maneira: 
 
“The patients were randomly allocated into two groups (eight patients/group): 
patients receiving placebo injections and patients receiving anabolic steroid 
(nandrolone decanoate) treatment. The total duration of the study was 16 
weeks. Both anabolic steroid and placebo were administered by deep 
intramuscular injection in a double-blind fashion every 2 weeks for the entire 
duration of the study” 
66 
 
 O processo de randomização não foi detalhadamente relatado: os 
autores simplesmente dizem que os participantes foram “aleatoriamente 
alocados em dois grupos”. Além disso, temos um problema adicional: o 
tamanho amostral é muito pequeno (apenas 16 participantes no total, 8 em 
cada grupo). Isso significa que a chance de criar grupos dissimilares em 
relação a fatores prognósticos é muito grande! Nesses casos, os autores 
poderiam ter lançado mão de uma poderosa estratégia: a randomização 
estratificada. Esse tipo de randomização garante que os grupos sejam 
similares em relação a um fator prognóstico importante e outras covariáveis 
a ele correlacionadas.Suponhamos que idade ou peso corporal inicial sejam 
fatores prognósticos altamente relevantes para os desfechos do estudo 
(massa muscular e capacidade funcional). Seria interessante se pudéssemos 
escolher uma ou duas variáveis para garantir que sejam iguais entre os 
grupos, não seria? É justamente isso que a randomização por estratificação 
faz. Por exemplo, poderíamos separar os participantes acima de 60 anos e 
os participantes abaixo de 60 anos em dois grupos, e em seguida realizar a 
randomização simples de cada uma dessas categorias para cada um dos 
grupos em estudo. Isso reduz muito a chance de diferenças importantes em 
idade entre os dois grupos. De brinde, podemos até reduzir a chance de que 
outros fatores prognósticos que também estão associados à idade sejam 
diferentes entre os grupos! A imagem abaixo ilustra melhor o esquema da 
randomização por estratificação, comparado à randomização simples. 
67 
 
 
 O que aconteceu aqui foi o seguinte: na randomização simples, 
poderíamos ter, por acaso, criado dois grupos muito dissimilares em relação 
à idade. Para reduzir o risco de isso ocorrer, primeiro separamos a amostra 
entre os mais velhos e os menos velhos com um ponto de corte arbitrário de 
65 anos de idade. Em seguida, realizamos duas randomizações simples: 9 
indivíduos acima de 65 anos são randomizados para intervenção ou controle; 
e 7 participantes abaixo de 65 anos são randomizados para intervenção ou 
controle. No final, os grupos intervenção e controle ficaram similares entre 
si em relação à idade, conforme ilustrado na tabela abaixo (valores fictícios): 
 
68 
 
 Vejamos agora o que 
aconteceu de fato no estudo dos 
esteroides para DPOC. A tabela ao 
lado descreve as características na 
linha de base para ambos grupos 
(controle e intervenção). 
 É evidente que houve uma 
grande discrepância entre grupos 
em relação a diversos fatores 
prognósticos importantes: o grupo 
intervenção era mais velho, tinha 
melhor volume expiratório forçado, mais peso corporal e melhor capacidade 
funcional. O grupo intervenção era um grupo sistematicamente mais 
saudável do que o grupo controle, com melhores fatores prognósticos. 
Nesse caso, a intervenção (nandrolona) não foi capaz de melhorar os 
desfechos avaliados e, por isso, o medicamento foi considerado ineficaz. Mas 
será que podemos dizer que o resultado final sem diferença entre grupos 
ocorreu porque a intervenção realmente não tem efeito, ou por outras 
razões? Eu, particularmente, consigo enxergar razões pelas quais o grupo 
intervenção não se favoreceria mais do que placebo recebendo um esteroide 
anabolizante: o grupo intervenção já é mais saudável e de melhor 
prognóstico; logo, o potencial para esse grupo melhorar ainda mais durante 
o estudo seria muito pequeno, quase nulo. Na realidade, a tendência deste 
grupo é sofrer com regressão à média, e piorar espontaneamente ao longo 
do tempo. Isso significa que os esteroides poderiam até causar um pequeno 
a moderado benefício, mas isso seria mascarado pelo fato de os 
participantes terem pouco potencial de melhora na linha de base somado a 
uma possível regressão à média. 
69 
 
Além disso, os participantes no grupo placebo tendem a melhorar 
espontaneamente simplesmente porque eram inicialmente de pior 
prognóstico, o que enviesa mais ainda os resultados a favor da nulidade. Se 
o grupo placebo começa com performance, peso corporal e capacidade 
respiratória abaixo da média, a tendência é que, por regressão à média, os 
participantes melhorem espontaneamente simplesmente com o tratamento 
usual e com o passar do tempo. Temos aqui um cenário em que: o controle 
estava pior do que a média, potencialmente regredindo à média 
(melhorando espontaneamente); e o grupo intervenção estava melhor do 
que a média, tendo pouca oportunidade para melhorar e potencialmente 
regredindo à média (piorando espontaneamente). O leitor mais familiarizado 
com o tema poderia, ainda, questionar se faz algum sentido testar o uso 
isolado de esteroides para pacientes com DPOC sem uma co-intervenção de 
exercício ou fisioterapia. É plausível que apenas o medicamento seja 
suficiente para causar benefício, sem exercício associado, nesse tipo de 
paciente? Infelizmente, a dura realidade é que este é mais um estudo 
inconclusivo na literatura científica. Ele não nos dá confiança alguma para 
acreditar nos resultados finais, e terminamos de ler o estudo com a mesma 
dúvida que começamos: será que nandrolona ajuda pacientes com DPOC? 
 
70 
 
CAPÍTULO IV. Ameaças à validade 
 Há cerca de 50 anos, Campbell e Stanley elaboraram um super 
catálogo de ameaças à validade, descrevendo razões pelas quais estudos 
experimentais poderiam falhar em demonstrar resultados verdadeiros. Esse 
conceito dá luz a quatro tipos de validade: 
● Validade interna: até que ponto a associação encontrada no estudo 
corresponde a uma relação verdadeira entre exposição e desfecho? 
● Validade da conclusão estatística: uso apropriado de métodos 
estatísticos para avaliar a relação entre as variáveis sob estudo. 
● Validade de construto: até que ponto as variáveis mensuradas 
capturam os conceitos que os autores tiveram intenção em capturar 
com essas medidas? 
● Validade externa: até que ponto os resultados desse estudo podem 
ser generalizados? 
AMEAÇAS À VALIDADE INTERNA 
Quando avaliamos qualquer estudo que queira estabelecer uma 
relação entre duas variáveis (por exemplo, associação entre consumo de 
peixe e redução de morte cardiovascular), precisamos sempre 
questionar: existem outras explicações que poderiam explicar essa 
aparente associação encontrada no estudo? 
Cada tipo de validade possui uma série de ameaças à sua respectiva 
validade, que vão ficar expostas mais adiante nas tabelas desta seção do 
livro. A validade interna é provavelmente o tipo de validade que as 
pessoas mais se preocupam, e a ameaça mais frequente é o viés de 
confundimento (uma espécie de “viés de seleção”). O viés de 
confundimento é apenas uma das nove ameaças à validade interna de 
um estudo, conforme exposto na tabela da próxima página.
71 
 
 
Ameaças à Validade Interna 
Nome da ameaça Definição 
Temporalidade incerta 
Não é claro se o desfecho ou exposição ocorreu primeiro, o que pode causar confusão entre qual variável é causa e qual é 
consequência 
Seleção 
Diferenças sistemáticas nas características dos indivíduos podem afetar o desfecho além da exposição (ou intervenção) de 
interesse, o que pode criar associações confundidas 
Confusão por eventos 
concorrentes 
Eventos ocorrendo concorrentemente com a exposição podem ser os verdadeiros responsáveis por causar os desfechos, o 
que pode ser confundido com um efeito causal da exposição 
Maturação 
(ou história natural) 
Mudanças que ocorrem naturalmente ao longo do tempo podem ser confundidas com um efeito da exposição, fazendo 
parecer que a exposição causou (ou contribuiu) para o desfecho 
Regressão à média 
Quando os pacientes são selecionados para entrar no estudo com base em valores extremos (ex: IMC > 40, P.A > 140, HDL < 
25), esses pacientes naturalmente vão ter valores menos extremos em medidas subsequentes, fazendo com que melhorem 
espontaneamente, e isso pode ser confundido com um efeito da exposição/intervenção 
Testagem 
A própria aferição do desfecho pode influenciar no prognóstico de forma que o paciente melhore, e isso pode ser 
confundido com o efeito de uma intervenção (ex: o ato de pesar o paciente pode motivá-lo e contribuir para mais perda de 
peso, a despeito da intervenção que está sendo aplicada). Similar ao “efeito Hawthorne”. 
Instrumentação 
A forma de medir o desfecho pode mudar, ao longo do tempo ou conforme outras condições, o que poderia ser confundido 
com um efeito de uma exposição (ex: critério diagnóstico de uma doença pode mudar, aumentando a sensibilidade e o 
número de pessoas identificadas como doentes; esseaumento poderia ser atribuído a uma exposição sem relação direta 
com o desenvolvimento da doença) 
Atrição 
Falta de dados por ausência de aferição ou perda de acompanhamento. Essa ausência de dados pode causar efeitos 
artificiais se o mecanismo que gerou a falta de dado está sistematicamente correlacionado com outras variáveis 
prognósticas (ex: um fator X é responsável por causar a falta de dados ou desistência dos participantes e também é 
responsável por causar piores desfechos; dessa forma, os participantes que têm dados completos e que permanecem no 
estudo têm melhores desfechos do que os que saíram). 
Efeitos aditivos e interativos 
entre diferentes ameaças à 
validade 
O impacto de uma ameaça (das oito acima descritas) pode ser adicional a outra ameaça. Ainda, diferentes ameaças à 
validade podem interagir entre si. Por exemplo, é possível que Atrição cause viés de Seleção. 
72 
 
AMEAÇAS À VALIDADE DA CONCLUSÃO ESTATÍSTICA 
Essas ameaças ocorrem quando não foram conduzidas análises 
estatísticas apropriadas. O que são análises apropriadas? 1) Métodos que 
evitem erro aleatório (garantindo o máximo de poder estatístico); 2) uso de 
testes corretos para os tipos de variáveis e distribuição de dados do estudo; 
e 3) a interpretação adequada dos resultados produzidos pela análise 
estatística. Como o intuito deste eBook não é o aprofundamento em como 
interpretar e analisar a análise estatística de artigos, vamos nos ater a 
visualizar e tomar conhecimento de quais são os problemas mais usuais que 
afligem as inferências estatísticas e podem reduzir nossa confiança nos 
resultados finais. 
Ameaças à Validade da Conclusão Estatística 
Nome da Ameaça Definição 
Baixo poder estatístico 
O estudo pode incorretamente concluir que não há associação entre 
tratamento e desfecho (erro tipo II). Além disso, baixo poder reduz 
drasticamente a confiança nos resultados por imprecisão. 
Violação das suposições 
dos testes estatísticos 
Tudo na estatística segue suposições, e determinados testes requerem que 
algumas suposições sejam cumpridas para que façam sentido. Violar 
suposições pode fazer com que os testes super ou subestimem a magnitude 
dos resultados, assim como a sua precisão. Os autores devem relatar como 
atenderam às suposições dos testes utilizados. 
Multiplicidade de testes 
Quanto mais arremessos um jogador de basquete faz, maior é a chance de que 
algum ele acerte. Na estatística é a mesma coisa: quanto maior o número de 
hipóteses sendo testadas, maior é a probabilidade de um achado ser 
estatisticamente significativo simplesmente ao acaso (erro tipo I). 
Pobre reprodutibilidade 
entre as aferições 
Ocorre quando existe um alto grau de erro de aferição: as variáveis são aferidas 
com baixa reprodutibilidade, o que pode levar a conclusões incorretas. 
Pouca acurácia na 
estimativa de tamanho 
de efeito 
Alguns métodos estatísticos sistematicamente super ou subestimam a 
magnitude de algum efeito sendo analisado (ex: em algumas situações, o uso 
de odds ratio superestima a associação comparado ao uso de risco relativo). 
Restrição da amplitude 
Limitar o valor máximo (ou mínimo) que se pode aferir de uma variável, em 
geral, enfraquece a relação entre essa variável e outra (ex: incapacidade de 
medir glicemias muito baixas pode enfraquecer a relação entre hipoglicemia e 
alguma outra exposição ou desfecho). 
Heterogeneidade dos 
participantes 
Excesso de variabilidade no desfecho tende a aumentar a variância, o que 
aumenta erro aleatório e dificulta a detecção estatística de uma relação 
verdadeiramente significativa (pois os resultados perdem precisão). 
73 
 
AMEAÇAS À VALIDADE DE CONSTRUTO 
Um construto é uma ideia (ou conceito) que o investigador pretende 
capturar ou medir dentro de um estudo científico. Em um estudo que precisa 
medir o hábito dos participantes de consumir alimentos ultra processados 
(construto), os investigadores podem lançar mão de vários métodos 
diferentes de aferição: perguntas dicotômicas sobre o consumo usual de 
ultra processados dos participantes, ou o uso de questionários validados, 
escalas Likert, recordatório alimentar, questionários elaborados pelos 
próprios autores, e por aí vai. Podemos imaginar que “consumo de alimento 
ultra processado” é um construto que pode ser bem captado por um método 
adequado, da mesma forma como ele pode ser mal representado por um 
método inadequado. Isso já deixa claro como a validade do construto é 
fundamental para entender se aquilo que os investigadores estão medindo 
é de fato o que eles se propuseram a medir. 
A validade de construto basicamente se refere a capacidade do estudo de 
captar os construtos que ele deveria conseguir captar através de suas 
aferições. Qualquer problema nessa etapa do estudo afeta diretamente na 
interpretação dos resultados e na atribuição dos efeitos observados (será 
que X explica Y mesmo, ou são outras coisas que estão sendo medidas não-
intencionalmente e “poluindo” nossa variável, criando resultados espúrios?). 
Validade de construto é importantíssima, principalmente para estudos 
observacionais, então vamos elaborar um pouco melhor com um exemplo 
contextualizado. 
 
Suponha que você queira medir a experiência dos médicos em atender pacientes com 
COVID-19. De que forma você pretende definir a variável “experiência”? Qual é a 
informação que será coletada para representar esse construto (“experiência”)? 
74 
 
Poderíamos simplesmente perguntar para cada médico se ele já 
atendeu pacientes com COVID-19, e computar isso como “sim” ou “não”. 
Até faz sentido, mas na categoria “sim” (já atendeu) provavelmente 
teríamos médicos com níveis de experiência muito variados: alguns 
podem ter atendido apenas 1 ou 2 pacientes, enquanto outros podem ter 
atendido mais de 1000. 
Bom, provavelmente a pergunta “você já atendeu paciente COVID-19?” 
não captura informação de forma suficiente para representar bem o 
nosso construto (experiência com COVID). Que tal agora perguntar o 
número de pacientes COVID-19 que cada médico atendeu? Talvez isso 
possa capturar melhor o nível de experiência: quanto mais COVID eu 
atendo, mais experiente eu sou! No entanto, é possível que médicos que 
atenderam por volta de 100 pacientes graves tenham desenvolvido mais 
experiência do que médicos que atenderam 500 pacientes com sintomas 
leves, que não necessitaram de hospitalização ou suporte ventilatório. 
Será que simplesmente contar o número de pacientes COVID-19 é uma 
forma acurada de medir o construto que estamos interessados 
(experiência em atendimentos COVID-19)? Considerando que nem todo 
paciente tem o mesmo grau de complexidade, o número de pacientes 
provavelmente é uma forma bem primitiva e pouco informativa para 
capturar bem o construto “experiência”. Nesse caso, inclusive, 
enfrentaríamos um grande problema: a tendência de médicos que 
atendem casos mais leves e menos complexos é de que atendam um 
maior volume de pacientes, enquanto os médicos que tratam casos mais 
complexos tendem a atender um número relativamente menor. Nesse 
caso, a medida de experiência com base no número de pacientes 
atendidos estaria gravemente enviesada: médicos com altíssimo número 
de atendimentos provavelmente não seriam os mais experientes. 
75 
 
Obviamente, é bem melhor utilizar o número de pacientes atendidos do 
que simplesmente perguntar se o médico já atendeu ou não COVID, mas 
ainda há muito o que melhorar nessa forma de medir experiência. 
“Certo, mas isso tudo importa para mim, um mero leitor? Isso não é 
problema dos cientistas que produzem artigos?!” Sim, isso importa 
principalmente para o leitor de artigos. Para interpretar a relação entre 
as variáveis do estudo precisamos entender como elas foram medidas e 
com qual intenção elas foram medidas (eu medi o número de pacientes 
atendidos para representar experiência). Dessa forma, nós podemos 
avaliar se essa variávelrepresenta realmente o que os autores quiseram 
que ela representasse, e se nela está contida a quantidade e o tipo de 
informação que deveria conter. Medir experiência com COVID-19 
baseado na pergunta simples de “sim ou não” provavelmente não 
captaria muita informação útil. Isso significa que em qualquer análise que 
fosse comparar a associação entre experiência e algum desfecho, o 
resultado gerado provavelmente não seria conclusivo para nada, seja ele 
nulo, positivo ou negativo! Se médicos que atenderam 1 paciente e 
médicos que atenderam 1000 pacientes foram classificados na mesma 
categoria (experientes), essa categoria obviamente não tem poder 
discriminatório algum, o que torna qualquer análise com essa variável 
completamente não-informativa, e potencialmente enganosa (porque, 
por acaso, seria até possível gerar associações estatisticamente 
significativas que não existem na vida real – o que chamamos de achados 
espúrios). 
 
76 
 
CAPÍTULO V. Como interpretar um corpo de 
evidência de ensaios clínicos randomizados? 
Você tem acesso a uma metanálise completa e atualizada sobre a 
questão clínica de seu interesse, e nela foram incluídos diversos ensaios 
clínicos randomizados. É possível julgar o risco de viés de cada estudo (de 
preferência, os autores devem ter feito isto para você, descrevendo 
explicitamente quais foram as razões por trás dos julgamentos para 
classificar o risco de viés de cada estudo). Caso os autores não tenham feito 
isso, é um trabalho extra (mas importante) que deve ser feito por você: será 
que eu posso confiar nos resultados da metanálise sem saber antes o quão 
confiáveis são os estudos incluídos? Hora de checar um por um. 
Quando temos informações sobre o risco de viés dos estudos, tenha 
sido isso julgado pelos autores da revisão ou por você mesmo, devemos 
decidir duas coisas: 
1) perdemos confiança nos resultados da metanálise? 
2) se sim, o quanto de confiança perdemos? 
Grau do risco de 
viés 
Risco de viés dentre todos 
os estudos 
Interpretação 
Poucas limitações, 
não há motivo para 
preocupação 
Maioria da informação 
disponível vem de estudos com 
baixo risco de viés 
Evidência de alta qualidade: o efeito verdadeiro 
é provavelmente próximo do estimado 
Limitações sérias, 
certo motivo para 
preocupação 
Maioria da informação 
disponível vem de estudos com 
moderado risco de viés 
Qualidade da evidência é moderada: o 
verdadeiro efeito é provavelmente próximo do 
estimado, mas é possível que seja muito diferente 
Limitações muito 
sérias, motivo para 
grande preocupação 
Maioria da informação 
disponível vem de estudos com 
alto risco de viés 
Qualidade da evidência é baixa: o verdadeiro 
efeito pode ser muito diferente da estimativa 
apresentada pelos estudos 
 
 
77 
 
EXEMPLO APLICADO: METANÁLISE DE FLAVONOIDES PARA 
TRATAR DOR E SANGRAMENTO ASSOCIADO A HEMORROIDAS 
(Meta-analysis of flavonoids for the treatment of haemorrhoids, doi: 10.1002/bjs.5378) 
 O desfecho primário foi “persistência de sintomas”. A maioria dos 
estudos incluídos não descreveu de forma suficiente o processo de 
randomização ou sigilo de alocação: temos dúvidas em relação a isso (como 
foi feito? Será que realmente foi feito?). Além disso, a maioria dos estudos 
não seguiu o princípio da intenção de tratar para análise de dados (ou seja, 
não analisou todos os participantes randomizados) e também não 
disponibilizou os dados necessários para que a análise correta fosse 
realizada, o que poderia ter sido aproveitado pelos autores da metanálise. 
Esses pontos já seriam 
suficientes para reduzir um 
pouco a confiança nos 
resultados finais. Bom, mas 
nem todos os estudos são 
problemáticos, certo? Que tal confiar mais nos resultados dos estudos de 
melhor rigor metodológico (ou seja, os de menor risco de viés)? Isso é uma 
ótima ideia! Evidentemente, quando existem poucos estudos, vamos sofrer 
uma consequência: a perda de precisão nos resultados. Se com 9 estudos o 
risco relativo teve intervalo de confiança de 0.28 a 0.61, ao analisar apenas 
os 4 melhores estudos nós definitivamente perderemos certo poder 
estatístico, pois menos participantes seriam incluídos na análise final. Um 
intervalo de confiança mais amplo seria, por exemplo, de 0.34 a 0.79. O 
resultado ficou mais impreciso em termos estatísticos, mas mais 
confiável em termos metodológicos (sabemos que os estudos que 
produziram essa estimativa são de maior qualidade). 
Quando os estudos não analisam 
de forma adequada, mas pelo 
menos deixam possível fazer uma 
reanálise, os autores da revisão 
podem (e devem) fazer isso! 
78 
 
Um detalhe importante dessa metanálise: nenhum estudo utilizou 
métodos validados para medir sintomas (falamos sobre isso na seção de 
validade de construto). Mas será que isso é um problema, necessariamente? 
Quando estamos falando de risco de viés, nosso interesse é identificar 
razões pelas quais poderiam haver vieses sistemáticos causando uma 
diferença no efeito final demonstrado pelo estudo. Nossa pergunta aqui, 
então, é a seguinte: a falta de validação dos questionários utilizados para 
medir sintomas poderia ter causado um viés sistemático nos resultados? 
Quando lemos os estudos, isso não parece ser o caso: os investigadores 
estavam cegados, e os questionários eram simples e transparentes. Essas 
condições não nos fazem pensar que o resultado final pode estar enviesado 
para alguma direção em particular (favorecendo controle ou favorecendo 
intervenção). No máximo, uma forma não-validada de medir sintomas 
poderia te causar a seguinte preocupação: será que esses resultados são 
aplicáveis? Será que eu posso considerar que os sintomas estão realmente 
sendo medidos de forma adequada através desse método? Essas 
preocupações não são relacionadas ao risco de viés, mas sim ao conceito de 
evidência indireta. 
79 
 
Capítulo VI. Formulação de recomendações e 
tomada de decisão 
Uma distinção importante a ser feita é entre a força de uma 
recomendação e o nível da evidência utilizada para criar aquela 
recomendação. Apesar de evidência de alto nível em geral implicar em fortes 
recomendações, isso nem sempre é o caso. Isso acontece porque na 
formulação de recomendações e tomada de decisão na vida real deve-se 
considerar outros critérios importantes além da qualidade da evidência. É 
importante avaliar, ao criar uma recomendação: 
1) o balanço entre benefícios e malefícios; 
2) valores e preferências das partes interessadas; 
3) uso de recursos, financeiros e humanos; 
4) viabilidade, equidade e aceitabilidade; 
5) qualidade da evidência. 
Exemplo 1: recomendação fraca mesmo quando a evidência é de 
alta qualidade apontando benefício de um tratamento 
Existem diversos ECRs comparando a combinação de quimioterapia e 
radioterapia versus apenas radioterapia para câncer de pulmão em estágio 
IIIA. A qualidade da evidência é de alta qualidade: comparado a radioterapia 
sozinha, combinar quimioterapia e radioterapia aumenta a expectativa de 
vida em alguns meses; no entanto, essa intervenção também piora qualidade 
de vida e apresenta outros potenciais malefícios por causa da quimioterapia. 
Considerando os valores e preferências dos pacientes, é possível que não 
valorizem um pequeno benefício no desfecho “sobrevivência” (mesmo que 
com alta qualidade de evidência) frente ao grande malefício em receber a 
intervenção para o desfecho “qualidade de vida”. A recomendação, então, 
80 
 
pode ser fraca a favor da quimioterapia + radioterapia ou, ainda, poderia não 
se recomendar o uso da terapia combinada para esse tipo de câncer! 
Exemplo 2: forte recomendação com base em baixa qualidade da 
evidência 
É de praxe administrar antibióticos o mais rápido possível em 
pacientes com sepse ou infecção grave, embora essa prática não tenha sido 
testada em um ensaio clínico randomizado comparado à prescrição “sem 
pressa” deantibióticos. Mesmo assim, os guidelines tendem a recomendar 
fortemente que se use antibiótico o mais rápido possível com base na 
evidência observacional disponível, classificada como de “baixa qualidade” 
pelos critérios do sistema GRADE. Isso acontece porque os possíveis 
benefícios dos antibióticos claramente superam os malefícios na maioria dos 
pacientes, independente da qualidade da evidência. 
SITUAÇÕES PARADIGMÁTICAS 
Muitas vezes, diretrizes podem fazer recomendações fortes com base 
em evidência fraca ou muito fraca. Isso não é usual! São poucas as 
circunstâncias em que podemos razoavelmente recomendar fortemente 
uma intervenção com base em evidência limitada. Existem pelo menos cinco 
situações paradigmáticas que justificam recomendações fortes a despeito 
de uma baixa qualidade da evidência, como apresentado na tabela abaixo da 
próxima página. 
 
81 
 
Condição Exemplo 
Baixa qualidade da 
evidência sugere benefício 
em uma condição de vida 
ou morte 
Vitamina K em um paciente recebendo varfarina com 
INR elevado e sangramento intracraniano. A evidência 
que dá base para limitar a extensão do sangramento é 
limitada. 
Quando evidência de 
baixa qualidade sugere 
benefício, mas evidência 
de alta qualidade sugere 
malefício e/ou custos 
importantes 
Rastreio de câncer por tomografia computadorizada ou 
ressonância magnética da cabeça aos pés. Evidência de 
baixa qualidade sugere benefício de detecção precoce, 
mas evidência de alta qualidade aponta para possíveis 
malefícios e/ou alto curto (logo, forte recomendação 
contra o rastreio). 
Evidência de baixa 
qualidade sugere que 
duas alternativas são 
equivalentes, mas 
evidência de alta 
qualidade sugere menos 
malefício de uma delas 
Erradicação de H. pylori em pacientes com linfoma 
gástrico em estágio inicial e H. pylori positivo. A 
evidência é de baixa qualidade sugerindo que 
erradicação de H. pylori resulta em taxas similares de 
sucesso terapêutico em comparação com radioterapia 
ou gastrectomia, e há evidência de alta qualidade 
sugerindo menos malefício/morbidade. 
Quando evidência de alta 
qualidade sugere 
equivalência entre duas 
alternativas, mas 
evidência de baixa 
qualidade sugere 
malefício em uma delas 
Hipertensão em mulheres que pretendem engravidar, 
ou durante gravidez. Recomendações fortes podem ser 
feitas para uso de labetalol e nifedipino, inibidores da 
ECA (IECA) e bloqueadores do receptor de angiotensina 
(BRA). No entanto, temos baixa qualidade de evidência 
apontando para maiores efeitos adversos para IECA e 
BRA, o que justifica forte recomendação contra 
IECA/BRA, e a favor de labetalol/nifedipino. 
Quando evidência de alta 
qualidade sugere 
benefícios modestos e 
evidência de baixa 
qualidade sugere 
possibilidade de um dano 
catastrófico 
Testosterona em homens com ou em risco de câncer de 
próstata. A evidência é de alta qualidade apontando 
benefícios modestos da terapia de reposição hormonal 
em homens com deficiência androgênica sintomática 
para melhorar densidade mineral óssea e força 
muscular. No entanto, existe evidência de baixa 
qualidade que aponta grande malefício em pacientes 
com ou em risco para câncer de próstata. 
 
82 
 
Checklist para avaliação crítica dos estudos 
Preciso destacar aqui um ponto muito importante: checklists não são 
autossuficientes para avaliação crítica! É impossível incluir todos os aspectos 
relevantes (e a forma como devem ser analisados) em uma única lista. 
Primeiro, se o checklist fosse o mais completo possível, provavelmente seria 
extenso demais para aplicar na prática e certamente contaria com 
questionamentos redundantes ou, em alguns casos, não aplicáveis ao estudo 
que você está lendo. Do contrário, caso fosse mais enxuto, correríamos o 
risco de não contemplar aspectos que potencialmente poderiam ser 
relevantes. 
Com isso em mente, tiramos o enfoque das listas e formulários para 
avaliar a evidência, que passam a ser exatamente o que elas deveriam ser: 
um material de apoio que pode, no máximo, te nortear. Isso é valioso 
principalmente quando você está desenvolvendo suas habilidades de 
avaliação crítica. Assim como qualquer outra habilidade na vida, existe uma 
curva de aprendizagem que, em média, é compatível com a experiência da 
maioria das pessoas. Dependendo da pessoa e da habilidade que se 
pretende adquirir, é possível que essa curva seja mais íngreme logo no início, 
e você aprenda boa parte (70%) do conhecimento em pouco tempo (modelo 
1). Por outro lado, uma 
curva de aprendizado 
mais gradual pode 
fazer com que se leve 
mais tempo (ou 
esforço) para chegar 
nos 70% (modelo 2). 
83 
 
Felizmente, o conhecimento necessário para avaliar criticamente 
artigos científicos não parece seguir o modelo 2: em pouco tempo de estudo, 
considerando que você tenha acesso a bons materiais e pares que também 
têm interesse em desenvolver essa habilidade, é possível dominar 
praticamente tudo que é necessário para se tornar um leitor de alto nível. 
Até lá, listas e formulários podem ser excelentes recursos. 
 
1. O QUE ESTÁ SENDO AVALIADO? 
Qual é o tipo de estudo? 
Estudos observacionais 
Ensaios clínicos 
randomizados 
Revisões sistemáticas, 
com ou sem 
metanálise 
Qual é o tipo de efeito apresentado? 
Efeito da 
recomendação 
(efetividade) 
Efeito da aderência à 
recomendação (eficácia) 
Efeito de uma 
exposição (associação) 
Qual é o desfecho? 
Grau de subjetividade ou 
objetividade do desfecho 
Grau de importância do desfecho, 
sob determinada perspectiva 
 
 
84 
 
2. CONFIABILIDADE E APLICABILIDADE DOS 
RESULTADOS 
O quão grave é o risco de viés? 
● Viés advindo do processo de 
randomização 
● Viés devido a desvios das 
intervenções pretendidas 
● Viés devido a dados faltantes 
de desfechos 
● Viés na aferição dos desfechos 
● Viés na seleção do resultado 
relatado 
Existem ameaças à 
validade interna do 
estudo? O quão 
problemáticas elas 
são? 
Considerando os critérios 
das caixas ao lado, o 
quão preocupado você 
está? Até que ponto você 
acredita que os 
resultados representam 
uma estimativa não-
enviesada da realidade? 
Quais são os resultados? 
Qual é a magnitude da estimativa de 
efeito do(s) estudo(s)? 
Qual é a precisão (veja intervalo de 
confiança, tamanho amostral e número 
de eventos) da estimativa de efeito? 
Como eu posso aplicar os resultados? 
É possível generalizar os resultados para 
meu(s) paciente(s)? 
Qual é o significado (grau de 
importância) destes resultados para 
meu(s) paciente(s)? 
Os desfechos que eu estou avaliando 
são relevantes para o paciente? 
Qual é o trade off entre as diferentes 
alternativas? Quais são os lados 
positivos e negativos de tomar a 
decisão A e a decisão B? 
 
 
85 
 
Avaliação Crítica: Estudo PARADIGM-HF 
 
BACKGROUND 
Entresto, um medicamento composto por dois princípios ativos 
(sacubitril e valsartana), da Novartis, é um anti-hipertensivo que foi 
comparado ao enalapril para pacientes com insuficiência cardíaca com 
fração de ejeção de, no máximo, 40%. Sacubitril é o novo componente, um 
inibidor de neprilisina, que gera efeito anti-hipertensivo por uma série de 
mecanismos diferentes. Valsartana, por sua vez, é um bloqueador de 
receptor da angiotensina (BRA), bem estabelecido para tratamento da 
hipertensão. O estudo foi publicado no New England Journal of Medicine 
(NEJM) em setembro de 2014. 
RESENHA 
Trata-se de um ensaio clínico randomizado de fase III, duplo-cego, em 
que 8442 pacientes com insuficiência cardíaca foram alocados para receber 
entresto (4187 pacientes recebendo duas doses de 200 mg por dia) ou 
enalapril (4212 pacientes recebendo duas doses de 10 mg por dia). O 
entresto é composto por 40 mg de sacubitril e 160 mg de valsartana. O 
desfecho primário foi um desfecho composto, que incluiu mortalidade 
cardiovascular ou hospitalização por insuficiênciacardíaca. Ao final do 
86 
 
estudo, o desfecho primário foi significativamente menor no grupo entresto 
comparado ao grupo enalapril (21,8% versus 26,5%), com hazard ratio de 0.80 
(IC95%, 0.73 – 0.87, p<0.001) a favor do entresto – ou seja, uma redução de 
risco relativo de 20%. Em relação a mortalidade por qualquer causa, o 
benefício foi de 16% de redução de risco relativo (hazard ratio de 0.84, IC95%, 
0.76 – 0.93, p<0.001) a favor do grupo entresto. Entresto também foi capaz 
de reduzir hospitalização por insuficiência cardíaca, com hazard ratio de 0.79 
(IC95%, 0.71 – 0.89, p < 0.001). Os autores concluem que entresto foi superior 
ao enalapril em reduzir risco de óbito e hospitalização por insuficiência 
cardíaca. 
Figura: curva de Kaplan-Meier para mortalidade por todas as causas 
 
CARACTERIZAÇÃO DO ESTUDO 
Primeiramente, sempre começamos a avaliação crítica com uma 
caracterização do estudo. Aqui é a hora de reconhecer o que foi feito, de 
forma neutra, e sinalizar os lados positivos do estudo. 
87 
 
Os autores publicaram previamente o protocolo de estudo e o plano 
de análise estatística, o que é a uma ótima prática e deve ser valorizada 
(observação: o NEJM exige que um protocolo de análise estatística tenha sido 
definido a priori para que um ECR seja publicado na revista). Isso minimiza a 
possibilidade dos investigadores “caçarem” resultados ao definir formas de 
analisar e apresentar os dados depois que os resultados são obtidos 
(práticas conhecidas como p-hacking, data dredging, data mining, harking e 
cherry picking), o que poderia aumentar as chances de uma conclusão 
positiva para a hipótese dos autores. 
O delineamento é o mais forte possível para demonstrar a efetividade 
de tratamentos farmacológicos: um ensaio clínico randomizado e duplo-
cego. Por questões éticas, seria impossível controlar por placebo (se fosse o 
caso, o grupo controle faria com que pacientes hipertensos com insuficiência 
cardíaca não recebessem tratamento algum), então o grupo controle recebe 
um tratamento usual, comprovadamente efetivo: enalapril (inibidor da 
enzima ECA, ou IECA). O estudo foi adequadamente dimensionado: para 
detectar uma redução de risco relativo de 15%, considerando incidência de 
mortalidade de 7% no grupo controle num período de 34 meses, foi estimado 
que seriam necessários aproximadamente 8000 pacientes para atingir 1229 
eventos (mortes por doença cardiovascular), garantindo ao estudo um poder 
estatístico de 80% com nível de significância de 5%. 
88 
 
 
Todos os participantes randomizados foram analisados de acordo 
com a alocação inicial – ou seja, as análises do estudo seguiram o princípio 
da intenção de tratar, de acordo com o objetivo de demonstrar a efetividade 
do tratamento: o resultado final é o efeito de prescrever entresto comparado 
a enalapril, uma soma de efeito do medicamento + efeito da aderência à 
prescrição. Os desfechos foram avaliados por métodos adequados de 
análise de sobrevivência, definindo os desfechos binários como “tempo até 
o evento” em curva de Kaplan-Meier e modelo de azares proporcionais de 
Cox (do inglês Cox proportional-hazards model), um modelo de regressão 
semi-paramétrico. 
 
Dica estatística: note que o poder estatístico de estudos de mortalidade 
(que utilizam análise de sobrevivência) depende do número de eventos, e não do 
tamanho amostral. Se a incidência de morte fosse maior (por exemplo, 10% em vez 
de 7%) e os investigadores quisessem manter o acompanhamento por 34 meses, o 
tamanho amostral necessário seria reduzido (pois precisariam de menos pessoas 
para atingir os 1229 eventos, já que eles ocorrem mais frequentemente). Agora, se 
os investigadores quisessem acompanhar por apenas 24 meses, seria necessário 
um tamanho amostral maior do que n = 8000 para poder atingir os 1229 eventos 
em menos tempo, considerando incidência de morte de 7%. Nesses casos, dizemos 
que o estudo é “event-driven” – o cálculo foi feito para determinar informação 
estatística necessária, e não número de participantes necessários em si. 
89 
 
AVALIAÇÃO CRÍTICA 
Agora podemos começar com nossos questionamentos. Será que o 
desenho do estudo foi coerente com a questão clínica a ser respondida? O 
que você teria feito diferente? 
Os grupos provavelmente não estavam em condições equiparáveis 
Olhando para a intervenção, faz sentido o que os autores se 
propuseram a fazer? O primeiro ponto que se destaca são as doses dos 
medicamentos. O grupo entresto incluiu 160 mg de valsartana, duas vezes 
ao dia. Isso não é uma dose baixa – muito pelo contrário! Na realidade, 160 
mg é a dose máxima aprovada pelo FDA para valsartana. O potencial de 
redução da pressão arterial nesse grupo já é bem elevado simplesmente pela 
dose de valsartana, independente do outro componente (sacubitril), que 
teoricamente pode contribuir ainda mais para reduzir a pressão arterial. Em 
contrapartida, o grupo controle recebeu apenas 10 mg de enalapril – 
equivalente a metade da dose máxima aprovada pelo FDA. A comparação 
feita nesse estudo, então, é a seguinte: 
● Grupo intervenção (entresto): uma nova droga, sacubitril, que 
não sabemos o efeito em desfechos clínicos + valsartana em dose 
máxima permitida 
● Grupo controle (enalapril): metade da dose máxima permitida 
pelo FDA 
Um ponto importante que devemos questionar: enalapril foi prescrito 
com metade da dose máxima permitida, mas muita gente na vida real usa a 
dose máxima (20 mg, duas vezes ao dia). Será que não temos pessoas no 
grupo enalapril que receberam uma dose menor (10 mg) do que a dose que 
utilizavam normalmente antes do estudo? Vejamos: 
90 
 
 
Bingo. Graças ao material suplementar, sabemos que 1/5 dos 
participantes utilizavam enalapril antes do estudo começar. A média de dose 
de enalapril era de 16,4 mg, com desvio padrão de 8,3. Seria interessante 
saber quantos participantes de fato estavam usando 10 mg e quantos 
usavam 20 mg, mas podemos fazer umas estimativas interessantes com 
conhecimentos básicos de distribuição normal: 
 
O que essa curva nos diz? Dentro do universo de participantes 
utilizando enalapril, considerando que a dose média foi 16,4 mg com desvio 
padrão de 8,3 mg, é possível estimar qual é o percentual de participantes 
utilizando pelo menos 20 mg. A área sob curva em rosa é justamente esse 
valor: são aproximadamente 33%, ou 1/3 dos usuários de enalapril. Sabemos 
então que pelo menos 1/3 dos usuários de enalapril passaram a usar metade 
da dose do anti-hipertensivo usual deles, e possivelmente outros 
participantes que utilizavam outros medicamentos em doses mais potentes 
do que 10 mg de enalapril também foram prejudicados ao serem alocados 
ao grupo controle! 
91 
 
Outro ponto: se o interesse é descobrir o efeito da nova molécula 
(sacubitril), será que a comparação adequada não seria testar sacubitril + 
valsartana comparado apenas à valsartana? Dessa forma, poderíamos isolar 
o efeito apenas do sacubitril. Se essa comparação entre entresto e enalapril 
não te parece justa ou coerente, você não está sozinho. Vamos seguir ao 
segundo ponto. 
O período de run-in pode ter causado um grave viés de 
seleção 
Lembra do nosso grupo entresto, que recebeu um novo anti-
hipertensivo junto com a dose máxima de valsartana? Pois bem, esse alto 
poder anti-hipertensivo no entresto poderia ser preocupante do ponto de 
vista de efeitos colaterais e eventos adversos. No entanto, o estudo 
minimizou esse problema com um período de run-in (ou seja, antes da 
randomização de fato, os participantes receberam entresto por um tempo e 
quem o tolerou mal simplesmente foi sendo excluído do estudo). 
Perfeito, faz sentido verificar se os pacientes toleram o medicamento 
antes da randomização – não queremos perdas de seguimento à toa! O 
grande problema aqui é que esse período de run-in não foi justo entre os 
dois grupos! O grupo entresto permaneceu em run-inpor 4 a 6 semanas, 
enquanto o grupo controle (enalapril) apenas por 2 semanas, antes da 
randomização. Dessa forma, os participantes tiveram mais tempo para se 
acostumar ao entresto, e mais tempo para identificar e excluir os 
participantes não-tolerantes. E pior! O run-in não foi feito em crossover: 
todos os participantes passaram primeiro por 2 semanas de enalapril, e 
depois por 4-6 semanas de entresto, e em seguida houve a randomização. 
92 
 
 
Isso significa que todos os participantes randomizados para entresto 
obrigatoriamente já estavam acostumados a receber entresto há 4-6 
semanas e simplesmente continuaram tomando o medicamento. Somando 
isso ao fato de a amostra inteira do estudo ter sido bem selecionada para 
tolerar o novo medicamento, com mais tempo de adaptação e mais tempo 
para identificar e excluir pacientes que responderam mal, temos um grande 
viés de seleção favorecendo o grupo entresto. O estudo foi desenhado de 
forma que o grupo de participantes recebendo entresto, um anti-
hipertensivo potente, fosse composto por pessoas bem tolerantes ao 
medicamento, comparado à uma dose sub-ótima de enalapril: um cenário 
bem elaborado para demonstrar superioridade de uma nova droga. 
Em suma: 
● Uma nova droga foi combinada à dose máxima de um BRA, e comparada 
com metade da dose máxima de um IECA: ou seja, existe uma 
discrepância muito grande no potencial anti-hipertensivo entre as duas 
prescrições 
93 
 
● É incerto o efeito clínico isolado do sacubitril (nova droga), uma vez que 
entresto é composto em parte por uma dose máxima de valsartana, que 
poderia por si só justificar totalmente o aparente benefício sobre 
enalapril demonstrado neste estudo 
● O estudo fez dois períodos de run-in com durações desiguais e sem 
crossover, o que fez com que o grupo entresto fosse efetivamente criado 
por uma alocação direta de uma amostra já habituada e tolerante ao 
entresto, enquanto o grupo controle foi obrigado a se “reabituar” com o 
enalapril, medicamento que não recebiam há mais de 1 mês 
● Possivelmente muitos participantes poderiam tolerar e se beneficiar de 
uma dose maior de enalapril no grupo controle, mas foram obrigados a 
seguir a prescrição de uma dose sub-ótima de enalapril (a média de 
enalapril utilizado foi 18,9 ± 3,4 – menos da metade da dose máxima de 
40 mg/dia usualmente prescrita; em contrapartida, a média de dose 
recebida de entresto foi de 375 ± 71 mg/dia, que fornece dose próxima 
do limite superior permitido pelo FDA de 320 mg/dia de valsartana). 
 
 
94 
 
CONSIDERAÇÕES FINAIS 
 Antes de se aventurar na literatura científica para praticar a leitura e 
avaliação crítica (que é a atividade que mais vai aprimorar as suas 
habilidades de avaliação), é preciso lembrar as diferenças entre a qualidade 
de estudos individuais e a qualidade da evidência. De que forma você vai 
avaliar a validade interna dos estudos individuais (coortes, ensaios clínicos 
randomizados e revisões sistemáticas, por exemplo)? O uso de instrumentos 
para avaliar o risco de viés (como o RoB 2) e as tabelas de ameaça à validade 
são ótimos recursos que podem te auxiliar nessa etapa. Em seguida, você 
precisa avaliar a qualidade da evidência disponível. De que forma você vai 
conseguir encontrar a melhor evidência disponível, para depois conseguir 
julgar se ela é pouco ou muito confiável? Em geral, buscamos por boas 
revisões sistemáticas e metanálises. Na ausência destes estudos, precisamos 
nos aventurar a buscar e avaliar a validade interna dos estudos primários, 
para depois julgar qual é a qualidade da evidência disponível. Os melhores 
estudos parecem sugerir que o medicamento X tem benefício de 20% de 
redução de óbito, mas o quanto eu confio que esse 20% seja o valor 
verdadeiro da natureza, e não uma estimativa enviesada da realidade? 
Neste eBook, tentei reunir informações relevantes para nortear sua 
interpretação crítica da evidência com exemplos aplicados, de maneira a 
organizar o seu pensamento ao ler a literatura. Eu espero que o conteúdo 
tenha sido proveitoso e te desejo ótimos estudos!

Mais conteúdos dessa disciplina