Prévia do material em texto
CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 1 Medicina Baseada em e v i d ê n c i a s Um resumo do 4º semestre: Informação em Pesquisa e Saúde | 5º semestre: Introdução à Metodologia Científica | 6º semestre: Metodologia Científica e Raciocínio Clínico Baseado em Evidências | da vida. Atualização 7. CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 2 S U M Á R I O PLANO DE ESTUDO BASEADO NO BLOG DE MEDICINA BASEADA EM EVIDÊNCIAS 4 PENSAMENTO CIENTÍFICO 6 PRINCÍPIOS DA MEDICINA BASEADA EM EVIDÊNCIA 8 O RACIOCÍNIO CLÍNICO DEVE SER BASEADO EM PROBABILIDADE 8 O PRINCÍPIO DO NÍVEL DE EVIDÊNCIA 8 O PRINCÍPIO DA HIPÓTESE NULA 8 O PRINCÍPIO DA PLAUSIBILIDADE EXTREMA 9 O PRINCÍPIO DA COMPLACÊNCIA 10 O PRINCÍPIO DA PROVA DO CONCEITO 11 O PRINCÍPIO DA COMPLEMENTARIEDADE 11 OVERDIAGNOSIS 12 CHOOSING WISELY 12 O QUE O PRODUTOR DE CIÊNCIA DEVE SABER? 12 A IDEIA CIENTÍFICA 12 BUSCA DE ARTIGOS 13 LEITURA PRÉ-ARTIGO 13 EVIDÊNCIAS INTERNAS, AUTORES, REVISTA 13 VALOR PREDITIVO 16 COMO SE ESTRUTURA UM ARTIGO CIENTÍFICO 20 ELEMENTOS PRÉ-TEXTUAIS. 20 ELEMENTOS TEXTUAIS 21 ELEMENTOS PÓS TEXTUAIS 22 SIGNIFICÂNCIA ESTATÍSTICA (VALOR DE P) 23 ERROS 25 ERROS ALEATÓRIOS 25 ERROS SISTEMÁTICOS 27 DESENHOS DE ESTUDO 29 CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 3 ASPECTOS INTRODUTÓRIOS DOS DESENHOS DE ESTUDO 29 ESTUDO TRANSVERSAL 33 COORTE 38 CASO CONTROLE 41 ENSAIO CLÍNICO RANDOMIZADO (ECR) 43 QUANDO SE REALIZA UM ECR? 43 A INTERVENÇÃO 44 CONTROLE 44 DESFECHOS 44 PARTICIPANTES 45 RANDOMIZAÇÃO 45 CEGAMENTO 45 CONSIDERAÇÕES FINAIS 46 RANDOMIZAÇÃO 46 INTENÇÃO POR TRATAR/PROTOCOLO 47 MÚLTIPLAS COMPARAÇÕES 47 ANÁLISE POST-HOC 47 ANÁLISE DE SUBGRUPO 47 ANÁLISES INTERINAS 48 ESTUDO TRUNCADO 48 COMO FABRICAR UM P – RISCO DE ERRO DO TIPO I 48 FASES DO ESTUDO 48 COMBINAÇÃO DE ESTUDOS 50 REVISÃO SISTEMÁTICA (RS) 51 A REVISÃO 51 A METANÁLISE 54 EPIDEMIOLOGIA CLÍNICA | MEDIDAS DE ASSOCIAÇÃO E EFEITO 60 INTRODUÇÃO 60 CAUSALIDADE 60 RISCO 62 RISCO ABSOLUTO 63 RISCO RELATIVO 63 MORBIDADE E MORTALIDADE 65 ODDS RATIO 67 HAZARD RATIO 68 NNT E NNH 69 INTERVALO DE CONFIANÇA 71 DIAGNÓSTICO – ACURÁCIA E TESTES DIAGNÓSTICOS 73 ACURÁCIA E PRECISÃO 73 TESTES DIAGNÓSTICOS 74 ANÁLISE DE PROGNÓSTICO – ACURÁCIA PROGNÓSTICA 78 MÉTODOS QUANTITATIVOS 82 ANÁLISE MULTIVARIADA 82 ANÁLISE DE SOBREVIVÊNCIA 83 CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 4 PLANO DE ESTUDO BASEADO NO BLOG DE MEDICINA BASEADA EM EVIDÊNCIAS Esse guia não foi feito por mim. Encontrei nos grupos da faculdade. Se eu soubesse quem o criou, os créditos estariam aqui! Introdução à Medicina Baseada em Evidências Nesta aula introduzimos o conceito de medicina baseada em evidências, demonstramos antíteses representadas por medicina baseada em fantasia ou baseada em autoridade, discutimos a particularidade da mente sapiens em ser crente, introduzimos conceitos de erros aleatórios e sistemáticos. História da MBE http://medicinabaseadaemevidencias.blogspot. com.br/2012/04/o-historia-da-medicina-baseada- em.html Leia – O complexo de Deus https://medicinabaseadaemevidencias.blogspot. com/2014/10/o-complexo-de-deus.html Leia – Medicina pseudocientífica https://medicinabaseadaemevidencias.blogspot. com/search?q=medicina+pseudocient%C3%ADfi ca Vídeo sobre pensamento científico baseado em evidências http://medicinabaseadaemevidencias.blogspot. com/2017/06/conversa-sobre-pensamento- medico.html Oração ao acaso http://medicinabaseadaemevidencias.blogspot. com.br/2014/01/a-oracao-do-acaso.html Ensaio sobre pensamento clínico http://medicinabaseadaemevidencias.blogspot. com.br/2017/02/ensaio-sobre-pensamento- clinico.html Discussão de Artigos Científicos Parte da disciplina sob orientação da Professora Alessandra Caldas. Choosing Wisely – Programa Bem-Estar (vídeo) Link não encontrado! Integridade Científica – Qual o significado de fake News científica? https://medicinabaseadaemevidencias.blogspot. com/search?q=qual+o+significado+de+fake+ne ws SCOT-HEART: como identificar fake-news científica (pré-leitura e leitura) http://medicinabaseadaemevidencias.blogspot. com/2018/08/scot-heart-trial-como-identificar- fake.html Estudos Observacionais: quando confiar, desconfiar ou descartar? http://medicinabaseadaemevidencias.blogspot. com/2018/11/estudos-observacionais-quando- confiar.html Confiabilidade da Causalidade: erros aleatórios e sistemáticos Apresentamos os 3 primeiros princípios da MBE: Hipótese nula, plausibilidade extrema e nível de evidências (vide textos sobre os princípios) Apresentamos os conceitos de erros aleatórios e sistemáticos, definimos significância estatísticas, os tipos de erros aleatórios, os principais tipos de vieses e as soluções metodológicas. Aula essencial para o início da prática de análise crítica da literatura. Textos complementares abaixo. Princípios da Medicina Baseada em Evidências https://medicinabaseadaemevidencias.blogspot. com/2011/10/os-sete-principios-da-medicina- baseada.html Ensaio sobre o Pensamento Lógico - Quarto Princípio da MBE http://medicinabaseadaemevidencias.blogspot. com.br/2011/11/ensaio-sobre-o-pensamento- logico-quarto.html O que é significância estatística? https://medicinabaseadaemevidencias.blogspot. com/2014/07/o-vexame-do-brasil-foi- estatisticamente.html Por que precisamos de estatística (explica o valor de P) http://medicinabaseadaemevidencias.blogspot. com.br/2011/08/porque-precisamos-de- estatistica.html O problema das múltiplas comparações (como criar um falso p < 0,05?) http://medicinabaseadaemevidencias.blogspot. com/2016/10/o-fenomeno-estatistico-do- problema-das.html Como calcular o tamanho da amostra? http://medicinabaseadaemevidencias.blogspot. com/2015/10/como-calcular-o-tamanho- amostral.html Análise da confiabilidade de artigos sobre tratamento https://medicinabaseadaemevidencias.blogspot. com/2012/02/guia-para-analise-critica-de- evidencias.html Check-list para análise de artigo sobre tratamento (importante postagem que lista os erros aleatórios e sistemáticos que devemos procurar) CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 5 http://medicinabaseadaemevidencias.blogspot. com/search?q=check-list O mito do fio dental – exemplo de viés de confusão https://medicinabaseadaemevidencias.blogspot. com/2014/11/o-mito-do-fio-dental.html O mito do exercício e perda de peso – exemplo de viés de confusão http://medicinabaseadaemevidencias.blogspot. com/2015/06/exercicio-e-perda-de-peso-um- mito.html O efeito placebo dos stents http://medicinabaseadaemevidencias.blogspot. com/2017/11/o-efeito-placebo-dos-stents.html Análise de Relevância (impacto) Nesta aula discutimos as medidas de associação que representam a magnitude do dano (exposição) ou magnitude do benefício (tratamento). Abordamos o valor complementar de medidas relativas e absolutas, terminando no paradigma do NNT ou NNH. Quanto menor este número, maior o impacto concreto da exposição ou do tratamento. Risco Relativo X Risco Absoluto https://medicinabaseadaemevidencias.blogspot. com/2012/09/relativo-versus-absoluto.html Tamanho do Efeito http://medicinabaseadaemevidencias.blogspot. com/2017/05/a-verdadeira-magnitude-do-efeito- de-um.html O Paradigma do NNT https://medicinabaseadaemevidencias.blogspot. com/2012/03/magia-do-nnt.html Como calcular o intervalo de confiança do NNT http://medicinabaseadaemevidencias.blogspot. com.br/2014/10/como-calcular-o-intervalo-de- confianca.html Exemplo de decisão baseada em magnitude do efeito http://medicinabaseadaemevidencias.blogspot. com/2017/07/sus-deve-oferecer-medicamentos- cuja.html A confusão entre Risco e Dano http://medicinabaseadaemevidencias.blogspot. com/2016/09/a-confusao-entre-risco-e-dano.html Site Interessantíssimo – The NNT https://www.thennt.com/ O que é Hazard Ratio? https://medicinabaseadaemevidencias.blogspot. com/2010/02/revisao-metodologica-incidence- rate.html O que é Intervalo de Confiança https://medicinabaseadaemevidencias.blogspot.com/search?q=intervalo+de+confian%C3%A7a O que é Odds Ratio (vídeo) https://www.youtube.com/watch?v=he2IyrQcjmE Leitura do Blog – Desfecho Substituto https://medicinabaseadaemevidencias.blogspot. com/2011/04/aliskireno-uma-droga-nao- embasada-em.html Aplicabilidade de Evidência sobre Terapia Depois de discutido como avaliar uma informação científica a respeito da veracidade e como medir sua relevância, discutimos nessa aula como aplicar o dado científico na prática clínica. Como traduzir a informação científica para o paciente individual. Aplicabilidade de Evidências sobre Terapia – Princípio da Complacência (link e texto em pdf) http://medicinabaseadaemevidencias.blogspot. com/2012/07/aplicabilidade-de-evidencias- sobre.html Eficácia versus Efetividade https://medicinabaseadaemevidencias.blogspot. com/2012/01/eficacia-versus-efetividade.html Princípio da Prova de Conceito http://medicinabaseadaemevidencias.blogspot. com/search?q=princ%C3%ADpio+da+prova+do+ conceito Ciência e Julgamento Clínico https://medicinabaseadaemevidencias.blogspot. com/2012/04/evidencia-cientifica-e-o- julgamento.html Análise crítica da relevância terapêutica http://medicinabaseadaemevidencias.blogspot. com.br/2012/03/analise-critica-da- relevancia.html Refinando a Discussão sobre Análise de Relevância Terapêutica – Tenecteplase versus CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 6 Alteplase no AVC http://medicinabaseadaemevidencias.blogspot. com.br/2012/04/refinando-discussao-sobre- analise-de.html A Arte de Prognosticar Mundo Univariado versus Multivariado https://medicinabaseadaemevidencias.blogspot. com/2012/07/mundo-univariado-versus- mundo.html O problema do Univariado https://medicinabaseadaemevidencias.blogspot. com/2012/07/o-pensamento-univariado-e-o- uso.html O que é Análise Multivariada https://medicinabaseadaemevidencias.blogspot. com/2014/11/analise-multivariada-predicao- versus.html Causalidade – Os Critérios de Hill (Chocolate e Prêmios Nobel) https://medicinabaseadaemevidencias.blogspot. com/2012/10/consumo-de-chocolate-e- conquista-de.html Marcador ou Fator de Risco https://medicinabaseadaemevidencias.blogspot. com/2011/09/menopausa-e-doenca- cardiovascular-queda.html A Ciência do Diagnóstico A Ciência do Diagnóstico (slide) O Raciocínio Diagnóstico (slide) - Exemplos de RP e Valor Preditivo O que é Acurácia? https://medicinabaseadaemevidencias.blogspot. com/2011/05/o-que-e-acuracia.html Como analisar criticamente um artigo sobre acurácia http://medicinabaseadaemevidencias.blogspot. com.br/2011/06/como-analisar-criticamente-um- artigo.html Raciocínio Diagnóstico https://medicinabaseadaemevidencias.blogspot. com/2011/07/utilidade-de-metodos- diagnosticos.html Paradigma dos benefícios dos métodos diagnósticos http://medicinabaseadaemevidencias.blogspot. com.br/2011/08/o-paradigma-do-beneficio-de- metodos.html Razões de Probabilidade do Exame Físico (artigo). PENSAMENTO CIENTÍFICO INTRODUÇÃO. • Epistemologia: teoria do conhecimento. • A epistemologia se divide em definição, fontes e possibilidades/limites. • Possibilidade/limites da epistemologia coloca em questão o ceticismo, empirismo e outras correntes filosóficas. DOGMATISMO. • Dogma: conhecimento de teor inquestionável. o Dogmatismo positivo. o Dogmatismo negativo. • Acredita que aparato humano torna possível atingir a verdade absoluta. • Dogma + Humildes: reconhecer que não tem a verdade no momento. >> Sócrates, Platão, Aristóteles. • Dogmáticos: tendem a defender ideias de forma passional. CETICISMO PIRRÔNICO. • Dogmáticos (verdade inquestionável), acadêmicos (impossível encontrar a verdade). • Pirrônicos: sempre procurar a verdade, embora não seja alcançável (mas não podem afirmar que não existe). • Pensar não é um fim, mas uma atividade. • Todas verdades conhecidas são, na verdade, ilusões. • Os pirrônicos são radicais. • Não objetivam refutar dogmas. • Consideram a existência de diferentes e variadas verdades/doutrinas. • Discrepância/Equipolência: verdade que nega e que confirma possuem o mesmo peso. -> suspensão do Juízo (ATARAXIA) -> não valora aceitação ou negação. -> imperturbalidade ou paz de espírito. • Critérios para a ação > o fenômeno (as aparências). • Aplicabilidade científica: paz de espírito. CETICISMO ACADÊMICO. • Caráter moderado. • Objetiva evitar o erro devido à precipitação. • Opiniões mais prováveis/convenientes >> concordar sem juízo. • Ausência de certeza (incompreensibilidade). • Critérios para a ação -> o probabilismo. (provável). CETICISMO MODERNO (MONTAIGNE). • Debate esfria após o segundo século DC -> cristianismo. CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 7 • Retomada no Renascimento. • Sexto empírico (pirronismo) e Cícero (ceticismo acadêmico). • Reforma protestante e a concepção da consciência individual. • Montaigne -> Consolo frente os paradoxos da existência. • Para ele, não há verdade absoluta. • "Racionalizar sobre algo nos deixará triste, aceitar sua limitação em refutar isso". • Aplicação em ciência: duvidar dos autores. • A leitura do artigo começa antes de ler. o É preciso lidar com quem somos (evidências internas/crenças). o Duvidar do que o autor conclui > leitura crítica. Duvidar do autor. RACIONALISMO (DESCARTES) • Objetiva alcançar o grau máximo do saber (verdade). • Duvidar até não ser mais possível (razão x sentidos) • Suspensão do Juízo para alcançar a verdade. • Criar Método > eliminar questões duvidosas e indignas. • Critérios para ação > moral provisória. • Aplicabilidade na ciência: buscar erros. • Ler previamente o resumo, objetivo (hipótese) e conclusão (o que o autor deseja "fique"). EMPIRISMO (DAVID HUME). • Contrapor que pela razão obtém-se conhecimento seguro. • O conhecimento só pode ser obtido através dos sentidos. Nega razão. • Percepções fortes (impressões) e fracas (lembranças). • A prova da verdade > Correspondência no mundo dos sentidos. • Causa X Não garante efeito Y > guilhotina de Hume. • Aplicabilidade científica: fazer experimentos, utilizar os sentidos. CRITICISMO - KANT. • Divide o conhecimento moderno em pré- kantiano e pós-kantiano -> antes e depois da Crítica da Razão Pura. • Possui uma fase pré-crítica (conheceu a obra de decartes) -> conhece hume -> pensamento crítico (maduro). • Divide sua visão crítica em: o Crítica da razão pura. o Crítica da razão prática. o Crítica da faculdade de julgar. • Interessado pela obra científica de Newton - > tese de formação das estrelas, nebulosas, planetas. • Física newtoniana como apogeu da ciência -> factum indiscutível a partir do qual se deve analisar as condições de possibilidade do conhecimento científico. • Cognoscitivo da razão: incoerência que se pode chegar quando se aplica a razão para além da experiência possível. o Quando se deixa de atender a causas concretas e empiricamente determinadas e se extrapola abstratamente a relação causa-efeito, pretendendo determinar "causa primeiro" ou a "causa de todas as causas". o Encontra contradições no racionalismo dogmático. • Sofismas/paralogismos: argumentações errôneas, mas que aparentemente parecem corretos -> ou questões que não são suscetíveis de demonstração. • Kant busca superar ao mesmo tempo as deficiências do racionalismo domático e do ceticismo -> O CRITICISMO É A PROFUNDA TRANSFORMAÇÃO A QUE DEVE SUBMETER-SE O RACIONALISMO, PARA QUE EVITE CAIR NO DOGMATICISMO". • Juízo analítico x juízo sintético. • Kant identificou a natureza e a importância do método científico. Ele acreditava que esse método tinha colocado a física e outras disciplinas no "caminho seguro de uma ciência". • No entanto, sua investigação não parou aí. A questão seguinte foi: "Por que razão nossa experiência de mundo é de tal forma que o método científico funciona?". Em outras palavras, por que nossa experiência científica de mundo é sempre matemática na natureza,e como é sempre possível para a razão humana apresentar questões à natureza? • O primeiro é o que ele chama de "sensibilidade" – nossa capacidade de experimentar diretamente coisas particulares no espaço e no tempo, como este livro, por exemplo. Essa experiência direta ele chama de "intuições". O segundo é o que Kant chama de "entendimento", nossa capacidade de ter e usar conceitos • Aplicabilidade científica: primeiro racionalizo, depois leio. • Ler um artigo não é um processo passivo. o Primeiro penso > segundo procuro uma resposta. CARL SAGAN – O MÉTODO CIENTÍFICO MODERNO. • Carl Sagan -> princípios do pensamento científico -> dogmatismo científico. o Segue Hume e o empirismo. CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 8 • Necessidade de associar evidências à tomada de decisão. • Alerta quanto aos excessos do método científico. • Não há uma doutrina melhor do que a outra. • O mundo é uma fábrica de ilusões e o pensamento científico é um filtro para elas. • No modelo científico moderno, nunca podemos afirmar quando e como um fenômeno vai acontecer. Tudo é incerto, e assim com o uso da estatística, podemos medir nossa incerteza. • Verdade = alto nível de evidência. • Aplicabilidade: cuidado com os excessos! "Ciência é muito mais uma maneira de pensar do que um corpo de conhecimentos." - Carl Sagan PRINCÍPIOS DA MEDICINA BASEADA EM EVIDÊNCIA O RACIOCÍNIO CLÍNICO DEVE SER BASEADO EM PROBABILIDADE Medicina é a arte da probabilidade e a ciência da incerteza - William Osler. A RESOLUÇÃO DE DILEMAS. § Probabilidade -> Desempenho -> Utilidade. § Caso de Angelina Jolie: qual a probabilidade de ela desenvolver câncer de mama? 80-90%. | Tirando a mama, qual é o desempenho desse tratamento na prevenção do risco de câncer de mama? Praticamente 100%. |Trazendo esse tratamento, ele é útil para esse paciente? Leva em conta o aspecto individual do paciente e como esse tratamento impacta em sua qualidade de vida de maneira holística. § A probabilidade vem geralmente de um estudo observacional, provavelmente coorte. O desempenho de um possível ensaio clínico randomizado, mas nesse caso é plausibilidade extrema. A utilidade vem também de estudos que avaliam a qualidade de vida, por exemplo. § A metodologia do tratamento evita viéses cognitivos. O PRINCÍPIO DO NÍVEL DE EVIDÊNCIA • Toda evidência deve passar por uma análise crítica, que indique qual o grau de veracidade e relevância da informação. A depender desta análise, chegamos à conclusão de que o nível de evidência é suficiente para (1) modificar nossa conduta, (2) apenas para gerar uma hipótese, ou (3) não serve para nada. • Algumas pessoas dizem: “a maioria das evidências não é verdadeira, portanto não podemos fazer medicina baseada em evidências.” • Percebam o equívoco. Medicina baseada em evidências existe exatamente para nos trazer ferramentas que resolvam esta questão, separando o joio do trigo, identificando dentre uma infinidade de publicações, quais as evidências modificadoras de conduta. • A depender do objetivo do trabalho científico (avaliar eficácia de terapia, acurácia de método diagnóstico ou valor prognóstico de marcadores de risco), há diferentes aspectos a serem analisados no artigo científico, aspectos estes que procuramos descrever neste Blog. • Médicos precisam desenvolver conhecimento metodológico para analisar evidências. Assim como treinamos exame clínico, precisamos treinar exame de evidências. • Assim, o termo medicina baseada em evidências na verdade quer dizer medicina baseada em evidências científicas de qualidade. Parece uma coisa óbvia, porém percebo que muitos esquecem deste princípio básico. O PRINCÍPIO DA HIPÓTESE NULA ASPECTO CIENTÍFICO. “Um princípio não pode ser considerado verdadeiro antes de sua demonstração. O conhecimento científico se constrói com base na demonstração da veracidade de um fenômeno. Desta forma, a premissa básica é a hipótese nula, que indica que o fenômeno não é verdadeiro. De posse desta premissa, o cientista realiza experimentos (estudos metodologicamente adequados) que se demonstrarem forte grau de evidência positiva, a hipótese nula é rejeitada e ficamos com a hipótese da existência do fenômeno (hipótese alternativa). CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 9 É a violação deste princípio que faz os médicos adotarem condutas sem evidências científicas de eficácia ou segurança, o que pode prejudicar seus pacientes de diversas formas; ou prejudicar o sistema de saúde; ou distorcer a forma como o conhecimento científico deve ser acumulado. – Blog Medicina Baseada em Evidências. Do ponto de vista do acúmulo de conhecimento, devemos seguir sempre da hipótese inicial de que um fenômeno não existe ou de que a ideia não é verdadeira: o ceticismo científico. Assim, toda hipótese é nula até que se prove o contrário. 1. Toda hipótese é remota: difícil inicialmente de ser provada verdadeira. 2. Consequências não intencionais: é mais provável que as consequências não intencionais prevaleçam em relação aos intencionais -> acaso. 3. Benefício modesto: mesmo que o tratamento seja benéfico, os tratamentos benéficos são modestamente benéficos (tratar não é garantia que cure e não tratar não é garantia que morra). A afirmação da existência de algo muda imediatamente o universo se ela for considerada. Por outro lado, deixar de afirmar algo que é verdadeiro não muda o universo de maneira imediata. Portanto, a não detecção de uma verdade (Erro do tipo 2) é um erro menos grave do que a afirmação de algo falso (Erro do tipo 1). Apenas com fortes evidências, abandona-se a hipótese nula. Situações que nos distanciam do princípio da hipótese nula: • Imprevisibilidade: a complexidade dos sistemas. Devido a nossa maneira cartesiana de se pensar. • Ilusões do mundo real. o Acaso (viés de confirmação: buscar, de maneira seletiva, apenas evidências que confirmam a minha crença, descartando da memória evidências de não coincidência). o Erros sistemáticos (fatores de confusão). CONDUTA CLÍNICA. • Conduta baseada na conduta baseada na cultura do fazer - em detrimento do paradigma do desfecho. Variabilidade de conduta médica de acordo com uma região significa fuga ao paradigma da MBE, rejeição do princípio da hipótese nula. • Falta do entendimento probabilístico. (Sendo que a probabilidade de um benefício pode estar sendo antagonizada por um malefício). • Supervalorização do impacto das condutas. (Mesmo havendo um benefício, ele pode ser modesto). Princípio da Hipótese Nula (H0): admite que droga é igual ao placebo. A hipótese alternativa (HÁ/H1): admite que a droga difere de placebo. Toda hipótese é nula até que se prove o contrário (nenhuma hipótese deve guiar condutas na Medicina a não ser que experimentada e provada verdadeira). O PRINCÍPIO DA PLAUSIBILIDADE EXTREMA Situação de exceção em que o benefício de uma conduta é tão óbvio que não há necessidade de demonstração -> Paradigma do Paraquedas (Brit Medical Journal), questiona se deve haver um ensaio clínico randomizado comprovando a eficácia da utilização de tal. Na vigência de plausibilidade extrema, devemos acreditar no fenômeno ou adotar uma conduta médica, independente de demonstração científica. Para entender o que é plausibilidade extrema, utilizamos o paradigma do paraquedas. Percebam que paraquedas representa uma conduta utilizada para reduzir a mortalidade de pessoas que pulam de um avião. Neste caso é tão plausível que o paraquedas vai prevenir a morte que não se realizou um ensaio clínico randomizado (paraquedas vs. placebo) para comparar o desfecho morte entre os dois grupos. Seria até antiético. CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 10 Em medicina, toracotomia em indivíduos baleado no tórax, drenagem de certos abcessos, marca-passo no bloqueio AV total com frequência cardíaca muito baixa, troca valvar em jovem com estenose aórtica crítica, sintomático. Estas são condutas corretamente adotadas sem ensaio clínico randomizado. - Blog.Nesse caso, não se deve esperar evidência científica para adotar a conduta, sendo a única exceção do princípio da Hipótese Nula. Aplicado para casos da Medicina nos quais não existem incertezas. Exemplo: Dar Insulina para indivíduos em cetoacidose diabética. Óbvio que sim! Não há ensaio clínico randomizado para isso. Segundo Luís Cláudio Correia, "o óbvio já é uma evidência". Não confundir plausibilidade (caso do balão intra-aórtico) e plausibilidade extrema. Há casos de plausibilidade moderada, plausibilidade grande, mas que não são extremos. Plausibilidade extrema =/= 100% de eficácia. Plausibilidade extrema =/= gravidade extrema. Paciente grave com parada cardíaca não deve ser submetido a qualquer tipo de conduta apenas pelo seu quadro. Gravidade extrema não é justificativa de fazer "tudo". Uma conduta não comprovada nesse tipo de paciente pode apenas piorá-lo. Há algumas situações de curso clínico inexorável em que, mesmo sem plausibilidade extrema, pode ser feito um tratamento sem evidência ou obviedade desde que não seja de risco. Isso é possível quando o desfecho já é negativo, como de morte ou quando o paciente já é tetraplégico. Desse modo, o tratamento alternativo não tem possibilidade de malefício, logo é possível que se adote tratamento sem evidência. Pois na ausência de possibilidade de malefício, resta um benefício. É plausível que "se há algum resultado, este será benéfico", logo é uma "forma de plausibilidade extrema". - Ressalta-se a necessidade de diálogo com paciente para tomada da conduta. É um risco fazermos algo apenas baseado em plausibilidade menor que extrema. Estamos repletos de exemplos em medicina de que isto não dá muito certo. A terapia de reposição hormonal tinha uma certa plausibilidade de ser benéfica; antiarrítmicos que antes se acreditava prevenir morte súbita, depois demonstraram aumentar morte súbita; drogas inotrópicas positivas (vesnarrinone) são maléficas em pacientes com insuficiência cardíaca, apenas de parecer bom aumentar a contratilidade. E por aí vai, os exemplos são inúmeros. – Blog Medicina Baseada em Evidência. O PRINCÍPIO DA COMPLACÊNCIA • "Uma vez demonstrado um conceito em uma população, este tende a se reproduzir em outros tipos de indivíduos, tanto quanto à existência do efeito, como em relação à sua magnitude. A não ser que exista uma grande razão para se pensar o contrário. • A homogeneidade dos riscos relativos é um fenômeno da natureza que respalda a ampliação da validade extrema. • Isso diz respeito também a variação na forma da intervenção." • Como não há nenhum paciente igual à média das características da amostra estudada. Sempre há variação. Portanto, sempre se há o questionamento da validade externa de uma evidência científica. • Acontece que quando analisamos a metodologia de um estudo, estamos avaliando a validade interna. Mas uma vez concluindo que aquela informação é confiável, devemos pensar na validade externa (se aquilo é aplicável, se pode se reproduzir no paciente em questão). • O princípio da complacência respalda a utilização de evidências indiretas, que são evidências de grande qualidade metodológica, porém que não foram obtidas através de estudos de uma amostra muito parecida com o paciente em questão. • Assim, o princípio nos diz que a grande tendência é que esse benefício/esse fenômeno comprovado no tipo específico de população se reproduza em outros tipos de população, salvo situações em que há grande razão lógica ou biológica para que ele se reproduza. CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 11 • O efeito demonstrado é homogêneo na existência e magnitude em diferentes tipos de pacientes (análise de subgrupos). • Portanto, 40% das condutas respaldadas nas evidências são condutas indiretas. SITUAÇÕES VULNERÁVEIS AO ERRO SE APLICADO O PRINCÍPIO DA COMPLACÊNCIA. • Trade-offs de risco/benefício, onde o benefício se reproduz, mas o risco em certos pacientes é potencializado. (Ex.: Anticoagulação na fibrilação atrial para prevenção de AVC no muito idoso, pois nele o potencial malefício é muito maior). • Tentativa de tratar indivíduos sem alteração no alvo terapêutico intermediário. o Tratar dislipidemia no não dislipidêmico reduz a redução relativa do risco (efeito intrínseco do tratamento). o Utilizar beta-bloqueador em ICC com FE preservada. O PRINCÍPIO DA PROVA DO CONCEITO Uma evidência científica não serve necessariamente para determinar a nossa conduta. Serve para gerar um conceito que vai nortear nossa decisão clínica individual, não criar uma regra para todos os pacientes. "Medicina baseada em evidência não é medicina copiada de artigo. É uma decisão individualizada norteada pelo conceito comprovado em uma evidência científica. A prova do conceito é sobre uma evidência de alta qualidade que nos permite acreditar no que está ali proposto, e acreditar não é o mesmo que copiar." – vídeoaula Dr. Luis Claudio. É um equívoco achar que se há um trabalho mostrando uma terapia benéfica, devemos utilizá-la de imediato no paciente. Primeiro, deve-se individualizar o paciente. Pensar no sofrimento, nos efeitos colaterais, se o benefício é muito tênue. Individualizar para aqueles que precisam mais daquele tratamento, aqueles cujo risco absoluto é maior e isso vá otimizar a magnitude do benefício individual. Um artigo não é uma regra a ser copiada na prática clínica. Ele é, na verdade, apenas um conceito científico que vai nos nortear. Fazer isso previne alguns tipos de erros: § Primeiro tipo de erro: o "encaixotamento" da nossa visão. § Segundo tipo de erro: copiar a metodologia do trabalho na prática clínica. A escolha da população para um trabalho não significa que a intenção é utilizar o tratamento apenas para aquele tipo de paciente. A escolha metodológica do paciente tem mais relação com a intenção de provar o conceito de maneira verdadeira, sem erros (viéses). É o que acontece com estudos de hipertensão arterial que mostram o benefício de anti-hipertensivos em comparação ao placebo. Esses estudos sistematicamente só incluíram pacientes com PA > 160x100 e com muitos fatores de risco para doenças cardiovasculares. Esse tipo de população foi selecionada não para aplicar apenas neles, mas porque o trabalho precisa de uma população de maior risco para metodologicamente obter um grande número de desfechos para então ter poder estatístico e gerar uma evidência de qualidade. Logo, devido ao princípio da complacência, é possível aplicar esse benefício a todos os pacientes hipertensos. O grupo controle também não pode ser copiado. O grupo controle não está sendo testado. O PRINCÍPIO DA COMPLEMENTARIEDADE Ciência e julgamento clínico não são coisas opostas, pelo contrário, são coisas que se complementam. Porém cada um possui um papel diferente. Alguns se opõem à medicina baseada em evidências, pois acreditam que esta prática exclui o julgamento clínico do processo, engessa o médico, o impede de pensar. Pelo contrário, a evidência científica precisa do julgamento clínico para ser empregada. Na verdade, o processo mental de CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 12 aplicação do conhecimento científico é bem mais intenso do que na medicina baseada em receita de bolo. Ex.: Estatina tem NNT de 50, angioplastia coronária em pacientes de diferentes idades. OVERDIAGNOSIS Como médico, devemos beneficiar o doente e não prejudicar o saudável. Não é um diagnóstico errado, porém é um diagnóstico desnecessário. Overdiagnosis previne overtreatment. Exemplo: rastreio de câncer de próstata (PSA) não gera redução da mortalidade. MECANISMO DE OVERDIAGNOSIS. • Rastreamento de doença. • Testes muito sensíveis (troponina, por exemplo). • Incidentalomas. • Definição ampliada de doenças. O que atrai o Overdiagnosis? • Mentalidade do médico ativo (heroísmo médico, medo da omissão). • Crença intuitiva na detecção precoce. • Conflito de interesse. CHOOSING WISELY “Em 2012, o American Board of Internal Medicine iniciou nos Estados Unidosa campanha Choosing Wisely, que hoje se expandiu oficialmente para outros países, como Canadá, Inglaterra, Alemanha, Itália, Holanda, Suíça, Austrália, Nova Zelândia e Japão. Estes países estão agrupados no denominado Choosing Wisely International. Esta iniciativa serve de inspiração para qualquer país que insiste em imitar o padrão americano de consumo de recursos pseudocientíficos. O Brasil é um deles. Choosing Wisely poderia ser traduzido como "usando de sabedoria nas escolhas” ou “escolhendo sabiamente”. Esta iniciativa surge da percepção de que há falta de sabedoria na utilização exagerada ou inapropriada de recursos em saúde. Choosing Wisely é uma campanha que vai ao encontro do paradigma Less is more, já comentado tantas vezes neste Blog. Seria impositivo e mal recebido se o American Board of Internal Medicine iniciasse uma campanha contra condutas normalmente adotadas por especialidades médicas. Desta forma, ao invés de criticar os especialistas, a responsabilidade da autocrítica foi dada a eles. Assim, foi solicitado às especialidades que apontassem condutas médicas correntes que não deveriam estar sendo adotadas. Isto obrigou os próprios especialistas a refletirem e contraindicarem suas próprias condutas fúteis. Outro aspecto enfatizado pelos organizadores é que as recomendações do Choosing Wisely não têm o intuito primário de economizar recursos, mas sim de melhorar a qualidade da assistência, que deve ser embasada em evidências, aumentando a probabilidade de benefício e reduzindo o risco de malefício à saúde dos indivíduos. Além disso, considerando nosso momento atual, vale também salientar que esta não é uma iniciativa governamental nestes países, pelo contrário, é iniciativa da própria sociedade médica. O Choosing Wisely recomenda o que não devemos fazer. Traz um paradigma interessante, pois normalmente somos treinados a discutir o que devemos fazer. Os guidelines falam muito mais no que devemos fazer, do que não devemos fazer. E as recomendações do não fazer (recomendação grau III) normalmente se limitam a condutas comprovadamente deletérias. No entanto, além da prova do dano, há outras razões para não adotarmos condutas. Ou colocado de outra forma, não significa que temos que fazer algo só porque não é deletério.” (Fonte: Trecho retirado da postagem “Choosing Wisely” de 7 de abril de 2015 do blog Medicina Baseada em Evidência de Dr Luis Claudio Correia) O QUE O PRODUTOR DE CIÊNCIA DEVE SABER? A IDEIA CIENTÍFICA "O desafio para se chegar a uma questão de pesquisa não é a falta de incertezas, e sim a dificuldade de se encontrar uma questão importante que possa ser transformada em um plano de estudo factível e válido." Ideia > questão > hipótese > pergunta. 10 PASSOS PARA UMA QUESTÃO. Passo 1: ter educação científica. Passo 2: escolher área de estudo e não estudo. Passo 3: Identificar um mentor e seu grupo de pesquisa. Passo 4: definir a sub-área. Passo 5: compreender o "estado da arte". Passo 6: questionar, buscar lacunas. CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 13 Passo 7: valor, relevância, utilidade da lacuna. Passo 8: é factível no contexto que estou? Passo 9: criar objetivo e justificar a sua ideia de pesquisa. Passo 10: desenvolver o projeto de pesquisa (método). • Participe de eventos da área (nacionais e internacionais). • Ser pesquisador é um emprego, tenha um comportamento profissional. • Busque um mentor que te inspire, mas que tenha atenção com você. Que tal mais de um mentor? • Seja o especialista no seu tema! • Valorize todos os espaços de interação (aulas, palestras, defesas, café, almoço). CARACTERÍSTICAS DE UMA BOA IDEIA. F - Factível. • Número adequado de sujeitos. • Domínio técnico. • Viável (tempo e custo). • Escopo manejável. I - Interessante. • Para você. N - Novo. • Confirma ou refuta algo no estado da arte. • Expande achado anterior. • Fornece novos achados. É - Ético. • Preenche os requisitos éticos e necessários. R - Relevante. • Conhecimento. • Diretrizes clínicas/saúde. • Direcionamento futuro. BUSCA DE ARTIGOS Para que ter acesso à literatura? • Produção de ciência. • Preparação de conteúdo didático. • Formação e atualização do profissional. • Resolução de um problema clínico. Principais bases de dados. • PubMed: artigos de revistas. Na maioria das vezes só o resumo está acessível. • Cochrane: revisões sistemáticas e ensaios clínicos randomizados. • SciELO: foco em periódicos da américa latina, com artigo completo e gratuito. • BVS: • Google Scholar Estratégia PICOS. • P - Pacientes/problema; • I - Intervenção/indicador; • C - Controle/comparador; • O – Outcome. Variantes do PICO. • PICOS: adiciona tipo do estudo. • PICOT: adicionar timeline. • PIRO: adiciona referência (em valores de acurácia). • PECO: adiciona exposição. Utilizando decs.bvs.br. • Para buscar descritores sinônimos, em outras línguas. • Site em português. Utilizando MeSH no PubMed. • Mesmo objetivo, porém por vezes é mais detalhado. Operadores boleanos • And: adiciona algo. Bom utilizar em sinônimos do "P - problema/pacientes" • Or: isso ou aquilo. Bom utilizar ao adicionar intervenção, sintomas relacionados, etc. • Not: exclui algo. • Asterisco (*): dúvida na escrita ou mesmo radical. Trunca o final de uma palavra. Exemplo: osteo*, epidemio*. • Parênteses ( ): usado para estabelecer a ordem do processo busca. • Aspas " ": usadas para indicar termos compostos. Exemplo "Pressão arterial alta". LEITURA PRÉ-ARTIGO EVIDÊNCIAS INTERNAS, AUTORES, REVISTA O que devemos fazer antes mesmo de começar a ler um artigo científico? Evidence-based decision making-the six-step approach – Franz Porzsolt. CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 14 Ponderando as evidências internas e externas: Ao identificar que já temos uma evidência interna e externa, devemos fazer a seguinte sequência para o "Critical Appraisal". o Minha evidência interna tem plausibilidade extrema? o Minha evidência interna é respaldada por trabalho científico de qualidade que tomei conhecimento previamente? Se a resposta das questões acima for negativa, partiremos para uma avaliação mais crítica em relação à nossa opinião: o Minha crença pode ser provocada por uma vantagem pessoal a respeito da questão (conflitos de interesse material ou intelectual)? Observem que conflitos de interesse não representam apenas questões materiais. Como acadêmico da área, eu posso ser demasiadamente cético em relação a algo, assim como um natureba pode ser demasiadamente crente em relação a algum tratamento natural. o Minha crença é provocada pelo desejo de tomar o rumo mais confortável, pois isto é o que a maioria dos médicos faz? (embora duvidoso). o Estou caindo na mentalidade do médico ativo, quando agir predomina sobre não agir, sem um racional específico. o Estou valorizando devidamente a incerteza ou prefiro me basear em uma certeza platônica? Após isso - STOP PREDATORY JOURNALS. o Revista predatória. o Periódicos que publicam trabalhos sem a devida revisão por pares e que cobram dos bolsos às vezes taxas enormes para enviar não devem ter permissão para compartilhar o espaço com periódicos e editores legítimos, sejam eles de acesso aberto ou não. Essas revistas e editores barateiam o trabalho intelectual enganando os estudiosos, atraindo pesquisadores particularmente iniciantes que tentam ganhar vantagem. A credibilidade dos acadêmicos que foram levados a publicar nesses periódicos pode ser seriamente prejudicada ao fazê-lo. o Fator de Impacto. o Alto a partir de 1. o Avaliar. Se não há fato de impacto -> desconfiar. o Fator de impacto alto não é garantia que o estudo é bom, porém dá uma confiabilidade prévia. o Registro do protocolo. o Não se confia em trabalhos que não possuem isso, pois é lá que o autor do artigoregistra tudo antes de começar o trabalho, garantindo que, no final dele, não existirá nenhuma informação manipulada tendenciosamente. Como por exemplo, ao chegar no fim do estudo, se o autor perceber que não encontrou um desfecho positivo, ele pode mentir e fingir que estava buscando outro desfecho, um que tenha aparecido durante o estudo e seja positivo. Tendo protocolo, podemos conferir se isso não aconteceu. o É internacionalmente antiético, pois está na declaração de Helsinki. o Ainda assim: 30% dos trabalhos modificam o seu desfecho primário. (Prevalence of primary outcome changes in clinical trials registered on ClinicalTrials.gov: a cross-sectional study. CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 15 • O nome desse fenômeno é Spin -> gera Erro tipo I. Quando o autor do artigo dá mais notoriedade mais o desfecho secundário em detrimento de um desfecho primário negativo, fazendo parecer que o secundário era o primário na conclusão. o Sempre entrar no ClinicalTrials.gov, para verificar se há protocolo. • • Uma recente varredura nos registros do clinicaltrials.org demonstrou que 30% dos trabalhos modificam o desfecho primário definido a priori. Estas mudanças reduzem substancialmente o valor preditivo do estudo, ou seja, sua credibilidade. o Quem são os autores? (habilidades). o Pesquisar currículo dos autores. • Fora do Brasil: buscar no google, em sites confiáveis. • Brasil: lattes. o Pesquisar se ele tem conflito de interesse. o Pesquisar se ele tem habilidade no tema, no desenho do estudo. o Conflito de interesse. o Pode ser econômico, intelectual e assistencial. o Researcher requests for inappropriate analysis in a reporting: A U.S Survey of Consulting Biostatisticians. • o Vale apenas observar se: • (1) o estudo é uma iniciativa do fabricante do produto testado; • (2) se é realizado por grupo independente, porém recebe ajuda de custo do fabricante; • (3) se o trabalho não possui nenhuma relação de financiamento com o fabricante. o Recente trabalho publicado no Annals of Internal Medicine demonstrou que quanto maior a vinculação com indústria farmacêutica, maior a utilização de métodos estatísticos inadequados com objetivo de obter o resultado desejado. • o Devemos também investigar se os autores possuem outros conflitos de interesses, seja relação com indústria, seja conflitos assistenciais ou intelectuais. • Conflito de interesses assistencial é aquele desejo do autor em provar uma hipótese que fortaleça sua atividade profissional. Esse pode ser um conflito maior do que o daqueles que recebem um dinheirinho da indústria. Por exemplo, trabalhos que testam acurácia de métodos diagnósticos ou eficácia de tratamentos podem ser feitos por profissionais cuja atividade principal é ligada ao método ou tratamento. • Já conflito de interesses intelectual ocorre quando um autor faz parte de uma legião de estudiosos e crentes a respeito de um assunto. Por exemplo, no caso do escândalo do estudo PREDIMED, os autores fazem parte de uma legião de crentes na dieta do mediterrâneo. CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 16 o Revisão sistemática da Cochrane mostra que trabalhos com conflito de interesses apresentam maior probabilidade de resultados positivos do que trabalhos sem financiamento do fabricante, um viés que não deveria existir. Interessante notar que, pela avaliação tradicional de risco de viés da Cochrane, o estudo não detectou maior risco de viés nos trabalhos com conflito de interesses. Isto ocorre porque estudos financiados pela indústria são "bem feitos" de acordo com uma avaliação metodológica superficial: seguem a metodologia padrão (tamanho amostral, randomização, cego). Os ruídos destes trabalhos usualmente são detectados pelo tipo de leitura que propomos, algo que vai além de um checklist presente em revisões sistemáticas. o Probabilidade Pré-Teste. o Plausibilidade. Estado da Arte. o Tem associação com o pensamento criticista de Kant. o Antes de fazer o teste: qual o estado da arte? (qual o cenário desse tema: até onde vai o conhecimento sobre isso?) > pensar na plausibilidade do que pode ser encontrado. • Exemplo: sacroiliac streching improves glenohumeral internal rotation deficit of the opposite shoulder in baseball players in a randomized control trial. • Nesse caso, o estado da arte é precário de evidências que suportem a ideia sugerida pelo artigo e ainda a plausibilidade (considerando seu conhecimento anatômico, fisiológico, etc) é muito baixa. o Why most published research findings are false - John P. A. Ioannidis. o Para ele a probabilidade pré-teste depende do poder do estudo, dos viéses e da plausibilidade. o A tendência é que a maioria dos estudos, por ser pequeno, não tenha poder, tenha viéses e tenha hipóteses problemáticas. o Pesquisador x Cientista. o O cientista vislumbra mais do que apenas publicar algo. Ele se preocupa em contribuir para o conhecimento, em agregar, em somar. o Deve-se ter INTEGRIDADE CIENTÍFICA. o The scientists who publish a paper every five days. -> apenas pesquisador, pouca chance de ser cientista com essa quantidade de publicação. o The scandal of poor medical research • We need less research, better research, and research done for the right reasons. - Douglas Altman. VALOR PREDITIVO (Texto retirado integralmente de algumas postagens do blog Medicina Baseada em Evidências de professor Luis Cláudio). O conceito bayesiano de valor preditivo positivo de um estudo diz que ele é a probabilidade de um resultado positivo predizer um fenômeno verdadeiro. Um prevalente equívoco é a interpretação do valor de P como “a probabilidade do resultado do estudo ser falso”. Neste caso, o valor de P seria o valor preditivo negativo, então o complemento de P (100% - P) seria o valor preditivo positivo. Por exemplo, valor de P = 0.05 indicaria uma probabilidade de 5% do resultado ser falso. O que corresponderia a 95% de valor preditivo positivo. Errado! O valor preditivo positivo do estudo é de fato influenciado pelo valor de P, mas também por outras três variáveis: probabilidade pré-teste, poder estatístico e qualidade metodológica do trabalho. 1. A Probabilidade Pré-teste No século XVIII, o reverendo Bayes descreveu o conceito de probabilidade condicional. A interpretação contemporânea do resultado de um estudo deve se embasar neste pensamento bayesiano. Probabilidade pré-teste → Teste → Probabilidade pós-teste Probabilidade da Hipótese → Estudo → Valor preditivo positivo Significa que antes de avaliar a veracidade do estudo, temos que avaliar a probabilidade pré-estudo (pré-teste) da hipótese ser verdadeira, pois esta influencia o valor preditivo positivo. CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 17 No pensamento bayesiano (probabilidade condicional), um estudo é um teste que serve para moldar uma probabilidade antes existente (pré-teste). Se positivo, o estudo aumenta a probabilidade pré- teste, resultando na probabilidade pós-teste maior do que a pré-teste. Mas se esta probabilidade pré-teste for originalmente muito baixa, mesmo que o estudo positivo aumente a probabilidade, esta poderá terminar ainda baixa (aumentar uma coisa muito pequena pode resultar em uma coisa "menos pequena", porém ainda pequena). Daí a importância da probabilidade pré-teste na interpretação do estudo. A probabilidade pré-teste de uma hipótese estar correta depende de sua plausibilidade e das evidências intermediárias que respaldam a ideia como mais ou menos promissora. De todas as hipóteses criadas no universo científico, apenas 10% são finalmente confirmadas como verdadeiras. Isso ocorre porque o mundo é multicausal, difícil de prever. Mas também ocorre porque grande parte das hipóteses testadas são pouco promissoras, para não dizer esdrúxulas. Por isso que um componente importante do pensamento científico é a criação da ideia. Testes de hipóteses poucoprováveis são prevalentes no mundo científico, comumente realizados por pesquisadores (não exatamente cientistas) entusiasmados com sua corrida pela produção científica. Mais entusiasmados com isso do que com o propósito de “tomar ciência” do universo. E a probabilidade pré-teste no cenário do diagnóstico médico? Boa parte dos diagnósticos em medicina é probabilística, ou seja, no final da investigação a probabilidade é suficientemente alta para se considerar que o paciente é portador de certa doença. Esta probabilidade é o resultado da interação do quadro clínico (probabilidade pré-teste) e do resultado do teste (exame complementar). O impacto de um teste positivo na probabilidade de um indivíduo ser doente (assim como o impacto de um teste negativo na probabilidade de ser saudável) depende da sua acurácia, que é medida pelas razões de probabilidade (RP) – tema de postagem anterior. Quanto maior a RP positiva, mais o resultado positivo do teste aumenta a probabilidade do indivíduo ser doente. Quanto menor a RP negativa, mais o teste negativo reduz a probabilidade do indivíduo ser doente (ou aumenta a probabilidade de ser saudável). Desta forma, há situações em que o teste não é capaz de modificar substancialmente a probabilidade pré-teste do paciente. Ou seja, o teste não muda muito nosso pensamento a respeito do paciente ter ou não ter a doença. Isto depende do tipo de paciente e da RP do teste. Um exemplo clássico é a realização de teste ergométrico em pacientes assintomáticos (check-up). De acordo com modelos probabilísticos validados, a maioria das pessoas assintomáticas tem baixa probabilidade de doença coronariana obstrutiva. No entanto, na rotina do consultório cardiológico, é quase garantia de que o paciente em avaliação anual saia com pedido de teste ergométrico. O teste ergométrico tem razão de probabilidade positiva de 3.0. Então se um paciente tiver 5% de probabilidade pré-teste, um teste ergométrico positivo vai resultar em probabilidade pós-teste de 14%. Ou seja, apesar do teste positivo, o paciente continua muito mais para não ter a doença do que para ter a doença. Continuamos pensando o mesmo que achávamos antes, ou seja, o paciente é saudável. O teste não mudou nosso pensamento. Não foi útil. O mesmo acontece com métodos não invasivos de melhor acurácia, porém aplicados a indivíduos inadequados. Porém exemplo, a cintilografia miocárdica tem RP positiva de 3.6. Caso fosse positiva, a probabilidade deste paciente iria subir para 29%. Ainda muito duvidosa. E se fosse paciente assintomático, porém mais idoso, com maior probabilidade pré-teste, tipo 25%? Uma cintilografia positiva promoveria uma probabilidade pós-teste de 54%. Agora maior, porém ainda há muita dúvida se o paciente é saudável ou doente. Assim fica claro que pesquisa de isquemia miocárdica em pacientes assintomáticos (screening de doença coronária) não tem utilidade. Esta indicação não deve existir na rotina, salvo algumas exceções. Ainda há outros motivos pelo qual o screening não deve existir que abordaremos na próxima postagem. E quanto ao teste negativo? Se tivermos um paciente de 70 anos, com dor torácica típica para angina, sua probabilidade pré-teste de acordo com o modelo Diamond-Forrester é 90%. Se este CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 18 paciente fizer uma cintilografia miocárdica, cujo resultado for negativo, considerando a RP negativa de 0.18, a probabilidade pós-teste cairá para 62%. Ou seja, apesar do teste negativo, ainda é mais provável que o indivíduo seja doente do que saudável. Portanto, a cintilografia não é útil neste caso, pois não vamos acreditar no resultado negativo e se fosse positiva não seria novidade. Por este motivo, diz-se que paciente com alta probabilidade pré-teste deve ir diretamente para a coronariografia. 2. O Poder estatístico. O poder estatístico, que determina a probabilidade do erro aleatório tipo II (não detectar uma associação verdadeira). Quanto menor o poder estatístico do estudo, maior a possibilidade dele não encontrar uma associação que existe. Quanto menor o poder, menor a sensibilidade do estudo. Mas há outro impacto do poder que muitos desconhecem: quanto menor o poder, maior também a probabilidade do erro tipo I (afirmar algo falso). É inadequado pensar: “mesmo sem poder estatístico, o estudo encontrou valor de P estatisticamente significante. Então podemos afirmar que a associação é verdadeira.” Esse pensamento é falso, pois um estudo de baixo poder estatístico terá baixo valor preditivo positivo, mesmo com valor de P significativo. Em outras palavras, a significância estatística perde sua veracidade quando encontrada em um estudo subdimensionado, com poder estatístico insuficiente. O valor de P é menos confiável em um ambiente sem poder estatístico. Se quiser entender matematicamente o porquê, veja a simulação abaixo. Outra alternativa é pular esta explicação, não fará grande falta para o entendimento do todo. • Digamos que 1000 hipóteses diferentes são testadas em 1000 estudos diferentes. Partindo da premissa que apenas 10% das hipóteses são verdadeiras, no mundo científico perfeito 900 estudos serão negativos e 100 estudos serão positivos. • A definição de significância estatística é alfa de 5%, que significa que nós aceitamos até 5% de probabilidade do erro tipo I (afirmar algo falso). Portanto, das 900 hipóteses falsas, 45 delas (5%) terão resultado do estudo positivo (falso-positivo). • Desta forma, não teremos apenas 100 estudos positivos, mas sim 145 estudos positivos: 100 verdadeiro positivos e 45 falso positivos. • Baseado nisso, o valor preditivo positivo de um estudo que define alfa de 5% é 69%, ou seja, 31% dos estudos (45/145) são falso positivos apenas por aceitarmos 5% de probabilidade tipo I (alfa). Agora vem a influência do poder estatístico: • Aceita-se como satisfatório um poder estatístico de pelo menos 80%, o que significa uma sensibilidade para detectar uma associação verdadeira de 80%, levando a 20% de probabilidade do erro tipo II. • Se o poder de todos os estudos for 80%, daquelas 100 hipóteses verdadeiras, serão 80 estudos positivos (e não 100). • Reduzimos então para 125 estudos positivos (80 verdadeiros e 45 falsos). • Desta forma, em se considerando a influência do poder estatístico de 80%, na verdade, 36% dos estudos são falsos (45/125). Percebam como o poder estatístico de 80% (e não de 100%) aumentou a probabilidade do erro tipo I de 31% para 36%. Isso mostra como o poder influencia também no erro tipo I. Agora vem o grande problema: considerando a totalidade dos estudos científicos, apenas a minoria tem poder estatístico de 80%. Por exemplo, um artigo publicado na Nature demonstrou que no campo da neurociência a média de poder estatístico dos estudos é de 20%. Se considerarmos 20% como a regra, seriam apenas 20 estudos verdadeiros positivos e 45 estudos falso positivos. Isso daria 45/65 = 69% de probabilidade de falso positivo (apenas 31% de valor preditivo positivo). CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 19 Pode parecer estranho dizer que a média do poder estatístico dos estudos é apenas 20%. Mas é isso mesmo, se considerarmos todas as publicações científicas, em todas as revistas científicas. Além disso, há cálculos de poder estatístico fantasiosos, que fazem parecer (falsamente) que estudos tenham poder de 80%. Mas como fantasiar um cálculo de poder em estudos pequenos? É só calcular o poder para encontrar uma diferença (tamanho de efeito) gigante. Para uma diferença enorme, qualquer estudo pequeno consegue poder de 80%. O problema é que diferenças enormes são inverossímeis, o que praticamente elimina qualquer probabilidade pré-teste de aquilo ser verdadeiro. Voltando ao estudo da vasopressina: os autores planejaram incluir 300 pacientes para obter 80% de poder. Mas este poder de 80% é calculado para a detecção de uma diferença muito grandede eventos entre os dois grupos: 30% de redução absoluta de risco! Sim, estou falando absoluta e não relativa. Isto daria um NNT < 4. É quase fantasioso, principalmente em se tratando da comparação de tratamentos versus tratamento. Nem tratamento versus ausência de tratamento alcança tamanha redução de risco, quando mais tratamento versus tratamento. E principalmente quando se trata de dois potentes vasoconstrictores. Se eu tinha dito no tópico anterior que essa hipótese era pouco plausível, para esta magnitude de redução, não temo dizer que esta hipótese é quase impossível. A probabilidade pré-teste se aproxima do zero absoluto. Na realidade, aproximando a probabilidade pré-teste do zero absoluto podemos chagar ao desejado poder de 80%. Portanto, para acreditar em um estudo positivo, devemos ficar atentos para seu poder estatístico, não apenas para o valor de P. E devemos analisar criticamente se o cálculo do poder foi fantasioso ou realista. Os gráficos abaixo, tirados do artigo de Ioannidis, mostram o cálculo do valor preditivo positivo (eixo vertical) de acordo com diferentes níveis de poder estatístico e de chance pré-teste (eixo horizontal). São quatro curvas, pois cada uma representa diferentes riscos de viés. Observem que no cenário usual (10% de probabilidade pré-teste, poder de 20% e risco de viés alto), o valor preditivo positivo de um estudo é apenas 20%. Mas isso ocorre com as boas publicações nas boas revistas? Sim, a maioria dos artigos que comentamos neste Blog são de boas revistas e sofrem disso também. O New England Journal of Medicine publicou um estudo de apenas 77 pacientes que demonstrou eficácia clínica da hipotermia pós-parada. Em postagem antiga deste Blog, antes mesmo do surgimento dos bons estudos, eu concluía que isso não passava de uma fantasia. Não era difícil de prever. Hoje temos os trabalhos de qualidade, todos negativos em relação a este benefício. Primeiro, a hipótese é esdrúxula, não sei como acreditaram nisso. Achar que baixar a temperatura a posteriori vai reverter a grave consequência da anóxia cerebral é querer demais. O dano já está feito com a parada cardíaca prolongada. Será que teria um efeito relevante? Claro que não. Segundo os estudos que falsamente confirmaram a fantasia eram pequenos, sem poder estatístico, repletos de vieses. Importante salientar que quando uso o adjetivo “pequeno” me refiro a um estudo subdimensionado para uma dada hipótese e não a um tamanho amostral específico. Para certas hipóteses, estudos de N = 300 podem ser grandes, para outras o mesmo N é pequeno. Se o estudo da vasopressina fosse para testar a hipótese de que esta aumenta mais a pressão arterial do que noradrenalina (desfecho intermediário), este teria dimensão adequada. Mas não para desfechos clínicos. Nas grandes revistas este tipo de estudo é menos frequente do que nas pequenas revistas. Mas quando eles se fazem presentes nas grandes revistas, o “estrago” no mundo científico é muito maior. 3. Risco de Viés (descrito mais na frente, na sessão de erros). CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 20 COMO SE ESTRUTURA UM ARTIGO CIENTÍFICO O Artigo Científico é uma síntese escrita dos resultados obtidos por uma investigação sobre um determinado tema, cuja divulgação geralmente é feita por periódicos especializados. Seu objetivo principal é ser um meio rápido e resumido de divulgação, apresentando referencial teórico, metodologia, discutindo a implicância dos resultados e principais dificuldades encontradas no processo de investigação. Ou seja, analogamente, é como se os artigos científicos fossem verdadeiros “Relatórios” que buscam expor algum tipo de descoberta, provando como os autores conseguira chegar a esses resultados. E vale ressaltar que nada nos artigos é arbitrário, o que quer dizer que a necessidade do rigor na sua estruturação - como veremos a seguir -, torna o artigo transparente e fiel a pesquisa realizada. Isso permite que outras pessoas possam realizar trabalho semelhante - replicabilidade - com o propósito de juntar forças e aumentar a evidência sobre um determinado assunto. Entendido isso, O artigo científico tem a mesma estrutura dos demais trabalhos científicos, contando com elementos pré-textuais, textuais e pós-textuais. ELEMENTOS PRÉ-TEXTUAIS. • TÍTULO E SUBTÍTULO. O título de um artigo científico deve ser claro e conciso, deve dizer em poucas palavras sobre o que é o texto, além de chamar a atenção do leitor para que ele tenha interesse em ler o artigo. O título e subtítulo (se houver) devem figurar na página de abertura do artigo, na língua do texto. • AUTOR. O primeiro autor é o principal autor do artigo – ele é considerado como quem deu a maior contribuição para o trabalho e também quem escreveu a maior parte dele. Mas nem sempre isso acontece. Muitos autores com grandes nomes, cedem a primeira posição para assistentes e bolsistas para que estes possam se tornar mais conhecidos no meio acadêmico e ficarem mais empolgados com o projeto. CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 21 A partir do segundo, a importância deles tende a diminuir conforme a posição na lista. Salientando que, a contribuição dada pelo segundo é menor ou igual que a do primeiro, a do terceiro é menor ou igual que a do segundo e assim vai. Porém, pode ser que todos a partir do primeiro tenha o mesmo grau de contribuição. O último autor, ele pode assumir uma importância maior do que os citados acima dele. Orientadores geralmente são colocados por último. Nem sempre o orientador, mesmo que tenha tido uma participação relevante, precisa constar como autor do trabalho. Quando o orientador não estiver relatado como coautor do trabalho, sua colaboração deve necessariamente estar registrada nos agradecimentos. O currículo deve ser inserido como uma nota de rodapé e com os seguintes elementos: endereço (e- mail) para contato e a instituição do escritor. • RESUMO. O resumo deve apresentar de forma concisa, os objetivos, a metodologia e os resultados alcançados, não ultrapassando 500 palavras. Não deve conter citações. Deve ser constituído de uma sequência de frases concisas e não de uma simples enumeração de tópicos. Deve-se usar a voz ativa e na terceira pessoa do singular. (ABNT, 2003). É o tópico mais importante para divulgação. • PALAVRAS CHAVES OU DESCRITORES (keywords). São o principal instrumento de uma pesquisa. São termos compostos por uma ou mais palavras. Deve-se escolher entre três e cinco palavras chave. Todas são antecedidas da expressão “Palavras-chave” e devem ser separadas entre si por ‘.’. ELEMENTOS TEXTUAIS • INTRODUÇÃO. CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 22 A introdução é a contextualização geral do trabalho acadêmico, enfocando os principais tópicos sem apresentar informações detalhadas; De modo geral, a introdução deve apresentar: - O assunto objeto de estudo; - O ponto de vista sob o qual o assunto foi abordado; - Trabalhos anteriores que abordam o mesmo tema; - As justificativas que levaram a escolha do tema, o problema de pesquisa, a hipótese de estudo, o objetivo pretendido, o método proposto, a razão de escolha do método e principais resultados. Foco no objetivo, a hipótese do investigador, que é o que mais interessa e geralmente está no último parágrafo da introdução. É recomendado que a introdução seja um dos últimos a ser elaborado para não haver desacertos entre o que foi introduzido e desenvolvido, principalmente com relação a conclusão. • DESENVOLVIMENTO. Parte mais importante em um artigo, pois expõe, de forma ordenada, toda a fundamentação teórica que possibilitou a experimentação ou o estudo de caso, metodologia, os resultados e discussão; Metodologia é a descrição precisa dos métodos, materiais, técnicas e equipamentos utilizados. Deve permitir a repetição do experimento ou estudo com a mesma exatidão por outrospesquisadores. Resultados: Resultados são a apresentação dos dados encontrados na parte experimental. Podem ser ilustrados com quadros, tabelas, fotografias, entre outros recursos. Não deve conter metodologias ou interpretações do autor. Ou seja, se encontramos metodologia nos resultados ou interpretações do autor. Discussão: Restringe-se aos resultados do trabalho e ao confronto com dados encontrados na literatura. Conclusão: pode vir dentro da discussão ou separada. Limita-se a explicar brevemente as ideias que predominaram no texto como um todo, sem muitas polêmicas ou controvérsias, incluindo: achados principais, interpretação dos resultados e contribuição para a área em questão. ELEMENTOS PÓS TEXTUAIS • REFERÊNCIAS. Ao se elaborar um trabalho é imprescindível a menção dos documentos que serviram de base para sua produção. Para que esses documentos possam ser identificados, é necessário que tais elementos permitam sua identificação sejam reconhecidos, e isto só acontecerá através das referências bibliográficas • APÊNDICE. Ele representa um grande avanço na transparência dos dados e complementação de informações do artigo. Mas como assim? Imaginem que um artigo tem um número limitado de palavras ou páginas que podem ser publicadas, de modo que algumas informações acabam sendo excluídas da versão publicada. Assim, o apêndice é um documento “Extra” cedido pelo periódico onde o leitor poderá ter acesso a esses dados não mostrados no artigo e isso fornece mais transparência para o processo de metodologia e resultados. Além disso, essas informações permitem compreender mais sobre a pesquisa em si como por exemplo as descobertas secundárias advindas, por exemplo, de um desfecho secundário não tão bem comentado durante o artigo. CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 23 Por fim, caso tenham sido utilizados formulários ou escalas, a disponibilização desses documentos colabora para a compreensão da metodologia e proporciona um material que possa ser utilizado por futuras pesquisas sobre o mesmo tema. SUGESTÃO DE ORDEM DE LEITURA: • Objetivo e Conclusão. è O autor conclui sobre o objetivo? • Cuidado com Spin: “quando o autor reconhece um resultado primário negativo, mas logo em seguida gera uma tendência positiva a partir da apresentação de um resultado secundário”. è O que o autor quer que eu acredite? E será que isso é real? • Métodos. è Busca erros sistemáticos (falhas na metodologia): olhar randomização, cegamento, aferição, alocação, intenção de tratar, etc. • Resultados. è Busca erros aleatórios (o valor de P tá certo ou foi forçado?): olhar poder, intervalo de confiança, múltiplas comparações, análise de subgrupo, análise post-hoc, truncamento. • Discussão, se quiser. SIGNIFICÂNCIA ESTATÍSTICA (valor de p) Aplicabilidade. o Nesse gráfico, percebe-se que pacientes do grupo "droga" (D) morreu menos, favorecendo o resultado em detrimento do “placebo” (P). Esse resultado é real ou foi fruto do acaso? o Analisamos então se a diferença estatística (ou seja, o valor de P) entre o grupo placebo (P, no gráfico) e grupo tratamento (D, de droga, no gráfico) é significante, se for, isso traduz em uma baixa probabilidade desse resultado ter sido por acaso. o Como analisar a causa: afastar o viés com uma boa metodologia (erros sistemáticos, veremos mais adiante) e afastar o acaso com estatística, interpretando o valor de P. Mas como eu sei se o a diferença estatística é significante? Através da interpretação do valor de P! Mas primeiro, recorremos ao Teste de Hipóteses. CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 24 (Há dois tipos de abordagens para avaliar o papel do acaso em observações clínicas. O teste de hipóteses e a estimativa, que vamos ver mais tarde). TESTE DE HIPÓTESES. o Devemos iniciar sempre um teste de hipóteses sendo céticos, através do princípio da hipótese nula. o Começamos a leitura do artigo, acreditando então que o efeito da droga testada é igual/semelhante ao efeito do placebo. E enquanto tentamos encontrar evidências de que a hipótese nula é verdade (ou seja, de que não há diferença nos efeitos da droga testada do placebo), o estudo geralmente tanta refutar esse princípio com a hipótese alternativa. A hipótese alternativa é de que o efeito da droga testada é diferente do efeito do placebo. o O valor de P (P alfa), a partir disso, se baseia em: “se a hipótese nula for verdadeira, num teste de hipóteses, qual a probabilidade do meu resultado aparecer por acaso?”. o H0 (hipótese nula): x = y. • Aceita-se a hipótese nula quando P > 0,05. (Nesse caso, P não é estatisticamente significante). • Aceta-se que o efeito do tratamento é igual ao efeito do placebo. o H1 (hipótese alternativa): x =/= y. • Rejeita-se a hipótese nula e fica com a alternativa quando P < ou = 0,05. (Nesse caso, P é estatisticamente significante). o Exemplos práticos: • P = 0.91 (interpretação: como é maior que 0,05, não há diferença, logo se eu tivesse considerado a hipótese alternativa, eu teria 91% de chance de estar errado). • P = 0.03 (interpretação: se eu tivesse considerado a hipótese alternativa, eu teria 3% de chance de estar errado. Como a tolerância é até 5%, tá tudo show). o A conclusão é: efeito presente ou evidências insuficientes. Não há como provar que o fenômeno não existe. o O valor de P (nível de significância P alfa) é o limite aceitável de erro tipo I (que você verá mais adiante nesse resumo). Outros conceitos básicos: o Causa x Acaso. o Coexistência não é a mesma coisa de associação. Duas variáveis podem coexistir, mas só se diz que há associação entre elas quando uma interfere na outra. E por que o valor de P considera a hipótese nula verdadeira? Por causa do Ceticismo Científico. o Começo sempre com a hipótese nula e se há uma evidência muito grande a favor da hipótese alternativa, eu desisto da nula e fico com a alternativa. O valor de P está relacionado a que? o Ao tamanho amostral (n). o Pois estudos com maior tamanho amostral, mais se aproxima da realidade e possui maior o poder estatístico. o Porém, um estatisticamente significante ou não nem sempre é confiável, isso pois ele pode existir erros no estudo. Significância estatística X Clínica. o Se há uma probabilidade de 5% de erro, pode ser que o resultado seja uma variação. Pois o resultado do estudo é uma amostra, pode ser diferente da população. o A única coisa que eu poderia concluir sobre esse resultado estatístico, é que tenho muita probabilidade que o resultado não foi ao acaso. o Um valor de P não define conduta clínica, mas garante que o resultado foi real, não foi ao acaso. Para definir significância clínica, devemos partir para outros cálculos (risco, etc). Um P menor ou igual a 0,06 deve ser descartado? o Nesse caso, prefere Ps exatos do que dicotômicos, pois é possível julgar sobre ele. o Em alguns casos, a depender do tratamento, deve se adotar medidas radicais, tanto para mais quanto para menos: P < 0,001 e P > 0,20. CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 25 ERROS O QUE SÃO ERROS? o São ilusões do mundo real. o Se dividem em aleatórios, que estão relacionados ao valor de P/acaso, e erros sistemáticos, que se relacionam à metodologia do estudo. o Os vieses podem ser evitados ou identificados por leitores capacitados/atentos. o Enquanto o acaso não pode ser evitado, porém as atitudes podem diminuir seu impacto. o Amostras não enviesadas (sem erro sistemático) tendem a se aproximar da verdade. Porém, podem não ser boas substitutas. ERROS ALEATÓRIOS O erro aleatório é inerente a todas as observações. Os erros aleatórios têm como única causa o acaso e eles estão relacionados com o tamanho amostral. Divergências exclusivas ao acaso estão relacionadas a variações aleatórias. Variações aleatórias tendem a sub ou superestimar a verdade (não é possível prever sua direção), enquanto o erro sistemático é possível prevera direção. • Variação aleatória: cada amostra retirada tem uma probabilidade de distribuição, sendo ela igual ou diferente à população. As amostras pequenas são imprecisas, pois não representam o mundo real. Esses erros aleatórios podem ser do tipo I e do tipo II. ERRO TIPO I/alfa: falso positivo. o Quando rejeitamos a hipótese nula quando ela é verdadeira. Ou seja (p < ou = 0,05) -> droga =/= placebo nos resultados, quando na verdade os efeitos são iguais. o O valor de P é justamente a probabilidade do erro do tipo I não ocorrer. o Se constitui em “mentir”, e a afirmação de algo falso é pior que a omissão de uma verdade. Pois você estaria dando ao paciente uma droga que, na verdade, não funciona, submetendo ele a um tratamento engano, que pode lhe trazer efeitos adversos. o A tolerância para erro do tipo I é < 5%. o COMO PREVENIR? Analisa se o autor evita múltiplas comparações na conclusão, análise de subgrupo. ERRO TIPO II/beta: falso negativo. o Quando aceitamos a hipótese nula, quando na verdade ela é falsa. Ou seja (p > 0,05) -> droga = placebo nos resultados, quando na verdade há diferença. o A probabilidade de não ocorrer erro do tipo II é medida pelo poder estatístico. § O poder estatístico é estimado através do cálculo prévio do tamanho amostral e deve ser de 80% ou mais para confiarmos que não há erro do tipo II. è O QUE É PODER ESTATÍSTICO? 1 – Pβ -> (1 – a probabilidade do erro do tipo II). è Usado quando o P der maior, porém muito próximo a 0,05 (ex. 0,06). Ele é “o limiar do quanto posso aceitar erro do tipo II”. è Se der P = 0,04, mesmo com o poder baixo, já se detectou a diferença. Então não vale nesse caso. è Insuficiente: 1 - β < 80%. è O poder estatístico pode ser perdido com a perda de follow-up. è O poder estatístico, que determina a probabilidade do erro aleatório tipo II (não detectar uma associação verdadeira). Quanto menor o poder estatístico do estudo, maior a possibilidade de ele não encontrar uma associação que existe. Quanto menor o poder, menor a sensibilidade do estudo. Mas há outro impacto do poder que muitos desconhecem: quanto menor o poder, maior também a probabilidade do erro tipo I (afirmar algo falso). É inadequado pensar: “mesmo sem poder estatístico, o estudo encontrou valor de P estatisticamente significante. Então podemos Erros Aleatórios (acaso) Tipo I Valor de P Tipo II Poder do Estudo Sistemático (metodologia) Viéses CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 26 afirmar que a associação é verdadeira.” Esse pensamento é falso, pois um estudo de baixo poder estatístico terá baixo valor preditivo positivo, mesmo com valor de P significativo. Em outras palavras, a significância estatística perde sua veracidade quando encontrada em um estudo subdimensionado, com poder estatístico insuficiente. O valor de P é menos confiável em um ambiente sem poder estatístico. o Erro tipo II se constitui em “omitir”, sendo assim menos ruim que o erro do tipo I. Nesse caso, você priva o paciente de um tratamento, porém os efeitos adversos serão mais a longo prazo. Por isso, aceita-se 20% dele no estudo. o Magnitude do efeito/desfecho ser menor que 25% (risco absoluto, risco relativo, NNT, odds ratio, hazard ratio). o COMO PREVENIR? estabelecer um tamanho amostral bem preciso. § Pequeno é um tamanho que não oferece uma precisão razoável. E cada estudo, cada situação, tem sua própria definição de pequeno, que virá do cálculo amostral. § Quanto maior o estudo, mas a observação estará próxima do universo. Quanto menor, mais longe do universo. O ideal, portanto, seria a maior amostra possível. Porém a maior amostra possível é o universo, inexequível. Sendo assim, precisamos equilibrar a precisão do estudo com a factibilidade da amostra. Devemos escolher um tamanho amostral que tenha os dois Ps: Possível e ao mesmo tempo razoavelmente preciso. Real diferença. Aparece no estudo. Mas, alguns pesquisadores, ao perceberem que seu desfecho primário deu negativo (p> 0,05), tentando criar maneiras para fabricar um p < ou = 0,05. Eles fazem isso devido ao viés de publicação (que sugere que estudos positivos possuem mais chance de serem publicados, pois são os preferíveis pela população), e assim podem utilizar as Múltiplas Comparações (toda vez que faço várias comparações diferentes), que definem causas de Erro tipo I. Múltiplas comparações é, basicamente, toda vez que faço várias comparações diferentes. Temos mais probabilidades em acertar com base em outros resultados encontrados anteriormente. E essas incluem: o Análise de subgrupo. § Quando o pesquisador tenta analisar o desfecho em subgrupos da amostra isolados, buscando encontrar um resultado positivo em um desses subgrupos. Exemplo: avalia apenas em homens, apenas em idosos. o Supervalorização de desfecho secundário. § Ao notar que o desfecho primário deu negativo, supervaloriza os desfechos secundários. § Isso não é correto, pois o estudo deve focar no desfecho primário, tratando-o como confirmatório, sendo os secundários apenas gerador de hipóteses. o Spin (rotação). § Coloca desfecho secundário em evidência, utilizando o cálculo amostral do desfecho primário. o Estudo truncado – mais para erro do tipo II. § Antes do tempo programado para finalizar o estudo, o pesquisador interrompe o estudo ao encontrar um resultado positivo. Um modo de fazer análises após a conclusão, evitando erro do tipo I? o Análise de Post-Roc. § Análise feita após o estudo, que não havia sido definida. § Bonferroni: ajusta o P para um nível de significância mais baixo – corrige o P nas análises subsequentes. Diminuindo a chance de Erro do tipo I. PRESENTE AUSENTE SIGNIFICATIVO Correto Erro I (Falso positivo) NÃO SIGNIFICATIVO Erro II (Falso negativo) Correto Não confunda múltiplas comparações com ANÁLISE MULTIVARIADA. Essa última utiliza maneiras de atenuar os efeitos de confusão em um estudo observacional e resolve uma análise múltiplas comparações, exemplo o ANOVA. CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 27 Mas o Teste de Hipóteses é suficiente? A magnitude do efeito depende da estimativa ponto, sendo essa a magnitude real do efeito, o que é improvável de conseguir. O VALOR DE P NÃO É TUDO! Os resultados devem ser passíveis de interpretação. O consumidor de ciência deve fazer juízo de valor. ERROS SISTEMÁTICOS Todo artigo tem erro, porém cabe analisar a magnitude desse erro. Primeiro, vamos conversar um pouco sobre a população e a amostra que foi retirada dela para utilizar no estudo. POPULAÇÃO E AMOSTRA. População: todos os componentes contidos em um universo definido (nós que definimos esse universo). Exemplos: hipertensos, idosos, brasileiros. Amostra: subconjunto de componentes contidos em um universo definido. Exemplo: hipertensos idosos. Retira-se uma amostra da população, pois trabalhar com toda a população é inviável. E essa amostra é utilizada para estimar a verdade. (o termo cálculo amostral hoje foi substituído por estimativa amostral). Amostra é diferente de amostragem. Amostragem é o processo utilizado para retirar da população uma amostra. ERRO SISTEMÁTICO – VIÉSES. o Pode acontecer em qualquer fase da inferência. Na coleta, análise, interpretação, publicação ou revisão de dados. o São responsáveis por gerar resultados sistematicamente afastados do valor verdadeiro. o Se acontece o erro sistemático, todos os envolvidos são direcionados a ele, pois o viés tem direção, o acaso não. o O mundo real é repleto de ilusões – erros sistemáticos, que nos enganam na observação. A ciência é uma forma de observação do mundo com uma lente que filtra erros. o Quanto mais rígido metodologicamente, mais confiável é a observação, pois tem menos viéses. Fontes de viés: o Seleção dos pacientes:viés de seleção ocorre quando se compara grupos diferentes (além do desfecho principal). Incorreto incluir sobre efeitos. § “Quase randomizado” – potencial para viés de seleção. § O viés de seleção ocorre na alocação de pacientes e o fator de confusão é na análise. § Minimizando o viés de seleção: alocação por randomização. o Métodos de aferição: viés de aferição. § Pacientes avaliados de forma diferentes para o desfecho. Ex: balanças diferentes. § Como minimizar: • Avaliar igualmente os grupos. • Realizar cegamento dos pesquisadores (durante a comparação). • Definir regras claras para decidir a ocorrência de um desfecho. o Fatores de confusão: viés de confusão. § Mais prevalente erro sistemático. § Exposição --------------------------- ---------------> desfecho. • Fator entre esses dois, que está associado com a exposição, associado com desfecho, porém não participa do processo de causa-efeito. § Potenciais confundidores. • Consulta às evidências internas e raciocínio clínico. Geralmente os erros aleatórios acontecem na amostragem e os erros sistemáticos acontecem na inferência. A inferência é o julgamento que se faz sobre a amostra. “Ela é semelhante à população?”. CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 28 • Variáveis já identificadas em outros estudos (como idade e raça) • Análise estatística (análise multivariada) tenta diminuir esses fatores, mas há ausência de garantia de extinção do viés. o Quando randomizo, todas variáveis são distribuídas igualmente. Sem randomização, é incorreto concluir sobre o efeito independente, afinal há outros efeitos que diferem entre os grupos (os efeitos de confusão). o Viés de Amostragem: A amostra selecionada não representa bem sua população-alvo. o Viés de Observação: ocorre em estudo aberto (não cego), que pode ter erro na observação do desfecho ou do preditor. Desfechos Subjetivos/Moles (Soft EndPoints) sofrem muito mais erros de interpretação, assim combinação de estudo aberto + desfecho soft cai muito o nível de evidência. Se o desfecho for hard, não desaualifica tanto o estudo aberto. o Viés de Desempenho: quando o estudo é aberto, o pesquisador pode ter mais cuidados com os pacientes randomizados pro tratamento. o Viés de Performance: quando o paciente não é cego no estudo e ele está no grupo intervenção, ele pode sentir-se estimulado por saber que é uma técnica nova e implementar outras mudanças na vida dele que culminem num resultado positivo. o Viés de Análise: Efeito de confusão. Quando um grupo é diferente do outro. Quando um desfecho existe, mas não é por conta do tratamento. Não randomizar gera um erro de análise de dados. Análise por protocolo que pode ser disfarçada como "intenção de tratar modificada" -> Intenção de tratar (intencional to treat). Intenção de Tratar modificada decai o nível de evidência. o Viés de Atrito: muita perda de seguimento, isto é, perda de pacientes ao longo do estudo, não é bom (só é aceitável de 10-20%). Quando tem muita perda de follow up, isso destrói a randomização, pois agora algumas variáveis deixam de estar distribuídas igualmente. Saída de muita gente do artigo gera viés de atrito. o Viés de Análise de Dados: o principal viés de análise de dados é a análise a posteriori ou post- hoc. Estas são análises que não estavam planejadas no desenho do estudo, são criadas depois e por este motivo têm grande probabilidade de gerar resultados decorrentes do acaso. Isto ocorre pelo problema das múltiplas compações, pois são tantas as formas de análise que podemos inventar depois do estudo realizado, que uma delas nos dará o resultado desejado. É o que se chama de statistical fishing ou p-hacking ou data massage. Para evitar este tipo de falácia, o plano de análise de dados dos estudos deve ser pré-definido e tudo que for criado depois deve ser visto como potencialmente falso. Portanto, análises a posteriori tem alto risco de erro. O problema é que estas análises são muito frequentes em estudos pequenos. Focando nos fatores de confusão: ESTUDOS OBSERVACIONAIS E SEUS FATORES DE CONFUSÃO. O estudo observacional não determina o tratamento do indivíduo nem avalia eficácia, ele apenas observa, podendo ser equivocado, pois o indivíduo que recebe o tratamento e aquele que não recebe são muito diferentes no mundo real -> viés de confusão no efeito teórico do tratamento. Por que pacientes entubados têm maior mortalidade do que aqueles não intubados, uma vez que intubação traz maior benefício (plausibilidade biológica)? Pois apenas pacientes graves são indicados para intubação, logo a mortalidade está na gravidade dele e não no ato da intubação. Nesse caso, a gravidade é um fator confundidor. Adotar tratamento X em pacientes mais graves pode ter aparência de que o tratamento é deletério. Deve-se então anular os fatores de confusão (características diferentes entre os indivíduos) -> adota- se ensaio clínico randomizado para prevenir esses fatores. Estudo observacional gera hipótese de um benefício, mas não avalia o benefício. EFEITOS DE CONFUSÃO. Exemplo: países que mais consomem chocolate possuem mais prêmio Nobel. (com valor de p < CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 29 0,05) • Exposição/preditor: chocolate. • Desfecho: prêmio Nobel. • Variável de confusão: status socioeconômico. Exemplo 2: quanto maior a população de cegonhas em um país, maior a natalidade. (com valor de p < 0,05). • Exposição/preditor: cegonha. • Desfecho: natalidade. Variável de confusão: característica rural (possuem mais cegonha e menor taxa de utilização de contraceptivos). Assim, concluímos que: Variável de confusão está ligada tanto ao preditor/exposição quanto ao desfecho (mas não é uma relação causal entre ambos). Se associa ao desfecho mesmo no grupo não exposto. Se associa à exposição. Não exerce papel intermediário na fisiopatologia. O problema é quando há um estudo em que a relação faz mais sentido, como os estudos que definem que vitamina evitam doenças cardiovasculares e câncer, pois há maior aceitação desses. O desenho observacional é o mais tendencioso para viés de confusão. Análise multivariada é utilizada para diminuir os efeitos de confusão, porém não os resolve. CONSIDERANDO A EVIDÊNCIA GERADA POR ESTUDO OBSERVACIONAL – CRITÉRIOS DE HILL. Com critério, devemos avaliar a questão de perto e considerar duas condições que, se obedecidas, nos permitem a considerar a evidência observacional como suficiente para gerar um conceito de causalidade: 1. Força da associação: quanto mais forte uma associação, mais provável que seja causal. A força da associação é medida pelo risco relativo ou pelo odds ratio; 2. Consistência: a relação deve ser condizente com os achados de outros estudos; 3. Especificidade: exposição específica causa a doença; 4. Temporalidade: causa deve ser anterior à doença; 5. Gradiente biológico (efeito dose-resposta): deve ser em gradiente, proporcionalmente ao estudo de caso controle; 6. Plausibilidade biológica: A associação deve ter uma explicação plausível, concordante com o nível atual de conhecimento do processo patológico; 7. Coerência: os achados devem seguir o paradigma da ciência atual; 8. Evidências experimentais: Mudanças na exposição mudam o padrão da doença; 9. Analogia: com outra doença ou com outra exposição. DESENHOS DE ESTUDO ASPECTOS INTRODUTÓRIOS DOS DESENHOS DE ESTUDO Baseado na aula de Steffany Reis do I COMECI. ANATOMIA DA PESQUISA. CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 30 Hulley em 2015 definiu que a anatomia da pesquisa é o plano de estudo e ela considera alguns tópicos, dentre eles a questão de pesquisa, que nada mais é quais questões o estudo abordará? Ou seja, é o objetivo do estudo, ou seja, a incerteza que o investigador deseja resolver. 1. Questão da pesquisa: FINER: reúne 5 características básicas de uma boa questão de pesquisa. Factível, Interessante, Nova, Ética, Relevante.2. Relevância. É justamente a pergunta: o porquê essas questões são importantes. 3. Delineando. Além disso, a anatomia da pesquisa também conta com o delineamento ou desenho. Esse delineamento perpassa o eixo temporal desse estudo e a sua abordagem epidemiológica, respondendo à pergunta: como o estudo é estruturado? Antes de tudo é fundamental que se escolha entre desempenhar um papel passivo ou um papel ativo. • PAPEL PASSIVO: Caso o pesquisador opte por desempenhar um papel passivo, ele fará simplesmente aferições nos sujeitos do estudo através de um estudo observacional. Dentre estes, os mais comuns são: - Estudo de coorte em que um grupo de sujeitos é seguido ao longo do tempo e o estudo transversal em que as observações são feitas em uma única ocasião. Os estudos de coorte ainda podem ser divididos em prospectivos, que iniciam no presente e seguem o sujeito no tempo e retrospectivos, que examinam dados coletados ao longo de um período de tempo no passado. - E os estudos transversais. Esses observam os pacientes em um recorte do tempo, em um momento específico. - E os estudos de Caso-Controle: compara um grupo de sujeitos que têm uma doença ou outro desfecho com outro grupo que não a tem. CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 31 • PAPEL ATIVO: caso o pesquisador opte por desempenhar um papel ativo, ele aplicará uma intervenção nos sujeitos e examinará seus efeitos por meio de um ensaio clínico. Entre as opções de ensaio clínico, o ensaio clínico randomizado cego é em geral o melhor delineamento. Mas ensaios clínicos não cegos ou não randomizados podem ser a única opção factível para determinadas questões de pesquisa, Além disso, os estudos se dividem também em estudos descritivos e em estudos analíticos. • DESCRITIVOS: os estudos descritivos se destinam a descrever o que acontece na população para que o processo saúde-doença se estabeleça. • ANALÍTICOS: além da descrição é estabelecida uma análise do processo naquele determinado momento e feitas associações entre a susceptibilidade e uma condição de saúde. Esses estudos ainda podem sofrer distinção de acordo com a população estudada. • ESTUDO INDIVIDUADO: cada indivíduo é importante como objeto de estudo. • ESTUDO AGREGADO: grupos inteiros são analisados. Exemplificando, é como se o individuado fosse uma prova que você faz sozinho e sem consulta, enquanto que o agregado é aquele velho trabalho em grupo em que o que for de 1, é de todos Eles ainda são divididos de acordo com o tempo, pode-se classificar em: • TRANSVERSAL: quando apenas um “recorte” de tempo é estudado, ou seja, não há acompanhamento temporal da população estudada. • LONGITUDINAL: para os estudos em que a população é analisada diversas vezes no decorrer de um determinado período, essa análise pode ser feita em vários momentos do passado (Retrospectivo) ou no futuro (Prospectivo). Uma sequência típica de uma questão em pesquisa se inicia com estudos observacionais do tipo descritivo. Eles exploram a topografia do terreno, por exemplo, as distribuições das características de saúde e das doenças em uma população. Ou seja, examinam as distribuições das variáveis preditoras e de desfechos em uma população. Esses estudos então são seguidos pelos estudos analíticos que avaliam associações para realizar inferências sobre relações de causa- efeito. O último passo normalmente é um ensaio clínico para estabelecer os efeitos de uma certa intervenção 4. Sujeitos. Voltando a nossa tabela, com relação aos sujeitos é importante destrinchar quem são esses sujeitos e como eles serão selecionados através dos critérios de seleção e do desenho amostral. 5. Variáveis. Outro tópico são as variáveis, que definem quais medições serão realizadas. Em um estudo, existem as variáveis preditoras, as variáveis confundidoras e as variáveis de desfecho. 6. Aspectos estatísticos. Por fim, estão os aspectos estatísticos. Eles falam a respeito de qual é o tamanho do estudo e como ele será analisado por meio das hipóteses, do tamanho da amostra e da abordagem analítica. Exemplos: • O investigador mede o consumo de peixe na linha de base e examina periodicamente os sujeitos nas visitas de seguimento para avaliar se aqueles que consomem mais peixe têm menor número de eventos coronarianos. o Resposta: coorte. Então percebam que esse estudo é uma coorte prospectiva porque foi feito um acompanhamento periódico dos sujeitos do estudo para ver se existe uma associação entre o maior consumo de peixe e doença coronariana. CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 32 • O investigador entrevista um grupo de sujeitos a respeito da história atual ou prévia de consumo de peixe, correlacionando os resultados com a história de doença coronariana e com o escore atual de cálcio nas coronárias. o Resposta: estudo transversal. Esse é um estudo transversal porque foi feita uma análise em um ÚNICO momento do estudo, uma aferição pontual do escore de cálcio das coronárias da pessoa. E a partir desse escore buscou-se uma associação com o consumo de peixes. • O investigador examina um grupo de pacientes com doença coronariana (os “casos”) e os compara com um grupo sem doença coronariana (os “controles”), perguntando sobre o consumo de peixe no passado. o Resposta: estudo caso-controle. No caso controle, gente, existe uma comparação entre as pessoas que tem o desfecho, nesse caso a doença coronariana que corresponde ao grupo caso e as pessoas que não têm o desfecho, que são os controles. Dessa forma, analisou-se se há uma relação entre esses grupos e o consumo de peixe no passado. • O investigador aloca sujeitos aleatoriamente para receber suplementos de óleo de peixe ou um placebo idêntico em aparência e então acompanha os dois grupos por vários anos para observar a incidência de doença coronariana o Resposta: ensaio clínico. No ensaio clínico, por sua vez, existe uma INTERVENÇÃO realizada pelo investigador. Nesse exemplo, ele usou em um grupo um suplemento de óleo de peixe e no outro, um placebo para avaliar a incidência do desfecho que é a doença coronariana. Então, diante do exposto foi criada uma pirâmide que elenca o nível de evidência dos desenhos de estudo. Na base estão aqueles com o menor nível de evidência e no ápice, o maior nível de evidência. Bom, na base então encontramos a opinião dos experts ou especialistas, ou seja, aquelas informações que dizem respeito à experiência do profissional, os estudos com animais e os estudos in vitro que são aqueles controlados em ambientes laboratoriais. Em seguida estão os relatos e as séries de casos, a única diferença entre eles é a quantidade, uma vez que o relato de 3 ou mais casos é considerado uma série de casos. Esses estudos tiveram uma importância maior no passado, no período inicial das descobertas científicas e eles merecem espaço em questões desconhecidas ou muito novas. Em seguida estão os estudos de caso controle que já vimos, depois estão os estudos de coorte, depois os ensaios clínicos randomizados e por fim, as revisões sistemáticas que consiste em um desenho de estudo que compila vários outros estudos a fim de ratificar a certeza ou a incerteza de determinada questão. Aprofundando mais um pouco – níveis de evidência segundo os tipos de estudo para terapias e programas preventivos (YUSUF et al, 1998): N ív el de ev id ên c ia CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 33 Toda evidência deve passar por uma análise crítica, que indique qual o grau de veracidade e relevância da informação. A depender desta análise, chegamos à conclusão de que o nível de evidência é suficiente para (1) modificar nossa conduta, (2) apenas para gerar uma hipótese, ou (3) não serve para nada. Depende de três fatores: veracidade, relevância (impacto) e aplicabilidade da informação. Quanto à qualidade da evidência: • É importanteobservar a qualidade das fontes de evidência em que se baseia uma recomendação para adotar ou não adotar uma conduta, considerando que as fontes primárias de informação variam de forma muita ampla em sua qualidade científica. No sistema GRADE a qualidade da evidência tem sido classificada em quatro níveis: alto, moderado, baixo, muito baixo. • A – Alta • Quando a qualidade da evidência é considerada alta é muito improvável que trabalhos adicionais irão modificar a confiança na estimativa do efeito. • B - Moderada • Este nível de evidência ocorre quando os resultados são provenientes de ensaios clínicos randomizados com importantes problemas na condução, inconsistência nos resultados e vieses de publicação. Os resultados podem ser também provenientes de estudos observacionais. • Quando a qualidade da evidência é considerada moderada trabalhos adicionais ainda não publicados poderão modificar a nossa confiança na estimativa de efeito podendo, inclusive, modificar a estimativa. • C – Baixa • Este nível de evidência ocorre quando os resultados são provenientes de estudos observacionais, mais especificamente estudos de coorte e caso-controle, considerados altamente susceptíveis a vieses. Pode ser também ensaios clínicos com importantes limitações. • Quando a qualidade da evidência é considerada baixa outros trabalhos ainda não publicados (particularmente ensaios clínicos com melhor qualidade metodológica) muito provavelmente terão um importante impacto na nossa confiança na estimativa de efeito. • D - Muito Baixa • Este nível de evidência ocorre quando os resultados são provenientes de estudos observacionais não controlados e observações clínicas não sistematizadas, exemplo relato de casos e série de casos. ESTUDO TRANSVERSAL Baseado na aula de Camila Verônica Freire do I COMECI. CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 34 O estudo transversal define-se como um tipo de estudo observacional que analisa dados de uma população, ou um subconjunto representativo, em um ponto específico no tempo, ao contrário de como acontece em estudos longitudinais, que seguem participantes durante um período de tempo. Você pode pensar nele como uma fotografia da população ou uma amostra dela em um certo ponto do tempo. E como você só consegue coletar as informações da população nesse momento específico, você basicamente não sabe nada que tenha acontecido antes ou depois desse momento. Logo, a pergunta feita pelo pesquisador não é o que aconteceu ou o que acontecerá, mas sim: “O que está ACONTECENDO nesse momento?” Assim, nesse desenho de estudo pode-se observar uma exposição – que é uma variável preditora - e um desfecho – que é uma variável de desfecho - ao mesmo tempo, para então observar se há associação entre essas variáveis. Por exemplo, vamos supor que você quer descobrir se pessoas obesas possuem uma taxa maior de colesterol do que pessoas que não são obesas. Para fazer isso, você provavelmente vai ter que olhar os prontuários médicos de centenas de pessoas e observar quem tem colesterol alto e colesterol baixo, e comparar quantas pessoas em cada grupo são obesas ou não. Logo, no estudo transversal podemos coletar informações para mensurar uma medida de frequência de morbidade (de doença). Nesse caso, ele nos dá a prevalência, que se define como a proporção de exposição/desfecho (doença) que já aconteceram em um momento específico. E não podemos coletar a incidência, que é a proporção de novas exposições ou desfechos que ocorreram em um certo período de tempo. A incidência é calculada no estudo que acompanha o indivíduo durante um tempo, e que estudo é esse? Longitudinal. E como o estudo transversal não acompanha os indivíduos com o tempo, não vê paciente saudável adquirindo uma doença, ele não é capaz de mensurar risco, que é a probabilidade do indivíduo desenvolver uma doença. Isso só é possível em estudos de incidência, ou seja, longitudinal. PREVALÊNCIA: Essa prevalência pode ser mensurada em relação ao desfecho e em relação à exposição. • PREVALÊNCIA DE DESFECHO: Sendo que a prevalência de desfecho é proporção de pessoas que tiveram um desfecho no grupo de exposição e no grupo de não exposição. Num estudo transversal, isso pode ser organizado em uma tabela 2x2. Com a exposição (obesidade x não obesidade) no lado e o desfecho (colesterol alto x colesterol normal) no topo. E após parear cada caixa, etiquetamos elas com "a, b, c, d". E assim, nós calculamos a prevalência de desfecho para descobrir se o colesterol alto é mais prevalente em quem é obeso. Ou seja, se o desfecho é mais prevalente na exposição observada. Vamos supor que tenha 50 pessoas na caixa A, 15 na B, 5 na C e 30 na D. CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 35 Desse modo, calculamos primeiro a proporção de pessoas que possuem alto colesterol e são obesas sobre todas as pessoas obesas (expostas). (a/a+b) = 50/65 = 0,77. Então comparamos com a proporção de pessoas que possuem colesterol alto e não são obesas sobre todas as pessoas que não são obesas. (c/c+d) = 5/35 = 0,14. 0,77/0,14 = 5,5. O que significa que pessoas que há 5,5x maior prevalência de colesterol alto em pessoas que são obesas. • PREVALÊNCIA DE EXPOSIÇÃO: Prevalência de exposição: que é a proporção de pessoas que possuem uma exposição no grupo desfecho e no grupo não desfecho. Por exemplo, podemos calcular a prevalência da exposição para descobrir se a obesidade é mais prevalente para pessoas que possuem colesterol alto. Ou seja, se a exposição é mais prevalente em quem tem o desfecho. Para então encontrar a exposição do desfecho, primeiro calculamos a proporção de pessoas que são obesas e que possuem alto colesterol sobre todas as pessoas que possuem colesterol alto (a/a+c) = 50/55 = 0,91. E então, calculamos a proporção de pessoas que são obesas e possuem colesterol baixo sobre todas pessoas que possuem colesterol baixo (b/b+d) = 15/45 = 0,33. 0,91/0,33 = 2,75. O que significa que pessoas com colesterol alto possuem cerca de 2,75x maior prevalência de obesidade do que pessoas com colesterol baixo. Percebam que os valores encontrados de prevalência diferem. Ou seja, há uma diferença nas duas perspectivas. A partir desse cálculo, conseguimos estabelecer uma relação, uma associação entre o desfecho e a exposição. Porém, nessa perspectiva, é necessário termos em mente que associação se difere de causalidade. CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 36 CAUSALIDADE X ASSOCIAÇÃO. A causalidade é a eficácia pela qual um processo ou estado (que é a causa) contribui para a produção de outro processo ou estado (que é o efeito). Aplicando à medicina, a causa de uma doença pode ser definida como um evento antecedente, condição ou característica que é necessária para a ocorrência de uma doença no momento em que ela ocorre. A causa precede a doença obrigatoriamente, sem a qual ela não ocorreria. Os estudos mais eficazes para estabelecerem causalidade são os ensaios clínicos randomizados, como o do exemplo, que mostra que metformina (causa) reduz a incidência de diabetes tipo 2 (efeito). Por outro lado, a associação consiste apenas em variáveis que apresentam comportamento relacionado quando analisadas em conjunto, porém elas não necessariamente admitem causa e efeito. Figura 1 - Ensaio Clínico Randomizado publicado na New England que mostra causalidade. A causa: h. pylori Therapy gera um efeito: prevention of metachronous gastric cancer. A grande questão da associação é que ela pode existir nos mais diversos contextos. E eu não posso assumir a causalidade necessariamente, porque como eu não randomizei essa amostra e coloquei apenas uma intervenção como algo diferente em ambos os grupos e o resto das características homogêneas, essas variáveis associadas podem estar sofrendo influência de algum fator de confusão –que é uma característica relacionada às duas variáveis, alterando-as e confundindo-as. Figura 2 - Mathew R. Teaching Statistics 2002;22(2):36-38. Estudo mostra associação entre cegonhas e natalidade. Possível variável onfundidora é o caráter rural dos locais que possuem muita cegonha e muita natalidade por poucos métodos contraceptivos. Nesse caso, esse estudo mostrou que as cidades que mais possuem cegonhas também apresentam taxas mais elevadas de natalidade. Mas a gente sabe que a plausibilidade biológica disso é nula, certo? A associação pode ter se dado através de fatores de confusão diversos, como por exemplo o fator de ruralidade está presente tanto em lugares com grande população de animais como cegonha e baixa taxa de utilização de métodos contraceptivos, por isso, alta natalidade. CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 37 Figura 3 - N Eng J Med 2012; 267:1562-1564. Mostra associação entre consumo de chocolate e prêmios nobels nos países. O fator de confusão pode ser o grau de desenvolvimento do país. Então, basicamente os estudos transversais, por serem observacionais, só podem demonstrar associações (com exceção quando atendem aos critérios de Hill, que foram apresentados em alguma parte desse resumo). Como esses estudos observam apenas um momento do tempo, não é possível determinar o que aconteceu antes: a exposição/variável preditora (obesidade) ou o desfecho/variável de desfecho (colesterol alto) – assim como a gente não sabe quem veio primeiro, o ovo ou a galinha. Logo, não temos como definir se as pessoas se tornaram obesas após terem colesterol alto ou se adquiriram colesterol alto depois de se tornarem obesas. A associação está presente, mas não é óbvio se isso pode ser uma questão de causa e efeito ou não. Os resultados do estudo desse tipo apenas sugerem que obesidade é um possível fator de risco, uma vez que está bastante suscetível a fatores de confusão (afinal, é possível que outras variáveis, como por exemplo comer muito fast food mais de três vezes na semana, possa estar influenciando tanto a exposição quanto o desfecho. Sendo assim, para investigação, as variáveis preditora e de desfecho são definidas com base nas hipóteses de causa-efeito do investigador - que tá relacionado à plausibilidade biológica - e não no delineamento do estudo. Essa definição de variável preditora e desfecho é mais fácil para fatores constitucionais. Por exemplo, é fácil eu tentar observar como idade, raça, sexo influenciam em alguma doença, porque idade, raça e sexo não são alterados por fatores de outras variáveis. Para a maioria das outras variáveis a escolha se torna mais difícil. Por exemplo, um estudo já encontrou associação transversal entre obesidade infantil e o número de horas em que a criança assiste à televisão. Rotular obesidade ou o fato de assistir à televisão como variável preditora e o outro como desfecho depende muito da hipótese causal do investigador. Mas Vemi, se eu não encontro causalidade, qual a importância de eu fazer um estudo transversal para adquirir uma prevalência e isso só me mostrar uma associação? E essa prevalência eu uso pra que? VANTAGENS DO ESTUDO TRANSVERSAL: 1. Quanto maior a prevalência, maior a acurácia do teste/do exame. A acurácia refere-se ao grau em que o teste e é capaz de determinar o verdadeiro valor do que está sendo medido. A acurácia informa se os resultados representam a "verdade" ou o quanto se afastam dela. E quanto maior a prevalência, maior a probabilidade pré-teste da doença, ou seja, maior probabilidade de num contexto X fulano ter a doença antes de testes diagnósticos estarem disponíveis, e até maior probabilidade de uma hipótese de causalidade estar correta em estudos futuros de maior nível de evidência. CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 38 2. Além disso, a prevalência ainda é útil para o planejador da área de saúde saber quantas pessoas têm determinadas doenças (ou seja, a frequência da doença na população nesse momento). 3. Estudos transversais são também normalmente maneiras baratas, rápidas e fáceis de coletar informações de um número largo de participantes, uma vez que todas as informações são coletadas em apenas um momento. Tipicamente, eles são feitos através de questionários, e muitas informações podem ser coletadas de cada participante, logo estudos transversais são especificamente úteis para observarmos a relação entre múltiplas doenças e múltiplos desfechos. DESVANTAGENS: 1. Um estudo transversal apenas mensura informações sobre prevalência e não incidência, pois não acompanha o indivíduo durante um período de tempo. 2. É impossível assumir causalidade, afinal só observa, não randomiza. 3. Além disso, é inútil para doenças agudas com alta mortalidade e doenças raras, pois não captura as pessoas que já morreram pela exposição ou pelo desfecho. Como infarto agudo do miocárdio. Por exemplo, seria muito difícil de usar um estudo transversal para descobrir a prevalência de colesterol alto em pessoas que tiveram infarto agudo do miocárdio. Porque algumas pessoas morrem de IAM, e então as pessoas inclusas no estudo são as que sobreviveram ao IAM, e elas possuem características diferentes daquelas que morreram. Isso é um problema, pois os resultados do estudo apenas se aplicam para a amostra da população (indivíduos que tiveram IAM e estão inclusos no estudo) e não à população total. Não tendo então validade externa. COORTE Baseado na aula de Matheus Cordeiro do I COMECI. Coorte, do grego, “grupo de soldados que andavam juntos”, assim como são “estudos que seguem um grupo de indivíduos ao longo do tempo”. Na coorte, temos um “Grupo de pessoas que têm algo em comum quando são reunidas e que são observadas por um período de tempo, para observar a presença ou ausência de determinado desfecho”. Os objetivos principais são descrever a incidência de certos desfechos ao longo do tempo, além de analisar as associações entre os preditores e os desfechos. O estudo observacional se baseia na coleta de dados à medida que os eventos ocorrem, sem desempenhar papel ativo no que acontece. Ele tem como critérios não ter o desfecho no início do estudo, respeitar o tempo da história natural da doença e todos devem ser observados e, se não forem, deve haver métodos para contabilizar as perdas. • COORTE PROSPECTIVA. Ela seleciona-se uma amostra de sujeitos, mede-se em cada sujeito características, esses sujeitos são seguidos no tempo, há medições periódicas dos desfechos. Pontos fortes: o delineamento de coorte prospectivo é uma estratégia poderosa para definir a incidência de uma condição clínica (nº novos de caso/período), sendo útil também para investigar suas possíveis causas. Como os preditores são medidos antes da ocorrência dos desfechos, essa estratégia estabelece uma sequência temporal para as variáveis, impedindo que o conhecimento prévio do desfecho afete a aferição das variáveis preditoras. Um estudo prospectivo possibilita medir variáveis importantes de forma mais acurada e completa do que um estudo retrospectivo. Pontos fracos: a inferência causal é difícil e a interpretação é frequentemente complicada pela influência de variáveis confundidores. Ele é uma forma cara e ineficiente para estudar desfechos raros. Muitos indivíduos precisam ser seguidos por longos períodos para que sejam observados desfechos em número suficiente para produzir resultados significativos. • COORTE RETROSPECTIVA. CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 39 Se faz a observação retornando ao passado. Seleciona-se uma amostra de sujeitos, mede-se em cada sujeito características, esses sujeitos são seguidos no tempo e são feitas medições são periódicas dos desfechos. Na aplicação, identifica-se uma coorte montada no passado, coletam-se dados sobre as variáveis preditora, coletam-se dados sobre as variáveis de desfecho.Só é possível se houver dados adequados disponíveis sobre a população. Como pontos fortes, além dos outros da prospectiva, adiciona-se o fato desses estudos serem mais rápidos e baratos. E os pontos fracos: controle limitado no delineamento da amostragem; natureza e qualidade das variáveis preditoras, como dados incompletos, inacurados, medição inadequada. Em suma, os estudos de coortes eles não são capazes de definir causalidade, apenas investigar, hipotetizar. Eles são capazes de definir incidência. As coortes são estudos interessantes para definir riscos. • RISCOS. RISCO – Mesma coisa que incidência. RISCO ABSOLUTO – Subtração entre a incidência dos expostos e incidência dos não expostos. RISCO RELATIVO – Incidência em pessoas expostas/Incidência em pessoas não expostas CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 40 PS: esse conceito do cálculo de incidência foi dado por prof Diego, que diz que essa é a forma mais didática de aprender. O Fletcher tem uma abordagem diferente, quem que incidência é igual a RA (risco absoluto, que ele chama de risco atribuído, que pode ser outra coisa). PS2: o cálculo de incidência é bem parecido com o de prevalência. Mesma lógica da tabela 2x2, só muda que ali constará apenas os casos novos. Atenção ao Risco Relativo (RR), pelo cálculo dele, seu resultado pode dar impressão de maior impacto do efeito. Logo, para o paciente, na clínica, devemos priorizar sempre o risco absoluto. O relativo é mais utilizado para avaliação de uma droga, numa mesma característica de população, em momentos diferentes (ambulatório, hospitalar, etc). O RR quando é menor que 1 demonstra efeito protetor, igual a 1 diz que não há associação e > 1 demonstra fator de risco. Sobre estudos observacionais e viéses: São estudos com alta probabilidade de viés de confusão, pois não há randomização, como já foi dito. Logo, não define conduta, não tira conclusão, não define tratamento. Ele é melhorar para definir riscos, em caso em que a experimentação não é possível ou é antiética (exemplo: caso do tabagismo e câncer de pulmão) ou no caso, prevalência, incidência. Análise multivariada é utilizada para diminuir os efeitos de confusão, porém não os resolve. CONSIDERANDO A EVIDÊNCIA GERADA POR ESTUDO OBSERVACIONAL – CRITÉRIOS DE HILL. Com critério, devemos avaliar a questão de perto e considerar duas condições que, se obedecidas, nos permitem a considerar a evidência observacional como suficiente para gerar um conceito de causalidade: 1. Força da associação: quanto mais forte uma associação, mais provável que seja causal. A força da associação é medida pelo risco relativo ou pelo odds ratio; 2. Consistência: a relação deve ser condizente com os achados de outros estudos; 3. Especificidade: exposição específica causa a doença; 4. Temporalidade: causa deve ser anterior à doença; 5. Gradiente biológico (efeito dose-resposta): deve ser em gradiente, proporcionalmente ao estudo de caso controle; 6. Plausibilidade biológica: A associação deve ter uma explicação plausível, concordante com o nível atual de conhecimento do processo patológico; 7. Coerência: os achados devem seguir o paradigma da ciência atual; 8. Evidências experimentais: Mudanças na exposição mudam o padrão da doença; 9. Analogia: com outra doença ou com outra exposição. IMPORTANTE: CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 41 A coorte tenta corrigir o viés de confusão fazendo análise multivariada. Isso indica uma boa coorte. Mas há sempre viés de confusão residual, por isso a palavra final é do ECR, que é o que de fato será o estudo definidor de conduta. CASO CONTROLE Baseado na aula de Maria Eduarda Araújo do I COMECI. Os estudos de coorte, em que a sequência das medições é a mesma da cronologia de causa e efeito: primeiro, mede-se a variável preditora e, depois (após um intervalo de seguimento), o desfecho. O estudo de caso-controle, por outro lado, inverte essa sequência temporal. Ele começa com a seleção de uma amostra de pacientes com o desfecho (casos) e outra amostra sem o desfecho (controles); então, comparam-se os níveis das variáveis preditoras nas duas amostras para determinar quais estão associadas ao desfecho. Essa abordagem tem duas vantagens principais sobre os estudos de coorte. 1- É mais eficiente, porque contorna a necessidade de coletar dados em um grande número de pessoas, a maioria das quais não chega a apresentar a doença, contribuindo, dessa forma, muito pouco com os resultados. 2- É uma abordagem mais rápida. Não é necessário esperar por aferições da exposição até que o evento ocorra. Mas, essa maior eficácia e conveniência tem um preço: o manejo do viés torna-se uma tarefa mais difícil e, algumas vezes, incerta. Além disso, os estudos de caso-controle produzem somente uma estimativa sobre o risco relativo e nenhuma informação sobre outras medidas de efeito, como risco absoluto, o risco atribuível e os riscos na população. Risco relativo: quantas vezes é mais provável para as pessoas expostas se tornarem doentes, em relação às não expostas. Risco absoluto: qual a incidência de uma doença em um grupo inicialmente livre dela. Risco atribuível: qual a incidência da doença atribuível à exposição. Risco na população: qual a incidência da doença em uma população associada com a prevalência de um fator de risco. A grande questão é que um caso-controle é um bom estudo para o delineamento de doenças incomuns, doenças raras. Mas vamos entender como é seu delineamento básico. Duas amostras são selecionadas: pacientes que desenvolveram a doença em questão e pessoas semelhantes que não desenvolveram a doença. Os pesquisadores, então, olham pro passado, para medir a frequência de exposição a um possível fator de risco nos dois grupos. Os dados resultantes podem ser utilizados para estimar o risco relativo da doença a um fator de risco. CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 42 Como o estudo de caso controle, é muito bom para avaliar doenças incomuns/raras, pensemos, por exemplo, naquele surto de doença de pele em Alphaville ano passado. Para estudar essa doença, já que não há muitos casos, uma coorte não é uma boa ideia. O estudo ideal então é o caso-controle. Imagine que há 79 pessoas com a doença (os casos) e 237 pessoas semelhantes, que moram em Alphaville, ou seja, estão expostas, porém sem a doença (os controles). A partir daí, fazemos o seguinte delineamento: • RAZÃO DE CHANCES/ODDS RATIO. A partir do estudo de caso-controle, é possível analisar a razão de chances desses resultados. O cálculo é feito a partir do produto de AD dividido por BC, ou pelo cálculo de prevalência de exposição, que é mais devagar. Tá, mas e agora, como se dá a seleção dos Casos? • Prevalência de Exposição é a medida de associação desse tipo de estudo; • Hospitais e Centros de Referência são responsáveis por muitos trabalhos; • Bancos de Dados são utilizados; E a seleção dos Controles? Deve-se assegurar de que os controles sejam uma amostra aleatória de todos os não casos na mesma população ou coorte que produziu os casos. Há várias formas de selecionar o controle, como por exemplo: CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 43 Base populacional: populações dinâmicas -> pode enviesar o resultado, especialmente se for durante um longo período de tempo Aninhado: Por que não analisar os dados da coorte? Algumas variáveis do estudo, especialmente algumas covariáveis ou variáveis externas, podem não estar disponíveis no banco de dados da coorte e, portanto, precisam ser coletadas de outras fontes para cada paciente do estudo. Pesquisar todo mundo é mais complicado, e aí você só pesquisa as coisas específicas. Hospitais e comunidade: se uma amostragem com base populacional ou aninhada não for possível -> selecionar os controles de forma que pareça produzir controles que sejam comparáveis aos casos. Múltiplosgrupos-controle: Se nenhum dos grupos-controle disponíveis parecer ideal, é possível ver como a escolha dos controles afeta os resultados ao selecionar grupos-controle com forças e fraquezas científicas complementares. -> estimativas semelhantes dos riscos relativos – é pouco provável que os mesmos vieses afetem na mesma direção e no mesmo grau grupos que seriam, de outra forma, diferentes. Múltiplos controles por caso: não se deve confundir com múltiplos grupos-controle; doenças raras, o estudo pode obter mais informações quando existem mais de um controle por caso. Mais controles aumentam a capacidade de detecção de risco, caso o estudo tenha poder estatístico suficiente – na prática, o ganho é valido até 3 ou 4 controles por caso Pareamento: anula possíveis confundidores, garantindo uma maior sensibilidade VIÉS DE MEMÓRIA. Muitas exposições são medidas apenas por meio de perguntas diretas aos casos e aos controles. Quando se solicita que eles relembrem suas exposições prévias, pode ocorrer viés por diversas razões. Os casos, sabendo que têm a doença em estudo, têm mais probabilidade de lembrar se foram expostos, o que caracteriza um viés de memória. Esse viés pode ser limitado pelos pesquisadores se não for dito aos pacientes o propósito específico do estudo. Exposições múltiplas. Esse tipo de estudo é uma forma eficiente de examinar uma gama muito mais rica de exposições (no caso do nosso exemplo, foi a piscina a exposição). Essa exposição pode ser única ou dicotômica, e dentro dela ainda poder ser múltiplas exposições, várias doses da mesma exposição, exposições que são fatores iniciais, etc. ENSAIO CLÍNICO RANDOMIZADO (ECR) Baseado na aula de Gabriela Saffe do I COMECI. É um estudo que avalia o impacto de determinada intervenção em um determinado grupo de pacientes, com o intuito de demonstrar a melhor opção terapêutica ou preventiva. QUANDO SE REALIZA UM ECR? - Questões de pesquisa já amadurecidas quando estudos observacionais e outras linhas de evidência sugerem que uma intervenção possa ser eficaz, mas faltam evidências mais fortes para que ela possa ser aprovada ou recomendada. - Quando estudos observacionais e outras linhas de evidência sugerem que uma intervenção possa ser eficaz, mas faltam evidências mais fortes para que ela possa ser aprovada ou recomendada A principal vantagem de um ensaio clínico em relação a um estudo observacional é sua capacidade de demonstrar causalidade – eficácia pela qual um processo ou estudo contribui pra ocorrência de outro processo ou estado. A alocação aleatória da intervenção minimiza a influência de variáveis confundidoras, e o cegamento pode minimizar a possibilidade de os efeitos aparentes que se confundam com a intervenção, o que vamos entender ao longo da aula. Como desvantagens, há o custo elevado, demanda de tempo, às vezes expõe os pacientes a potenciais danos (porque aplica uma intervenção), além de poder abordar questões restritas. Nem todas as questões de pesquisa são passíveis de serem estudadas por um delineamento como o ensaio clínico. Por exemplo, você não pode randomizar as pessoas para fumar cigarros reais ou falsos para determinar o efeito sobre o câncer de pulmão. Mesmo assim, sempre que possível, devem-se obter evidências de ensaios clínicos sobre a eficácia e segurança das intervenções clínicas. Os ECRs geralmente se dividem geralmente em dois grupos: CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 44 - Grupo experimental: exposto a uma intervenção a ser testada, que se acredita que é melhor que as alternativas atuais - Grupo controle/de comparação: podem receber um placebo, o tratamento convencional, ou o melhor tratamento atualmente disponível. A principal característica desse estudo experimental é que a intervenção está sob controle do investigador. O investigador determina quem e então segue ambos os grupos ao longo do tempo e compara o desfecho entre os grupos de intervenção e controle. Vamos então acompanhar a realização de um ECR. A INTERVENÇÃO O primeiro passo, então, é desenvolver a escolha da intervenção. Vários aspectos devem ser levados em conta nesse processo, incluindo a dosagem, a duração e a frequência da intervenção que proporcionam o melhor equilíbrio entre eficácia e segurança da intervenção que será testada. CONTROLE E agora, escolhida a intervenção, é necessário escolha de mais um critério do ensaio clínico: o grupo controle. O melhor grupo-controle é aquele que não recebe tratamento ativo e que, ao mesmo tempo, pode ser cegado. Isso, para medicamentos, significa receber um placebo idêntico ao tratamento ativo. DESFECHOS • Desfechos são variáveis monitorizadas durante um estudo para documentar o impacto que uma dada intervenção tem na saúde de uma dada população, definidos a priori. • Temos uma pesquisa que quer avaliar uma insulina que promete causar menos hipoglicemia em seus usuários do que a insulina regular. Vamos pensar assim: para saber se essa insulina causa menos hipoglicemia que a regular teremos que criar dois grupos (agrupamentos): um que usa a nova insulina e outro que usa a regular. Agora qual será a variável que irei utilizar para comparar ambos os grupos? O número de episódios de hipoglicemia que cada grupo teve. Essa variável (número de episódios de hipoglicemia) é o que chamamos de desfecho primário. Desse modo, podemos simplificar em dizer que o desfecho primário seria a variável principal da minha pesquisa, isto é, aquela que irá responder o questionamento que gerou a pesquisa. Cabe ao desfecho primário o dever de fornecer as informações necessárias para os resultados. Ao avaliar o número de episódios de hipoglicemia nos dois grupos, identificamos que ambos os grupos apresentaram um número igual de episódios, o que vai contra a ideia de que essa nova insulina seria mais segura que a outra. Entretanto, quando avaliamos melhor a gravidade da hipoglicemia, notou-se que os pacientes que usaram a nova insulina foram 4 vezes mais ao pronto-socorro que os da insulina regular! No exemplo apresentado acima, para o desfecho primário (número de episódios de hipoglicemia) houve uma igualdade entre ambas as insulinas. Contudo, avaliando outras variáveis, como a gravidade do episódio (com necessidade de pronto atendimento), percebemos que a nova insulina se mostrou mais perigosa. Quando falamos em desfecho secundário estamos nos referindo a outras variáveis estudadas na pesquisa, que não sejam o desfecho primário. Auxiliam na interpretação dos resultados do desfecho primário. Eles também podem fornecer dados preliminares para um estudo mais abrangente. Assim, poderíamos ter diversos desfechos secundários, como: tempo de duração da hipoglicemia, sensação de bem-estar do paciente com a insulina, ou mesmo, a melhora da hemoglobina glicada com cada tipo de insulina. A grande questão é que, como já diz o nome, o desfecho secundário é apenas secundário. Ele só é capaz de gerar uma hipótese e nunca se deve tirar conclusão a partir dele. • Além disso o desfecho também pode ser clínico: fornecem as melhores evidências para embasar a adoção de um tratamento ou intervenção preventiva e para orientar como ele deverá ser empregado. CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 45 É o verdadeiro impacto na vida do paciente. É necessário para que uma evidência sobre terapia seja suficiente para recomendar a utilização da mesma como novo método Desfechos medidos como variáveis contínuas – por exemplo, qualidade de vida – podem geralmente ser estudados com um número menor de participantes do que quando o desfecho é dicotômico. Entretanto, o desfecho clínico mais importante muitas vezes será obrigatoriamente dicotômico, como recorrência de câncer de mama. Desfecho Clínico Composto (ou combinado): São usados para ter maior número de desfechos e aumentar o poder estatístico ou porque os elementos do desfecho composto podem ser importantes. No entanto, deve-se atentarporque Desfecho Composto com muitos desfechos não é bom. Importância do Grupo Controle. • Já o desfecho substitutivo: variáveis laboratoriais ou fisiológicas ou se imagem, que são utilizadas em estudos que não têm poder estatístico para avaliar desfechos clínicos, como ensaios clínicos de fase inicial. Normalmente, é uma variável numérica não tendo risco relativo (RR) ou NNT. • Desfecho duro: dentro de um desfecho clínico, que deve ser o nosso objetivo como médicos, existe um espectro de qualidade desses desfechos. Desfechos mais importantes tendem a ser efeitos mais objetivos, como óbitos. Desfecho mole: mais subjetivos, costumam ser qualidade de vida. PARTICIPANTES Para a escolha dos participantes, primeiro o pesquisador define os critérios de inclusão. Nesses critérios há uma definição das características da população que estará dentro do estudo, como a idade, o sexo, o local de acometimento e o diagnóstico de alguma doença pré-existente. É na posse desses critérios (características) que a pesquisa irá chamar voluntários. Fica muito mais fácil entender os critérios de exclusão ao perceber que eles são aplicados após a seleção dos voluntários que estão dentro dos critérios de inclusão; isto é, após ter toda a população do estudo eu posso precisar retirar alguns. A grande sacada desses critérios é aumentar a validade externa do estudo. Ou seja, conseguir uma amostra que represente a sociedade. RANDOMIZAÇÃO • Os pacientes que restaram no estudo após aplicados os critérios de exclusão, devem sofrer então uma randomização. Ela consiste em uma alocação aleatória que garante que fatores como idade, sexo e outras características prognósticas basais que confundiriam uma associação observada (incluindo fatores desconhecidos ou não aferidos) sejam distribuídos igualmente entre os grupos randomizados na linha de base, exceto pela variação ao acaso. Então, ele será designado aleatoriamente a um grupo, usando um algoritmo computadorizado ou aplicando-se uma série de números aleatórios. • A randomização correta evita que haja viés de seleção, ou seja, quando a alocação no grupo controle e no grupo intervenção possuem diferenças. Ex: um dos grupos possui uma grande quantidade de idosos e o outro nenhuma. E viés de confusão, que se dá quando é feito a análise desse desses grupos. CEGAMENTO • Então, com relação ao cegamento, sempre que for possível, as intervenções devem ser planejadas para que todos, ou seja, os participantes do estudo, os membros da equipe com que eles têm contato, bem como os responsáveis pelas medidas laboratoriais e os que correlacionam os desfechos não saibam para qual dos grupos cada participante foi alocado. • Ainda que não seja possível cegar todos, deve-se cegar o maior número possível. • O cegamento é tão importante quanto a randomização, porque A gente já sabe que a randomização elimina apenas as influências das variáveis confundidoras que estão presentes no momento da randomização, mas ela NÃO elimina as diferenças que surgem durante o seguimento. Logo, um estudo não cego, por exemplo, dá espaço para que o investigador dar mais atenção ao grupo que recebe o tratamento ativo, e é justamente essa co-intervenção que pode ser a causa de diferenças observadas no desfecho – viés de desempenho. CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 46 o • Um segundo motivo pelo qual o cegamento é importante, é porque ele ajuda a prevenir vieses na avaliação do desfecho; porque em um ensaio não-cego, o investigador pode estar inclinado a buscar com maior atenção desfechos que não recebeu o tratamento, ou mesmo diagnosticar o desfecho com mais frequência nesse grupo – viés de observação. • Imagine que um voluntário sabe que está em um grupo placebo para o tratamento com uma medicação nova para dor de cabeça. Provavelmente, ele irá ter pensamentos negativos sobre seu tratamento, enquanto outro voluntário, que esteja sabidamente no grupo intervenção, mesmo que com uma droga ineficaz, provavelmente terá pensamentos mais positivos. Ter pensamentos positivos e negativos altera os resultados? Imagine que, quando o avaliador perguntar: “quão forte é sua dor de cabeça?”, provavelmente, o voluntário com pensamentos negativos aumentará sua sensação de dor e o de pensamentos positivos diminuirá sua sensação de dor. • Desse modo, há uma grande interferência nos resultados da pesquisa, sem que haja ação propriamente dita da medicação. • O ideal, então, é fazer com que ambos pensem iguais (ou ambos positivamente ou ambos negativamente). Dar placebo e não informar a qual grupo o voluntário pertence faz com que todos pensem que são grupo intervenção e todos tenham pensamentos positivos, assim, diminuímos esse viés. CONSIDERAÇÕES FINAIS • Existe protocolo do estudo? O protocolo deve ser feito antes do estudo com informações claras sobre suas abordagens, que garanta que ele não as mude durante o estudo. É importante também que, para a realização de um por exemplo, motivos que culminem na interrupção do estudo antes do planejado (quando é percebida uma diferença grande e significativa entre os dois grupos), os critérios de aplicação da intervenção, como será feito o acompanhamento dos dois grupos ao longo do estudo, além de um termo de consentimento livre e esclarecido (TCLE) previamente aprovado pelo CEP. • É randomizado e cego? • Os desfechos primários e secundários foram bem definidos? Cuidado com casos de troca de importância entre os desfechos. O nome desse fenômeno é Spin -> gera Erro tipo I. Quando o autor do artigo dá mais notoriedade para o desfecho secundário em detrimento. Isso não é correto, pois o estudo deve focar no desfecho primário, tratando-o como confirmatório, sendo os secundários apenas geradores de hipóteses. RANDOMIZAÇÃO Randomização Ideal: • Concealed randomization e centralizada: Forma mais ideal de realizar a randomização. É feita sem ver o paciente, em um lugar distante, sem que o pesquisador possa manipular em qualquer nível. Pseudorandomização: • Randomização aberta: Antes de convidar o paciente pro estudo você já sabe pra que grupo ele vai. Ex: "Pacientes que chegam no mês par vão pro grupo intervenção e no mês ímpar pro controle". Não é considerada uma randomização de qualidade. • Randomização local: O pesquisador sorteia e resorteia. CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 47 INTENÇÃO POR TRATAR/PROTOCOLO A intenção de tratar é a maneira correta de fazer análise da intervenção. Pode gerar um erro, mas não é um erro tendencioso. É um erro menor que o erro da perda de randomização. O pior tipo de viés é o Efeito de Confusão. Intervenção -----------------------------------------------------------------------> Desfecho. Randomização? Viés de desempenho? (estudo aberto) Tratamento adequado? Controle =/= tratamento? Intenção de tratar? Por crossover, alguns pacientes do caso controle, que deveriam receber o placebo, na verdade recebem a intervenção. Por pensamento intuitivo, faríamos um "extrited"/análise conforme tratado (analisar conforme ele recebeu a intervenção ou não, "mudar ele de grupo" para análise). Porém, ao fazer isso, perdemos o efeito da randomização. Perde-se a homogeneidade. Exemplo: paciente deveria receber a intervenção (cirurgia), porém ele não recebe porque piorou e não é mais eletivo para cirurgia. Se eu o mover para o grupo controle, estou levando um paciente de pior prognóstico para ele, melhorando então o resultado do grupo cirúrgico. Erro aleatório: pode errar para o pró-tratamento ou o contra-tratamento. O erro de viés é tendencioso a favorecer um ou outro. Análise per protocol: Análise por protocolo/intenção de tratar modificada tem altos potenciais de viés. Menos pior que a extrited, em que se exclui do grupo os que não seguiram o tratamento ou o grupo controle. Mas também é tendencioso, pois pode favorecer ainda o prognóstico de algum grupo. Análise por protocolosó é melhor em estudo de não inferioridade. Análise por intenção de tratar modificada. Só exclui se a violação do protocolo for muito grande. Ex: randomizou para droga ou placebo e o paciente não tomou a droga nenhum dia, aí exclui-se. Porém também não é correto. O ideal seria não existir crossover, porém existindo (como acontece normalmente, menos 10%) deve-se analisar por intenção de tratar. Caso o crossover seja no nível de 50%, o estudo é invalidado. MÚLTIPLAS COMPARAÇÕES Geralmente utilizada por pesquisadores quando o desfecho primário é negativo. É quando são feitas várias comparações (desfecho e uma idade específica, desfecho e sexo específico) utilizando as variáveis do estudo e alguma comparação dá estatisticamente significante, mas ao acaso. Assim, não veremos esse resultado se repetir em outros estudos e por isso podemos acabar acreditando naquele resultado, que por ser positivo, chama muita atenção e faz o estudo parecer positivo. Ou seja, é enviesado. ANÁLISE POST-HOC Significa à Posterior. Qualquer análise feita depois que não estava procurando. Abre margem para múltiplas comparações. Isso abre margem para viés. ANÁLISE DE SUBGRUPO CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 48 Quando o desfecho primário é negativo, mas você tenta analisar o desfecho em subgrupos isolados para ver se acha valor de p significativo. É uma das formas de “múltiplas comparações”. Um estudo com o resultado da amostra geral negativo, mas positivo em um subgrupo é apenas gerador de hipóteses. Já em um estudo com desfecho geral positivo, a análise de subgrupo serve pra dar consistência. ANÁLISES INTERINAS Deve ser feita apenas pra ver se há risco para os participantes, aumento expressivo de eventos, o que faria parar o estudo pelo princípio da não maleficência. Não necessariamente tem risco de viés. ESTUDO TRUNCADO Quando você faz análises inteirinas de 6 em 6 meses, por exemplo, e interrompe o estudo quando encontra valores positivos. Estudos truncados com menos de 200 desfechos não devem ser considerados pra definir conduta. O ideal é que tenha pelo menos mais de 500 desfechos. COMO FABRICAR UM P – RISCO DE ERRO DO TIPO I Análise de desfecho secundário: • Análise de subgrupo; • Truncar o estudo; • Fazer estudo pequeno; • Spin (supervalorizar o desfecho secundário positivo, enquanto o desfecho primário é negativo). Todas as situações acima acarretam resultados mais vulneráveis a erro Tipo I. Por isso, não se deve olhar apenas o valor de p<0,05, mas tudo isso tem que ser analisado. Recomendação de leitura: artigos de Ioannidis (Why most clinical research is not useful e Why most clinical Research findings are false). FASES DO ESTUDO Estudos Fase I Refere-se ao uso do medicamento pela primeira vez em um ser humano, geralmente um indivíduo saudável e que não tem a doença para a qual o medicamento está sendo estudado. Nesta fase serão avaliadas diferentes vias de administração e diferentes doses, realizando-se testes iniciais de segurança e de interação com outras drogas ou álcool. Cerca de 20 a 100 indivíduos participam dessa fase. Estudos de Fase II Cerca de 100 a 300 indivíduos que têm a doença ou condição para a qual o procedimento está sendo estudado participam desta fase, que tem como objetivo obter mais dados de segurança e começar a avaliar a eficácia do novo medicamento ou procedimento. Os testes de fase II, geralmente diferentes dosagens assim como diferentes indicações do novo medicamento também são avaliadas nesta fase. Estudos de Fase III: Depois de concluído o estudo piloto, grandes estudos multicêntricos acompanham milhares de pacientes, 5 a 10 mil, em geral, dependendo da patologia em questão com a doença em questão, por um período maior de tempo, geralmente sendo comparados a outros tratamentos existentes e recomendados para o mesmo problema. Durante esta fase se espera obter maiores informações sobre segurança, eficácia e interação de drogas – efetividade. Ao participar de uma pesquisa em fase III, o voluntário poderá receber ou o novo tratamento ou o tratamento habitual (ou placebo). Recebendo o tratamento habitual, o paciente será tratado com a qual os especialistas avaliam como o melhor tratamento da atualidade. Se o paciente receber o novo tratamento, será tratado com uma alternativa de tratamento que os especialistas esperam obter vantagens significativas sobre o habitual. O objetivo desta fase de estudo é comparar ambos os tratamentos e estabelecer a superioridade de um sobre o outro. Os testes de fase III devem fornecer todas as informações necessárias para a elaboração do rótulo e da bula do medicamento. A análise dos dados CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 49 obtidos na fase III pode levar ao registro e aprovação para uso comercial do novo medicamento ou procedimento, pelas autoridades sanitárias. P.S.: eficácia vs efetividade. “Como sabemos, efetividade é eficácia no mundo real. Eficácia responde a pergunta: este tratamento pode funcionar? Isso é testado no mundo ideal, no laboratório dos ensaios clínicos, quando se mostra que a conduta gera um efeito. Efetividade é uma pergunta que hierarquicamente deve vir depois da demonstração controlada e válida de eficácia, e se refere à seguinte questão: este tratamento funciona? Efetividade tem dois componentes que a fazem diferente de eficácia: um primeiro componente que se refere a uma maior variabilidade de tipos de pacientes e da qualidade de aplicação da conduta médica (aderência menor, cirurgiões menos experientes, coisas do mundo real). Este primeiro componente é bastante lembrado. Mas há um segundo componente, tão importante quanto, que é pouco lembrado na literatura: a preferência do binômio médico-paciente na escolha do tratamento. Aqui não coloco preferência de uma forma pejorativa, a conotação é de escolha mental, individualização do tratamento. Uma escolha norteada por conceitos de eficácia, mas que requer julgamento clínico para saber se aquele paciente deve de fato receber esse tratamento (qual o desfecho de interesse, risco de evento adverso).” “Por outro lado, devemos estar conscientes de que eficácia é diferente de efetividade. Efetividade é o benefício de uma conduta médica no mundo real. Este conceito parte da premissa de que nem tudo que é eficaz, consegue ser efetivo. O melhor time de basquete do mundo, o dream team, perdeu para a Argentina na semifinal das olimpíadas de 2004, ficando apenas com a medalha de bronze. Por quê? Porque nas olimpíadas as circunstâncias dos jogos são diferentes do mundo da NBA. Ou seja, o Dream Team é eficaz, mas não foi efetivo nas olimpíadas. Stephen Covey, um dos mais renomados acadêmicos sobre efetividade administrativa, tem um conceito interessante sobre eficácia e efetividade aplicado à vida pessoal. Uma pessoa pode ser eficaz em alguma atividade: um empresário conseguir sucesso financeiro; um cientista conseguir publicar um artigo em revista de impacto; um esportista ganhar uma competição. Porém a verdadeira efetividade na vida é conseguir contemplar de forma equilibrada todos os setores de valor: físico, material, emocional, espiritual, social. É o equilíbrio disso tudo que nos trará felicidade, ou seja, efetividade.” – Blog Medicina Baseada em Evidências (Luis Cláudio Correia). Por isso é importante avaliar qual a preferência do paciente: se o paciente fizer com má vontade, a efetividade cai. Ou seja, a relevância da decisão compartilhada (Medicina Centrada no Paciente – é um dos princípios da Medicina Baseada em Evidência). É diferente de decisão consentida. Quando for a nível de sistema de saúde, analisar a preferência não do paciente, mas da população. Eficiência (Custo-Efetividade): Tem relação também com a aplicabilidade. É sinônimo de custo- efetividade (análise econômica). Custo monetário e não monetário. Ex: 1 ano de diálise salva a vida. Mas quanto custa ($) 1 anode diálise? O cálculo é custo/efetividade. Nesse caso, 40.000/1 ano de vida salvo (no caso da dialise). É bom pra pensar se o tratamento é custo-efetivo no caso de sistema de saúde (gestoras de saúde) e não na decisão individual (médicos com seu paciente individualmente) porque tem individuo que pode pagar. Estudos de Fase IV: Após um medicamento ou procedimento diagnóstico ou terapêutico ser aprovado e levado ao mercado, testes de acompanhamento de seu uso são elaborados e implementados em milhares de pessoas, possibilitando o conhecimento de detalhes adicionais sobre a segurança e a eficácia do produto. Um dos objetivos importantes dos estudos fase IV é detectar e definir efeitos colaterais previamente desconhecidos ou incompletamente qualificados, assim como os fatores de risco relacionados. Esta fase é conhecida como Farmacovigilância. CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 50 COMBINAÇÃO DE ESTUDOS Baseado na aula de Malu Adan e Lucas Rodrigues do I COMECI. Método bastante utilizado para reunir as informações existentes sobre determinado tópico. Essa revisão pode ser estruturada de duas formas, a depender do seu objetivo, que são: (i) Revisão ad-hoc, são feitas de forma livre sem a utilização de nenhum guideline e (II) Revisão sistemática, realizada de forma sistemática, respeitando um conjunto de passos que devem descrevem desde a fase de coleta dos estudos até a analise dos mesmos. I. REVISÃO AD-HOC. Não utilizam uma metodologia, evitando erros. • Guidelines/Diretrizes. Corresponde a um documento produzido a partir dos resultados de diversas pesquisas científicas e análise de uma banca de especialistas, que visa a orientar condutas da prática médica. Tais pesquisas são selecionadas dentre muitas outras, buscando-se apenas aquelas que tenham uma maior confiabilidade e sejam mais atualizadas, para que assim se construa uma diretriz compatível com o conhecimento científico do tempo em que ela é escrita. Vale ressaltar que esses protocolos são renovados periodicamente, para que haja a inclusão, retificação ou exclusão de determinadas orientações, com a finalidade de acompanhar as atualizações da ciência. As diretrizes não possuem uma única fonte de produção e não respeitam a um modelo fixo, podendo ter diferentes aparências e formas de abordagem do assunto, a depender das preferências dos autores. Dentre as instituições responsáveis por redigi-las, algumas ganham destaque no contexto nacional: o Conselho Federal de Medicina, o Ministério da Saúde, as sociedades médicas brasileiras (que dizem respeito às especialidades e campos de atuação) e a Associação Médica Brasileira. No que diz respeito à produção estrangeira de guidelines, existem outras instituições nacionais de cada país que assumem essa responsabilidade. Assim, acabam sendo produzidas diferentes diretrizes sobre um mesmo assunto e em alguns pontos elas são discordantes em suas recomendações para o manejo do paciente, nos critérios diagnósticos e nas instruções para a realização de determinado procedimento. Isso acontece porque existe uma série de diferenças entre os países que influenciam em tais orientações, como: as características biológicas da população, sua cultura e costumes, a estrutura e condições do sistema de saúde, a situação financeira do Estado e, em especial, a epidemiologia das patologias. Devido a essa série de variáveis, os médicos, geralmente, utilizam as diretrizes nacionais para embasar a sua prática. Entretanto, o uso de guidelines estrangeiras não é rara e pode ser muito útil ao profissional, especialmente quando essas encontram-se mais atualizadas do que as do país de origem. CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 51 • Bases de informações. Ferramentas online destinadas para médicos e profissionais de saúde, com conteúdos de diferentes especialidades, que auxilia: - Estudantes - Profissionais de diversas áreas - Pós-graduandos e pesquisadores Esse auxílio se dá através de noções científicas relevantes e com alta credibilidade mundial. Elas incluem uma coleção de informações médicas e de pacientes, reunindo as últimas notícias e perspectivas de especialistas, dados essenciais sobre medicamentos e doenças, bem como conteúdo de educação médica continuada. REVISÃO SISTEMÁTICA (RS) A REVISÃO É um tipo de combinação de estudos. É considerada um estudo secundário pois está baseada na análise de estudos primários sobre um determinado tema de pesquisa. Ou seja, o principal objetivo de uma revisão sistemática é analisar uma serie de trabalhos já publicados sobre um tema com o intuito de responder uma pergunta de pesquisa bem definida, identificando, analisando e sintetizando as evidências disponíveis. É por isso que a RS é a principal fonte para a construção das diretrizes utilizadas na medicina. Pode-se dizer então que a RS não é formada por dados primariamente obtidos, uma vez que ela gera uma nova informação a partir de uma análise da totalidade de evidências Mas é preciso ter em mente que uma RS pode ou não ser acompanhada de metanálise. Essa última, por sua vez, consiste na soma da análise estatística e da análise dos efeitos dos resultados dos estudos analisados. Ou seja, é como se transformássemos os estudos da RS em um banco de dados, que serão utilizados para realizar uma nova análise estatística. Mas então, em se deparando com uma RS e Metanálise, quais pontos principais precisamos analisar? Como é considerado evidência científica, como qualquer outra, deve ser feita a partir de uma metodologia científica, que previnem diversos vieses e conclusões inadequadas. Existe uma metodologia de análise e seleção de trabalho, de forma que diferentes pessoas fazendo essa revisão, utilizando a metodologia correta, chegarão à resultados próximos. Por isso, faz-se necessário a análise da qualidade de uma revisão sistemática, que é dividido em alguns passos: 1. Questão da pesquisa. A primeira coisa a se analisar dentro da análise da qualidade de uma revisão sistemática é se a construção da pergunta da pesquisa segue a estratégia PICO. O PICO representa um acrônimo para: P= População; I= Intervenção; C= Controle; O= Outcome (Desfecho). Esses quatro componentes são os elementos fundamentais da questão de pesquisa e da construção da pergunta para a busca bibliográfica de evidências científicas. Pergunta de pesquisa bem construída CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 52 possibilita a recuperação de evidências nas bases de dados, e evita a realização de buscas desnecessárias. 2. Identificação de estudos. A identificação de estudos também é um tópico importante, uma vez que a busca dos trabalhos que foram compilados precisa ter sido de maneira bem-feita. Sendo assim, é necessário analisar: A) Se a busca foi abrangente e ampla; B) Se a identificação dos estudos foi definida anos no início da pesquisa; C) A possível presença do viés de publicação; D) Se as fontes utilizadas foram confiáveis e suficientes, como a medline, cochranre, aids line, etc. Dentro disso, é necessário verificar se durante a busca, foram utilizados termos adequados e de maneira suficiente para fazer uma varredura ampla. 3. Inclusão e exclusão de trabalhos. Em relação à inclusão e exclusão de trabalhos, deve-se analisar se foi feita de maneira adequada. 1) Se houve uma boa justificativa para os critérios de inclusão e exclusão 2) E também se foram definidos a priori ou ao longo da construção do estudo OBS: As boas revisões sistemáticas colocam 2 pesquisadores para fazer a seleção dos trabalhos de forma independente e depois, a própria revisão sistemática analisa e descreve a concordância desses pesquisadores em relação à seleção dos trabalhos através da Análise de concordância KAPPA, que avalia o percentual da concordância além do acaso. Se recomenda que o valor dessa concordância seja pelo menos maior do que 0.6. 4. Estudos elegíveis. Quando osestudos já foram selecionados, eles são submetidos à extração de dados, que é feita de maneira uniforme e independente pelos 2 ou mais revisores, como já citado anteriormente. Essa extração é baseada em uma ficha clínica ou um formulário que possui os dados que deverão ser coletados. Dessa forma, é necessário eu os revisores tenham sido bem treinados e nivelados para que não tenham muita divergência durante a coleta dos dados; 5. Apresentação dos dados. Ao longo dos métodos e resultados, diversos dados devem ser apresentados, de forma que devem estar contidas no trabalho, informações acerca das: 1) Características dos trabalhos selecionados (?) à geralmente representadas em tabelas; 2) Achados das análises à geralmente representadas em tabelas ou figura; 3) Dados metodológicos e estatísticos, como estimativas, IC e análise de sensibilidade, etc. 1. INTRODUÇÃO. A revisão sistemática é uma evidência científica secundária, pois geramos novas informações ao analisar de maneira conjunta a totalidade das evidências. É ciência, pois é feita através de uma metodologia -> previne viés de seleção de artigo, conclusões inadequadas da própria revisão sistemática. Dessa forma, difere de uma revisão narrativa, que não é propriamente uma evidência, há uma seleção da literatura e outros fatores envolvidos por não utilizar de uma metodologia. è Toda revisão sistemática deve ter uma pergunta bem definida e moderada: § Não deve ser muito ampla. § Também não pode ser muito específica. • Enquanto um ensaio clínico só deve analisar um desfecho primário como definidor de conclusão e desfechos secundários são apenas geradores de hipóteses, a pergunta clínica da revisão sistemática pode ser respondida através da análise de diferentes tipos de desfechos. CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 53 § O custo de valorizar desfechos secundários está no problema das múltiplas comparações -> muitas comparações quando são feitas aumentam a probabilidade de encontrar um resultado positivo por acaso. § Como o acaso não se repete em diferentes estudos (que são analisados na RS), então quando estou avaliando vários estudos ao mesmo tempo, avalia-se a consistência dos resultados. A leitura da RS não é igual à leitura de artigo científico. Boa conclusão da RS =/= boa conclusão definitiva: posso simplesmente concluir que não há literatura suficiente, que só existem trabalhos observacionais, etc, e isso já pode ser suficiente, já ser bom para a ciência. RS =/= Meta-análise. Meta-análise são análises estatísticas realizadas na RS. 2. ESTRUTURA ANATÔMICA DA RS. 1º - Busca de trabalho, quantos artigos obtidos, critérios de adição e exclusão desses artigos, termina com quantos artigos. 2º - Descrição desses trabalhos: tamanho amostral, desfecho avaliado, resultado, desenho de cada estudo. 2.1. FUNÇÃO. 1º - Análise metodológica dos trabalhos: avaliar criticamente os trabalhos da literatura. Ex: começa dizendo esse trabalho é de má qualidade, alto risco de viés, etc, esse outro é moderado, etc, só há trabalhos observacionais. 2º - Meta-análise: análise estatística para avaliar: è Análise de viés de publicação: (funnel plot - gráfico de funil, nos fazem desconfiar desse tipo de viés, caracterizados pelo fato de trabalhos positivos têm mais probabilidade de serem publicados). è Heterogeneidade (Iˆ2) = os trabalhos discordam entre si? Ou são homogêneos? = significa que são consistentes. Trabalhos muito heterogêneos não devem ser compilados. è Efeito sumário: compilação dos dados (diamante no gráfico forest). O resultado de cada trabalho e uma média ponderada do resultado de cada trabalho pelo tamanho amostral. è Análise de sensibilidade: ex: quão sensível o resultado de um trabalho a respeito da dose utilizada? è Análise de subgrupos de trabalhos. 3. ANÁLISE DA QUALIDADE DA REVISÃO. Qualidade da RS =/= Qualidade das evidências da RS. Aqui iremos estudar a qualidade da RS, avaliando o avaliador das evidências. è Procurar o PICO na introdução § População, intervenção em relação ao impacto no desfecho/teste diagnóstico ou prognóstico, controle, outcome. § A intenção é que selecione estudos de efeitos similares. § Falta de especificidade promove heterogeneidade. è A pesquisa da literatura foi extensa e adequada? § Base de dados (MEDLINE...) § Perguntas a especialistas. è Critérios de inclusão avaliados em duplicata? § Critério de inclusão dos trabalhos devem estar claros. § Preferencialmente, dois pesquisadores para selecionar os trabalhos, de forma independente, e depois analisam se houve concordância em relação à seleção. o Teste de concordância Kappa > 0,60. (60% -> boa reprodutibilidade entre os investigadores. o Kappa: percentual de concordância além do acaso. "Eliminando as concordâncias do acaso, quantos % consigo concordar?". o Em discordâncias, há um terceiro pesquisador que decide se o trabalho entra ou não na RS. CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 54 è Analisado risco de viés dos estudos (em duplicata)? § Descrição da qualidade das evidências. § 2 avaliadores -> avaliar a concordância dos dois pelo teste de Kappa, e se necessário ter um terceiro avaliador. § Como pontuaram a validade das evidências? o Foi considerado os viéses? è Principais viéses procurados na RS: ausência de randomização, randomização aberta ou não centralizada; ausência do método de intenção de tratar, estudo é aberto (na vigência de um desfecho subjetivo), perda excessiva de follow-up. è Rate de 0-10 -> testa concordância. è Critérios Grade (Cocraine faz de uma maneira parecida) - análise das evidências. 4. ANÁLISE DA QUALIDADE DE EVIDÊNCIAS. è RISCO DE VIÉS - Grande ou pequeno. § Randomizado? ECR - highest and down. Observacionais - lowest and up. § Randomização fechada ou aberta? (viés de seleção). § Estudo cego ou aberto? (viés de detecção ou performance) § Perda excessiva de follow-up? § Intenção de tratar ou per protocol? (viés de atrito) § Truncamento? (<200 pacientes) (viés de análise). è Análise da Metanálise, que demonstrará se há inconsistência entre os resultados dos estudos. A METANÁLISE “Soma estatística dos resultados dos estudos analisados através de técnicas quantitativas do tamanho do efeito e da homogeneidade entre os estudos selecionados.” Imaginem se fizermos um experimento que mostra um certo resultado. Podemos nos perguntar, esse resultado é verdadeiro? A melhor forma de avaliar essa veracidade seria repetir o experimento várias vezes e ver se o mesmo resultado se repete. Mas isso não ocorre, quem faz um ensaio clínico só faz uma vez e publica. O que faz uma metanálise é simular esta repetição de experimentos, utilizando os estudos que existem na literatura. Hipoteticamente, ao realizar uma metanálise, estamos repetindo o experimento várias vezes. E nesta repetição, avaliamos heterogeneidade entre os estudos, vendo se o resultado se repete nos diferentes experimentos. Se os experimentos se confirmam entre si, ficamos mais certos de que aquele resultado não decorreu do acaso. Desta forma, um parâmetro importante no resultado de uma metanálise é a medida de heterogeneidade. Na análise estatística da metanálise, é possível avaliar a heterogeneidade. A consistência de um trabalho existe quando não há heterogeneidade. O que significa que os diferentes trabalhos utilizados trazem resultados semelhantes. A heterogeneidade é representada pela presença de diferenças além do acaso entre os estudos. 1. O primeiro passo para avaliar a heterogeneidade é através da análise do gráfico de floresta. A heterogeneidade é a diferença entre os resultados dos estudos que vai além do acaso. O que leva a ela então? Alterações de método/qualidade dos estudos. Estudos de boa qualidade com um resultado e de ruim mostram outras. Ou estudos avaliando coisas diferentes. Quanto mais homogêneos sãoos resultados, mais forte é a evidência a respeito daquela conclusão -> reprodutibilidade científica (diferentes estudos dizendo a mesma coisa). CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 55 A heterogeneidade não é culpa do autor da RS, não é má-qualidade do trabalho. Ele apenas está relatando como se comporta a totalidade de evidências. Como se mede a heterogeneidade? A metanálise é capaz de calcular, através de estatística, o quanto as diferenças entre os artigos vão além do acaso. Forest Plot -> gráfico que representa a medida de associação de cada estudo em seu intervalo de confiança -> analisar o que existe de heterogeneidade entre cada estudo. Valor de P do qui-quadrado alega a heterogeneidade. Floresta é uma analogia: a meta-análise serve para promover a visão do todo (floresta), desfocando nossa visão de apenas uma árvore. Quando uma magnitude de efeito global é calcula, frequentemente é mostrada como uma estimativa-ponto e um intervalo de confiança na parte inferior do gráfico de floresta. O sumário é geralmente representado como um diamante, para distingui-lo dos estudos isolados. O efeito sumário é uma apresentação mais precisa e mais formal do que poderia ter sido concluído a partir o padrão dos resultados apresentados no gráfico de floresta. A estimativa sumária, que é a medida que resulta da compilação entre os estudos. Esta não é a simples média dos resultados dos estudos. Na verdade, é como uma média ponderada. Ou seja, quanto mais preciso é o estudo, mais peso este terá no resultado da metanálise. Estudos maiores tendem a ter mais influência no resultado final do que estudos pequenos. Estudos com estreitos intervalos de confiança terão mais influência do que estudos menos precisos. Observem no forest plot abaixo que a estimativa pontual do resultado de cada estudo é representada por um quadrado. Vejam que este quadrado varia de tamanho, pois este tamanho significa o peso que cada estudo teve na estimativa sumária. Compilando os dados de diferentes estudos (simula a repetição dos experimentos) teremos uma informação científica mais precisa. Ou seja, se repetimos o experimento várias vezes, saberemos mais a respeito da questão do que na análise de apenas um experimento. Por este motivo, o intervalo de confiança da medida sumária (o diamante do gráfico) é sempre mais estreito do que o intervalo de confiança dos trabalhos individuais. Por isso é mais provável que a significância estatística seja alcançada quando temos a compilação dos resultados, pois os intervalos de confiança ficam mais estreitos. Sobre o diamante, o comprimento dele representa o intervalo de confiança, enquanto a medida pontual (no caso, do risco relativo) é representada pelo centro do diamante. Ok, mas como é feita essa sumarização? Se a decisão for por compilar dados heterogêneos, deve se utilizar um método estatístico que previne excessiva influência do estudo que destoa da maioria. É o (1) modelo randômico (random-effect), o qual reduz o peso de estudos que destoam, mesmo que estes sejam estudos maiores. Com o modelo de efeito randômico/aleatório se presume que os estudos tratam de questões um pouco diferentes e que eles formam uma família de estudos sobre uma pergunta semelhante. Os estudos são vistos como uma amostra aleatória de todos os estudos que tratam da questão. Mesmo se um teste estatístico de homogeneidade falhar, ainda pode ser razoável combinar estudos utilizando o modelo de efeitos aleatórios, contanto que os estudos sejam suficientemente semelhantes (obviamente um julgamento de valor). Os modelos de efeitos aleatórios produzem intervalos de confiança mais amplos do que os de modelos fixos. No entanto, o modelo de efeitos aleatórios ao menos leva em consideração a heterogeneidade e é menos propenso a superestimar a precisão; por isso, é o modelo que mais tem sido usado nos últimos anos. CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 56 Já com (2) o modelo de efeito fixo, presume-se que cada um dos estudos trata exatamente da mesma questão, de forma que os resultados dos estudos são diferentes somente em função do acaso. É chamado de efeito fixo porque se presume apenas uma magnitude de efeito subjacente, embora os resultados de cada estudo sejam diferentes um dos outros por causa da variação aleatória. O principal problema com essa abordagem é que, na verdade, é raro que os estudos se assemelhem tão estritamente, em termos de pacientes, intervenções, seguimento e desfecho, que possam ser considerados simples réplicas uns dos outros. Enfim, devemos sempre fazer estimativa visual das medidas pontuais e IC (overlap) e observar o gráfico: estudos se aproximam? Estudo com medida pontual diferente, mas IC são superponíveis - overlap -> sugere pouca heterogeneidade. Outra questão que devemos observar é o tipo de diferença entre os estudos, se qualitativas ou quantitativas. Na primeira, os estudos de fato discordam em relação à direção do efeito. Na segunda, os estudos podem dizer a mesma coisa (há redução de mortalidade), o que difere é o grau de redução. Não conseguir rejeitar a hipótese nula de não haver diferenças entre os estudos pode parecer reconfortante, mas há um problema. A maioria das metanálise reúnem relativamente poucos estudos e, portanto, são de poder estatístico limitado. O risco de um resultado falso-positivo, uma conclusão de que os estudos são homogêneos quando eles não são, é tipicamente alto. O poder também é afetado pelo número de pacientes nesses estudos e pelas semelhanças entre eles na distribuição dos indivíduos. Se um dos estudos for muito maior do que os outros, ele contribuirá com a maior parte das informações relacionadas à questão e pode ser mais útil examiná-lo com mais cuidado e então compará-lo com os outros. Uma segunda abordagem é fazer um julgamento informado para saber se os pacientes, as intervenções, o seguimento e os desfechos são suficientemente semelhantes para serem considerados estudos sobre a mesma questão (ou quase a mesma). Dessa forma, independentemente dos resultados do teste estatístico, pode-se relutar em agrupar estudos. 2. Valor de P (Cochran Q teste/qui-quadrado/X²). Grau de variabilidade entre os estudos > efeito aleatório (rejeitando a hipótese nula). Valor de P, nesse caso, é melhor que NÃO seja estatisticamente significante. 3. O terceiro passo é avaliar o I² = percentual de variabilidade além do acaso: Desta forma, um parâmetro importante no resultado de uma meta-análise é a medida de heterogeneidade, representada por I2, o qual indica o percentual da variação do resultado entre os estudos que ultrapassa o efeito do acaso. Explicando melhor, estudos diferentes nunca terão resultados idênticos, sempre haverá alguma diferença. Estas diferenças resultam de variação aleatória (acaso) + diferenças verdadeiras. Se as diferenças são só pelo acaso, elas vão até um certo ponto. Além de um certo ponto, o que há de diferença pode ser devido a discordância real entre os estudos. O I2 é o percentual da variação entre os estudos que decorre de diferenças reais, de discordâncias verdadeiras. Interessante notar é que quanto maior o tamanho amostral dos estudos, mais fácil detectar heterogeneidade, pois sendo estudos mais precisos, o efeito do acaso se reduz e eventuais diferenças tendem a ser mais reais. A esta altura vocês devem estar se perguntando o que é muita heterogeneidade. Não há um número mágico, mas se considera que idealmente o I2 deve ser < 40% para que os estudos sejam compilados. Entre 40% e 60% seria aceitável e I2 > 60% já torna a compilação problemática. I² = 0. NÃO TEM HETEROGENEIDADE. CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 57 4. Análise de Sensibilidade. Essa análise avalia o quanto sensível é o resultado a certas características dos estudos. É uma análise de subgrupo, mas não subgrupo de pacientes, mas subgrupo de estudos, divididos de acordo com certascaracterísticas. Vejam na tabela abaixo, que os estudos são divididos naqueles que só incluíram diabéticos ou incluíram qualquer tipo de paciente. Valor de P da heterogeneidade entre os dois grupos = 0.80, mostrando que o resultado é o mesmo em estudo de diabéticos ou em estudo que incluem diabéticos e não diabéticos. 5. Viés de Publicação. O fato de que o resultado positivo ocorreu simultaneamente em dois estudos independentes, feitos em diferentes locais do mundo, nos induz a pensar que de fato o efeito benéfico observado deve ser verdadeiro. Isso seria verdade se apenas estes dois estudos fossem os que tivessem sido realizados em todo o universo. E nesse momento entra o viés de publicação. O viés de publicação é um fenômeno inerente de estudos pequenos, geralmente unicêntricos. Grandes estudos multicêntricos são publicados, mesmo quando negativos. Mas os estudos pequenos ficam mais vulneráveis a este fenômeno. Isso ocorre devido à dificuldade de publicar um estudo pequeno. Assim, estes estudos precisam ser pelo menos positivos, para atrair a atenção de revisores e editores para a aceitação do artigo. O viés de publicação vem de nossa inadequada tendência a valorizar mais dados positivos do que dados negativos, como retratado na frase de Francis Bacon: "It is peculiar and perceptual error of the human understanding to be more moved and excited by affirmatives than negatives." Estudos negativos são menos publicados do que os positivos. Acontece por desestimular o próprio autor e dificuldade maior das revistas aceitarem o trabalho. CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 58 O Gráfico de Funil permite a análise se o estudo possui ou não índice de viés de publicação. Como estudos pequenos tem muita imprecisão, logo esperam que tenham todos os tipos de resultados, e que estudos grandes possuam resultados próximos, que simulem a realidade com mais fidelidade. O gráfico de funil plota o resultado dos estudos, através de alguma medida de associação (risco relativo, odds ratio). Desse modo, no eixo horizontal temos a medida de associação e no eixo vertical temos tamanho do estudo. Ficam mais abaixo e aleatórios estudos com tamanho amostral menor. Consequentemente, estudos grandes costumam se agrupar no topo, pois eles costumam ter resultados mais semelhantes. Quando os estudos pequenos vêm concentrados em apenas um dos lados do log (linha central), há indício de viés de publicação, pois nós SABEMOS o que esperar de estudos pequenos: todos os resultados. A respeito de estudos grandes, não sabemos o que esperar, não sabemos a realidade a respeito daquela hipótese. Portanto, a análise de viés de publicação é feita através de estudos pequenos. O viés de publicação não ocorre apenas em estudos pequenos, porém há mais vulnerabilidade nos pequenos. E é importante vermos se há viés de publicação nesses estudos pequenos, uma vez que eles implicam na sumarização dos resultados no gráfico de floresta. OUTROS ASPECTOS INTERESSANTES DA METANÁLISE. • Posso combinar apenas estudos ou também pacientes? Até agora, a discussão tem sido sobre como se combina os estudos, que geralmente é a forma como as metanálise são conduzidas. Mas uma abordagem ainda mais poderosa é obter os dados sobre cada paciente em cada um dos estudos e juntas esses dados para produzir, na prática, um único estudo grande. Relativamente poucas metanálise são feitas dessa forma devido à dificuldade de se obter todos estes dados dos pesquisadores. Contudo, quando isso acontece, é possível procurar os efeitos em subgrupos de pacientes clinicamente importantes, como os gravemente afetados, os idosos ou aqueles com outras condições clínicas. O número de pacientes nesses subgrupos provavelmente é muito pequeno para produzir estimativas estáveis de efeitos, mas os números combinados podem ser suficientes. • O que fazer quando as metanálise e os grandes ECRs discordam? Geralmente, há concordância entre os grandes ensaios clínicos e as metanálise, porque, de fato, os grandes ECRs recebem maior peso nas metanálise. Contudo, há exemplos desconcertantes de metanálise de ensaios clínicos pequenos que discordam dos resultados de um grande ensaio clínico subsequente sobre a mesma questão. Em 1992, recomendávamos que, exceto contra-indicações, o magnésio deveria ser administrado a todos os pacientes com suspeita de infarto do miocárdio. Uma meta- análise de 7 ensaios clínicos randomizados (1300 pacientes ao todo) publicada na BMJ sugeriu que infusão intravenosa imediata de magnésio poderia reduzir pela metade a mortalidade precoce. CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 59 Em 1995, no entanto, os resultados de um ECR maior, desta vez envolvendo mais de 58.000 pacientes, sugeriu que o magnésio não era benéfico. A diferença entre os resultados foi explicada pelas diferenças na taxa de eventos basais, pelas diferenças no delineamento do estudo ou pelo viés de publicação. As melhores evidências favoreceram os resultados do megaensaio, nesse caso. • Vantagens da Metanálise. A grande vantagem de se combinar resultados é que há uma melhora no poder estatístico. Visto de outra forma, a combinação produz estimativas mais precisas da magnitude do efeito. A vantagem se estende aos subgrupos. A maioria dos estudos é planejada para ser grande o suficiente apenas para responder à questão principal da pesquisa. Mas quando os estudos são combinados, pode ser possível encontrar efeitos em subgrupos clinicamente importantes, conforme mostrado anteriormente neste capítulo em relação aos antiplaquetários e à doença cardiovascular. A combinação de estudos fornece uma estimativa mais precisa da magnitude do efeito do que a estimativa disponível em cada um dos estudos. Isto possibilita decidir se o efeito tem probabilidade de ser grande o suficiente para ser clinicamente importante, ou se um efeito clinicamente importante foi descartado. A vantagem também se estende à detecção de eventos raros, como efeitos colaterais incomuns do tratamento. A maioria dos ensaios clínicos são delineados para serem suficientemente grandes para detectar um aumento na taxa de efeitos colaterais incomuns, mesmo se forem graves: a vigilância pós- comercialização de uma grande quantidade de pessoas que tomam um medicamento é utilizada para identificar esses efeitos. Mas a combinação desses estudos, cada um dos quais relatou apenas alguns desses desfechos, pode possibilitar a detecção de uma diferença na taxa de eventos raros nos grupos da intervenção e de controle. Esses efeitos podem ser estabelecidos com muito mais rigor em ensaios clínicos randomizados do que é possível na vigilância pós-comercialização, que é uma abordagem observacional. • Desvantagens da Metanálise. A principal desvantagem das metanálise é que elas podem dar uma falta impressão de que os resultados estão estabelecidos com grande grau de precisão quando, na verdade, os resultados principais dependem de muitos pressupostos para se sustentarem. Além disso, a combinação tira a atenção das diferenças entre os resultados dos estudos que podem fornecer pistas para diferenças clinicamente importantes entre os efeitos, como as diferenças entre os diversos tipos de testes de sangue oculto nas fezes para câncer colorretal. Uma outra desvantagem é que metanálise geralmente relatam suas medidas sumárias de efeito como estimativas de risco relativo (razões de chances), devido aos modelos matemáticos em que se baseiam. Mas as razões de chances distanciam-se do risco na medida em que aumenta o risco basal. Nesse caso, os clínicos necessitam também de informações sobre as taxas de ocorrência do desfecho no estudo. Cuidado com a Metailusão! Metailusão conota uso inapropriado do desenho de meta-análise para criar a ilusão de que uma ideia é verdadeira ou mais promissora do que evidências suportam. Metailusão gera o paradoxo da meta- análise, quandoa análise conjunta de estudos traz uma visão mais enviesada do que a análise separada de cada estudo. Como sabemos, meta-análise é a análise estatística que pode estar contida em revisões sistemáticas. Esta abordagem tem certa utilidade se estiver no contexto adequado. No entanto há também potencial de enviesar nossas mentes para o lado da crença não embasada em evidências (Metailusão). Resumindo, o valor de revisões sistemáticas está em demonstrar se um conceito está ou não comprovado. Não devemos confundir isso com o papel de criar uma evidência a favor de um conceito. Se o conceito não está comprovado, não deve caber à revisão sistemática “criar” esta comprovação. CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 60 No entanto, muitas delas se utilizam de meta-análises para criar novas medidas de associação como se estas representassem um novo dado a respeito do assunto. Não é um novo dado, é apenas um compilado de dados antigos. Se dados antigos não comprovaram o conceito, não será o compilado deles que comprovará o conceito. Isso nos remete ao viés cognitivo denominado bounded awareness (consciência limitada), que ocorre quando o foco em algo muito específico prejudica a visão do que seja mais importante. EPIDEMIOLOGIA CLÍNICA | MEDIDAS DE ASSOCIAÇÃO E EFEITO INTRODUÇÃO Aula 1 Alcina – IPS. A Medicina Clínica se baseia em anamnese, HMA, antecedentes, exame físico, solicitação de exames (Choosing Wisely) e prescrição e/ou orientação. O objetivo é responder questões clínicas e guiar decisões clínicas. A epidemiologia aborda o grupo populacional no qual o indivíduo está inserido. Além dos fatores de risco, acurácia de exames diagnósticos, tratamento: eficácia, efetividade e eficiência e prognóstico. O objetivo é atender ao paciente dentro do contexto da população maior da qual ele faz parte. É útil considerar que o paciente individual pertence a um grupo de pessoas com características semelhantes que podem ser estudadas em conjunto (individual e coletivo). As conclusões para grupos de pessoas parecidas são mais estáveis do que as observações de um paciente isolado ou de um pequeno número de pacientes, mas por quê? Pelo papel do acaso. As conclusões para grupo de pessoas parecidas são mais estáveis do que as observações de um paciente isolado ou de um pequeno número de pacientes. As conclusões de pesquisa sobre grupo de pessoas são chamadas de EVIDÊNCIAS. Enquanto a clínica trata do sujeito considerado em suas particularidades, o caso, o “um”, a epidemiologia aborda o coletivo, busca a generalidade, o grupo de casos, o “todos”. Definição de Epidemiologia clínica: “é a ciência que faz predições sobre pacientes individuais utilizando a contagem de eventos clínicos em grupo de pacientes semelhantes e valendo-se de métodos científicos sólidos para garantir que as predições sejam corretas” (Fletcher e Fletcher, 2006). Tópicos Questões Anormalidade O paciente está doente ou sadio? Diagnóstico Qual a acurácia dos testes utilizados para diagnosticar a doença? Causa Que condições levam à doença? Frequência Com que frequência uma doença ocorre? Risco Quais os fatores que estão associados com um risco maior da doença? Prognóstico Quais são as consequências de se ter uma doença? Tratamento Como o tratamento altera o curso de uma doença? Prevenção Uma intervenção em uma pessoa sadia impede o surgimento da doença? Fazer a detecção e iniciar o tratamento precocemente melhora o curso da doença? CAUSALIDADE CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 61 Aula 2 Alcina – IPS. A causalidade é a questão central na epidemiologia. Sendo determinada a priori pelas (1) condições concretas de existência e (2) capacidade intelectiva do homem. Definição: a causa de uma doença pode ser definida como um evento antecedente, condição ou característica que é necessária para a ocorrência de uma doença no momento em que ela ocorre. A causa precede a doença, sem a qual ela não ocorreria. • Placa de ateroma -> AVC. • Exposição excessiva ao sol -> queimadura de pele. • Mordedura de animal raivoso -> raiva. Estudo de causalidade. Conceito relacional, ou seja, uma possível “causa” é interpretada em relação a um “efeito”. As pesquisas têm em comum o fato de examinarem a relação entre dois eventos: uma “suposta causa” (exposição e um “dado efeito” (doença). • Exposição ionizante -> câncer. Classificação das causas. • Humanas. o HAS -> IAM. o DM -> Retinopatia diabética. o VHC -> Carcinoma hepatocelular. o Stress -> ansiedade. • Ambientais. o Benzeno -> anemia plástica. o Asbesto -> asbestose. o Água contaminada -> DDA. o Vetores -> dengue. Tipos de associação de eventos. • Relação causal: o Cigarro e bronquite crônica. o Rubéola na gravidez e anomalia congênita. o Estresse e úlcera péptica. o Banho de lagoa e esquistossomose. o Derrubada de matas e leishmaniose. • Relação não causal: o Cabelos grisalhos e mortalidade. o Masturbação e acne. o Manchas nos dedos dos fumantes e câncer de pulmão. o Hábito de barbear-se e infarto agudo do miocárdio. Interpretação causal – critérios de julgamento. • Força da associação. Se mede através das medidas de associação. No caso da coorte, é através do risco relativo, no caso do estudo transversal é a razão das prevalências. A incidência se mete através da divisão daqueles que tiveram efeito sobre a totalidade das pessoas e ainda pode ser dividido por um padrão (10.000, 1.000, depende). O risco se mede através da incidência. O risco relativo é a incidência dos expostos sobre as do não expostos. • Consistência. O que foi encontrado no estudo é semelhante ao que está sendo encontrado nos outros estudos? Consistente é quando as evidências científicas já existentes (estado da arte) ratificam o que o novo estudo propõe. • Especificidade. Postulados de Henle Koch, que diz que o organismo é sempre encontrado na doença e que o organismo não é encontrado em qualquer outra. Além disso, diz que o organismo isolado de um doente e cultivado através de várias gerações produz a doença em animais de experimentação. Explica bem para doenças infecciosas e nem tanto para outras. (Presença do mycobacterium tuberculosis em orofaringe não significa doença). • Temporalidade. A exposição tem de vir antes da causa. Se assim não for, não é possível afirmar que é uma causalidade. O alcoolismo prévio gera pancreatite, o tabagismo prévio gera câncer de pulmão – não o contrário. • Efeito dose-resposta. A chance de desenvolver uma doença é aumenta a medida em que a exposição é intensificada. CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 62 • Coerência experimental/Cessação da exposição. Se retirar a exposição das pessoas, o efeito desaparece? • Plausibilidade biológica. Tem sustentação biológica, fisiológica, etc. É possível explicar através do conhecimento biológico. Conclusão: • Existe evidência de que os solventes orgânicos contribuem para o aparecimento dos LNH: o Força da associação semelhante à evidenciada pela maioria das exposições ocupacionais; o Evidência de uma relação dose-resposta para intensidade da exposição; o Precedência da exposição em relação à doença, com evidência de um período de latência plausível; o Associação evidenciada também para exposições não ocupacionais; o Plausibilidade biológica que inclui as interações descritas; o Consistência com outros estudos. RISCO Aula 2 Alcina – IPS. RISCO: probabilidade de ocorrência de uma doença, agravo, óbito, ou condição relacionada à saúde (incluindo cura, recuperação ou melhora) em uma população ou grupo durante um período de tempo determinado – Almeida Filho e Rouquayrol. É estimado sob forma de uma proporção matemática (ou seja, a razão entre duas grandezas onde o numerador está contido no denominador), ou seja, um indicador. Pode ser apresentado sob a forma de percentual ou razões. Fatores de risco. São componentesque podem levar à doença ou contribuir para o risco de adoecimento e manutenção dos agravos de saúde. São “atributos de um grupo da população que apresenta maior frequência de uma doença ou agravo à saúde em comparação com outros grupos que não tenha com melhor exposição a tal característica. Também há fatores humanos: • Biológicos. o Hereditários (doença falciforme) o Congênitos (zika na gestação -> microcefalia) o Adquiridos (DM em gestante -> macrossomia) o Psíquicos (stress). • Físicos. o Desproporção cefalo-pélvica. • Comportamentais. o Tabagismo, etilismo, sexo sem proteção, etc. • Predisponentes: o Idade: § Criança (viroses da infância, DDA) § Jovens (IST’s, gravidez) § Adultos (doenças ocupacionais) § Idosos (osteoporose). o Sexo § Masculino (violência) § Feminino (câncer de ovário) E os fatores ambientais: • Saneamento: o Água (hepatite A, parasitoses, etc) o Esgoto/lixo (DDA, etc) o Drenagem pluvial (leptospirose, etc) o Vetores (dengue, chikungunya, zika, etc) • Meio ambiente: o Poluição. • Ocupacionais: o Umidade, poluição. Intervenção nos fatores de risco. • Não modificáveis o Sexo o Idade o Genótipo • Modificáveis o Pela ação direta dos serviços de saúde: § Estado imunitário § Mudanças dos hábitos alimentares § Nível de colesterol sérico § Políticas antitabagismo § Pela ação de outros setores § Escolaridade § Emprego e renda § Saneamento básico CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 63 § Lazer, etc Conceitos de risco. “Risco individual” da clínica. “Risco populacional” da epidemiologia. “Risco estrutural” da saúde ambiental e ocupacional. Medidas de risco: RISCO ABSOLUTO (Informação dada por prof. Alcina, perceba que os conceitos de Risco de Diego são um pouquinho diferentes). Expresso pela taxa de incidência, ou seja, o número de casos novos dividido pela população sob risco. Exemplo: o risco anual de óbito por câncer de pulmão entre indivíduos fumantes é de 70 por 10 mil pessoas e entre aqueles que não fumam é de 7 por 100 mil pessoas. RISCO RELATIVO (Informação dada por prof. Alcina, perceba que os conceitos de Risco de Diego são um pouquinho diferentes). É expresso pela razão entre duas taxas de incidência. Interpretando: Risco relativo (RR) • = 1 indica que o risco é igual nos dois grupos comparados, portanto não há associação entre o “fator” e a “doença”. • > 1 indica que o fator em questão é “risco” para a saúde. • < Indica que o fator em questão é “proteção” para a saúde. Blog Prof. Luis: O risco relativo (RR) é calculado pela razão entre o risco do tratamento / risco do controle, por exemplo, risco da droga / risco do placebo. RR < 1 indica efeito protetor do tratamento, pois o risco deste (numerador) é menor do que o risco do controle (denominador). Um RR > 1 indica efeito deletério do tratamento, sendo também usado para avaliação de fatores de risco. Por exemplo, risco de câncer dos expostos a tabagismo / risco dos não expostos é maior do que 1, indicando dano. RR = grupo exposto/grupo controle = 3/1 = 0.3 = 30%. 3% 10% MORTE DROGA CONTROLE CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 64 A partir do RR, podemos calcular a redução relativa do risco (RRR) pela fórmula 1 – RR. Ou seja, 1 – 0.30 = 0.70, que significa 70% de redução relativa de risco. Essa é a mensuração do benefício relativo. Já a redução absoluta do risco é a simples subtração do risco no grupo controle pelo risco no grupo de tratamento ativo. No exemplo, 10% - 3%, indica 7% de redução absoluta de risco. Observem que numericamente o relativo (70%) impressiona mais do que o absoluto (7%). Logo, qual importa mais? Depende. RR = 0.3 RRR = 0.7 RAR = 7% Quando falamos de fatores de risco, essa medida seria o aumento absoluto do risco. 3% 10% MORTE DROGA CONTROLE 3% 10% MORTE DROGA CONTROLE CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 65 De acordo dados citados no Jornal Nacional, empresas aéreas brasileiras são fatores de risco para acidentes de avião, quando comparadas a empresas americanas. Dividindo a probabilidade de acidente no Brasil pela probabilidade nos Estados Unidos, chegamos a 6.8 de risco relativo no Brasil em relação aos Estados Unidos, um aumento relativo de 5.8, ou seja, 580%. Viajar de avião na TAM (por exemplo) aumenta em 580% o risco quando comparado à American Airlines. Isso poderia dar uma boa propaganda para a AA. Mas quando olhamos o aumento absoluto do risco, verificamos que este é ínfimo. Na verdade, o risco absoluto de acidente nos Estados Unidos é muito baixo (0.26 acidentes por 1 milhão de vôos). Mesmo que a gente multiplique isso por 6.8 (risco relativo), o Brasil continua com um risco absoluto muito baixo, equivalente a apenas 1.76 acidentes/1 milhão do vôos. Ou seja, em termos absolutos a mudança é mínima, embora pareça uma grande mudança se falarmos em 580% de aumento. Viajar pela TAM incrementa apenas 1.5 acidentes a cada 1 milhão de vôos. MORBIDADE E MORTALIDADE Aula 3 Alcina – IPS. (Informação dada por prof. Alcina, perceba que os conceitos de Risco de Diego são um pouquinho diferentes). Nesse caso, diferencia-se o diagnóstico clínico do diagnóstico comunitário. Nesse contexto, o objetivo, informação necessária, tipo de diagnóstico, plano de ação e avaliação variam. Para se saber o estado de saúde da população, é preciso contar os casos de doenças, nascimentos e óbitos ocorridos em uma determinada população e período de tempo. VALORES ABSOLUTOS. Utilidade restrita (eventos localizados no tempo e espaço). Não permitindo comparação espacial ou temporal. Usados por planejadores e administradores: estimativas de leitos hospitalares, previsão de medicamentos. VALORES RELATIVOS. Raramente números absolutos são usados em epidemiologia. O conhecimento epidemiológico se faz através de comparações: os coeficientes ou taxas e os índices ou razões, são, portanto, utilizados. I. Medidas básicas. • Coeficiente ou Taxa. Relações entre o número de eventos reais e os que poderiam ocorrer. - Numerador: eventos realmente ocorridos (observados), exemplo, casos de AIDS na cidade X e no ano Y. - Denominador: eventos que poderiam ocorrer, exemplo, habitantes da cidade X no ano Y. Excluir população não exposta ao risco. • Proporção. Relações entre frequências atribuídas de unidades diferentes. Habitantes/km2 = habitantes por km2. • Razão ou Índice. Numerador: frequência de eventos que constituem subconjuntos do denominador. Óbitos de menores de 1 ano / óbitos de todas as idades. II. Indicadores mais utilizados. CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 66 • Morbidade: incidência (casos novos) e Prevalência (casos novos + antigos). Conjunto de indivíduos que adoeceram. o Incidência. Conceitos chave: Episódios de doença NOVOS, ou para doenças que podem ocorrer mais de uma vez, geralmente usa-se o primeiro episódio de ocorrência da doença; a população considerada deve estar em risco para a doença – os seus membros não podem já ter a doença; deve haver um intervalo de tempo para que as pessoas passem de saudáveis para doentes. O coeficiente de incidência mede o risco da doença (agravo). São úteis nos estudos da etiologia de doenças. A alta incidência significa alto risco pessoal ou comunitária. A incidência mede a velocidade com que casos novos são agregados. Coeficiente de incidência = (número de casos novos (iniciados num período) / população da área resposta ao risco) x10. – Exemplos de uso: estudos da etiologia das doenças, avaliação de efetividade de programas de prevenção e controle de doenças. o Prevalência: medida de frequência de doença existente na população. É a proporção da população que é portadora da doença ou condição. Engloba novos casos e antigos. Número de casos da doença existentes na população/número de pessoas na população de interesse.A prevalência é momentânea, instantânea ou no ponto tempo – dia, a cada dia. Descreve a força com que subsistem as doenças na coletividade (volume). Não mede risco, mede proporção. As doenças de longa duração crônicas são avaliadas bem, enquanto as de curta duração/agudas não são bem avaliadas (expliquei isso lá em Estudos Transversais). O coeficiente de prevalência é proporcional à duração. E processos terapêuticos que aumenta a sobrevida sem evitar a morte não aumenta esse coeficiente, enquanto os processos terapêuticos que diminuam a duração da doença diminuem o coeficiente de prevalência. – Exemplos de uso: planejamento de serviços e alocação de recursos, estudos de malformações congênitas, estudos do comportamento e perfil de doenças de curso prolongado. Divergência Alcina x Diego sobre incidência ou prevalência gerarem risco! Socorro. Não sei no que acredito, se eu entendi errado. Enfim, segue o baile. Nesse contexto, há as medidas de gravidades. Essas podem ser medidas de várias maneiras: analisando a proporção de sequelas, incapacidades, frequência complicações, custos que acarretam as doenças, letalidade ou fatalidade. • Mortalidade: letalidade (óbitos dos casos), mortalidade geral (óbitos na população), mortalidade específica. - Coeficiente de mortalidade = (número de óbitos por uma doença/população exposta ao risco de morrer) x 10^n (fator de multiplicação para tornar inteiro ou próximo). Expressa o risco de cada indivíduo de uma população morrer em um determinado período. Indicando o estado sanitário de áreas determinadas – comparações temporais e espaciais. A comparação entre o Coeficiente Geral de Mortalidade só deve ser feita quando as populações de referência apresentarem estrutura etária semelhante ou os coeficientes são padronizados. Principais indicadores específicos de mortalidade: mortalidade por causas, por grupos de causas, por causas específicas (evitáveis), mortalidade materna, etc. CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 67 - Razão de mortalidade materna (RNN) = (nº de óbitos por causas ligadas à gestação, parto e puerpério em local X e ano X / nascidos vivos do local X e ano Y) x 1000. A morte materna é uma perda evitável. Valores elevados de RMM refletem baixo nível das condições de saúde da mulher e deficiência na atenção à saúde. - Coeficiente de mortalidade infantil (CMI) = (óbitos de < 1 ano em local X e ano Y/nascidos vivos do local X no ano Y) x 1000. Mede o risco de um nascido vivo morrer no seu primeiro ano de vida. Indicador mais empregado para medir o nível de saúde e de desenvolvimento social de uma região. - Coeficiente de mortalidade neonatal ou infantil precoce = (óbitos <28 dias em local X e ano Y/nascidos vivos do local X no ano Y) x 1000. Causas de mais difícil controle – qualidade dos serviços, tecnologia. - Coeficiente de mortalidade pós neonatal ou tardia = (óbitos entre 28 dias e < 1 em local X e ano Y/nascidos vivos do local X no ano Y) x 1000. Causas ligadas ao ambiente social – infecções e problemas nutricionais. Predomínio nas áreas de alta mortalidade infantil. Mais fáceis de serem reduzidas (com ações simples de prevenção). - Mortalidade proporcional = (nº de óbitos p/ sexo, idade, agravo/nº total de óbitos no mesmo período) x 100. Indica posição relativa (parte em relação ao todo), magnitude ou carga de doença, sexo, idade. Tem a vantagem da simplicidade (não precisa da população). Apresenta alta correlação com as condições sociais. É um bom indicador das condições sanitárias. - Mortalidade infantil proporcional (MIP) = nº óbitos de crianças menores de 1 ano em local X e ano Y/óbitos totais do local X no ano Y x 100. o Letalidade: é uma medida de gravidade. Pode medir a proporção de sequelas, incapacidades, complicações, custos que acarretam as doenças, letalidade ou fatalidade. Coeficiente de letalidade: número de óbitos por uma doença/número de casos dessa doença x 100. III. Frequência das doenças. A grande maioria dos casos e mortes resultantes da meningite meningocócica ocorre na África. Durante a estação das secas (de dezembro a junho), tornando a região endêmica para a doença, atingindo os países localizados no chamado “cinturão africano de meningite”, região que se estende por todo o continente, do Senegal à Etiópia. A República Democrática do Congo enfrenta nova epidemia de Ebola em 2019, com 21 casos notificados e 17 óbitos na província de Equateur no noroeste do país. Em condomínio no bairro de Patamares, em Salvador, 32 moradores estão apresentando um surto de uma doença que se apresenta com manchas vermelhas pelo corpo, principalmente braços e pernas, e muita coceira que duram entre cinco e seis dias. ODDS RATIO Medida de associação, que mede a Razão das chances. Chance (odds) =/= probabilidade (risco). Risco é a probabildade de uma coisa vir a acontecer. Risco de 60% (60/100). (razão de sucessos dividido pelo total de tentativas) CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 68 Odds: chance -> probabilidade dividida pelo complemento da probabilidade (razão de sucessos dividido pelos insucessos) Odds = P/100-P Ex. 60/40 = 3/2 = 1,5. 60 = risco/probabilidade = vezes que ganhei. 40 = vezes que perdi. Odds > 1 = 1 chance de ganhar é maior que de perder. RISK RATIO - (risco relativo/razão de risco) Risco relativo é o risco exposto/risco não exposto. Mostra quanto o risco do exposto é maior do que o não exposto. Risco relativo espera-se que seja menor que 1 para haver eficácia terapêutica em ensaio clínicos randomizados com placebo (denominador) e tratamento (numerador). Espera-se que o Odds de um indivíduo exposto seja maior do que o Odds de um indivíduo não exposto. (Odds ratio >1 em fator de risco, Odds < 1 = 1 fator de proteção) Em fator de risco, o RR deve ser maior que um quando algo está gerando o risco. Ambos maiores que um, aumento da probabilidade de desfecho/maior chance. Menor que um, maior proteção em relação a acontecer o desfecho. Usa-se Odds Ratio, não só RR, pois há situações em que não é possível calcular o risco (como em estudos de caso controle). O estudo de coorte é ideal para avaliação prognóstica (onde temos a informação do risco), pois é possível ver o indivíduo exposto e seu desfecho. Porém em estudo de caso controle, quando a seleção do tamanho amostral dos casos e do controle é feita de forma artificial, não temos a informação de probabilidade de um indivíduo se tornar acaso. Por isso, calcula-se o Odds. Ou então, usa-se na análise Multivariada (análise de regressão logística), por motivos matemáticos. ATENÇÃO! O valor do RR não coincide com o OR, pois OR acaba "superestimando" o resultado tanto para aumento da probabilidade/chance ou da proteção do desfecho. EXEMPLOS. Qual a probabilidade de risco de morte no caso de uma doença em que ocorrem 60 mortes a cada 100 pacientes durante o seguimento de 1 ano? 60/100 -> 60%. E qual a chance de morte? 60/40 -> 1.5, também expresso como 1.5/1 (lê-se 1.5 para 1). Isso quer dizer que para cada 1 pessoa que sobrevive, há 1.5 mortes, ou melhor, para cada 2 pacientes que sobrevivem, 3 pacientes morrem. http://medicinabaseadaemevidencias.blogspot.com/2010/10/o-que-significa-odds-ratio.html HAZARD RATIO É um risco que leva em conta o aspecto cronológico, o tempo de sobrevida. "Densidade de incidência". HAZARD. Numerador: número de desfechos. Denominador: medida de tempo. Quanto mais tempo, menor o hazard. É calculado com probabilidade condicional: leva em conta a incidência cumulativa do desfecho. CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 69 0. Por exemplo, hazard de um grupo de pessoas que sobrevive ao primeiro ano é menor do que o hazard do grupo de pessoas que estava no início do estudo. É como se dividisse os indivíduos em vários períodos, e a probabilidade do desfechoem cada período é multiplicada pela probabilidade anterior. Pois, em determinada situação, uma pessoa que sobrevive ao primeiro ano já tem um menor risco/susceptilidade de ter o desfecho, pois já se mostrou sobrevivente. • Hazard diminui com o tempo. Exemplo: cura do câncer -> a cada ano de sobrevida livre da recorrência, a probabilidade de recorrência é menor. É melhor para estudos que possuem tempo grande de acompanhamento. HAZARD RATIO. Hazard do grupo tratamento/hazard grupo controle. • < 1: tratamento protetor. • > 1: fator causa dano. É uma medida relativa, como risco relativo. E assim como o risco relativo pode enganar (sendo muitas vezes preferível o risco absoluto para mostrar o algo mais real e que deve ser utilizado para o cálculo do NNT), o Hazard Ratio também. Exemplo: paciente sofreu um desfecho negativo (morte), é melhor que ele tenha morrido depois de mais tempo de follow-up. Existe em estudos em que há seguimento de longo prazo. Computa valor de cada paciente em sua estatística de exposição, a depender do tempo em que cada um foi acompanhado. Unidade: pessoas/tempo = geralmente é pessoas/ano. NNT e NNH TEXTO RETIRADO DO BLOG DE PROF LUIS CLÁUDIO. Após análise do tipo de desfecho, devemos quantificar a magnitude do benefício da terapia quanto à redução do desfecho indesejado. Um benefício comprovado (veracidade), pode variar de mínima magnitude a uma enorme magnitude. Seria simplório afirmar “esta terapia é comprovadamente benéfica, devemos implementar.” Precisamos saber o grau de benefício para tomar a decisão clínica certa, ponderando em relação ao custos, inconvenientes e riscos da terapia. Para isso, utiliza-se o NNT, que significa Número de pacientes Necessário a Tratar a fim de prevenir um desfecho indesejado (Number Needed to Treat). Esta medida quantifica o grau de benefício: quanto menor este número, maior o benefício. O ideal é um NNT de 1, que significa que todo paciente tratado se beneficia da terapia. Por exemplo, um NNT de 1 para o desfecho morte significa que se implementarmos a terapia o paciente vai sobreviver e se não implementarmos o paciente vai morrer. Um NNT de 100 significa que de 100 pacientes tratados, um vai ter sua vida salva pela terapia. O NNT nos fornece uma importantíssima noção filosófica a respeito do alcance dos atos médicos, noção normalmente ausente no nosso inconsciente coletivo. Refiro-me à consciência de que nossas decisões são limitadas em termos de eficácia. O sistema biológico é complexo e um tratamento implementado não garante benefício. É impossível prever de forma acurada quem é o paciente que vai se beneficiar. Desta forma, o que fazemos é tratar um grande número de pacientes, na esperança de que alguns se beneficiem. Observem a figura acima, que representa um tratamento hipotético cujo objetivo é prevenir apenas morte no infarto de risco alto. Neste caso, o tratamento só precisaria ser implementado nos 12% dos pacientes que CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 70 morrem na fase aguda do infarto (as carinhas vermelhas do grupo controle). Porém, no momento da admissão não sabemos quem vai morrer (vermelho) e quem vai sobreviver (carinhas laranjas do grupo controle), pois o paciente não chega na emergência com a cara pintada de vermelho ou laranja. Desta forma, tratamos todos os pacientes, para que aqueles 12% que estão predestinados a morrer recebam o tratamento. Os outros 88% (laranjas) não precisariam receber o tratamento, pois não iriam morrer. Porém mas não sabemos quem é quem. Agora vamos nos concentrar nestes 12% que vão (ou iriam) morrer. Quase nenhum tratamento consegue impedir a morte de todos os predestinados. Portanto apenas uma parcela dos pacientes terão sua morte prevenida. Na figura do grupo tratamento, apenas 4 dos 12 pacientes predestinados não morrem. Estas são as carinhas verdes, os que são salvos pelo tratamento. Desta forma, tratamos 100 pacientes para prevenir 4 mortes: 100/4 = 25, ou seja, precisamos tratar 25 pacientes para prevenir 1 morte. Este é o NNT. Embora o conceito de NNT tem sido bem difundido, minha percepção é que a noção filosófica não é muito prevalente no pensamento médico. Por exemplo, uso de stent farmacológico versus stent convencional. O primeiro reduz reestenose, é verdade. Porém percebemos que quando elegemos o stent farmacológico, o fazemos como se o este tipo de stent fosse prevenir a reestenose em todos e como se o stent convencional fosse provocar reestenose em todos. Ou seja, como se o NNT fosse de 1. Digo isso, pois vemos algumas vezes pacientes internados por 40 dias a espera da liberação de um stent farmacológico pelo convênio. Ou pacientes instáveis que deixam de receber um tratamento imediato em artéria criticamente obstruída para esperar a liberação de stent farmacológico. Mas qual o NNT do stent farmacológico em comparação ao stent convencional? Para reestenose clínica é 16. Significa que, em média, precisamos implantar stents farmacológicos em 16 pacientes (no lugar do convencional), para prevenir reestenose em 1 destes 16 pacientes. Certas horas, o médico não lembra disso e toma decisões como se o NNT fosse 1. A magia do NNT é nos dar exatamente esta percepção. De posse do NNT da estatina em prevenção primária em pacientes dislipidêmicos (conhecimento científico = NNT de 53 para infarto – não reduz morte), decidiremos se um paciente que se queixa de dor muscular deve ter sua estatina suspensa. Para isso precisamos também do julgamento clínico que avaliará subjetivamente o quanto aquele efeito colateral está reduzindo a qualidade de vida do paciente. Este é um dos momentos especiais, quando o conhecimento científico (NNT) se alia ao julgamento clínico (percepção subjetivo do médico) na decisão terapêutica. Cada um com sua função, se complementando na hora certa. Percebam então que são dois os componentes que determinam o NNT. Primeiro, a quantidade de paciente que vai sofrer o desfecho indesejado (risco). Depois a eficácia do tratamento em prevenir este desfecho. Desta forma, uma mesma droga pode ter um NNT baixo (grande magnitude) quando aplicada em um paciente de alto risco, ou um NNT alto (pequena relevância) quando aplicada a um paciente de baixo risco. Risco é a probabilidade do paciente apresentar um desfecho indesejado. Em trabalhos científicos isto é chamado derisco absoluto. Quando subtraímos o risco observado no grupo controle pelo risco observado no grupo tratamento, obtemos a redução absoluta do risco. Por exemplo, RA de morte no grupo droga é 12% e RA de morte do grupo placebo é 8% = RAR = 12% - 8% = 4%. Essa é a magnitude da redução absoluta do risco. Agora, NNT é 100 dividido pela RAR = 100/4 = 25. RAR = RA do controle – RA do tratamento NNT = 100 / RAR A maioria dos artigos não trazem o cálculo do NNT, cabe a nós utilizar a RAR descrita no artigo e calcular o NNT. Ou seja, cabe a nós interpretar a magnitude do benefício do tratamento. E como interpretar a magnitude, utilizando o valor no NNT? NNT abaixo de que número implica em tratamento relevante? Não existe uma resposta única para esta pergunta, pois isto depende de algumas coisas. Primeiro, depende do tipo de desfecho, assunto da postagem passada. Um NNT de 40 para morte terá uma relevância maior do que um NNT de 40 para infarto não fatal ou para desfechos combinados que incluam situações não fatais. Outra variável é o tempo de tratamento necessário para obter o benefício. Trombólise no infarto tem NNT de 20 para prevenir morte na fase hospitalar, enquanto inibidor da ECA em CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 71 ICC tem o mesmo NNT de 20, só que previne morte ao longo de um 1 ano. Trombólise é então mais relevante no IAM do que IECA na ICC. Mesmo diante destas variáveis, precisamos de um número que nos sirva de guia. Este número é 50. NNT < 50 para morte é considerado tratamento de grande relevância e para desfechosnão necessariamente fatais NNT < 50 é tratamento de moderada relevância. Abaixo, vejam um guia lógico para interpretação. Ainda tem o NNT para causar prejuízo (harm) ao paciente. Este é chamado de NNH (Number Needed to Harm). E isso permite que comparemos o NNT com o NNH, ou seja, façamos um raciocínio de risco/benefício. Por exemplo, Clopidogrel em síndromes coronarianas agudas reduz eventos cardiovasculares não fatais (em 1 ano), porém aumenta a incidência de sangramento maior. O NNT é 48, enquanto do NNH é 100. Por isso que normalmente utilizamos Clopidogrel em SCA, pois em geral o benefício supera o risco. Desta forma, o NNT é uma medida que oferece um valor filosófico e um valor prático. O valor filosófico é inserir no pensamento médico a noção não determinística do tratamento: tratar (ou não tratar) não é o único determinante do desfecho. O valor prático é quantificar o benefício e o malefício, aprimorando nossa capacidade de decisão clínica. RESUMO DO TEXTO Number Needed to Treat (NNT): Número de pacientes que precisam ser tratados para que 1 se beneficie. Depende não da RRR, mas da RAR. NNT = 100/RAR. Quanto menor o NNT melhor o tratamento. Idealmente, o melhor é 1. NNT abaixo de 50 se considera um efeito bom de tratamento. Um NNT de 25 é excelente, ou seja, a cada 25 pacientes tratados, 1 se beneficia. O raciocínio do NNT, entretanto, deve seguir também a lógica do risco do paciente, por isso se diz que ele está relacionado com a RAR (propriedade do paciente). Assim, tratamentos de baixo impacto devem ser reservados a pacientes de alto risco. Para ver risco/benefício. Calcula-se o NNH (Number Needed to Harm): número de pacientes tratados em que 1 se prejudica, ou seja, princípio parecido com o NNT, mas a lógica é inversa, pois falamos de dano. Por isso, o NNH pode ser chamado também de NND, sendo D de Dano). Calcula-se então o risco a partir do NNH (NND ou NNH = 100/Aumento Absoluto do Risco) e calcula-se o benefício pelo NNT (NNT= 100/RAR). Pra calcular o NNH vai na tabela de efetivos adversos. INTERVALO DE CONFIANÇA "Medida de precisão de uma estimativa amostral". É um intervalo de valores plausíveis para a média populacional -> média amostral +/- c x EP. C = aproximadamente 2 -> IC = 95%. CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 72 É a confiabilidade a respeito da ausência do acaso. É o reconhecimento de nossa incerteza. Como estamos analisando uma amostra da população, não ela inteira, devemos esperar a existência de imprecisão em relação à realidade. O intervalo reflete, humildemente, a incerteza que temos ao alegar um dado, afinal não é possível ter certeza de nada em um estudo amostral. Do ponto de vista estatístico. Ex.: se ao invés de fazer o estudo, eu fizesse 100 estudos de igual metodologia, mas alisando uma amostra diferente (embora recrutadas de mesma maneira), os resultados mais centrais estariam dentro do intervalo de confiança -> 95% IC. Se despreza os 5 resultados extremos, pois se considera que são obras do acaso. Estudo descritivo. Intervalo de confiança da estimativa (prevalência, incidência, medida numérica). Descreve uma variável de uma vez, não compara variáveis. Estudo analítico. Intervalo de confiança da medida de associação. Teste a associação de uma intervenção com o desfecho. Ex: se eu digo que o RR é 0,80 (IC 0,70-0,90) -> o resultado do estudo foi 0,80, porém não garanto que seja 0,80. Então na melhor das hipóteses é 0,70 e na pior é 0,90. Observe se envolve a hipótese nula. o Ho: 0 para RAR (redução absoluta do risco) ou RRR (redução relativa do risco). o Ho: 1 para RR (risco relativo). A hipótese nula do RR é 1, pois diz que a droga = controle. Para termos significância estatística, o IC não deve envolver 1, pois se envolver considera-se que o estudo não é preciso o suficiente para afastar a hipótese nula, o que é o mesmo que dizer que não hár significância estatística. Logo, quando o IC do RR envolver 1, o valor de P > 0,05. Sempre perguntar: o IC da medida de associação envolve a nulidade? No Forest Plot, linha horizontal, linha vertical no centro no ponto da nulidade/da hipótese nula. No centro do IC, há uma medida pontual (bola ou quadrado) que indica o RR. Se o IC não indica 1, a medida é estatisticamente significante. Então, quanto menor o IC, mais precisa é a medida. Mas como ter IC menores? O jeito mais simples é aumentando o tamanho da amostra. Estudos pequenos, mesmo com P significante, podem ter um IC muito grande, mostrando imprecisão. Como se calcula o IC? Medida pontual +/- 2 erros padrão. CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 73 Erro padrão é uma medida de incerteza calculada estatisticamente com base no tamanho amostral e no desvio padrão (variabilidade daquela medida) em relação a diversos indivíduos. De maneira prática, como ler o IC? o O que significa os 95% do IC? 95% de probabilidade de o intervalo incluir a magnitude real. O “95% CI” indica que, se fossem feitos 100 estudos, 95 dariam resultados dentro daquele intervalo de RR. o Quanto mais estreito o IC, menos impreciso. § Quanto maior o poder estatístico, maior precisão estatística. o Ênfase na magnitude do efeito, não apenas se há viés ou não, erro ou não. Analisa o impacto desse. Se pode ser tolerado, se não, etc. o Intervalos de confiança grandes têm amostra pequena, logo pequeno poder estatístico. Ainda: • Improve-it: O estudo pode ser positivo por mostrar que os desfechos são diferentes, mas negativo pela diferença não ser tão grande. • Estudo borderline: quase não dá significância estatística (IC mais próximo de 1, o que provaria a hipótese nula). • Você pode calcular o NNT de cada extremo do IC (faz a porcentagem do IC vezes o risco do grupo controle e divide 100 por ele). Sabia que tendo o IC, não necessariamente precisamos do valor de P? o Se o intervalo toca a linha da magnitude (é = 1), ou seja: não há diferença entre os grupos. o Se quase toca a linha, mas não toca, pode se traduzir em um falso negativo. o Não toca a linha: é =/= 1, ou seja, há diferença entre os grupos. o Poder pós estatístico pós X intervalo de confiança. DIAGNÓSTICO – Acurácia e Testes diagnósticos ACURÁCIA E PRECISÃO Texto retirado do blog de prof Luis Cláudio. Na interpretação de evidências científicas, percebo que os equívocos são mais frequentes quando se trata de métodos diagnósticos do que quando o assunto se refere a métodos terapêuticos. Na mente médica, a análise crítica da eficácia de uma terapia está mais desenvolvida do que a análise da adequação de um método diagnóstico. Desta forma, vemos métodos de nenhum valor clínico sendo utilizados sob falsas premissas de acurácia. Vemos autores de artigos concluindo pelo valor do método avaliado, quando o próprio trabalho mostra o contrário. Chega a ser algo caótico. Portanto, precisamos discutir em detalhe métodos diagnósticos sob o paradigma da medicina baseada em evidências. Diferentes perguntas devem ser feitas quando analisamos este tipo de evidência: (1) o método é acurado? (2) o método é preciso? (3) Em sendo acurado e preciso, o método é útil clinicamente. Nessa postagem vamos começar pelo básico, ou seja, pelo primeiro item. O que é acurácia? Respondendo de forma simples, acurácia é a capacidade do método de acertar o diagnóstico. Quando estamos diante de um diagnóstico dicotômico (presença ou ausência de doença), os componentes da acurácia são sensibilidade e especificidade. Devemos nos lembrar que um método precisa ter um equilíbrio desses dois parâmetros. Sensibilidade é a capacidade do método em reconhecer os doentes, enquanto especificidade é a capacidade do método em reconhecer os saudáveis. Precisamos discriminar os doentes e saudáveis, portanto precisamos tanto de sensibilidade como de especificidade. É fácil simular a invenção de um método 100% sensível: é só dizerque toda a população é doente. Porém nesse caso teremos 0% de especificidade, ou seja, nenhum saudável será reconhecido como tal. Esse método não serve para nada. Não discrimina nada. Daí surge a importância de pensar sempre nos dois parâmetros conjuntamente. Para isso existem as razões de probabilidade, que são parâmetros que combinam sensibilidade e especificidade. CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 74 1. Razão de probabilidade positiva (sensibilidade / (1 – especificidade) é um número que representa o quanto um método de resultado positivo aumenta a chance de um indivíduo ser doente. Quando mais alto este número, melhor, ou seja: RP positiva: > 10 (acurácia ótima); 5-10 (acurácia moderada); 2-5 (acurácia pequena); 1-2 (acurácia nula). 2. Razão de probabilidade negativa (1 – sensibilidade / especificidade) representa o quanto um método de resultado negativo influencia a chance de um indivíduo ser saudável. Quanto mais próximo de zero, melhor: RP negativa: < 0.1 (acurácia ótima); 0.1-0.2 (acurácia moderada); 0.2-0.5 (acurácia pequena); 0.5-1.0 (acurácia nula). Seguindo esses números, teremos a noção exata da acurácia de um exame, ou seja, da capacidade do teste em influênciar corretamente nosso pensamento a respeito da presença ou ausência de doença. Devemos evitar um equívoco grave, porém muito frequente: argumentação de acurácia baseada em valor preditivo, pois este não é uma propriedade intrínseca do método, depende da probabilidade pré-teste da doença. Valor preditivo positivo é a probabilidade de uma pessoa ser doente se o resultado do exame for positivo. Valor preditivo negativo é a probabilidade de a pessoa ser saudável se o teste for negativo. Desta forma, valor preditivo é uma propriedade do indivíduo submetido ao exame, não do exame em si. Se a probabilidade de doença é muito baixa, qualquer método terá um bom valor preditivo negativo e ruim valor preditivo positivo. Se a probabilidade de doença for muito alta, qualquer método terá ruim valor preditivo negativo e bom valor preditivo positivo. Por exemplo, um método muito ruim pode ter um excelente valor preditivo negativo se quase ninguém tiver a doença. Em 2009, foi publicado um artigo nos Arquivos Brasileiros de Cardiologia que sugeria ser a cintilografia miocárdica realizada durante dor precordial um bom método para ser usado em pacientes com dor torácica aguda. O argumento era baseado em um bom valor preditivo negativo. Porém as razões de probabilidade eram muito ruins (RP positiva = 1.6 e RP negativa = 0.3), pois a especificidade era ruim (46%) com sensibilidade de 86%. Mas mesmo assim, o valor preditivo negativo foi 98%. Baseado nisso, o autor concluiu que o método teria valor, porém esse valor preditivo se deveu basicamente à probabilidade pré- teste baixa (6% apenas). Ou seja, mesmo que o método seja péssimo, sendo a probabilidade de doença muito baixa, é só dizer que o resultado é negativo que teremos boa possibilidade de acertar. O mesmo ocorre com o exame de sangue oculto nas fezes como pesquisa de câncer do colon. Um estudo publicado em 2005 no Annals of Internal Medicine mostrou sensibilidade mínima (5%) e especificidade excelente (97%). Mesmo com essa especificidade, devido à baixa sensibilidade, o método não tem valor nenhum. RP positiva = 1.7e RP negativa = 0.98. Ou seja, o resultado do método não muda em nada a chance do paciente ser doente. Mesmo assim, o valor preditivo negativo do método foi 90%. Isso porque a prevalência de câncer era 10%, ou seja, 90% dos pacientes não eram doentes. Ou seja, de acordo com esse artigo de boa qualidade metodológica, a pesquisa de sangue oculto nas fezes não tem valor nenhum. Então porque esse exame existe? Deve ser porque as pessoas não têm o hábito de procurar as evidências de acurácia e mesmo se procuram há grande confusão em relação ao que significa cada um desses parâmetros de acurácia. TESTES DIAGNÓSTICOS O raciocínio diagnóstico é probabilístico e condicional. A validade de um teste diagnóstico. É a capacidade do teste discriminar aqueles que apresentam resposta específica. Além da capacidade do teste estimar a magnitude da resposta e também a adequação do teste ao conceito clínico. CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 75 A validade de um teste diagnóstico é estabelecida através da comparação dos resultados com um diagnóstico clínico feito com base em uma história dos sinais e sintomas e um exame físico cuidadoso. O teste é utilizado para validar o diagnóstico clínico e o acompanhamento da evolução da doença, nunca o inverso. Princípio básico dos testes diagnóstico. “Fazer diagnóstico é um processo imperfeito que resulta mais em probabilidade de se estar certo do que em certeza”. Como princípios, incluem-se: confirmar a presença de uma doença, avaliar a gravidade do quadro clínico, estimar o prognóstico de uma doença, monitorar a resposta de uma conduta terapêutica. O teste diagnóstico ideal daria sempre respostas corretas – positivo para a presença da doença e negativo para a ausência – seria rápido, seguro, menos invasivo, confiável e barato. Estrutura básica dos testes diagnósticos. A estrutura básica dos testes diagnósticos é similar a dos estudos observacionais, e são desenhados para determinar quão bem um teste discrimina a presença ou ausência de uma doença. Possui uma variável preditora - o resultado do teste - e uma variável resultante/de desfecho - a presença ou ausência da doença. A variável preditora do teste embora possa ser categórica ou contínua, habitualmente é dicotomizada, definindo os critérios (cut off) que confirmam ou refutam a presença da doença. A variável resultante do teste diagnóstico é a presença ou ausência da doença, confirmada por um exame considerado “Padrão Ouro". Padrão Ouro (“Gold Standard”) x Critério-padrão x Padrão de referência: • Mais moderno e atual; • Mais específico; • Dispendioso; • Sofisticado. Desempenho dos testes diagnósticos. A sensibilidade de um teste é definida pela proporção de pessoas com a doença de interesse que têm o resultado do teste positivo. Indica quão bom é o teste para identificar os indivíduos doentes (é a probabilidade de um indivíduo avaliado e doente de ter seu teste alterado (positivo): Sen = a/a+cx100. A especificidade de um teste é a proporção de pessoas sem a doença que tem o teste negativo. Indica quão bom é o teste para identificar os indivíduos não doentes (é a probabilidade de um indivíduo avaliado e normal ter seu teste normal (negativo): Esp = d/d+bx100. O Valor Preditivo Positivo (VPP) do teste diagnóstico é a probabilidade de uma pessoa com um resultado positivo ter a doença (é a probabilidade de um indivíduo avaliado e com resultado positivo ser realmente doente): VPP = A/A+Bx100. O Valor Preditivo Negativo (VPN) do teste é a probabilidade de uma pessoa com resultado negativo não ter a doença (é a probabilidade de um indivíduo avaliado e com resultado negativo ser realmente normal): VPN = D/C+Dx100. OBS: • A qualidade do padrão-ouro também deve ser analisada. Ele deve ser um exame muito bom ou um conjunto der dados; • A gravidade da doença pode influenciar na sensibilidade e na especificidade. CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 76 • Podemos fazer um ensaio clínico randomizado para avaliar a eficácia de um teste, mas não para falar da acurácia (lembrar sempre: teste de acurácia → estudo descritivo e transversal). • Na amostra de um estudo de acurácia, para diferenciar doentes de saudáveis antes do teste, é preciso realizar o exame padrão-ouro. POSSÍVEIS VIÉSES DOS ESTUDOS DE ACURÁCIA. • Viés de observação: Quando o médico não está cego, ou seja, ou ele já sabe o diagnóstico do paciente pelo padrão ouro ou já sabe o quadro clínico do paciente. No mundo real a leitura de exames deve ser cega. o Para esse viés ser evitado, o estudo deve ser desenhado à priori. o Se ele existir, oexame é de baixa validade para acurácia. • Viés de espectro: se eu seleciono a amostra de modo que o meu grupo de doentes é muito diferente do meu grupo de saudáveis; • Viés de verificação: quando a maioria das pessoas que entrou no estudo é por que fez o teste de padrão-ouro, então isso pode superestimar a minha sensibilidade por provavelmente aumentar o número de indivíduos doentes, já que só entraram no estudo aqueles indivíduos com indicação para realizar o exame padrão-ouro. TESTES. • Teste de rastreamento: maior sensibilidade, maior número de resultados falso-positivo, usado quando a prevalência da doença é baixa (exp. ELISA para HIV na população geral – PREV = 9,01 a 0,05%). • Teste confirmatório: maior especificidade, menor número de resultados falso-negativo. Usado quando se quer ter certeza da doença (exp. WesternBlot para o diagnóstico de HIV). o Raios X de tórax e exame de escarro são utilizados para determinar a causa de pneumonia, em vez de biópsia de pulmão. o Nas doenças crônico degenerativas o seguimento da evolução clínica é recomendado em vez da utilização de um Teste Padrão (Exp. Necropsia para diagnóstico de DCJ). Se o objetivo é evitar resultado falso-positivo (o resultado do teste pode indicar uma cirurgia arriscada para o paciente), então o teste deve ter o máximo de especificidade. Se o objetivo é evitar resultado falso-negativo (o resultado do teste em caso suspeito de AIDS), então o teste deve ter o máximo de sensibilidade. Limitações dos testes. Erros Randômicos - Alguns pacientes com a doença terão resultados normais no teste diagnóstico apenas por uma questão de chance. Erros Sistemáticos: • Viés de amostragem ocorre quando a amostra estudada não é representativa da população alvo no qual o teste será aplicado; • Viés de aferição ocorre quando houve erro na leitura e interpretação do resultado. • Viés de confusão ocorre quando dois fatores estão associados e o efeito de um se confunde ou é distorcido pelo outro. Oportunidade da realização do teste: • Glicemia em jejum de 8h; • Teste para HIV (janela imunológica); • Dosagem de CPK (atividade física intensa); • Dosagem de PSA (prática de sexo). Em situações de surtos/epidemias os testes diagnósticos não necessitam ser realizados em todos os suspeitos, mas por amostragem. Após a caracterização da etiologia do evento, pelos testes diagnósticos, os outros casos são considerados positivos pelo vínculo epidemiológico. Menos de 20% dos resultados dos testes laboratoriais apresentam resultado positivo. RESUMO E DETALHES: CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 77 Estudos de acurácia são estudos descritivos, pois não está sendo gerada nenhuma hipótese, e como ocorrem no momento presente, são estudos transversais. Neles não é calculado o valor de P. Para prevenir o erro aleatório nos estudos de acurácia, nós devemos descrever o intervalo de confiança. Para um estudo de acurácia, uma amostra ideal deveria ter 50% de doentes e 50% de indivíduos saudáveis, para a sensibilidade e a especificidade possuírem a mesma precisão. Como numa amostra o número de doentes costuma ser menor, a especificidade tende a ser menos precisa. Na amostra de um estudo de acurácia, para diferenciar doentes de saudáveis antes do teste, é preciso realizar o exame padrão-ouro. • Acurácia é o quanto um dado de anamnese/exame físico/exames complementares aumentam a probabilidade de um indivíduo ter uma determinada doença quando ela de fato está presente e, quando ausente, a probabilidade de ele não ter. Exemplo: Catarro amarelo e infecção bacteriana. Quanto a presença do catarro amarelo aumenta a probabilidade de ser uma infecção bacteriana? • Teste Diagnóstico: sua acurácia depende da sensibilidade e especificidade. o Sensibilidade: É a capacidade de o teste ser positivo em indivíduos realmente doentes. Cálculo: Testes Negativos/Número de Saudáveis. o Especificidade: É a capacidade de o teste dar negativo em indivíduos não doentes (saudáveis). Cálculo: Testes Positivos/Número de Doentes. Um teste tem que ter ambas as propriedades porque ele deve ser capaz de discriminar doentes de saudáveis. O que é um teste acurado? União das Duas Propriedades: Sensibilidade e Especificidade = Razão de Probabilidade ou Razão de Verossimilhança. Ela combina os dois e, olhando esse valor, já sabemos se o teste é acurado ou não. • Razão de Probabilidade Positiva (RPP): Sensibilidade/100 - Especificidade. É sempre maior que 1 porque representa o quanto aumenta a chance de o indivíduo ter a doença. De acordo com o valor de RPP, a acurácia de um teste é estratificada da seguinte forma: o > 10: Acurácia grande, muito boa. o 5-10: Acurácia moderada. o 2-5: Acurácia pequena ou ausente. • Razão de Probabilidade Negativa (RPN): 100 - Sensibilidade/Especificidade. Quanto mais próximo de zero, reduz mais a probabilidade de doença. De acordo com o valor de RPN, a acurácia de um teste é estratificada da seguinte forma: o <0,1: Acurácia grande, muito boa. o 0,1-0,2: Acurácia moderada. o >0,5: Acurácia pequena ou ausente. • Probabilidade Pós Teste: Se o teste der positivo ou negativo, qual a probabilidade de o indivíduo ter ou não a doença? O que o teste faz é aumentar ou diminuir a Probabilidade Pré Teste (definida por prevalência). Não é só o resultado do teste que influencia na Probabilidade Pós Teste, mas também a Probabilidade Pré Teste que, quando é maior e o teste da positivo, ela da maior ainda. Entretanto, se a Probabilidade Pré Teste for muito baixa, mesmo que o teste dê positivo, a Probabilidade Pós Teste continuará baixa. Assim, fazer um teste indevidamente numa Probabilidade Pré Teste baixa, atrapalha o raciocínio depois, pois ainda que dê positivo, mesmo assim provavelmente não é. Exemplo: PSA � RPP e RPN mínimas ou nulas. Não é recomendado para screening. (Choosing Wisely!!). • Valor Preditivo Positivo: Probabilidade Pós Teste se o teste for positivo. Não depende só do teste, mas da quantidade de doentes, da prevalência da doença no caso, e da quantidade de pessoas fazendo. Tem Ainda Valor Preditivo Negativo. Essas não são propriedades intrínsecas do teste, como a sensibilidade e a especificidade são. Cálculo VPP: número de doentes/testes positivos. Cálculo VPN: número de saudáveis/testes negativos. Escores ajudam a pensar probabilisticamente a Probabilidade Pré Teste (Ex: Escore de Wells pra TEP). CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 78 Para conseguir a Probabilidade Pós Teste = A partir de Probabilidade Pré Teste, faz uma linha reta do valor dela passando pelo valor da RP no Nomograma de Fagan. A Probabilidade Pós Teste positiva é o Valor Preditivo Positivo. Guia para analisar criticamente um estudo de acurácia: - A confiabilidade da sensibilidade e da especificidade deve ser analisada através dos seus respectivos intervalos de confiança. - Um estudo de acurácia feito retrospectivamente é menos confiável, pois provavelmente a leitura dos exames não foi feita de forma cega e padronizada pelos médicos. ANÁLISE DE PROGNÓSTICO – Acurácia Prognóstica Prognóstico é a tentativa de prever o futuro. A acurácia prognostica é mais difícil que acurácia diagnostica. Estudo de acurácia prognóstica é longitudinal (coorte), enquanto o de acurácia diagnostica é transversal. O estudo de coorte é o estudo de incidência (casos novos) e consegue calcular risco que é a mesma coisa que incidência. Diferente dos estudos de diagnóstico, os de prognóstico são analíticos e longitudinais, pois estamos fazendo uma associação entre 2 variáveis. Neles é calculado o valor de P. • Análise Univariada: Analisa uma variável apenas de cada vez – um valor de p pra cada. Essas várias análises univariadas precisam evoluir pra uma análise multivariada. • Análise Multivariada: Tenta afastar os efeitos de confusão, tenta simular matematicamente como se as outras variáveis fossemconstantes (exemplo: como se tabagistas fossem idênticos a não tabagistas, em diversos aspectos como comorbidades, hábitos de vida, etc). Assim, considerando que os grupos fossem idênticos, essa análise testa se uma das variáveis específicas continua tendo associação independente com um desfecho. Tem vários tipos de Análises Multivariadas: regressão logística, regressão de Wilcoxon, etc. Por isso, a grande importância de análise multivariada num estudo que busca características preditoras de morte. Quando estamos criando um modelo multivariado a partir de uma amostra de pacientes, devemos utilizar parte dessa amostra para criar → amostra de criação, e outra parte dessa amostra para validar → amostra de validação. Existem 2 formas de testar um modelo multivariado: • Discriminação → Capacidade de um escore prognóstico de diferenciar, distinguir os pacientes que no futuro terão o desfecho e os que estarão livres do desfecho; • Calibração → Capacidade de um escore prognóstico de estimar corretamente a probabilidade numérica de eventos em diferentes subgrupos, estratificados por faixa de risco. ▪ Um escore calibrado é aquele que nos permite predizer com boa acurácia qual a probabilidade de que um indivíduo apresentar o desfecho. Exemplo: se eu digo que um paciente tem a probabilidade estimada de 3% de AVC, ao analisar uma amostra desse tipo de paciente, a incidência de Quanto mais características são levadas em consideração, melhor a predição. A partir dessas características são criados modelos prognósticos. Da análise multivariada, vai sair o Hazard Ratio. A quantidade de pontos que cada característica confere no escore do modelo prognóstico é diretamente proporcional ao HR. • Curva ROC: Uma forma muito boa de avaliar a Probabilidade/Prognóstico é a curva ROC (eixo vertical é a sensibilidade e o horizontal é 100- especificidade). Analisa-se a área abaixo da curva RCO pra ver quão bom é o marcador de risco. Ela mostra a acurácia. Quanto maior a área da curva ROC, mais acurado o marcador. Se a linha da curva dividir o gráfico em 2, significa que o modelo é ruim, como fazer cara ou coroa. Quanto mais próximo de 1, maior a acurácia do modelo. Ex: O valor de Framingham que é bom pra IAM é 0,8 e o de Chads que é fraco pra FA é 0,5. CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 79 Análise discriminatória é mensurada pela área abaixo da curva ROC, também chamada de estatística-C, quando se fala de prognóstico. Resumidamente, a curva ROC é construída por vários pontos hipotéticos que são plotados em um gráfico cujo eixo vertical é a sensibilidade do marcador em reconhecer os que terão desfecho, enquanto o eixo horizontal é o complemento da especificidade (1-especificidade), que significa os pacientes sem eventos erradamente rotulados como pacientes que teriam desfecho. A área abaixo da curva representa a probabilidade de um paciente que terá o desfecho ter um escore de risco maior do que um paciente que não terá o desfecho. Se essa probabilidade for 100%, o teste é perfeito e a área abaixo da curva (estatística-C) seria igual a 1. Sendo assim, quanto mais próximo de 1, melhor o teste. Se um teste não tiver nenhuma capacidade discriminatória, sua área abaixo da curva seria 0.5, ou seja, 50% de probabilidade de um paciente que terá o desfecho ter um escore de risco maior do que um paciente que não terá o desfecho. Entre 0.5 e 1.0, o escore tem diferentes níveis de capacidade discriminatória. Valores da área abaixo da curva: o Sem discriminação: até 0,5. o Discriminação baixa: 0,5 – 0,6. o Discriminação moderada: 0,6 – 0,8. o Boa discriminação: acima de 0,8. Na imagem acima temos uma curva ROC de área abaixo da curva (estatística-C) de 86%, geralmente quando ela é acima de 80% podemos dizer que o teste tem uma boa capacidade discriminatória. Nesta outra imagem temos uma curva ROC com área abaixo da curva (estatística-C) de 51%, o que nos diz que o método utilizado não tem quase nenhuma capacidade discriminatória. Quando temos um novo teste ou um novo escore, devemos comparar sua estatística-C com a do escore antigo. Calcula-se que um ganho de pelo menos 0.05 na estatística-C é necessário para considerar um valor incremental relevante. Antes de utilizar um marcador prognóstico, devemos analisar se ele realmente muda o desfecho. Os marcadores prognósticos precisam ser úteis, pois assim como existe o overdiagnosis, existe também o CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 80 overprognosis. Para que eu quero saber se provavelmente terei Alzheimer no futuro se isso não vai mudar o desfecho? • Fator de risco → Há relação de causalidade com aquela doença. Ex: Idade, obesidade. Tem maior importância. • Marcador de risco → Apenas marca a doença, sem ter relação de causalidade. Ex: HDL colesterol baixo, Troponina. Como no fator de risco há essa relação de causalidade, nós podemos tratá-lo, há reversibilidade. Se não podemos tratar, aquilo é apenas um marcador. • O estudo caso-controle é um modelo que não é longitudinal, não pra calcular incidência ou risco, não é bom pra avaliar causalidade por não ter temporalidade, mas é o melhor estudo possível pra avaliar marcador de risco pra desfechos raros. Ele não usa Hazard Ratio, mas Odds Ratio. Chance é a Probabilidade/1-probabilidade. A partir daqui anotações baseadas na aula 5 de Alcina – IPS. Qualquer intervenção que pode incluir a prescrição de medicamentos, um tratamento cirúrgico ou aconselhamento, cuja intenção seja melhorar o curso da doença, uma vez que ela esteja estabelecida. Alguns tratamentos têm como objetivo curar a doença, outros objetivam apenas eliminar os sinais/sintomas. Para a escolha do tratamento é necessário testar formalmente as hipóteses terapêuticas por meio de pesquisas clínicas. Utiliza-se dois métodos em geral: • Estudos observacionais • Estudos experimentais: ensaios clínicos randomizados duplo cego. Para iniciar o tratamento faz-se necessário: • Diagnóstico; • Estágio evolutivo da doença; • Exames laboratoriais do paciente; • Estado clínico do paciente; • Escolha do tratamento (medicamentoso, cirúrgico, etc.); • Vantagens e desvantagens do tratamento • Efeitos colaterais; • Custo x benefício. DOENÇAS – CLASSIFICAÇÃO. • Clínicas/infecciosas/mentais. Caracterizada como alteração em determinado órgão, na psique ou até mesmo do organismo como um todo, que leva a sintomas específicos e apresenta causas conhecidas. Exp. Diabetes, Esquizofrenia. • Transtornos. Podem ocorrer no âmbito da saúde mental e físico e levar ao comprometimento das ações do dia a dia do paciente e de sua personalidade, causando-lhe sofrimento ou incapacitação. Exp. TEA, Bulimia. O tratamento baseia-se em: • Evidências: dados do paciente, pesquisa básica, pesquisa clínica, pesquisa epidemiológica, ensaios aleatorizados. • Limites: leis da sociedade civil, normas do plano de saúde, padrões da comunidade, tempo de atendimento, custo dos procedimentos, compensação financeira. • Relação médico-paciente: crenças culturais, valores pessoais, experiências anteriores e nível educacional. GRAUS DE RECOMENDAÇÃO. • Grau A (Altamente recomendável); • Grau B (Recomendável); CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 81 • Grau C (Sem evidências a favor ou contra); • Grau D (Desaconselhável); • Grau E (Claramente contraindicado). VANTAGENS: podemos basear nossas decisões clínicas nas melhores evidências; melhoramos o prognóstico dos pacientes. DESVANTAGENS: difícil ficar permanentemente atualizado; difícil encontrar as evidências mais relevantes; possível que não existam evidências para a sua situação clínica. ANÁLISE DE EVIDÊNCIAS DOS INDICADORES DE PROGNÓSTICO. • PROGNÓSTICO: É uma predição sobre o curso de uma doença após seu início. As decisões sobre tratamentos e procedimentos devem estar baseadas em estudos de prognóstico. • Estudos de prognóstico:Estudos de prognóstico tratam de questões clínicas de um modo semelhante aos estudos de coorte em relação aos fatores de risco. Grupos de pacientes são arrolados e acompanhados no tempo para aferição de seus desfechos clínicos. São estudados os fatores de prognóstico. • Fatores prognóstico X Fatores de risco: estudos de risco, usualmente são conduzidos com pessoas sadias, enquanto que os fatores prognósticos, condições associadas com um desfecho da doença, são estudados em pessoas doentes. Os fatores associados com um maior risco não são necessariamente os mesmos que marcam um pior prognóstico. Um exemplo simples: A pressão arterial baixa reduz o risco de um IAM, mas é um sinal de mau prognóstico no curso de IAM. • Fatores prognósticos: variam de acordo com o tempo da doença -> início dos sintomas, momento do diagnóstico, início do tratamento. São diretamente influenciados pelo avanço tecnológico. • Medidas de prognóstico: a medida utilizada para se estimar um prognóstico é também uma taxa, que representa a proporção de indivíduos que experimentam o evento desfecho sobre os indivíduos suscetíveis. • Tempo zero: as coortes em estudos prognósticos são observadas partindo-se de um ponto no tempo, chamado de tempo zero. Este ponto deve ser claramente especificado ao longo do curso da doença, e deve ser o mesmo para todos os pacientes. Inception cohort é o termo utilizado para descrever um grupo de pacientes que é reunido na fase clínica inicial da sua doença. O prognóstico do câncer frequentemente é descrito de acordo com o estágio clínico inicial do doente. O estadiamento é feito para auxiliar na determinação do prognóstico e na escolha do tratamento. A CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 82 remoção de pacientes com doença mais avançada de estágios iniciais da doença resulta em melhoria aparente do prognóstico, “fenômeno de Will Rogers”. • Desfechos de doenças: as descrições de prognósticos precisam incluir todas as manifestações da doença que os pacientes consideram importante. Os cinco “D”s: o Desenlace (morte/death) o Doença (Desease) o Desconforto (Discomfort) o Deficiência Funcional (Disability) o Descontentamento (Dissatisfaction) • Análise de sobrevida: a probabilidade de sobreviver não muda nos intervalos em que ninguém morre. A probabilidade de sobreviver é recalculada somente nos intervalos em que há morte. É muito utilizado o modelo de Kaplan Meier. o Estudo observacional e retrospectivo, no qual foram revisados os prontuários de todos os pacientes que consultaram com o diagnóstico de câncer de pulmão no ambulatório SUS do Hospital São Lucas da PUCRS no período de abril de 2007 até abril de 2010. • Prognóstico x Qualidade de vida: hoje se discute muito a relação entre prognóstico e/ou sobrevida e qualidade de vida. Ter qualidade de vida não é somente ter uma saúde física e mental, mas é estar de bem consigo mesmo, com a vida, com as pessoas queridas, com meio ambiente, trabalho e lazer, enfim, é estar em equilíbrio consigo mesmo. • Cuidados paliativos: é uma abordagem que aprimora a qualidade de vida, dos pacientes e familiares que enfrentam problemas associados com doenças ameaçadoras da vida, através da prevenção e alívio do sofrimento, por meios da identificação precoce, avaliação correta e tratamento da dor e outros problemas de ordem física, psicossocial e espiritual. o Princípios: promover o alívio da dor e demais sintomas angustiantes; afirmar a vida e reconhecer a morte como um processo natural; não buscar antecipar nem adiar a morte; integrar os aspectos psicológicos e espirituais como parte dos cuidados ao paciente; oferecer um sistema de suporte para ajudar o paciente a viver tão ativamente quanto possível até a morte; oferecer um sistema de suporte à família que permita que ela cuide do paciente até o fina MÉTODOS QUANTITATIVOS Resumos de ouro das aulas dadas por prof. Luis Cláudio para o doutorado da Bahiana. Aproveitem e cuidem! ANÁLISE MULTIVARIADA O paradigma da predição. • Toda hipótese é testada a partir de uma predição. • A predição do mundo real deve ser multivariada. • As duas situações científicas que aplicam a predição: testar hipótese (mecanicista, pragmática) e prever o futuro. • Predições são feitas a partir de modelos matemáticos. Modelos matemáticos. • Equação que descreve um fenômeno (físico, químico, biológico) criado a partir de princípios/derivados de dados (model fit). • Modelagem estatística: y = µ (média). • Resíduo: y = µ + ε o O resíduo é um erro aleatório. Resposta = sinal + ruído. • Através de regressão, se melhora a predição. CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 83 o y = α + βX § α = constante. § β = variável de predição. • Adiciona outras variáveis de predição = análise multivariada: o y = α + βX + β2X2 • Como predizer a partir apenas da média é insegura, adiciona-se, através de regressão, variáveis de predição e é isso que se consiste em análise multivariada. A inteligência humana. • Reconhecimento de padrões. o Clinical VS Statistical prediction. o 6º% das vezes predição estatística supera a clínica e 40% das vezes empatam. • Inteligência artificial/predição algorítmica: reconhecimento de padrão, com capacidade maior comparado a humanos. o Aumenta a probabilidade de alcançar o desfecho através do reconhecimento de milhares de preditores. • Estatística -> fórmulas e premissas estatísticas. • Algorítmicos -> black box (sem premissas). • Logo, algorítmicos não resolvem a testagem de hipótese, enquanto a estatística consegue tanto testar hipóteses quanto prever o futuro. • Mas algorítmicos não precisam de premissas estatísticas e big data são utilizados (vantagem). • Algoritmo é melhor? o Há uma revisão sistemática que mostra que inteligência artificial só é melhor na análise de estudos com alto risco de viés. Predição =/= Precisão. • O modelo matemático pode ser explanatório ou preditivo. O que tem a ver com o objetivo do trabalho. • Exploratório: avaliação etiológica (causalidade): se faz ajuste para efeitos de confusão. • Para dizer se a associação é independente, faz a análise multivariada, pois a variável de confusão pode estar ligada ao preditor ou ao do desfecho. Como construir um modelo multivariado? • Princípio da parcimônia: modelos simples (com menos variáveis) tendem a ser melhores preditores da realidade do que modelos complexos. • Passo a passo. 1. Seleção de variáveis. a. A preditora e as de desfecho, que pode ser através de (1) teórica, que está ligado a variáveis plausíveis ou de (2) estatística, variáveis associadas (através de análise multivariada), sendo que esse se aproxima mais do modelo preditor. 2. Avaliação de variável etiológica. a. Análise univariada. b. Fatores associados à variável etiológica -> associação independente? c. Precisa de P <0,05? Não necessariamente, pois pode-se ajustar a P<0,10 ou P<0,20 contanto que seja pré-definido. d. Há também a relevância da plausibilidade, que pode predominar mais. e. Construção de modelo etiológico -> análise univariada. Fatores associados ao desfecho. f. Aqui a estatística se sobressai à plausibilidade. g. Ao selecionar variáveis da uni para multi pode-se ganhar ou perder significância. 3. Eliminação de variáveis. a. Métodos stepwise. i. Backward: coloca tudo de uma vez. ii. Foward: coloca 1 de cada vez. Funções da análise multivariada. • Ajuste para confusão -> etiologia predição (caso do chocolate e nobel). • Interação (modificação de efeito) -> testando interação (cria nova variável). ANÁLISE DE SOBREVIVÊNCIA CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 84 Na análise estatística de sobrevivência a variável dependente é sempre o tempo até ocorrência de determinado evento. Ao passo que na análise estatística “clássica” a variável dependente é a própria ocorrência de determinado evento.Isso é importante, pois em estudos que exigem longos períodos de follow-up, ou seja, de acompanhamento, muitos participantes não atingem o tempo total de seguimento previsto. Sendo que na análise “clássica”, já que estes doentes não estiveram todo o tempo em observação, eles são excluídos da análise. Nos estudos com análise de sobrevivência, os dados destes participantes são aproveitados na análise final, mesmo que não desenvolvam o evento em estudo. E esses pacientes podem não desenvolver o evento durante o estudo por vários motivos, como por exemplo por abandono do estudo, serem perdidos no Follow- Up ou o estudo chegar ao fim. Se essas coisas acontecerem, designa-se o indivíduo por censurado. Mas como é feita a análise dos dados na Análise de sobrevivência? O método de Kaplan-Meier é um dos utilizados, e ele consiste em dividir o tempo de sobrevivência em seu follow-up. Mas como isso é feito? Vamos supor que eu tenha 5 pacientes em um grupo, e cada um desses tem seu tempo de Follow-UP até um determinado desfecho (como por exemplo morte). Paciente 1 sobreviveu até 4 meses do seu follow-up, paciente 2 até 8, e por aí em diante. Isso gera então uma curva de sobrevivência do grupo > em escada. Em que o tempo de sobrevivência de cada paciente em seu acompanhamento/follow-up é interrompido por um evento (no caso morte), gerando então um intervalo. Assim o modelo de Kaplan Meier baseia-se na estimativa das probabilidades condicionais da taxa de sobrevivência em cada ponto no tempo. CAMILA VERÔNICA FREIRE (EBMSP – 17.2) 85 Nesse contexto, o teste pode ser utilizado por exemplo, para determinar o tempo médio de vida de uma pessoa com determinada doença. Porém o evento não precisa necessariamente ser a morte ou a doença, ele pode ser algo positivo como a recuperação, remissão. Por exemplo, estamos comparando dois grupos a respeito da remissão de câncer de mama. Assim, interpretando esse gráfico, podemos notar que no tempo 0, a probabilidade de remissão é de 100% em ambos os grupos. No entanto, ao chegarmos aos 15 meses de follow-up, perceberíamos que o grupo 1 tem 70% de chance de remissão, enquanto que o grupo 2 tem apenas 20%. E como se comparam os diferentes grupos e como se interpretam essas diferenças? Através do Hazard Ratio, que é uma medida de associação relacionada ao tempo para comparar grupos. Assim, o HAZARD está relacionado a uma probabilidade de algum participante que ainda não teve o evento, ter até determinado momento. Enquanto o HAZARD RATIO é a comparação dos Hazards de diferentes grupos (como por exemplo, um grupo tratamento e o placebo). Dessa forma, vamos supor que em um caso hipotético em que estou testando um tratamento X e avaliando um desfecho, que é morte. O que significa um Hazard Ratio de 0,5? Isso significa, em qualquer momento específico, 50% menos pacientes no grupo tratamento está morrendo comparado ao grupo placebo. Logo, vocês acham que um Hazard Ratio menor que 1 está relacionado a um tratamento efeito protetor ou que aumente o risco? Protetor! E um Hazard Ratio maior que 1 indica aumento do risco!