Prévia do material em texto
81 capítulo 5capítulo 5 Avaliação crítica de evidências quantitativas para tomada de decisão clínica Dónal P. O'Mathúna, Ellen Fineout-Overholt e Linda Johnston A razão pela qual as pessoas nunca alcançam seus objetivos é que eles não os definem ou os consideram seriamente críveis ou realizáveis. Os vencedores podem dizer aonde estão indo, o que planejam fazer ao longo do caminho e quem compartilhará a aventura com eles. D enis W atley Os médicos leem a literatura sobre saúde por várias razões. Alguns fazem isso apenas na tentativa de manter-se atualizado com as rápidas mudanças na prestação de cuidados. Outros podem ter um interesse clínico específico e querem estar cientes dos resultados atuais da pesquisa em seu campo. Com o advento do movimento de assistência médica baseada em evidências (EBP), os médicos estão cada vez mais lendo a literatura para ajudá-los a tomar decisões informadas sobre a melhor forma de cuidar e se comunicar com os pacientes para alcançar os resultados da mais alta qualidade (Fineout-Overholt, Melnyk & Schultz, 2005; Guyatt, Rennie, Meade, et al., 2008; Melnyk, Fineout-Overholt, Stone, et al., 2000). No entanto, poucos profissionais, se houver, podem acompanhar toda a pesquisa publicada (Haynes, 1993). Com as atuais prioridades concorrentes em ambientes de assistência médica, é desafiador determinar quais estudos são melhores para um profissional ocupado usar na tomada de decisões clínicas. Além disso, os pesquisadores podem propor várias conclusões, às vezes contraditórias, ao estudar questões iguais ou semelhantes, tornando bastante difícil determinar em quais estudos se pode confiar. Mesmo a utilidade de estudos elogiados, como revisões sistemáticas, às vezes é difícil discernir. Como um profissional baseado em evidências tenta responder a perguntas clínicas, o dilema passa a ser o de avaliar criticamente os estudos encontrados para responder à pergunta e, em seguida, determinar a força da evidência (ou seja, a confiança para agir) da gestalt Melnyk_Chap05.indd 81 Melnyk_Chap05.indd 81 8/3/2010 9:47:15 AM 3/8/2010 9:47:15 AM S tres tres: C riticamente Uma evidência de valorização 82 de todos os estudos (ou seja, mais do que um resumo dos estudos). No avaliação crítica, a pesquisa é avaliada por seus pontos fortes, de todos os estudos (ou seja, mais do que um resumo dos estudos). No avaliação crítica, a pesquisa é avaliada por seus pontos fortes, de todos os estudos (ou seja, mais do que um resumo dos estudos). No avaliação crítica, a pesquisa é avaliada por seus pontos fortes, limitações e valor / valor a ser praticado (isto é, quão bem informa a tomada de decisão do médico para impactar os resultados). Os médicos não podem se concentrar apenas nos defeitos da pesquisa, mas devem pesar as limitações com os pontos fortes para determinar o valor de um estudo para praticar. A pesquisa de avaliação é semelhante à maneira como um joalheiro avalia pedras preciosas, pesando as características de um diamante (por exemplo, clareza, cor, quilate e corte) antes de declarar seu valor (Fineout-Overholt, 2008). Primeiro, é importante determinar a melhor correspondência entre o tipo de pergunta e a metodologia de pesquisa disponível para responder à pergunta (consulte o Capítulo 2, Tabela 2.2). A noção de níveis de evidência é descrita no Capítulo 2, e esses níveis serão referidos aqui como avaliação crítica de diferentes metodologias quantitativas de pesquisa. Hierarquia de evidência UMA hierarquia de evidências fornece orientação sobre os tipos de evidência, se bem-sucedidos, com maior probabilidade de fornecer UMA hierarquia de evidências fornece orientação sobre os tipos de evidência, se bem-sucedidos, com maior probabilidade de fornecer UMA hierarquia de evidências fornece orientação sobre os tipos de evidência, se bem-sucedidos, com maior probabilidade de fornecer respostas confiáveis para a questão clínica. Existem várias hierarquias, ou níveis, de evidência; qual hierarquia é apropriada depende do tipo de pergunta clínica que está sendo feita. Para questões de intervenção, a hierarquia de evidências classifica os desenhos quantitativos de pesquisa (por exemplo, revisão sistemática de ensaios clínicos randomizados [ ECRs]) como fornecendo níveis mais quantitativos de pesquisa (por exemplo, revisão sistemática de ensaios clínicos randomizados [ ECRs]) como fornecendo níveis mais quantitativos de pesquisa (por exemplo, revisão sistemática de ensaios clínicos randomizados [ ECRs]) como fornecendo níveis mais altos de confiança de que os estudos terão respostas confiáveis para essas perguntas do que projetos com níveis mais baixos de confiança (por exemplo, estudos descritivos). Um RCT é o melhor design de pesquisa para fornecer informações sobre relacionamentos de causa e efeito. Uma revisão sistemática dos ECRs fornece uma compilação do que sabemos sobre um tópico de vários estudos que abordam a mesma questão de pesquisa, que o classifica mais alto na hierarquia do que um único ECR. Assim, quanto mais alta a metodologia estiver na hierarquia, maior a probabilidade de os resultados de tais métodos representarem resultados objetivos e maior a confiança dos clínicos em que a intervenção produza os mesmos resultados de saúde em pacientes semelhantes para os quais eles cuidam. A hierarquia de evidências para perguntas de intervenção ajuda os médicos a saber que uma revisão sistemática (isto é, uma síntese desses estudos) de um grande número de ECRs de alta qualidade documentando que os resultados dos estudos de pesquisa concordam (ou seja, homogeneidade) é o método mais forte e menos tendencioso para demonstrar confiança de que a pesquisa concordam (ou seja, homogeneidade) é o método mais forte e menos tendencioso para demonstrar confiança de que a pesquisa concordam (ou seja, homogeneidade) é o método mais forte e menos tendencioso para demonstrar confiança de que a intervenção trará consistentemente um resultado (Fineout-Overholt, O'Mathuna e Kent, 2008; Guirguis-Blake, Calonge, Miller, et al., 2007; Guyatt et al., 2008; Phillips, Ball, Sackett, et al., 2001). Tais revisões sistemáticas foram chamadas de “coração da EBP” (Stevens, 2001). Princípios de avaliação crítica dos estudos quantitativos Pode ser irritante se uma pesquisa na literatura para responder a uma pergunta clínica revelar vários estudos com resultados que não concordam. Também decepcionante pode ser o estudo em que os pesquisadores descobriram que uma intervenção promissora não é mais eficaz que um placebo; particularmente quando um estudo anterior relatou que a mesma intervenção foi benéfica. Dada a confusão e a incerteza resultantes, é razoável que os médicos se perguntem se as evidências externas (ou seja, pesquisas) revelam resultados consistentes. Idealmente, todos os estudos seriam projetados, conduzidos e relatados perfeitamente, mas isso não é provável. A pesquisa tem falhas inerentes em como é projetada, conduzida ou relatada; no entanto, os resultados do estudo não devem ser descartados ou ignorados apenas com base nisso. Dado que toda a pesquisa é Melnyk_Chap05.indd 82 Melnyk_Chap05.indd 82 8/3/2010 9:47:17 AM 3/8/2010 9:47:17 AM u n i d a d e d o i s Criticamente, uma evidência quantitativa de valorização para a decisão estratégica 83 não perfeitos, os usuários da pesquisa precisam aprender a avaliar cuidadosamente os relatórios de pesquisa para determinar seu valor na prática. Essa avaliação é chamada de avaliação crítica e depende de três questões gerais a serem consideradas na avaliação de qualquer estudo (O'Rourke & Booth, 2000): 1 Os resultados do estudo são válidos? (Validade)1 Os resultados do estudo são válidos? (Validade) 2) Quais são os resultados? (Confiabilidade)2) Quais são os resultados? (Confiabilidade) 3) Os resultados me ajudarão a cuidar dos meus pacientes? (Aplicabilidade)3) Os resultados me ajudarão a cuidar dos meus pacientes? (Aplicabilidade) O processode avaliação crítica fornece aos médicos os meios para interpretar a qualidade dos estudos e determinar a aplicabilidade da síntese dos resultados de vários estudos a seus pacientes em particular (Crombie, 1996; O'Rourke & Booth, 2000). Ao avaliar estudos quantitativos, é importante reconhecer os fatores de validade e confiabilidade que podem influenciar os resultados do estudo. A validade e a confiabilidade do estudo são determinadas pela qualidade da metodologia do estudo. Além disso, os médicos devem discernir a que distância do resultado verdadeiro o resultado relatado pode estar (por exemplo, comparar o resultado do estudo com o resultado que pode ser replicado na prática). Como todos os estudos têm alguns defeitos, o processo de avaliação crítica deve ajudar o clínico a decidir se um estudo é defeituoso a ponto de ser descartado como fonte de evidência (ou seja, os resultados não podem ser usados na prática). A interpretação dos resultados requer consideração da significado clínico dos os resultados não podem ser usados na prática). A interpretação dos resultados requer consideração da significado clínico dos os resultados não podem ser usados na prática). A interpretação dos resultados requer consideração da significado clínico dos resultados do estudo (ou seja, o impacto dos resultados clinicamente), bem como a significância estatística dos resultados (ou seja, resultados do estudo (ou seja, o impacto dos resultados clinicamente), bem como a significância estatística dos resultados (ou seja, resultados do estudo (ou seja, o impacto dos resultados clinicamente), bem como a significância estatística dos resultados (ou seja, os resultados não foram encontrados por acaso). Os resultados do estudo são válidos? (Validade) A validade de um estudo refere-se à obtenção dos resultados do estudo através de métodos científicos sólidos. Vieses e / ou variáveis de confusão podem comprometer a validade dos resultados (Goodacre, 2008a). Quanto menos influência desses fatores em um estudo, maior a probabilidade de os resultados serem válidos. Portanto, é importante determinar se o estudo foi realizado adequadamente antes de ser influenciado pelos resultados. A validade deve ser verificada antes que o clínico possa fazer uma avaliação informada do tamanho e precisão dos efeitos relatados. Viés Viés é algo que distorce os resultados do estudo de maneira sistemática e surge da metodologia do estudo (Polit & Beck, 2007). O Viés é algo que distorce os resultados do estudo de maneira sistemática e surge da metodologia do estudo (Polit & Beck, 2007). O viés pode ser introduzido a qualquer momento do estudo. Ao avaliar criticamente a pesquisa, o clínico precisa estar ciente de possíveis fontes de viés, que podem variar de acordo com o desenho do estudo. Todo estudo requer um exame cuidadoso sobre os diferentes fatores que influenciam a extensão do possível viés em um estudo. Um exemplo de viés pode ser como os participantes são selecionados para inclusão nos diferentes grupos em um estudo de intervenção. Essa seleção pode ocorrer de forma a influenciar inadequadamente quem termina no grupo experimental ou no grupo de comparação. Isso é chamado viés de seleção e é reduzido quando os pesquisadores atribuir experimental ou no grupo de comparação. Isso é chamado viés de seleção e é reduzido quando os pesquisadores atribuir aleatoriamente participantes de grupos experimentais e de comparação. Esta é a parte “aleatória” do ECR, o estudo aleatoriamente participantes de grupos experimentais e de comparação. Esta é a parte “aleatória” do ECR, o estudo experimental clássico. Em um ECR, todas as outras variáveis devem ser iguais em cada grupo (ou seja, os grupos devem ser homogêneos). Esses estudos são prospectivos e os participantes são monitorados ao longo do tempo. As diferenças nos resultados devem ser atribuídas às diferentes intervenções dadas a cada grupo. Um estudo controlado no qual os pesquisadores não designam aleatoriamente os participantes para os grupos de estudo terá uma avaliação diferente e, provavelmente, um resultado diferente, quando comparado com um que utiliza os melhores métodos de randomização, pois há inerentemente mais viés em estudos pouco randomizados. Outros desenhos de estudo (por exemplo, quase experimental, coorte, A Figura 5.1 mostra como os participantes podem ser selecionados para um estudo experimental. Por exemplo, os pesquisadores querem estudar o efeito de 30 minutos de exercício diário em idosos que Melnyk_Chap05.indd 83 Melnyk_Chap05.indd 83 8/3/2010 9:47:17 AM 3/8/2010 9:47:17 AM c a p í t u l o 5 S tres tres: C riticamente Uma evidência de valorização 84 têm mais de 80 anos de idade. A amostra ideal, mas geralmente inviável, para incluir em um estudo é a população de referência; isto é, aquelas pessoas no passado, presente e futuro para as quais os resultados do estudo podem ser generalizados. Nesse caso, a população de referência seria composta por todos os idosos acima de 80 anos de idade. Dada a dificuldade em obter a população de referência, os pesquisadores geralmente usam uma população de estudo que eles supõem ser representativa da população de referência (por exemplo, uma amostra aleatória de idosos com mais de 80 anos de idade que vivem dentro ou dentro de um raio de 40 km cidade metropolitana de um estado rural). No entanto, os médicos precisam ter em mente que o viés pode ser introduzido em cada ponto em que um subgrupo é selecionado. Por exemplo, a população do estudo incluirá algumas pessoas dispostas a participar e outras que se recusam a participar do estudo. Se os participantes em potencial se voluntariarem para participar do estudo (ou seja, uma amostra de conveniência), os voluntários podem ter alguma característica que possa influenciar os resultados finais de alguma maneira. Por exemplo, em um estudo sobre o impacto do exercício na saúde de idosos com mais de 80 anos de idade, os idosos que praticam jogos em um centro sênior local e são voluntários para o estudo podem ter uma atitude mais positiva em relação ao exercício, o que pode afetar a resultados do estudo. Esse tipo de efeito é particularmente relevante em estudos em que as atitudes ou crenças das pessoas estão sendo exploradas, pois essas podem ser as próprias características que influenciam sua decisão de participar ou não (Polit & Beck, 2007). Os usuários das evidências devem estar cientes de que, apesar dos melhores esforços dos pesquisadores para selecionar uma amostra representativa da população de referência, pode haver diferenças significativas entre a amostra do estudo e a população em geral. Outro tipo de viés nos ECRs é introduzido por participantes ou pesquisadores que sabem quem está recebendo qual intervenção. Para minimizar esse viés, os participantes e os que avaliam os resultados do estudo são mantidos cegos ou "no escuro" sobre quem recebe cada intervenção (ou seja, o experimental e a comparação). Esses estudos são chamados estudos duplo-cegos. Outro elemento conhecido por introduzir viés é uma pessoa bem-intencionada que atua como guardião, particularmente em estudos envolvendo populações vulneráveis. Por exemplo, pesquisadores que conduzem um estudo com pacientes recebendo cuidados paliativos podem ter dificuldade em recrutar número suficiente de pessoas para o estudo, porque os cuidadores dos pacientes podem considerar muito oneroso pedir aos pacientes que participem da pesquisa em um momento difícil em sua vida. vidas. Isso introduz um viés no estudo e, em última análise, pode excluir as pessoas que poderiam se beneficiar da pesquisa. Outra preocupação que pode influenciar os resultados do estudo é o viés de medição (ou seja, como os dados são medidos). Por exemplo, erro sistemático pode ocorrer através do uso de um dispositivo calibrado incorretamente, que fornece consistentemente Por exemplo, erro sistemático pode ocorrer através do uso de um dispositivocalibrado incorretamente, que fornece consistentemente Por exemplo, erro sistemático pode ocorrer através do uso de um dispositivo calibrado incorretamente, que fornece consistentemente medições mais altas ou mais baixas que a medição real. Hierarquia experimentalfigura 5.1 População de referência População estudada Participantes Atribuição por randomização Grupo de Estudos Não participantes Grupo de controle Melnyk_Chap05.indd 84 Melnyk_Chap05.indd 84 8/3/2010 9:47:17 AM 3/8/2010 9:47:17 AM u n i d a d e d o i s Criticamente, uma evidência quantitativa de valorização para a decisão estratégica 85 Outro exemplo de viés de medição é que os coletores de dados podem se desviar dos protocolos objetivos estabelecidos de coleta de dados ou seus traços de personalidade individuais podem afetar a obtenção de informações dos pacientes em estudos que envolvem entrevistas ou pesquisas. Os estudos longitudinais, em geral, têm desafios com o viés de medição. Um tipo de estudo retrospectivo longitudinal que compara dois grupos é um controle de caso estudo, no qual os Um tipo de estudo retrospectivo longitudinal que compara dois grupos é um controle de caso estudo, no qual os Um tipo de estudo retrospectivo longitudinal que compara dois grupos é um controle de caso estudo, no qual os pesquisadores selecionam um grupo de pessoas com um resultado de interesse, os casos (por exemplo, casos de infecção) e outro grupo de pessoas sem esse resultado, os casos de controle (por exemplo, sem infecção). Os dois grupos são pesquisados na tentativa de encontrar as principais diferenças entre os grupos, o que pode sugerir por que um grupo teve o resultado (ou seja, infecção) e o outro não. Os participantes respondem a pesquisas sobre o que fizeram no passado. Isso é chamado de recall. Estudos que se baseiam em pacientes que lembram dados estão sujeitos a "viés de recordação" (Callas & Delwiche, 2008). A rechamada pode ser afetada por vários fatores. Por exemplo, perguntar a pacientes com tumores cerebrais sobre o uso anterior de telefones celulares pode gerar respostas altamente precisas ou falsas, porque esses pacientes buscam uma explicação para sua doença, comparado com pessoas que não têm tumores e cujo recall do uso do telefone pode ser menos preciso na ausência de doença (Muscat, Malkin, Thompson, et al., 2000). O viés pode ser um desafio nos estudos de controle de caso, pois as pessoas podem não se lembrar das coisas corretamente. Além disso, o “viés de informação” pode levar os pesquisadores a registrar informações diferentes de entrevistas ou registros de pacientes, se souberem quais participantes são casos e quais são controles (Callas & Delwiche). Outro estudo longitudinal que precisa combater o viés de informação é um estudo de coorte. Este tipo de estudo se Outro estudo longitudinal que precisa combater o viés de informação é um estudo de coorte. Este tipo de estudo se Outro estudo longitudinal que precisa combater o viés de informação é um estudo de coorte. Este tipo de estudo se concentra prospectivamente em um grupo de pessoas que foram expostas a uma condição e outro grupo que não foi. Por exemplo, as pessoas que vivem em uma cidade podem ser colocadas em uma coorte e as de outra cidade em uma segunda coorte - a cidade em que moravam seria o critério de seleção. Todos os participantes seriam acompanhados ao longo de vários anos para identificar diferenças entre as duas coortes que poderiam estar associadas a diferenças entre as cidades e resultados específicos (por exemplo, fatores ambientais e câncer de mama). Os estudos de coorte também podem ser conduzidos selecionando um grupo de pessoas e monitorando-os ao longo dos anos. As coortes de comparação são selecionadas com base nos dados coletados durante o estudo. Por exemplo, o maior estudo de coorte sobre saúde da mulher é o Estudo de Saúde das Enfermeiras. Mais de 121.000 enfermeiros foram inscritos no estudo em 1976 e foram enviados questionários a cada 2 anos. Várias correlações foram identificadas através deste estudo. Por exemplo, mulheres que dormem 7 horas por noite têm o menor risco de morte, enquanto aquelas que dormem mais ou menos horas apresentam maior risco de mortalidade (Patel, Ayas, Malhotra, et al., 2004). As coortes foram selecionadas no Estudo de Saúde das Enfermeiras com base nas respostas a uma pergunta sobre a duração do sono (por exemplo, 7 horas por noite, mais de 7 horas por noite e menos de 7 horas por noite) e seguidas por 14 anos. Em estudos longitudinais, a perda de participantes no acompanhamento também pode contribuir para o viés de mensuração. Não relatar perdas no acompanhamento pode mascarar o motivo real das diferenças observadas entre os grupos de intervenção e controle experimental dos pacientes. Possíveis razões para a perda de participantes (ou seja, atrito no estudo) podem incluir efeitos colaterais imprevistos da intervenção ou procedimentos de coleta de dados onerosos. Tais perdas podem levar a grupos não comparáveis e resultados enganosos. O capítulo 17 contém mais informações sobre esses desenhos quantitativos e viés de redução. A contaminação é outra forma de viés de medição. Isso ocorre quando os participantes alocados originalmente a um grupo ou braço de um estudo específico são expostos à intervenção do grupo alternativo (ou seja, a intervenção de comparação). Por exemplo, em um estudo de crianças asmáticas que compara a retenção de informações sobre gerenciamento de asma fornecidas às crianças de forma escrita e por vídeo, os resultados podem ser comprometidos se os participantes do grupo de vídeos emprestarem seus vídeos aos do grupo de informações escritas. Outro exemplo seria se os pacientes em um estudo controlado por placebo de alguma forma perceberem que foram designados para o placebo Melnyk_Chap05.indd 85 Melnyk_Chap05.indd 85 3/3/2010 9:47:18 AM 3/8/2010 9:47:18 AM c a p í t u l o 5 S tres tres: C riticamente Uma evidência de valorização 86 grupo e, acreditando que deveriam estar no braço de intervenção do estudo, encontre uma maneira de acessar a intervenção. Na avaliação crítica de um estudo de pesquisa, devem ser feitas perguntas específicas sobre o relatório para identificar se o estudo foi bem projetado e conduzido ou se os riscos de viés foram introduzidos em pontos diferentes. O Apêndice D contém listas de verificação de avaliação crítica rápida para desenhos de estudos quantitativos, bem como estudos qualitativos que fornecem critérios padronizados a serem aplicados a cada metodologia de estudo para determinar se é um estudo válido. Resultados confusos do estudo Ao interpretar os resultados apresentados em trabalhos de pesquisa quantitativa, os médicos sempre devem considerar que pode haver várias explicações para um efeito de intervenção relatado em um estudo. Os resultados de um estudo podem ser confundidos quando um relacionamento entre duas variáveis é realmente devido a um terço, variável conhecida ou desconhecida (ou seja, uma variável confusa). A variável de confusão refere-se à intervenção (isto é, à exposição) e ao resultado, mas não é diretamente uma parte do caminho causal (isto é, a relação) entre os dois. Variáveis confusas são frequentemente encontradas em estudos sobre estilo de vida e saúde. Por exemplo, os médicos devem considerar a possibilidade de confundir variáveis quando os pesquisadores relataram uma ligação entre a incidência de dores de cabeça entre os trabalhadores do hospital que jejuavam pelo Ramadã e a ingestão de cafeína (Awada & al Jumah, 1999). Quem sofre de dor de cabeça consome significativamente mais cafeína em bebidas como chá e café em comparação com aqueles que não sofrem de dor de cabeça. A redução no consumo de cafeína durante o jejum no Ramadã levou à retirada da cafeína, que os pesquisadores afirmaram ser a causa mais provável das dores de cabeça. Intuitivamente, isso pode parecer provável; noentanto, se a população do estudo incluir pessoas envolvidas em turnos de trabalho, o que é muito provável, já que os participantes eram funcionários do hospital, o horário de trabalho irregular ou uma combinação de variáveis pode ter facilitado as dores de cabeça, e não apenas a retirada de cafeína. Figura 5. 2 demonstra como variáveis confusas podem levar a resultados confusos. O trabalho por turnos está relacionado à exposição (ou seja, redução da alta ingestão de cafeína e abstinência subsequente) e aos resultados (ou seja, dores de cabeça). No entanto, não é diretamente causal (ou seja, o horário de trabalho irregular não causa dores de cabeça). Ao avaliar criticamente um estudo, os médicos devem avaliar se os pesquisadores consideraram a possibilidade de confundir variáveis no desenho original do estudo, bem como em figura 5.2 Modelo de possíveis variáveis de confusão em um estudo examinando a associação entrefigura 5.2 Modelo de possíveis variáveis de confusão em um estudo examinando a associação entre entre a ingestão e os sintomas de cafeína Dores de cabeça relacionadas ao jejum Alta ingestão de cafeína seguida de retirada de cafeína Trabalho por turnos Associado Causal ? Causal Melnyk_Chap05.indd 86 Melnyk_Chap05.indd 86 3/3/2010 9:47:18 AM 3/8/2010 9:47:18 AM u n i d a d e d o i s Criticamente, uma evidência quantitativa de valorização para a decisão estratégica 87 a análise e interpretação de seus resultados. Minimizar o possível impacto de variáveis de confusão nos resultados de um estudo é melhor abordado por um desenho de pesquisa que utiliza um processo de randomização para atribuir participantes a cada grupo de estudo. Dessa maneira, espera-se que variáveis confusas, conhecidas ou desconhecidas, influenciem igualmente os resultados dos diferentes grupos do estudo. Variáveis confusas ainda podem influenciar os resultados de um estudo, apesar dos melhores esforços dos pesquisadores. Eventos não planejados que ocorrem ao mesmo tempo que o estudo podem ter um impacto nos resultados observados. Isso geralmente é chamado de história. Por exemplo, é lançado um estudo para determinar os efeitos de um programa educacional sobre nutrição infantil (ou seja, o grupo de intervenção experimental). O grupo controle recebe as informações usuais sobre crescimento e desenvolvimento infantil fornecidas nas visitas de saúde materna e infantil. Desconhecido para os pesquisadores, o departamento regional de saúde inicia simultaneamente uma ampla campanha na mídia para promover a saúde infantil. Esse evento histórico confuso pode impactar os resultados e, portanto, dificultar atribuir diretamente quaisquer resultados observados apenas à intervenção experimental (ou seja, informações sobre nutrição infantil). Finalmente, os critérios de inclusão e exclusão devem ser usados para selecionar os participantes e devem ser pré-especificados (ou seja, a priori). Frequentemente, esses critérios podem ser controles para possíveis variáveis de confusão (consulte o Apêndice D). Quais são os resultados? (Confiabilidade) Estudos quantitativos usam estatísticas para relatar seus achados. Tendo avaliado a validade dos resultados de um estudo, os resultados numéricos do estudo precisam ser examinados. Os médicos que planejam usar os resultados de estudos quantitativos precisam de uma compreensão geral de como interpretar os resultados numéricos. As principais preocupações são o tamanho do efeito de intervenção relatado e a precisão com que esse efeito foi estimado. Juntos, eles determinam a confiabilidade dos resultados do estudo. A preocupação aqui não é simplesmente entender os resultados do estudo, mas avaliar a probabilidade de a intervenção ter o mesmo resultado quando os médicos a usarem em suas práticas. Na avaliação crítica, é aqui que os dados numéricos relatados na seção de resultados de um estudo são examinados. Nada no mundo pode substituir a persistência ... Somente a persistência e a determinação são onipotentes. O slogan 'Press On' resolveu e sempre resolverá os problemas da raça humana. C alvin C oolidge Relatando os resultados do estudo: os números se somam? Em todos os estudos, o número total de participantes abordados e o número que consentiu em participar do estudo devem ser relatados. Além disso, nos ECRs, o número total em cada grupo ou braço de um estudo (por exemplo, grupo de intervenção ou comparação) deve Além disso, nos ECRs, o número total em cada grupo ou braço de um estudo (por exemplo, grupo de intervenção ou comparação) deve Além disso, nos ECRs, o número total em cada grupo ou braço de um estudo (por exemplo, grupo de intervenção ou comparação) deve ser relatado, pois esses valores geralmente formarão o denominador nas análises críticas subsequentes dos resultados do estudo (consulte a Tabela 5.1). Na seção de resultados e nas análises subsequentes, o número de participantes com vários resultados de interesse é relatado como n. O clínico deve avaliar se a soma de todos os n valores é igual ao original N ( isto é, amostra total) relatada (consulte a relatado como n. O clínico deve avaliar se a soma de todos os n valores é igual ao original N ( isto é, amostra total) relatada (consulte a relatado como n. O clínico deve avaliar se a soma de todos os n valores é igual ao original N ( isto é, amostra total) relatada (consulte a relatado como n. O clínico deve avaliar se a soma de todos os n valores é igual ao original N ( isto é, amostra total) relatada (consulte a relatado como n. O clínico deve avaliar se a soma de todos os n valores é igual ao original N ( isto é, amostra total) relatada (consulte a relatado como n. O clínico deve avaliar se a soma de todos os n valores é igual ao original N ( isto é, amostra total) relatada (consulte a relatado como n. O clínico deve avaliar se a soma de todos os n valores é igual ao original N ( isto é, amostra total) relatada (consulte a Tabela 5.1). Isso é particularmente importante, pois uma discrepância representa a perda de sujeitos para acompanhamento (isto é, atrito). Os participantes podem se retirar de um estudo por vários motivos, alguns dos quais são muito relevantes para a validade dos resultados do estudo. Independentemente das razões, os pesquisadores devem responder por qualquer diferença na Melnyk_Chap05.indd 87 Melnyk_Chap05.indd 87 3/3/2010 9:47:18 AM 3/8/2010 9:47:18 AM c a p í t u l o 5 S tres tres: C riticamente Uma evidência de valorização 88 número final de participantes em cada grupo em comparação com o número de pessoas que iniciaram o estudo. Por exemplo, um estudo relatando a eficácia do gerenciamento da depressão que utiliza consultas individuais frequentes com um profissional pode relatar menos participantes no final do estudo do que o originalmente inscrito. A alta taxa de atrito pode ter ocorrido porque os participantes acharam difícil comparecer às consultas frequentes. Um estudo bem conduzido tentaria descobrir as razões para a retirada dos participantes. Esses fatores são importantes a serem considerados porque, algumas vezes, mesmo que as intervenções sejam eficazes no estudo, podem ser impraticáveis de serem implementadas em um ambiente clínico. Magnitude do efeito Estudos quantitativos são freqüentemente realizados para descobrir se há uma diferença importante e identificável entre dois grupos. Alguns exemplos podem ser: (a) por que um grupo é diagnosticado com câncer de mama e não o outro, (b) a qualidade de vida dos idosos que vivem em casa em comparação com os que vivem em casas de repouso, ou (c) resultados de medicamento A comparado ao uso do medicamento B. Um estudo selecionará um ou mais resultados para determinar se há diferenças importantes entre os grupos. A magnitude do efeito refere-se ao grau de diferença ou falta de diferença entre os vários grupos (isto é, experimental e controle) no estudo. O efeito é a taxa de ocorrência em cada um dos grupospara o resultado de interesse. É útil ao tentar determinar a magnitude do efeito para usar o que é chamado de tabela dois por dois, como a Tabela 5.2, na qual são listados em uma coluna aqueles que tiveram o resultado e, na outra coluna, os que não tiveram o resultado. A exposição à intervenção / condição e a comparação entre aqueles com o resultado e aqueles sem o resultado são apresentadas ao longo das linhas. Testes estatísticos, conduzidos por pesquisadores para determinar se os efeitos diferem significativamente entre os grupos, geralmente são incluídos nessas tabelas. Embora seja importante para os médicos entenderem o que essas estatísticas significam, eles não precisam carregar fórmulas estatísticas em suas cabeças para avaliar criticamente a literatura. Algum conhecimento de como interpretar testes estatísticos comumente usados e quando devem ser utilizados é adequado para o processo de avaliação. No entanto, manter um livro de estatísticas das ciências da saúde por perto ou usar a Internet para refrescar a memória pode ser útil na avaliação de um estudo. Nota: a + b é o denominador, N (ou seja, o número total de participantes do estudo no braço de intervenção do estudo). a é o numerador, n (isto é, os participantes expostos à intervenção que tiveram o resultado esperado). b é o numerador, n (isto é, os participantes expostos à intervenção que não tiveram o resultado esperado). c + d é o denominador, N (ou seja, o número total de participantes do estudo no ramo não exposto ou de comparação do estudo). c é o numerador, n (isto é, os participantes não expostos à intervenção que, no entanto, tiveram o resultado esperado). d é o numerador, n (isto é, os participantes não expostos à intervenção e que tiveram o resultado esperado). a + c é o número total de participantes do estudo, expostos e não expostos à intervenção, que tiveram o resultado esperado. b + d é o número total de participantes do estudo nos grupos controle e intervenção que não tiveram o resultado esperado. Resultado esperado ocorrido Exposição à Intervenção sim Não Total sim uma b a + b Não c d c + d Total a + c b + d a + b + c + d tabela 5.1 Medidas de efeitotabela 5.1 Medidas de efeito Melnyk_Chap05.indd 88 Melnyk_Chap05.indd 88 3/3/2010 9:47:18 AM 3/8/2010 9:47:18 AM u n i d a d e d o i s Criticamente, uma evidência quantitativa de valorização para a decisão estratégica 89 A Tabela 5.2 apresenta dados para ajudar a entender como usar esse tipo de tabela. O resultado escolhido aqui é dicotômico, significando que o resultado está presente ou ausente (por exemplo, você fuma? É necessária uma resposta "sim" ou "não"). Os dados também podem ser contínuos em uma faixa de valores (por exemplo, 1 a 10). Exemplos de dados contínuos incluem idade, pressão arterial ou níveis de dor. Os dados dicotômicos e contínuos são analisados usando diferentes testes estatísticos. Por exemplo, o efeito medido no estudo hipotético foi se fumantes ou não fumantes desenvolveram ukillmeousus ou não (ou seja, dados dicotômicos, com um resultado de "sim" ou "não"). Outra abordagem para avaliar a resposta de uma população a uma doença específica está relatando o risco de desenvolver uma doença (por exemplo, qual a probabilidade de um fumante desenvolver a doença em algum momento). Outros termos usados para descrever resultados são: incidência ( ou seja, com que frequência o resultado ocorre ou o número de casos diagnosticados recentemente durante um resultados são: incidência ( ou seja, com que frequência o resultado ocorre ou o número de casos diagnosticados recentemente durante um resultados são: incidência ( ou seja, com que frequência o resultado ocorre ou o número de casos diagnosticados recentemente durante um período específico) ou prevalênciaperíodo específico) ou prevalência (ou seja, o número total de pessoas em risco pelo resultado ou o número total de casos de uma doença em uma determinada população em um determinado período de tempo). Para os fins desta discussão sobre a compreensão da magnitude de um efeito do tratamento, o foco estará no risco. As pessoas geralmente se preocupam em reduzir o risco de um mau resultado percebido (por exemplo, desenvolver câncer de cólon), geralmente escolhendo o tratamento, a triagem ou a mudança no estilo de vida que melhor minimiza o risco da ocorrência do resultado. Força da Associação No contexto do exemplo da Tabela 5.2, o risco é a probabilidade de um fumante atualmente livre de ukillmeousus desenvolver a doença em algum momento. Esse risco pode ser expresso de algumas maneiras diferentes. O risco absoluto de fumantes desenvolverem ukillmeousus, geralmente chamado de probabilidade (ou seja, risco) do resultado no grupo exposto (Re), é de 3 em 100 (ou seja, 0,03, 1 em 33 ou 3%). Isso é obtido dividindo-se o número de pessoas que tiveram o resultado pelo número total de pessoas que poderiam ter o resultado (isto é, 3/100). O risco de não fumantes desenvolverem ukillmeousus (ou seja, a probabilidade de ocorrência do resultado no grupo não exposto [Ru]) é de 2 em 100. Esse risco também pode ser expresso em proporção, 1 em 50 (0,02) ou porcentagem, 2 % A Tabela 5.3 contém as fórmulas gerais para essas e outras estatísticas. O uso da Tabela 5.1 com a Tabela 5.3 ajudará na aplicação das fórmulas nos resultados dos estudos ou nas situações clínicas. Ao comparar grupos, seja testando uma intervenção ou examinando o impacto de um fator ou política de estilo de vida, as pessoas geralmente se preocupam com os riscos. Alguns exemplos de preocupações comuns sobre risco incluem (a) triagem do cólon para reduzir o risco de mortes por câncer de cólon; (b) dietas ricas em fibras e com baixo teor de gordura para reduzir o risco de doença cardiovascular; (c) programas de intervenção do ensino médio para reduzir o risco de suicídio em adolescentes; e (d) medicamentos lipídicos que reduzem o risco de uma doença cardiovascular. Muitas vezes, estamos interessados na diferença de riscos de um resultado entre um grupo que possui uma intervenção específica e um que não possui. Quando os grupos diferem em seus riscos de obter um resultado, isso pode ser expresso de várias maneiras diferentes. Uma maneira de relatar isso é a diferença absoluta de riscos entre os grupos. o redução absoluta de riscogrupos. o redução absoluta de risco (ARR) para um resultado indesejável é quando o risco é menor para o grupo experimental / condição quadro 5.2 Tabela 2 a 2 de incidência de fumantes e não fumantes de ukillmeousus *quadro 5.2 Tabela 2 a 2 de incidência de fumantes e não fumantes de ukillmeousus * Fumantes 3 97 100 Não fumantes 2 98 100 * Ukillmeousus é uma doença hipotética Resultado: Incidência de Ukillmeousus Doença sim Não Total Melnyk_Chap05.indd 89Melnyk_Chap05.indd 89 3/3/2010 9:47:18 AM 3/8/2010 9:47:18 AM c a p í t u l o 5 S tres tres: C riticamente Uma evidência de valorização 90 do que o grupo controle / comparação. o aumento absoluto do risco ( ARI) para um resultado indesejável é quando o risco é maior do que o grupo controle / comparação. o aumento absoluto do risco ( ARI) para um resultado indesejável é quando o risco é maior do que o grupo controle / comparação. o aumento absoluto do risco ( ARI) para um resultado indesejável é quando o risco é maior para o grupo experimental / condição do que para o grupo controle / comparação. Esses valores também podem ser chamados de diferença de risco (RD). No exemplo anterior, o risco para o resultado indesejável do ukillmeousus é maior no grupo de fumantes (ou seja, condição) do que no grupo de comparação (ou seja, não fumantes). Portanto, o IRA é calculado como 3% (risco [ou probabilidade] de ukillmeousus para fumantes) -2% (risco de ukillmeousus para não fumantes) = 1% (ou, em proporções, 0,03 - 0,02 = 0,01). Para colocar em uma frase, o risco absoluto de desenvolver ukillmeousus para fumantes é 1% maior do que o risco para não fumantes.Os riscos entre dois grupos também podem ser comparados usando o que é chamado risco relativo ou razão de Os riscos entre dois grupos também podem ser comparados usando o que é chamado risco relativo ou razão de Os riscos entre dois grupos também podem ser comparados usando o que é chamado risco relativo ou razão de risco (RR). Isso indica a probabilidade (ou seja, risco) de que o resultado ocorra em um grupo comparado ao outro. O grupo com a condição específica ou intervenção de interesse geralmente é o foco do estudo. No exemplo, a condição é fumar. O risco relativo é calculado dividindo os dois valores absolutos de risco (condição do grupo de interesse / intervenção dividido pelo grupo de controle). No exemplo, o RR é AR para fumantes / AR para não fumantes: 0,03 / 0,02 = 1.5 Para usá-lo em uma frase, os fumantes têm 1,5 vezes mais chances de desenvolver ukillmeousus do que os não fumantes. O risco relativo é freqüentemente usado em estudos prospectivos, como ensaios clínicos randomizados e estudos de coorte. Se o resultado for algo que queremos, um RR maior que 1 significa que o tratamento (ou condição) é melhor que o controle. Se o resultado for algo que não queremos (ukillmeousus), um RR maior que 1 significa que o tratamento (ou condição) é pior que o controle. No exemplo, o resultado do ukillmeousus não é desejável e o RR é maior que 1; portanto, a condição de um fumante é pior que a condição de controle de um não-fumante. Uma maneira relacionada de expressar esse termo é a redução do risco relativo ( RRR). Isso expressa a Uma maneira relacionada de expressar esse termo é a redução do risco relativo ( RRR). Isso expressa a Uma maneira relacionada de expressar esse termo é a redução do risco relativo ( RRR). Isso expressa a proporção do risco no grupo intervenção / condição em comparação com a proporção de risco no grupo controle. Pode ser calculado como uma porcentagem assumindo o risco da condição (3%) menos o risco do controle (2%), dividindo o resultado pelo risco do controle e multiplicando por 100; ([0,03 - 0,02] / 0,02) × 100 = 50%. Para afirmar isso em uma frase, ser um não-fumante Estatística Fórmula Exemplo de Ukillmeousus Risco absoluto (RA) Risco em e xposed (Re) = a / (a + b) Risco em e xposed (Re) = a / (a + b) Risco em e xposed (Re) = a / (a + b) Risco em e xposed (Re) = a / (a + b) Risco em e xposed (Re) = a / (a + b) 3 / (3 + 97) = 3/100 = 0,03 Risco em un exposto (Ru) Risco em un exposto (Ru) Risco em un exposto (Ru) = c / (c + d) = c / (c + d) = c / (c + d) 2 / (2 + 98) = 2/100 = 0,02 Redução absoluta de risco (ARR) Ru - Re = ARR Não apropriado Aumento de risco absoluto (IRA) Re - Ru = ARI 0,03 - 0,02 = 0,01 0,01 × 100 = 1% Risco relativo (RR) RR = Re / Ru 0,03 / 0,02 = 1,5 Redução de risco relativo (RRR) RRR = {| Re-Ru | / Ru} × 100% {| 0,03–0,02 | / 0,02} = 0,01 / 0,02 = 0,5 × 100 = 50% Odds ratio (OR) Probabilidades de expostas = a / b Probabilidades de fumantes 3/97 = 0,03 Probabilidades de não expostas = c / d Probabilidades de não-fumantes 2/98 = 0,02 OU = (a / b) / (c / d) OR 0,03 / 0,02 = 1,5 quadro 5.3 Estatísticas para auxiliar na interpretação dos resultados da pesquisa em saúdequadro 5.3 Estatísticas para auxiliar na interpretação dos resultados da pesquisa em saúde Melnyk_Chap05.indd 90 Melnyk_Chap05.indd 90 8/3/2010 9:47:19 AM 3/8/2010 9:47:19 AM u n i d a d e d o i s Criticamente, uma evidência quantitativa de valorização para a decisão estratégica 91 diminui a probabilidade (RRR) de desenvolver ukillmeousus em 50% em relação a ser fumante. Observe aqui a importância de entender o que esses termos significam. Um RRR de 50% parece mais impressionante que um RD de 1% (ou seja, ARR). No entanto, esses dois termos foram derivados dos mesmos dados. Outros fatores devem ser levados em consideração. Por exemplo, um ARR de 1% pode não ser muito significativo se a doença for relativamente leve e de vida curta. No entanto, pode ser muito significativo se a doença for freqüentemente fatal. Se as diferenças entre os grupos são devidas às opções de tratamento, a natureza e a incidência de efeitos adversos também precisam ser levadas em consideração (consulte o Exemplo Um mais adiante neste capítulo). Ao tentar prever resultados, a terminologia "probabilidades" surge com frequência. Em estudos quantitativos, calcular as chances de um resultado fornece outra maneira de estimar a força da associação entre uma intervenção e um resultado. As chances de o resultado ocorrer em um grupo específico são calculadas dividindo-se o número de pessoas expostas à condição ou tratamento que tiveram o resultado pelo número de pessoas sem o resultado, não o número total de pessoas no estudo (consulte a Tabela 5.3 ) No exemplo da comparação entre fumantes e não fumantes, as chances de um fumante contrair a doença são 3/97 = 0,031. As chances de um não-fumante receber ukillmeousus são 2/98 = 0,020. o razão de probabilidade ( OR) são as chances dos fumantes (0,031) divididas um não-fumante receber ukillmeousus são 2/98 = 0,020. o razão de probabilidade ( OR) são as chances dos fumantes (0,031) divididas um não-fumante receber ukillmeousus são 2/98 = 0,020. o razão de probabilidade ( OR) são as chances dos fumantes (0,031) divididas pelas chances dos não fumantes (0,020) = 1,5. Para usá-lo em uma frase, os fumantes têm chances 1,5 vezes maiores de desenvolver ukillmeousus do que os não fumantes. Como visto neste exemplo, o OR e o RR podem ser muito semelhantes em valor. Isso acontece quando o número de eventos de interesse (ou seja, quantos desenvolveram o resultado observado) é baixo; À medida que a taxa de eventos aumenta, os valores podem divergir. Interpretar resultados que são apresentados como ARR, ARI, RR ou OR às vezes pode ser difícil, não apenas para o clínico, mas também para o consumidor - um contribuinte essencial para o processo de tomada de decisão em assistência médica. Uma maneira mais significativa de apresentar os resultados do estudo é através do cálculo das número necessário para tratar ( NNT). O número necessário para tratar (NNT) é um valor que pode cálculo das número necessário para tratar ( NNT). O número necessário para tratar (NNT) é um valor que pode cálculo das número necessário para tratar ( NNT). O número necessário para tratar (NNT) é um valor que pode permitir que todos os envolvidos na decisão clínica compreendam melhor a probabilidade de desenvolver o resultado se um paciente tiver uma dada intervenção ou condição. O NNT representa o número de pessoas que precisariam receber a terapia ou intervenção para evitar um resultado ruim ou causar um bom resultado adicional. Se o NNT para uma terapia fosse 15, isso significaria que 15 pacientes precisariam receber essa terapia antes que você pudesse esperar que mais uma pessoa se beneficiasse. Outra maneira de colocar isso é que a chance de uma pessoa se beneficiar da terapia é de 1 em 15. O NNT é calculado tomando o inverso da RRA (ou seja, 1 / RRA). Por exemplo, se o aconselhamento para cessação do tabagismo é o tratamento, o resultado é a cessação do tabagismo e a RRA para a cessação do tabagismo é 0,1, Um parâmetro relacionado ao NNT é o número necessário para prejudicar ( NNH). Esse é o número de Um parâmetro relacionado ao NNT é o número necessário para prejudicar ( NNH). Esse é o número de Um parâmetro relacionado ao NNT é o número necessário para prejudicar ( NNH). Esse é o número de pessoas que precisariam receber uma intervenção antes que uma pessoa adicional fosse prejudicada (ou seja, tenha um resultado ruim). É calculado como o inverso do ARI (ou seja, 1 / ARI). No exemplo do ukillmeousus, o IRA para a condição de fumar versus não fumar foi de 0,01; o NNH é 1 / 0,01 = 100. Para cada 100 pessoas que continuam a fumar, haverá um caso de ukillmeousus. Embora um caso de ukillmeousus em 100 fumantes possa parecer pequeno, se considerarmos que esta doença é fatal, os médicos podem optarpor colocar mais esforço e recursos para ajudar as pessoas a parar de fumar. A interpretação de uma estatística deve ser feita no contexto da gravidade do resultado (por exemplo, ukillmeousus) e do custo e viabilidade da remoção da condição (por exemplo, tabagismo) ou da entrega da intervenção (por exemplo, Interpretando os resultados de um estudo: exemplo um. Você é um clínico que trabalha com pacientes que desejam parar Interpretando os resultados de um estudo: exemplo um. Você é um clínico que trabalha com pacientes que desejam parar de fumar. Eles têm amigos que conseguiram parar de usar chiclete de nicotina e se perguntam se isso também pode funcionar para eles. Você encontra um ensaio clínico que mediu a eficácia da goma de mascar de nicotina em comparação com um placebo (Tabela 5.4). Entre Melnyk_Chap05.indd 91 Melnyk_Chap05.indd 91 8/3/2010 9:47:19 AM 3/8/2010 9:47:19 AM c a p í t u l o 5 S tres tres: C riticamente Uma evidência de valorização 92 aqueles que usam chiclete de nicotina, 18,2% param de fumar (ou seja, risco do resultado no grupo exposto [Re]). Ao mesmo tempo, alguns participantes do grupo controle também deixaram de fumar (10,7%; ou seja, risco do resultado no grupo não exposto [Ru]). O RD para o resultado entre esses grupos (ou seja, essas duas porcentagens subtraídas um do outro) é de 7,5% (ou seja, o ARR é 0,075). O NNT é o inverso do ARR, ou 13.3. Em outras palavras, 13 fumantes precisam usar a gengiva para mais uma pessoa deixar de fumar. A goma de nicotina é um tratamento relativamente barato e fácil de usar, com poucos efeitos colaterais. Dados os custos do tabagismo, é razoável tratar 13 fumantes para ajudar a parar de fumar. O tamanho do NNT influencia a tomada de decisão sobre se o tratamento deve ou não ser usado; no entanto, não é o único fator de tomada de decisão. Outros fatores influenciarão o processo de tomada de decisão e devem ser levados em consideração, incluindo as preferências do paciente. Por exemplo, alguns fumantes que estão determinados a parar de fumar podem não ver o tratamento com uma chance de 1 em 13 de sucesso como suficientemente bom. Eles podem querer uma intervenção com um NNT mais baixo, mesmo que seja mais caro. Em outras situações, um tratamento com NNT baixo também pode ter um alto risco de efeitos adversos (isto é, um NNH baixo). Os médicos podem usar o NNT e o NNH na avaliação dos riscos e benefícios de uma intervenção; no entanto, simplesmente determinar que um NNT é baixo é insuficiente para justificar uma intervenção específica (Barratt, Wyer, Hatala, et al., 2004). Energia e persistência conquistam todas as coisas. B enjamin F ranklin Medidas de significância clínica É muito importante que o clínico envolvido no processo de avaliação crítica considere os resultados de um estudo no contexto da prática, fazendo a pergunta: Os resultados relatados são de real significado clínico? Ao avaliar um estudo, os médicos que tentam interpretar a importância dos resultados do estudo precisam estar cientes de que a maneira pela qual os resultados são relatados pode ser enganosa. Por exemplo, o ARR relatado nos resultados do estudo é calculado de uma maneira que considera a suscetibilidade subjacente de um paciente a um resultado e, portanto, pode distinguir entre efeitos de tratamento muito grandes e muito pequenos. Por outro lado, a RRR não leva em consideração o risco de linha de base existente e, portanto, falha em discriminar os efeitos de tratamento grandes e pequenos. Interpretando os resultados de um estudo: Exemplo dois. Em um exemplo hipotético, suponha que os pesquisadores tenham realizado vários Interpretando os resultados de um estudo: Exemplo dois. Em um exemplo hipotético, suponha que os pesquisadores tenham realizado vários ensaios clínicos randomizados avaliando o mesmo medicamento anti-hipertensivo e descobriram que ele apresentava uma RRR de 33% em três anos (Barratt et al., 2004). Um clínico está cuidando de duas pessoas de 70 anos Resultado Exposição Sair, n (%)Sair, n (%) Não parou, n (%)Não parou, n (%) Total Goma de nicotina 1.149 (18,2) 5.179 (81,8) 6.328 Placebo 893 (10,7) 7.487 (89,3) 8.380 Total 2.042 12.666 quadro 5.4 A eficácia da goma de mascar de nicotinaquadro 5.4 A eficácia da goma de mascar de nicotina Melnyk_Chap05.indd 92 Melnyk_Chap05.indd 92 8/3/2010 9:47:19 AM 3/8/2010 9:47:19 AM u n i d a d e d o i s Criticamente, uma evidência quantitativa de valorização para a decisão estratégica 93 mulheres: (a) Pat, que tem pressão arterial estável e normal e seu risco de derrame é estimado em 1% ao ano; e (b) Dorothy, que teve um derrame e, embora sua pressão arterial seja normal, seu risco de outro derrame é de 10% ao ano. Com uma taxa de AVC de 33%, o medicamento anti-hipertensivo parece ser uma boa opção. No entanto, o risco subjacente não é incorporado ao RRR, portanto, ao tomar decisões clinicamente relevantes, o ARR deve ser examinado. No primeiro estudo realizado em uma amostra de pessoas com baixo risco de AVC, o ARR para este medicamento foi de 0,01 ou 1%. No segundo estudo, realizado em uma amostra de indivíduos com alto risco de AVC, o ARR foi de 0,20 ou 20%. Sem tratamento, Pat tem um risco de 1% por ano de acidente vascular cerebral, ou 3% de risco ao longo de 3 anos. Um ARR de 1% significa que o tratamento com este medicamento reduzirá seu risco para 2% em 3 anos. No estudo de baixo risco (ou seja, os participantes se pareciam mais com Pat), 100 pacientes precisariam ser tratados antes que um AVC fosse evitado (ou seja, NNT). Sem tratamento, Dorothy tem um risco de 10% de AVC a cada ano, ou 30% ao longo de 3 anos. No segundo estudo (ou seja, os participantes se pareciam mais com Dorothy), com uma taxa de ARR de 20%, o medicamento reduziria seu risco para 10% em três anos e cinco pacientes precisariam ser tratados para reduzir a incidência de acidente vascular cerebral por um (ou seja, NNT). Nesse caso, parece que esse medicamento pode ser benéfico para as duas mulheres; no entanto, Dorothy receberá mais benefícios que Pat. O significado clínico deste tratamento é muito maior quando usado em pessoas com um risco basal mais alto. O ARR e o NNT revelam isso, mas o RRR não. Para ambos os pacientes, o risco de efeitos adversos deve ser levado em consideração. Nesses ensaios clínicos randomizados hipotéticos, os pesquisadores descobriram que o medicamento aumentou em 3% a RR de sangramento gástrico grave. Estudos epidemiológicos estabeleceram que as mulheres nessa faixa etária têm um risco inerente de 0,1% ao ano de sangramento gástrico grave. Em 3 anos, o risco de sangramento seria de 0,3% sem tratamento (ou seja, Ru) e 0,9% com o medicamento (ou seja, Re), resultando em uma ARI de 0,6%. Se Pat tomar este medicamento por 3 anos, ela terá um benefício relativamente pequeno (RRA de 1%) e um risco aumentado de sangramento gástrico (IRA de 0,6%). Se Dorothy tomar o medicamento por 3 anos, ela terá um benefício maior (RRA de 20%) e o mesmo risco aumentado de sangramento gástrico (IRA de 0,6%). A conclusão sustenta que Dorothy é mais provável que se beneficie do tratamento do que Pat; Precisão na medição de efeito Erro aleatório. A avaliação crítica avalia o erro sistemático ao verificar se há viés e variáveis de confusão. Isso aborda a Erro aleatório. A avaliação crítica avalia o erro sistemático ao verificar se há viés e variáveis de confusão. Isso aborda a validade e a precisão dos resultados. No entanto, o erro também pode ser introduzido por acaso (ou seja, erro aleatório). Variações devido ao acaso ocorrem em quase todas as situações. Por exemplo, um estudo pode inscrever mais mulheres do que homens por nenhuma outra razão além do puro acaso. Se um estudo chegasse a alguma conclusão sobre o resultado em relação ao que ocorre em homens ou mulheres, a interpretação teria que considerar que as variações no resultado poderiam ter ocorrido devido ao erro aleatóriodo número desproporcional não planejado de homens para mulheres na amostra. Se os participantes não fossem divididos aleatoriamente em grupos, pessoas muito doentes poderiam se matricular em um grupo apenas por acaso e isso poderia impactar os resultados. Um hospital pode estar particularmente ocupado durante o período de realização de uma pesquisa no local, o que pode distorcer os resultados. O erro aleatório pode levar a efeitos relatados menores ou maiores que o efeito real (ou seja, o impacto real de uma intervenção que os pesquisadores fazem o máximo para determinar, embora nunca possam ter 100% de certeza de que a encontraram). O erro aleatório afeta a precisão de uma descoberta de estudo. As chances de erro aleatório impactando os resultados podem ser reduzidas até certo ponto por fatores de design do estudo, como aumentar o tamanho da amostra ou aumentar o número de vezes que as medições são feitas (ou seja, evitar medições que são instantâneas no tempo). Quando medidas repetidas do mesmo resultado são semelhantes em um estudo, presume-se que haja um baixo erro aleatório. p valores) ou por intervalos de resultado são semelhantes em um estudo, presume-se que haja um baixo erro aleatório. p valores) ou por intervalos de resultado são semelhantes em um estudo, presume-se que haja um baixo erro aleatório. p valores) ou por intervalos de confiança (ICs). Melnyk_Chap05.indd 93 Melnyk_Chap05.indd 93 8/3/2010 9:47:19 AM 3/8/2010 9:47:19 AM c a p í t u l o 5 S tres tres: C riticamente Uma evidência de valorização 94 Significância estatística. O objetivo da análise estatística é determinar se um efeito observado surge da intervenção do estudo ou se Significância estatística. O objetivo da análise estatística é determinar se um efeito observado surge da intervenção do estudo ou se ocorreu por acaso. Ao comparar dois grupos, a questão de pesquisa pode ser formulada como uma hipótese (isto é, o que achamos que vai acontecer) e os dados coletados para determinar se a hipótese é confirmada. Por exemplo, a hipótese pode ser que um medicamento experimental alivia a dor melhor que um placebo (isto é, o medicamento tem efeitos além dos sugeridos ou das interações pessoais entre os envolvidos no estudo). Geralmente para um estudo, os pesquisadores descrevem o que eles esperam que aconteça como sua hipótese de estudo. A hipótese nula (ou seja, que existe sem diferença em vigor entre o medicamento e o placebo) é a contra-posição da hipótese primária. Quando um estudo de intervenção é sem diferença em vigor entre o medicamento e o placebo) é a contra-posição da hipótese primária. Quando um estudo de intervenção é realizado e a análise estatística é realizada nos dados do estudo (ou seja, teste de hipóteses), um p é calculado um valor que indica a realizado e a análise estatística é realizada nos dados do estudo (ou seja, teste de hipóteses), um p é calculado um valor que indica a realizado e a análise estatística é realizada nos dados do estudo (ou seja, teste de hipóteses), um p é calculado um valor que indica a probabilidade de a hipótese nula ser verdadeira. Quanto menor o p valor, menor a probabilidade de a hipótese nula ser verdadeira (ou seja, probabilidade de a hipótese nula ser verdadeira. Quanto menor o p valor, menor a probabilidade de a hipótese nula ser verdadeira (ou seja, probabilidade de a hipótese nula ser verdadeira. Quanto menor o p valor, menor a probabilidade de a hipótese nula ser verdadeira (ou seja, a menor probabilidade de que os resultados do estudo tenham ocorrido por acaso); portanto, é mais provável que o efeito observado seja devido à intervenção. Por convenção, um p um valor de 0,05 ou menos é considerado um resultado estatisticamente significativo na devido à intervenção. Por convenção, um p um valor de 0,05 ou menos é considerado um resultado estatisticamente significativo na devido à intervenção. Por convenção, um p um valor de 0,05 ou menos é considerado um resultado estatisticamente significativo na pesquisa em saúde. Isso significa que geradores e consumidores de pesquisas em saúde concordam que é aceitável que os resultados do estudo ocorram por acaso 1 em 20 vezes. Enquanto p Como os valores são comumente relatados na literatura sobre saúde, eles são debatidos há muitos anos (Rothman, Enquanto p Como os valores são comumente relatados na literatura sobre saúde, eles são debatidos há muitos anos (Rothman, Enquanto p Como os valores são comumente relatados na literatura sobre saúde, eles são debatidos há muitos anos (Rothman, 1978). Muito pequeno p valores podem surgir quando pequenas diferenças são encontradas em estudos com grandes amostras. Esses achados 1978). Muito pequeno p valores podem surgir quando pequenas diferenças são encontradas em estudos com grandes amostras. Esses achados 1978). Muito pequeno p valores podem surgir quando pequenas diferenças são encontradas em estudos com grandes amostras. Esses achados podem ser interpretados como estatisticamente significativos, mas podem ter pouco significado clínico. Por outro lado, estudos com amostras pequenas podem ter resultados fortemente associados a grandes p valores, que podem ser descartados como estatisticamente não pequenas podem ter resultados fortemente associados a grandes p valores, que podem ser descartados como estatisticamente não pequenas podem ter resultados fortemente associados a grandes p valores, que podem ser descartados como estatisticamente não significativos, mas podem ser clinicamente significativos. Parte do problema é que p os valores levam a uma conclusão “ou-ou” (isto é, significativos, mas podem ser clinicamente significativos. Parte do problema é que p os valores levam a uma conclusão “ou-ou” (isto é, significativos, mas podem ser clinicamente significativos. Parte do problema é que p os valores levam a uma conclusão “ou-ou” (isto é, estatisticamente significante ou não significante) e não auxiliam na avaliação da força de uma associação (Carley & Lecky, 2003). Além disso, o "ponto de corte" de p £ 0,05 é definido arbitrariamente e contribui para a tomada de decisão dicotômica. Portanto, estudos relatando apenas p os "ponto de corte" de p £ 0,05 é definido arbitrariamente e contribui para a tomada de decisão dicotômica. Portanto, estudos relatando apenas p os "ponto de corte" de p £ 0,05 é definido arbitrariamente e contribui para a tomada de decisão dicotômica. Portanto, estudos relatando apenas p os "ponto de corte" de p £ 0,05 é definido arbitrariamente e contribui para a tomada de decisão dicotômica. Portanto, estudos relatando apenas p os "ponto de corte" de p £ 0,05 é definido arbitrariamente e contribui para a tomada de decisão dicotômica. Portanto, estudos relatando apenas p os "ponto de corte" de p £ 0,05 é definido arbitrariamente e contribui para a tomada de decisão dicotômica. Portanto, estudos relatando apenas p os valores tendem a ser classificados como estatisticamente significantes (isto é, um resultado positivo) ou estatisticamente não significantes (isto é, um resultado negativo do estudo). A impressão é de que a intervenção é útil ou inútil, respectivamente. Em contextos clínicos, é mais ou menos provável que os resultados do estudo sejam úteis, dependendo de vários outros fatores que os médicos devem levar em consideração quando esperam obter resultados semelhantes com seus pacientes. Considere o exemplo destacado na Tabela 5.5 (Brower, Lanken, MacIntyre, et al., 2004). Resultado (Morte) Exposição sim Não Total PEEP alta 76 200 276 PEEP baixa 68 205 273 Risco absoluto (RA) Re = a / (a + b) Re = a / (a + b) Re = a / (a + b) Re = 76 / (76 + 200) = 0,28 Ru = 68 / (68 + 205) = 0,25 Ru = c / (c + d)Ru = c / (c + d)Ru = c / (c + d) Aumento de risco absoluto (IRA) Re - Ru = ARI 0,28 - 0,25 = 0,03 × 100 = 0,03 ± 1,96 √ { 0,28 (100 - 0,28) / ± 1,96 √ { 0,28 (100 - 0,28) / ± 1,96 √ { 0,28 (100 - 0,28) / 276} + {0,25 (100 - 0,25) / 273} Aumento de 3% no risco de morte comPEEP alta IC para IRA IRA ± 1,96 Ö { Re (100-Re) IRA ± 1,96 Ö { Re (100-Re) IRA ± 1,96 Ö { Re (100-Re) / a + b} + {Ru (100-Ru / c + d}) 0,03 ± 1,96 √ { 0,10 + 0,09}0,03 ± 1,96 √ { 0,10 + 0,09}0,03 ± 1,96 √ { 0,10 + 0,09} 0,03 ± √ 0,190,03 ± √ 0,190,03 ± √ 0,19 0,03 ± / - 0,44 IC95%: −0,41 a 0,47 tabela 5.5 Tabela 2 a 2 da incidência de óbitos na comparação de PEEP alta com PEEP tabela 5.5 Tabela 2 a 2 da incidência de óbitos na comparação de PEEP alta com PEEP baixa Melnyk_Chap05.indd 94 Melnyk_Chap05.indd 94 8/3/2010 9:47:19 AM 3/8/2010 9:47:19 AM u n i d a d e d o i s Criticamente, uma evidência quantitativa de valorização para a decisão estratégica 95 Os pacientes podem necessitar de ventilação mecânica devido a diferentes lesões e doenças. No entanto, a própria ventilação mecânica pode causar mais danos aos pulmões, especialmente se forem usados volumes correntes altos. A Tabela 5.5 apresenta os resultados de um ECR em que os pacientes foram designados para pressão expiratória final positiva (PEEP) baixa ou alta. O IRA para óbito no grupo com alta PEEP foi de 13%. Quando os pesquisadores investigaram se havia ou não uma diferença nos grupos, eles descobriram que a probabilidade da hipótese nula (ou seja, nenhuma diferença nos grupos) ser verdadeira era verdadeira. p = 0,48. Portanto, os pesquisadores concluíram que não havia diferenças significativas na mortalidade entre os dois níveis de PEEP. No p = 0,48. Portanto, os pesquisadores concluíram que não havia diferenças significativas na mortalidade entre os dois níveis de PEEP. No entanto, se o estudo for simplesmente classificado como "estatisticamente não significativo", outras informações importantes poderão ser perdidas. Interpretando os resultados de um estudo: Exemplo três. Outro problema em potencial com p Os valores ocorrem se os pesquisadores Interpretando os resultados de um estudo: Exemplo três. Outro problema em potencial com p Os valores ocorrem se os pesquisadores Interpretando os resultados de um estudo: Exemplo três. Outro problema em potencial com p Os valores ocorrem se os pesquisadores Interpretando os resultados de um estudo: Exemplo três. Outro problema em potencial com p Os valores ocorrem se os pesquisadores coletam muitos dados sem objetivos claros (ou seja, hipóteses) e depois os analisam procurando correlações significativas. Nessas situações, é mais provável que apenas o acaso tenha levado a resultados significativos. Quando o nível de significância estatística para o p Se situações, é mais provável que apenas o acaso tenha levado a resultados significativos. Quando o nível de significância estatística para o p Se situações, é mais provável que apenas o acaso tenha levado a resultados significativos. Quando o nível de significância estatística para o p Se o valor for definido em 0,05, a probabilidade de dizer que a intervenção funcionou quando não obteve (ou seja, obtendo um resultado falso positivo) pode ser calculada como (1 - 0,95) ou 0,05 (ou seja, 1 em 20 resultados positivos será encontrada por chance). O teste de múltiplas hipóteses é um exemplo comumente encontrado de projeto de pesquisa ruim (Goodacre, 2008b). Quando duas hipóteses são testadas, a probabilidade de encontrar uma chance é aumentada para [1 - (0,95 × 0,95)] ou 0,0975 (ou seja, cerca de 1 em cada 10 resultados positivos será encontrado por acaso). Com cinco testes, a probabilidade passa para 0,23 (ou seja, quase uma em quatro chances de que um resultado positivo seja encontrado por acaso). Há circunstâncias em que testar várias hipóteses pode ser legítima (por exemplo, quando se sabe que vários fatores afetam um resultado). Nesses casos, existem análises estatísticas que podem evitar os problemas do teste de múltiplas hipóteses (por exemplo, Correção de Bonferonni; Bono & Tornetta, 2006). Os pesquisadores geralmente selecionam um resultado primário; no entanto, resultados secundários também podem ser apropriados quando surgem da base conceitual e dos objetivos do estudo. Por outro lado, “expedições de pesca” ou “dragagem de dados” ocorre quando o único objetivo da coleta de dados é encontrar resultados estatisticamente significativos. Freqüentemente, uma pista para a dragagem de dados é quando subgrupos são criados sem nenhuma base conceitual e esses grupos diferem significativamente em um resultado. Os subgrupos devem ser planejados antes do início do estudo (ou seja, a priori) e deve ser formado com base na estrutura conceitual subjacente ao estudo. Por exemplo, um grande ECR de altas doses de esteróides para tratar lesões na medula espinhal tem sido criticado por seus múltiplos testes estatísticos (Bracken, Shepard, Holford, et al., 1997). Mais de 100 p Os valores foram apresentados no relatório sem especificar qual deles foi testes estatísticos (Bracken, Shepard, Holford, et al., 1997). Mais de 100 p Os valores foram apresentados no relatório sem especificar qual deles foi testes estatísticos (Bracken, Shepard, Holford, et al., 1997). Mais de 100 p Os valores foram apresentados no relatório sem especificar qual deles foi planejado como análise primária (Bono & Tornetta). Por exemplo, a tabela de resultados principal forneceu 24 p valores para vários resultados em planejado como análise primária (Bono & Tornetta). Por exemplo, a tabela de resultados principal forneceu 24 p valores para vários resultados em planejado como análise primária (Bono & Tornetta). Por exemplo, a tabela de resultados principal forneceu 24 p valores para vários resultados em diferentes intervalos de tempo, dos quais um foi estatisticamente significante. Com a convenção de probabilidade definida em p < 0,05, 1 teste diferentes intervalos de tempo, dos quais um foi estatisticamente significante. Com a convenção de probabilidade definida em p < 0,05, 1 teste diferentes intervalos de tempo, dos quais um foi estatisticamente significante. Com a convenção de probabilidade definida em p < 0,05, 1 teste positivo em cada 20 testes provavelmente será encontrado por acaso; portanto, 1 teste positivo dos 24 testes no exemplo de estudo provavelmente seria devido ao acaso. Um resultado positivo foi que os pacientes obtiveram melhores resultados estatisticamente neurológicos quando tratados com esteróides intravenosos dentro de 8 horas após uma lesão na medula espinhal. No entanto, não foram encontradas diferenças significativas nos resultados neurológicos para toda a população do estudo. Um problema foi que o ponto de corte de 8 horas não foi identificado antes da realização do estudo, nem havia evidências de pesquisas básicas sobre por que o tratamento antes de 8 horas faria uma diferença significativa (Coleman, Benzel, Cahill, et al. 2000). Pesquisadores, incluindo um envolvido no estudo original, expressaram preocupações de que múltiplos testes estatísticos foram executados até que uma diferença estatisticamente significativa fosse descoberta, resultando em um subgrupo criado artificialmente (Lenzer, 2006). Isso tem implicações clínicas importantes, pois este estudo continua a determinar o padrão de atendimento, embora muitos clínicos e pesquisadores tenham questionado a confiabilidade de sua conclusão (Lenzer & Brownlee, 2008). A significância estatística não pode ser o único marcador para determinar se um resultado de estudo é ou não valioso para a prática. O significado clínico (ou seja, o clínico pode obter resultados semelhantes ao estudo) é outro mecanismo que pode ajudar o profissional a avaliar o valor dos resultados de um estudo para o atendimento ao paciente. Isso tem implicações clínicas importantes, pois este estudo continua a determinar o padrão de atendimento, embora muitos clínicos e pesquisadores tenham questionado a confiabilidade de sua conclusão (Lenzer & Brownlee, 2008). A significância estatística não pode ser o único marcador para determinar se um resultado de estudo é ou não valioso para a prática. O significado clínico (ou seja, o clínico pode obterresultados semelhantes ao estudo) é outro mecanismo que pode ajudar o profissional a avaliar o valor dos resultados de um estudo para o atendimento ao paciente. Isso tem implicações clínicas importantes, pois este estudo continua a determinar o padrão de atendimento, embora muitos clínicos e pesquisadores tenham questionado a confiabilidade de sua conclusão (Lenzer & Brownlee, 2008). A significância estatística não pode ser o único marcador para determinar se um resultado de estudo é ou não valioso para a prática. O significado clínico (ou seja, o clínico pode obter resultados semelhantes ao estudo) é outro mecanismo que pode ajudar o profissional a avaliar o valor dos resultados de um estudo para o atendimento ao paciente. Melnyk_Chap05.indd 95 Melnyk_Chap05.indd 95 8/3/2010 9:47:19 AM 3/8/2010 9:47:19 AM c a p í t u l o 5 S tres tres: C riticamente Uma evidência de valorização 96 Intervalos de confiança. Um IC descreve o intervalo em que o verdadeiro efeito está em um determinado grau Intervalos de confiança. Um IC descreve o intervalo em que o verdadeiro efeito está em um determinado grau de certeza. Em outras palavras, o IC fornece aos médicos uma gama de valores nos quais eles podem estar razoavelmente confiantes (por exemplo, 95%) de que encontrarão um resultado ao implementar os achados do estudo. Os dois valores mais importantes para os médicos são a estimativa do ponto de estudo e o IC. A estimativa pontual, dada a amostra do estudo e variáveis potencialmente confusas, é a melhor estimativa da magnitude e direção do efeito da intervenção experimental em comparação com o controle (Higgins & Green, 2008). Os médicos precisam saber em que grau a intervenção do estudo trouxe o resultado e precisam saber quão confiantes podem ser que podem alcançar resultados semelhantes ao estudo. Em geral, os pesquisadores apresentam um IC de 95%, Embora um IC possa ser calculado facilmente, não é o cálculo que os médicos precisam lembrar; em vez disso, eles precisam entender quais informações o IC fornece. Um intervalo de confiança é apropriado para fornecer significado clínico para o efeito medido de (a) uma intervenção em um grupo, (b) a diferença que a intervenção fez entre dois grupos ou (c) o efeito da intervenção com várias amostras reunidas em um meta-análise. O intervalo de um intervalo de confiança pode (c) o efeito da intervenção com várias amostras reunidas em um meta-análise. O intervalo de um intervalo de confiança pode (c) o efeito da intervenção com várias amostras reunidas em um meta-análise. O intervalo de um intervalo de confiança pode ser expresso numericamente e graficamente (veja a Figura 5.3). A largura do IC é a chave para sua interpretação. Em geral, os ICs mais estreitos são mais favoráveis que os ICs mais amplos. Quanto mais restrito o IC em torno da estimativa do ponto de estudo, menor a margem de erro do clínico que optar por implementar os resultados do estudo. Na figura 5.3, o IC é mais amplo; portanto, os clínicos não teriam muita confiança nos resultados do estudo. Quando o IC contém a linha sem diferença (também chamada de linha sem efeito), a diferença entre os grupos (isto é, a estimativa do ponto de estudo) não é estatisticamente significativa. O IC na Figura 5.3 cruza a linha central que indica nenhum efeito (ou seja, contém o valor numérico); portanto, os resultados não são estatisticamente significantes. O valor numérico real para esta linha pode variar dependendo da estatística usada (por exemplo, para OR ou RR, sem efeito = 1; para tamanho de efeito, sem efeito = 0). Representação gráfica de um IC e estimativa de estudofigura 5.3 Resultado Desejável (por exemplo, cicatrização de feridas cirúrgicas) Linha sem efeito CI numérico superior Limite CI numérico inferior Limite Estimativa Numérica do Estudo Favorece a Intervenção Favorece o controle Melnyk_Chap05.indd 96Melnyk_Chap05.indd 96 8/3/2010 9:47:19 AM 3/8/2010 9:47:19 AM u n i d a d e d o i s Criticamente, uma evidência quantitativa de valorização para a decisão estratégica 97 A largura do intervalo de confiança pode ser influenciada pelo tamanho da amostra. Amostras maiores tendem a fornecer estimativas mais precisas dos efeitos (ou seja, IC mais estreito) e tendem a produzir efeitos estatisticamente significativos. Na Figura 5.4, as estimativas de resultados para os grupos de intervenção e controle e os ICs correspondentes são mostrados para dois estudos. No segundo estudo, o tamanho da amostra é dobrado e os mesmos valores são encontrados. Embora os valores médios permaneçam os mesmos, o IC 95% é definido de maneira mais restrita. Os médicos podem ter mais confiança nos resultados do segundo estudo. Para resultados contínuos (por exemplo, pressão arterial), além do tamanho da amostra, a largura do IC também depende da variabilidade natural nas medições de resultados. Por causa das limitações de p Em geral, os periódicos de saúde solicitam o relatório de análises natural nas medições de resultados. Por causa das limitações de p Em geral, os periódicos de saúde solicitam o relatório de análises natural nas medições de resultados. Por causa das limitações de p Em geral, os periódicos de saúde solicitam o relatório de análises estatísticas dos ICs (Goodacre, 2008b). As informações fornecidas por um IC acomodam a incerteza inerente à prática clínica do mundo real. Essa incerteza não é refletida quando as intervenções são descritas apenas como estatisticamente significantes ou não. Embora nunca possamos ter certeza absoluta de que uma intervenção ajudará ou não nossos pacientes, podemos estar razoavelmente confiantes no resultado quando tivermos um IC estreito e uma intervenção efetiva. Interpretando os resultados de um estudo: Exemplo quatro. Examine os dados encontrados na Tabela 5.5, do estudo que Interpretando os resultados de um estudo: Exemplo quatro. Examine os dados encontrados na Tabela 5.5, do estudo que comparou a incidência de morte com PEEP alta e PEEP baixa em ventilação mecânica (Brower et al., 2004). A estimativa do ponto de estudo indica que os participantes com PEEP baixa apresentaram menores taxas de mortalidade. Embora a diferença na taxa de mortalidade entre os dois grupos não tenha sido estatisticamente significante (o IC cruza a linha de nenhum efeito com IRA = 0; p = 0,48), mortalidade entre os dois grupos não tenha sido estatisticamente significante (o IC cruza a linha de nenhum efeito com IRA = 0; p = 0,48), mortalidade entre os dois grupos não tenha sido estatisticamente significante (o IC cruza a linha de nenhum efeito com IRA = 0; p = 0,48), o IC 95% fornece informações adicionais clinicamente significativas para o atendimento ao paciente. O IC95% para IRA é estreito (-0,41 a 0,47), indicando que os médicos podem ter certeza de que eles também podem obter um aumento muito pequeno nas taxas de mortalidade usando PEEP alta em pacientes sob ventilação mecânica (ver Figura 5.5). No entanto, mesmo um pequeno aumento na morte não é desejável. Esta informação é clinicamente significativa, apesar de não ser estatisticamente significativa. No entanto, embora os resultados do estudo sejam clinicamente significativos, não seria sensato concluir se deve ou não usar PEEP alta com base apenas nas melhores ou piores taxas de mortalidade encontradas neste único estudo. Para chegar a uma conclusão mais definitiva, seriam necessários ensaios com mais sujeitos para estabelecer que esses achados não foram por acaso (por exemplo, Influência do tamanho da amostra nos ICsfigura 5.4 Grupo Controle 1 Grupo Experimental 1 Grupo Controle 2 Grupo Experimental 2 1 1 2 3 4 5 6 Valor médio com intervalos de confiança de 95% 7 8 9 10 11 12 Melnyk_Chap05.indd 97Melnyk_Chap05.indd 97 8/3/2010 9:47:20 AM 3/8/2010 9:47:20 AM c a p í t u l o 5 S tres tres: C riticamente Uma evidência de valorização 98 Além disso, como o resultado é a morte, seria aconselhável