Baixe o app para aproveitar ainda mais
Prévia do material em texto
ESTATÍSTICA PARA QUEM NÃO É ESTATÍSTICO – TRISHA GREENHALGH COMO QUEM NÃO É ESTATÍSTICO AVALIA TESTES ESTATÍSTICOS? Não é preciso saber construir um carro para saber dirigi-lo. O que se precisa saber dos testes estatísticos é qual deles é melhor para usar em cenários comuns. Você deve ser capaz de descrever em palavras o que o teste faz e em que circunstâncias ele não é válido ou apropriado. Se os autores de um artigo usam números e dizem que isso significa algo, eles estão (ou deveriam estar) usando um teste estatístico. OS AUTORES DESCREVERAM CORRETAMENTE O CENÁRIO? Foi determinado se seus grupos eram comparáveis e, se necessário, ajustados para diferenças na linha base? A maioria dos Ensaios clínicos comparativos tem uma tabela mostrando as características dos grupos que estão sendo estudados, a famosa “Tabela 1”. Essa tabela, tem como objetivo mostrar que tanto o grupo intervenção quanto o grupo controle possuem características similares (distribuição de sexo, idade e de variáveis prognósticas relevantes). Se existirem diferenças importantes entre os grupos, mesmo que tenham surgidas ao acaso, é indicado realizar certos ajustes para tentar controlar as diferenças, dessa forma, ao avaliar a eficácia de um tratamento, por exemplo, diminuímos a chance de que aquela diferença influencie no resultado. Quais tipos de dados foram obtidos? Foram usados testes estatísticos adequados? Não basta coletar dados e sair realizando cálculos sem saber o que eles significam. Calcular a média de alturas e pesos pode ser útil, porém, se alocamos um número para a “Cidade de origem” (1=Londres; 2=Manchester…), calcular a média não faria sentido algum. Os testes estatísticos utilizados em artigos geralmente são classificados como paramétricos (assume que os dados foram retirados de uma forma de distribuição, como uma distribuição normal) ou não paramétricos (não assume que os dados foram retirados de um tipo particular de distribuição). Os não paramétricos verificam a ordem de classificação dos valores (qual é o menor, qual vem a seguir) e ignoram as diferenças absolutas entre eles. A significância estatística é mais difícil de ser demonstrada, e isso faz com que pesquisadores utilizem estatísticas como o valor de r de forma inadequada, enquanto deveriam ter usado o coeficiente de correlação p (“rô”), produzindo uma estimativa inteiramente espúria e enganosa sobre a significância do resultado, a menos que os dados sejam adequados ao teste utilizado. Outra consideração a ser feita é sobre o formato da distribuição dos dados amostrados. Algumas variáveis podem se apresentar de forma assimétrica e outras em forma de distribuição normal. Às vezes, os dados não normais, podem ser transformados para produzir um gráfico Bruno Henryque Marconato ESTATÍSTICA PARA QUEM NÃO É ESTATÍSTICO – TRISHA GREENHALGH com distribuição normal, para usar testes estatísticos baseados na distribuição normal. Se isso for possível de ser feito, não é enganar, enganar é usar um teste baseado na distribuição normal para analisar dados que não estão em distribuição normal. Se os testes estatísticos no artigo são obscuros, por que os autores optaram por eles? Foi incluída alguma referência? Se o artigo que você está lendo usa um teste “estranho”que não está listado em um livro-texto básico de estatística, você deve desconfiar. Os autores devem, nessa situação, dizer por que usaram esse teste e fornecer uma referência para descrição detalhada. Os dados foram analisados de acordo com o protocolo original do estudo? Da mesma forma que não é justo parar de jogar moedas em um jogo de cara e coroa apenas quando você ganhar, não é justo parar um estudo assim que o resultado seja favorável. O desenho inicial do estudo deve ser seguido até o fim. Além disso, voltar analisando retrospectivamente, buscando resultados “interessantes”, pode levar a conclusões falsas. Por isso, deve-se ter cuidado com as análises de subgrupo (leia o artigo “A consumer’s guide to subgroup analysis”). DADOS PAREADOS, CAUDAS E VALORES EXTREMOS Os testes pareados foram realizados sobre dados pareados? Frequentemente, os estudantes acham difícil decidir se devem usar um teste pareado ou não pareado para analisar seus dados. Se você medir algo duas vezes em cada participante (p. ex. Pressão arterial quando deitado e em pé), provavelmente você não está interessado apenas na média, mas também o quanto cada medida variou conforme a posição. Isso é o que chamamos de dados pareados, pois cada mensuração prévia é pareada com uma mensuração posterior. Neste exemplo, o que forma o pareamento é contar com a mesma pessoa em ambas as ocasiões. Esperamos que dois valores pareados selecionados ao acaso sejam mais próximos do que dois valores não pareados selecionados ao acaso (a minha pressão nessa semana deve estar mais próxima a minha pressão em algum momento da minha vida do que de uma pessoa desconhecida). Assim, se não Bruno Henryque Marconato ESTATÍSTICA PARA QUEM NÃO É ESTATÍSTICO – TRISHA GREENHALGH realizamos testes pareados para dados pareados, podemos tendenciar a nossa estimativa a respeito da significância dos dados. Foi realizado um teste bicaudal sempre que o efeito de uma intervenção pudesse ser negativo? Realizar um teste estatístico delineado para demonstrar um efeito pode ser inadequado. Em outras palavras, não é uma boa prática cientifica assumir que você sempre conhece a direção do efeito da sua intervenção. Se você está estudando o efeito de um novo fármaco no controle da pressão arterial, por exemplo, é melhor realizar um teste bicaudal, que medirá se aquele novo fármaco reduziu ou aumentou a PA do paciente, ao invés de já definir a direção do efeito. Os valores extremos foram analisados com bom senso e com ajustes estatísticos apropriados? Resultados inesperados podem refletir idiossincrasias no participante (metabolismo incomum, p. ex.), erros de medida, erros de interpretação ou erros de cálculo. Somente o primeiro desses é um resultado “real”e merece ser incluído na análise. CORRELAÇÃO, REGRESSÃO E CAUSAÇÃO A correlação foi diferenciada da regressão? O coeficiente de correlação (“valor de r”) foi calculado e interpretado corretamente? A primeira coisa a saber é que regressão e correlação são coisas diferentes, termos estatísticos precisos com funções específicas. O valor de r (ou coeficiente de Pearson) não é válido a menos que os seguintes critérios sejam preenchidos: • Os dados, ou melhor, a população a partir do qual os dados foram coletados, devem ter uma distribuição normal. Caso contrário, use um teste não paramétrico de correlação (tab. 5.1) • As variáveis devem ser estruturalmente independentes. Caso contrário, use um teste t pareado ou outro teste pareado. • Deve ser feito um único par de medidas para cada participante, pois medidas em participantes sucessivos devem ser estatisticamente independentes umas das outras para obtermos estimativas não enviesadas dos parâmetros populacionais de interesse. • Cada valor de r deve ser acompanhado por um calor de p, que expressa qual a provabilidade de uma associação dessa magnitude ter surgido ao acaso, ou por um intervalo de confiança, que expressa a variação dentro da qual o verdadeiro valor de R provavelmente se situa (o R maiusculo representa o coeficiente de correlação de toda a população). Mesmo que seja apropriado calcular o valor de r para um conjunto de dados, lembre-se que ele não diz se essa relação é causal. O termo regressão diz se uma variável (a dependente)pode ser predita a partir de outra variável (a independente). A regressão múltipla, permite que uma variável seja predita a partir de duas ou mais variáveis independentes. A regressão simples é a fórmula da equação da reta, y = a + bx, y é a variável dependente (eixo vertical) e x é a independente (eixo horizontal), a é a intersecção com y e b é uma constante. Bruno Henryque Marconato ESTATÍSTICA PARA QUEM NÃO É ESTATÍSTICO – TRISHA GREENHALGH Não são todas as variáveis que podem ser descritas por uma equação tão simples, peso e altura por exemplo, depende de inúmeras outras coisas. Foram feitas suposições sobre a natureza e a direção da causalidade? Para demonstrar que que A causou B (e não B causou A, nem que A e B foram ambos causados por C) você necessita mais do que um coeficiente de correlação que demonstre associação entre A e B. Veja sobre os critérios de Bradford Hill. PROBABILIDADE E CONFIANÇA Os valores de p foram adequadamente calculados e interpretados? Valor de p é a probabilidade de que um desfecho qualquer tenha ocorrido ao acaso. Arbitrariamente, atribuímos um p<0,05 (equivalente a 1 chance em 20) como estatisticamente significativo, e p<0,01 (equivalente a 1 chance em 100) como estatisticamente muito significativo. Assim, por definição, 1 associação causal em 20 parecerá ser significativa quando na verdade não é, e 1 em 100 parecerá altamente significativa quando na verdade não é. Se for feito uma comparação multipla, é necessário usar uma correção para chegar a essas probabilidades. O meio mais conhecido para isso é o teste de Bonferroni. Um resultado estatisticamente significante, sugere que os autores devem rejeitar a hipótese nula (a hipótese que não há diferença real entre os dois grupos). Entretanto, um valor de p na faixa não significativa indica que ou não existe diferença entre os grupos ou que há poucos participantes para demonstrar se essa diferença existe. Por que usar um único ponto de corte quando a escolha desse ponto é arbitrária? Por que tornar a questão dicotômica quando seria melhor encará-la como contínua? Para responder isso, necessitamos de intervalos de confiança. Os intervalos de confiança foram calculados e as conclusões dos autores os refletem? Um intervalo de confiança é um cálculo que permite fazer uma estimativa do resultado, seja o estudo positivo ou negativo, forte ou fraco, definitivo ou não. Se você repetir o mesmo ECR centenas de vezes, não conseguiria exatamente o mesmo resultado cada vez. Porém, em média, você estabeleceria uma diferença entre os dois braços do ensaio. Quando aplicamos isso para um único ECR, o intervalo de confiança de 95% nos diz que existe 95% de chance de que aquele resultado esteja dentro dessa diferença média. Porém, se nessa diferença média estiver contido o número zero, em uma análise dicotômica classificamos como estudo negativo (afinal, se tiver o zero significa que a diferença entre os grupos pode ser nula). Dependendo da proximidade dos pontos extremos do intervalo de confiança do zero, pode-se argumentar que mesmo que passe pelo zero, isso não o classifique como negativo, mas talvez como um estudo com poder de inferência fraco, dependendo da probabilidade. EFEITOS FUNDAMENTAIS Os autores expressaram os efeitos de uma intervenção em termos de provável Bruno Henryque Marconato ESTATÍSTICA PARA QUEM NÃO É ESTATÍSTICO – TRISHA GREENHALGH benefício ou dano que um paciente individual pode esperar? Na prática, saber apenas que um resultado de eficácia de um medicamento é estatisticamente significativo, não é útil. É mais útil saber em quanto ao tomar esse medicamento ele melhora os meus sintomas em relação a não tomar. Três cálculos respondem isso: Redução do risco relativo (RRR), redução do risco absoluto (RAR) e o número necessário para tratar (NNT). Veja a tabela a seguir: O tratamento clinico da tabela acima é o grupo controle, queremos saber a chance de morte em 10 anos comparados a cirurgia de revascularização (RCM). Os pacientes do tratamento clínico tem chânce de 404/1.325 = 0,305 ou 30,5% de estarem mortos em 10 anos, vamos chamar esse resultado de x. Os pacientes do RCM possuem chance de 350/1.324 = 0,264 ou 26,4% de estarem mortos em 10 anos, vamos chamar esse resultado de y. Os resultados x e y são chamados de riscos absolutos de morte de cada grupo. O risco relativo (RR) de mortem em pacientes de RCM, em comparação ao controle é y/x, ou 0,264/0,305 = 0,87 (87%). O RRR, que é a quantidade na qual o tisco de morte é reduzido no grupo RCM em comparação ao controle é de 100 – 87% ou 1-y/x = 13%. O RRA (ou diferença de risco), ou seja, a quantidade absoluta na qual a RCM reduz o risco de morte em 10 anos é 30,5- 26,4% = 4,1% (0,041). O NNT, ou seja, quantos pacientes precisam de uma RCM para prevenir em média uma morte a cada 10 anos, é a recíproca do RRA, 1/RRA = 1/0,041 = 24. Para saber qual desses é mais útil em cada caso é preciso ler o artigo (Basic statistics for clinicians: 3. Assessing the effects of treatment: measures of association). Bruno Henryque Marconato
Compartilhar