Prévia do material em texto
BIOESTATÍSTICA AULA 5 Prof. Michael Pereira da Silva 2 CONVERSA INICIAL Como visto anteriormente, um primeiro passo a ser dado na análise estatística de dados numéricos é a análise de normalidade dos dados. Vimos, anteriormente, que temos uma série de testes estatísticos que dependem de uma distribuição normal de dados (paramétrica) para que possamos testar as hipóteses de forma adequada. Entretanto, é muito comum coletarmos dados numéricos que não atendem aos pressupostos de normalidade. Isso não nos impede de testar hipóteses com essas variáveis. Temos testes estatísticos disponíveis que não dependem de dados normais para serem aplicados de forma adequada. Vamos identificar e discutir algumas dessas opções no decorrer desta aula. TEMA 1 – IDENTIFICANDO AS ALTERNATIVAS NÃO PARAMÉTRICAS DE ANÁLISE Como dito acima, temos algumas opções de testes que não dependem da distribuição paramétrica das variáveis numéricas para serem utilizados. O quadro a seguir apresenta testes estatísticos análogos às funcionalidades dos testes estatísticos aprendidos anteriormente. Tabela 1 – Alternativas não paramétricas para testes estatísticos Testes paramétricos Testes não paramétricos 2 amostras independentes Teste t Mann-Whitney 2 amostras pareadas Teste t pareado Wilcoxon 3 ou mais amostras independentes ANOVA Kruskal-Wallis 3 ou mais amostras pareadas ANOVA medidas repetidas Friedman Fonte: Silva, 2021, com base em Barros et al., 2012. Vamos a um exemplo de como devemos optar ou não pela utilização de um neste não paramétrico. Imagine que queremos comparar o nível sérico de HDL-Colesterol (mg/dl) entre homens e mulheres. O primeiro passo a ser feito é 3 verificar se a variável HDL-Colesterol se apresenta com distribuição normal para cada sexo. Se verificarmos que essa variável apresenta distribuição normal, fazemos a opção pelo teste t de Student para amostras independentes a fim de testarmos essas diferenças. Caso a variável HDL-Colesterol se desvie da normalidade, ou seja, quando a distribuição dos dados observados de nossa amostra se desvia significativamente da distribuição normal teórica (curva em formato de sino) – releia os conteúdos anteriores para relembrar as formas de testar essa normalidade dos dados –, devemos optar pelo teste de Mann- Whitney como alternativa não-paramétrica para testarmos essa hipótese. Vamos conhecer um pouco mais sobre esses testes não paramétricos nos tópicos a seguir. TEMA 2 – TESTE DE MANN-WHITNEY O teste de Mann-Whitney é o equivalente não paramétrico para o teste t de Student para amostras independentes, ou seja, deve ser utilizado para comparar dois grupos independentes (Barros et al., 2012). O teste de Mann-Whitney não se baseia na média dos valores de cada grupo, e sim na comparação da soma dos postos que os valores ocupam em cada um dos grupos (Barros et al., 2012). Os postos indicam a posição em que os valores de cada indivíduo se encontram no conjunto de dados ordenados dos menores para os maiores valores. Grupos que apresentam valores mais altos de uma determinada variável tendem a apresentar a soma de postos maior. Veja um exemplo disso na figura 1. Tabela 2 – Transformação de valores observados em postos Fonte: Silva, 2021. Diante disso, o teste de Mann-Whitney testa as seguintes hipóteses: • H0: Soma dos postos do grupo 1 = Soma dos postos do Grupo 2; • H1: Soma dos postos do grupo 1 ≠ Soma dos postos do Grupo 2. 4 Vamos reforçar esta informação por meio do seguinte exemplo: em um estudo científico, buscamos verificar se existem diferenças no Índice de Massa Corporal (IMC) entre praticantes de musculação e praticantes de corrida. Verificamos que o IMC não apresentou distribuição normal, ou seja, a distribuição dos dados observados de IMC desviou significativamente da distribuição normal teórica sendo confirmada pelo teste de Kolmogorov-Smirnov. Por fim, teremos que utilizar a alternativa não-paramétrica para testarmos essas diferenças. Vamos, então, utilizar o software Bioestat® para testarmos essas hipóteses. Lembrando que o software Bioestat® pode ser baixado no link <https://www.mamiraua.org.br/downloads/programas/>. A forma de entrada dos dados está apresentada na videoaula. Figura 1 – Passo 1: Selecionando o teste estatístico Fonte: Teste de Mann-Whitney. 5 Figura 2 – Passo 2: Selecionando os grupos a serem comparados Fonte: Teste de Mann-Whitney. Figura 3 – Passo 3: Resultados Fonte: Teste de Mann-Whitney. Verificamos que o resultado do teste apresenta a soma dos postos para cada grupo (Amostra), a mediana dos valores e o valor p (bilateral) deste teste de hipóteses. Como o valor p foi maior do que 0,05, não temos evidências suficientes para rejeitarmos a hipótese nula do teste. Sendo assim, assumimos que há igualdade da soma dos postos entre os grupos de musculação e corrida e, consequentemente, há igualdade do IMC entre esses grupos. 6 TEMA 3 – TESTE DE WILCOXON PARA DOIS GRUPOS PAREADOS O teste de Wilcoxon é o equivalente não paramétrico ao teste t para amostras pareadas, ou seja, é utilizado para a comparação entre dois valores obtidos dos mesmos participantes (Barros et al., 2012; Lirani; Osiecki, 2020). O teste de Wilcoxon se baseia no ordenamento (postos) das diferenças médias entre a medida 1 – medida 2, levando em consideração o sinal (positivo ou negativo) desse valor. Diante disso, o teste verifica se a soma dos postos dos valores positivos difere da soma dos postos dos valores negativos, bem como se a mediana das diferenças se difere significativamente de zero. Mais especificamente, formulam-se as seguintes hipóteses para o teste de Wilcoxon: • H0: a mediana das diferenças entre as observações (medida 1 – medida 2) = 0 (zero); • H1: a mediana das diferenças entre as observações (medida 1 – medida 2) ≠ 0 (zero) (Barros et al., 2012). Vamos a um exemplo prático da utilização do teste de Wilcoxon: um determinado grupo de pessoas foi submetido a um programa de treinamento voltado a reduzir seu IMC. Utilizamos, então, o teste de Wilcoxon para verificar se os valores de IMC após o treinamento diferiram dos valores pré-treinamento. Vamos novamente ao software Bioestat® para testarmos essas hipóteses. Figura 4 – Passo 1: Seleção do teste estatístico Fonte: Teste de Mann-Whitney. 7 Figura 5 – Passo 2: Seleção das medidas pareadas Fonte: Teste de Mann-Whitney. Figura 6 – Passo 3: Resultado Fonte: Teste de Mann-Whitney. Verificamos que o valor de p (bilateral) apresenta valor maior do que 0,05, indicando que não temos evidência suficiente para rejeitarmos a hipótese nula do teste de Wilcoxon, de modo que assumimos que os valores de IMC não diferiram entre o pré e pós-treinamento. TEMA 4 – TESTE DE KRUSKAL-WALLIS O teste de Kruskal-Wallis é o equivalente não paramétrico para a ANOVA e tem o intuito de comparar três ou mais grupos independentes. 8 Basicamente, ele é uma extensão do teste de Mann-Whitney e leva em consideração a soma dos postos entre os grupos testando as seguintes hipóteses: • H0: A soma dos postos não difere entre os grupos; • H1: A soma dos postos difere entre ao menos dois grupos (Barros et al., 2012). Vamos a um exemplo prático da utilização do Kruskal-Wallis. Neste exemplo, temos o objetivo de verificar diferenças no IMC entre praticantes de três tipos de modalidades de atividade física (musculação, corrida e ginástica). Vamos, novamente, ao software Bioestat® para testarmos essas hipóteses. Figura 7 – Passo 1: Selecionando o teste estatístico Fonte: Teste de Kruskal-Wallis. Figura 8 – Passo 2: Selecionando as variáveis de IMC para cada grupo Fonte: Teste de Kruskal-Wallis. 9 Figura 9 – Passo 3: Resultado Fonte: Testede Kruskal-Wallis. Ao analisarmos o resultado do teste, identificamos que o valor do p está menor do que 0,05, indicando que temos evidência suficiente para rejeitar a hipótese nula. Ou seja, podemos indicar que existem diferenças no IMC entre as modalidades. Contudo, ainda não sabemos ao certo entre quais modalidades existem essas diferenças. Nesse caso, devemos avançar a análise de dados realizando as comparações múltiplas ou testes adicionais conhecidos como post hoc. Esses testes mostrarão entre quais grupos essas diferenças foram observadas. Veja, a seguir, o resultado dessas comparações utilizando-se do teste de Dunn. Figura 10 – Passo 4: Resultado das comparações múltiplas Fonte: Teste de Kruskal-Wallis. 10 Nesse exemplo, temos a modalidade musculação codificada como coluna 10, a Corrida como 11 e a Ginástica como 12. Vemos que o teste de Dunn identificou diferenças na soma dos postos somente entre a coluna 11 e 12 (p<0,05). Assim, verificamos os postos médios dessas colunas e podemos concluir que o IMC do grupo de Ginástica foi maior do que o do grupo de Corrida. TEMA 5 – TESTE DE FRIEDMAN O teste de Friedman é o equivalente não paramétrico da ANOVA para medidas repetidas (pareado), sendo utilizado para comparar três ou mais medidas obtidas dos mesmos participantes, baseando-se nos postos dos valores em cada medida observada (Field, 2011). Diante disso, o teste de Friedman testa as seguintes hipóteses: • H0: A soma dos postos não difere entre as medidas repetidas; • H1: A soma dos postos difere entre ao menos duas medidas repetidas (Field, 2011). Vamos a um exemplo prático da utilização do teste de Friedman. Retomemos o exemplo utilizado no teste de Wilcoxon, no qual um determinado grupo de pessoas foi submetida a um programa de treinamento voltado a reduzir seu IMC. No entanto, temos agora três medidas de IMC realizadas, sendo: pré-treinamento, seis meses depois (medida 2) e pós- treinamento. Utilizamos, então, o teste de Friedman para verificar se os valores de IMC deferiram entre as três medidas repetidas. Vamos novamente ao software Bioestat® para testarmos essas hipóteses. 11 Figura 11 – Passo 1: Selecionando o teste estatístico Fonte: Teste de Kruskal-Wallis. Figura 12 – Passo 2: Selecionando as três medidas repetidas Fonte: Teste de Kruskal-Wallis. 12 Figura 13 – Passo 3: Resultado Fonte: Teste de Kruskal-Wallis. Ao analisarmos o resultado do teste, identificamos que o valor do p está maior do que 0,05, indicando que não temos evidência suficiente para rejeitar a hipótese nula. Ou seja, não podemos indicar que existem diferenças no IMC entre as três medidas repetidas. NA PRÁTICA Os testes estatísticos paramétricos têm maior capacidade de identificar diferenças ou associações do que os testes não paramétricos. Sendo assim, quando os dados observados de uma variável desviaram significativamente da distribuição normal teórica, existe a possibilidade de se tentar normalizar a distribuição de determinada variável numérica por meio da utilização de transformações matemáticas desses valores observados. Isso pode auxiliar na normalização dos dados e na utilização de testes estatísticos mais robustos para testarmos nossas hipóteses. As transformações logarítmicas (Log10) são as mais comumente utilizadas e podem ser facilmente realizadas em softwares estatísticos e de planilha de dados. Veja, nas figuras a seguir, como podemos fazer isso utilizando o software Excel®. 13 Figura 14 – Passo 1: Inserindo a fórmula LOG10 Neste caso, estamos transformando a variável IMC em uma nova variável numérica denominada LogIMC por meio da utilização da fórmula LOG10. Figura 15 – Passo 2: Inserindo a fórmula para todos os valores observados Pronto: a variável IMC foi transformada em logaritmo de base 10 (log10). O próximo passo é testar a normalidade da variável logIMC para verificar se conseguimos normalizar a variável com essa transformação matemática. 14 FINALIZANDO Nesta aula, aprendemos que o fato de termos dados não paramétricos não limita a testagem de hipóteses ou as respostas a nossas perguntas de pesquisa. Para cada teste paramétrico aprendido anteriormente, temos um equivalente não paramétrico que executa função similar. No entanto, as interpretações das hipóteses dos resultados dos testes não paramétricos têm pequenas diferenças das interpretações dos testes paramétricos. 15 REFERÊNCIAS BARROS, M. V. G. et al. Análise de dados em Saúde. 3. ed. Londrina-PR: Midiograf, 2012. FIELD, A. Descobrindo a Estatística Usando o SPSS. Porto Alegre: ARTMED, 2011. LIRANI, L. S.; OSIECKI, A. C. V. Bioestatística. Curitiba: Intersaberes, 2020.