Baixe o app para aproveitar ainda mais
Prévia do material em texto
Teste de Mann-Whitney Luisa Zanolli Moreno Médica veterinária, mestranda do curso de pós-graduação em saúde pública da Faculdade de Saúde Pública da Universidade de São Paulo André Moreno Morcillo Professor Associado do Departamento de Pediatria da Faculdade de Ciências Médicas da Universidade Estadual de Campinas Pesquisador do CIPED – Centro de Investigação em Pediatria da Universidade Estadual de Campinas Teste de Mann-Whitney Campinas – São Paulo – Brasil [Dezembro de 2012] 1 O método recomendado para comparar as médias de dois grupos independentes é o teste t de Student. No entanto, muitas vezes a variável de trabalho não tem distribuição normal ou é qualitativa do tipo ordinal, casos em que não se deve usar o teste t de Student. Uma alternativa muito útil para resolver estas situações é o teste de Mann- Whitney1, cuja exigência é de que a variável de estudo seja quantitativa ou qualitativa do tipo ordinal. Uma situação real Coelho et al. (2005)2 realizaram uma pesquisa com o objetivo de analisar o perfil lipídico de estudantes do Curso de Medicina da Faculdade de Medicina de São José do Rio Preto, SP-FAMERP (N=380), e verificar sua relação com os fatores de risco para doenças cardiovasculares. A Tabela II, apresentada a seguir, contém os dados referentes ao perfil lipídico. Os autores usaram o teste de Mann-Whitney para comparar os valores do perfil lipídico em relação ao sexo. 1 Mann HB, Whitney DR. On a test of whether one of two randon variables is stochastically larger than the other. Ann Math Statist. 1947; 18: 50-60. 2 Coelho VG, Caetano LF, Liberatore Júnior RDR, Cordeiro JA, Souza DRS. Perfil lipídico e fatores de risco para doenças cardiovasculares em estudantes de medicina. Arq Bras Cardiol. 2005; 85(1):57-62. 2 Mann-Whitney é um teste que avalia a distribuição de “postos” ou “ranks”. Quando o utilizamos para comparar dois grupos, não comparamos suas médias ou medianas, na verdade comparamos as distribuições dos ranks dos grupos. A questão dos “postos” ou “ranks” Quando temos uma sequência de números tal como a representada pelos valores 44, 12, 250, 23, 100 e 54, nós podemos colocá-los numa ordem de importância crescente: 12, 23, 44, 54, 100 e 250. O menor dos números ocupa a primeira posição da série (1ª), os números 100 e 250, por serem os maiores, ocupam as duas últimas posições (5ª e 6ª). Se usarmos a posição de cada número na série ordenada como uma “nota”, “posto” ou “rank”, teremos uma série bem mais simples3, com os números 1, 2, 3, 4, 5 e 6. O primeiro elemento da série ordenada recebeu rank 1, o segundo recebeu rank 2, o terceiro recebeu rank 3, e assim por diante. No teste de Mann-Whitney comparamos os ranks de cada grupo. O grupo que tem maiores valores da variável terá os ranks mais altos! Vejamos um exemplo! Desejando comparar as idades (anos) de jogadores de futebol de dois centros de treinamento, um pesquisador (A) visitou um centro e colheu os dados na parte da manhã, período em que a escola é frequentada por crianças, enquanto o pesquisador (B) visitou o outro centro no período noturno, quando há predominância de adultos. Os resultados são apresentados a seguir. Pesquisador A: 7, 8, 9, 10, 11, 12 Pesquisador B: 29, 33, 34, 35, 36 Fica muito claro que os dados do pesquisador (B) apontam que a idade dos frequentadores do centro visitado por ele é maior que a do outro centro. Agora, vamos transformar estas idades em ranks e comparar os ranks dos centros. 3 Trata-se de uma progressão aritmética com a1=1, an=N e razão 1 3 Inicialmente reunimos todas as idades num único grupo e, a seguir, fazemos a ordenação das idades e a atribuição dos ranks. Posição 1ª 2ª 3ª 4ª 5ª 6ª 7ª 8ª 9ª 10ª 11ª Idades 7 8 9 10 11 12 29 33 34 35 36 Ranks 1 2 3 4 5 6 7 8 9 10 11 Observe que a menor idade (7 anos) ocupa a primeira posição da série ordenada e, consequentemente, o seu rank é 1; oito anos ocupa a segunda posição e recebeu rank 2; a idade 11 anos ocupa a última posição da série e seu rank é 11. Como os ranks dos sujeitos do pesquisador (A) estão em vermelho e os do pesquisador (B) estão em azul, fica fácil notar que as idades em azul, por serem maiores que as idades em vermelho, receberam ranks maiores. A soma dos ranks vermelhos é 21 enquanto a dos ranks azuis é 45! Vejamos um outro exemplo! Desejando avaliar o resultado do sorteio de números aleatórios obtidos a partir de duas calculadoras de marcas diferentes, obtivemos os resultados apresentados abaixo. Calculadora A: 24, 61, 67, 52, 96 Calculadora B: 86, 80, 49, 38, 81 Tal como no exemplo anterior reunimos todos os números sorteados formando um único grupo e a seguir fazemos a ordenação. Grupo não ordenado: 24, 61, 67, 52, 96, 86, 80, 49, 38, 81 Grupo ordenado: 24, 38, 49, 52, 61, 67, 80, 81, 86, 96 A seguir, atribuímos os ranks Posição 1ª 2ª 3ª 4ª 5ª 6ª 7ª 8ª 9ª 10ª Valor 24 38 49 52 61 67 80 81 86 96 Ranks 1 2 3 4 5 6 7 8 9 10 4 Os ranks em vermelho são referentes aos resultados obtidos com a calculadora A e os ranks em azul com a calculadora B. Não é tão fácil avaliar qual calculadora gerou números aleatórios maiores. A soma dos ranks vermelhos é 16 enquanto a soma dos azuis é 29. Neste caso a diferença entre as somas dos ranks (13 pontos) é bem menor que a observada no exemplo anterior que era de 24 pontos. Mais detalhes sobre a atribuição de ranks Uma situação especial ocorre quando há observações com valores iguais (repetição de valores). Neste caso devemos fazer uma modificação na forma de atribuir os ranks aos valores repetidos. Fizemos uma pequena modificação nos dados do primeiro exemplo, levando à repetição de algumas idades. Pesquisador A: 7, 8, 8, 10, 11, 12 Pesquisador B: 29, 33, 34, 34, 36 Posição 1ª 2ª 3ª 4ª 5ª 6ª 7ª 8ª 9ª 10ª 11ª Idades 7 8 8 10 11 12 29 33 34 34 36 Ranks 1 4 5 6 7 8 11 Observe que ocupando a segunda e a terceira posição temos dois valores iguais (8 anos). O mesmo ocorre na 9ª e na 10ª posições (34 anos). Como atribuir ranks a esses valores? Fácil! A idade 8 anos que ocupa a 2ª posição receberia rank 2 e a idade 8 que ocupa a 3ª posição receberia rank 3. Como são valores iguais é justo que ambas recebam o mesmo rank. Para tal, calculamos a média dos ranks envolvidos e cada uma receberá um rank final igual ao valor da média. Assim, no caso da idade igual a oito anos temos ranks 2 e 3. Como a média é 2,5, cada idade igual a oito anos receberá rank 2,5. 5 Com relação às idades 34 anos, elas ocupam as posições 9ª e 10ª, sendo que a média dos ranks é 9,5. Cada idade igual a 34 anos receberá rank 9,5. Veja a distribuição completa dos ranks na tabela abaixo. Posição 1ª 2ª 3ª 4ª 5ª 6ª 7ª 8ª 9ª 10ª 11ª Idades 7 8 8 10 11 12 29 33 34 34 36 Ranks 1 2,5 2,5 4 5 6 7 8 9,5 9,5 11 Outro exemplo: num conjunto de 4.500 observações de alturas temos empatados os elementos 278º, 279º, 280º e 281º com o valor 145 cm; os elementos 376º, 377º, 378º com 147,5 cm. Os ranks das alturas iguais a 145 cm é (278+279+280+281)/4=279,5 e os ranks das altura iguais a 147,5 cm é (376+377+378)/3=377 Posição ... 278º 279º 280º 281º ... 376º 377º 378º ... Alturas... 145,0 145,0 145,0 145,0 ... 147,5 147,5 147,5 ... Rank ... 279,5 279,5 279,5 279,5 ... 377 377 377 ... Como executar o teste de Mann-Whitney O teste de Mann-Whitney nada mais é que uma maneira lógica de comparação da distribuição dos ranks dos dois grupos estudados. Para a realização do teste as observações originais das duas amostras independentes são reunidas em um único grupo, sendo o conjunto ordenado e transformado em ranks, que serão utilizados para calcular a estatística U. 6 Usaremos a seguinte terminologia: n1 - número de casos da menor amostra n2 - número de casos da maior amostra N - total de casos das duas amostras R1 - soma dos ranks da amostra com menor número de casos (n1) R2 - soma dos ranks da amostra com maior número de casos (n2) Inicialmente calculamos duas estatísticas chamadas de U1 e U2 a partir de R1 e de R2 pelas fórmulas abaixo. A menor delas receberá o nome de estatística U. ( ) R12 1n1.n1 n2.n11 − + +=U ( ) R22 1n2.n2 n2.n12 − + +=U Teste de Hipóteses Bilateral H0 : as duas amostras apresentam a mesma distribuição de ranks H1 : as duas amostras apresentam distribuições diferentes de ranks Uma vez determinado o valor de U (o menor dos valores entre U1 e U2), recorremos à tabela bilateral de U considerando α=0,05, procurando localizar o valor crítico de U. Nesta tabela o valor crítico de U está no cruzamento da coluna igual ao tamanho do grupo menor (n1) e da linha referente ao tamanho do grupo maior (n2). Esta tabela é apresentada no final do texto. Se o valor de U calculado for menor ou igual ao valor de U crítico rejeitamos H0. Se U > Ucrítico não rejeitamos H0 Se U ≤ Ucrítico rejeitamos H0 7 Retomando o primeiro exemplo, apresentamos as idades obtidas nos dois grupos. Avaliar se há diferença entre as idades dos dois grupos, considerando α=5%. Pesquisador A: 7, 8, 9, 10, 11, 12 Pesquisador B: 29, 33, 34, 35, 36 Definindo as hipóteses de trabalho: H0: os grupos têm distribuições iguais H1: os grupos têm distribuições diferentes Inicialmente reunimos todas as idades num único grupo. A seguir, fazemos a ordenação das idades e a atribuição dos ranks. Posição 1ª 2ª 3ª 4ª 5ª 6ª 7ª 8ª 9ª 10ª 11ª Idades 7 8 9 10 11 12 29 33 34 35 36 Ranks 1 2 3 4 5 6 7 8 9 10 11 O menor grupo tem 5 casos (n1=5) e o outro tem 6 casos (n2=6). A soma dos ranks do grupo menor é 45 (R1=45) e a soma dos ranks do grupo maior é 21 (R2=21). Agora podemos calcular U1 e U2. U1 = 5 x 6 + [(5 x 6)/2] - 45 = 0 U2 = 5 x 6 + [(6 x 7)/2] - 21 = 30 Portanto, U é igual a zero. Podemos verificar na tabela de distribuição de U que o valor de U crítico para n1=5 e n2=6 é 3. Valor demarcado pelo retângulo vermelho na figura seguinte. N2 1 2 3 4 5 6 7 2 - - 3 - - - 4 - - - 0 5 - - 0 1 2 6 - - 1 2 3 5 7 - - 1 3 5 6 8 8 - 0 2 4 6 8 10 9 - 0 2 4 7 10 12 N2 1 2 3 4 5 6 7 2 - - 3 - - - 4 - - - 0 5 - - 0 1 2 6 - - 1 2 3 5 7 - - 1 3 5 6 8 8 - 0 2 4 6 8 10 9 - 0 2 4 7 10 12 N1 N2 1 2 3 4 5 6 7 2 - - 3 - - - 4 - - - 0 5 - - 0 1 2 6 - - 1 2 3 5 7 - - 1 3 5 6 8 8 - 0 2 4 6 8 10 9 - 0 2 4 7 10 12 N2 1 2 3 4 5 6 7 2 - - 3 - - - 4 - - - 0 5 - - 0 1 2 6 - - 1 2 3 5 7 - - 1 3 5 6 8 8 - 0 2 4 6 8 10 9 - 0 2 4 7 10 12 N1 8 Como U < Ucrítico, podemos rejeitar H0, concluindo que a diferença observada nas idades dos grupos é estatisticamente significante. Retomando o exemplo dos números aleatórios temos: Calculadora A: 24, 61, 67, 52, 96 Calculadora B: 86, 80, 49, 38, 81 Definindo as hipóteses de trabalho: H0: os grupos têm distribuições iguais H1: os grupos têm distribuições diferentes Tal como no exemplo anterior, reunimos todos os números formando um único grupo, fazemos a ordenação dos dados e, a seguir, atribuímos os ranks. Posição 1ª 2ª 3ª 4ª 5ª 6ª 7ª 8ª 9ª 10ª Valor 24 38 49 52 61 67 80 81 86 96 Ranks 1 2 3 4 5 6 7 8 9 10 Os ranks em vermelho são referentes aos resultados obtidos com a calculadora A e os ranks em azul com a calculadora B. Neste caso os dois grupos têm o mesmo número de casos, portanto n1=5 e n2=5. Como n1 é igual a n2, arbitrariamente eu escolho a soma dos ranks vermelhos como R1 (R1=16) enquanto a soma dos azuis será R2 (R2=29). A seguir, calculamos U1 e U2. U1 = 5 x 5 + [(5 x 6)/2] - 16 = 24 U2 = 5 x 5 + [(5 x 6)/2] - 29 = 11 9 Portanto, U é igual a 11. Podemos verificar na tabela de distribuição de U que o valor de U crítico para n1=5 e n2=5 é 2. Como U > U crítico não podemos rejeitar H0, concluindo que a diferença observada na distribuição dos números aleatórios dos dois grupos não é estatisticamente significante. N1 N2 1 2 3 4 5 6 7 2 - - 3 - - - 4 - - - 0 5 - - 0 1 2 6 - - 1 2 3 5 7 - - 1 3 5 6 8 8 - 0 2 4 6 8 10 9 - 0 2 4 7 10 12 N2 1 2 3 4 5 6 7 2 - - 3 - - - 4 - - - 0 5 - - 0 1 2 6 - - 1 2 3 5 7 - - 1 3 5 6 8 8 - 0 2 4 6 8 10 9 - 0 2 4 7 10 12 N1 N2 1 2 3 4 5 6 7 2 - - 3 - - - 4 - - - 0 5 - - 0 1 2 6 - - 1 2 3 5 7 - - 1 3 5 6 8 8 - 0 2 4 6 8 10 9 - 0 2 4 7 10 12 N2 1 2 3 4 5 6 7 2 - - 3 - - - 4 - - - 0 5 - - 0 1 2 6 - - 1 2 3 5 7 - - 1 3 5 6 8 8 - 0 2 4 6 8 10 9 - 0 2 4 7 10 12 � Uma situação especial – grupos com grande número de casos Quando n1>20 ou n2>40 não temos os valores de U crítico! Nestas condições, grandes grupos, verificou-se que U tem distribuição normal. Assim, U deve ser transformado em z escore e sua probabilidade de ocorrência verificada na tabela de z (Curva Normal Reduzida). Para calcularmos o z escore de U, precisamos da média e do desvio padrão de U, pois: σ µ U U U U z − = 1) Determinando a média de U (µU) 2 nn µ 21 U × = 10 2) Determinando o desvio padrão de U (σU) ( ) ( )( ) + × × = 12 C-1N.1-NN. 1)-NN. nn σ 21 U Onde: C : correção decorrente de valores empatados nnN 21 += ∑= CC i ffCi −= 3 f : número de elementos empatados dentro de um grupo de valores. Uma vez determinado o valor de zU , desenhamos uma curva normal reduzida e marcamos as áreas de rejeição de H0 de um teste bilateral com α=5%, que correspondem aos valores de z maiores que +1,96 na cauda direita e dos valores de z menores que -1,96 na cauda esquerda, tal como é apresentado na figura seguinte. Sempre que 96,1−≤zU ou 96,1+≥zU rejeitamos H0, concluindo que os grupos têm distribuições diferentes. De uma maneira mais simples, podemos dizer que os grupos são diferentes! Considerando que o fator de correção “C” é um pouco confuso, a seguir apresentamos um exemplo do cálculo de “C”. 11 Por exemplo, dentro de um conjunto de dados observaram-se empates tal como é apresentado abaixo: ... 100, 100, 100, ... , 120, 120, ... , 150, 150, 150, 150, 150, ... O primeiro grupo com empates tem três elementos [100, 100, 100], portanto, a frequência (f) de valores 100 é 3 (f=3). Calculamos o fator de correção decorrente destes empates da seguinte forma: 243333)100( =−=−= ffC O segundo grupo com empatestem dois elementos [120,120], portanto, f=2. O fator de correção decorrente destes empates é: 62233)120( =−=−= ffC O terceiro grupo com empates tem cinco elementos [150,150,150,150,150], portanto, f=5, e seu fator de correção é: 1205533)150( =−=−= ffC A seguir, somamos os valores de correção dos grupos de empates (Ci) e obtemos o fator de correção total (C). CCCCC i )150()120()100( ++==∑ 150120624 =++=C Este valor (C=150) será usado na fórmula do σU . Outro exemplo! Comparando-se dados de altura de dois grupos em relação ao sexo, encontramos empates que proporcionam C = 150, com n1=120 (número de meninos), n2=150 (número de meninas), U = 9538. n1 = 120 n2 = 150 N = 270 U = 9538 C = 150 12 Definindo as hipóteses de trabalho: H0: os grupos têm distribuições iguais H1: os grupos têm distribuições diferentes Definindo o nível de significância: α=0,05 ou 5% Cálculo da média de U: 90002 150120 2 21 = × = × = nn Uµ Cálculo do desvio padrão de U: 637,612 150-271269702 269270 150120 = ×× × × × =σU Cálculo do zU: σ µ U U U U z − = ⇒ 84,06,637 90009538 = − =zU Desenhamos a curva normal reduzida com as áreas de rejeição. Observe que z=0,84 está fora das caudas de rejeição (áreas amarelas), caindo na área de não rejeição de H0! Portanto, com esse valor de U, H0 não pode ser rejeitado, concluindo-se que os grupos têm distribuições iguais! 13 Bibliografia Bunchaft G – Estatística sem mistérios. 4ª ed. Petrópolis, RJ: Vozes, 1997. Callegari-Jacques SM – Bioestatística: princípios e aplicações. 1ª ed. Porto Alegre: Artmed, 2003. Campos H – Estatística experimental não-paramétrica. 3ª ed. Piracicaba. Departamento de Matemática e Estatística da Escola Superior de Agricultura “Luiz de Queiroz” da Universiade de São Paulo, 1979. Daniel WW – Biostatistics – A foundation for analysis in the health sciences. 6th ed., New York: John Wiley & Sons, Inc., 1995. Levin J – Estatística aplicada às Ciências Humanas. São Paulo: Harper & Row do Brasil, 1987. Siegel S – Estatística não-paramétrica. Rio de Janeiro: Editora McGraw-Hill, 1975. Vieira S – Bioestatística: tópicos avançados. Rio de Janeiro: Editora Campus, 2003. Zar JH – Biostatistical analysis. 2nd ed. Englewood Cliffs: Prentice-Hall Inc., 1984. 14 O teste de Mann-Whitney no SPSS O SPSS sempre realiza o teste de Mann-Whitney calculando o z escore de U e obtendo a probabilidade bilateral pela Distribuição Normal. � Na barra do Menu click em <Statistics> ⇒ <Nonparametric Testes> ⇒ <2 Independent Samples ...>. � Selecione a variável de estudo e a leve para a janela <Test Variable List>. � Selecione a variável que representa os grupos, levando-a para a janela <Grouping Variables >. � Click em <Define Groups> para informar os códigos dos grupos de estudo. � Click em <Continue> e, a seguir, em <OK>. 15 � Abaixo apresentamos um típico output do teste de Mann-Whitney NPar Tests Mann-Whitney Test 253 187,95 47550,50 73 78,77 5750,50 326 ORIGIN country of origin 1 American 2 European Total WEIGHT vehicle weight (lbs.) N Mean Rank Sum of Ranks Ranks 3049,500 5750,500 -8,718 ,000 Mann-Whitney U Wilcoxon W Z Asymp. Sig. (2-tailed) WEIGHT vehicle weight (lbs.) Test Statisticsa Grouping Variable: ORIGIN country of origin a. Na tabela “Ranks” encontramos o número de casos e as somas dos ranks de cada grupo (47550,50 para o grupo 1 e 5750,50 para o grupo 2). Na tabela “Test Statisticsa” o valor de U (3049,500), o valor do z escore de U (-8,718) e o valor de p (0,000). 16 Distribuição de U do teste de Mann-Whitney (Bilateral ao nível de 5%) N1 N2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 2 - - 3 - - - 4 - - - 0 5 - - 0 1 2 6 - - 1 2 3 5 7 - - 1 3 5 6 8 8 - 0 2 4 6 8 10 13 9 - 0 2 4 7 10 12 15 17 10 - 0 3 5 8 11 14 17 20 23 11 - 0 3 6 9 13 16 19 23 26 30 12 - 1 4 7 11 14 18 22 26 29 33 37 13 - 1 4 8 12 16 20 24 28 33 37 41 45 14 - 1 5 9 13 17 22 26 31 36 40 45 50 55 15 - 1 5 10 14 19 24 29 34 39 44 49 54 59 64 16 - 1 6 11 15 21 26 31 37 42 47 53 59 64 70 75 17 - 2 6 11 17 22 28 34 39 45 51 57 63 69 75 81 87 18 - 2 7 12 18 24 30 36 42 48 55 61 67 74 80 86 93 99 19 - 2 7 13 19 25 32 38 45 52 58 65 72 78 85 92 99 106 113 20 - 2 8 14 20 27 34 41 48 55 62 69 76 83 90 98 105 112 119 127 21 - 3 8 15 22 29 36 43 50 58 65 73 80 88 96 103 111 119 126 134 22 - 3 9 16 23 30 38 45 53 61 69 77 85 93 101 109 117 125 133 141 23 - 3 9 17 24 32 40 48 56 64 73 81 89 98 106 115 123 132 140 149 24 - 3 10 17 25 33 42 50 59 67 76 85 94 102 111 120 129 138 147 156 25 - 3 10 18 27 35 44 53 62 71 80 89 98 107 117 126 135 145 154 163 26 - 4 11 19 28 37 46 55 64 74 83 93 102 112 122 132 141 151 161 171 27 - 4 11 20 29 38 48 57 67 77 87 97 107 117 127 137 147 158 168 178 28 - 4 12 21 30 40 50 60 70 80 90 101 111 122 132 143 154 164 175 186 29 - 4 13 22 32 42 52 62 73 83 94 105 116 127 138 149 160 171 182 193 30 - 5 13 23 33 43 54 65 76 87 98 109 120 131 143 154 166 177 189 200 31 - 5 14 24 34 45 56 67 78 90 101 113 125 136 148 160 172 184 196 208 32 - 5 14 24 35 46 58 69 81 93 105 117 129 141 153 166 178 190 203 215 33 - 5 15 25 37 48 60 72 84 96 108 121 133 146 159 171 184 197 210 222 34 - 5 15 26 38 50 62 74 87 99 112 125 138 151 164 177 190 203 217 230 35 - 6 16 27 39 51 64 77 89 103 116 129 142 156 169 183 196 210 224 237 36 - 6 16 28 40 53 66 79 92 106 119 133 147 161 174 188 202 216 231 245 37 - 6 17 29 41 55 68 81 95 109 123 137 151 165 180 194 209 223 238 252 38 - 6 17 30 43 56 70 84 98 112 127 141 156 170 185 200 215 230 245 259 39 0 7 18 31 44 58 72 86 101 115 130 145 160 175 190 206 321 236 252 267 40 0 7 18 31 45 59 74 89 103 119 134 149 165 180 196 211 227 243 258 274
Compartilhar