Baixe o app para aproveitar ainda mais
Prévia do material em texto
Testes não paramétricos ATENÇÃO: Este material serve apenas como apoio as aulas e não deve ser tomado como suficiente para o estudo. Sugere-se complementar o assunto com o livro indicado. Sumário • Teste do Sinal: o Uma amostra; o Duas mostras pareadas; • Teste de Postos Sinalizados de Wilcoxon: o Uma amostra; o Duas mostras pareadas • Teste da Soma dos Postos de Wilcoxon; Sumário prof. Aguinaldo 2 Introdução Os testes paramétricos que vimos (teste z, teste t, teste da variância) são testes que fazem suposições à respeito da forma da distribuição da população e de seus parâmetros. Para o uso destes testes, são necessárias algumas exigências: Os dados devem ser numéricos (quantitativos); Os dados devem seguir uma distribuição em específico, sendo a distribuição normal a mais comum; Os parâmetros (como a variância) da distribuição devem ser conhecidos Introdução prof. Aguinaldo 3 Introdução Os testes não-paramétricos, por sua vez, fazem menos exigências em relação a forma de distribuição dos dados na população, por isto são chamados de testes livres da distribuição (distribution-free tests). não exigem uma distribuição normal dos dados e nem se baseiam em seus parâmetros, por exemplo, não exigem variâncias conhecidas e/ou iguais mp caso de duas amostras; Introdução prof. Aguinaldo 4 Introdução Testes não paramétricos Vantagens Desvantagens Pode ser usada quando os dados não seguem a distribuição normal Trabalha com a mediana (em vez da média), que é uma medida não muito fácil de explicar para um leigo Pode ser usado em dados não numéricos Mais fácil a realização, quando a amostra é pequena Para amostras maiores, o cálculo à mão é trabalhoso. Neste caso, aconselha-se o uso da aproximação normal Por usar os postos e/ou sinais, são menos sensíveis aos erros de medida Por usar os postos e/ou sinais, tendem a perder informação É mais eficientes que o teste paramétrico correspondente, se a população não seguir a distribuição normal É menos eficientes que os testes paramétricos correspondente, se a população seguir a distribuição normal Introdução prof. Aguinaldo 5 Teste para uma amostra Teste do Sinal Introdução O teste do sinal (sign test) é usado para testar a hipótese sobre a mediana de uma população Razões para usar a mediana: • A mediana é menos influenciada por valores extremos; • Ela exige apenas ordenação dos valores, podendo ser também usado com dados ordinais; • Em distribuições simétricas, a mediana e a média de uma população são iguais. Teste de sinal prof. Aguinaldo 8 Introdução O teste do sinal é bem simples, pois envolve apenas em colocar diante de cada valor o sinal “+” ou “-”, se o valor for maior ou menor que a mediana testada, ou “zero”, caso contrário. 850 ; 740 ; 820 ; 775 ; 920 ; 880 ; 750 ; 688 ; 890 ; 745 ; 980 ; 850 Veja a situação abaixo. Estes dados vieram de uma população com mediana M = 800? Se de fato, a mediana for mesmo 800, esperaríamos aproximadamente metade (50%) de sinais “+” (S+) e sinais “-” (S-). Teste de sinal prof. Aguinaldo 9 Introdução Os dados abaixo vieram de uma população com mediana de 800? + − + − + + − − + − + + (1) S+ = 7 S- = 5 850 ; 740 ; 820 ; 775 ; 920 ; 880 ; 750 ; 688 ; 890 ; 745 ; 980 ; 850 (3) S+ = 2 S- = 10 750 ; 840 ; 720 ; 775 ; 720 ; 780 ; 850 ; 788 ; 790 ; 745 ; 780 ; 750 + − + + + + + + + + � + − + − − − − + − − − − − (2) S+ = 11 S- = 1 850 ; 740 ; 820 ; 875 ; 920 ; 880 ; 850 ; 988 ; 990 ; 845 ; 800 ; 850 Teste de sinal prof. Aguinaldo 10 O sinal “+” representa valores acima da mediana testada, “–” abaixo e “0” igual. Pelo vista acima, em (1) é provável que tenha vindo de população com mediana igual a 500, enquanto que em (2) parece que a mediana é maior que 800, enquanto que em (3) parece que é menor. Introdução Lembre-se da definição da mediana: É o valor que deixa 50% acima e 50% abaixo dele. Para dados contínuos, temos P X ≤ mediana = 0,50 = P � ≥ ������� Portanto, se os valores �� e S�forem bem diferentes entre si, seria uma evidência de que a mediana não é igual a 800 (podendo ser maior ou menor). Por outro lado, caso as quantidades S�e S� sejam próximos, seria uma evidência de que a mediana seja igual a 800. Teste de sinal prof. Aguinaldo 11 Hipóteses a serem testadas Teste unicaudal à esquerda H0: mediana >= M0 vs H1: mediana < M0 Teste unicaudal à direita H0: mediana <= M0 vs H1: mediana > M0 Teste bicaudal H0: mediana = M0 vs H1: mediana ≠ M0 Onde M0 é o valor hipotético da mediana na população Teste do sinal prof. Aguinaldo 12 Etapas do teste de sinal 1) Formule as hipóteses H0 e H1 ; 2) Identifique o nível de significância do teste (α); 3) Calcule a estatística de teste (ET); 4) Usar um critério de decisão; 5) Conclusão dentro do contexto do problema O procedimento de teste de hipótese ao usar o teste do Sinal é o mesmo usado nos testes paramétricos. Teste de sinal prof. Aguinaldo 13 Cálculo da estatística de teste Para calcular a estatística de teste no teste do sinal, devemos: • Colocar sinal “+”, se o valor for maior que a mediana hipotética M, sinal “-”, se for menor e “zero” se for igual; • Calcular S+ = “quantidade de +” e S- = “quantidade de –”; • Calcular o tamanho da amostra � = S� + S�, portando ZEROS são excluídos. • Calcule a estatística de teste � = ����� (S�; S�) Veja os exemplos abaixo: + – + + + – – + + + S+ = 7 , S– = 3, S = 3 e n = 7 + 3 = 10 + – – – 0 – – – + 0 S+ = 2, S– = 6, S = 2 e n = 2 + 6 = 8 Teste de sinal prof. Aguinaldo 14 Critério de decisão Para n ≤≤≤≤ 30 Rejeita H0, se S ≤ +VT, onde VT é o valor crítico (tabelado) obtido da tabela própria do teste. Para n > 30, use a aproximação normal # = � + 0,5 − 0,5� 0,5 � Rejeita H0, se Z ≤ -VC, onde VC é o valor crítico obtido da tabela Z Rejeita H0, se pvalor ≤ αααα; OBS: As regiões críticas (S ≤ +V ou Z ≤ -VC ) serão sempre estas para este teste, independente do tipo de teste (bicaudal, unicaudal esquerdo ou direito) Teste de sinal prof. Aguinaldo 15 Modelo binomial Supondo que a hipótese nula H0: mediana = M0 é verdadeira, então temos probabilidade P(X ≥ S+) = P(X ≤ S-) = 0,50. Desta forma, podemos dizer que o número de sinais + (S+) e negativo (S-) seguem a distribuição Binomial com parâmetros n e p = 0,5. $ % = �! %! � − % ! '( 1 − ' *�( , ���� % = 0, 1,2 … , � Onde x = “quantidade de sinais + (ou -)” Teste de sinal prof. Aguinaldo 16 O teste do Sinal tem uma relação forte com o modelo Binomial. Região crítica usando a Binomial Então, a distribuição binomial pode ser usada para obter os valores críticos VT e o pvalor do teste. Como o valor VT é obtido usando a Binomial? Se temos uma distribuição binomial com n = 12 e p = 0,50 (gráfico a seguir), qual seria o maior valor x de modo que a soma das probabilidades dos valores iguais ou abaixo dele não ultrapasse, por exemplo, o nível de significância de 5%? Teste de sinal prof. Aguinaldo 17 Modelo binomial: n = 12 e p = 0,5 Teste de sinal prof. Aguinaldo 18 Região crítica usando a Binomial RESPOSTA: X = 2 Veja, pelo gráfico, que teríamos uma soma de 1,92% se x = 2, enquanto que para x = 3, a soma seria 7,29% (maior que os 5%). Então, como não pode ultrapassar os 5%, ficamos com o valor 2. Então, VT = 2 para n = 12 e α = 5%. Teste de sinal prof. Aguinaldo 19 pvalor usando a Binomial Como o pvalor é obtido usando a binomial? Se S+ = 8, S- = 4 e n = 12 no teste do Sinal, a estatística de teste será S = 4. Neste caso, o pvalor será a soma das probabilidades dos valores menores ou iguais a estatística de teste 4, ou seja, P X ≤ 4 : = 12 0 0.5/0.501 + ⋯ + 12 4 0.530.54 = 0,0161 + ... + 0,1209 = 0,1938 ou 19,38% Repareque esta probabilidade é igual ao pvalor considerando o maior valor entre S+ e S-, ou seja, será igual a P(X ≥ 8). Teste de sinal prof. Aguinaldo 20 Exemplo 1 O gerente de um banco afirma que o número mediano de clientes é igual a 800 clientes/dia. Uma amostra de clientes para 12 dias selecionados ao caso está listado abaixo. Usando o teste do Sinal com α = 5%, há evidência para rejeitar a afirmação do gerente? 880 ; 740 ; 850 ; 775 ; 920 ; 800 ; 750 ; 788 ; 790 ; 745 ; 980 ; 750 Se o número de clientes seguisse a distribuição normal, poderíamos usar o teste T para o problema acima, já que média e mediana em uma normal são iguais. Mas como não sabemos disto e, para complicar anda mais, a amostra é pequena o uso de um teste não paramétrico é indicado. Aqui vamos usar o teste do Sinal para mediana. Teste de sinal prof. Aguinaldo 21 Exemplo 2 O gerente de um banco afirma que o número mediano de clientes é maior que 800 clientes/dia. Uma amostra de clientes para trinta dias selecionados ao caso mostrou os resultados abaixo: abaixo de 800 igual a 800 acima de 800 8 3 19 Usando o teste do Sinal com α = 10%, os dados mostram evidências para apoiar a afirmação do gerente? Teste de sinal prof. Aguinaldo 22 Exemplo 3 Um pesquisador afirma que a idade mediana das noivas na época do seu primeiro casamento é maior que 25 anos. Em uma amostra aleatória de 65 noivas, tivemos 22 que casaram pela primeira vez com menos de 25 anos, 8 casaram com 25 anos e restante casaram com mais de 25 anos. Usando o teste do Sinal com α = 10%, os dados mostram evidências para apoiar a afirmação do pesquisador? Note que queremos fazer um teste para a mediana e não sabemos nem quem são os valores (só sabemos quantos valores estão acima/abaixo de 25). Uma saída é usar o teste do Sinal para mediana. Teste de sinal prof. Aguinaldo 23 Teste de Postos Sinalizados de Wilcoxon Teste de Posto Sinalizado de Wilcoxon Teste de posto Sinalizado de Wilcoxon prof. Aguinaldo 25 • O teste de Postos Sinalizados de Wilcoxon (Wilcoxon signed rank) trata-se de uma extensão do teste dos Sinais. • Este teste leva em consideração a magnitude das diferenças e não apenas o sinal com é feito no teste do Sinal, o que o torna mais poderoso; • Este teste exige que os dados sejam medidos em escala ordinal ou numérica. Teste de Posto Sinalizado de Wilcoxon O teste do Sinal não considera a magnitude das diferenças, somente se ele é maior ou menor. Nos dois casos abaixo temos as mesmas configurações de sinais + e -, ao testar se a mediana é igual a 80, mas o 2º caso mostra maior evidência contra o valor testado. CASO 1: 32 21 30 38 32 26 33 31 +2 -9 0 +8 +2 -4 +3 +1 CASO 2: 82 21 30 90 82 26 85 88 +52 -9 0 +60 +52 -4 +55 +88 Teste de posto Sinalizado de Wilcoxon prof. Aguinaldo 26 Teste de Posto Sinalizado de Wilcoxon Teste de posto Sinalizado de Wilcoxon prof. Aguinaldo 27 As hipóteses a serem testadas ão: Testar a mediana de uma população H0: mediana = M0 H1: mediana ≠ M0 (< ou >) SUPOSIÇÃO: Temos uma amostra aleatória retirada de uma população simétrica contínua com dados na escala no mínimo ordinal Etapas do teste 1) Formule as hipóteses H0 e H1 ; 2) Identifique o nível de significância do teste (α); 3) Calcule a estatística de teste (ET); 4) Usar um critério de decisão; 5) Conclusão dentro do contexto do problema Teste de sinal prof. Aguinaldo 28 Cálculo da estatística de teste Teste de posto Sinalizado de Wilcoxon prof. Aguinaldo 29 1) Calcule a diferença entre cada valor e a mediana hipotética M; 2) Ignorando as diferenças = ZERO, ordene o valor absoluto das diferenças obtidas e dê um posto a cada diferença ordenada. Use posto médio se necessário. 3) Calcule W+ = soma dos postos das diferenças positivas, W- = soma dos postos das diferenças negativas e o tamanho da amostra n = [+] + [-]. 4) A estatística de teste é W = menor(W+ ; W-); OBS: Na verdade, poderia ser qualquer uma das soma (W+ ou W-), mas para simplificar o procedimento, foi escolhido arbitrariamente a menor delas e a partir disto foi construída a tabela própria do teste. Critério de rejeição Teste de posto Sinalizado de Wilcoxon prof. Aguinaldo 30 Para n ≤≤≤≤ 30 Rejeita H0, se W ≤ +VT, onde VT é o valor crítico (tabelado) obtido da tabela própria do teste. Para n > 30, use a aproximação normal # = 5 − 67 87 , onde 67 = � � + 1 4 � 87 = � � + 1 2� + 1 24 Rejeita H0, se pvalor ≤ alfa; Rejeita H0, se Z ≤ -VC, onde VC é obtido da tabela Z Postos (rank) Teste de posto Sinalizado de Wilcoxon prof. Aguinaldo 31 Exemplo: 10, 9, 10, 20, 15, 10, 20 Seq posto 9 1 1,0 10 2 3,0 10 3 3,0 10 4 3,0 15 5 5,0 20 6 6,5 20 7 6,5 O que é posto? O posto (ordem ou rank) é a posição de um valor dentro de uma lista ordenada. Se houver empates, é comum atribuir a média. Exemplo: 10, 9, 12, 15, 18, 25, 20 posto 9 1 10 2 12 3 15 4 18 5 20 6 25 7 = (2+3+4)/3 = (6+7)/2 Exemplo 6 Teste de posto Sinalizado de Wilcoxon prof. Aguinaldo 32 O gerente de um banco afirma que o número mediano de clientes por dia é menor a 800 clientes. Uma amostra de clientes para 12 dias selecionados ao caso está listado abaixo. Use o teste de Postos Sinalizados de Wilcoxon com nível de significância de 0,05 para apoiar a afirmação do gerente. 880 ; 740 ; 850 ; 775 ; 920 ; 800 ; 750 ; 788 ; 790 ; 745 ; 980 ; 750 Resolução do exemplo 6 Teste de posto Sinalizado de Wilcoxon prof. Aguinaldo 33 Queremos testar se a mediana < 800 ou mediana ≥ 800 Hipóteses H0: mediana da população ≥ 800 clientes ≈ H0: mediana = 800 H1: mediana < 800 ≈ H1: mediana < 800 αααα = 5% Estatística de teste n = 11 - tivemos uma diferença zero (ver próximo slide) Como n ≤ 30, a estatística de teste é W = menor(W+ ; W-) = 31 (ver próximo slide) Critério de decisão Usando a região crítica RC : W ≤≤≤≤ 14 (valor crítico obtido da tabela do teste) Como W = 31 não foi menor que o valor crítico 14, a hipótese H0 não deve ser rejeitada. Conclusão: Há evidência da mediana da população não ser menor que 800 clientes. Resolução do exemplo 6 Teste de posto Sinalizado de Wilcoxon prof. Aguinaldo 34 x Diferenças Ordenando os “módulos” Sequência POSTO POSTO + POSTO - 880 80 0 -- -- -- -- 740 -60 - 10 1 1 1 850 50 - 12 2 2 2 775 -25 - 25 3 3 3 920 120 - 50 4 5 5 80 0 - 50 5 5 5 750 -50 + 50 6 5 5 788 -12 - 55 7 7 7 790 -10 - 60 8 8 8 745 -55 + 80 9 9 9 980 180 + 120 10 10 10 750 -50 + 180 11 11 11 n = 11 W+ = 35 W- = 31 Ordene os módulos das diferenças, mas mantendo o sinal (+ /-) ao lado de cada uma delas. Exemplo 7 Teste de posto Sinalizado de Wilcoxon prof. Aguinaldo 35 Foi selecionado uma amostra de 36 alunos de uma escola particular que pagaram a mensalidade com atraso. Abaixo temos o tempo de atraso em dias. Use o teste de Postos Sinalizados de Wilcoxon com nível de significância de 5% para testar se a mediana do tempo de atraso é diferente de 10 dias. Usando o Excel, foi obtido W+ = 206 e W- = 322. 12 10 12 12 9 8 6 9 14 12 11 12 9 13 8 10 8 8 11 8 9 9 9 9 12 11 10 8 11 10 8 11 15 16 15 18 Ajuste de empates Teste da Soma de Postos de Wilcoxon prof. Aguinaldo 36 Como se sabe ao ordenar os módulos das diferenças, as observações empatadas recebem a média dos postos. Caso a quantidade de empates seja expressiva, sugere-se fazer uma correção no desvio-padrão da estatística de teste W. Supondo que há k grupos diferentes de empates a aproximação normal para a estatística W é # = 5 − 67 87 ���� 67 = � � + 1 4 � 87 = � � + 1 2� + 1 24 − ∑ ;< = − ;< 48 O ui é a quantidade de observações empatadas no grupo i = 1, 2, ..., k Exemplo 8 Teste de Wilcoxon PS prof. Aguinaldo37 Foi selecionado uma amostra de 36 alunos de uma escola particular que pagaram a mensalidade com atraso. Abaixo temos o tempo de atraso em dias. Use o teste de Postos Sinalizados de Wilcoxon (com correção para empates) com nível de significância de 5% para testar se a mediana do tempo de atraso é de 10 dias. 12 10 12 12 9 8 6 9 14 12 11 12 9 13 8 10 8 8 11 8 9 9 9 9 12 11 10 8 11 10 8 11 15 16 15 18 Resolução do exemplo 8 Do exemplo 7 temos n = 32 ; W+ = 206 ; W- = 322 ; W = min(W+; W-) = 206 Olhando os módulos das diferenças (D) , vemos 4 grupos de valores com empates: doze empates com D = 1, treze empates com D = 2, dois empates com D = 4 e dois empates com D = 5. 87 = � � + 1 2� + 1 24 − ∑ ;< = − ;< 48 = = 32 32 + 1 2 · 32 + 1 24 − 12= − 12 + 13= − 13 + 2= − 2 + 21 − 2 48 = ⋯ A������� Teste de Wilcoxon PS prof. Aguinaldo 38 Testes para duas amostras Amostras dependentes e independentes Teste de Wilcoxon PS prof. Aguinaldo 40 • Amostras dependentes Os valores de uma amostra afetam os valores da outra amostra. Normalmente, as medições são feitas de forma pareada nos mesmos elementos (pessoas, produtos, etc). É também chamada de amostras pareadas. • Amostras independentes Os valores de uma amostra não afetam os valores da outra amostra. As medições são realizadas em grupos diferentes de elementos. Diferença dependente e independente Teste de Wilcoxon PS prof. Aguinaldo 41 Suponha que uma indústria farmacêutica deseja testar a eficácia de um novo medicamento para reduzir a pressão arterial. Veja dois casos: 1) A indústria decide medir a pressão sanguínea nas mesmas pessoas antes e depois de administrar o medicamento. (amostras dependentes) 2) A indústria decide administrar o medicamento a um grupo de pacientes e um placebo (tem o mesmo formato do medicamento, porém é inativo) a um outro diferente grupo de pacientes que sejam similares em várias característica (idade, peso, etc) ao grupo anterior. (amostras independentes) Hipóteses a serem testadas Teste unicaudal esquerdo H0: a mediana 1 não é menor que a 2 H0: M1 >= M2 → H0: M1 – M2 >= 0 H1: a mediana 1 é menor que a 2 H1: M1 < M2 → H0: M1 – M2 < 0 Teste unicaudal direito H0: a mediana 1 não é maior a 2 H0: M1 <= M2 → H0: M1 – M2 <= 0 H1: a mediana 1 é maior a 2 H1: M1 > M2 → H0: M1 – M2 > 0 Teste bicaudal H0: Não há diferença entre as medianas H1: M1 = M2 → H0: M1 – M2 = 0 H1: Há diferença significativas H1: M1 ≠ M2 → H0: M1 – M2 ≠ 0 Teste de sinal prof. Aguinaldo 42 Teste do Sinal Teste do Sinal para amostras pareadas Teste do Sinal para amostras pareadas O teste do Sinal pode ser usado para testar a diferença entre duas medianas da população sem exigir que os dados tenham a distribuição normal. Abaixo temos o peso antes e depois da dieta para emagrecimento para uma amostra de nove pessoas Antes 77 62 61 80 90 72 86 59 88 Depois 80 58 61 76 79 69 90 51 81 Os dados mostram evidências da dieta ser eficiente? Teste para duas amostras: teste do Sinal prof. Aguinaldo 45 Ideia central A ideia chave do teste seria: “Para cada par de valores coloque um sinal + para diferença positiva, um sinal – para diferença negativa e 0 para nenhuma diferença. Se os dois conjuntos têm medianas iguais, o número de “+” e “–” devem ser aproximadamente iguais. Uma quantidade bem desigual de sinais “+” e “– “ mostraria evidências de que as medianas não são iguais”. Um padrão de sinais + 0 + - - - - - - indicaria que as medianas das populações são diferentes. Enquanto, que o padrão + - 0 - + - - + + indicaria que as medianas são iguais. Teste para duas amostras: teste do Sinal prof. Aguinaldo 46 Ideia central Há evidências das medianas (antes e depois) serem iguais? Antes 77 62 58 80 90 72 86 59 88 Depois 80 62 61 76 79 69 85 51 81 Diferença 3 0 +3 -4 -11 -3 -1 -8 -7 SINAL + 0 + - - - - - - Há evidências das medianas (antes e depois) serem iguais? Antes 77 62 58 80 90 72 86 59 88 Depois 80 58 58 76 92 69 85 60 91 Diferença 3 -4 0 -4 +2 -3 -1 +1 +3 SINAL + - 0 - + - - + + Teste para duas amostras: teste do Sinal prof. Aguinaldo 47 Estatística de teste e Critério de rejeição Para n ≤≤≤≤ 30 A estatística de teste S = ����� ��; �� Rejeitar H0, se S ≤ −BC Para n > 30 – usar aproximação normal # = (� + 0,5) − 0,5� 0,5 � , ���� S = ����� ��; �� Rejeitar H0, se Z ≤ −BE Rejeitar H0, se pvalor ≤ J Teste de sinal prof. Aguinaldo 48 Exemplo 9 Abaixo temos o peso antes e depois da dieta para emagrecimento para uma amostra ade nove pessoas. Usando o teste de sinal com nível de significância de 5%, os dados mostram evidências de que a dieta é mais eficiente em reduzir o peso? Antes 77 62 61 80 90 72 86 59 88 Depois 80 58 61 76 79 69 90 51 81 Teste de sinal prof. Aguinaldo 49 Teste da Soma dos Postos para duas amostras pareadas Teste de sinal para amostras pareadas Para usar o teste dos Postos Sinalizados de Wilcoxon para duas amostras dependentes (pareadas), primeiro devemos calcular a diferença entre as duas amostras e depois aplicar o teste da mesma forma que é feito para uma amostra (ver slide 29). Teste para duas amostras: teste do Sinal prof. Aguinaldo 51 Critério de rejeição Teste de posto Sinalizado de Wilcoxon prof. Aguinaldo 52 Para n ≤≤≤≤ 30 Rejeita H0, se W ≤ +VT, onde VT é o valor crítico (tabelado) obtido da tabela própria do teste. Para n > 30, use a aproximação normal # = 5 − 67 87 , onde 67 = � � + 1 4 � 87 = � � + 1 2� + 1 24 Rejeita H0, se Z ≤ -VC, onde VC é obtido da tabela Z Rejeita H0, se pvalor ≤ alfa; Exemplo 10 Abaixo temos o peso antes e depois da dieta para emagrecimento para uma amostra ade nove pessoas. Usando o teste de Postos Sinalizados de Wilcoxon com nível de significância de 0,05, os dados mostram evidências de que dieta é eficiente em reduzir o peso? Antes 77 62 61 80 90 72 86 59 88 Depois 80 58 61 76 79 69 90 51 81 Teste de Wilcoxon PS prof. Aguinaldo 53 Teste de Wilcoxon da soma dos postos Teste de Wilcoxon da Soma de Postos O teste da Soma de Postos de Wilcoxon é um teste não paramétrico que usa os postos dos dados de duas amostras independentes para testar as medianas das populações de onde estas amostras foram retiradas. Este teste de Wilcoxon corresponde ao teste t para amostra independentes. O teste de Wilcoxon não exige a distribuição normal e tão pouco faz exigências com respeito as variâncias das populações. Teste da Soma de Postos de Wilcoxon prof. Aguinaldo 55 Teste de Wilcoxon da Soma de Postos O teste de Wilcoxon da soma dos postos é equivalente ao teste de Mann-Whitney, por isto é também denominado de teste de Wilcoxon- Mann-Whitney. O funcionamento deste teste é: Duas amostras independentes são combinadas em uma única amostra e cada valor receberá um posto. Os postos dos valores de cada amostra são somados, obtendo R1 = soma de postos da 1ª amostra e R2 = soma de postos da 2ª amostra. • Se a soma de postos R1 e R2 forem próximos, então provavelmente estas duas amostras vieram de populações com mesma mediana. • Se a soma de postos R1 e R2 forem muito diferente entre si, então provavelmente estas duas amostras vieram de populações com medianas diferentes. Teste da Soma de Postos de Wilcoxon prof. Aguinaldo 56 Teste de Wilcoxon da Soma de Postos Como exemplo, suponha que temos oito valores na amostra X e oito valores na amostra O. Abaixo é mostrado três casos onde os valores são combinados em um único conjunto e depois ordenados Vendo os padrões de X e O acima, é razoável admitir que as amostra no caso 1 e 2 vieram de populações com diferentes medianas. E no terceiro caso, provavelmente estas amostras vieram de populações com mesmas medianas. CASO 1: XXXXXXXOXOOOOOOO CASO 2: OOOOOOXOOXXXXXXX CASO 3: XOOXOXOXOXOXXOOX Teste da Soma de Postosde Wilcoxon prof. Aguinaldo 57 Teste de Wilcoxon da Soma de Postos Suponha que temos duas amostras independentes X1 = {20, 28, 22, 18, 25, 17} e X2 = {13, 11, 19, 17, 16, 17} A duas amostras são combinadas em uma única amostra, ordenadas e associado um posto a cada valor R1 = soma dos postos da 1ª amostra = 1+2+3+5+5+8 = 24 R2 = soma dos postos da 2ª amostra = 5+7+9+10+11+12 = 53 Como as duas somas R1 e R2 são bem diferentes entre si, provavelmente vieram de populações com medianas diferentes. 11, 13, 16, 17, 17, 17, 18, 19, 20, 22, 25, 28 Seq 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12 Posto 1, 2, 3, 5, 5, 5, 7, 8, 9, 10, 11, 12 Teste da Soma de Postos de Wilcoxon prof. Aguinaldo 58 Teste de Wilcoxon da Soma de Postos Os requisitos para o teste são: • Duas amostras independentes escolhidas aleatoriamente • Os dados estão em escala numérica ou ordinal (dados quantitativos ou qualitativos ordinais), sem qualquer exigências de que as duas populações tenham distribuição normal, Hipótese a serem testadas H0: as mediana das duas populações são iguais H1: as medianas são diferentes (≠ ; < ; >) Teste da Soma de Postos de Wilcoxon prof. Aguinaldo 59 Etapas do teste 1) Formule as hipóteses H0 e H1 ; 2) Identifique o nível de significância do teste (α); 3) Calcule a estatística de teste (ET); 4) Usar uma critério de decisão; 5) H0 deve ser ou não rejeitado; 6) Conclusão Teste da Soma de Postos de Wilcoxon prof. Aguinaldo 60 Cálculo da estatística de teste 1) Combine as duas amostras em um único conjunto de valores 2) Ordene os valores e associe a cada um deles um posto. Se houver empates, atribua a média dos postos. 3) Por conveniência, vamos definir “amostra 1” como a menor amostra. Poderia ser qualquer uma delas. Caso as amostras tenham mesmo tamanho, a escolha da amostra 1 é arbitrária. 4) Calcule K0 = soma dos postos da amostra 1 e K1 = soma dos postos da outra amostra. Para conferir, K0 + K1 = �(� + 1)/2 5) A estatística de teste é K = K0. Teste da Soma de Postos de Wilcoxon prof. Aguinaldo 61 Critério de decisão Para n1 e n2 ambos ≤≤≤≤ 10 Usando a região crítica, com VCA e VCB são obtidos da tabela do teste • Rejeita H0, se R ≤ +VCA teste unicaudal esquerdo • Rejeita H0, se R ≥ +VCB teste unicaudal direito • Rejeita H0 se R ≤ +VCA ou R ≥ +VCB teste bicaudal Para n1 e n2 ambos > 10 – usar aproximação normal (veja próximo slide) # = K − 6M 8M com 6M = �0 �0 + �1 + 1 2 � 8M = �0�1 �0 + �1 + 1 12 Rejeitar H0, se Z estiver dentro da região crítica Rejeita H0, se pvalor ≤ α Teste da Soma de Postos de Wilcoxon prof. Aguinaldo 62 Exemplo 11 Dois produtos concorrentes de café (Marca X e Y) foram comparados. Uma pesquisa de mercado realizada em um centro comercial local ofereceu a cada participante uma xícara de café e depois de degustar cada participante deu uma nota de 1 a 10. Usando nível de significância de 5%, os dados mostram evidências de diferenças significativas entre as duas marcas? Teste da Soma de Postos de Wilcoxon prof. Aguinaldo 63 Resolução do exemplo 10 1º passo) Formular as hipóteses H0: medianas das notas são iguais (não há diferença entre as marcas) H1: medianas das notas são diferentes (há diferença entre as marcas) 2º passo) Definir n1 = 5 tamanho da amostra da marca Y (menor das duas) 3º passo) Combinar as amostras em um único conjunto de valores e ordenar e atribuir os postos a cada valor marca X X X X y X X y y y y nota 2 2 3 4 5 5 6 6 7 9 10 posto 1.5 1.5 3 4 5.5 5.5 7.5 7.5 9 10 11 Teste da Soma de Postos de Wilcoxon prof. Aguinaldo 64 Resolução do exemplo 10 4º passo) Calcular a estatística de teste R1 = 5.5+7.5+9+10+11 = 43 R2 = 1.5+1.5+3+4+5.5+7.5 = 23 Estatística de teste: R = 43 (soma de postos da amostra menor) Como o teste é bicaudal e α = 5%, os valores críticos na tabela 3 foram 18 e 42. Região crítica RC: R ≤≤≤≤ 18 ou R ≥ 42 (rejeitar H0 se R estiver “dentro” da RC) Como a estatística de teste R = 43 está dentro da região crítica, a hipótese nula H0 deve ser rejeitada. 5º passo) Conclusão Há evidências de diferenças significativa entre as duas marcas (com Y tendo notas maiores). Teste da Soma de Postos de Wilcoxon prof. Aguinaldo 65 Exemplo 12 Suspeita-se que o barulho afeta a memória de curto prazo. Para verificar essa suspeita, um experimento foi conduzido da seguinte forma: 24 pessoas foram aleatoriamente distribuídas em dois grupos. Cada grupo recebeu uma lista de vinte palavras para memorizar em dois minutos. Os participantes na condição barulho tentaram memorizar a lista de palavras, enquanto escutavam, com fones de ouvido, um barulho pré-gravado. Os outros participantes também utilizaram fones de ouvido, mas sem o barulho, enquanto memorizavam as palavras no mesmo período de tempo. O número de palavras memorizadas por cada pessoa foi registrado e apresentado na tabela a seguir. Teste de Wilcoxon SP prof. Aguinaldo 66 Exemplo 12 - continuação Com barulho Sem barulho 5 15 10 9 6 16 6 15 7 16 3 18 6 17 9 13 5 11 10 12 11 13 9 11 Há evidências de que o barulho afeta a memorização? H0: barulho não afeta H1: barulho afeta (mediana barulho é menor) a) Qual teste paramétrico que você conhece que poderia ser usado para testar as hipótese acima? b) Faça o teste não paramétrico adequado usando a aproximação normal e considerando α = 0,05. Teste de Wilcoxon SP prof. Aguinaldo 67 Resolução do exemplo 12 Formular as hipóteses H0: mediana das palavras com barulho não é menor (barulho não afeta) H1: mediana das palavras com barulho é menor (barulho afeta) Nível de significância: α = 5% Estatística de teste Ambas amostras são maiores ou iguais que 10, então usar a aproximação normal; #OPQO = K − 6M 8M = 83 − 150 17,32 = −3.87 6M = 12 12 + 12 + 1 2 = 150 8M = 12 · 12 · 12 + 12 + 1 12 = 17,32 Teste de Wilcoxon SP prof. Aguinaldo 68 Resolução do exemplo 12 Regra de decisão Para α = 0,05 e teste unicaudal esquerdo, o valor crítico é - 1,96 Região crítica: RC: Z ≤ -1,65 pvalor = (área esquerda de zcalc = -3,87) = 0,00005 Regra de decisão Como e estatística de teste zcalc = -3,87 está dentro da região crítica (e pvalor é menor que α = 5%), há evidências para rejeitar H0 e concluir que há diferenças na memorização de palavras, indicando que o barulho afeta a memorização Teste de Wilcoxon SP prof. Aguinaldo 69
Compartilhar