Baixe o app para aproveitar ainda mais
Prévia do material em texto
i UNIVERSIDADE ESTADUAL DO OESTE DO PARANÁ CAMPUS DE FOZ DO IGUAÇU CENTRO DE ENGENHARIAS E CIÊNCIAS EXATAS ESTATÍSTICA NÃO PARAMÉTRICA Carlos dos Santos Novembro/2015 2 Sumário 5.1 Introdução ........................................................................................................................................................................ 3 5.2 O teste dos sinais ............................................................................................................................................................ 4 5.2.1 O teste dos sinais para uma população ............................................................................................................... 6 5.2.2 O teste dos sinais envolvendo dados nominais ou categóricos ................................................................... 13 5.2.3 O teste dos sinais envolvendo dados pareados ou emparelhados............................................................... 16 5.3 O teste dos postos com sinais de Wilcoxon............................................................................................................. 18 5.3.1 O teste dos postos com sinais de Wilcoxon para uma população ................................................................ 19 5.3.2 O teste dos postos com sinais de Wilcoxon para dados pareados .............................................................. 25 5.4 O teste da soma dos postos de Wilcoxon para duas amostras independentes ................................................ 31 5.5 O teste de Kruskal-Wallis ............................................................................................................................................. 38 5.6 Sequência de Exercícios .............................................................................................................................................. 42 5.7 Respostas dos exercícios ............................................................................................................................................ 47 5.8 Tabelas Estatísticas ...................................................................................................................................................... 51 3 5.1 Introdução Os procedimentos de testes de hipóteses e intervalos de confiança vistos anteriormente, se baseiam na suposição de que os dados amostrais são provenientes de populações com distribuição normal. Felizmente, a maioria desses procedimentos é relativamente insensível a ligeiros afastamentos da normalidade. Em geral, os testes Z, t e F (análise de variância), têm níveis reais de significância ou de confiança que diferem dos níveis de significância nominais () ou de confiança (1 - )x100%, anunciados ou escolhidos pelo experimentador, embora a diferença entre os níveis reais e os anunciados pelo experimentador seja pequena, quando a população em estudo tem distribuição normal. Tradicionalmente esses procedimentos são chamados de paramétricos, porque se baseiam em uma família paramétrica de distribuições. Alternativamente, é dito que esses procedimentos não são livres de distribuição porque dependem da hipótese de que os dados amostrais devem ter sido coletados de uma população com distribuição normal. Os testes não paramétricos não exigem suposições sobre a natureza ou forma distribuições populacionais, logo, são ditos livres de distribuição. Embora seja usado o termo não paramétrico, para sugerir que esses métodos não dependem de parâmetros, existem procedimentos não paramétricos que dependem de um parâmetro, como a mediana. Embora o termo livre de distribuição seja o mais adequado, a nominação não paramétrica é a mais usada. As principais vantagens e desvantagens dos testes não paramétricos são as seguintes: Vantagens dos testes não paramétricos 1. Os métodos não paramétricos se aplicam a uma grande variedade de situações, porque não possuem as exigências mais rígidas dos métodos paramétricos correspondentes. Em particular, os métodos não paramétricos não exigem populações normalmente distribuídas. 2. Diferentemente dos métodos paramétricos, podem aplicar-se, em geral, a dados categóricos, tais como: sexo masculino ou feminino, casado ou solteiro, peça defeituosa ou perfeita, sim ou não, etc. 3. Os procedimentos não paramétricos em geral envolvem cálculo mais simples do que os exigidos pelos métodos paramétricos correspondentes e são, portanto, mais fáceis de ser entendidos e aplicados. Desvantagens dos testes não paramétricos 1. Os métodos paramétricos tendem a desperdiçar informação, porque os dados numéricos exatos são, em geral, reduzidos a uma forma qualitativa. Por exemplo, no teste não paramétrico dos sinais descrito na seção a seguir, as diferenças das forças de resistência ao cisalhamento da união dos dois tipos de propulsores, em relação à mediana de 2000psi, são registradas simplesmente como sinais negativos e positivos; as magnitudes reais dessas diferenças são ignoradas. 2. Os testes não paramétricos são menos eficientes que os testes paramétricos. Essa perda de eficiência geralmente se reflete pela exigência de evidência mais forte, como a de um tamanho de amostra maior, ou em diferenças maiores, para que o teste não paramétrico rejeite a hipótese H0, sendo ela falsa. 4 Os métodos não paramétricos descritos a seguir são competidores dos testes paramétricos Z, t e F(Análise de Variância). Consequentemente, é importante comparar os desempenhos dos testes paramétricos e não paramétricos, sob as hipóteses de populações normais, como mostra a tabela 5.1. Tabela 5.1 Eficiência dos testes não paramétricos em relação aos paramétricos para populações normais. Aplicação Teste Paramétrico Teste Não Paramétrico Eficiência do teste não paramétrico Duas amostras pareadas Teste t Teste dos sinais Teste dos postos com sinais de wilcoxon 0,63 Duas amostras independentes Teste t ou teste z Teste da soma dos postos de wilcoxon 0,95 Três ou mais amostras independentes Teste F (Análise de Variância) Teste de Kruskall Wallis 0,95 5.2 O teste dos sinais O teste dos sinais é um teste não paramétrico ou livre de distribuição, que usa os sinais positivos e negativos para testar diferentes afirmações, incluindo: 1. Afirmações que envolvem a mediana de uma única população. 2. Afirmações que envolvem a proporção p de dados nominais ou categóricos. 3. Afirmações que envolvem dados pareados ou emparelhados. A ideia fundamental do teste dos sinais é a de analisar se há diferença significativa entre as frequências de sinais positivos e negativos. Suposições do teste dos sinais 1. Os dados amostrais foram selecionados aleatoriamente. 2. Não há qualquer exigência de que os dados amostrais provenham de uma população com uma distribuição particular. Notação 1. x = número de vezes que o sinal menos frequente ocorreu. 2. n é o número total de sinais positivos e negativos. Estatística do teste 1. Para n ≤ 25 a estatística do teste é: x = número de vezes que o sinal menos frequente ocorreu. 2. Para n > 25 a estatística do teste é:: 2 n 2 n 5,0x z Valores Críticos 1 Se n ≤ 30, o valor crítico T é encontrado na tabela A-7. 2 Se n > 30, os valores crítico de z são encontrados na tabela 2.2 da distribuição normal. Definição 5Início Faça x igual ao número de sinais de menor frequência A estatística do teste será x (número de vezes que o sinal menos frequente ocorreu) Sim n ≤ 25? A estatística do teste será: 𝑧 = 𝑥+0,5 − 𝑛/2 𝑛 2 Não O valor da estatística do este é menor do que ou igual ao valor crítico? Ache o valor crítico na tabela A-7 Ache o valor crítico de z na tabela 2.2 da distribuição normal. Não se rejeita a hipótese H0 Rejeita-se a hipótese H0 Sim Não Associe os sinais positivos e negativos e descarte quaisquer zeros Os dados amostrais contrariam H1 num teste unilateral? Não Faça n igual ao número total de sinais positivos e negativos Figura 5.1 – Procedimentos do teste dos Sinais. Sim O valor da estatística do teste cai na região de rejeição? Não Não se rejeita a hipótese H0 Sim Rejeita-se a hipótese H0 6 Observação: A figura 5.1 resume o procedimento para o teste dos sinais e inclui esta verificação: “Os dados amostrais contradizem H1?” Se os dados amostrais contradizem H1, não se rejeita a hipótese H0. O fluxograma mostra esta observação, porque é sempre aconselhável observar os dados e evitar tirar conclusões erradas ao aplicar o teste dos sinais a um teste unilateral, quando um sinal ocorre significativamente com mais frequência do que o outro, mas os dados amostrais contradizem a hipótese alternativa H1. Por exemplo: Suponha que estejamos testando a afirmativa de que uma técnica de seleção de sexo favoreça aos meninos, sendo eles a maioria (H1: p > 0,5), mas obtém-se uma amostra de 10 meninos e 90 meninas, com uma proporção amostral de meninos 10,0 100 10pˆ . Nesse caso, os dados amostrais contradizem a hipótese alternativa (H1). Não há como apoiar a afirmativa de H1, de modo que, imediatamente, não se rejeita a hipótese nula (H0) e não se prossegue com o teste dos sinais, incluindo-se essa verificação. 5.2.1 O teste dos sinais para uma população O teste dos Sinais para uma amostra é usado para o teste de afirmações sobre a mediana ~ de uma distribuição contínua qualquer, portanto é livre de distribuição. Vale lembrar que a mediana de uma distribuição é um valor tal que a probabilidade de que um valor observado de X seja menor ou igual à mediana é 0,5, e a probabilidade de que X seja maior ou igual à mediana é 0,5, ou seja, 5,0)~X(P)~X(P Como a distribuição normal é simétrica, a média de uma distribuição normal é igual à mediana. Assim, o teste dos sinais para uma amostra pode ser usado para testar afirmações sobre a média populacional de uma população com distribuição normal, porém, com menos eficiência que os testes paramétricos z e t. Note que, enquanto os testes Z e t foram planejados para amostras de uma população com distribuição normal, o teste dos sinais é apropriado para qualquer distribuição contínua. Como o teste dos sinais para uma pulação tem menos eficiência que os testes similares paramétricos, se os dados amostrais aderem a uma população normalmente distribuída, o ideal é utilizar os testes z e t. Os procedimentos do teste dos sinais para uma população são os seguintes: 1 Elaborar as hipóteses nula e alternativa. O teste dos sinais para uma amostra ou teste da mediana, tem as seguintes hipóteses: 1º caso) 00 ~~:H 01 ~~:H 2º caso) 00 ~~:H 01 ~~:H 3º caso) 00 ~~:H 01 ~~:H 2 Calcular todas as diferenças (xi - 0μ ) Suponha que x1, x2, . . ., xn, seja um amostra aleatória de n observações da população de interesse, calcular todas as diferenças (xi - 0) , i =1,2, . . .,n e anotar os sinais negativos e positivos. Agora, se 00 ~:H é verdadeira, qualquer diferença xi - 0 é positiva ou negativa de maneira igualmente provável. 7 3 Achar o valor da Estatística do teste Sendo n é o número total de sinais negativos e positivos e x é o número de vezes que o sinal menos frequente ocorreu, teremos os seguintes casos: 1º caso) Para n ≤ 25 a estatística do teste será x 2º caso) Para n > 25 a estatística do teste será = +0,5 − /2 2 Fundamentos para a estatística do teste usada quando n > 25 Quando ocorre n >25, a estatística do teste se baseia em uma aproximação normal à distribuição binomial, com p = q = ½. Lembre de que, na parte de probabilidade, foi visto que a aproximação normal à distribuição binomial é aceitável quando ocorre np 5 e nq 5. Lembrando que = np e = √ para a distribuição de probabilidade binomial. Como o teste dos sinais supõe p = q =1/2, são satisfeitos os pré-requisitos de np 5 e nq 5 sempre que ocorre n 10. Também com a suposição de p = q = 1/2, obtém-se = np = n/2 e e = √ = √ / = / , de modo que = se torna = − /2 2 . Finalmente, substituímos x po x + 0,5 como correção de continuidade. Isto é, os valores de x são discretos, mas, como estamos usando uma distribuição de probabilidade contínua, um valor discreto tal como 10 é, na verdade, representado pelo intervalo de 9,5 a 10,5. Como x representa o sinal menos frequente, procede-se de modo conservador e preocupa-se apenas com x + 0,5, obtendo, assim, a estatística = +0,5 − /2 2 . 4 Achar o valor crítico 1º caso) Para n ≤ 25, o valor crítico X é achado na tabela A-7, em anexo. 2º caso) Para n > 25, o valor crítico Z é achado na tabela 2.2 da distribuição normal. 4 Conclusão 1º caso) Para n ≤ 25, se o valor da estatística do teste X for menor do que ou igual ao valor crítico, rejeita-se H0, em caso contrário, não se rejeita. 2º caso) Para n > 25, se o valor da estatística do teste z cair na região de rejeição, rejeita-se H0, em caso contrário, não se rejeita. Observação. Quando a hipótese H0 é verdadeira, e ocorre n ≤ 25, a variável X(número de vezes que o sinal menos frequente ocorreu), tem uma distribuição binomial com parâmetro p = 0,5. Assim, encontramos um valor crítico da distribuição binomial que garanta o valor P, isto é, a probabilidade exata de rejeitar H0, sendo H0 verdadeira. Se o valor P for maior do que o nível de significância , não se rejeita H0, em caso contrário, rejeita-se. 8 Exemplos ( 1 ) Montgomery, Peck e Vining (2001) relatam um estudo no qual um motor de foguete é feito pela união de um propulsor de explosão e um propulsor de manutenção dentro de uma cápsula de metal. A força de resistência ao cisalhamento da união dos dois tipos de propulsores é uma característica importante. Os dados a seguir mostram os resultados de teste de 20 motores selecionados aleatoriamente. Supondo que as forças de cisalhamento observadas não seguem a distribuição normal, verifique pelo teste dos sinais se a força de cisalhamento mediana é de 2000 psi ao nível de significância de 5%. 2158,70 1678,15 2316,00 2061,30 2207,50 1708,30 1784,70 2575,10 2357,90 2256,70 2165,20 2399,55 1779,80 2336,75 1765,30 2053,50 2414,40 2200,50 2654,20 1753,70 a) Elaborar as hipóteses nula e alternativa 2000~:H0 psi (a força de cisalhamento mediana da união dos dois tipos de propulsores é de 2000 psi) 2000~:H1 psi (a força de cisalhamento mediana da união dos dois tipos de propulsores é diferente de 2000 psi) b) Calcular as diferenças (xi - 0μ ) e anotar os sinais Observação i X i X i - 2000 Sinal 1 2158,70 158,70 + 2 1678,15 -321,85 - 3 2316,00 316,00 +4 2061,30 61,30 + 5 2207,50 207,50 + 6 1708,30 -291,70 - 7 1784,70 -215,30 - 8 2575,10 575,10 + 9 2357,90 357,90 + 10 2256,70 256,70 + 11 2165,20 165,20 + 12 2399,55 399,55 + 13 1779,80 -220,20 - 14 2336,75 336,75 + 15 1765,30 -234,70 - 16 2053,50 53,50 + 17 2414,40 414,40 + 18 2200,50 200,50 + 19 2654,20 654,20 + 20 1753,70 -246,30 - c) Achar o valor da Estatística do teste Temos n = 20 sinais positivos e negativos. Para n ≤ 25 a estatística do teste é x = número de vezes que o sinal menos frequente ocorreu. O sinal positivo (+) ocorreu 14 vezes, enquanto o sinal negativo (-) ocorreu 6 vezes, logo, x = 6. 9 d) Achar o valor crítico Temos n = 20 sinais positivos e negativos. Para n ≤ 25, utiliza-se a tabela A-7 para achar o valor crítico X. Na margem esquerda dessa tabela procure n = 20. O nível de significância é de 5%. Então, na margem superior procure = 0,05 (duas caudas, porque o sinal de H1 é “”, ou seja, o teste é bilateral). No cruzamento da linha do n = 20 com a coluna do = 0,05, acha-se o valor crítico X = 5, como mostra o esquema a seguir. Tabela A-7 – Valores críticos para o teste dos sinais. n 0,005 (uma cauda) 0,01 (duas caudas) 0,01 (uma cauda) 0,02 (duas caudas) 0,025 (uma cauda) 0,025 (uma cauda) 0,05 (duas caudas) 0,05 (duas caudas) 1 20 5 25 Logo, o valor crítico é X = 5. e) Conclusão Haja vista que ocorreu (X= 6) > (X = 5), não se rejeita H0 ao nível de significância de 5%. Portanto, a força de cisalhamento mediana da união dos dois tipos de propulsores é de 2000 psi. Observe que X é uma variável aleatória com distribuição Binomial. Assim, poderíamos testar a hipótese Ho, calculando diretamente o valor P da distribuição binomial. Quando 2000~:H0 é verdadeira, X tem uma distribuição binomial com parâmetros n = 20 e p = 0,5. Assim, a probabilidade de observar seis ou menos sinais negativos em uma amostra de 20 observações é: xnxx n )p1(pC)xX(P)p,n(f 3203320 22022 20 12011 20 02000 20 )5,01(5,0C)5,01(5,0C)5,01(5,0C)5,01(5,0C)6X(P 62066 20 52055 20 42044 20 )5,01(5,0C)5,01(5,0C)5,01(5,0C 0577,0)6X(P Haja vista que ocorreu (P = 0,0577) > ( = 0,05), não se rejeita H0 ao nível de significância de 5%. Portanto, a força de cisalhamento mediana da união dos dois tipos de propulsores é de 2000 psi. ( 2 ) Quando perguntado sobre a temperatura média de um adulto sadio, todo mundo sempre responde que é de 98,6ºF. Os dados a seguir são referentes a 106 temperaturas constantes obtidas por pesquisadores da Universidade de Maryland, ao meio dia, no segundo dia da pesquisa, de indivíduos adultos. Foi realizado o teste de normalidade e chegou-se à conclusão de que os dados não aderem à distribuição normal. Utilize o teste dos sinais para testar a 10 hipótese de que a temperatura corporal de indivíduos adultos sadios é inferior a 98,6ºF, utilizando o nível de significância de 5%. 98,6 98,7 98,0 97,8 98,6 98,8 99,4 98,6 98,0 98,0 96,5 98,0 98,4 99,4 98,2 99,6 97,1 97,1 97,9 98,6 98,0 97,8 99,1 98,7 98,0 96,9 98,7 97,9 97,0 97,6 98,8 98,6 97,4 98,4 98,6 98,6 97,8 98,4 98,8 97,6 98,9 98,0 97,6 97,5 98,2 98,0 97,0 98,6 97,2 98,4 98,6 97,4 98,6 99,0 98,7 98,6 98,2 98,6 97,5 99,2 97,3 98,4 97,3 98,4 98,6 98,7 97,9 97,4 98,8 98,3 97,8 98,0 98,6 97,6 98,2 97,6 98,8 98,8 98,4 98,2 98,7 97,1 98,0 98,0 98,0 98,3 98,4 98,4 97,3 98,5 98,4 99,0 97,7 98,4 98,5 98,4 98,8 99,5 96,5 98,5 98,0 98,9 98,6 97,6 97,8 97,0 a) Elaborar as hipóteses nula e alternativa 6,98~:H0 ºF (a temperatura corporal mediana de adultos saudáveis não é menor do que 98,6ºF) 6,98~:H1 ºF (a temperatura corporal mediana de adultos saudáveis é menor do que 98,6ºF) 11 b) Calcular as diferenças (xi - 0μ ) e anotar os sinais Obs. i xi xi - 98,6 Sinal Obs. i xi xi - 98,6 Sinal Obs. i xi xi -98,6 Sinal 1 98,6 0,0 37 98,0 -0,6 - 73 97,5 -1,1 - 2 98,8 0,2 + 38 98,8 0,2 + 74 97,2 -1,4 - 3 96,5 -2,1 - 39 97,1 -1,5 - 75 99,0 0,4 + 4 99,6 1,0 + 40 98,4 -0,2 - 76 97,5 -1,1 - 5 98,0 -0,6 - 41 99,0 0,4 + 77 98,4 -0,2 - 6 96,9 -1,7 - 42 98,8 0,2 + 78 98,8 0,2 + 7 98,8 0,2 + 43 98,9 0,3 + 79 97,6 -1,0 - 8 98,6 0,0 44 98,0 -0,6 - 80 98,4 -0,2 - 9 98,9 0,3 + 45 98,6 0,0 81 98,0 -0,6 - 10 98,0 -0,6 - 46 98,4 -0,2 - 82 97,3 -1,3 - 11 98,6 0,0 47 97,1 -1,5 - 83 98,4 -0,2 - 12 98,6 0,0 48 99,1 0,5 + 84 96,5 -2,1 - 13 97,3 -1,3 - 49 97,9 -0,7 - 85 97,6 -1,0 - 14 98,7 0,1 + 50 97,4 -1,2 - 86 98,6 0,0 15 97,8 -0,8 - 51 98,4 -0,2 - 87 98,0 -0,6 - 16 97,6 -1,0 - 52 97,6 -1,0 - 88 98,2 -0,4 - 17 98,7 0,1 + 53 98,6 0,0 89 98,6 0,0 18 98,3 -0,3 - 54 98,6 0,0 90 98,0 -0,6 - 19 98,4 -0,2 - 55 98,6 0,0 91 97,6 -1,0 - 20 98,4 -0,2 - 56 97,3 -1,3 - 92 98,6 0,0 21 98,0 -0,6 - 57 97,4 -1,2 - 93 97,6 -1,0 - 22 97,0 -1,6 - 58 98,6 0,0 94 98,2 -0,4 - 23 98,7 0,1 + 59 98,8 0,2 + 95 98,4 -0,2 - 24 99,4 0,8 + 60 98,0 -0,6 - 96 98,7 0,1 + 25 98,0 -0,6 - 61 98,4 -0,2 - 97 99,2 0,6 + 26 97,1 -1,5 - 62 97,7 -0,9 - 98 98,6 0,0 27 97,8 -0,8 - 63 99,5 0,9 + 99 98,3 -0,3 - 28 98,7 0,1 + 64 98,6 0,0 100 98,2 -0,4 - 29 98,6 0,0 65 97,8 -0,8 - 101 98,2 -0,4 - 30 97,8 -0,8 - 66 98,0 -0,6 - 102 98,0 -0,6 - 31 98,0 -0,6 - 67 99,4 0,8 + 103 98,5 -0,1 - 32 97,0 -1,6 - 68 97,9 -0,7 - 104 98,5 -0,1 - 33 97,4 -1,2 - 69 98,7 0,1 + 105 98,5 -0,1 - 34 98,2 -0,4 - 70 97,0 -1,6 - 106 97,8 -0,8 - 35 98,4 -0,2 - 71 98,4 -0,2 - 36 97,9 -0,7 - 72 98,8 0,2 + Observação: Os dados amostrais não contradizem 6,98~:H1 ºF, pois de um total de 91 sinais, há 68 sinais negativos, indicando que a maioria das temperaturas é inferior a 98,6 ºF. Se os dados amostrais fossem conflitantes com a hipótese alternativa (H1), terminaríamos o teste imediatamente, concluindo por não rejeitar a hipótese nula (H0). 12 c) Achar o valor da Estatística do teste Temos n = 91 sinais positivos e negativos. Para n > 25 a estatística do teste é 2 n 2 n 5,0x z O sinal positivo ocorreu 23 vezes, enquanto o sinal negativo ocorreu 68 vezes. Então, x = número de vezes que o sinal menos frequente ocorreu = 23 n = número total de sinais positivos e negativos = 23 + 68 = 91 Logo, 61,4 2 91 2 91 5,023 z d) Achar o valor crítico Temos n = 91. Para n > 25, utiliza-se a tabela 2.2 da distribuição normal para achar o valor crítico z. Temos = 0,05, então tentamos localizar o valor 0,05 no centro da tabela 2.2 da distribuição normal, ou o mais próximo, se esse valor não ocorrer. Os dois valores mais próximos de 0,05 são 0,0505 e 0,0495, os quais possuem a mesma diferença em relação a este. O primeiro valor (0,0505) fornece Z = 1,64 nas margens da tabela, o segundo valor (0,0495), fornece Z = 1,65, então, calcula-se a média aritmética dos dois valores de Z para achar o valor crítico Z = 1,645, como mostra a figura a seguir. Tabela 2.2 Distribuição normal reduzida (P(Z -zc) ou P(Z -zc) Uma vez que o sinal da hipótese H1 é “<”, o teste é unilateral à esquerda e a região de rejeição (R.R.) é igual a = 0,05, situando-se na extremidade esquerda da distribuiçãonormal (por isso foi utilizada a tabela 2.2), a partir de - Z = -1,645, como mostra o gráfico a seguir. 13 e) Conclusão Observa-se pelo gráfico que, o valor da estatística do teste (Z = -4,61) cai na região de rejeição (R.R), então, rejeita-se H0 ao nível de significância de 5%. Portanto, há evidências amostrais para acreditarmos que a temperatura corporal mediana de adultos saudáveis é menor do que 98,6ºF. 5.2.2 O teste dos sinais envolvendo dados nominais ou categóricos Lembre-se de que dados nominais envolvem nomes, atributos ou categorias apenas. Por exemplo, sim, não; masculino, feminino; férteis, não férteis; defeituoso, não defeituoso, etc. Embora tais conjuntos de dados nominais limitem os cálculos, é possível identificar a proporção dos dados amostrais que pertence a uma categoria particular, possibilitando testar afirmativas sobre a proporção populacional p. Os procedimentos para o teste dos sinais envolvendo dados nominais são os seguintes: 1 Elaborar as hipóteses nula e alternativa. O teste dos sinais envolvendo dados nominais ou categóricos tem as seguintes hipóteses: 1º caso) 5,0p:H0 5,0p:H1 2º caso) 5,0p:H0 5,0p:H1 3º caso) 5,0p:H0 5,0p:H1 2 Atribuição dos sinais: Arbitrariamente, atribua sinais positivos a uma das categorias e sinais negativos à outra, e anote o número de vezes que cada sinal ocorre. 3 Achar o valor da Estatística do teste Sendo n é o número total de sinais negativos e positivos e x é o número de vezes que o sinal menos frequente ocorreu, teremos os seguintes casos: 1º caso) Para n ≤ 25 a estatística do teste será x. 14 2º caso) Para n > 25 a estatística do teste será 2 n 2 n 5,0x z 4 Achar o valor crítico 1º caso) Para n ≤ 25, o valor crítico X é achado na tabela A-7, em anexo. 2º caso) Para n > 25, o valor crítico Z é achado na tabela 2.2 da distribuição normal. Exemplo A cadeia de restaurantes Halters foi processada por discriminação baseada no sexo, porque apenas 30 homens foram contratados juntamente com 70 mulheres. Um representante da companhia admite que, da mão de obra qualificada, metade é de homens e metade é de mulheres, mas afirma que a Halters não discrimina, e o fato de que 30 dos últimos 100 novos empregados são homens, é apenas ao acaso. Use o teste dos sinais a um nível de significância de 5% para testar a hipótese de que homens e mulheres são igualmente contratados por essa companhia. a) Elaborar as hipóteses nula e alternativa H0: p = 0,5 (homens e mulheres são igualmente contratados por essa companhia). H1: p 0,5 (homens e mulheres não são igualmente contratados por essa companhia). b) Atribuição de sinais positivos e negativos Este exemplo usa dados nominais ou categóricos que consistem em sexos masculino e feminino. O teste dos sinais é usado, representado os homens com o sinal positivo (+) e as mulheres com o sinal negativo (-). Vale lembrar que a escolha dos sinais é arbitrária. c) Cálculo da estatística do teste O fato de, dos últimos cem novos empregados contratados, 30 serem homens e 70 serem mulheres, resulta que o sinal positivo (+) ocorreu 30 vezes e o sinal negativo (-) ocorreu 70 vezes, ou vice versa, então, x = número de vezes que o sinal menos frequente ocorreu = 30 n = número total de sinais positivos e negativos = 30 + 70 = 100 Temos n =100. Para n > 25 a estatística do teste é 2 n 2 n 5,0x z 15 90,3 2 100 2 100 5,030 z d) Achar o valor crítico Temos n = 100. Para n > 25, utiliza-se a tabela 2.2 da distribuição normal para achar o valor crítico z. Temos = 0,05, como o teste é bilateral, devido à ocorrência do sinal em H1, calcula-se /2 = 0,05/2 =0,025. No centro da tabela 2.2 da distribuição normal, procura-se o valor 0,025. Na margem esquerda e na mesma linha do valor 0,025 ocorre o valor 1,9 na margem superior e na mesma coluna, ocorre o valor 6, portanto Z/2 = 1,96 como mostra o esquema seguir. Tabela 2.2 Distribuição normal reduzida (P(Z -zc) ou P(Z -zc)) Uma vez que o sinal da hipótese H1 é “”, o teste é bilateral e a região de rejeição (R.R.) é igual a = 0,05, sendo dividida em duas partes de 0,025, situando-se nas extremidades esquerda e direita da distribuição normal (por isso foi utilizada a tabela 2.2), aparecendo à esquerda de -1,96 e à direita de 1,96, como mostra a figura a seguir. e) Conclusão Observa-se pelo gráfico que, o valor da estatística do teste Z = -3,90 cai na região de rejeição (R.R), portanto, rejeita-se H0 ao nível de significância de 5%. Portanto, há evidências amostrais para acreditarmos que homens e mulheres não são contratados igualmente por essa companhia. Essa companhia parece discriminar, não contratando proporções iguais de homens e mulheres. 16 5.2.3 O teste dos sinais envolvendo dados pareados ou emparelhados Dados pareados são aqueles onde cada indivíduo da amostra é o controle de si mesmo, ou seja, são dados obtidos nos mesmos indivíduos ou exemplares, em momentos ou situações diferentes. No uso do teste dos sinais com dados que são combinados aos pares, convertem-se os dados brutos em sinais de mais ou menos, como segue. Esse teste pode substituir o teste t para dados pareados da diferença entre as médias populacionais 1 e 2, se os dados amostrais não seguem a distribuição normal. São exemplos de dados pareados: Pesos de indivíduos antes e após a dieta; medição de impurezas das mesmas amostras de um produto químico tomadas por dois pesquisadores diferentes, utilização de dois tipos de aparelhos de medida diferentes para um sistema de injeção eletrônica, utilizando os mesmos 12 carros. Os procedimentos para o teste dos sinais envolvendo dados pareados são os seguintes: 1 Elaborar as hipóteses nula e alternativa. O teste dos sinais para uma amostra ou teste da mediana, tem as seguintes hipóteses: 1º caso) 0~:H d0 0~:H d1 2º caso) 0~:H d0 0~:H d1 3º caso) 0~:H d0 0~:H d1 Onde d ~ representa a mediana das diferenças 2 Calcular as diferenças di = X1i – X2i e anotar os sinais Suponha que, x11, x12, . . ., x1n, sejam os valores de uma amostra aleatória na primeira situação e que, x21, x22, . . ., x2n, sejam os valores da mesma amostra, porém, na segunda situação. Calcular todas as diferenças di = X1i – X2i, com i = 1, . . ., n e anotar os sinais negativos (-) e positivos (+). A ideia é a de que, se o número de sinais positivos (+) for aproximadamente igual ao número de sinais negativos (-), teoricamente, a mediana das diferenças será igual a zero e, consequentemente, H0 não será rejeitada. 3 Achar o valor da Estatística do teste Sendo n o número total de sinais negativos e positivos e x é o número de vezes que o sinal menos frequente ocorreu, temos os seguintes casos: 1º caso) Para n ≤ 25 a estatística do teste é x. 2º caso) Para n > 25 a estatística do teste é 2 n 2 n 5,0x z 4 Achar o valor crítico 1º caso) Para n ≤ 25, o valor crítico x é achado na tabela A-7, em anexo. 2º caso) Para n > 25, o valor crítico z é achado na tabela 2.2 da distribuição normal. 17 5 Conclusão1º caso) Para n ≤ 25, se estatística do teste “x” for menor do que ou igual ao valor crítico X, rejeita-se 0H , em caso contrário não se rejeita H0. 2º caso) Para n > 25, se a estatística do teste z cair na região de rejeição, rejeita-se 0H , em caso contrário não se rejeita H0. Exemplos ( 1 ) Um engenheiro de automóveis está estudando dois tipos de aparelhos de medida por um sistema de injeção eletrônica a fim de determinar se eles diferem em seus desempenhos de milhagem de combustível. O aparelho 1 é instalado em 12 carros diferentes, e o teste é realizado em cada carro. O aparelho 2 é instalado, em seguida, nos mesmos 12 carros, e o mesmo teste é realizado em cada um deles. Supondo que os dados amostrais não aderem a distribuição normal (neste caso o teste t para dados pareados não é adequado), aplique o teste dos sinais para verificar se os dois tipos de aparelhos diferem em seus desempenhos de milhagem de combustível. Use o nível de significância de 5%. Os dados do desempenho da milhagem de combustível são apresentados a seguir. Aparelho 1 17,6 19,4 19,5 17,1 15,3 15,9 16,3 18,4 17,3 19,1 17,8 18,2 Aparelho 2 16,8 20 18,2 16,4 16 15,4 16,5 18 16,4 20,1 16,7 17,9 a) Elaborar as hipóteses nula e alternativa 0~:H d0 (os dois tipos de aparelhos não diferem em seus desempenhos de milhagem de combustível) 0~:H d1 (os dois tipos de aparelhos diferem em seus desempenhos de milhagem de combustível) b) Calcular as diferenças di = X1i – X2i e anotar os sinais Aparelho 1 17,6 19,4 19,5 17,1 15,3 15,9 16,3 18,4 17,3 19,1 17,8 18,2 Aparelho 2 16,8 20 18,2 16,4 16 15,4 16,5 18 16,4 20,1 16,7 17,9 di = X1i – X2i 0,8 -0,6 1,3 0,7 -0,7 0,5 -0,2 0,4 0,9 -1 1,1 0,3 Sinal + - + + - + - + + - + + c) Achar o valor da Estatística do teste Temos n =12 sinais positivos e negativos. Para n ≤ 25 a estatística do teste é x = número de vezes que o sinal menos frequente ocorreu. O sinal positivo (+) ocorreu 8 vezes, enquanto o sinal negativo (-) ocorreu 4 vezes, logo, x = 4. 18 d) Achar o valor crítico Temos n = 12. Para n ≤ 25, utiliza-se a tabela A-7 para achar o valor crítico x. Na margem esquerda dessa tabela procure n = 12. O nível de significância é de 5%. Então, na margem superior procure = 0,05 (duas caudas, porque o sinal de H1 é “”, ou seja, o teste é bilateral). No cruzamento da linha do n = 12 com a coluna do = 0,05, acha-se o valor crítico x = 2, como mostra o esquema a seguir. Tabela A-7 – Valores críticos para o teste dos sinais. n 0,005 (uma cauda) 0,01 (duas caudas) 0,01 (uma cauda) 0,02 (duas caudas) 0,025 (uma cauda) 0,025 (uma cauda) 0,05 (duas caudas) 0,05 (duas caudas) 1 12 2 25 Logo, o valor crítico é X = 2. e) Conclusão Haja vista que ocorreu (X= 4) > (X = 2), não se rejeita H0 ao nível de significância de 5%. Portanto, os dois tipos de aparelhos não diferem em seus desempenhos de milhagem de combustível. 5.3 O teste dos postos com sinais de Wilcoxon Na seção 5.2 o teste dos sinais foi usado para analisar três tipos diferentes de situações: afirmações que envolvem a mediana de uma única amostra, afirmações que envolvem a proporção p de dados nominais ou categóricos, e afirmações que envolvem dados pareados ou emparelhados. O teste dos sinais usou apenas os sinais das diferenças e não suas magnitudes reais. Esta seção introduz o teste dos postos com sinais de Wilcoxon que, também é usado com dados amostrais que envolvem a afirmação da mediana e afirmações que envolvem dados pareados ou emparelhados. Como o teste dos postos com sinais de Wilcoxon incorpora e usa mais informação que o teste dos sinais, tende a fornecer conclusões que refletem melhor a verdadeira natureza dos dados. O teste dos postos com sinais de Wilcoxon é um teste não paramétrico que usa os postos com sinais de dados amostrais. É usado para testar a mediana de uma população. No caso de dados pareados, serve para testar se a mediana das diferenças é igual a zero, ou seja, para testar diferenças nas distribuições populacionais Definição 19 Teste dos Postos com sinais de Wilcoxon Suposições 1. Os dados são selecionados aletoriamente. 2. A população das diferenças tem uma distribuição contínua e simétrica. Notação 1. T = a menor das soma dos postos em valor absoluto. 2. T - = a soma dos postos negativos em valor absoluto. 3. T + = a soma dos postos positivos em valor absoluto. Estatística do teste Sendo n o número de diferenças não nulas: 1º caso) Para n ≤ 30 a estatística do teste é T. 2º caso) Para n > 30 a estatística do teste é 24 )1n2)(1n(n 4 )1n(n T z Valores Críticos 1 Se n ≤ 30, o valor crítico T é encontrado na tabela A-8. 2 Se n > 30, os valores críticos de z são encontrados na tabela 2.2 da distribuição normal. 5.3.1 O teste dos postos com sinais de Wilcoxon para uma população Assim como o teste dos sinais para uma população, o teste dos postos com sinais de Wilcoxon para uma população, também realiza o teste da mediana. Os procedimentos do teste dos postos com sinais de Wilcoxon para uma população são os seguintes: 1 Elaborar as hipóteses nula e alternativa. O teste do dos postos com sinais de Wilcoxon para uma população ou teste da mediana, tem as seguintes hipóteses: 1º caso) 00 ~~:H 01 ~~:H 2º caso) 00 ~~:H 01 ~~:H 3º caso) 00 ~~:H 01 ~~:H 2 Calcular todas as diferenças (xi - 0μ ) e atribuir os postos com sinais 20 Suponha que x1, x2, . . ., xn, seja um amostra aleatória de uma distribuição contínua, com mediana 0 ~ . Calcule todas as diferenças di = xi - 0, com i =1,2, . . .,n. Conserve os sinais, mas ignore quaisquer diferenças di = 0. Ignore os sinais das diferenças e ordene-as da menor para a maior. Logo após, atribua os postos a cada diferença, mantendo o sinal da diferença. Quando as diferenças tiverem o mesmo valor numérico, associe a elas a média dos postos envolvidos no empate. . 3 Achar o valor da Estatística do teste Faça a soma dos postos com sinais negativos, em valor absoluto (T - ). Faça a soma dos postos com sinais positivos, em valor absoluto (T + ). Sendo, n é o número de diferenças (di) não nulas e T a menor das somas entre T - e T + : 1º caso) Para n ≤ 30 a estatística do teste é T 2º caso) Para n > 30 a estatística do teste é: 24 )1n2)(1n(n 4 )1n(n T z 4 Achar o valor crítico 1º caso) Para n ≤ 30, o valor crítico X é achado na tabela A-8, em anexo. 2º caso) Para n > 30, o valor crítico Z é achado na tabela 2.2 da distribuição normal. 5 Conclusão 1º caso) Para n ≤ 30, se estatística do teste “x” for menor do que ou igual ao valor crítico “x,” rejeita-se 0H , caso contrário não se rejeita H0. 2º caso) Para n > 30, se estatística do teste “z” cair na região de rejeição (R.R.), rejeita-se 0H , caso contrário não se rejeita H0. Exemplos ( 1 ) Montgomery, Peck e Vining (2001) relatam um estudo no qual um motor de foguete é feito pela união de um propulsor de explosão e um propulsor de manutenção dentro de uma cápsula de metal. A força de resistência ao cisalhamento da união dos dois tipos de propulsores é uma característica importante. Os dados a seguir mostram os resultados de teste de 20motores selecionados aleatoriamente. Supondo que as forças de cisalhamento observadas não seguem a distribuição normal (Neste caso o teste t para a média não é adequado), verifique pelo teste dos postos com sinais de Wilcoxon se a força de cisalhamento mediana é de 2000 psi ao nível de significância de 5%. 2158,70 1678,15 2316,00 2061,30 2207,50 1708,30 1784,70 2575,10 2357,90 2256,70 2165,20 2399,55 1779,80 2336,75 1765,30 2053,50 2414,40 2200,50 2654,20 1753,70 a) Elaborar as hipóteses nula e alternativa 2000~:H0 psi (a força de cisalhamento mediana da união dos dois tipos de propulsores é de 2000 psi) 2000~:H1 psi (a força de cisalhamento mediana da união dos dois tipos de propulsores é diferente de 2000 psi) 21 b) Calcular as diferenças (xi - 0μ ), e anotar os postos com sinais Observação i X i X i - 2000 Posto com sinal 16 2053,50 53,50 +1 4 2061,30 61,30 +2 1 2158,70 158,70 +3 11 2165,20 165,20 +4 18 2200,50 200,50 +5 5 2207,50 207,50 +6 7 1784,70 -215,30 -7 13 1779,80 -220,20 -8 15 1765,30 -234,70 -9 20 1753,70 -246,30 -10 10 2256,70 256,70 +11 6 1708,30 -291,70 +12 3 2316,00 316,00 +13 2 1678,15 -321,85 +14 14 2336,75 336,75 +15 9 2357,90 357,90 +16 12 2399,55 399,55 +17 17 2414,40 414,40 +18 8 2575,10 575,10 -19 19 2654,20 654,20 +20 c) Achar o valor da Estatística do teste Temos n = 20 diferenças não nulas. Para n ≤ 25 a estatística do teste é T = a menor das somas dos postos em valor absoluto. T + = 1 + 2 + 3 + 4 + 5+ 6 + 11 +13 +15 +16 +17+ 18 +19 + 20 = 150 T - = 7 + 8 +9 +10 + 12 + 14 = 60. Logo, T = 60 d) Achar o valor crítico Temos n = 20. Para n ≤ 30, utiliza-se a tabela A-8 para achar o valor crítico T. Na margem esquerda dessa tabela procure n = 20. O nível de significância é de 5%. Então, na margem superior procure = 0,05 (duas caudas, porque o sinal de H1 é , ou seja, o teste é bilateral). No cruzamento da linha do n = 20 com a coluna do = 0,05, acha-se o valor crítico T = 52, como mostra o esquema a seguir. Tabela A-8 – Valores críticos para o teste dos postos com sinais de Wilcoxon. N 0,005 (uma cauda) 0,01 (duas caudas) 0,01 (uma cauda) 0,02 (duas caudas) 0,025 (uma cauda) 0,025 (uma cauda) 0,05 (duas caudas) 0,05 (duas caudas) 1 20 52 22 25 Logo, o valor crítico é T = 52. e) Conclusão Haja vista que ocorreu (T= 60) > (T = 52), não se rejeita H0 ao nível de significância de 5%. Portanto, a força de cisalhamento mediana da união dos dois tipos de propulsores é de 2000 psi. ( 2 ) Quando perguntado sobre a temperatura média de um adulto sadio, todo mundo sempre responde que é de 98,6ºF. Os dados a seguir são referentes a 106 temperaturas constantes obtidas por pesquisadores da Universidade de Maryland, ao meio dia, no segundo dia da pesquisa, de indivíduos adultos. Foi realizado o teste de normalidade e chegou-se à conclusão de que os dados não aderem à distribuição normal. Utilize o teste dos postos com sinais de Wilcoxon para testar a hipótese de que a temperatura corporal de indivíduos adultos sadios é inferior a 98,6ºF, utilizando o nível de significância de 5%. 98,6 98,4 97,9 98,6 98,8 98,0 98,8 98,4 98,0 98,6 97,5 97,6 96,5 98,0 98,8 97,3 97,2 98,6 99,6 97,0 97,1 97,4 99,0 97,6 98,0 98,6 98,4 98,6 97,5 98,2 96,9 98,7 99,0 98,8 98,4 98,4 98,8 99,4 98,8 98,0 98,8 98,7 98,6 98,0 98,9 98,4 97,6 99,2 98,9 97,1 98,0 97,7 98,4 98,6 98,0 97,8 98,6 99,5 98,0 98,3 98,6 98,7 98,4 97,8 97,3 98,2 98,6 98,6 97,1 98,0 98,4 98,2 97,3 97,8 99,1 97,8 96,5 98,0 98,7 98,0 97,9 99,4 97,6 98,5 97,8 97,0 97,4 97,9 98,6 98,5 97,6 97,4 98,4 98,7 98,0 98,5 98,7 98,2 97,6 97,0 98,2 98,3 98,4 98,6 98,4 98,6 a) Elaborar as hipóteses nula e alternativa 6,98~:H0 ºF (a temperatura corporal mediana de adultos saudáveis não é menor do que 98,6ºF) 6,98~:H1 ºF (a temperatura corporal mediana de adultos saudáveis é menor do que 98,6ºF) b) Calcular as diferenças (xi - 0μ ) e anotar postos com sinais xi di = xi - 98,6 xi di = xi - 98,6 xi di = xi - 98,6 98,6 0,0 98,0 -0,6 97,5 -1,1 98,8 0,2 98,8 0,2 97,2 -1,4 23 96,5 -2,1 97,1 -1,5 99,0 0,4 99,6 1,0 98,4 -0,2 97,5 -1,1 98,0 -0,6 99,0 0,4 98,4 -0,2 96,9 -1,7 98,8 0,2 98,8 0,2 98,8 0,2 98,9 0,3 97,6 -1,0 98,6 0,0 98,0 -0,6 98,4 -0,2 98,9 0,3 98,6 0,0 98,0 -0,6 98,0 -0,6 98,4 -0,2 97,3 -1,3 98,6 0,0 97,1 -1,5 98,4 -0,2 98,6 0,0 99,1 0,5 96,5 -2,1 97,3 -1,3 97,9 -0,7 97,6 -1,0 98,7 0,1 97,4 -1,2 98,6 0,0 97,8 -0,8 98,4 -0,2 98,0 -0,6 97,6 -1,0 97,6 -1,0 98,2 -0,4 98,7 0,1 98,6 0,0 98,6 0,0 98,3 -0,3 98,6 0,0 98,0 -0,6 98,4 -0,2 98,6 0,0 97,6 -1,0 98,4 -0,2 97,3 -1,3 98,6 0,0 98,0 -0,6 97,4 -1,2 97,6 -1,0 97,0 -1,6 98,6 0,0 98,2 -0,4 98,7 0,1 98,8 0,2 98,4 -0,2 99,4 0,8 98,0 -0,6 98,7 0,1 98,0 -0,6 98,4 -0,2 99,2 0,6 97,1 -1,5 97,7 -0,9 98,6 0,0 97,8 -0,8 99,5 0,9 98,3 -0,3 98,7 0,1 98,6 0,0 98,2 -0,4 98,6 0,0 97,8 -0,8 98,2 -0,4 97,8 -0,8 98,0 -0,6 98,0 -0,6 98,0 -0,6 99,4 0,8 98,5 -0,1 97,0 -1,6 97,9 -0,7 98,5 -0,1 97,4 -1,2 98,7 0,1 98,5 -0,1 98,2 -0,4 97,0 -1,6 97,8 -0,8 98,4 -0,2 98,4 -0,2 97,9 -0,7 98,8 0,2 di em ordem crescente Posto com sinal di em ordem crescente Posto com sinal di em ordem crescente Posto com sinal 0,1 5 -0,3 -31 0,8 61 0,1 5 -0,4 -36 -0,8 -61 0,1 5 0,4 36 -0,9 -65,5 0,1 5 0,4 36 0,9 65,5 0,1 5 -0,4 -36 1 70 0,1 5 -0,4 -36 -1 -70 = 24 -0,1 -5 -0,4 -36 -1 -70 -0,1 -5 -0,4 -36 -1 -70 -0,1 -5 0,5 40 -1 -70 0,2 19 -0,6 -48 -1 -70 0,2 19 -0,6 -48 -1 -70 -0,2 -19 -0,6 -48 -1,1 -74,5 -0,2 -19 -0,6 -48 -1,1 -74,5 -0,2 -19 -0,6 -48 -1,2 -77 0,2 19 -0,6 -48 -1,2 -77 -0,2 -19 -0,6 -48 -1,2 -77 0,2 19 -0,6 -48 -1,3 -80 -0,2 -19 -0,6 -48 -1,3 -80 -0,2 -19 -0,6 -48 -1,3 -80 0,2 19 -0,6 -48 -1,4 -82 -0,2 -19 -0,6 -48 -1,5 -84 -0,2 -19 0,6 47,5 -1,5 -84 0,2 19 -0,6 -48 -1,5 -84 -0,2 -19 -0,7 -56 -1,6 -87 0,2 19 -0,7 -56 -1,6 -87 -0,2 -19 -0,7 -56 -1,6 -87 -0,2 -19 -0,8 -61 -1,7 -89 -0,2 -19 0,8 61 -2,1 -90,5 0,3 30,5 -0,8 -61 -2,1 -90,5 -0,3 -31 -0,8 -61 0,3 30,5 -0,8 -61 c) Achar o valor da Estatística do teste T + = ( 5 + . . . + 70) = 641 T - = ( 5 + . . . + 90,5) = 3545 T = menor soma entre T + e T - = 641 Temos n =91 diferenças não nulas. Para n > 30 a estatística do teste é: 24 )1n2)(1n(n 4 )1n(n T z 75,5 27,317 5,2194 24 )1912)(191(91 4 )191(91 641 z d) Achar o valor crítico 25 Temos n = 91 diferenças não nulas. Para n > 30, utiliza-se a tabela 2.2 da distribuição normal para achar o valor crítico z. Temos = 0,05, então tentamos localizar o valor 0,05 no centro da tabela 2.2 da distribuição normal, ou o mais próximo, se esse valor não ocorrer. Os dois valores mais próximos de 0,05 são 0,0505 e 0,0495, os quais possuem a mesma diferença em relação a este. O primeiro valor (0,0505) fornece Z = 1,64 nas margens da tabela, o segundo valor (0,0495), fornece Z = 1,65, então, calcula-se a média aritmética dos dois valores de Z para achar o valor crítico Z/2 = 1,645, como mostra a figura a seguir. Tabela 2.2 Distribuição normal reduzida (P(Z -zc) ou P(Z -zc) Uma vez que o sinal da hipótese H1 é “<”, oteste é unilateral à esquerda e a região de rejeição (R.R.) é igual a = 0,05, situando-se na extremidade esquerda (por isso foi utilizada a tabela 2.2)da distribuição normal, a partir de z = - 1,645, como mostra o gráfico a seguir. e) Conclusão Observa-se pelo gráfico que, o valor da estatística do teste Z = -6,92 cai na região de rejeição (R.R), então, rejeita-se H0 ao nível de significância de 5%. Portanto, há evidências amostrais para acreditarmos que a temperatura corporal mediana de adultos saudáveis é menor do que 98,6ºF. 5.3.2 O teste dos postos com sinais de Wilcoxon para dados pareados Os procedimentos para o teste dos sinais envolvendo dados pareados são os seguintes: 1 Elaborar as hipóteses nula e alternativa. O teste dos sinais para uma amostra ou teste da mediana, tem as seguintes hipóteses: 26 1º caso) 0~:H d0 0~:H d1 2º caso) 0~:H d0 0~:H d1 3º caso) 0~:H d0 0~:H d1 Onde d ~ representa a mediana das diferenças 2 Achar o valor da Estatística do teste Faça a soma dos postos com sinais negativos, em valor absoluto (T - ). Faça a soma dos postos com sinais positivos (T + ). Sendo, n é o número de diferenças não nulas, T = T + se o teste for unilateral à direita ( 0~:H d1 ), T = T - se o teste for unilateral à esquerda ( 0~:H d1 ) e T = menor das somas entre T - e T+, se o teste for bilateral ( 0~:H d1 ) temos: 1º caso) Para n ≤ 30 a estatística do teste é T , ou 2º caso) Para n > 30 a estatística do teste será: 24 )1n2)(1n(n 4 )1n(n T z 3 Achar o valor crítico 1º caso) Para n ≤ 30, o valor crítico X é achado na tabela A-8, em anexo. 2º caso) Para n > 30, o valor crítico Z é achado na tabela 2.2 da distribuição normal. 4 Conclusão 1º caso) Para n ≤ 30, se estatística do teste “x” for menor do que ou igual ao valor crítico X, rejeita-se 0H , caso contrário não se rejeita H0. 2º caso) Para n > 30, se estatística do teste “z” cair na região de rejeição (R.R.), rejeita-se 0H , caso contrário não se rejeita H0. Exemplos ( 1 ) Um engenheiro de automóveis está estudando dois tipos de aparelhos de medida por um sistema de injeção eletrônica a fim de determinar se eles diferem em seus desempenhos de milhagem de combustível. O aparelho 1 é instalado em 12 carros diferentes, e o teste é realizado em cada carro. O aparelho 2 é instalado, em seguida, nos mesmos 12 carros, e o mesmo teste é realizado em cada um deles. Supondo que os dados amostrais não aderem a distribuição normal (neste caso teste t para dados pareado não é adequado), aplique o teste dos sinais para verificar se os dois tipos de aparelhos diferem em seus desempenhos de milhagem de combustível. Use o nível de significância de 5%. Os dados do desempenho da milhagem de combustível são apresentados a seguir. 27 Aparelho 1 17,6 19,4 19,5 17,1 15,3 15,9 16,3 18,4 17,3 19,1 17,8 18,2 Aparelho 2 16,8 20 18,2 16,4 16 15,4 16,5 18 16,4 20,1 16,7 17,9 a) Elaborar as hipóteses nula e alternativa 0~:H d0 (os dois tipos de aparelhos não diferem em seus desempenhos de milhagem de combustível) 0~:H d1 (os dois tipos de aparelhos diferem em seus desempenhos de milhagem de combustível) b) Calcular as diferenças di = X1i – X2i e atribuir os postos com sinais Para cada par de dados, ache a diferenças di = X1i – X2i, com i = 1, . . ., n . Conserve os sinais, mas ignore quaisquer pares para os quais di = 0. Ignore os sinais das diferenças e ordene-as da menor para a maior. Logo após, atribua os postos a cada diferença, mantendo o sinal da diferença. Quando as diferenças tiverem o mesmo valor numérico, associe a elas a média dos postos envolvidos no empate. Aparelho 1 17,6 19,4 19,5 17,1 15,3 15,9 16,3 18,4 17,3 19,1 17,8 18,2 Aparelho 2 16,8 20 18,2 16,4 16 15,4 16,5 18 16,4 20,1 16,7 17,9 di = X1i – X2 i 0,8 -0,6 1,3 0,7 -0,7 0,5 -0,2 0,4 0,9 -1 1,1 0,3 di (ordem crescente em valor absoluto) -0,2 0,3 0,4 0,5 -0,6 0,7 -0,7 0,8 0,9 -1,0 1,1 1,3 Posto com sinal -1 +2 +3 +4 -5 6,5 -6,5 8 9 -10 11 12 c) Achar o valor da Estatística do teste T - = soma dos postos negativos em valor absoluto = 1 + 5 + 6,5 + 10 = 22,5 T + = soma dos postos positivos = 2 + 3 + 4 + 6,5 + 8 +9 + 11 +12 = 55,5 T = menor das somas entre T - e T+ = 22,5 d) Achar o valor crítico Temos n = 12 pares com diferenças não nulas. Para n ≤ 30, no teste dos postos com sinais de Wilcoxon utiliza-se a tabela A-8 para achar o valor crítico T. Na margem esquerda dessa tabela procure n = 12. O nível de significância é de 5%. Então, na margem superior procure = 0,05 (duas caudas, porque o sinal de H1 é “”, ou seja, o teste é bilateral). No cruzamento da linha do n = 12 com a coluna do = 0,05, acha-se o valor crítico T = 14, como mostra o esquema a seguir. Tabela A-8 – Valores críticos para o teste dos sinais. 28 N 0,005 (uma cauda) 0,01 (duas caudas) 0,01 (uma cauda) 0,02 (duas caudas) 0,025 (uma cauda) 0,025 (uma cauda) 0,05 (duas caudas) 0,05 (duas caudas) 1 12 14 30 Logo, o valor crítico é T = 14. e) Conclusão Haja vista que ocorreu (T= 22,5) > (T = 14), não se rejeita H0 ao nível de significância de 5%. Portanto, os dois tipos de aparelhos não diferem em seus desempenhos de milhagem de combustível. ( 2 ) Dois tipos de pontas podem ser usados em um teste de dureza de Rockwell. São selecionados aleatoriamente, 32 corpos de prova de lingote, de uma liga à base de níquel, e cada um é testado duas vezes, uma com cada tipo de ponta. As leituras das durezas da escala C Rockwell são mostradas a seguir. Admitindo que os dados não seguem a distribuição normal (neste caso o teste t para dados parados não é adequado), use o teste dos postos com sinais de Wilcoxon ao nível de significância de 5%, para determinar se os dois tipos de pontas produzem leituras de dureza equivalentes. Corpo de prova Ponta 1 Ponta 2 Corpo de prova Ponta 1 Ponta 2 1 62 65 18 63 62 2 59 57 19 54 54 3 52 61 20 58 58 4 59 51 21 58 59 5 57 54 22 58 58 6 51 58 23 58 52 7 60 54 24 58 54 8 57 58 25 59 58 9 54 62 26 56 49 Corpo de prova Ponta 1 Ponta 2 Corpo de prova Ponta 1 Ponta 2 10 57 60 27 63 58 11 58 55 28 61 54 12 54 56 29 59 51 13 61 56 30 63 55 14 55 52 31 57 62 15 62 50 32 50 55 16 55 56 33 53 55 17 58 54 34 54 56 a) Elaborar as hipóteses nula e alternativa 29 0~:H d0 (os dois tipos de pontas produzem leituras de dureza equivalentes) 0~:H d1 (os dois tipos de pontas produzem leituras de dureza diferentes) b) Calcular as diferenças di = X1i – X2i e atribuir os postos com sinais Para cada par de dados, ache a diferenças di = X1i – X2i, com i = 1, . . ., n . Conserve os sinais, mas ignore quaisquer pares para os quais di = 0. Corpo de prova Ponta 1 Ponta 2 di =X1i –x2i Corpo de prova Ponta 1 Ponta 2 di =X1i –x2i 1 62 65 -3 18 63 62 1 2 59 57 2 19 54 54 0 3 52 61 -9 20 58 58 0 4 59 51 8 21 58 59 -1 5 57 54 3 22 58 58 0 6 51 58 -7 23 58 52 6 7 60 54 6 24 58 54 4 8 57 58 -1 25 59 58 1 9 54 62 -8 26 56 49 7 10 57 60 -3 27 63 58 5 11 58 55 3 28 61 54 7 12 54 56 -2 29 59 51 8 13 61 56 5 30 63 55 8 14 55 52 3 31 57 62 -5 15 62 50 12 32 50 55 -5 16 55 56 -133 53 55 -2 17 58 54 4 34 54 56 -2 Ignore os sinais das diferenças e ordene-as da menor para a maior. Logo após, atribua os postos a cada diferença, mantendo o sinal da diferença. Quando as diferenças tiverem o mesmo valor numérico, associe a elas a média dos postos envolvidos no empate. Corpo de prova di crescente Posto com sinal Corpo de prova di crescente Posto com sinal 8 -1 -3 13 5 18,5 16 -1 -3 27 5 18,5 18 1 3 31 -5 -18,5 21 -1 -3 32 -5 -18,5 25 1 3 7 6 21,5 2 2 7,5 23 6 21,5 12 -2 -7,5 6 -7 -24 33 -2 -7,5 26 7 24 34 -2 -7,5 28 7 24 = 30 1 -3 -12 4 8 27,5 5 3 12 9 -8 -27,5 10 -3 -12 29 8 27,5 11 3 12 30 8 27,5 14 3 12 3 -9 -30 17 4 15,5 15 12 31 24 4 15,5 c) Achar o valor da Estatística do teste T - = soma dos postos negativos em valor absoluto T - = 3 + 3 + 3 + 7,5 + 7,5 + 7,5 + 12 + 12 + 18,5 + 18,5 + 24 + 27,5 + 30 T - = 174 T + = soma dos postos positivos T + = 3 + 3 + 7,5 + 12 + 12 + 12 + 15,5 + 16,5 + 18,5 + 18,5 + 21,5 + 21,5 + 24 + 24 +27,5 + 27,5 + 27,5 + 31 T + = 323 T = menor das somas entre T - e T+ = 174 Temos n = 31 pares com diferença não nula. Para n > 30 a estatística do teste é: 24 )1n2)(1n(n 4 )1n(n T z 45,1 0294,51 74 24 )1312)(131(31 4 )131(31 174 z d) Achar o valor crítico Temos n = 31 pares com diferença não nula. No teste dos postos com sinais de Wilcoxon, para n > 30, utiliza-se a tabela 2.2 da distribuição normal para achar o valor crítico z. Temos = 0,05, como o teste é bilateral, devido à ocorrência do sinal em H1, calcula-se /2 = 0,05/2 =0,025. No centro da tabela 2.2 da distribuição normal, procura- se o valor 0,025. Na margem esquerda e na mesma linha do valor 0,025 ocorre o valor 1,9 na margem superior e na mesma colunado valor 0,025, ocorre o valor 6, portanto Z/2 = 1,96 como mostra o esquema seguir. Tabela 2.2 Distribuição normal reduzida (P(Z -zc) ou P(Z -zc)) 31 Uma vez que o sinal da hipótese H1 é “”, o teste é bilateral e a região de rejeição (R.R.) é igual a = 0,05, sendo dividida em duas partes de 0,025, situando-se nas extremidades esquerda e direita da distribuição normal (por isso foi utilizada a tabela 2.2), aparecendo à esquerda de -1,96 e à direita de 1,96, como mostra a figura a seguir. e) Conclusão Observa-se pelo gráfico que, o valor da estatística do teste Z = -1,45 cai na região de aceitação (R.A.), portanto, não se rejeita-se H0 ao nível de significância de 5%. Portanto, há evidências amostrais para acreditarmos que os dois tipos de pontas produzem leituras de dureza equivalentes. 5.4 O teste da soma dos postos de Wilcoxon para duas amostras independentes Nesta seção é estudado o teste da soma dos postos de Wilcoxon, um teste não paramétrico de que dois conjuntos independentes de dados amostrais provenham de populações com a mesma distribuição. Vale lembrar que, duas amostras são independentes se os valores selecionados de uma população não estão associados de alguma forma com os valores amostrais da outra população. O teste da soma dos postos de Wilcoxon é um teste não paramétrico que usa os postos de dados amostrais de duas populações independentes. A hipótese nula desse teste é: Definição 32 210 ~~:H (as duas medianas populacionais são iguais) Conceito básico: O teste da soma dos postos de Wilcoxon é equivalente ao teste U de Mann-Whitney, que é incluído em alguns livros e programas computacionais, como o Minitab. A ideia fundamental do teste da soma dos postos de Wilcoxon é a seguinte: Se duas amostras são extraídas de populações idênticas e se associam postos a todos os valores individuais combinados em um único conjunto de dados, então os postos altos e baixos devem se distribuir igualmente entre as duas amostras, nesse caso, as duas medianas populacionais são iguais. Se os postos baixos se concentrarem predominantemente em uma amostra e os altos, na outra, suspeitamos de que as duas populações não sejam idênticas, isto é, as duas medianas populacionais não são iguais. Teste da soma dos postos de Wilcoxon Suposições 1. Ha duas amostras independentes de dados selecionados aletoriamente. 2. Não ha qualquer exigência de que as duas populações tenham distribuição normal ou qualquer outra distribuição particular. Notação 1. n1 e n2 são os tamanhos das amostras 1 e 2, respectivamente . 2. R1 e R2 são as somas dos postos das amostras 1 e 2, respectivamente . 3. R = R1 = soma dos postos da amostra 1. 4. R e R, são, respectivamente, a média e o desvio padrão dos valores amostrais de R que são esperados quando as duas populações são idênticas. Estatística do teste Sendo n o número de diferenças não nulas: 1º caso) Sendo n1 ≤ n2, para n1 ≤ 10 ou n1 ≤ 10, ou ambos, a estatística do teste será representada por R1 e R2. 2º caso) Para n1 > 10 e n2 > 10 a estatística do teste será: 1R 1R1Rz , em que: 2 )1nn(n 211 1R e 12 )1nn(nn 2121 1R Valores Críticos 1 Se n1 ≤ 10 ou n2 ≤ 10, om ambos, o valor crítico R é encontrado na tabela IX, em anexo. 2 Se n1 > 10 e n2 > 10, os valores crítico de z são achados na tabela 2.2 da distribuição normal. Os procedimentos para o teste da soma dos postos de Wilcoxon para amostras independentes são os seguintes: 1 Elaborar as hipóteses nula e alternativa. 33 O teste da soma dos postos de Wilcoxon, tem as seguintes hipóteses: a) 210 ~~:H 211 ~~:H b) 210 ~~:H 211 ~~:H c) 210 ~~:H 211 ~~:H 2 Atribuir os postos Sejam, 11n1211 x., . . , x,x e 22n2221 x., . . , x,x , duas amostras aleatórias independentes de duas populações contínuas. Organize todas as n1 + n2 observações em uma única grande amostra, em ordem crescente, e atribua os postos. O menor valor recebe o posto 1, o segundo menor o posto 2, e assim por diante. Se houver empates entre postos, atribua a média dos postos. 3 Achar o valor da Estatística do teste 1º caso) para n1 ≤ 10 ou n2 ≤ 10, ou ambos, a estatística do teste será representada por R1 e R2: R1 = menor soma dos postos R2 = n1(n1 +n2 +1) – R1 2º caso) Para n1 > 10 e n2 > 10, a estatística do teste será: R RRz em que: R1 = soma dos postos da amostra 1, R2 = soma dos postos da amostra 2, R = R1, 2 )1nn(n 211 R e 12 )1nn(nn 2121 R 4 Achar o valor crítico 1º caso) para n1 ≤ 10 ou n2 ≤ 10, ou ambos, R é achado na tabela XI, em anexo. 2º caso) Para n1 > 10 e n2 > 10, o valor crítico Z é achado na tabela 2.2 da distribuição normal. 5 Conclusão 1º caso) para n1 ≤ 10 ou n2 ≤ 10, ou ambos. a) Para 211 ~~:H se R1 R ou R2 R, rejeita-se H0, caso contrário não se rejeita H0. b) Para 211 ~~:H se R1 R, rejeita-se H0, caso contrário não se rejeita H0. c) Para 211 ~~:H se R2 R, rejeita-se H0, caso contrário não se rejeita H0. 2º caso) Para n1 > 10 e n2 > 10, se estatística do teste “z” cair na região de rejeição (R.R.), rejeita-se 0H , caso contrário não se rejeita H0. Exemplos 34 ( 1 ) Está sendo estudado o esforço axial médio em membros extensíveis usados nas estrutura de aeronaves. Duas ligas estão sendo investigadas. A liga 1 é um materialtradicional, e a liga 2 é uma nova liga de alumínio e lítio, muito mais leve do que o material padrão. Dez espécimes de cada liga são testados, medindo o esforço axial em psi. Os dados amostrais estão reunidos na ta bela a seguir. Testar a afirmação de que ambas as ligas apresentam o mesmo esforço axial médio, ao nível de significância de 5%. Liga 1 Liga 2 3238 3254 3261 3248 3195 3229 3187 3215 3246 3225 3209 3226 3190 3217 3212 3240 3204 3241 3258 3234 a) Elaborar as hipóteses nula e alternativa. O teste da soma dos postos de Wilcoxon, tem as seguintes hipóteses: 210 ~~:H (ambas as ligas apresentam o mesmo esforço axial médio). 211 ~~:H (As ligas não apresentam o mesmo esforço axial médio). b) Atribuir os postos Sejam, 11n1211 x., . . , x,x e 12n2221 x., . . , x,x , duas amostras aleatórias independentes de duas populações contínuas. Organize todas as n1 + n2 observações em uma única grande amostra, em ordem crescente, e atribua os postos. O menor valor recebe o posto 1, o segundo menor o posto 2, e assim por diante. Se houver empates entre postos, atribua a média dos postos. Número da liga Tensão Axial Posto Número da liga Tensão Axial Posto 2 3187 1 1 3229 11 1 3190 2 2 3234 12 1 3195 3 1 3238 13 1 3204 4 2 3240 14 2 3209 5 1 3241 15 2 3212 6 1 3246 16 2 3215 7 2 3248 17 1 3217 8 1 3254 18 1 3225 9 2 3258 19 2 3226 10 2 3261 20 3 Achar o valor da Estatística do teste Temos n1 = n2 = 10. Sendo n1 n2, para n1 ≤ 10 ou n1 ≤ 10, ou ambos, a estatística do teste será representada por R1 e R2. 35 R1 = menor soma dos postos R1 = (2 + 3 +4 + 8 + 9 + 11 + 13 + 15 + 16 + 18) = 99 R2 = n1(n1 +n2 +1) – R1 R2 = 10 (10 + 10 + 1) - 99 = 111 4 Achar o valor crítico Temos n1 = n2 = 10. Para n1 ≤ 10 ou n2 ≤ 10, ou ambos, o valor crítico R é achado na tabela XI, em anexo, como mostra a figura a seguir: Tabela XI – Valores críticos para o Teste de Wilcoxon de duas amostras R*0,05. 5 Conclusão Temos n1 = n2 = 10 para n1 ≤ 10 ou n2 ≤ 10, ou ambos. Para 211 ~~:H se R1 R ou R2 R, rejeita-se 0H , caso contrário não se rejeita H0. Como ambos R1 = 99 e R2 = 111 são maiores do que R = 78, não se rejeita H0 ao nível de significância de 5%. Portanto, ambas as ligas apresentam o mesmo esforço axial médio. ( 2 ) Um engenheiro eletricista deve projetar um circuito que forneça a quantidade máxima de corrente de um tubo de imagem para se alcançar brilho suficiente da imagem. Dentro de suas restrições de projeto ele desenvolve dois tipos de circuitos candidatos e testa os protótipos de cada um. Os dados resultantes (em microampères) são mostrados a seguir: Protótipo 1 2 3 4 5 6 7 8 9 10 11 12 13 Circuito 1 251 255 258 257 250 251 254 250 248 252 253 255 256 Circuito 2 250 253 249 256 259 252 260 251 258 250 251 Use o este da soma dos postos de Wilcoxon para testar se a corrente mediana do circuito 1 é menor do que a corrente mediana do circuito 2. Use = 0,05. 1 Elaborar as hipóteses nula e alternativa. 210 ~~:H (a corrente mediana do circuito 1 é igual a corrente mediana do circuito 2). 211 ~~:H (a corrente mediana do circuito 1 é menor do que a corrente mediana do circuito 2). 36 2 Atribuir os postos Sejam, 11n1211 x., . . , x,x e 12n2221 x., . . , x,x , duas amostras aleatórias independentes de duas populações contínuas. Organize todas as n1 + n2 observações em uma única grande amostra, em ordem crescente, e atribua os postos. O menor valor recebe o posto 1, o segundo menor o posto 2, e assim por diante. Se houver empates entre postos, atribua a média dos postos. Circuito X Postos Postos 1 248 1 1 2 249 2 2 1 250 3 4,5 1 250 4 4,5 2 250 5 4,5 2 250 6 4,5 1 251 7 8,5 1 251 8 8,5 2 251 9 8,5 2 251 10 8,5 1 252 11 11,5 2 252 12 11,5 1 253 13 13,5 2 253 14 13,5 1 254 15 15 1 255 16 16,5 1 255 17 16,5 1 256 18 18,5 2 256 19 18,5 1 257 20 20 1 258 21 21,5 2 258 22 21,5 2 259 23 23 2 260 24 24 3 Achar o valor da estatística do teste Temos n1 = 13 e n2 = 11. Para n1 > 10 e n2 > 10, a estatística do teste será: R RRz em que: R1 = soma dos postos da amostra 1 R1 = 1 + 4,5 + 4,5 + 8,5 + 8,5 + 11,5 + 13,5 + 15 + 16,5 + 16,5 + 18,5 + 20 + 21,5 = 160 R2 = soma dos postos da amostra 2 R2 = 2 + 4,5 + 4,5 + 8,5 + 8,5 + 11,5 + 13,5 + 18,5 + 21,5 + 23 + 24 = 140 R = R1 = 160 = , = , 37 5,162 2 )11113(13 2 )1nn(n 211 R 2603,17 12 )11113(1113 12 )1nn(nn 2121 R 1448,0 2603,17 5,162160R z R R 4 Achar o valor crítico Temos n1 = 13 e n2 = 11. Para n1 > 10 e n2 > 10, o valor crítico Z é achado na tabela 2.2 da distribuição normal. Temos = 0,05, então tentamos localizar o valor 0,05 no centro da tabela 2.2 da distribuição normal, ou o mais próximo, se esse valor não ocorrer. Os dois valores mais próximos de 0,05 são 0,0505 e 0,0495, os quais possuem a mesma diferença em relação a este. O primeiro valor (0,0505) fornece Z = 1,64 nas margens da tabela, o segundo valor (0,0495), fornece Z = 1,65, então, calcula-se a média aritmética dos dois valores de Z para achar o valor crítico Z/2 = 1,645, como mostra a figura a seguir. Tabela 2.2 Distribuição normal reduzida (P(Z -zc) ou P(Z -zc) Uma vez que o sinal da hipótese H1 é “<”, o teste é unilateral à esquerda e a região de rejeição (R.R.) é igual a = 0,05, situando-se na extremidade esquerda (por isso foi utilizada a tabela 2.2) da distribuição normal, a partir de z = - 1,645, como mostra o gráfico a seguir. 38 5 Conclusão Temos n1 = 13 e n2 = 11. Para n1 > 10 e n2 > 10, se estatística do teste “z” cair na região de rejeição (R.R.), rejeita-se 0H , caso contrário não se rejeita H0. Observa-se que z = -0,1448 cai na região de aceitação (R.A), então não se rejeita H0 ao nível de significância de 5%. Portanto, a corrente mediana do circuito 1 é igual a corrente mediana do circuito 2. 5.5 O teste de Kruskal-Wallis O teste de Kruskal-Wallis é usado para testar a hipótese nula de que três ou mais amostras independentes provêm de populações idênticas. A ideia é a de que, se as populações que estão sendo comparadas, são idênticas, suas médias também o são. Esse teste é uma alternativa ao teste F paramétrico (análise de variância envolvendo um fator). A vantagem do teste de Kruskall-Wallis em relação ao teste F, é a de que o mesmo não exige que as populações envolvidas tenham distribuição normal. O teste de Kruskal-Wallis é um teste não paramétrico que usa os postos de dados amostrais de três ou mais populações independentes. As hipóteses nula e alternativa desse teste são: a210 :H (as médias populacionais são iguais). :H1 Pelo menos uma das médias i é diferente das demais. Teste teste de Kruskal-Wallis Suposições 1. Temos pelo menos três amostras independentes, todas elas selecionadas aletoriamente. 2. Cada amostra tem pelos menos cinco observações. (Se as amostras tiverem menos de cinco observações, consulte as tabelas especiais de valores críticos, como CRC Standard Probabilities and Statistics Tables and formulae, publicado por CRC Press) Definição 39 3. Não há qualquer exigência de que as duas populações tenham distribuição normal ou qualqueroutra distribuição particular. Notação 1. N = número total de observações em todas as amostras. 2. a = número de grupos que estão sendo comparados, ou número de amostras. 3. Ri é a soma dos postos da i-ésima amostra. 4. Rij é o posto da j-ésima observação da i-ésima amostra. 5. ni = tamanho da i-ésima amostra. Estatística do teste A estatística do teste é: )1N(3 n R )1N(N 12 H a 1i i 2 i Valores Críticos 1 O teste é unilateral à direita. 2 Como a estatística H pode ser aproximada por uma distribuição qui-quadrado com = a – 1 graus de liberdade, onde “a’ é o número de amostras, utiliza-se a tabela 5.2 da distribuição qui-quadrado para achar o valor crítico. Os procedimentos para o teste de Kruskal-Wallis são os seguintes: 1 Elaborar as hipóteses nula e alternativa. a210 :H (as médias populacionais são iguais). :H1 Pelo menos uma das médias i , com i = 1, 2, . . .,a é diferente das demais. 2 Atribuir os postos Observe todas as N = n1 + n2 . . . +na observações como se fosse uma única grande amostra, em ordem crescente, e atribua os postos. O menor valor recebe o posto 1, o segundo menor o posto 2, e assim por diante. Se houver empates entre postos, atribua a média dos postos. 3. Achar o valor da Estatística do teste Seja N o número total de observações de todas as amostras. Combine temporariamente as N observações em única grande amostra, em ordem crescente, e atribua os postos. O menor valor recebe o posto 1, o segundo menor o posto 2, e assim por diante. Se houver empates entre postos, atribua a média dos postos envolvidos. Calcule a soma dos postos de cada amostra e o valor da estatística do teste, a qual é dada por: )1N(3 n R )1N(N 12 H a 1i i 2 i Em que: N = número total de observações em todas as amostras. 40 a = número de grupos que estão sendo comparados, ou número de amostras. Ri é a soma dos postos da i-ésima amostra. ni = tamanho da i-ésima amostra. 4 Achar o valor crítico e a região de rejeição A estatística H pode ser aproximada por uma distribuição qui-quadrado com = a – 1 graus de liberdade, onde “a’ é o número de amostras. Então, utiliza-se a tabela 5.2 da distribuição qui-quadrado para achar o valor crítico 2 . O teste de Kruskal-Wallis é sempre unilateral à direita, logo, a região de região rejeição (R.R.) é igual a e fica a direita de 2 , como mostra o gráfico a seguir. 5 Conclusão Se ocorrer H > 2 , H cairá na região de região rejeição (R.R), como mostra o gráfico acima, então H0 será rejeitada ao nível de significância adotado. Se ocorrer H < 2 , H cairá na região de região aceitação (R.A) e H0 não será rejeitada. Exemplo Em Design and Analysis of experiments, 5ª Edição (John Wiley & Sons, 2001), D. C. Montgomery apresenta dados de um experimento, no qual cinco níveis diferentes de conteúdo de algodão em uma fibra sintética foram testados para determinar se o conteúdo de algodão tem efeito sobre a força de tração da fibra. Os dados amostrais são apresentados a seguir. Use o nível de significância de 1%. Porcentagem de algodão 15% 20% 25% 30% 35% 7 12 14 19 7 7 17 18 25 10 15 12 18 22 11 11 18 19 19 15 9 18 19 23 11 41 1 Elaborar as hipóteses nula e alternativa. 543210 ~~~~~:H (o conteúdo de algodão não tem feito sobre a força de tração da fibra). :H1 Pelo menos uma das médias i , com i =1, 2, 3, 4, 5 é diferente das demais (o conteúdo de algodão tem efeito sobre a força de tração da fibra). 2 Atribuir os postos Seja N o número total de observações de todas as amostras. Combine temporariamente as N observações em única grande amostra, em ordem crescente, e atribua os postos. O menor valor recebe o posto 1, o segundo menor o posto 2, e assim por diante. Se houver empates entre postos, atribua a média dos postos envolvidos. Calcule a soma dos postos de cada amostra e o valor da estatística do teste, a qual é dada por: Porcentagem de algodão 15 20 25 30 35 Tração R 1j Tração R 2j Tração R 3j Tração R 4j Tração R 5j 7 2 12 9,5 14 11,0 19 20,5 7 2 7 2 17 14 18 16,5 25 25 10 5 15 12,5 12 9,5 18 16,5 22 23 11 7 11 7 18 16,5 19 20,5 19 20,5 15 12,5 9 4 18 16,5 19 20,5 23 24 11 7 Ri 27,5 66,0 85 113 33,5 3 Achar o valor da Estatística do teste A estatística do teste é: )1N(3 n R )1N(N 12 H a 1i i 2 i 7,5245 5 5,33 5 113 5 85 5 66 5 5,27 n R 22222a 1i i 2 i 84,18 4 )26(25 7,5245 2625 1 H 2 4 Achar o valor crítico e a região de rejeição A estatística H pode ser aproximada por uma distribuição qui-quadrado com = a – 1 graus de liberdade, onde “a’ é o número de amostras. Então, utiliza-se a tabela 5.2 da distribuição qui-quadrado para achar o valor crítico = 42 2 . Como ha 5 amostras e o nível de significância é de 1%, na margem esquerda da tabela 5.2 da distribuição qui quadrado, procure = a – 1 = 5 – 1 = 4 e na margem superior procure = 0,01. No cruzamento da linha do = 4 coma coluna do = 0,01, acha-se 2 =13,277, como mostra a figura a seguir. O teste de Kruskal-Wallis é sempre unilateral à direita, logo, a região de região rejeição (R.R.) é igual a = 0,01 e fica a direita de 2 =13,277, como mostra o gráfico a seguir. 5 Conclusão Haja vista que ocorreu (H =18,84) >( 2 =13,277), H caiu na região de região rejeição (R.R), como mostra o gráfico acima, então rejeita-se H0 ao nível de significância de 1%. Portanto, temos evidências amostrais pra acreditar que o conteúdo de algodão tem efeito sobre a força de tração da fibra. 5.6 Sequência de Exercícios 01. Extrai-se uma amostra de 10 exemplares de um banho de galvanização usado em um processo de fabricação eletrônica e mede-se o pH do banho. Os valores da amostra são listados a seguir. 7,91 7,85 6,82 8,01 7,46 6,95 7,05 7,35 7,25 7,42 43 A engenharia de produção acredita que o pH tenha um valor mediano de 7,0. Os dados amostrais indicam que essa afirmativa esteja correta? Use o teste dos sinais para investigar essa hipótese. Use o nível de significância de 5%. Siga o roteiro abaixo: a) Elabore as hipóteses Ho e H1. b) Calcule as diferenças e atribua os sinais. c) Ache o valor da Estatística do teste. d) Ache o valor crítico. Se necessário, ache a região de rejeição. e) Dê a conclusão. 02. Considere os dados do exercício 1. Use o teste dos postos com sinais de Wilcoxon para testar se o pH mediano é 7,0. Use o nível de significância de 5%. Siga o roteiro abaixo: a) Elabore as hipóteses Ho e H1. b) Calcule as diferenças e atribua os postos com sinais. c) Ache o valor da Estatística do teste. d) Ache o valor crítico. Se necessário, ache a região de rejeição. e) Dê a conclusão. 03. O conteúdo de titânio de uma liga para aeronaves é um determinante importante para resistência. Uma amostra de 32 espécimes de coupons de teste revela os seguintes conteúdos de titânio (em porcentagem). 8,32 8,05 8,93 8,65 8,25 8,46 8,52 8,35 8,36 8,41 8,42 8,30 8,71 8,75 8,60 8,60 8,83 8,55 8,38 8,29 8,46 8,55 8,34 8,33 8,32 8,56 8,74 8,61 8,66 8,30 8,51 8,52 O conteúdo mediano de titânio deveria ser 8,5%. Use o teste dos sinais para testar essa hipótese. Use o
Compartilhar