Baixe o app para aproveitar ainda mais
Prévia do material em texto
Onde estamos Até este ponto no livro, você estudou dezenas de fór- mulas e testes estatísticos diferentes que podem ajudar em um processo de tomada de decisão. Condições es- pecíficas tinham de ser satisfeitas a fim de usar essas fórmulas e testes. Suponha que se acredite que, conforme o número de reclamações de fraude em um estado aumenta, o núme- ro de vítimas de roubo de identidade também aumen- ta. Essa crença pode ser confirmada por dados reais? A Tabela 11.1 mostra os números de reclamações de fraude e vítimas de roubo de identidade para 25 estados selecionados aleatoriamente em um ano recente. (Fonte: Federal Trade Commission.) Tabela 11.1 Reclamações de fraude 19.470 33.434 28.285 15.906 5.165 58.543 5.973 6.693 Vítimas de roubo de identidade 5.060 7.032 4.864 2.915 902 19.232 658 905 Reclamações de fraude 10.644 5.224 33.199 49.501 3.729 15.446 6.600 82.289 Vítimas de roubo de identidade 2.077 666 6.178 12.075 501 3.032 782 21.538 Reclamações de fraude 50.128 13.173 18.399 4.549 2.427 28.091 9.907 33.720 6.204 Vítimas de roubo de identidade 8.891 2.586 2.467 963 330 5.690 1.586 5.373 1.002 Para onde vamos Neste capítulo você estudará testes estatísticos adi- cionais que não necessitam que a distribuição da popula- ção satisfaça quaisquer condições específicas. Cada um desses testes pode ser útil em aplicações da vida real. Com os dados acima, o número de reclamações de fraude F e o número de vítimas de roubo de identidade V podem ser relacionados pela equação de regressão V = 0,264F – 1.080,306. O coeficiente de correlação é aproxi- Em um ano recente, a forma mais comum de roubo de identidade relatada foi fraude de documentos/ benefícios do governo, que representou 46% dos casos. A segunda forma mais comum foi fraude de cartão de crédito, que respondeu por 13% dos casos. 11.1 Teste dos sinais 11.2 Testes de Wilcoxon • Estudo de caso 11.3 Teste de Kruskal-Wallis 11.4 Correlação de postos 11.5 Teste de corridas • Usos e abusos • Estatística real – Decisões reais • Tecnologia Testes não paramétricos11 G uy S ha pi ra /S hu tte rs to ck 11.1 Teste dos sinais O teste dos sinais para uma mediana populacional • O teste dos sinais usando amostras pareadas O teste dos sinais para uma mediana populacional Muitos dos testes de hipótese estudados até aqui impuseram um ou mais requisitos para uma distribuição populacional. Por exemplo, alguns testes requerem que uma população tenha uma distribuição normal e ou- tros testes requerem que as variâncias populacionais sejam iguais. O que você deve fazer quando tais requisitos não podem ser satisfeitos? Para esses casos, os estatísticos desenvolveram testes de hipóteses usados para dados com “distribuição livre”. Tais testes são chamados testes não paramétricos. Definição Um teste não paramétrico é um teste de hipótese que não requer quaisquer condições específicas acerca das formas das distribuições populacionais ou dos valores de parâmetros populacionais. Testes não paramétricos geralmente são mais fáceis de realizar do que os testes paramétricos correspondentes. No entanto, eles são, em geral, me- nos eficientes que testes paramétricos. Evidências mais fortes são necessá- rias para rejeitar uma hipótese nula usando os resultados de um teste não madamente 0,965, então há uma correlação positiva for- te. Você pode determinar que a correlação é significativa usando a Tabela B.11 no Apêndice B. Uma análise mais profunda dos dados, contudo, pode mostrar que as vari- áveis não parecem ter uma distribuição normal bivariada, o que é um dos requisitos para usar o coeficiente de cor- relação de Pearson. Assim, embora um simples teste de correlação pos- sa indicar uma relação entre o número de reclamações de fraude e o número de vítimas de roubo de identidade, podem-se questionar os resultados porque os dados não se encaixam nos requisitos para o teste. Você estudará testes similares neste capítulo, como o teste de correla- ção de postos de Spearman, que lhe darão informações adicionais. O coeficiente de correlação de postos de Spearman para esses dados é aproximadamente 0,965. Com a = 0,01, há de fato uma correlação significativa entre o número de reclamações de fraude e o número de vítimas de roubo de identidade para cada estado (veja a Figura 11.1). Figura 11.1 Número de reclamações de fraude e vítimas de roubo de identidade para 25 estados. Reclamações de fraude V íti m as d e ro ub o de id en tid ad e x y 20.000 40.000 60.000 80.000 100.000 5.000 10.000 15.000 20.000 25.000 O que você deve aprender • Como usar o teste dos sinais para testar uma mediana populacional. • Como aplicar o teste dos sinais usando amostras pareadas para testar a diferença entre duas medianas populacionais (amostras dependentes). 2 Estatística aplicada paramétrico. Consequentemente, sempre que possível, você deve usar um teste paramétrico. Um dos testes não paramétricos mais fáceis de realizar é o teste dos sinais. A única condição necessária para usar um teste dos sinais é que a amostra seja selecionada aleatoriamente. Definição O teste dos sinais é um teste não paramétrico que pode ser usado para testar uma mediana populacional contra um valor hipotético k. O teste dos sinais para uma mediana populacional pode ser unilateral à esquerda, unilateral à direita ou bilateral. As hipóteses nula e alternativa para cada tipo de teste são as seguintes: Teste unilateral à esquerda: H0: mediana ≥ k e Ha: mediana < k Teste unilateral à direita: H0: mediana ≤ k e Ha: mediana > k Teste bilateral: H0: mediana = k e Ha: mediana ≠ k. Para usar o teste de sinais, primeiro compare cada valor na amostra com a mediana hipotética k. Quando o valor estiver abaixo da media- na, atribua-lhe um sinal –; quando o valor estiver acima da mediana, atribua-lhe um sinal + e, quando o valor for igual à mediana, atribua-lhe um 0. Então, compare o número de sinais + e – (os zeros são ignorados). Quando houver uma grande diferença entre o número de sinais + e o número de sinais –, é provável que a mediana seja diferente do valor hipotético e você deve rejeitar a hipótese nula. A Tabela B.8 no Apêndice B lista os valores críticos para o teste dos sinais para níveis de significância selecionados e tamanhos de amostras. Quando o teste de sinais é usado, o tamanho da amostra n é o número total de sinais + e –. Quando o tamanho da amostra é maior que 25, você pode usar a distribuição normal padrão para encontrar os valores críticos. Estatística de teste para o teste dos sinais Quando n ≤ 25, a estatística de teste para o teste dos sinais é x, o menor número dos sinais + ou –. Quando n > 25, a estatística de teste para o teste de sinais é: z = 1x + 0,52 - 0,5n 1n 2 em que x é o menor número de sinais + ou – e n é o tamanho da amostra, isto é, o número total dos sinais + e –. Uma vez que x é definido como o menor número dos sinais + ou –, a região de rejeição está sempre na lateral esquerda. Consequentemente, o teste dos sinais para uma mediana populacional é sempre um teste unilateral à esquerda ou um teste bilateral. Quando o teste for bilateral, use apenas o valor crítico da lateral à esquerda. (Quando x é definido como o maior número dos sinais + ou –, a região de rejeição está sempre na lateral direita. Testes dos sinais unilaterais à direita são apresentados nos exercícios.) Entenda Para testes não paramétricos, os estatísticos testam a mediana em vez da média. Entenda Já que os zeros são ignorados, há dois resultados possíveis quando comparamos uma entrada de dados com uma mediana hipotética: um sinal + ou um –. Se a mediana for k, então cerca da metade dos valores estará acima de k e metade estará abaixo. Como tal, a probabilidade para cada sinal é 0,5. A Tabela B.8 no Apêndice B é construída usando a distribuição binomial em que p = 0,5. Quando n > 25, você pode usar a aproximação normal (com uma correção de continuidade)para a binomial. Neste caso, use m = np = 0,5n e s = 1npq = 1n 2 . Capítulo 11 Testes não paramétricos 3 Instruções Realizando um teste dos sinais para uma mediana populacional EM PALAVRAS EM SÍMBOLOS 1. Verifique se a amostra é aleatória. 2. Identifique a afirmação. Declare as hipóteses nula e alternativa. Formule H0 e Ha. 3. Especifique o nível de significância. Identifique a. 4. Determine o tamanho da amostra n, atribuindo sinais +, sinais – e zeros aos dados da amostra. n = número total de sinais + e – 5. Determine o valor crítico. Quando n ≤ 25, use a Tabela B.8 no Apêndice B. Quando n > 25, use a Tabela B.4 no Apêndice B. 6. Encontre a estatística de teste. Quando n ≤ 25, use x = o menor número dos sinais + ou –. Quando n > 25, use z = 1x + 0,52 - 0,5n 1n 2 7. Tome uma decisão para rejeitar ou não rejeitar a hipótese nula. Se a estatística de teste é menor ou igual ao valor crítico, então rejeite H0. Caso contrário, não rejeite H0. 8. Interprete a decisão no contexto da afirmação original. 1Exemplo Usando o teste dos sinais O administrador do site de uma empresa afirma que o número me- diano de visitantes, por dia, do site da empresa é de não mais de 1.500. Um funcionário duvida da precisão dessa afirmação. Os números de visitantes por dia, para 20 dias selecionados aleatoriamente, estão lis- tados a seguir. Com a = 0,05, o funcionário pode rejeitar a afirmação do administrador? 1.469 1.462 1.634 1.602 1.500 1.463 1.476 1.570 1.544 1.452 1.487 1.523 1.525 1.548 1.511 1.579 1.620 1.568 1.492 1.649 Solução A afirmação é “o número mediano de visitantes, por dia, do site da empresa é de não mais de 1.500”. Então, as hipóteses nula e alternativa são: H0: mediana ≤ 1.500 (Afirmação) e Ha: mediana > 1.500. Os resultados da comparação de cada dado com a mediana hipotéti- ca 1.500 são mostrados a seguir: – – + + 0 – – + + – – + + + + + + + – + 4 Estatística aplicada Você pode perceber que há 7 sinais – e 12 sinais +. Então, n = 12 + 7 = 19. Como n ≤ 25, use a Tabela B.8 no Apêndice B para encontrar o valor crítico. O teste é unilateral com a = 0,05 e n = 19. Logo, o valor crítico é 5. Como n ≤ 25, a estatística de teste x é o menor número dos sinais + ou –. Assim, x = 7. Uma vez que x = 7 é maior que o valor crítico, o funcionário não deve rejeitar a hipótese nula. Interpretação Não há evidência suficiente, ao nível de significância de 5%, para o funcionário rejeitar a afirmação do administrador do site de que o número mediano de visitantes por dia do site da empresa é de não mais de 1.500. Tente você mesmo 1 Uma agência imobiliária afirma que o número mediano de dias que uma casa fica no mercado, em sua cidade, é superior a 120. Um proprietá- rio quer verificar a exatidão dessa afirmação. Os números de dias no mer- cado para 24 casas selecionadas aleatoriamente são mostrados a seguir. Com a = 0,025, o proprietário pode confirmar a afirmação da agência? 118 167 72 79 76 106 102 113 73 119 162 114 120 93 135 147 77 157 115 88 152 70 65 91 a. Identifique a afirmação e declare H0 e Ha. b. Identifique o nível de significância a. c. Determine o tamanho da amostra n. d. Encontre o valor crítico. e. Encontre a estatística de teste x. f. Decida se rejeita a hipótese nula. g. Interprete a decisão no contexto da afirmação original. 2Exemplo Usando o teste dos sinais Uma organização afirma que a frequência mediana anual dos museus dos Estados Unidos é de pelo menos 39.000 visitantes. Uma amostra aleatória de 125 museus revela que as frequências anuais de 79 museus foram inferiores a 39.000, as frequências anuais de 42 mu- seus foram superiores a 39.000 e, as frequências anuais de 4 museus foram de 39.000 visitantes. Com a = 0,01, há evidência suficiente para rejeitar a afirmação da organização? (Adaptado de American Associa- tion of Museums.) Solução A afirmação é “a frequência mediana anual dos museus dos Estados Unidos é de pelo menos 39.000 visitantes”. Então, as hipóteses nula e alternativa são: H0: mediana ≥ 39.000 (Afirmação) e Ha: mediana < 39.000. Como n > 25, use a Tabela B.4 no Apêndice B, a Tabela Normal Pa- drão, para encontrar o valor crítico. Uma vez que o teste é unilateral à esquerda com a = 0,01, o valor crítico é z0 = –2,33. Dos 125 museus, há 79 com sinal – e 42 com sinal +. Uma vez que os zeros são ignorados, o tamanho da amostra é: n = 79 + 42 = 121 e x = 42. Capítulo 11 Testes não paramétricos 5 Com esses valores, a estatística de teste x é: z = 142 + 0,52 - 0,5 11212 2121N2 = - 18 5,5 ≈ - 3,27. A Figura 11.2 mostra a localização da região de rejeição e a estatís- tica de teste z. Como z é menor que o valor crítico, ele encontra-se na região de rejeição. Logo, você rejeita a hipótese nula. Figura 11.2 Distribuição normal, região de rejeição e estatística de teste. z -3-4 -2 -1 0 1 2 3 4 z0 = -2,33 a = 0,01 z ≈ −3,27 Interpretação Há evidência suficiente, ao nível de significância de 1%, para rejeitar a afirmação da organização de que a frequência mediana anual para museus nos Estados Unidos é de pelo menos 39.000 visitantes. Tente você mesmo 2 Uma organização afirma que a idade mediana dos funcionários de museus nos Estados Unidos é 40 anos. Uma amostra aleatória de 95 fun- cionários de museus revela que 46 deles têm menos de 40 anos, 45 têm mais de 40 anos e 4 têm 40 anos. Com a = 0,10, você pode rejeitar a afirma- ção da organização? (Adaptado de American Association of Museums.) a. Identifique a afirmação e declare H0 e Ha. b. Identifique o nível de significância a. c. Determine o tamanho da amostra n. d. Encontre o valor crítico. e. Encontre a estatística de teste z. f. Decida se rejeita a hipótese nula. g. Interprete a decisão no contexto da afirmação original. O teste dos sinais usando amostras pareadas Na Seção 8.3 você aprendeu a aplicar um teste t para a diferença en- tre médias usando amostras dependentes. Esse teste exigia que ambas as Retratando o mundo Em 2010, as pessoas nos Estados Unidos gastaram um total de aproximadamente US$ 16,6 bilhões em doces. O Departamento de Comércio dos Estados Unidos informou que, em 2010, uma pessoa comum no país comeu cerca de 23,4 libras de doces. C on su m o (e m li br as p or p es so a) Ano 26 25 24 23 22 21 20021998 2006 2010 Consumo de doces Você usaria um teste paramétrico ou um teste não paramétrico para testar a afirmação do Departamento de Comércio dos EUA a respeito do consumo de doces? Que fatores devem ser considerados? Dica de estudo Quando realizar um teste dos sinais bilateral, lembre-se de usar apenas o valor crítico da lateral à esquerda. 6 Estatística aplicada populações fossem normalmente distribuídas. Quando a condição para- métrica de normalidade não pode ser satisfeita, você pode usar o teste dos sinais para amostras pareadas para testar a diferença entre duas medianas populacionais. Para realizar o teste dos sinais usando amostras pareadas para a diferença entre duas medianas populacionais, as condições a seguir devem ser atendidas: 1. Uma amostra de cada população deve ser aleatoriamente selecionada. 2. As amostras devem ser dependentes (pareadas). O teste dos sinais usando amostras pareadas pode ser unilateral à esquerda, unilateral à direita ou bilateral. Esse teste é similar ao teste dos sinais para uma mediana populacional única. No entanto, em vez de comparar cada valor com uma mediana hipotética e registrar +, – ou 0, você encontra a diferença entre valores correspondentes e registra o seu sinal. Geralmente, para encontrar a diferença, subtraia o valor repre- sentando a segunda variável do valor representando a primeira variá- vel. Então, compare o número de sinais + e – (os zeros são ignorados). Quando o número de sinais + é aproximadamente igual ao número de sinais –, provavelmente, em função do teste você não rejeitará a hipó- tese nula. Quando há uma “grande “diferença entre o número de sinais + e o número de sinais –, provavelmentevocê rejeitará a hipótese nula. Instruções Realizando um teste dos sinais para amostras pareadas EM PALAVRAS EM SÍMBOLOS 1. Verifique se as amostras são aleató- rias e dependentes. 2. Identifique a afirmação. Declare as hipóteses nula e alternativa. Formule H0 e Ha. 3. Especifique o nível de significância. Identifique a. 4. Determine o tamanho da amostra n encontrando a diferença para cada par de dados. Atribua um sinal + a uma diferença positiva, um sinal – a uma diferença negativa e 0 a nenhu- ma diferença. n = número total de sinais + e – 5. Determine o valor crítico. Use a Tabela B.8 no Apêndice B. 6. Encontre a estatística de teste. x = o menor número dos sinais + ou – 7. Decida se rejeita ou não rejeita a hi- pótese nula. Se a estatística de teste é menor ou igual ao valor crítico, então rejeite H0. Caso contrário, não rejeite H0. 8. Interprete a decisão no contexto da afirmação original. 3Exemplo Usando o teste dos sinais com amostras pareadas Um psicólogo afirma que o número de infratores reincidentes dimi- nuirá quando infratores primários completarem um curso especial de rea- bilitação. Você seleciona aleatoriamente 10 presídios e registra o número Capítulo 11 Testes não paramétricos 7 de infratores reincidentes durante um período de dois anos. Então, depois de infratores primários completarem o curso, você registra o número de infratores reincidentes em cada presídio por um outro período de dois anos. Os resultados são mostrados na Tabela 11.2. Para o nível de sign- ficância a = 0,025, você pode concordar com a afirmação do psicólogo? Tabela 11.2 Distribuição dos números de infratores antes e depois do curso. Presídio 1 2 3 4 5 6 7 8 9 10 Antes 21 34 9 45 30 54 37 36 33 40 Depois 19 22 16 31 21 30 22 18 17 21 Solução Para testar a afirmação do psicólogo, use as hipóteses nula e alter- nativa a seguir: H0: O número de infratores reincidentes não diminuirá. Ha: O número de infratores reincidentes diminuirá. (Afirmação) A Tabela 11.3 mostra o sinal das diferenças entre os dados “antes” e “depois”. Tabela 11.3 Distribuição dos sinais relativos aos pares. Presídio 1 2 3 4 5 6 7 8 9 10 Antes 21 34 9 45 30 54 37 36 33 40 Depois 19 22 16 31 21 30 22 18 17 21 Sinal + + – + + + + + + + Você pode ver que há 1 sinal – e 9 sinais +. Então, n = 1 + 9 = 10. Como o teste é unilateral com a = 0,025 e n = 10, o valor crítico é 1. A estatística de teste x é o menor número de sinais + ou –. Logo, x = 1. Já que x é igual ao valor crítico, você rejeita a hipótese nula. Interpretação Há evidência suficiente, ao nível de significância 2,5%, para concordar com a afirmação do psicólogo de que o número de infratores reincidentes diminuirá após o curso. Tente você mesmo 3 Um pesquisador da área médica afirma que uma nova vacina di- minuirá o número de resfriados em adultos. Você seleciona aleatoria- mente 14 adultos e registra o número de resfriados que cada um teve durante um ano. Após dar a vacina a cada adulto, você registra nova- mente o número de resfriados que cada um teve no período de um ano. Os resultados são mostrados na Tabela 11.4. Com a = 0,05, você pode concordar com a afirmação do pesquisador? a. Identifique a afirmação e declare H0 e Ha. b. Identifique o nível de significância a. c. Determine o tamanho da amostra n. d. Encontre o valor crítico. e. Encontre a estatística de teste x. f. Decida se rejeita a hipótese nula. g. Interprete a decisão no contexto da afirmação original. Tabela 11.4 Adulto Antes da vacina Depois da vacina 1 3 2 2 4 1 3 2 0 4 1 1 5 3 1 6 6 3 7 4 3 8 5 2 9 2 2 10 0 2 11 2 3 12 5 4 13 3 3 14 3 2 8 Estatística aplicada 11.1 Exercícios Construindo habilidades básicas e vocabulário 1. O que é um teste não paramétrico? Como um teste não paramétrico difere de um teste paramétrico? Quais são as vantagens e desvantagens de usar um teste não paramétrico? 2. Quando o teste dos sinais é usado, qual parâmetro po- pulacional está sendo testado? 3. Descreva a estatística de teste para o teste dos sinais quando o tamanho da amostra n é inferior ou igual a 25 e quando n é superior a 25. 4. Com suas palavras, explique por que o teste de hipótese discutido nesta seção é chamado de teste dos sinais. 5. Explique como usar o teste dos sinais para testar uma mediana populacional. 6. Liste as duas condições que devem ser atendidas de modo a usar o teste dos sinais com amostras pareadas. Usando e interpretando conceitos Realizando um teste dos sinais Nos exercícios 7 a 22, (a) identifique a afirmação e declare H0 e Ha, (b) en- contre o valor crítico, (c) encontre a estatística de teste, (d) decida se rejeita ou não a hipótese nula e (e) inter- prete a decisão no contexto da afirmação original. 7. Despesas de cartão de crédito Um contador de servi- ço financeiro afirma que a quantia mediana de novas despesas de cartão de crédito para o mês anterior foi de mais de US$ 300. Você seleciona aleatoriamente 12 contas de cartão de crédito e registra a quantia de novas despesas de cada uma para o mês anterior. As quantias (em dólares) estão listadas a seguir. Com a = 0,01, você pode aceitar a afirmação do contador? (Adaptado de Board of Governors of the Federal Re- serve System.) 346,71 382,59 255,03 202,17 309,80 265,88 299,41 270,38 296,54 318,46 245,92 309,47 8. Temperatura Um meteorologista afirma que a tempe- ratura mediana máxima diária para o mês de julho em Pittsburgh é de 83º Fahrenheit. As temperaturas máxi- mas (em graus Fahrenheit) para 15 dias de julho sele- cionados aleatoriamente em Pittsburgh estão listadas a seguir. Com a = 0,01, há evidência suficiente para rejei- tar a afirmação do meteorologista? (Adaptado de U.S. National Oceanic and Atmospheric Administration.) 74 79 81 86 90 79 81 83 81 74 78 76 84 82 85 9. Preços de venda de casas Um corretor de imóveis afir- ma que o preço mediano de venda de novas casas resi- denciais vendidas em um mês recente é de US$ 193.000 ou menos. Os preços de venda (em dólares) de 10 ca- sas selecionadas aleatoriamente estão listados a seguir. Para um nível de significância a = 0,05, há evidência sufi- ciente para rejeitar a afirmação do corretor? (Adaptado de National Association of Realtors.) 200.800 229.500 205.900 190.700 140.200 193.900 249.000 170.900 184.500 207.500 10. Temperatura Durante uma previsão do tempo, um meteorologista afirma que a temperatura mediana má- xima diária para o mês de janeiro em San Diego é de 66º Fahrenheit. As temperaturas máximas (em graus Fahrenheit) para 16 dias de janeiro selecionados aleato- riamente em San Diego estão listadas a seguir. Com a = 0,01, você pode rejeitar a afirmação do meteorologista? (Adaptado de U.S. National Oceanic and Atmospheric Administration.) 78 74 72 72 70 70 72 78 74 71 72 74 77 79 75 73 11. Dívida de cartão de crédito Uma instituição de servi- ços financeiros afirma que o valor mediano de dívidas de cartão de crédito para famílias que possuem tais dívidas é de pelo menos US$ 2.600. Em uma amos- tra aleatória de 104 famílias com dívidas de cartão de crédito, as dívidas de 60 delas eram inferiores a US$ 2.600 e as dívidas de 44 eram superiores a US$ 2.600. Com a = 0,02, você pode rejeitar a afirmação da instituição? (Adaptado de Board of Governors of the Federal Reserve System.) 12. Dívida financeira Um contador de serviços financei- ros afirma que o valor mediano de dívidas financei- ras para famílias que possuem tal dívida é inferior a US$ 71.000. Em uma amostra aleatória de 70 famílias com dívida financeira, as dívidas de 24 famílias eram in- feriores a US$ 71.000 e as dívidas de 46 famílias eram superiores a US$ 71.000. Para um nível de significância a = 0,025, você pode concordar com a afirmação do con- tador? (Adaptado de Board of Governors of the Federal Reserve System.) 13. Usuários do Twitter® Um grupo de pesquisa afirma que a idade mediana de usuários do Twitter® é superior a 30 anos. Em uma amostra aleatória de 24 usuáriosdo Twitter®, 11 têm menos de 30 anos, 10 têm mais de 30 anos e 3 têm 30 anos. Com a = 0,01, você pode concor- dar com a afirmação do grupo de pesquisa? (Adaptado de Pew Research Center.) 14. Usuários do Facebook® Um grupo de pesquisa afirma que a idade mediana de usuários do Facebook® é infe- rior a 32 anos. Em uma amostra aleatória de 20 usuários do Facebook®, 5 têm menos de 32 anos, 13 têm mais de 32 anos e 2 têm 32 anos. Com a = 0,05, você pode con- cordar com a afirmação do grupo de pesquisa? (Adap- tado de Pew Research Center.) Capítulo 11 Testes não paramétricos 9 15. Tamanho da unidade Uma organização de locatários afirma que o número mediano de cômodos em unidades alugadas é quatro. Você seleciona aleatoriamente 120 unidades alugadas e obtém os resultados mostrados a seguir. Para o nível de significância a = 0,05, você pode rejeitar a afirmação da organização? (Adaptado de U.S. Census Bureau.) Tamanho da unidade Número de unidades Menos de 4 cômodos 29 4 cômodos 38 Mais de 4 cômodos 53 16. Área quadrada Uma organização de locatários afirma que a área mediana quadrada de unidades alugadas é de 1.300 pés quadrados. Você seleciona aleatoriamente 22 unidades alugadas e obtém os resultados mostrados a seguir. Com a = 0,10, você pode rejeitar a afirmação da organização? (Adaptado de U.S. Census Bureau.) Área quadrada Número de unidades Menos de 1.300 8 1.300 2 Mais de 1.300 12 17. Salário por hora Uma organização trabalhista afirma que o salário mediano por hora de analistas de sistemas de computador é de US$ 38,31. Em uma amostra alea- tória de 45 analistas de sistemas, 18 ganham menos de US$ 38,31 por hora, 25 ganham mais de US$ 38,31 por hora e 2 ganham US$ 38,31 por hora. Com um nível de significância a = 0,01, você pode rejeitar a afirmação da organização trabalhista? (Adaptado de U.S. Bureau of Labor Statistics.) 18. Salário por hora Uma organização trabalhista afirma que o salário mediano por hora de pedicuros é de US$ 55,98. Em uma amostra aleatória de 23 pedicuros, 17 ga- nham menos de US$ 55,98 por hora, 5 ganham mais de US$ 55,98 por hora e 1 ganha US$ 55,98 por hora. Com a = 0,05, você pode rejeitar a afirmação da organização trabalhista? (Adaptado de U.S. Bureau of Labor Statistics.) 19. Dor nas costas Um médico afirma que as pontuações da intensidade de dor nas costas diminuirão após um tratamento de acupuntura. A tabela a seguir mostra as pontuações da intensidade de dor nas costas para oito pacientes antes e depois de receberem acupuntura por oito semanas. Com a = 0,05, há evidência suficiente para concordar com a afirmação do médico? (Adaptado de Archives of Internal Medicine.) Paciente 1 2 3 4 5 6 7 8 Pontuação da intensidade (antes) 59,2 46,3 65,4 74,0 79,3 81,6 44,4 59,1 Pontuação da intensidade (depois) 12,4 22,5 18,6 59,3 70,1 70,2 13,2 25,9 20. Dor nas costas Um médico afirma que as pontua- ções da intensidade de dor nas costas diminuirão após tomar medicamentos anti-inflamatórios. A tabela a seguir mostra as pontuações da intensidade de dor nas costas para 12 pacientes antes e depois de tomarem medicamentos anti-inflamatórios por 8 semanas. Com a = 0,05, há evidência suficiente para concordar com a afirmação do médico? (Adaptado de Archives of Inter- nal Medicine.) Paciente 1 2 3 4 5 6 Pontuação da intensidade (antes) 71,0 42,1 79,1 57,5 64,0 60,4 Pontuação da intensidade (depois) 60,1 23,4 86,2 62,1 44,2 49,7 Paciente 7 8 9 10 11 12 Pontuação da intensidade (antes) 68,3 95,2 48,1 78,6 65,4 59,9 Pontuação da intensidade (depois) 58,3 72,6 51,8 82,5 63,2 47,9 21. Melhorando as notas no SAT Uma agência de pro- fessores particulares afirma que, completando um cur- so especial, os estudantes melhorarão suas notas de compreensão de texto no SAT. Em parte de um estudo, 12 estudantes fazem a parte de compreensão de texto do SAT, completam o curso especial e, então, fazem a parte de compreensão de texto do SAT novamente. As notas dos estudantes são mostradas na tabela a seguir. Com nível de significância a = 0,05, há evidência sufi- ciente para aceitar a afirmação da agência? Estudante 1 2 3 4 5 6 Nota no primeiro SAT 300 450 350 430 300 470 Nota no segundo SAT 300 520 400 410 300 480 Estudante 7 8 9 10 11 12 Nota no primeiro SAT 530 200 200 350 360 250 Nota no segundo SAT 700 250 390 350 480 300 22. Notas no SAT Um conselheiro de orientação educacional afirma que os estudantes que fazem o SAT duas vezes melhoram suas notas no segundo exame. A tabela a seguir mostra as notas de com- preensão de texto no SAT para 12 estudantes que fizeram o exame duas vezes. Com nível de signifi- cância a = 0,01, você pode aceitar a afirmação do conselheiro de orientação educacional? Estudante 1 2 3 4 5 6 Nota no primeiro SAT 440 510 420 450 620 450 Nota no segundo SAT 440 570 510 470 610 450 Estudante 7 8 9 10 11 12 Nota no primeiro SAT 350 470 320 510 630 570 Nota no segundo SAT 370 530 290 500 640 600 10 Estatística aplicada 23. Sentindo sua idade Uma empresa de pesquisa conduz um levantamento selecionando aleatoriamente adultos e perguntando a cada um: “Como você se sente em re- lação à sua idade?” Os resultados são apresentados na figura a seguir: (Adaptado de Pew Research Center.) 11 3 9 Minha idadeMais novo Mais velho (a) Use um teste dos sinais para testar a hipótese nula de que a proporção de adultos que se sentem mais velhos é igual à proporção de adultos que se sen- tem mais novos. Atribua um sinal + a cada adulto que respondeu “mais velho”, atribua um sinal – a cada adulto que respondeu “mais novo” e atribua um 0 a cada adulto que respondeu “minha idade”. Use a = 0,05. (b) O que você pode concluir? 24. Contatando os pais Uma empresa de pesquisa conduz uma pesquisa selecionando aleatoriamente adultos e perguntando a cada um: “com que frequência você en- tra em contato com seus pais por telefone?” Os resulta- dos são mostrados na figura a seguir. (Adaptado de Pew Research Center.) 12 8 6 Semanalmente Diariamente Outro (a) Use um teste dos sinais para testar a hipótese nula de que a proporção de adultos que entram em contato com seus pais por telefone semanal- mente é igual à proporção de adultos o fazem dia- riamente. Atribua um sinal + a cada adulto que respondeu “semanalmente”, atribua um sinal – a cada adulto que respondeu “diariamente” e atri- bua um 0 a cada adulto que respondeu “outro”. Use a = 0,05. (b) O que você pode concluir? Expandindo conceitos Mais sobre testes dos sinais Quando você está aplicando um teste dos sinais para n > 25 e o teste é unilateral à esquerda, você sabe que pode rejeitar a hi- pótese nula quando a estatística de teste z = 1x + 0,52 - 0,5n 1n 2 é menor ou igual ao valor crítico da lateral à esquerda, em que x é o menor número de sinais + ou –. Para um teste unilateral à direita, você pode rejeitar a hipótese nula quando a estatística de teste z = 1x - 0,52 - 0,5n 1n 2 é maior ou igual ao valor crítico da lateral à direita, em que x é o maior número de sinais + ou –. Nos exercícios 25 a 28, use um teste unilateral à direita e (a) identifique a afirmação e declare H0 e Ha, (b) encon- tre o valor crítico, (c) encontre a estatística de teste, (d) decida se rejeita ou não a hipótese nula e (e) interprete a decisão no contexto da afirmação original. 25. Salário semanal Uma organização trabalhista afirma que o salário mediano semanal de trabalhadores do sexo feminino é inferior ou igual a US$ 704. Para testar essa afirmação, você seleciona aleatoriamente 50 trabalhado- ras e pede que cada uma forneça seu salário semanal. A tabela a seguir mostra os resultados. Com nível de signi- ficância a = 0,01, você pode rejeitar a afirmação da orga- nização? (Adaptado de U.S. Bureau of Labor Statistics.) Salário semanal Número de trabalhadoras Menos de US$ 704 18 US$ 704 3 Mais de US$ 704 29 26. Salário semanal Uma organização trabalhista afirma que o salário mediano semanalde trabalhadores do sexo masculino é de mais de US$ 867. Para testar essa afirma- ção, você seleciona aleatoriamente 70 trabalhadores e pede que cada um forneça seu salário semanal. A tabela a seguir mostra os resultados. Com a = 0,01, você pode suportar a afirmação da organização? (Adaptado de U.S. Bureau of Labor Statistics.) Salário semanal Número de trabalhadores Menos de US$ 867 23 US$ 867 2 Mais de US$ 867 45 27. Idade das noivas Um conselheiro matrimonial afir- ma que a idade mediana das noivas na época do seu primeiro casamento é inferior ou igual a 27 anos. Em uma amostra aleatória de 65 noivas, 24 têm menos de 27 anos, 35 têm mais de 27 anos e 6 têm 27 anos. Com a = 0,05, você pode rejeitar a afirmação do conselheiro? (Adaptado de U.S. Census Bureau.) 28. Idade dos noivos Um conselheiro matrimonial afirma que a idade mediana dos noivos na época do seu primeiro ca- samento é superior a 28 anos. Em uma amostra aleatória de 56 noivos, 33 têm menos de 28 anos e 23 têm mais de 28 anos. Com a = 0,05, você pode concordar com a afirmação do conselheiro? (Adaptado de U.S. Census Bureau.) Capítulo 11 Testes não paramétricos 11 11.2 Testes de Wilcoxon O teste dos postos sinalizados de Wilcoxon • O teste da soma dos postos de Wilcoxon O teste dos postos sinalizados de Wilcoxon Nesta seção você estudará o teste dos postos sinalizados de Wilcoxon e o teste da soma dos postos de Wilcoxon. Ao contrário do teste dos sinais da Seção 11.1, a força desses dois testes não paramétricos é que cada um considera a magnitude, ou tamanho, dos dados. Na Seção 8.3 você usou um teste t junto com amostras dependentes para determinar se havia uma diferença entre duas populações. Para usar o teste t e testar tal diferença, você deve supor (ou saber) que as amostras dependentes são selecionadas aleatoriamente de populações que possuem uma distribuição normal. Mas o que você deve fazer quan- do a suposição de normalidade não pode ser feita? Em vez de aplicar o teste t usando duas amostras, você pode utilizar o teste dos postos sinalizados de Wilcoxon. Definição O teste dos postos sinalizados de Wilcoxon é um teste não paramétrico que pode ser usado para determinar se duas amostras dependentes foram selecionadas de populações que possuem a mesma distribuição. Instruções Realizando um teste dos postos sinalizados de Wilcoxon EM PALAVRAS EM SÍMBOLOS 1. Verifique se as amostras são aleató- rias e dependentes. 2. Identifique a afirmação. Declare as hi- póteses nula e alternativa. Formule H0 e Ha. 3. Especifique o nível de significância. Identifique a. 4. Determine o tamanho da amostra n, que é o número de pares de dados cuja diferença não é 0. 5. Determine o valor crítico. Use a Tabela B.9 no Apêndice B. 6. Encontre a estatística de teste ws. a. Complete uma tabela usando os cabeçalhos listados à direita. b. Encontre a soma dos postos positi- vos e a soma dos postos negativos. c. Selecione o menor valor absoluto das somas. Cabeçalhos: Amostra 1, Amostra 2, Diferença, Valor absoluto, Posto e Posto sinalizado. Posto sinalizado adota o mesmo sinal de sua diferença correspondente. 7. Decida se rejeita ou não a hipótese nula. Se ws é menor ou igual ao valor crítico, então rejeite H0. Caso contrário, não rejeite H0. 8. Interprete a decisão no contexto da afirmação original. O que você deve aprender • Como usar o teste dos postos sinalizados de Wilcoxon para determinar se duas amostras dependentes são selecionadas de populações que possuem a mesma distribuição. • Como usar o teste da soma dos postos de Wilcoxon para determinar se duas amostras independentes são selecionadas de populações que possuem a mesma distribuição. Dica de estudo Lembre-se de que o valor absoluto de um número é o seu valor, desconsiderando seu sinal. Um par de barras verticais, | |, é usado para denotar o valor absoluto. Por exemplo, |3| = 3 e |–7| = 7. 12 Estatística aplicada 1Exemplo Realizando um teste dos postos sinalizados de Wilcoxon Um fabricante de tacos de golfe afirma que os jogadores podem di- minuir suas pontuações (números de tacadas) usando seus tacos de gol- fe recém-projetados. A Tabela 11.5 mostra as pontuações de 10 golfistas enquanto usam o modelo antigo e o modelo novo no mesmo campo de golfe. Com a = 0,05, você aceita a afirmação do fabricante? Tabela 11.5 Distribuição das pontuações dos golfistas. Golfista 1 2 3 4 5 6 7 8 9 10 Pontuação (modelo antigo) 89 84 96 74 91 85 95 82 92 81 Pontuação (modelo novo) 83 83 92 76 91 80 87 85 90 77 Solução A afirmação é “os jogadores podem diminuir suas pontuações”. Para testar essa afirmação, use as seguintes hipóteses nula e alternativa: H0: O novo modelo não diminui as pontuações. Ha: O novo modelo diminui as pontuações. (Afirmação) Esse teste dos postos sinalizados de Wilcoxon é um teste unilateral com a = 0,05 e, como um par de dados tem uma diferença 0, n = 9 em vez de 10. Da Tabela B.9 no Apêndice B, o valor crítico é 8. Para encontrar a estatística de teste ws, complete conforme mostra a Tabela 11.6. Tabela 11.6 Operações para o cálculo da estatística de teste. Pontuação (modelo antigo) Pontuação (modelo novo) Diferença Valor absoluto Posto Posto sinalizado 89 83 6 6 8 8 84 83 1 1 1 1 96 92 4 4 5,5 5,5 74 76 –2 2 2,5 – 2,5 91 91 0 0 — — 85 80 5 5 7 7 95 87 8 8 9 9 82 85 –3 3 4 – 4 92 90 2 2 2,5 2,5 81 77 4 4 5,5 5,5 A soma dos postos negativos é −2,5 + (−4) = −6,5. A soma dos postos positivos é 8 + 1 + 5,5 + 7 + 9 + 2,5 + 5,5 = 38,5. A estatística de teste é o menor valor absoluto dessas duas somas. Como |−6,5| < |38,5|, a estatística de teste é ws = 6,5. Uma vez que a es- tatística de teste é menor que o valor crítico, isto é, 6,5 < 8, você rejeita a hipótese nula. Interpretação Há evidência suficiente, ao nível de significância de 5%, para concordar com a afirmação de que os golfistas podem diminuir suas pontuações (números de tacadas) usando os tacos recém-projetados. Dica de estudo Não atribua um posto para qualquer diferença 0. No caso de um empate entre os valores dos dados, use a média dos postos correspondentes. Por exemplo, quando dois valores de dados estão empatados para o 5º posto, use a média de 5 e 6, que é 5,5, como o posto para ambos os valores. Ao próximo valor será atribuído um posto de 7, e não 6. Quando três valores estão empatados para o 5º posto, use a média de 5, 6 e 7, que é 6, como o posto para os três valores. Ao próximo valor será atribuído um posto de 8. Capítulo 11 Testes não paramétricos 13 Tente você mesmo 1 Um inspetor de controle de qualidade quer testar a afirmação de que um impermeabilizante em spray é eficaz. Para testar essa afirmação, ele seleciona 12 pedaços de tecido, borrifa água em cada um e mede a quantidade de água repelida (em mililitros). Ele, então, aplica o imper- meabilizante e repete o experimento. A Tabela 11.7 mostra os resulta- dos. Com a = 0,01, ele pode concluir que o impermeabilizante é eficaz? Tabela 11.7 Quantidade de água repelida. Tecido 1 2 3 4 5 6 7 8 9 10 11 12 Sem impermeabilizante 8 7 7 4 6 10 9 5 9 11 8 4 Com impermeabilizante 15 12 11 6 6 8 8 6 12 8 14 8 a. Identifique a afirmação e declare H0 e Ha. b. Identifique o nível de significância a. c. Determine o tamanho da amostra n. d. Encontre o valor crítico. e. Encontre a estatística de teste ws montando uma tabela, encontran- do a soma dos postos positivos e negativos e o valor absoluto de cada soma. f. Decida se rejeita a hipótese nula. g. Interprete a decisão no contexto da afirmação original. O teste da soma dos postos de Wilcoxon Nas Seções 8.1 e 8.2 você usou um teste z (s1 e s2 conhecidos) ou um teste t (s1 e s2 desconhecidos) junto de amostras independentes para de- terminar se havia uma diferença entre duas populações. Para usar um teste z ou um teste t para confirmar tal diferença, você deve supor (ou saber) que as amostras são aleatórias e independentes e/ou as populações são normal-mente distribuídas ou cada tamanho de amostra é pelo menos 30. Mas o que você dever fazer quando as suposições de normalidade e tamanho da amostra não puderem ser feitas? Você ainda pode comparar as populações usando o teste da soma dos postos de Wilcoxon. Definição O teste da soma dos postos de Wilcoxon é um teste não paramétrico que pode ser usado para determinar se duas amostras independentes foram sele- cionadas de uma mesma população. Um requisito para o teste da soma dos postos de Wilcoxon é que o ta- manho de ambas as amostras deve ser pelo menos 10 (aproximar pela dis- tribuição normal). Ao calcular a estatística de teste para o teste da soma dos postos de Wilcoxon, faça n1 representar o tamanho da amostra menor e n2 representar o tamanho da maior amostra. Quando as duas amostras tiverem o mesmo tamanho, não importa qual é n1 ou n2. Para calcular a soma dos postos R, combinar ambas as amostras e clas- sificar os dados combinados. Então, somar os postos para a menor das duas amostras. Quando as duas amostras têm o mesmo tamanho, você pode usar os postos de qualquer uma, mas deve usar os postos da amostra que você associa com n1. Retratando o mundo Para ajudar a determinar quando pacientes com artroscopia no joelho podem voltar a dirigir após a cirurgia, os tempos de reação na direção (em milissegundos) de 10 pacientes com artroscopia no joelho direito foram medidos antes da cirurgia e 4 semanas após a cirurgia, usando um simulador de carro ligado a um computador. A tabela a seguir mostra os resultados. (Adaptado de Knee Surgery, Sports Traumatology, Arthroscopy Journal.) Paciente Tempo de reação antes da cirurgia Tempo de reação 4 semanas após a cirurgia 1 720 730 2 750 645 3 735 745 4 730 640 5 755 660 6 745 670 7 730 650 8 725 730 9 770 675 10 700 705 Com a = 0,05, você pode concluir que os tempos de reação mudaram significativamente quatro semanas após a cirurgia? 14 Estatística aplicada Estatística de teste para o teste da soma dos postos de Wilcoxon Para duas amostras independentes, a estatística de teste z para o teste de soma dos postos de Wilcoxon é: z = R - mR sR em que R = soma dos postos para a menor amostra, mR = n1 1n1 + n2 + 12 2 , e sR = B n1 n2 1n1 + n2 + 12 12 . Instruções Realizando um teste dos postos sinalizados de Wilcoxon EM PALAVRAS EM SÍMBOLOS 1. Verifique que as amostras são aleató- rias e independentes. 2. Identifique a afirmação. Declare as hi- póteses nula e alternativa. Formule H0 e Ha. 3. Especifique o nível de significância. Identifique a. 4. Determine o(s) valor(es) crítico(s) e a(s) região(ões) de rejeição. Use a Tabela B.4 no Apêndice B. 5. Determine os tamanhos das amostras. n1 ≤ n2 6. Encontre a soma dos postos para a me- nor amostra. a. Liste os dados combinados em or- dem crescente. b. Classifique os dados combinados. c. Adicione a soma dos postos para a menor amostra, n1. R 7. Encontre a estatística de teste e esbo- ce a distribuição amostral. z = R - mR sR 8. Decida se rejeita ou não a hipótese nula. Se z está na região de rejeição, então rejeite H0. Caso contrário, não rejeite H0. 9. Interprete a decisão no contexto da afirmação original. 2Exemplo Realizando um teste da soma dos postos de Wilcoxon A Tabela 11.8 mostra os salários (em milhares de dólares) de uma amostra aleatória de 10 homens e 12 mulheres, representantes de ven- das de produtos farmacêuticos. Com a = 0,10, você pode concluir que há diferença entre o salário dos homens e das mulheres? Dica de estudo Use o teste dos postos sinalizados de Wilcoxon para amostras dependentes e o teste da soma dos postos de Wilcoxon para amostras independentes. Capítulo 11 Testes não paramétricos 15 Tabela 11.8 Salários. Salários homens 78 93 114 101 98 94 86 95 117 99 Salários mulheres 86 77 101 93 85 98 91 87 84 97 100 90 Solução A afirmação é “há diferença entre o salário dos homens e das mulhe- res”. Para testar essa afirmação, use as hipóteses nula e alternativa a seguir: H0: Não há diferença entre o salário de homens e mulheres. Ha: Há diferença entre o salário de homens e mulheres. (Afirmação) Como o teste é bilateral com a = 0,10, os valores críticos são –z0 = –1,645 e z0 = 1,645. As regiões de rejeição são z < –1,645 e z > 1,645. O tamanho da amostra para os homens é 10 e para as mulheres é 12. Uma vez que 10 < 12, n1 = 10 e n2 = 12. Antes de calcular a estatística de teste, você deve encontrar os valores de R, mR e sR. A Tabela 11.9 mostra os dados combinados em ordem crescente e os postos correspondentes. Tabela 11.9 Ordenando e classificando os valores. Dados ordenados Amostra Posto Dados ordenados Amostra Posto 77 F 1 94 M 12 78 M 2 95 M 13 84 F 3 97 F 14 85 F 4 98 M 15,5 86 M 5,5 98 F 15,5 86 F 5,5 99 M 17 87 F 7 100 F 18 90 F 8 101 M 19,5 91 F 9 101 F 19,5 93 M 10,5 114 M 21 93 F 10,5 117 M 22 Como a menor amostra é a dos homens, R é a soma de seus postos. R = 2 + 5,5 + 10,5 + 12 + 13 + 15,5 + 17 + 19,5 + 21 + 22 = 138 Usando n1 = 10 e n2 = 12, você pode encontrar mR e sR, conforme a seguir. mR = n1 1n1 + n2 + 12 2 = 10 110 + 12 + 12 2 = 230 2 = 115 sR = B n1 n2 1n1 + n2 + 12 12 = B 1102 1122 110 + 12 + 12 12 = A 2760 12 = 2230 ≈ 15,17 Dica de estudo Lembre-se, no caso de um empate entre os valores dos dados, use a média dos postos correspondentes. 16 Estatística aplicada Se R = 138, mR = 115 e sR ≈ 15,17, a estatística de teste é z = R - mR sR ≈ 138 - 115 15,17 ≈ 1,52. A Figura 11.3 mostra a localização das regiões de rejeição e a estatís- tica de teste z. Como z não está na região de rejeição, você não rejeita a hipótese nula. Figura 11.3 Distribuição normal, regiões de rejeição e estatística de teste. z ≈ 1,52 1 − a = 0,90 a = 0,051 2 a = 0,051 2 z 0-1-3 1 2 3 z0 = 1,645-z0 = -1,645 Interpretação Não há evidência suficiente, ao nível de significân- cia de 10%, para concluir que há diferença entre o salário de homens e mulheres. Tente você mesmo 2 Você está investigando as indenizações de seguro de automóvel pa- gas (em milhares de dólares) por duas companhias de seguros. A Tabela 11.10 apresenta uma amostra aleatória de 12 indenizações pagas pelas duas companhias seguradoras. Com a = 0,05, você pode concluir que há uma diferença nas indenizações pagas pelas companhias? Tabela 11.10 Indenizações de seguro. Companhia A 6,2 10,6 2,5 4,5 6,5 7,4 Companhia B 7,3 5,6 3,4 1,8 2,2 4,7 Companhia A 9,9 3,0 5,8 3,9 6,0 6,3 Companhia B 10,8 4,1 1,7 3,0 4,4 5,3 a. Identifique a afirmação e declare H0 e Ha. b. Identifique o nível de significância a. c. Encontre o(s) valor(es) crítico(s) e identifique a(s) região(ões) de rejeição. d. Determine o tamanho das amostras n1 e n2. e. Liste os dados combinados em ordem crescente, classifique os dados e encontre a soma dos postos da menor amostra. f. Encontre a estatística de teste z. Esboce um gráfico. g. Decida se rejeita a hipótese nula. h. Interprete a decisão no contexto da afirmação original. Capítulo 11 Testes não paramétricos 17 11.2 Exercícios Construindo habilidades básicas e vocabulário 1. Como você sabe se deve usar um teste dos postos sina- lizados de Wilcoxon ou um teste da soma dos postos de Wilcoxon? 2. Qual é a condição para o tamanho de cada amostra ao usar o teste da soma dos postos de Wilcoxon? Usando e interpretando conceitos Realizando um teste de Wilcoxon Nos exercícios 3 a 8, (a) identifique a afirmação e declare H0 e Ha. (b) decida se deve usar um teste dos postos sinalizados de Wilcoxon ou um teste da soma dos postos de Wilcoxon. (c) encontre o(s) valor(es) crítico(s). (d) encontre a estatística de teste. (e) decida se rejeita ou não a hipótese nula. (f) interprete a decisão no contexto da afirmação original. 3. Suplementos de cálcio e pressão sanguínea Em um estudo testando os efeitos de suplementos de cálcio na pressão sanguínea masculina, 12 homens foram es- colhidos aleatoriamentee receberam um suplemento de cálcio por 12 semanas. A tabela a seguir mostra as medições da pressão sanguínea diastólica, para cada indivíduo, tirada antes e depois do período de 12 se- manas de tratamento. Com a = 0,01, você pode rejei- tar a afirmação de que não houve redução na pressão sanguínea diastólica? (Adaptado de The Journal of American Medical Association.) Paciente 1 2 3 4 Antes do tratamento 108 109 120 129 Depois do tratamento 99 115 105 116 Paciente 5 6 7 8 Antes do tratamento 112 111 117 135 Depois do tratamento 115 117 108 122 Paciente 9 10 11 12 Antes do tratamento 124 118 130 115 Depois do tratamento 120 126 128 106 4. Comércio atacadista e fabricação Um analista de indústria privada afirma que não há diferença nos salários recebidos por trabalhadores do comércio atacadista e das indústrias manufatureiras. A tabe- la a seguir mostra os salários (em milhares de dóla- res) de uma amostra aleatória de 10 trabalhadores do mercado atacadista e 10 trabalhadores da indús- tria. Com a = 0,10, você pode rejeitar a afirmação do analista? (Adaptado de U.S. Bureau of Econo- mic Analysis.) Mercado atacadista 69 62 63 77 60 Fabricação 69 65 54 72 52 Mercado atacadista 66 71 74 72 69 Fabricação 63 74 56 62 50 5. Salário por grau Um administrador de faculdade afirma que há uma diferença no salário de pessoas com grau de bacharel e aquelas com grau de pós-gra- duação. A tabela a seguir mostra os salários (em mi- lhares de dólares) de uma amostra aleatória de 11 bacharéis e 10 pessoas pós-graduadas. Com a = 0,05, há evidência suficiente para confirmar a afirmação do administrador? (Adaptado de U.S. Census Bureau.) Bacharel 56 52 65 78 72 52 Pós-graduação 84 87 95 81 86 86 Bacharel 46 58 62 54 56 Pós-graduação 93 93 90 82 6. Dores de cabeça Um médico pesquisador quer determi- nar se um novo remédio afeta o número de horas de dor de cabeça pelas quais passam pessoas que sofrem desse mal. Para tanto, o pesquisador seleciona aleatoriamente sete pacientes e pede que cada um informe o número de horas de dor de cabeça (por dia) que cada um sente antes e depois de tomar o remédio. A tabela a seguir mostra os resultados. Com nível de significância a = 0,05, o pesqui- sador pode concluir que o novo remédio afeta o número de horas de dor de cabeça? Paciente 1 2 3 4 Horas de dor de cabeça (antes) 0,8 2,4 2,8 2,6 Horas de dor de cabeça (depois) 1,6 1,3 1,6 1,4 Paciente 5 6 7 Horas de dor de cabeça (antes) 2,7 0,9 1,2 Horas de dor de cabeça (depois) 1,5 1,6 1,7 7. Salários de professores Um representante do sindi- cato de professores afirma que há uma diferença nos salários recebidos por professores em Wisconsin e Mi- chigan. A tabela a seguir mostra os salários (em milha- res de dólares) de uma amostra aleatória de 11 profes- sores em Wisconsin e 12 professores em Michigan. Com a = 0,05, há evidência suficiente para aceitar a afirmação do representante? (Adaptado de National Education Association.) 18 Estatística aplicada Wisconsin 55 59 49 56 51 61 Michigan 64 68 58 65 60 70 Wisconsin 55 61 53 47 52 Michigan 64 70 62 56 61 79 8. Frequência cardíaca Um médico quer determinar se uma medicação experimental afeta a frequência cardí- aca de um indivíduo. O médico seleciona aleatoriamen- te 15 pacientes e mede a frequência cardíaca de cada um. Os indivíduos tomam, então, o medicamento e têm suas frequências cardíacas medidas novamente após uma hora. A tabela a seguir mostra os resultados. Para um nível de significância a = 0,05, o médico pode con- cluir que a medicação experimental afeta a frequência cardíaca de um indivíduo? Paciente 1 2 3 4 5 Frequência cardíaca (antes) 72 81 75 76 79 Frequência cardíaca (depois) 73 80 75 79 74 Paciente 6 7 8 9 10 Frequência cardíaca (antes) 74 65 67 76 83 Frequência cardíaca (depois) 76 73 67 74 77 Paciente 11 12 13 14 15 Frequência cardíaca (antes) 66 75 76 78 68 Frequência cardíaca (depois) 70 77 76 75 74 Expandindo conceitos Teste dos postos sinalizados de Wilcoxon para n > 30 Quando você está realizando um teste dos pos- tos sinalizados de Wilcoxon e o tamanho da amostra n é maior que 30, você pode usar a Tabela Normal Padrão e a fórmula a seguir para encontrar a estatística de teste. z = ws - n 1n + 12 4 B n 1n + 12 12n + 12 24 Nos exercícios 9 e 10, realize o teste dos postos sinaliza- dos de Wilcoxon indicado usando a estatística de teste para n > 30. 9. Aditivo de combustível Um engenheiro de petróleo quer saber se certo aditivo de combustível melhora o desempenho de um carro. Para decidir, o engenheiro registra o desempenho (em milhas por galão) de 33 carros selecionados aleatoriamente com e sem o aditi- vo de combustível. A tabela a seguir mostra os resulta- dos. Com a = 0,10, o engenheiro pode concluir que o desempenho melhorou? Carro 1 2 3 4 5 6 Sem aditivo 36,4 36,4 36,6 36,6 36,8 36,9 Com aditivo 36,7 36,9 37,0 37,5 38,0 38,1 Carro 7 8 9 10 11 12 Sem aditivo 37,0 37,1 37,2 37,2 36,7 37,5 Com aditivo 38,4 38,7 38,8 38,9 36,3 38,9 Carro 13 14 15 16 17 18 Sem aditivo 37,6 37,8 37,9 37,9 38,1 38,4 Com aditivo 39,0 39,1 39,4 39,4 39,5 39,8 Carro 19 20 21 22 23 24 Sem aditivo 40,2 40,5 40,9 35,0 32,7 33,6 Com aditivo 40,0 40,0 40,1 36,3 32,8 34,2 Carro 25 26 27 28 29 30 Sem aditivo 34,2 35,1 35,2 35,3 35,5 35,9 Com aditivo 34,7 34,9 34,9 35,3 35,9 36,4 Carro 31 32 33 Sem aditivo 36,0 36,1 37,2 Com aditivo 36,6 36,6 38,3 10. Aditivo de combustível Um engenheiro de petróleo afirma que um aditivo de combustível melhora o de- sempenho. A tabela a seguir mostra o desempenho (em milhas por galão) de 32 carros selecionados aleatoria- mente, medido com e sem o aditivo de combustível. Tes- te a afirmação do engenheiro de petróleo com a = 0,05. Carro 1 2 3 4 5 6 7 8 Sem aditivo 34,0 34,2 34,4 34,4 34,6 34,8 35,6 35,7 Com aditivo 36,6 36,7 37,2 37,2 37,3 37,4 37,6 37,7 Carro 9 10 11 12 13 14 15 16 Sem aditivo 30,2 31,6 32,3 33,0 33,1 33,7 33,7 33,8 Com aditivo 34,2 34,9 34,9 34,9 35,7 36,0 36,2 36,5 Carro 17 18 19 20 21 22 23 24 Sem aditivo 35,7 36,1 36,1 36,6 36,6 36,8 37,1 37,1 Com aditivo 37,8 38,1 38,2 38,3 38,3 38,7 38,8 38,9 Carro 25 26 27 28 29 30 31 32 Sem aditivo 37,2 37,9 37,9 38,0 38,0 38,4 38,8 42,1 Com aditivo 39,1 39,1 39,2 39,4 39,8 40,3 40,8 43,2 Capítulo 11 Testes não paramétricos 19 11.3 Teste de Kruskal-Wallis O teste de Kruskal-Wallis O teste de Kruskal-Wallis Na Seção 10.4 você aprendeu como usar técnicas da ANOVA com um fa- tor para comparar as médias de três ou mais populações. Ao usar a ANOVA com um fator, você deve verificar se cada amostra independente é sele- Classificação das faculdades A cada ano, a Forbes e o Center for College Affordability and Productivi- ty lançam uma lista das melhores instituições de ensino superior nos Estados Unidos. Seiscentas e cinquenta instituições de ensino superior são classificadas de acordo com a qualidade da educação, proporção de graduação em 4 anos, resultados da pós-graduação, dívida média do estudante após 4 anos e número de estudantes que ganharam prêmios competitivos, tais como bolsas de estudos. A tabela a seguir mostra o total de estudantes de instituições de ensino supe- rior selecionadas aleatoriamente, por região, na lista de 2012. Total de estudantes em cada uma das 40 instituições Nordeste Centro-Oeste Sul Oeste 1.778 14.399 6.224 1.474 14.754 14.697 13.893 1.041 8.768 3.547 29.617 30.467 2.632 2.231 16.198 72.254 21.067 5.324 2.454 18.004 1.619 12.554 27.386 33.395 4.991 11.528 811 1.596 822 23.863 4.188 1.859 15.128 3.082 24.753 12.925 18.055 1.407 44.616 7.155 Estudo de caso Exercícios 1. Construa um boxplot lado a lado para as quatro regiões. Apenas observando o gráfico, é possível perceber duas ou mais medianas “próximas” ? Al- guma parece ser diferente? Nos exercícios 2 a 5, use o teste dos sinais para testar a afirmação. O que você pode concluir? Use a = 0,05. 2. A população total mediana de estudantes em ins- tituições no Nordesteé menor ou igual a 7.000. 3. A população total mediana de estudantes em insti- tuições no Centro-Oeste é maior ou igual a 8.000. 4. A população total mediana de estudantes em ins- tituições no Sul é 10.000. 5. A população total mediana de estudantes em ins- tituições no Oeste é diferente de 8.000. Nos exercícios 6 e 7, use o teste da soma dos postos de Wilcoxon para testar a afirmação. Use a = 0,01. 6. Não há diferença entre a população total de estudan- tes para as instituições no Centro-Oeste e no Oeste. 7. Há diferença entre a população total de estudan- tes para as instituições no Nordeste e no Sul. O que você deve aprender • Como usar o teste de Kruskal-Wallis para determinar se três ou mais amostras foram selecionadas de populações que apresentam a mesma distribuição. 20 Estatística aplicada cionada de uma população com distribuição normal, ou aproximadamente normal. Quando você não pode concluir que as populações são normais, você ainda pode comparar as distribuições de três ou mais populações. Para tanto, você pode usar o teste de Kruskal-Wallis. Definição O teste de Kruskal-Wallis é um teste não paramétrico que pode ser usado para determinar se três ou mais amostras independentes foram selecionadas de populações que possuem a mesma distribuição. Para um teste de Kruskal-Wallis, as hipóteses nula e alternativa são sempre semelhantes às seguintes afirmações: H0: Todas as populações possuem a mesma distribuição. Ha: Pelo menos uma população possui uma distribuição que é diferen- te das demais. As condições para usar o teste de Kruskal-Wallis são que as amostras devem ser aleatórias e independentes, e o tamanho de cada amostra deve ser pelo menos 5. Se essas condições são satisfeitas, então a distribuição amostral para o teste de Kruskal-Wallis é aproximada por uma distribuição qui-quadrado com k – 1 graus de liberdade, em que k é o número de amos- tras. Você pode calcular a estatística de teste de Kruskal-Wallis usando a fórmula descrita a seguir. Estatística de teste para o teste de Kruskal-Wallis Para três ou mais amostras independentes, a estatística de teste para o teste de Kruskal-Wallis é: H = 12 N 1N + 12 a R12 n1 + R22 n2 + c+ R2k nk b - 3 1N + 12 em que k é o número de amostras, ni é o tamanho da i-ésima amostra, N é a soma dos tamanhos das amostras, e Ri é a soma dos postos da i-ésima amostra. Realizar um teste de Kruskal-Wallis consiste em combinar e classi- ficar em ordem crescente os dados amostrais. Após, os postos são então separados de acordo com a amostra e a soma dos postos de cada amostra é calculada. Essas somas são então usadas para calcular a estatística de teste H, que é uma aproximação da variância das somas dos postos. Quando as amostras são selecionadas de populações que possuem a mesma distribuição, as so- mas dos postos serão, em geral, aproximadamente iguais, H será pequeno, e você provavelmente não deve rejeitar a hipótese nula. Quando as amostras são selecionadas de populações que não possuem a mesma distribuição, as somas dos postos poderão ser muito diferentes, H será grande e você provavelmente deve rejeitar a hipótese nula. Como só se rejeita a hipótese nula quando H é significativamente gran- de, o teste de Kruskal-Wallis é sempre um teste unilateral à direita. Capítulo 11 Testes não paramétricos 21 Instruções Realizando um teste de Kruskal-Wallis EM PALAVRAS EM SÍMBOLOS 1. Verifique se as amostras são aleatórias e independentes, e cada tamanho de amostra é pelo menos 5. 2. Identifique a afirmação. Declare as hi- póteses nula e alternativa. Formule H0 e Ha. 3. Especifique o nível de significância. Identifique a. 4. Identifique os graus de liberdade g.l. = k – 1 5. Determine o valor crítico e a região de rejeição. Use a Tabela B.6 no Apêndice B. 6. Encontre a soma dos postos para cada amostra. a. Liste os dados combinados em or- dem crescente. b. Classifique os dados combinados. 7. Encontre a estatística de teste e esbo- ce a distribuição amostral. H = 12 N 1N + 12 # a R12 n1 + R22 n2 + c + R2k nk b - 3 1N + 12 8. Decida se rejeita ou não rejeita a hipó- tese nula. Se H está na região de rejeição, então rejeite H0. Caso contrário, não rejeite H0. 9. Interprete a decisão no contexto da afirmação original. 1Exemplo Realizando um teste de Kruskal-Wallis Você quer comparar o número de crimes denunciados em três dele- gacias policiais em uma cidade. Para tal, você seleciona aleatoriamente 10 semanas para cada delegacia e registra o número de crimes denun- ciados. A Tabela 11.11 mostra os resultados. Com a = 0,01, você pode concluir que a distribuição do número de crimes denunciados em pelo menos uma delegacia é diferente das demais? Solução Você quer testar a afirmação de que a distribuição do número de cri- mes denunciados em pelo menos uma delegacia é diferente das demais. As hipóteses nula e alternativa são as seguintes: H0: A distribuição do número de crimes denunciados é a mesma nas três delegacias. Ha: A distribuição do número de crimes denunciados em pelo me- nos uma delegacia é diferente das demais. (Afirmação) O teste é unilateral à direita com a = 0,01 e g.l. = k – 1 = 3 – 1 = 2. Da Tabela B.6 no Apêndice B, o valor crítico é x2 0 = 9,210. A região de rejeição é x2 > 9,210. Para calcular a estatística de teste, você deve encontrar a soma dos postos para cada amostra. Tabela 11.11 Número de crimes denunciados por semana. 101ª delegacia (Amostra 1) 106ª delegacia (Amostra 2) 113ª delegacia (Amostra 3) 60 65 69 52 55 51 49 64 70 52 66 61 50 53 67 48 58 65 57 50 62 45 54 59 44 70 60 56 62 63 22 Estatística aplicada A Tabela 11.12 mostra os dados combinados listados em ordem cres- cente e os correspondentes postos. Tabela 11.12 Ordenação dos dados e respectivos postos. Dados ordenados Amostra Posto Dados ordenados Amostra Posto Dados ordenados Amostra Posto 44 101a 1 54 106a 11 62 113a 20,5 45 101a 2 55 106a 12 63 113a 22 48 101a 3 56 101a 13 64 106a 23 49 101a 4 57 101a 14 65 106a 24,5 50 101a 5,5 58 106a 15 65 113a 24,5 50 106a 5,5 59 113a 16 66 106a 26 51 113a 7 60 101a 17,5 67 113a 27 52 101a 8,5 60 113a 17,5 69 113a 28 52 101a 8,5 61 113a 19 70 106a 29,5 53 106a 10 62 106a 20,5 70 113a 29,5 A soma dos postos para cada amostra é: R1 = 1 + 2 + 3 + 4 + 5,5 + 8,5 + 8,5 + 13 + 14 + 17,5 = 77 R2 = 5,5 + 10 + 11 + 12 + 15 + 20,5 + 23 + 24,5 + 26 + 29,5 = 177 R3 = 7 + 16 + 17,5 + 19 + 20,5 + 22 + 24,5 + 27 + 28 + 29,5 = 211 Usando essas somas e os valores n1 = 10, n2 = 10, n3 = 10 e N = 30, a estatística de teste é: H = 12 30 130 + 12 a 772 10 + 1772 10 + 2112 10 b - 3 130 + 12 ≈ 12,521. A Figura 11.4 mostra a localização da região de rejeição e a estatística de teste H. Como H está na região de rejeição, você rejeita a hipótese nula. Interpretação Há evidência suficiente, ao nível de significância de 1%, para aceitar a afirmação de que a distribuição do número de crimes denunciados em pelo menos uma delegacia é diferente das demais. Figura 11.4 Distribuição qui-quadrado, região de rejeição e estatística de teste. 2 4 6 8 10 12 14 H ≈ 12,521 a = 0,01 x2 0 = 9,210 x2 Capítulo 11 Testes não paramétricos 23 Tente você mesmo 1 Você quer comparar os salários de veterinários que trabalham no Texas, na Flórida e em Ohio. Para compará-los, você seleciona aleato- riamente diversos veterinários em cada estado e registra seus salários. A Tabela 11.13 mostra os salários (em milhares de dólares). Com a = 0,05, você pode concluir que a distribuição dos salários dos veterinários em pelo menos um estado é diferente das demais? (Adaptado de U.S. Bureau of Labor Statistics.) Tabela 11.13 Salários de veterinários. TX (Amostra 1) FL (Amostra 2) OH (Amostra 3) 99,6 95,2 94,9 97,2 100,6 99,4 98,5 98,3 106,2 100,4 102,8 90,9 100,9 93,9 84,5 95,9 103,2 95,7 99,4 98,7 96,3 87,9 93,3 93,0 113,6 102,4 93,2 102,9 a. Identifique a afirmação edeclare H0 e Ha. b. Identifique o nível de significância a. c. Identifique os graus de liberdade. d. Encontre o valor crítico e identifique a região de rejeição. e. Liste os dados combinados em ordem crescente, classifique-os e en- contre a soma dos postos de cada amostra. f. Encontre a estatística de teste H. Esboce um gráfico. g. Decida se rejeita a hipótese nula. h. Interprete a decisão no contexto da afirmação original. Retratando o mundo As informações a seguir, coletadas aleatoriamente, foram usadas para comparar as temperaturas da água (em graus Fahrenheit) de cidades na fronteira com o Golfo do México. (Adaptado de National Oceanographic Data Center.) Cedar Key FL (Amostra 1) Eugene Island, LA (Amostra 2) Dauphin Island, AL (Amostra 3) 62 51 63 69 55 51 77 57 54 59 63 60 60 74 75 75 82 80 83 85 70 65 60 78 79 64 82 86 76 84 82 83 86 Com a = 0,05, você pode concluir que pelo menos uma distribuição de temperatura é diferente das demais? 11.3 Exercícios Construindo habilidades básicas e vocabulário 1. Quais são as condições para usar um teste de Kruskal-Wallis? 2. Explique por que o teste de Kruskal-Wallis é sempre um teste unilateral à direita. Usando e interpretando conceitos Realizando um teste de Kruskal-Wallis Nos exer- cícios 3 a 6, (a) identifique a afirmação e declareH0 e Ha, (b) encontre o valor crítico e identifique a região de re- jeição, (c) encontre a estatística de teste, (d) decida entre rejeitar ou não a hipótese nula e (e) interprete a decisão no contexto da afirmação original. 3. Seguro residencial A tabela a seguir mostra os prê- mios anuais para uma amostra aleatória de apólices de seguro residencial em Connecticut, Massachusetts e Vir- ginia. Para um nível de significância a = 0,05, você pode concluir que a distribuição dos prêmios anuais em pelo menos um estado é diferente das demais? (Adaptado de National Association of Insurance Commissioners.) Estado Prêmio anual (em dólares) Connecticut 1.053 848 1.013 1.163 Massachusetts 1.132 1.052 1.007 1.322 Virginia 885 800 616 695 Connecticut 1.288 929 1.070 Massachusetts 1.137 916 784 Virginia 982 688 605 24 Estatística aplicada 4. Remuneração por hora Um pesquisador quer deter- minar se há diferença nas taxas de remuneração por hora para enfermeiras registradas em Indiana, Kentu- cky e Ohio. O pesquisador seleciona aleatoriamente diversas enfermeiras registradas em cada estado e ano- ta a variação da remuneração por hora de cada uma. A tabela a seguir mostra os resultados. Com a = 0,05, o pesquisador pode concluir que a distribuição das taxas de remuneração por hora das enfermeiras registradas em pelo menos um estado é diferente das demais? (Adaptado de U.S. Bureau of Labor Statistics.) Estado Taxa de remuneração horária (em dólares) Indiana 27,61 28,06 26,46 27,21 Kentucky 26,66 25,29 27,81 29,91 Ohio 26,94 31,34 32,74 33,01 Indiana 30,05 24,91 29,25 Kentucky 28,26 31,31 24,31 Ohio 26,44 28,99 5. Salários anuais A tabela a seguir mostra os salários anuais para uma amostra aleatória de trabalhadores da indústria privada em Kentucky, Carolina do Norte, Ca- rolina do Sul e West Virginia. Com a = 0,10, você pode concluir que a distribuição dos salários anuais dos tra- balhadores da indústria privada em pelo menos um estado é diferente das demais? (Adaptado de U.S. Bu- reau of Labor Statistics.) Estado Salário anual (em milhares de dólares) Kentucky 35,3 37,0 45,9 57,5 Carolina do Norte 43,5 41,9 36,6 54,3 Carolina do Sul 29,8 37,4 43,5 42,9 West Virginia 31,6 42,7 33,4 41,9 Kentucky 33,7 28,3 35,3 Carolina do Norte 35,5 39,6 43,5 Carolina do Sul 34,7 36,1 29,8 West Virginia 47,1 34,9 31,6 6. Teor de cafeína A tabela a seguir mostra as quantidades de cafeína (em miligramas) em porções de 16 onças para uma amostra aleatória de bebidas. Com a = 0,01, você pode concluir que a distribuição das quantidades de cafeína em pelo menos uma bebida é diferente das demais? (Adapta- do de Center for Science in the Public Interest.) Bebida Quantidade de cafeína em porções de 16 onças (em miligramas) Cafés 320 300 206 150 Refrigerantes 95 96 56 51 Energéticos 200 141 160 152 Chás 100 106 42 15 Bebida Quantidade de cafeína em porções de 16 onças (em miligramas) Cafés 266 Refrigerantes 71 72 47 Energéticos 154 166 Chás 32 10 Expandindo conceitos Comparando dois testes Nos exercícios 7 e 8, (a) realize um teste de Kruskal-Wallis. (b) realize um teste ANOVA com um fator, supondo que cada população é normalmente distribuída e as variâncias populacionais são iguais. Se for conveniente, use tecnologia. (c) compare os resultados. 7. Estadia de pacientes em hospitais Um agente de segu- ros afirma que o número de dias que pacientes passam no hospital é diferente em pelo menos uma região dos Estados Unidos. A tabela a seguir mostra o número de dias que pacientes selecionados aleatoriamente passa- ram no hospital em quatro regiões dos Estados Unidos. Para o nível de significância a = 0,01, você pode concor- dar com a afirmação do agente de seguros? (Adaptado de U.S. National Center for Health Statistics.) Região Número de dias Nordeste 8 6 6 3 5 Centro-Oeste 5 4 3 9 1 Sul 5 8 1 5 8 Oeste 2 3 6 6 5 Nordeste 11 3 8 1 6 Centro-Oeste 4 6 3 4 7 Sul 7 5 1 Oeste 4 3 6 5 8. Consumo de energia A tabela a seguir mostra a energia consumida (em milhões de Btus) em um ano para uma amostra aleatória de domicílios de quatro regiões dos Estados Unidos. Com a = 0,01, você pode concluir que a energia consumida é diferente em pelo menos uma região? (Adaptado de U.S. Energy Infor- mation Administration.) Região Energia consumida (em milhões de Btus) Nordeste 61 95 140 127 93 97 Centro-Oeste 59 158 169 140 95 187 Sul 86 35 67 86 142 69 Oeste 81 39 85 35 113 46 Nordeste 84 123 89 163 Centro-Oeste 123 104 88 37 72 Sul 65 62 Oeste 125 70 77 63 Capítulo 11 Testes não paramétricos 25 11.4 Correlação de postos O coeficiente de correlação de postos de Spearman O coeficiente de correlação de postos de Spearman Na Seção 9.1 você aprendeu como medir a força da relação entre duas variáveis usando o coeficiente de correlação de Pearson r. Dois requisitos para o coeficiente de correlação de Pearson são que as variáveis sejam li- nearmente relacionadas e que tenham uma distribuição normal bivariada. Quando esses requisitos não podem ser satisfeitos, você pode examinar a relação entre duas variáveis usando o equivalente não paramétrico para o coeficiente de correlação de Pearson — o coeficiente de correlação de postos de Spearman. O coeficiente de correlação de postos de Spearman tem várias vanta- gens em relação ao coeficiente de correlação de Pearson. Por exemplo, o coeficiente de correlação de postos de Spearman pode ser usado para descrever a relação entre dados lineares e não lineares. Também pode ser usado para dados no nível ordinal. Sem o auxílio de “tecnologia”, o coefi- ciente de Spearman é mais fácil de ser calculado. Definição O coeficiente de correlação de postos de Spearman rs é uma medida da força da relação entre duas variáveis. O coeficiente de correlação de postos de Spearman é calculado usando-se os postos dos valores de amostras pareadas. Se não houver empates nos postos de ambas as variáveis, a fórmula para o coeficiente de correlação de postos de Spearman será: rs = 1 - 6Σd2 n (n2 - 1) em que n é o número de pares de valores e d é a diferença entre os postos de cada par. Se houver poucos empates nos postos, em relação ao número de pares de dados, então a fórmula ainda poderá ser usada para aproximar rs. Os valores de rs variam de –1 a 1, inclusive. Quando os postos em cada par de dados correspondentes são exatamente idênticos, rs é igual a 1. Quan- do os postos estão em ordem “inversa”(em cada par a soma dos postos é n + 1), rs é igual a –1. Quando os postos de pares de dados correspondentes não têm relação, rs é igual a 0. Após calcular o coeficiente de correlação de postosde Spearman, você pode verificar se a correlação entre as variáveis é significativa. Pode fazer essa determinação realizando um teste de hipótese para o coeficiente de correlação da população rs. As hipóteses nula e alternativa para esse teste são as seguintes: H0: rs = 0 (Não há correlação entre as variáveis.) Ha: rs ≠ 0 (Há correlação significativa entre as variáveis.) A Tabela B.10 no Apêndice B lista os valores críticos para o coeficiente de correlação de postos de Spearman para níveis de significância e tama- nhos de amostra selecionados. A estatística de teste para o teste de hipóte- se é o coeficiente de correlação de postos de Spearman rs. O que você deve aprender • Como usar o coeficiente de correlação de postos de Spearman para determinar se a correlação entre duas variáveis é significativa. 26 Estatística aplicada Instruções Testando a significância do coeficiente de correlação de postos de Spearman EM PALAVRAS EM SÍMBOLOS 1. Identifique a afirmação. Declare as hipóteses nula e alternativa. Formule H0 e Ha. 2. Especifique o nível de significância. Identifique a. 3. Determine o valor crítico. Use a Tabela B.10 no Apêndice B. 4. Encontre a estatística de teste. rs = 1 - 6Σd2 n (n2 - 1) 5. Tome uma decisão para rejeitar ou não rejeitar a hipótese nula. Se |rs| é maior que o valor crítico, então rejeite H0. Caso contrário, não rejeite H0. 6. Interprete a decisão no contexto da afirmação original. 1Exemplo Coeficiente de correlação de postos de Spearman A Tabela 11.14 mostra as matrículas de homens e mulheres para uma amostra aleatória de 10 faculdades. Com a = 0,05, você pode concluir que há correlação significativa entre o número de homens e o número de mulheres matriculados em uma faculdade? Tabela 11.14 Números de homens e de mulheres matriculados em 10 faculdades. Homem Mulher 1.786 2.182 4.246 4.415 1.419 1.537 1.188 1.236 2.394 2.182 1.079 919 4.049 4.209 3.595 3.741 1.102 1.086 1.345 1.282 Solução A afirmação é “há uma correlação significativa entre o número de homens e o número de mulheres matriculados em uma faculdade”. As hipóteses nula e alternativa estão listadas a seguir. H0: rs = 0 (Não há correlação entre o número de homens e o número de mulheres matriculados em uma faculdade.) Ha: rs ≠ 0 (Há correlação significativa entre o número de homens e o número de mulheres matriculados em uma faculdade.) (Afirmação) Capítulo 11 Testes não paramétricos 27 Cada conjunto de dados tem 10 valores. Como a = 0,05 e n = 10, o valor crítico é 0,648. Para calcular a estatística de teste, você deve en- contrar Σd2, a soma dos quadrados das diferenças dos postos dos con- juntos de dados. Você pode usar uma tabela para calcular Σd2, conforme mostrado na Tabela 11.15. Tabela 11.15 Operações para o cálculo do coeficiente de correlação rs. Homem Posto Mulher Posto d d2 1.786 6 2.182 6,5 –0,5 0,25 4.246 10 4.415 10 0 0 1.419 5 1.537 5 0 0 1.188 3 1.236 3 0 0 2.394 7 2.182 6,5 0,5 0,25 1.079 1 919 1 0 0 4.049 9 4.209 9 0 0 3.595 8 3.741 8 0 0 1.102 2 1.086 2 0 0 1.345 4 1.282 4 0 0 Σd 2 = 0,5 Uma vez que n = 10 e Σd2 = 0,5, a estatística de teste é: rs = 1 - 6Σd2 n (n2 - 1) = 1 - 6 10,52 10 (102 - 1) ≈ 0,997. Como |rs| ≈ 0,997 > 0,648, você rejeita a hipótese nula. Interpretação Há evidência suficiente, ao nível de significância de 5%, para concluir que há correlação significativa entre o número de homens e o número de mulheres matriculados em uma faculdade. Tente você mesmo 1 A Tabela 11.16 mostra os preços (em dólares por alqueire) recebidos para aveia e trigo em uma amostra de sete agricultores americanos. Com a = 0,10, você pode concluir que há uma correlação significativa entre os preços da aveia e do trigo? (Adaptado de U.S. Department of Agriculture.) Tabela 11.16 Preços relativos a aveia e trigo. Aveia 4,04 4,38 4,03 4,05 4,21 4,02 4,04 Trigo 7,96 8,13 7,72 7,97 8,01 7,75 7,98 a. Identifique a afirmação e declare H0 e Ha. b. Identifique o nível de significância a. c. Encontre o valor crítico. d. Use uma tabela para calcular Σd2. e. Encontre a estatística de teste rs. f. Decida se rejeita a hipótese nula. g. Interprete a decisão no contexto da afirmação original. Dica de estudo Lembre-se, no caso de empate entre os valores do par, use a média dos postos correspondentes. Retratando o mundo A tabela a seguir mostra os preços de varejo (em dólares por libra) para 100% carne moída e frango inteiro fresco para uma amostra aleatória de nove mercearias nos EUA. (Adaptado de U.S. Bureau of Labor Statistics.) Carne Frango 2,38 1,28 2,36 1,25 2,19 1,23 2,29 1,25 2,39 1,28 2,20 1,22 2,38 1,27 2,38 1,26 2,38 1,26 Existe correlação significativa entre os preços da carne moída e do frango nas mercearias dos EUA? Use a = 0,10. 28 Estatística aplicada 11.4 Exercícios Construindo habilidades básicas e vocabulário 1. Cite algumas vantagens do coeficiente de correlação de postos de Spearman sobre o coeficiente de correlação de Pearson. 2. Descreva os limites do coeficiente de correlação de postos de Spearman e do coeficiente de correlação de Pearson. 3. O que significa quando rs é igual a 1? O que significa quan- do rs é igual a –1? O que significa quando rs é igual a 0? 4. Explique, com suas palavras, o que rs e rs representam no Exemplo 1. Usando e interpretando conceitos Testando uma afirmação Nos exercícios 5 a 8, (a) identifique a afirmação e declare H0 e Ha, (b) encontre o valor crítico, (c) encontre a estatística de teste rs, (d) decida se rejeita ou não a hipótese nula e (e) interprete a decisão no contexto da afirmação original. 5. Despesas agrícolas Em um relatório agrícola, um analista de commodities afirma que há uma correlação significativa entre despesas com compra de sementes e despesas com fertilizantes e cal nos negócios agrícolas. A tabela a seguir mostra as despesas totais com compra de sementes e despesas com fertilizantes e cal para fa- zendas em oito estados selecionados aleatoriamente, para um ano recente. Para o nível a = 0,05, há evidência suficiente para aceitar a afirmação do analista? (Adap- tado de U.S. Department of Agriculture.) Estado Despesas com compra de sementes (em milhões de dólares) Despesas com fertilizantes e cal (em milhões de dólares) Arkansas 430 490 Califórnia 1.070 1.640 Flórida 330 520 Kentucky 164 360 Michigan 610 557 Carolina do Norte 340 460 Ohio 710 893 Washington 250 380 6. Aparelhos de exercício A tabela a seguir mostra as pontuações gerais e os preços para uma amostra alea- tória de nove modelos diferentes de equipamentos de exercício elíptico. A pontuação geral representa a ergo- nomia, amplitude do exercício, facilidade de uso, cons- trução, monitoramento cardíaco e segurança. Com a = 0,05, você pode concluir que há uma correlação signifi- cativa entre a pontuação geral e o preço? (Fonte: Con- sumer Report.) Pontuação geral 77 75 73 Preço (em dólares) 3.700 1.700 1.300 Pontuação geral 71 66 66 Preço (em dólares) 900 1.000 1.400 Pontuação geral 64 62 58 Preço (em dólares) 1.800 1.000 700 7. Preços de colheita A tabela a seguir mostra os preços (em dólares por alqueire) recebidos para cevada e milho em uma amostra aleatória de nove agricultores ameri- canos. Com a = 0,05, você pode concluir que há uma correlação significativa entre os preços da cevada e do milho? (Adaptado de U.S. Department of Agriculture.) Cevada 5,42 5,40 5,35 5,70 5,72 Milho 6,05 6,28 6,34 6,36 6,36 Cevada 5,48 6,33 6,45 6,46 Milho 6,35 7,16 7,65 6,90 8. Aspiradores de pó A tabela a seguir mostra as pontua- ções gerais e os preços para uma amostra aleatória de 12 modelos diferentes de aspiradores de pó. A pontuação geral representa limpeza de carpete e piso, fluxo de ar, manuseio, barulho e emissões. Com a = 0,10, você pode concluir que há uma correlação significativa entre a pon- tuação geral e o preço? (Fonte: Consumer Report.) Pontuação geral 73 65 60 71 Preço (em dólares)
Compartilhar