Prévia do material em texto
Em um ano recente, a forma mais comum de roubo de identidade relatada foi fraude de documentos/ benefícios do governo, que representou 36% dos casos. A segunda forma mais comum foi fraude de cartão de crédito, que respondeu por 30% dos casos. 11.1 Teste dos sinais 11.2 Testes de Wilcoxon Estudo de caso 11.3 Teste de Kruskal-Wallis 11.4 Correlação de postos 11.5 Teste de corridas Usos e abusos Estatística real – Decisões reais Tecnologia C A P Í T U L O 11 Testes não paramétricos Onde estamos Para onde vamos Até este ponto no livro, você estudou dezenas de fórmu- las e testes estatísticos diferentes que podem ajudar em um processo de tomada de decisão. Condições específicas tinham de ser satisfeitas a fim de usar essas fórmulas e testes. Suponha que se acredite que, conforme o número de reclamações de fraude em um estado aumenta, o número de vítimas de roubo de identidade também aumenta. Essa cren- ça pode ser confirmada por dados reais? A Tabela 11.1 mostra os números de reclamações de fraude e vítimas de roubo de identidade para 25 estados selecionados aleatoriamente em um ano recente. (Fonte: Federal Trade Commission.). Tabela 11.1 Reclamações de fraude 10.092 3.504 71.328 35.533 34.375 8.594 4.064 15.886 10.970 Vítimas de roubo de identidade 2.301 1.266 24.370 22.801 7.432 7.183 637 3.454 4.374 Reclamações de fraude 48.507 63.115 11.354 241.262 85.622 24.539 79.208 38.947 Vítimas de roubo de identidade 13.653 20.718 2.353 101.367 30.176 17.470 15.632 8.246 Reclamações de fraude 4.346 78.412 28.416 318.698 111.261 19.700 53.111 3.582 Vítimas de roubo de identidade 810 32.125 6.821 147.382 33.886 11.048 45.575 875 Neste capítulo você estudará testes estatísticos adicionais que não necessitam que a distribuição da população satis- faça quaisquer condições específicas. Cada um desses tes- tes pode ser útil em aplicações da vida real. Com os dados apresentados anteriormente, o número de reclamações de fraude F e o número de vítimas de roubo de identidade V podem ser relacionados pela equação de regressão V = 0.438F – 2.114,066. O coeficiente de correla- ção é aproximadamente 0,971, então, há uma correlação positiva forte. Você pode determinar que a correlação é sig- nificativa usando a Tabela B.11 no Apêndice B. Uma análise mais profunda dos dados, contudo, pode mostrar que as variáveis não parecem ter uma distribuição normal bivaria- da, o que é um dos requisitos para usar o coeficiente de correlação de Pearson. Assim, embora um simples teste de correlação possa indicar uma relação entre o número de reclamações de fraude e o número de vítimas de roubo de identidade, podem-se questionar os resultados porque os dados não se encaixam nos requisitos para o teste. Você estudará testes similares neste capítulo, como o teste de correlação de postos de Spearman, que lhe darão informações adicio- nais. O coeficiente de correlação de postos de Spearman para esses dados é aproximadamente 0,920. Com α = 0,01, há de fato uma correlação significativa entre o número de reclamações de fraude e o número de vítimas de roubo de identidade para cada estado (veja a Figura 11.1). Reclamações de fraude V ít im as d e ro u b o d e id en ti d ad e x y 100.000 200.000 300.000 400.000 50.000 100.000 150.000 200.000 Figura 11.1 Número de reclamações de fraude e vítimas de roubo de identidade para 25 estados. 584 Parte 4 Mais inferências estatísticas O teste dos sinais para uma mediana populacional O teste dos sinais usando amostras pareadas O teste dos sinais para uma mediana populacional Muitos dos testes de hipótese estudados até aqui impuseram um ou mais requisitos para uma distribuição populacional. Por exemplo, alguns testes requerem que uma população tenha uma distribuição normal e ou-tros testes requerem que as variâncias populacionais sejam iguais. O que você deve fazer quando tais requisitos não podem ser satisfeitos? Para esses casos, os estatísticos desenvolveram testes de hipóteses usados para dados com “distribuição livre”. Tais testes são chamados testes não paramétricos. DEFINIÇÃO Um teste não paramétrico é um teste de hipótese que não requer quaisquer condi- ções específicas acerca das formas das distribuições populacionais ou dos valores de parâmetros populacionais. Testes não paramétricos geralmente são mais fáceis de realizar do que os testes pa- ramétricos correspondentes. No entanto, eles são, em geral, menos eficientes que testes paramétricos. Evidências mais fortes são necessárias para rejeitar uma hipótese nula usando os resultados de um teste não paramétrico. Consequentemente, sempre que pos- sível, você deve usar um teste paramétrico. Um dos testes não paramétricos mais fáceis de realizar é o teste dos sinais. A única condição necessária para usar um teste dos sinais é que a amostra seja selecionada aleatoriamente. DEFINIÇÃO O teste dos sinais é um teste não paramétrico que pode ser usado para testar uma mediana populacional contra um valor hipotético k. O teste dos sinais para uma mediana populacional pode ser unilateral à esquerda, unilateral à direita ou bilateral. As hipóteses nula e alternativa para cada tipo de teste são as seguintes: Teste unilateral à esquerda: H0: mediana ≥ k e Ha: mediana k Teste bilateral: H0: mediana = k e Ha: mediana ≠ k. Para usar o teste de sinais, primeiro compare cada valor na amostra com a mediana hipotética k. Quando o valor estiver abaixo da mediana, atribua-lhe um sinal –; quando o valor estiver acima da mediana, atribua-lhe um sinal + e, quando o valor for igual à mediana, atribua-lhe um 0. Então, compare o número de sinais + e – (os zeros são igno- rados). Quando houver uma grande diferença entre o número de sinais + e o número de sinais –, é provável que a mediana seja diferente do valor hipotético e você deve rejeitar a hipótese nula. 11.1 Teste dos sinais O que você deve aprender Como usar o teste dos sinais para testar uma mediana populacional. Como aplicar o teste dos sinais usando amostras pareadas para testar a diferença entre duas medianas populacionais (amostras dependentes). Dica de estudo Para testes não paramétricos, os estatísticos testam a mediana em vez da média. Capítulo 11 Testes não paramétricos 585 A Tabela B.8 no Apêndice B lista os valores críticos para o teste dos sinais para níveis de significância selecionados e tamanhos de amostras. Quando o teste de sinais é usado, o tamanho da amostra n é o número total de sinais + e –. Quando o tamanho da amostra é maior que 25, você pode usar a distribuição normal padrão para encontrar os valores críticos. Estatística de teste para o teste dos sinais Quando n ≤ 25, a estatística de teste para o teste dos sinais é x, o menor número dos sinais + ou –. Quando n > 25, a estatística de teste para o teste de sinais é: z = ( x + 0,5) – 0,5n √n 2 em que x é o menor número de sinais + ou – e n é o tamanho da amostra, isto é, o número total dos sinais + e –. Uma vez que x é definido como o menor número dos sinais + ou –, a região de re- jeição está sempre na lateral esquerda. Consequentemente, o teste dos sinais para uma mediana populacional é sempre um teste unilateral à esquerda ou um teste bilateral. Quando o teste for bilateral, use apenas o valor crítico da lateral à esquerda. (Quando x é definido como o maior número dos sinais + ou –, a região de rejeição está sempre na lateral direita. Testes dos sinais unilaterais à direita são apresentados nos exercícios.) INSTRUÇÕES Realizando um teste dos sinais para uma mediana populacional Em palavras Em símbolos 1. Verifique se a amostra é aleatória. 2. Identifique a afirmação. Declare as Formule H0 e Ha. hipóteses nula e alternativa. 3. Especifique o nível de significância. Identifique α. 4. Determine o tamanho da amostra n, n = número total de sinais + e – atribuindo sinais +, sinais –nula e alternativa estão listadas a seguir. H0: ρs = 0 (Não há correlação entre o número de homens e o númerode mulheres matriculados em uma faculdade.) Ha: ρs ≠ 0 (Há correlação significativa entre o número de homens e o número de mulheres matriculados em uma faculdade.) (Afirmação) Capítulo 11 Testes não paramétricos 613 Cada conjunto de dados tem 10 valores. Como α = 0,05 e n = 10, o valor crítico é 0,648. Para calcular a estatística de teste, você deve encontrar Σd2, a soma dos quadra- dos das diferenças dos postos dos conjuntos de dados. Você pode usar uma tabela para calcular Σd2, conforme mostrado na Tabela 11.15. Tabela 11.15 Operações para o cálculo do coeficiente de correlação rs Júnior Posto Sênior Posto d d2 1.786 6 2.182 6,5 –0,5 0,25 4.246 10 4.415 10 0 0 1.419 5 1.537 5 0 0 1.188 3 1.236 3 0 0 2.394 7 2.182 6,5 0,5 0,25 1.079 1 919 1 0 0 4.049 9 4.209 9 0 0 3.595 8 3.741 8 0 0 1.102 2 1.086 2 0 0 1.345 4 1.282 4 0 0 Σd2 = 0,5 Uma vez que n = 10 e Σd2 = 0,5, a estatística de teste é: rs = 1 – 6 d 2 n n2 – 1 = 1 – 6 0,5 10 102 – 1 ≈ 0,997. Como |rs| ≈ 0,997 > 0,648, você rejeita a hipótese nula. Interpretação Há evidência suficiente, ao nível de significância de 5%, para con- cluir que há correlação significativa entre o número de homens e o número de mulhe- res matriculados em uma faculdade. TENTE VOCÊ MESMO 1 A Tabela 11.16 mostra os preços (em dólares por alqueire) recebidos para aveia e trigo em uma amostra de sete agricultores americanos. Com α = 0,10, você pode concluir que há uma correlação significativa entre os preços da aveia e do trigo? (Adaptado de U.S. Department of Agriculture.) Tabela 11.16 Preços relativos a aveia e trigo Aveia Trigo 2,97 2,69 3,00 3,11 3,07 3,41 3,42 5,24 5,46 5,48 5,83 5,886 6,04 6,46 Dica de estudo Lembre-se, no caso de empate entre os valores do par, use a média dos postos correspondentes. Retratando o mundo A tabela a seguir mostra os preços de varejo (em dólares por libra) para 100% carne moída e frango inteiro fresco para uma amostra aleatória de nove mercearias nos Estados Unidos. (Adaptado de U.S. Bureau of Labor Statistics.) Carne Frango 4,03 1,64 3,95 1,62 3,97 1,60 3,99 1,58 4,04 1,54 4,10 1,52 4,10 1,49 4,36 1,47 4,39 1,44 Existe correlação significativa entre os preços da carne moída e do frango nas mercearias dos Estados Unidos? Use α = 0,10. 614 Parte 4 Mais inferências estatísticas Construindo habilidades básicas e vocabulário 1. Cite algumas vantagens do coeficiente de correlação de postos de Spearman sobre o coeficiente de correlação de Pearson. 2. Descreva os limites do coeficiente de correlação de postos de Spearman e do coefi- ciente de correlação de Pearson. 3. O que significa quando rs é igual a 1? O que significa quando rs é igual a –1? O que significa quando rs é igual a 0? 4. Explique, com suas palavras, o que rs e ρs representam no Exemplo 1. Usando e interpretando conceitos Testando uma afirmação Nos exercícios 5 a 8, (a) identifique a afirmação e declare H0 e Ha, (b) encontre o valor crítico, (c) encontre a estatística de teste rs, (d) decida se rejeita ou não a hipótese nula e (e) interprete a decisão no contexto da afirmação original. 5. Despesas agrícolas Em um relatório agrícola, um analista de commodities afir- ma que há uma correlação significativa entre despesas com compra de sementes e despesas com fertilizantes e cal nos negócios agrícolas. A tabela a seguir mostra as despesas totais com compra de sementes e despesas com fertilizantes e cal para fa- zendas em oito estados selecionados aleatoriamente, para um ano recente. Para o ní- vel α = 0,05, há evidência suficiente para aceitar a afirmação do analista? (Adaptado de U.S. Department of Agriculture.) Estado Despesas com compra de sementes (em milhões de dólares) Despesas com fertilizantes e cal (em milhões de dólares) Califórnia 1.760 2.280 Flórida 510 430 Indiana 960 950 Lousiana 234 248 Minnesota 1.570 1.330 Carolina do Norte 400 430 Dakota do Sul 748 783 Wisconsin 760 680 6. Aparelhos de exercício A tabela a seguir mostra as pontuações gerais e os preços para uma amostra aleatória de nove modelos diferentes de equipamentos de exer- cício elíptico. A pontuação geral representa a ergonomia, amplitude do exercício, facilidade de uso, construção, monitoramento cardíaco e segurança. Com α = 0,05, você pode concluir que há uma correlação significativa entre a pontuação geral e o preço? (Fonte: Consumer Report.) Pontuação geral 77 75 73 71 Preço (em dólares) 3.700 1.700 1.300 900 Pontuação geral 66 66 64 62 58 Preço (em dólares) 1.000 1.400 1.800 1.000 700 11.4 EXERCÍCIOS Capítulo 11 Testes não paramétricos 615 7. Consumo Pessoal A tabela mostra o gasto per capita (em milhares de dólares) para habitação e serviços públicos e para cuidados de saúde em nove estados dos Estados Unidos. Com α = 0,01, você pode concluir que existe uma correlação sig- nificativa entre os gastos per capita com habitação e serviços públicos e com saú- de? (Fonte: U.S. Bureau of Economic Analysis) Habitação, utilidades 7,0 6,7 7,2 6,8 6,8 9,1 5,8 7,4 11,1 Assistência médica 5,3 6,6 7,2 7,6 7,0 11,3 6,3 8,2 7,7 8. Aspiradores de pó A tabela a seguir mostra as pontuações gerais e os preços para uma amostra aleatória de 12 modelos diferentes de aspiradores de pó. A pontuação geral representa limpeza de carpete e piso, fluxo de ar, manuseio, barulho e emis- sões. Com α = 0,10, você pode concluir que há uma correlação significativa entre a pontuação geral e o preço? (Fonte: Consumer Report.) Pontuação geral 65 71 69 47 55 38 Preço (em dólares) 150 200 550 350 471 90 Pontuação geral 47 47 47 57 34 65 Preço (em dólares) 80 130 210 190 300 260 Notas de teste e RNB Nos exercícios de 9 a 12, use a tabela a seguir, que mos- tra as notas médias alcançadas em ciências e matemática por pessoas de 15 anos de idade, juntamente com as Rendas Nacionais Brutas (RNB) de nove países selecionados aleatoriamente para um ano recente. (A RNB é uma medida do valor total dos bens e serviços produzidos pela economia de um país.) (Fonte: Organization for Economic Cooperation and Development; The World Bank.) País Média de ciências Média de matemática RNB (em bilhões de dólares) Canadá 503 491 53.730 França 404 384 7.850 Alemanha 518 512 43.440 Itália 503 500 46.980 Japão 393 379 3.870 México 468 487 32.200 Espanha 419 409 8.480 Suécia 499 502 53.800 Estados Unidos 495 515 87.950 9. Ciências e RNB Com α = 0,10, você pode concluir que há uma correlação signi- ficativa entre as notas alcançadas em ciências e a RNB? 10. Matemática e RNB Com α = 0,10, você pode concluir que há uma correlação significativa entre as notas alcançadas em matemática e a RNB? 11. Ciências e matemática Com α = 0,10, você pode concluir que há uma correlação significativa entre as notas alcançadas em ciências e matemática? 12. Raciocínio Você pode usar os resultados dos Exercícios de 9 a 11 para determi- nar se existe uma correlação significativa entre as pontuações dos testes e o RNB per capita com α = 0,10. Explique seu raciocínio. 616 Parte 4 Mais inferências estatísticas Expandindo conceitos Testando o coeficiente de correlação de postos de Spearman para n > 30 Quando você está testando a significância do coeficiente de correlação de postos de Spearman e o tamanho da amostra n é maior que 30, você pode usar a seguin- te expressão para encontrar o valor crítico. z n – 1 , z correspondente ao nível de signicância Nos exercícios 13 e 14, teste o coeficiente de correlação de postos de Spearman. 13. Acidentes de trabalho A tabela a seguir mostra a média de horas trabalhadas por semana e o número de acidentes no local de trabalho para uma amostra aleatória de empresas dos Estados Unidos em um ano recente. Com α = 0,10, você pode concluir que há uma correlação significativa entre a média de horas trabalhadas e o número de acidentes no local de trabalho? Horas trabalhadas 4643 41 40 41 42 45 45 42 45 44 44 Acidentes 22 25 18 17 20 22 28 29 24 26 26 25 Horas trabalhadas 45 46 47 47 46 46 49 50 50 42 41 42 Acidentes 27 29 29 30 29 29 30 30 30 23 22 23 Horas trabalhadas 41 41 41 41 40 39 38 39 39 Acidentes 21 19 18 18 17 16 16 16 16 14. Acidentes de trabalho na construção A tabela a seguir mostra a média de horas trabalhadas por semana e o número de acidentes no local de trabalho para uma amostra aleatória de empresas de construção dos Estados Unidos em um ano recen- te. Com α = 0,05, você pode concluir que há uma correlação significativa entre a média de horas trabalhadas e o número de acidentes no local de trabalho? Horas trabalhadas 38 38 37 38 38 40 39 39 39 40 39 41 Acidentes 11 11 9 10 10 17 15 14 14 16 15 17 Horas trabalhadas 41 42 41 41 41 42 42 42 42 41 41 39 Acidentes 17 21 18 18 18 22 21 19 21 18 17 12 Horas trabalhadas 38 38 39 39 36 37 36 37 37 37 37 Acidentes 12 11 13 12 6 6 6 6 7 8 7 Capítulo 11 Testes não paramétricos 617 O teste de corridas para aleatoriedade O teste de corridas para aleatoriedade Ao obter uma amostra de dados, é importante que eles sejam selecionados alea- toriamente. Mas como você sabe se os dados amostrais são realmente aleatórios? Um modo de testar a aleatoriedade em um conjunto de dados é usar um teste de corridas para aleatoriedade. Antes de usar o teste de corridas para aleatoriedade, você deve saber como determi- nar o número de corridas em um conjunto de dados. DEFINIÇÃO Uma corrida é uma série de dados que possuem a mesma característica. Cada corrida é precedida e seguida por dados com uma característica diferente ou por nenhum dado. O número de dados em uma corrida é chamado de extensão da corrida. EXEMPLO 1 Encontrando o número de corridas Uma máquina de distribuição de líquidos foi projetada para encher garrafas de um litro. Um inspetor de controle de qualidade decide se cada garrafa é enchida até um nível aceitável: se passa na inspeção (P) ou se falha na inspeção (F). Determine o nú- mero de corridas para cada série e encontre a extensão de cada corrida. 1. P P P P P P P P F F F F F F F F 2. P F P F P F P F P F P F P F P F 3. P P F F F F P F F F P P P P P P SOLUÇÃO 1. Há duas corridas. Os primeiros 8 Ps formam uma corrida de extensão 8 e os pri- meiros 8 Fs formam outra corrida de extensão 8, conforme mostrado a seguir: P P P P P P P P F F F F F F F F 1ª corrida 2ª corrida 2. Há 16 corridas, cada uma com extensão 1, conforme mostrado a seguir: P F P F P F P F P F P F P F P F 1ª corrida 2ª corrida… …16ª corrida 3. Há 5 corridas, a primeira de extensão 2, a segunda de extensão 4, a terceira de extensão 1, a quarta de extensão 3 e a quinta de extensão 6, conforme mostrado a seguir: P P F F F F P F F F P P P P P P 1ª corrida 2ª corrida 3ª corrida 4ª corrida 5ª corrida 11.5 Teste de corridas O que você deve aprender Como usar o teste de corridas para determinar se um conjunto de dados é aleatório. 618 Parte 4 Mais inferências estatísticas TENTE VOCÊ MESMO 1 Uma máquina produz um tipo de peça de motor. Um inspetor mede o diâmetro de cada peça e determina se a peça passa na inspeção (P) ou se falha na inspeção (F). Os re- sultados são mostrados a seguir. Determine o número de corridas na série e encontre a extensão de cada corrida. P P P F P F P P P P F F P F P P F F F P P P F P P P Quando cada valor em um conjunto de dados pode ser categorizado em uma de duas categorias separadas, você pode usar o teste de corridas para aleatoriedade para determi- nar se os dados são aleatórios. DEFINIÇÃO O teste de corridas para aleatoriedade é um teste não paramétrico que pode ser usado para determinar se uma sequência de dados amostrais é aleatória. O teste de corridas para aleatoriedade considera o número de corridas em uma série de dados amostrais a fim de testar se a sequência é aleatória. Quando uma sequência tem muito poucas corridas ou corridas demais, geralmente ela não é aleatória. Por exemplo, a série: P P P P P P P P F F F F F F F F do Exemplo 1, parte 1, tem muito poucas corridas (apenas 2). A série: P F P F P F P F P F P F P F P F do Exemplo 1, parte 2, tem corridas demais (16). Então, esses dados amostrais provavel- mente não são aleatórios. Você pode usar um teste de hipótese para determinar se o número de corridas em uma série de dados amostrais é muito alto ou muito baixo. O teste de corridas é um teste bilateral, e as hipóteses nula e alternativa são apresentadas: H0: A sequência de dados é aleatória. Ha: A sequência de dados não é aleatória. Ao usar o teste de corridas, faça n1 representar o número de dados que possui uma característica e n2 o número de dados que possui a segunda característica. Não importa qual característica você escolhe para ser representada por n1. Faça G representar o nú- mero de corridas. n1 = número de dados com uma característica. n2 = número de dados com outra característica. G = número de corridas. A Tabela B.12 no Apêndice B lista os valores críticos para o teste de corridas para valores selecionados de n1 e n2 para o nível de significância α = 0,05. (Neste texto, você usará apenas o nível de significância α = 0,05 quando realizar testes de corridas.) Quando n1 ou n2 são maiores que 20, você pode usar a distribuição normal padrão para encontrar os valores críticos. Capítulo 11 Testes não paramétricos 619 Você pode calcular a estatística de teste para o teste de corridas da seguinte maneira. Estatística de teste para o teste de corridas Quando n1 ≤ 20 e n2 ≤ 20, a estatística de teste para o teste de corridas é G, o número de corridas. Quando n1 > 20 ou n2 > 20, a estatística de teste para o teste de corridas é: z = G – μG σG Onde μG = 2n1n2 n1 + n2 + 1 e σG = 2n1n2( 2n1n2 – n1 – n2) ( n1 + n2) 2( n1 + n2 – 1) . INSTRUÇÕES Testando a significância do coeficiente de correlação de postos de Spearman Em palavras Em símbolos 1. Identifique a afirmação. Declare Formule H0 e Ha as hipóteses nula e alternativa. 2. Especifique o nível de Identifique α. significância. (Use α = 0,05 para o teste de corridas.) 3. Determine o número de dados Determine n1, n2 e G. que possui cada característica e o número de corridas. 4. Determine os valores críticos. Quando n1 ≤ 20 e n2 ≤ 20, use a Tabela B.12 no Apêndice B. Quando n1 > 20 ou n2 > 20, use a Tabela B.4 no Apêndice B. 5. Encontre a estatística de teste. Quando n1 ≤ 20 e n2 ≤ 20, use G. Quando n1 > 20 ou n2 > 20, use z = G – μG σG . 6. Tome uma decisão para rejeitar Se G é menor ou igual ao valor crítico ou não rejeitar a hipótese nula. inferior ou maior igual ao valor crítico superior, então rejeite H0. Caso contrá- rio, não rejeite H0. Ou, se z está na região de rejeição, então rejeite H0. Caso contrário, não rejeite H0. 7. Interprete a decisão no contexto da afirmação original. 620 Parte 4 Mais inferências estatísticas EXEMPLO 2 Usando o teste de corridas À medida que as pessoas entram em um concerto, um funcionário registra onde elas se sentam. Os resultados para 13 pessoas são mostrados a seguir, em que I representa os assentos na parte inferior e S representa os assentos na parte superior. Com α = 0,05, você pode concluir que a sequência de locais de assento não é aleatória? I I I S S I S S S I I S I SOLUÇÃO A afirmação é “a sequência de locais de assento não é aleatória”. Para testar essa afir- mação, use as hipóteses nula e alternativa. H0: A sequência de locais de assento é aleatória. Ha: A sequência de locais de assento não é aleatória. (Afirmação) Para encontrar os valores críticos, primeiro determine n1, o número de Is; n2, o número de Ss; e G, o número de corridas. I I I S S I S S S I I S I 1ª 2ª 3ª 4ª 5ª 6ª 7ª corrida corrida corrida corrida corrida corrida corrida n1 = número de Is = 7 n2 = número de Ss = 6 G = número de corridas = 7 Como n1 ≤ 20, n2 ≤ 20 e α = 0,05, use a Tabela B.12 para encontrar o valor crítico inferior 3 e o valor crítico superior 12. A estatísticade teste é o número de corridas G = 7. Uma vez que a estatística de teste G está entre os valores críticos 3 e 12, você não rejeita a hipótese nula. Interpretação Não há evidência suficiente, ao nível de significância de 5%, para concordar com a afirmação de que a corrida de locais de assento não é aleatória. Então, aceita-se que a corrida de locais de assento é aleatória. TENTE VOCÊ MESMO 2 Quando os alunos entram em um auditório para uma assembleia, um monitor registra onde eles estão sentados. Os resultados para 15 alunos são mostrados, onde P repre- senta um assento na plateia e M representa um assento no mezanino. Em α = 0,05, você pode concluir que a sequência de localização dos assentos não é aleatória? M P P P M M P P M P M M P P P Capítulo 11 Testes não paramétricos 621 EXEMPLO 3 Usando o teste de corridas Você quer determinar se a seleção de funcionários recentemente contratados em uma grande empresa é aleatória em relação ao gênero. Os gêneros de 36 funcionários re- cém-contratados são mostrados a seguir: F representa o sexo feminino e M o sexo masculino. Com α = 0,05, você pode concluir que a sequência de funcionários não é aleatória? M M F F F F M M M M M M F F F F F M M M M M M M F F F M M M M F M M F M SOLUÇÃO A afirmação é: “a sequência de funcionários não é aleatória”. Para testar essa afirma- ção, use as hipóteses nula e alternativa. H0: A sequência de funcionários é aleatória. Ha: A sequência de funcionários não é aleatória. (Afirmação) Para encontrar os valores críticos, primeiro determine n1, o número de Fs; n2, o núme- ro de Ms; e G, o número de corridas. M M F F F F M M M M M M 1ª corrida 2ª corrida 3ª corrida F F F F F M M M M M M M 4ª corrida 5ª corrida F F F M M M M F M M F M 6ª 7ª 8ª 9ª 10ª 11ª corrida corrida corrida corrida corrida corrida n1 = número de Fs = 14 n2 = número de Ms = 22 G = número de corridas = 11 Como n2 > 20, use a Tabela B.4 no Apêndice B para encontrar os valores críticos. Uma vez que o teste é bilateral com α = 0,05, os valores críticos são: –z0 = –1,96 e z0 = 1,96. Antes de calcular a estatística de teste, encontre os valores de μG e σG, como a seguir: μG = 2n1n2 n1 + n2 + 1 = 2 (14) (22) 14 + 22 + 1 = 616 36 + 1 ≈ 18,11 622 Parte 4 Mais inferências estatísticas σG = 2n1n2 2n1n2 – n1 – n2 n1 + n2 2 n1 + n2 – 1 = 2 14 22 2 14 22 – 14 – 22 14 + 22 2 14 + 22 – 1 ≈ 2,81 Você poderá encontrar a estatística de teste da seguinte maneira. z = G – μG σG ≈ 11 – 18,11 2,81 ≈ – 2,53 A Figura 11.5 mostra a localização das regiões de rejeição e a estatística de teste z. Como z está na área de rejeição, você rejeita a hipótese nula. Interpretação Há evidência suficiente, ao nível de significância 5%, para aceitar a afirmação de que a sequência de funcionários em relação ao gênero não é aleatória. z �3 �2 �1 0 1 2 3 �z0 = �1,96z � �2,53 z0 = 1,96 � = 0,025 1 2 � � = 0,025 1 2 1 � = 0,95 Figura 11.5 Distribuição normal, regiões de rejeição e estatística de teste. TENTE VOCÊ MESMO 3 Seja S um dia com neve em uma cidade pequena e N um dia sem neve na mesma cida- de. Os resultados para a nevada para o mês inteiro de janeiro são mostrados a seguir. Com α = 0,05, você pode concluir que a série não é aleatória? N N N S S N N S N S N N N N N S N S N S N N S N S S N N N N N Quando n1 ou n2 é maior que 20, você também pode usar o valor p para concluir um teste de hipótese para a aleatoriedade dos dados. No Exemplo 3, você pode calcular o valor-p como 0,0114. Já que pde corridas com dados quantitativos Nos exercícios de 21 a 23, use a seguinte informação para realizar um teste de corridas. Você também pode usar o tes- te de corridas para aleatoriedade com dados quantitativos. Primeiro, calcule a media- na. Então atribua um sinal de + aos valores acima da mediana e um sinal – aos valores abaixo da mediana. Ignore quaisquer valores que sejam iguais à mediana. Use α = 0,05. 21. Temperaturas máximas diárias A sequência mostra as temperaturas máximas diárias (em graus Fahrenheit) de uma cidade durante o mês de julho. Teste a afirma- ção de que as temperaturas máximas diárias não ocorrem aleatoriamente. 84 87 92 93 95 84 82 83 81 87 92 98 99 93 84 85 86 92 91 95 84 92 83 81 87 92 98 89 93 84 85 22. Notas das provas A sequência mostra as notas das provas de uma turma, baseada na ordem em que os alunos terminaram o exame. Teste a afirmação de que as notas ocorrem aleatoriamente. 83 94 80 76 92 89 65 75 82 87 90 91 81 99 97 72 72 89 90 92 87 76 74 66 88 81 90 92 89 76 80 23. Use uma ferramenta tecnológica para gerar uma sequência de 30 números entre 1 e 99, inclusive. Teste a afirmação de que a sequência de números não é aleatória. USOS E ABUSOS Estatística no mundo real Usos Testes não paramétricos Antes de poder realizar vários dos testes de hipótese que você aprendeu nos capítulos anteriores, você tinha que garantir que certas condições sobre a população eram satisfeitas. Por exemplo, antes de poder executar um teste t, você tinha que verificar se a população era normalmente distribuída, ou o tama- nho da amostra era de pelo menos 30. Uma vantagem dos testes não paramétricos mostrada neste capítulo é que eles são de distribuição livre. Isto é, eles não exigem qualquer informação em particular sobre a população ou populações sendo testa- das. Outra vantagem dos testes não paramétricos é que eles são mais fáceis de ser realizados do que seus equivalentes paramétricos. Isso significa que eles são mais fáceis de entender e mais rápidos de usar. Testes não paramétricos podem ser usados frequentemente quando os dados estão no nível nominal ou ordinal. Abusos Evidência insuficiente É necessária evidência mais forte para rejeitar a hipótese nula em um teste não paramétrico do que em um correspondente teste paramétrico. Isto é, quando você está tentando apoiar uma afirmação representada pela hipótese alternativa, você pode precisar de uma amostra maior ao realizar um teste não pa- ramétrico. Quando o resultado de um teste não paramétrico leva à não rejeição da hipótese nula, você deve investigar o tamanho da amostra utilizada. Pode ser que uma amostra maior produza resultados diferentes. Usando um teste inapropriado Em geral, quando informações sobre a população (tais como a condição de normalidade) são conhecidas, é mais eficiente usar um teste paramétrico. Quando informações sobre a população não são conhecidas, no entanto, os testes não paramétricos podem ser úteis. EXERCÍCIOS 1. Evidência insuficiente Dê um exemplo de um teste não paramétrico no qual não há evidência suficiente para rejeitar a hipótese nula. 2. Usando um teste inapropriado Discuta os testes não paramétricos descritos neste capítulo e relacione cada teste com seu correspondente paramétrico, que você estudou em capítulos anteriores. 626 Parte 4 Mais inferências estatísticas O que você aprendeu Exemplo(s) Exercícios de revisão Seção 11.1 Como usar o teste do sinal para testar uma mediana populacional 1, 2 1-3, 6 Como usar o teste dos sinais para amostras pareadas para testar a diferença entre duas medianas populacionais (amostras dependentes) 3 4, 5 Seção 11.2 Como usar o teste dos postos sinalizados de Wilcoxon e o teste da soma dos postos de Wilcoxon para determinar se duas amostras são selecionadas de populações que possuem a mesma distribuição 1, 2 7, 8 Seção 11.3 Como usar o teste de Kruskal-Wallis para determinar se três ou mais amostras foram selecionadas de populações que apresentam a mesma distribuição H = 12 N N + 1 R2 1 n1 + R2 2 n2 + . . . + R2 k nk – 3 N + 1 1 9, 10 Seção 11.4 Como usar o coeficiente de correlação de postos de Spearman para determinar se a correlação entre duas variáveis é significativa rs = 1 – 6 d 2 n n2 – 1 1 11, 12 Seção 11.5 Como usar o teste de corridas para determinar se uma sequência de dados é aleatória G = Nümero de corridas, z = G – μG σG , μG = 2n1n2 n1 + n2 + 1, σG = 2n1n2 2n1n2 – n1 – n2 n1 + n2 2 n1 + n2 – 1 1, 3 13, 14 A Tabela 11.17 resume os testes paramétricos e não paramétricos. Sempre use o teste paramétrico quando as condições para tal são satisfeitas. Tabela 11.7 Resumo dos testes paramétricos e não paramétricos Aplicação do teste Teste paramétrico Teste não paramétrico Testes para uma amostra Teste z para uma média populacional Teste t para uma média populacional Teste dos sinais para uma mediana populacional Testes para duas amostras Amostras dependentes Teste t para a diferença entre médias Teste dos sinais para amostras pareadas Teste dos postos sinalizados de Wilcoxon Amostras independentes Teste z para a diferença entre médias Teste t para a diferença entre médias Teste da soma dos postos de Wilcoxon Testes envolvendo três ou mais amostras ANOVA com um fator Teste de Kruskal-Wallis Correlação Coeficiente de correlação de Pearson Coeficiente de correlação de postos de Spearman Aleatoriedade (Sem teste paramétrico) Teste de corridas 11 Resumo do capítulo Capítulo 11 Testes não paramétricos 627 11 Exercícios de revisão Seção 11.1 Nos exercícios de 1 a 6, use um teste dos sinais para testar a afirmação seguindo as etapas. (a) Identifique a afirmação e declare H0 e Ha. (b) Encontre o valor crítico. (c) Encontre a estatística de teste. (d) Decida se rejeita ou não a hipótese nula. (e) Interprete a decisão no contexto da afirmação original. 1. Um gerente de banco afirma que o número mediano de clientes, por dia, não passa de 650. Os números de clientes bancários, por dia, para 17 dias selecionados alea- toriamente estão listados a seguir. Para nível de significância α = 0,01, você pode rejeitar a afirmação do gerente de banco? 675 665 601 642 554 653 639 650 645 550 677 569 650 660 682 689 590 2. Uma empresa afirma que a pontuação mediana de crédito para adultos americanos é de pelo menos 710. As pontuações de crédito de 13 adultos americanos selecio- nados aleatoriamente estão listadas a seguir. Com α = 0,05, você pode rejeitar a afirmação da empresa? (Adaptado de Fair Isaac Corporation.) 750 782 805 695 700 706 625 589 690 772 745 704 710 3. Uma agência governamental afirma que a duração mediana da sentença para todos os prisioneiros federais é de 2 anos. Em uma amostra aleatória de 180 prisioneiros federais, 65 possuem durações de sentença que são inferiores a 2 anos, 109 pos- suem durações de sentença que são superiores a dois anos e 6 possuem durações de sentença que são de 2 anos. Com α = 0,10, você pode rejeitar a afirmação da agência? (Adaptado de U.S. Sentencing Commision.) 4. Em um estudo testando os efeitos de suplementos de cálcio na pressão sanguínea masculina, 10 homens selecionados aleatoriamente tomaram um suplemento de cálcio por 12 semanas. A tabela a seguir mostra as medições da pressão sanguínea diastólica para cada indivíduo, tiradas antes e depois do período de 12 semanas de tratamento. Com α = 0,05, você pode rejeitar a afirmação de que não houve redução na pressão sanguínea diastólica? (Adaptado de American Medical Association.) Paciente 1 2 3 4 5 Antes do tratamento 107 110 123 129 112 Depois do tratamento 100 114 105 112 115 Paciente 6 7 8 9 10 Antes do tratamento 111 107 112 136 102 Depois do tratamento 116 106 102 125 104 628 Parte 4 Mais inferências estatísticas 5. Em um estudo testando os efeitos de um suplemento de ervas na pressão sanguí- nea masculina, 11 homens selecionados aleatoriamente tomaram um suplemento de ervas por 12 semanas. A tabela a seguir mostra asmedições da pressão sanguínea diastólica para cada in-divíduo, tiradas antes e depois do período de 12 semanas de tratamento. Para um nível de significância α = 0,05, você pode rejeitar a afirma- ção de que não houve redução na pressão sanguínea diastólica? (Adaptado de The Journal of the American Medical Association.) Paciente 1 2 3 4 5 6 Antes do tratamento 123 109 112 102 98 114 Após o tratamento 124 97 113 105 95 119 Paciente 7 8 9 10 11 Antes do tratamento 119 112 110 117 130 Após o tratamento 114 114 121 118 133 6. Uma associação afirma que o salário mediano anual de advogados é de US$ 112.800. Em uma amostra aleatória de 125 advogados, 76 recebiam menos de US$ 112.800 e 49 recebiam mais de US$ 112.800. Com α = 0,05, você pode rejeitar a afirmação da associação? (Adaptado de U.S. Bureau of Labor Statistics.) Seção 11.2 Nos exercícios 7 e 8, use um teste de Wilcoxon para testar a afirmação seguindo as etapas: (a) Identifique a afirmação e declare H0 e Ha. (b) Decida se deve usar um teste dos postos sinalizados de Wilcoxon ou um teste da soma dos postos de Wilcoxon. (c) Encontre o(s) valor(es) crítico(s). (d) Encontre a estatística de teste. (e) Decida se rejeita ou não a hipótese nula. (f) Interprete a decisão no contexto da afirmação original. 7. Um consultor de colocação profissional afirma que há uma diferença nos tempos totais necessários para obter o grau de doutorado, por homens e mulheres estu- dantes de pós-graduação. A tabela a seguir mostra os tempos totais (em anos) para obter o doutorado para uma amostra aleatória de 12 mulheres e 12 homens estu- dantes de pós-graduação. Com α = 0,01, você pode aceitar a afirmação do con- sultor? (Adaptado de Survey of Earned Doctorates.) Mulher 9 11 9 12 11 8 10 13 6 6 8 9 Homem 8 7 8 10 9 7 7 9 10 8 9 7 Capítulo 11 Testes não paramétricos 629 8. Um pesquisador médico afirma que um novo remédio afeta o número de horas sen- tindo dor de cabeça que as pessoas que sofrem desse mal passaram. O número de horas com dor de cabeça (por dia) de 8 pacientes selecionados aleatoriamente antes e depois de tomar o remédio é mostrado na tabela a seguir. Com α = 0,05, você pode confirmar a afirmação do pesquisador? Paciente 1 2 3 4 5 6 7 8 Horas de dor de cabeça (antes) 0,9 2,3 2,7 2,4 2,9 1,9 1,2 3,1 Horas de dor de cabeça (depois) 1,4 1,5 1.4 1,8 1,3 0,6 0,7 1,9 Seção 11.3 Nos exercícios 9 e 10, use o teste de Kruskal-Wallis para testar a afirmação seguindo as etapas. (a) Identifique a afirmação e declare H0 e Ha. (b) Encontre o valor crítico e identifique a região de rejeição. (c) Encontre a estatística de teste H. (d) Decida se rejeita ou não a hipótese nula. (e) Interprete a decisão no contexto da afirmação original. 9. A tabela a seguir mostra as idades para uma amostra aleatória de doutorandos em três áreas de estudo. Com α = 0,01, você pode concluir que a distribuição das idades dos doutorandos em pelo menos uma área de estudo é diferente das de- mais? (Adaptado de Survey of Earned Doctorates.) Área de estudo Idade Ciências da vida 31 32 34 31 30 32 35 31 32 34 29 Ciências físicas 30 31 32 31 30 29 31 30 32 33 30 Ciências sociais 32 35 31 33 34 31 35 36 32 30 33 10. A tabela a seguir mostra o salário inicial para uma amostra aleatória de graduados em quatro campos da engenharia. Com α = 0,05, você pode concluir que a distri- buição dos salários iniciais em pelo menos um campo da engenharia é diferente das demais? (Adaptado de National Association of Colleges and Employers.) Campo da engenharia Salário inicial (em milhares de dólares) Engenharia química 71,7 72,0 72,2 71,4 71,7 71,2 70,5 72,1 72,1 72,5 Engenharia da computação 68,6 74,2 67,1 68,0 71,6 72,3 70,6 73,7 70,7 69,9 Engenharia elétrica 72,8 69,4 70,9 71,2 73,0 68,8 71,7 71,3 71,0 69,8 Engenharia mecânica 68,5 69,6 68,1 69,2 69,7 70,4 67,8 68,0 69,5 69,0 630 Parte 4 Mais inferências estatísticas Seção 11.4 Nos exercícios 11 e 12, use o coeficiente de correlação de postos de Spearman para testar a afirmação seguindo as etapas. (a) Identifique a afirmação e declare H0 e Ha. (b) Encontre o valor crítico. (c) Encontre a estatística de teste rs. (d) Decida se rejeita ou não a hipótese nula. (e) Interprete a decisão no contexto da afirmação original. 11. A tabela mostra os tamanhos dos motores (em centímetros cúbicos) e os pre- ços de seis motocicletas selecionadas aleatoriamente. Com α = 0,10, você pode concluir que existe uma correlação significativa entre o tamanho do motor e o preço? (Fonte: Hábito de motocicleta). Tamanho do motor (em centímetros cúbicos) 1700 1000 999 645 471 399 Preço (em dólares) 16.799 8.999 11.599 8.799 6.699 5.999 12. A tabela mostra o número de problemas relatados por 100 veículos no primeiro e terceiro anos de propriedade de carros de oito marcas de automóveis selecio- nadas aleatoriamente. Com α = 0,10, você pode concluir que existe uma correla- ção significativa entre o número de problemas com o carro no primeiro e terceiro anos? (Adaptado do J.D. Power 2021 U.S. Initial Quality Study e do J.D. Power 2021 U.S. Vehicle Dependability Study). Primeiro ano 148 147 151 182 146 240 128 144 Terceiro ano 102 97 125 125 128 127 123 116 Seção 11.5 Nos exercícios 13 e 14, (a) identifique a afirmação e declare H0 e Ha, (b) encontre os valores críticos, (c) encontre a estatística de teste, (d) decida se rejeita ou não a hipótese nula e (e) interprete a decisão no contexto da afirmação original. Use nível de signifi- cância α = 0,05. 13. Um oficial da patrulha rodoviária fiscaliza veículos com excesso de velocidade em uma rodovia interestadual. O gênero dos últimos 25 motoristas que foram parados é mostrado a seguir; F representa as mulheres e M representa os homens. Você pode concluir que as paradas não foram aleatórias por gênero? F M M M F M F M F F F M M F F F M M M F M M F F M 14. A série mostra o status de partida dos últimos 18 ônibus a saírem de uma rodoviária, T representa um ônibus que saiu na hora e L representa um ônibus que saiu atrasa- do. Você pode concluir que o status de partida dos ônibus não é aleatório? T T T T L L L L T L L L T T T T T T Capítulo 11 Testes não paramétricos 631 11 Problemas do capítulo Faça estes problemas como se estivesse fazendo em sala. Depois, compare suas respos- tas com as respostas dadas no final do livro. Nos exercícios de 1 a 5, (a) identifique a afirmação e declare H0 e Ha, (b) decida qual teste não paramétrico usar, (c) encontre o(s) valor(es) crítico(s), (d) encontre a estatís- tica de teste, (e) decida se rejeita ou não a hipótese nula e (f) interprete a decisão no contexto da afirmação original. 1. Uma organização afirma que o número mediano de horas anuais de voluntariado é 50. Em uma amostra aleatória de 75 pessoas que realizaram trabalho voluntário no ano passado, 47 trabalharam por menos de 50 horas, 23 trabalharam por mais de 50 horas e 5 trabalharam por 50 horas. Com α = 0,05, você pode rejeitar a afirmação da organização? (Adaptado de VolunteerHub.) 2. Uma organização trabalhista afirma que há diferença no salário por hora de traba- lhadores sindicalizados e não sindicalizados nos governos municipais e estaduais. A tabela a seguir mostra os salários por hora (em dólares) para uma amostra aleató- ria de 10 trabalhadores sindicalizados e 10 trabalhadores não sindicalizados nos go- vernos municipal e estadual. Com α = 0,10, você pode concordar com a afirmação da organização? (Adaptado de U.S. Bureau of Labor Statistics.) Sindicalizado Não sindicalizado 32,75 31,15 35,30 38,52 35,88 30,85 30,35 32,05 30,60 29,75 29,15 26,10 24,20 29,95 25,05 27,75 25,50 25,25 24,40 23,45 3. A tabela a seguir mostra os preços de venda para uma amostra aleatória de condo- mínios de apartamentos em quatro regiões dos Estados Unidos. Com α = 0,01, você pode concluir que a distribuição dos preços de venda em pelo menos uma região é diferente das demais? (Adaptado de National Association of Realtors.) Região Preço de venda (emmilhares de dólares) Nordeste 314,4 307,4 299,8 332,1 327,8 311,9 321,3 300,5 Centro-Oeste 193,0 209,2 205,0 180,0 174,6 196,0 189,4 191,2 Sul 219,6 195,0 193,9 208,7 213,6 234,6 216,7 205,1 Oeste 389,1 372,5 426,3 400,6 360,5 396,3 390,6 376,9 4. A tabela a seguir mostra o número de e-mails enviados e o número de e-mails rece- bidos em uma semana para uma amostra aleatória de nove pessoas. Considerando nível de significância α = 0,01, você pode concluir que há uma correlação significa- tiva entre o número de e-mails enviados e recebidos? E-mails enviados 30 30 25 26 24 18 18 25 28 E-mails recebidos 32 36 21 22 20 20 22 23 23 5. Um meteorologista quer determinar se os dias com chuva ocorrem aleatoriamente em abril em sua cidade natal. Para isso, o meteorologista registra se chove, em cada dia de abril. Os resultados são mostrados a seguir, R representa um dia com chuva e N representa um dia sem chuva. Com α = 0,05, o meteorologista pode concluir que os dias com chuva não são aleatórios? N R R N N N N R N R R N R R R N R R R R N N N N R N R N N R 632 Parte 4 Mais inferências estatísticas 11 Teste do capítulo Faça este teste como se estivesse fazendo uma prova em sala. Nos exercícios de 1 a 5, (a) identifique a afirmação e declare H0 e Ha, (b) decida qual teste não paramétrico usar, (c) encontre o(s) valor(es) crítico(s), (d) encontre a estatís- tica de teste, (e) decida se rejeita ou não a hipótese nula e, (f) interprete a decisão no contexto da afirmação original. 1. O prefeito convocou os membros do conselho em uma reunião na ordem mostrada, em que R representa um membro do conselho republicano e D representa um mem- bro do conselho democrata. Com α = 0,05, você pode concluir que a seleção dos membros não foi aleatória? R D D D R R D R D D R D D D R R D R R R R D R R R D D D R D R D R R 2. Um representante de uma agência de empregos deseja determinar se há diferença na renda familiar anual em quatro regiões dos Estados Unidos. O representante seleciona aleatoriamente sete domicílios em cada região e registra a renda familiar anual de cada um. A tabela mostra os resultados. Com α = 0,01, o representante pode concluir que a distribuição da renda familiar anual em pelo menos uma região é diferente das demais? (Adaptado do U.S. Census Bureau) Região Renda familiar anual (em milhares de dólares) Nordeste 78,2 71 79,6 78,7 73,9 76,4 75,5 Centro-Oeste 67,3 72,4 63,2 66,5 68,7 69,8 70 Sul 60 61,2 64,8 57,1 62 64,8 62,6 Oeste 78,3 76,2 72,9 75 73,9 75,5 77,4 3. Uma empresa de investimentos afirma que a idade mediana das pessoas com fundos mútuos é 50 anos. As idades (em anos) de 20 proprietários de fundos mútuos selecio- nados aleatoriamente estão listadas a seguir. Com α = 0,01, há evidência suficiente para rejeitar a afirmação da empresa? (Adaptado de Investment Company Institute.) 4. Uma agência de emprego afirma que há diferença no salário semanal entre trabalha- dores sindicalizados e não sindicalizados. A tabela a seguir mostra o salário semanal (em dólares) para uma amostra aleatória de nove trabalhadores sindicalizados e oito não sindicalizados. Para o nível de significância α = 0,05, você pode aceitar a afir- mação da agência? (Adaptado de U.S. Bureau of Labor Statistics.) Sindicalizado 1.091 1.230 928 1.036 1.120 1.227 1.276 1.140 1.030 1.059 1.166 Não sindicalizado 1.006 939 1.110 805 903 1.062 1.051 886 946 843 5. A tabela mostra as avaliações dos especialistas e os preços de uma amostra aleatória de oito novos sedãs de um ano recente. A classificação de revisão especializada é uma pontuação geral que representa uma avaliação detalhada e direta de um veí- culo. Com α = 0,05, você pode concluir que existe uma correlação significativa entre a avaliação do especialista e o preço? (Fonte: Kelley Blue Book Co., Inc.) Classificação de revisão de especialistas 4,8 4,7 4,6 4,5 4,4 4,3 4,2 4,1 Preço (em milhares de dólares) 20,9 22,0 26,3 25,7 21,1 17,0 27,5 26,2 Idades dos indivíduos proprietários de fundos mútuos 45 33 32 26 57 63 53 35 37 41 25 50 48 43 45 49 38 33 50 62 TABELA PARA O EXERCÍCIO 3 ESTATÍSTICA REAL DECISÕES REAIS Juntando tudo Em um ano recente, de acordo com o Bureau of Labor Statistics, o número me- diano de anos que trabalhadores assalariados estiveram contratados por seus empregadores atuais (o que é chamado de estabilidade de emprego) foi de 4,6 anos. Informação sobre a estabilidade de emprego tem sido coletada desde 1996 usando o Current Population Survey (CPS), uma pesquisa mensal de cerca de 60.000 domicílios que fornece informação sobre emprego, desemprego, salário, demografia e outras características da população dos Estados Unidos com mais de 16 anos de idade. Com relação à estabilidade de emprego, as perguntas men- suram por quanto tempo os trabalhadores têm permanecido com seus emprega- dores atuais, não por quanto tempo eles planejam ficar com seus empregadores. EXERCÍCIOS 1. Como você faria isso? (a) Qual técnica de amostragem você usaria para selecionar a amostra para o CPS? (b) Você acha que a técnica na parte (a) lhe dará uma amostra que é repre- sentativa da população dos Estados Unidos? Por que ou por que não? (c) Identifique possíveis falhas ou vieses na pesquisa com base na técnica que você escolheu na parte (a). 2. Há diferença? Um representante do congresso afirma que a mediana da estabilidade para trabalhadores do seu distrito é menor que a mediana nacional de 4,6 anos. A afirmação é baseada nos dados do representante, que são mostrados na Tabela (Suponha que os empregados foram selecionados aleatoriamente.) (a) É possível que a afirmação seja verdadeira? Quais perguntas você deve- ria fazer sobre como os dados foram coletados? (b) Como você testaria a afirmação do representante? Você poderia usar um teste paramétrico ou precisaria usar um teste não paramétrico? (c) Declare a hipótese nula e a hipótese alternativa. (d) Teste a afirmação usando α = 0,05. O que você pode concluir? 3. Comparando a estabilidade para homens e mulheres Um representante do congresso afirma que há diferença entre as estabilida- des medianas para homens e mulheres. A afirmação é baseada nos dados do representante, que são mostrados na Tabela (Suponha que os empregados foram selecionados aleatoriamente no distrito do representante.) (a) Como você testaria a afirmação do representante? Você pode usar um teste paramétrico ou precisa usar um teste não paramétrico? (b) Declare a hipótese nula e a hipótese alternativa. (c) Teste a afirmação usando α = 0,05. O que você pode concluir? Estabilidade de 20 funcionários 4,6 2,6 3,3 2,8 1,5 1,9 4,0 5,0 3,9 5,1 3,7 5,4 3,6 3,9 6,2 1,7 4,6 3,1 4,4 3,6 TABELA PARA O EXERCÍCIO 2 Homens Mulheres 3,9 4,4 4,4 4,9 4,7 5,4 4,3 4,3 4,9 4,0 3,8 1,8 3,6 5,1 4,7 5,1 2,3 3,3 6,5 2,2 0,9 5,2 5,1 3,0 1,3 4,0 TABELA PARA O EXERCÍCIO 3 TECNOLOGIA E XC E LM I N I TA B T I - 8 4 P L U S Renda nos Estados Unidos e pesquisa econômica O National Bureau of Economic Research (NBER) é uma orga- nização privada de pesquisa, sem fins lucrativos, não partidária. O NBER fornece informação para um melhor entendimento de como a economia nos Estados Unidos funciona. Pesquisadores no NBER se concentram em quatro tipos de pesquisa empírica: desenvolver novas medidas estatísticas, estimar modelos quan- titativos de comportamento econômico, avaliar os efeitos de políticas públicas na economia dos Estados Unidos e projetar os efeitos de propostas políticas alternativas. Um dos interesses do NBER é a renda mediana de pessoas em diferentes regiões dos Estados Unidos. A Tabela 11.18 mostra a renda anual (em dólares) de uma amostra aleatória de pessoas (15 anos de idade ou mais) em um ano recente em quatro regiões dos Estados Unidos: Nordeste, Centro-Oeste, Sul e Oeste. EXERCÍCIOS Nos exercícios de 1 a 5, considere a renda anual das pessoas na Tabela 11.20. Use a = 0,05 para todos os testes. 1. Construa um boxplot para cada região. A renda mediana anual parece diferir entre regiões?2. Use uma ferramenta tecnológica para realizar um teste dos sinais para testar a afirmação de que a renda mediana anual no Centro-Oeste é superior a US$ 30.000. 3. Use uma ferramenta tecnológica para realizar um teste da soma dos postos de Wilcoxon para testar a afirmação de que a renda mediana anual no Nordeste e no Sul é a mesma. 4. Use uma ferramenta tecnológica para realizar um teste de Kruskal-Wallis para testar a afirmação de que as distri- buições da renda anual para todas as quatro regiões são as mesmas. 5. Use uma ferramenta tecnológica para realizar uma ANOVA com um fator para testar a afirmação de que a renda média anual para todas as quatro regiões é a mesma. Suponha que as populações das rendas são normalmente distribuídas, as amostras são independentes e as variân- cias populacionais são iguais. Como os seus resultados se comparam com os do Exercício 4? Tabela 11.18 Renda anual de pessoas (em dólares) Nordeste Centro-Oeste Sul Oeste 62.904 37.584 6.024 39.510 10.914 21.002 79.644 124.339 29.964 31.011 22.718 83.519 68.401 64.429 90.374 57.573 0 146.005 32.832 42.236 44.201 57.250 35.643 83.144 17.782 68.098 15.835 65.978 5.677 54.275 69.942 34.756 165.096 27.288 105.148 36.294 36.849 78.962 82.786 78.917 198.817 34.793 33.125 28.445 68.867 3.669 21.681 2.112 6. Repita os Exercícios 1, 3, 4 e 5 usando os dados da Tabela 11.19. Ela mostra a renda anual (em dólares) de uma amostra aleatória de famílias, em um ano recente, em qua- tro regiões dos Estados Unidos: Nordeste, Centro-Oeste, Sul e Oeste. Tabela 11.19 Renda anual de famílias(em dólares) Nordeste Centro-Oeste Sul Oeste 130.680 138.282 159.397 160.489 98.855 121.976 183.202 85.316 149.852 173.356 39.923 66.160 129.907 69.154 137.770 225.048 91.586 81.223 99.549 82.350 244.643 187.285 74.741 292.000 144.983 161.938 96.765 37.765 171.885 71.259 112.878 61.691 88.501 77.248 131.159 61.610 93.301 126.405 49.767 91.233 127.629 83.175 77.476 143.600 219.302 85.022 123.442 57.232 89.373 34.777 42.088 130.928 87.710 66.834 79.906 143.092 94.385 241.490 144.806 150.549 Soluções adicionais são fornecidas nos manuais de tecnologia que acompanham este livro. A instrução técnica é fornecida para Minitab, Excel e TI-84 Plus.e zeros aos dados da amostra. 5. Determine o valor crítico. Quando n ≤ 25, use a Tabela B.8 no Apêndice B. Quando n > 25, use a Tabela B.4 no Apêndice B. 6. Encontre a estatística de teste. Quando n ≤ 25, use x = o menor número dos sinais + ou –. Quando n > 25, use z = ( x + 0,5) – 0,5n √n 2 . 7. Tome uma decisão para rejeitar ou Se a estatística de teste é menor não rejeitar a hipótese nula. ou igual ao valor crítico, então rejeite H0. Caso contrário, não rejeite H0. 8. Interprete a decisão no contexto da afirmação original. Dica de estudo Já que os zeros são ignorados, há dois resultados possíveis quando comparamos uma entrada de dados com uma mediana hipotética: um sinal + ou um –. Se a mediana for k, então cerca da metade dos valores estará acima de k e metade estará abaixo. Como tal, a probabilidade para cada sinal é 0,5. A Tabela B.8 no Apêndice B é construída usando a distribuição binomial em que p = 0,5. Quando n > 25, você pode usar a aproximação normal (com uma correção de continuidade) para a binomial. Neste caso, use μ = np = 0,5n e σ = √npq = √n 2 . 586 Parte 4 Mais inferências estatísticas EXEMPLO 1 Usando o teste dos sinais O administrador do site de uma empresa afirma que o número mediano de visitantes, por dia, do site da empresa é de não mais de 1.500. Um funcionário duvida da pre- cisão dessa afirmação. Os números de visitantes por dia, para 20 dias selecionados aleatoriamente, estão listados a seguir. Com a = 0,05, o funcionário pode rejeitar a afirmação do administrador? 1.469 1.462 1.634 1.602 1.500 1.463 1.476 1.570 1.544 1.452 1.487 1.523 1.525 1.548 1.511 1.579 1.620 1.568 1.492 1.649 SOLUÇÃO A afirmação é “o número mediano de visitantes, por dia, do site da empresa é de não mais de 1.500”. Então, as hipóteses nula e alternativa são: H0: mediana ≤ 1.500 (Afirmação) e Ha: mediana > 1.500. Para comparar cada entrada de dados com a mediana hipotética de 1.500, subtraia 1.500 de cada entrada de dados e atribua o sinal apropriado ou 0. Por exemplo, aqui estão as comparações para a primeira linha de entradas de dados. 1469 – 1500 = –31, atribua um sinal – 1462 – 1500 = –38, atribua um sinal – 1634 – 1500 = +134, atribua um sinal + 1602 – 1500 = +102, atribua um sinal de + 1500 – 1500 = 0, atribua um 0 Os resultados da comparação de cada dado com a mediana hipotética 1.500 são mos- trados a seguir: – – + + 0 – – + + – – + + + + + + + – + Você pode perceber que há 7 sinais – e 12 sinais +. Então, n = 12 + 7 = 19. Como n ≤ 25, use a Tabela B.8 no Apêndice B para encontrar o valor crítico. O teste é uni- lateral com α = 0,05 e n = 19. Logo, o valor crítico é 5. Como n ≤ 25, a estatística de teste x é o menor número dos sinais + ou –. Assim, x = 7. Uma vez que x = 7 é maior que o valor crítico, o funcionário não deve rejeitar a hipótese nula. Interpretação Não há evidência suficiente, ao nível de significância de 5%, para o funcionário rejeitar a afirmação do administrador do site de que o número mediano de visitantes por dia do site da empresa é de não mais de 1.500. TENTE VOCÊ MESMO 1 Uma agência imobiliária afirma que o número mediano de dias que uma casa fica no mercado, em sua cidade, é superior a 120. Um proprietário quer verificar a exatidão dessa afirmação. Os números de dias no mercado para 24 casas selecionadas alea- toriamente são mostrados a seguir. Com α = 0,025, o proprietário pode confirmar a afirmação da agência? 118 167 72 79 76 106 102 113 73 119 162 114 120 93 135 147 77 157 115 88 152 70 65 91 Capítulo 11 Testes não paramétricos 587 EXEMPLO 2 Usando o teste dos sinais Uma organização afirma que a frequência mediana anual dos museus dos Estados Unidos é de pelo menos 55.000 visitantes. Uma amostra aleatória de 100 museus re- vela que as frequências anuais de 65 museus foram inferiores a 55.000, as frequências anuais de 33 museus foram superiores a 550.000 e, as frequências anuais de 2 museus foram de 550.000 visitantes. Com α = 0,01, há evidência suficiente para rejeitar a afir- mação da organização? (Adaptado de American Association of Museums.) SOLUÇÃO A afirmação é “a frequência mediana anual dos museus dos Estados Unidos é de pelo menos 550.000 visitantes”. Então, as hipóteses nula e alternativa são: H0: mediana ≥ 550.000 (Afirmação) e Ha: mediana 7 25, use a Tabela 4 no Apêndice B, a Tabela Normal Padrão, para encon- trar o valor crítico. Como o teste é um teste de cauda esquerda com α = 0,01, o valor crítico é z0 = –2,33. Dos 100 museus de arte, existem 65 com sinal – e 33 com sinal +. Quando os 0 são ignorados, o tamanho da amostra é: n = 65 + 33 = 98 e x = 33. Com esses valores, a estatística de teste x é: z 33 0,5 0,5 98 98 2 31 98 3,13. A Figura 11.2 mostra a localização da região de rejeição e a estatística de teste z. Como z é menor que o valor crítico, ele encontra-se na região de rejeição. Logo, você rejeita a hipótese nula. z �3�4 �2 �1 0 1 2 3 4 z0 = �2,33 � = 0,01 z � �3,13 Figura 11.2 Distribuição normal, região de rejeição e estatística de teste. Interpretação Há evidência suficiente, ao nível de significância de 1%, para rejei- tar a afirmação da organização de que a frequência mediana anual para museus nos Estados Unidos é de pelo menos 55.000 visitantes. TENTE VOCÊ MESMO 2 Um website afirma que a idade mediana dos funcionários de museus nos Estados Unidos é 44 anos. Uma amostra aleatória de 95 funcionários de museus revela que 45 deles têm menos de 40 anos, 48 têm mais de 40 anos e 2 têm 40 anos. Com α = 0,10, você pode rejeitar a afirmação da organização? (Adaptado de American Association of Museums.) Retratando o mundo Um analista financeiro afirma que o dívida média de empréstimos estudantis no Estados Unidos é de $ 17.000. aleatoriamente amostra de dívidas de empréstimos estudantis no Estados Unidos revela que 42 são menos de $ 17.000 e 35 são maiores de $ 17.000. (Adaptado de ValuePenguin.com) Você usaria um teste paramétrico ou não paramétrico para testar a afirmação de que a dívida média de empréstimos estudantis nos Estados Unidos é de US$ 17.000? Explique seu raciocínio. Dica de estudo Antes de aplicar o teste de sinal, certifique-se que é garantido pelos dados. Por exemplo, suponha Exemplo 2 perguntou se você pode apoiar em vez de rejeitar a alegação. Porque menos da metade dos dados de amostra satisfazer a reivindicação, a amostra não pode apoiar a reivindicação. Em um caso como assim, não aplique o teste do sinal porque pode resultar em erro. Dica de estudo Ao realizar um teste de sinal bicaudal, lembre-se de usar apenas a cauda esquerda z valor crítico. 588 Parte 4 Mais inferências estatísticas O teste dos sinais usando amostras pareadas Na Seção 8.3 você aprendeu a aplicar um teste t para a diferença entre médias usando amostras dependentes. Esse teste exigia que ambas as populações fossem normalmente distribuídas. Quando a condição paramétrica de normalidade não pode ser satisfeita, você pode usar o teste dos sinais para amostras pareadas para testar a diferença entre duas medianas populacionais. Para realizar o teste dos sinais usando amostras pareadas para a diferença entre duas medianas populacionais, as condições a seguir devem ser atendidas: 1. Uma amostra de cada população deve ser aleatoriamente selecionada. 2. As amostras devem ser dependentes (pareadas). O teste dos sinais usando amostras pareadas pode ser unilateral à esquerda, unilateral à direita ou bilateral. Esse teste é similar ao teste dos sinais para uma mediana popula- cional única. No entanto, em vez de comparar cada valor com uma mediana hipotética e registrar +, – ou 0, você encontra a diferença entre valores correspondentes e registra o seu sinal. Geralmente, para encontrar a diferença, subtraia o valor representando a se- gunda variável do valor representando a primeira variável. Então, compare o número de sinais + e – (os zeros são ignorados).Quando o número de sinais + é aproximadamente igual ao número de sinais –, provavelmente, em função do teste você não rejeitará a hi- pótese nula. Quando há uma “grande “diferença entre o número de sinais + e o número de sinais –, provavelmente você rejeitará a hipótese nula. INSTRUÇÕES Realizando um teste de sinais para amostra pareadas Em palavras Em símbolos 1. Verifique se as amostras são aleatórias e dependentes. 2. Identifique a afirmação. Declare Formule H0 e Ha. as hipóteses nula e alternativa. 3. Especifique o nível de significância. Identifique α. 4. Determine o tamanho da n = número total de sinais + e – amostra n encontrando a diferença para cada par de dados. Atribua um sinal + a uma diferença positiva, um sinal – a uma diferença negativa e 0 a nenhuma diferença. 5. Determine o valor crítico. Use a Tabela B.8 no Apêndice B. 6. Encontre a estatística de teste. x = o menor número dos sinais + ou – 7. Decida se rejeita ou não rejeita Se a estatística de teste é menor ou igual ao valor crítico, então rejeite H0. Caso contrário, não rejeite H0. a hipótese nula. 8. Interprete a decisão no contexto da afirmação original. Capítulo 11 Testes não paramétricos 589 EXEMPLO 3 Usando o teste dos sinais com amostras pareadas Um psicólogo afirma que o número de infratores reincidentes diminuirá quando infra- tores primários completarem um curso especial de reabilitação. Você seleciona alea- toriamente 10 presídios e registra o número de infratores reincidentes durante um período de dois anos. Então, depois de infratores primários completarem o curso, você registra o número de infratores reincidentes em cada presídio por um outro período de dois anos. Os resultados são mostrados na Tabela 11.2. Para o nível de significância α = 0,025, você pode concordar com a afirmação do psicólogo? Tabela 11.2 Infratores reincidentes em cada presídio no período de dois anos Presídio 1 2 3 4 5 6 7 8 9 10 Antes 21 34 9 45 30 54 37 36 33 40 Depois 19 22 16 31 21 30 22 18 17 21 SOLUÇÃO Para testar a afirmação do psicólogo, use as hipóteses nula e alternativa a seguir: H0: O número de infratores reincidentes não diminuirá. Ha: O número de infratores reincidentes diminuirá. (Afirmação) A Tabela 11.3 mostra o sinal das diferenças entre os dados “antes” e “depois”. Tabela 11.3 Distribuição dos sinais relativos aos pares Presídio 1 2 3 4 5 6 7 8 9 10 Antes 21 34 9 45 30 54 37 36 33 40 Depois 19 22 16 31 21 30 22 18 17 21 Sinal + + – + + + + + + + Você pode ver que há 1 sinal – e 9 sinais +. Então, n = 1 + 9 = 10. Como o teste é unilateral com α = 0,025 e n = 10, o valor crítico é 1. A estatística de teste x é o menor número de sinais + ou –. Logo, x = 1. Já que x é igual ao valor crítico, você rejeita a hipótese nula. Interpretação Há evidência suficiente, ao nível de significância 2,5%, para concor- dar com a afirmação do psicólogo de que o número de infratores reincidentes dimi- nuirá após o curso. TENTE VOCÊ MESMO 3 Um pesquisador da área médica afirma que uma nova vacina diminuirá o número de resfriados em adultos. Você seleciona aleatoriamente 14 adultos e registra o número de resfriados que cada um teve durante um ano. Após dar a vacina a cada adulto, você registra novamente o número de resfriados que cada um teve no período de um ano. Os resultados são mostrados na Tabela 11.4. Com a = 0,05, você pode concordar com a afirmação do pesquisador? Tabela 11.4 Adulto 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Antes da vacina 3 4 2 1 3 6 4 5 2 0 2 5 3 3 Depois da vacina 2 1 0 1 1 3 3 2 2 2 3 4 3 2 590 Parte 4 Mais inferências estatísticas Construindo habilidades básicas e vocabulário 1. O que é um teste não paramétrico? Como um teste não paramétrico difere de um teste paramétrico? Quais são as vantagens e desvantagens de usar um teste não paramétrico? 2. Quando o teste dos sinais é usado, qual parâmetro populacional está sendo testado? 3. Descreva a estatística de teste para o teste dos sinais quando o tamanho da amostra n é inferior ou igual a 25 e quando n é superior a 25. 4. Com suas palavras, explique por que o teste de hipótese discutido nesta seção é chamado de teste dos sinais. 5. Explique como usar o teste dos sinais para testar uma mediana populacional. 6. Liste as duas condições que devem ser atendidas de modo a usar o teste dos sinais com amostras pareadas. Usando e interpretando conceitos Realizando um teste dos sinais Nos exercícios de 7 a 22, (a) identifique a afirmação e declare H0 e Ha, (b) encontre o valor crítico, (c) encontre a estatística de teste, (d) decida se rejeita ou não a hipótese nula e (e) interprete a decisão no contexto da afirmação original. 7. Despesas de cartão de crédito Um contador de serviço financeiro afirma que a quantia mediana de novas despesas de cartão de crédito para o mês anterior foi de mais de US$ 500. Você seleciona aleatoriamente 12 contas de cartão de crédito e registra a quantia de novas despesas de cada uma para o mês anterior. As quantias (em dólares) estão listadas a seguir. Com α = 0,01, você pode aceitar a afirmação do contador? (Adaptado de Board of Governors of the Federal Reserve System.) 976,16 138,26 1.368,03 0,00 241,61 334,34 1.067,87 1.828,20 1.457,67 1.281,07 166,02 5,00 8. Temperatura Um meteorologista afirma que a temperatura mediana máxima diária para o mês de julho em Pittsburgh é de 83º Fahrenheit. As temperaturas má- ximas (em graus Fahrenheit) para 15 dias de julho selecionados aleatoriamente em Pittsburgh estão listadas a seguir. Com α = 0,01, há evidência suficiente para rejeitar a afirmação do meteorologista? (Adaptado de U.S. National Oceanic and Atmospheric Administration.) 74 79 81 86 90 79 81 83 81 74 78 76 84 82 85 9. Preços de venda de casas Um corretor de imóveis afirma que o preço mediano de venda de novas casas residenciais vendidas em um mês recente é de US$ 500.000 ou menos. Os preços de venda (em dólares) de 10 casas selecionadas aleatoriamente estão listados a seguir. Para um nível de significância α = 0,05, há evidência sufi- ciente para rejeitar a afirmação do corretor? (Adaptado de National Association of Realtors.) 400.000 595.000 475.000 299.900 410.000 605.000 825.000 355.000 200.000 299.900 11.1 EXERCÍCIOS Capítulo 11 Testes não paramétricos 591 10. Temperatura Durante uma previsão do tempo, um meteorologista afirma que a temperatura mediana máxima diária para o mês de janeiro em San Diego é de 66º Fahrenheit. As temperaturas máximas (em graus Fahrenheit) para 16 dias de janeiro selecionados aleatoriamente em San Diego estão listadas a seguir. Com α = 0,01, você pode rejeitar a afirmação do meteorologista? (Adaptado de U.S. National Oceanic and Atmospheric Administration.) 78 74 72 72 70 70 72 78 74 71 72 74 77 79 75 73 11. Seguro de saúde Um agente de seguros afirma que o valor médio anual que as famílias com cobertura de seguro de saúde do empregador no Havaí gastam em prêmios de seguro de saúde é de pelo menos US$ 600. Em uma amostra aleatória de 112 famílias, 65 famílias gastam menos de US$ 600 e 47 famílias gastam mais de US$ 600. Com α = 0,02, você pode rejeitar a afirmação do agente? (Adaptado do Fundo da Commonwealth) 12. Renda familiar Um contador afirma que a renda média anual de uma família de quatro pessoas na Califórnia é inferior a US$ 100.000. Em uma amostra aleatória de 66 famílias de quatro pessoas, 42 famílias têm renda anual inferior a US$ 100.000 e 24 famílias têm renda superior a US$ 100.000. Em α = 0,025, você pode apoiar a afirmação do contador? (Adaptado do U.S. Census Bureau) 13. Mídia social Um grupo de pesquisa afirma que a idade mediana de usuários de mídias sociais é superior a 32 anos. Em uma amostra aleatória de 20 usuários de mí- dias sociais, 5 têm menos de 32 anos, 13 têm mais de 32 anos e 2 têm 32 anos. Com α = 0,05, você pode concordar com a afirmação do grupo de pesquisa? (Adaptado de Pew Research Center.) 14. Redes sociais Um grupo de pesquisa afirma que a idade médiados usuários de um site de rede social é inferior a 32 anos. Numa amostra aleatória de 20 utilizadores, 5 têm menos de 32 anos, 13 têm mais de 32 anos e 2 têm 32 anos. Em α = 0,05, você pode apoiar a afirmação do grupo de pesquisa? (Adaptado do Pew Research Center) 15. Tamanho da unidade Uma organização de locatários afirma que o número me- diano de cômodos em unidades alugadas é quatro. Você seleciona aleatoriamente 120 unidades alugadas e obtém os resultados mostrados a seguir. Para o nível de significância α = 0,05, você pode rejeitar a afirmação da organização? (Adaptado de U.S. Census Bureau.) Tamanho da unidade Número de unidades Menos de 4 cômodos 29 4 cômodos 38 Mais de 4 cômodos 53 TABELA PARA O EXERCÍCIO 15 Metragem quadrada Número de unidades Menos de 1.000 13 1.000 2 Mais de 1.000 7 TABELA PARA O EXERCÍCIO 16 16. Área quadrada Uma organização de locatários afirma que a área mediana qua- drada de unidades alugadas é de 1.000 pés quadrados. Você seleciona aleatoriamente 22 unidades alugadas e obtém os resultados mostrados a seguir. Com α = 0,10, você pode rejeitar a afirmação da organização? (Adaptado de U.S. Census Bureau.) 17. Salário por hora Uma organização trabalhista afirma que o salário mediano por hora de analistas de sistemas de computador é de US$ 41,93. Em uma amostra aleatória de 45 analistas de sistemas, 18 ganham menos de US$ 41,93 por hora, 25 ganham mais de US$ 41,93 por hora e 2 ganham US$ 41,93 por hora. Com um nível de significância α = 0,01, você pode rejeitar a afirmação da organização traba- lhista? (Adaptado de U.S. Bureau of Labor Statistics.) 592 Parte 4 Mais inferências estatísticas 18. Salário por hora Uma organização trabalhista afirma que o salário mediano por hora de pedicuros é de US$ 70,00. Em uma amostra aleatória de 23 pedicuros, 17 ganham menos de US$ 70,00 por hora, 5 ganham mais de US$ 70,00 por hora e 1 ganha US$ 70,00 por hora. Com α = 0,05, você pode rejeitar a afirmação da organi- zação trabalhista? (Adaptado de U.S. Bureau of Labor Statistics.) 19. Dor nas costas Um médico afirma que as pontuações da intensidade de dor nas costas diminuirão após um tratamento de acupuntura. A tabela a seguir mostra as pontuações da intensidade de dor nas costas para oito pacientes antes e depois de receberem acupuntura por oito semanas. Com α = 0,05, há evidência suficiente para concordar com a afirmação do médico? (Adaptado de Archives of Internal Medicine.) Paciente 1 2 3 4 5 6 7 8 Pontuação da intensidade (antes) 59,2 46,3 65,4 74,0 79,3 81,6 44,4 59,1 Pontuação da intensidade (depois) 12,4 22,5 18,6 59,3 70,1 70,2 13,2 25,9 20. Dor nas costas Um médico afirma que as pontuações da intensidade de dor nas costas diminuirão após tomar medicamentos anti-inflamatórios. A tabela a seguir mostra as pontuações da intensidade de dor nas costas para 12 pacientes antes e depois de tomarem medicamentos anti-inflamatórios por 8 semanas. Com α = 0,05, há evidência suficiente para concordar com a afirmação do médico? (Adaptado de Archives of Internal Medicine.) Paciente 1 2 3 4 5 6 Pontuação da intensidade (antes) 71,0 42,1 79,1 57,5 64,0 60,4 Pontuação da intensidade (depois) 60,1 23,4 86,2 62,1 44,2 49,7 Paciente 7 8 9 10 11 12 Pontuação da intensidade (antes) 68,3 95,2 48,1 78,6 65,4 59,9 Pontuação da intensidade (depois) 58,3 72,6 51,8 82,5 63,2 47,9 21. Melhorando as notas no SAT Uma agência de professores particulares afirma que, completando um curso especial, os estudantes melhorarão suas notas de com- preensão de texto no SAT. Em parte de um estudo, 12 estudantes fazem a parte de compreensão de texto do SAT, completam o curso especial e, então, fazem a parte de compreensão de texto do SAT novamente. As notas dos estudantes são mostradas na tabela a seguir. Com nível de significância α = 0,05, há evidência suficiente para aceitar a afirmação da agência? Estudante 1 2 3 4 5 6 Nota no primeiro SAT 300 450 350 430 300 470 Nota no segundo SAT 300 520 400 410 300 480 Estudante 7 8 9 10 11 12 Nota no primeiro SAT 530 200 200 350 360 250 Nota no segundo SAT 700 250 390 350 480 300 Capítulo 11 Testes não paramétricos 593 22. Notas no SAT Um conselheiro de orientação educacional afirma que os estudan- tes que fazem o SAT duas vezes melhoram suas notas no segundo exame. A tabela a seguir mostra as notas de compreensão de texto no SAT para 12 estudantes que fizeram o exame duas vezes. Com nível de significância α = 0,01, você pode aceitar a afirmação do conselheiro de orientação educacional? Estudante 1 2 3 4 5 6 Nota no primeiro SAT 440 510 420 450 620 450 Nota no segundo SAT 440 570 510 470 610 450 Estudante 7 8 9 10 11 12 Nota no primeiro SAT 350 470 320 510 630 570 Nota no segundo SAT 370 530 290 500 640 600 23. Sentindo sua idade Uma empresa de pesquisa conduz um levantamento selecio- nando aleatoriamente adultos e perguntando a cada um: “Como você se sente em relação à sua idade?” Os resultados são apresentados na figura a seguir: (Adaptado de Pew Research Center.) Mais novo 11 Mais velho 3 Minha idade 9 (a) Use um teste dos sinais para testar a hipótese nula de que a proporção de adultos que se sentem mais velhos é igual à proporção de adultos que se sentem mais novos. Atribua um sinal + a cada adulto que respondeu “mais velho”, atribua um sinal – a cada adulto que respondeu “mais novo” e atribua um 0 a cada adul- to que respondeu “minha idade”. Use α = 0,05. (b) O que você pode concluir? 24. Contatando os pais Uma empresa de pesquisa conduz uma pesquisa selecionan- do aleatoriamente adultos e perguntando a cada um: “com que frequência você en- tra em contato com seus pais por telefone?” Os resultados são mostrados na figura a seguir. (Adaptado de Pew Research Center.) Semanal- mente 12 Diariamente 8 Outro 6 (a) Use um teste dos sinais para testar a hipótese nula de que a proporção de adul- tos que entram em contato com seus pais por telefone semanalmente é igual à proporção de adultos o fazem diariamente. Atribua um sinal + a cada adulto que respondeu “semanalmente”, atribua um sinal – a cada adulto que respondeu “diariamente” e atribua um 0 a cada adulto que respondeu “outro”. Use α = 0,05. (b) O que você pode concluir? 594 Parte 4 Mais inferências estatísticas Expandindo conceitos Mais sobre testes dos sinais Quando você está aplicando um teste dos sinais para n > 25 e o teste é unilateral à esquerda, você sabe que pode rejeitar a hipótese nula quando a estatística de teste z = x + 0,5 – 0,5n n 2 é menor ou igual ao valor crítico da lateral à esquerda, em que x é o menor número de sinais + ou –. Para um teste unilateral à direita, você pode rejeitar a hipótese nula quando a estatística de teste z = x – 0,5 – 0,5n n 2 é maior ou igual ao valor crítico da lateral à direita, em que x é o maior número de sinais + ou –. Nos exercícios de 25 a 28, use um teste unilateral à direita e (a) identifique a afirmação e declare H0 e Ha, (b) encontre o valor crítico, (c) encontre a estatística de teste, (d) decida se rejeita ou não a hipótese nula e (e) interprete a decisão no contexto da afir- mação original. 25. Salário semanal Uma organização trabalhista afirma que o salário mediano se- manal de trabalhadores do sexo feminino é inferior ou igual a US$ 600. Para testar essa afirmação, você seleciona aleatoriamente 50 trabalhadoras e pede que cada uma forneça seu salário semanal. A tabela a seguir mostra os resultados. Com nível de significância α = 0,01, você pode rejeitar a afirmação da organização? (Adaptado de U.S. Bureau of Labor Statistics.) Salário semanal Número de trabalhadoras Menos de US$ 600 18 US$ 600 3 Mais de US$ 600 29 TABELA PARA O EXERCÍCIO 25 Salário semanal Número de trabalhadores Menos de US$ 900 25 US$ 900 2 Mais de US$ 900 48 TABELA PARA O EXERCÍCIO 26 26. Salário semanal Uma organização trabalhista afirma que o salário mediano se- manal de trabalhadores do sexo masculino é de mais de US$ 900. Paratestar essa afirmação, você seleciona aleatoriamente 75 trabalhadores na faixa de 25 a 34 anos. A tabela a seguir mostra os resultados. Com α = 0,01, você pode suportar a afirma- ção da organização? (Adaptado de U.S. Bureau of Labor Statistics.) 27. Idade das noivas Um conselheiro matrimonial afirma que a idade mediana das noivas na época do seu primeiro casamento é inferior ou igual a 27 anos. Em uma amostra aleatória de 65 noivas, 24 têm menos de 27 anos, 35 têm mais de 27 anos e 6 têm 27 anos. Com α = 0,05, você pode rejeitar a afirmação do conselhei- ro? (Adaptado de U.S. Census Bureau.) 28. Idade dos noivos Um conselheiro matrimonial afirma que a idade mediana dos noivos na época do seu primeiro casamento é superior a 28 anos. Em uma amostra aleatória de 56 noivos, 33 têm menos de 28 anos e 23 têm mais de 28 anos. Com α = 0,05, você pode concordar com a afirmação do conselheiro? (Adaptado de U.S. Census Bureau.) Capítulo 11 Testes não paramétricos 595 teste dos postos sinalizados de Wilcoxon O teste da soma dos postos de Wilcoxon O teste dos postos sinalizados de Wilcoxon Nesta seção você estudará o teste dos postos sinalizados de Wilcoxon e o teste da soma dos postos de Wilcoxon. Ao contrário do teste dos sinais da Seção 11.1, a força desses dois testes não paramétricos é que cada um considera a magnitude, ou tamanho, dos dados. Na Seção 8.3 você usou um teste t junto com amostras dependentes para determinar se havia uma diferença entre duas populações. Para usar o teste t e testar tal diferença, você deve supor (ou saber) que as amostras dependentes são selecionadas aleatoriamente de populações que possuem uma distribuição normal. Mas o que você deve fazer quando a suposição de normalidade não pode ser feita? Em vez de aplicar o teste t usando duas amostras, você pode utilizar o teste dos postos sinalizados de Wilcoxon. DEFINIÇÃO O teste dos postos sinalizados de Wilcoxon é um teste não paramétrico que pode ser usado para determinar se duas amostras dependentes foram selecionadas de popula- ções que possuem a mesma distribuição. INSTRUÇÕES Realizando um teste dos postos sinalizados de Wilcoxon Em palavras Em símbolos 1. Verifique se as amostras são aleatórias e dependentes. 2. Identifique a afirmação. Declare Formule H0 e Ha. as hipóteses nula e alternativa. 3. Especifique o nível de significância. Identifique α. 4. Determine o tamanho da amostra n, que é o número de pares de dados cuja diferença não é 0. 5. Determine o valor crítico. Use a Tabela B.9 no Apêndice B. 6. Encontre a estatística de teste ws. Cabeçalhos: Amostra 1, Amostra 2, Diferença, Valor absoluto, Posto e Posto sinalizado. Posto sinalizado adota o mesmo sinal de sua diferença correspondente. a. Complete uma tabela usando os cabeçalhos listados à direita. b. Encontre a soma dos postos positivos e a soma dos postos negativos. c. Selecione o menor valor absoluto das somas. 7. Decida se rejeita ou não a hipótese nula. Se ws é menor ou igual ao valor crítico, então rejeite H0. Caso contrá- rio, não rejeite H0. 8. Interprete a decisão no contexto da afirmação original. 11.2 Testes de Wilcoxon O que você deve aprender Como usar o teste dos postos sinalizados de Wilcoxon para determinar se duas amostras dependentes são selecionadas de populações que possuem a mesma distribuição. Como usar o teste da soma dos postos de Wilcoxon para determinar se duas amostras independentes são selecionadas de populações que possuem a mesma distribuição. Dica de estudo Lembre-se de que o valor absoluto de um número é o seu valor, desconsiderando seu sinal. Um par de barras verticais, | |, é usado para denotar o valor absoluto. Por exemplo, |3| = 3 e |–7| = 7. 596 Parte 4 Mais inferências estatísticas EXEMPLO 1 Realizando um teste dos postos sinalizados de Wilcoxon Um fabricante de tacos de golfe afirma que os jogadores podem diminuir suas pon- tuações (números de tacadas) usando seus tacos de golfe recém-projetados. A Tabela 11.5 mostra as pontuações de 10 golfistas enquanto usam o modelo antigo e o modelo novo no mesmo campo de golfe. Com α = 0,05, você aceita a afirmação do fabricante? Tabela 11.5 Distribuição das pontuações dos golfistas Golfista 1 2 3 4 5 6 7 8 9 10 Pontuação (modelo antigo) 89 84 96 74 91 85 95 82 92 81 Pontuação (modelo novo) 83 83 92 76 91 80 87 85 90 77 SOLUÇÃO A afirmação é “os jogadores podem diminuir suas pontuações”. Para testar essa afir- mação, use as seguintes hipóteses nula e alternativa: H0: O novo modelo não diminui as pontuações. Ha: O novo modelo diminui as pontuações. (Afirmação) Esse teste dos postos sinalizados de Wilcoxon é um teste unilateral com α = 0,05 e, como um par de dados tem uma diferença 0, n = 9 em vez de 10. Da Tabela B.9 no Apêndice B, o valor crítico é 8. Para encontrar a estatística de teste ws, complete con- forme mostra a Tabela 11.6. Tabela 11.6 Operações para o cálculo da estatística de teste Pontuação (modelo antigo) Pontuação (modelo novo) Diferença Valor absoluto Posto Posto sinalizado 89 83 6 6 8 8 84 83 1 1 1 1 96 92 4 4 5,5 5,5 74 76 –2 2 2,5 – 2,5 91 91 0 0 – – 85 80 5 5 7 7 95 87 8 8 9 9 82 85 –3 3 4 – 4 92 90 2 2 2,5 2,5 81 77 4 4 5,5 5,5 A soma dos postos negativos é −2,5 + (−4) = −6,5. A soma dos postos positivos é 8 + 1 + 5,5 + 7 + 9 + 2,5 + 5,5 = 38,5. A estatística de teste é o menor valor absoluto dessas duas somas. Como |−6,5|pela distribuição normal). Ao calcular a estatística de teste para o teste da soma dos postos de Wilcoxon, faça n1 representar o tamanho da amostra menor e n2 representar o tamanho da maior amostra. Quando as duas amostras tiverem o mesmo tamanho, não importa qual é n1 ou n2. Para calcular a soma dos postos R, combinar ambas as amostras e classificar os dados combinados. Então, somar os postos para a menor das duas amostras. Quando as duas amostras têm o mesmo tamanho, você pode usar os postos de qualquer uma, mas deve usar os postos da amostra que você associa com n1. Estatística de teste para o teste da soma dos postos de Wilcoxon Para duas amostras independentes, a estatística de teste z para o teste de soma dos postos de Wilcoxon é: z = R μR σR Onde R = soma dos postos para a menor amostra, μR = n1 n1 n2 1 2 , e σR = n1n2 n1 n2 1 12 . Retratando o mundo Para ajudar a determinar quando pacientes com artroscopia no joelho podem voltar a dirigir após a cirurgia, os tempos de reação na direção (em milissegundos) de 10 pacientes com artroscopia no joelho direito foram medidos antes da cirurgia e 4 semanas após a cirurgia, usando um simulador de carro ligado a um computador. A tabela a seguir mostra os resultados. (Adaptado de Knee Surgery, Sports Traumatology, Arthroscopy Journal.) Paciente Tempo de reação antes da cirurgia Tempo de reação 4 semanas após a cirurgia 1 720 730 2 750 645 3 735 745 4 730 640 5 755 660 6 745 670 7 730 650 8 725 730 9 770 675 10 700 705 Com α = 0,05, você pode concluir que os tempos de reação mudaram significativamente quatro semanas após a cirurgia? Dica de estudo Use o teste dos postos sinalizados de Wilcoxon para amostras dependentes e o teste da soma dos postos de Wilcoxon para amostras independentes. 598 Parte 4 Mais inferências estatísticas INSTRUÇÕES Realizando um teste dos postos sinalizados de Wilcoxon Em palavras Em símbolos 1. Verifique que as amostras são aleatórias e independentes. 2. Identifique a afirmação. Declare Formule H0 e Ha. as hipóteses nula e alternativa. 3. Especifique o nível de significância. Identifique α. 4. Determine o(s) valor(es) crítico(s) Use a Tabela B.4 no Apêndice B. e a(s) região(ões) de rejeição. 5. Determine os tamanhos das amostras. n1 ≤ n2 6. Encontre a soma dos postos para R a menor amostra. a. Liste os dados combinados em ordem crescente. b. Classifique os dados combinados. c. Adicione a soma dos postos para a menor amostra, n1. 7. Encontre a estatística de teste e z = R – μR σResboce a distribuição amostral. 8. Decida se rejeita ou não a Se z está na região de rejeição, hipótese nula. então rejeite H0. Caso contrário, não rejeite H0 9. Interprete a decisão no contexto da afirmação original. EXEMPLO 2 Realizando um teste da soma dos postos de Wilcoxon A Tabela 11.8 mostra os salários (em milhares de dólares) de uma amostra aleatória de 10 homens e 12 mulheres, representantes de vendas de produtos farmacêuticos. Com α = 0,10, você pode concluir que há diferença entre o salário dos homens e das mulheres? Salário homens 78 93 114 101 98 94 86 95 117 99 Salários mulheres 86 77 101 93 85 98 91 87 84 97 100 90 SOLUÇÃO A afirmação é “há diferença entre o salário dos homens e das mulheres”. Para testar essa afirmação, use as hipóteses nula e alternativa a seguir: H0: Não há diferença entre o salário de homens e mulheres. Ha: Há diferença entre o salário de homens e mulheres. (Afirmação) Como o teste é bilateral com α = 0,10, os valores críticos são – z0 = –1,645 e z0 = 1,645. As regiões de rejeição são z 1,645. Capítulo 11 Testes não paramétricos 599 O tamanho da amostra para os homens é 10 e para as mulheres é 12. Uma vez que 10 4 Mais inferências estatísticas 5. Salário por grau Um administrador de faculdade afirma que há uma diferença no salário de pessoas com grau de bacharel e aquelas com grau de pós-graduação. A ta- bela a seguir mostra os salários (em milhares de dólares) de uma amostra aleatória de 11 bacharéis e 10 pessoas pós-graduadas. Com α = 0,05, há evidência suficiente para confirmar a afirmação do administrador? (Adaptado de U.S. Census Bureau.) Bacharel 50 63 93 69 67 99 82 67 50 74 71 Pós-graduação 138 88 99 113 104 102 116 84 114 96 6. Dores de cabeça Um médico pesquisador quer determinar se um novo remédio afeta o número de horas de dor de cabeça pelas quais passam pessoas que sofrem desse mal. Para tanto, o pesquisador seleciona aleatoriamente sete pacientes e pede que cada um informe o número de horas de dor de cabeça (por dia) que cada um sente antes e depois de tomar o remédio. A tabela a seguir mostra os resultados. Com nível de significância α = 0,05, o pesquisador pode concluir que o novo remé- dio afeta o número de horas de dor de cabeça? Paciente 1 2 3 4 5 6 7 Horas de dor de cabeça (antes) 0,8 2,4 2,8 2,6 2,7 0,9 1,2 Horas de dor de cabeça (depois) 1,6 1,3 1,6 1,4 1,5 1,6 1,7 7. Salários de professores Um representante do sindicato de professores afirma que há uma diferença nos salários recebidos por professores em Wisconsin e Michigan. A tabela a seguir mostra os salários (em milhares de dólares) de uma amostra alea- tória de 11 professores em Wisconsin e 12 professores em Michigan. Com α = 0,05, há evidência suficiente para aceitar a afirmação do representante? (Adaptado de National Education Association.) Virginia 61 61 58 60 63 53 66 60 64 50 66 Missouri 40 46 37 49 56 46 51 53 59 66 46 57 8. Frequência cardíaca Um médico quer determinar se uma medicação experimen- tal afeta a frequência cardíaca de um indivíduo. O médico seleciona aleatoriamente 15 pacientes e mede a frequência cardíaca de cada um. Os indivíduos tomam, en- tão, o medicamento e têm suas frequências cardíacas medidas novamente após uma hora. A tabela a seguir mostra os resultados. Para um nível de significância α = 0,05, o médico pode concluir que a medicação experimental afeta a frequência cardíaca de um indivíduo? Paciente 1 2 3 4 5 6 7 8 Frequência cardíaca (antes) 72 81 75 76 79 74 65 67 Frequência cardíaca (depois) 73 80 75 79 74 76 73 67 Paciente 9 10 11 12 13 14 15 Frequência cardíaca (antes) 76 83 66 75 76 78 68 Frequência cardíaca (depois) 74 77 70 77 76 75 74 Capítulo 11 Testes não paramétricos 603 Expandindo conceitos Teste dos postos sinalizados de Wilcoxon para n > 30 Quando você está realizando um teste dos postos sinalizados de Wilcoxon e o tamanho da amostra n é maior que 30, você pode usar a Tabela Normal Padrão e a fórmula a seguir para encontrar a estatística de teste. z = ws – n n + 1 4 n n + 1 2n + 1 24 Nos exercícios 9 e 10, realize o teste dos postos sinalizados de Wilcoxon indicado usan- do a estatística de teste para n > 30. 9. Aditivo de combustível Um engenheiro de petróleo quer saber se certo aditivo de combustível melhora o desempenho de um carro. Para decidir, o engenheiro regis- tra o desempenho (em milhas por galão) de 33 carros selecionados aleatoriamente com e sem o aditivo de combustível. A tabela a seguir mostra os resultados. Com α = 0,10, o engenheiro pode concluir que o desempenho melhorou? Carro 1 2 3 4 5 6 7 8 9 10 11 Sem aditivo 36,4 36,4 36,6 36,6 36,8 36,9 37,0 37,1 37,2 37,2 36,7 Com aditivo 37,7 36,9 37,0 37,5 38,0 38,1 38,4 38,7 38,8 38,9 36,3 Carro 12 13 14 15 16 17 18 19 20 21 22 Sem aditivo 37,5 37,6 37,8 37,9 37,9 38,1 38,4 40,2 40,5 40,9 35,0 Com aditivo 38,9 39,0 39,1 39,4 39,4 39,5 39,8 40,0 40,0 40,1 36,3 Carro 23 24 25 26 27 28 29 30 31 32 33 Sem aditivo 32,7 33,6 34,2 35,1 35,2 35,3 35,5 35,9 36,0 36,1 37,2 Com aditivo 32,8 34,2 34,7 34,9 34,9 35,3 35,9 36,4 36,6 36,6 38,3 10. Aditivo de combustível Um engenheiro de petróleo afirma que um aditivo de combustível melhora o desempenho. A tabela a seguir mostra o desempenho (em milhas por galão) de 32 carros selecionados aleatoriamente, medido com e sem o aditivo de combustível. Teste a afirmação do engenheiro de petróleo com α = 0,05. Carro 1 2 3 4 5 6 7 8 9 10 11 Sem aditivo 34,0 34,2 34,4 34,4 34,6 34,8 35,6 35,7 30,2 31,6 32,3 Com aditivo 36,6 36,7 37,2 37,2 37,3 37,4 37,6 37,7 34,2 34,9 34,9 Carro 12 13 14 15 16 17 18 19 20 21 22 Sem aditivo 33,0 33,1 33,7 33,7 33,8 35,7 36,1 36,1 36,6 36,6 36,8 Com aditivo 34,9 35,7 36,0 36,2 36,5 37,8 38,1 38,2 38,3 38,3 38,7 Carro 23 24 25 26 27 28 29 30 31 32 Sem aditivo 37,1 37,1 37,2 37,9 37,9 38,0 38,0 38,4 38,8 41,1 Com aditivo 38,8 38,9 39,1 39,1 39,2 39,4 39,8 40,3 40,8 43,2 ESTUDO DE CASO Ranking de universidades A cada ano, a Forbes e o Center for College Affordability and Productivity lan- çam uma lista das melhores instituições de ensino superior nos Estados Unidos. 600 faculdades e universidades são classificadas de acordo com fatores em sete categorias 1. Salário de ex-alunos, uma média, com base nos dados de rendimentos de graduados 2. Dívida estudantil, o valor devido pelo aluno médio após a faculdade 3. Retorno sobre o investimento, uma medida de quanto tempo os alunos le- vam para pagar seus custos da faculdade usando seu aumento nos ganhos pós-matrícula 4. Taxa de graduação 5. Líderes americanos produzidos, o número de ex-alunos em várias listas de poder 6. Taxa de retenção, a porcentagem de alunos que permanecem após o primei- ro ano 7. Sucesso acadêmico, com base no número de alunos que obtiveram sucesso acadêmico honras e graus avançados A tabela mostra as populações estudantis para faculdades selecionadas alea- toriamente por região na lista de 2021. Populações estudantis Nordeste Centro-Oeste Sul Oeste 6,608 24,027 2,134 2,519 1,835 2,631 14,171 22,207 33,720 3,697 21,946 44,551 31,240 3,004 2,098 1,475 14,297 1,445 3,570 3,906 19,593 4,524 2,264 36,383 17,811 2,692 46,148 28,079 69,525 14,318 1,717 895 40,445 22,517 1,109 17,019 2,214 21,003 8,847 5,319 EXERCÍCIOS 1. Construa um boxplot lado a lado para as quatro regiões. Apenas observando o gráfico, é possível perceber duas ou mais medianas “próximas”? Alguma parece ser diferente? Nos exercícios de 2 a 5, use o teste dos sinais para testar a afirmação. O que você pode concluir? Use α = 0,05. 2. A população total mediana de estudantes em instituições no Nordeste é menor ou igual a 7.000. 3. A população total mediana de estudantes em instituições no Centro-Oeste é maior ou igual a 8.000. 4. A população total mediana de estudantes em instituições no Sul é 10.000. 5. A população total mediana de estudantes em instituições no Oeste é diferente de 8.000. Nos exercícios 6 e 7, use o teste da soma dos postos de Wilcoxon para testar a afirmação. Use α = 0,01. 6. Não há diferença entre a população total de estudantes para as instituições no Centro-Oeste e no Oeste. 7. Há diferença entre a população total de estudantes para as instituições no Nordeste e no Sul. Capítulo 11 Testes não paramétricos 605 O teste de Kruskal-Wallis O teste de Kruskal-Wallis Na Seção 10.4 você aprendeu como usar técnicas da ANOVA com um fator para com- parar as médias de três ou mais populações. Ao usar a ANOVA com um fator, você deve verificar se cada amostra independente é sele cionada de uma população com distri- buição normal, ou aproximadamente normal. Quando você não pode concluir que as populações são normais, você ainda pode comparar as distribuições de três ou mais populações. Para tanto, você pode usar o teste de Kruskal-Wallis. DEFINIÇÃO O teste de Kruskal-Wallis é um teste não paramétrico que pode ser usado para deter- minar se três ou mais amostras independentes foram selecionadas de populações que possuem a mesma distribuição. Para um teste de Kruskal-Wallis, as hipóteses nula e alternativa são sempre seme- lhantes às seguintes afirmações: H0: Todas as populações possuema mesma distribuição. Ha: Pelo menos uma população possui uma distribuição que é diferente das demais. As condições para usar o teste de Kruskal-Wallis são que as amostras devem ser aleatórias e independentes, e o tamanho de cada amostra deve ser pelo menos 5. Se essas condições são satisfeitas, então a distribuição amostral para o teste de Kruskal-Wallis é aproximada por uma distribuição qui-quadrado com k – 1 graus de liberdade, em que k é o número de amostras. Você pode calcular a estatística de teste de Kruskal-Wallis usando a fórmula descrita a seguir. Estatística de teste para o teste de Kruskal-Wallis Para três ou mais amostras independentes, a estatística de teste para o teste de Kruskal-Wallis é: H = 12 N N + 1 R 2 1 n1 + R 2 2 n2 + + R 2 k nk – 3 N + 1 onde k é o número de amostras, ni é o tamanho da i-ésima amostra, N é a soma dos tamanhos das amostras, e Ri é a soma dos postos da i-ésima amostra. Realizar um teste de Kruskal-Wallis consiste em combinar e classificar em ordem crescente os dados amostrais. Após, os postos são então separados de acordo com a amostra e a soma dos postos de cada amostra é calculada. 11.3 Teste de Kruskal-Wallis O que você deve aprender Como usar o teste de Kruskal-Wallis para determinar se três ou mais amostras foram selecionadas de populações que apresentam a mesma distribuição. 606 Parte 4 Mais inferências estatísticas Essas somas são então usadas para calcular a estatística de teste H, que é uma apro- ximação da variância das somas dos postos. Quando as amostras são selecionadas de populações que possuem a mesma distribuição, as somas dos postos serão, em geral, aproximadamente iguais, H será pequeno, e você provavelmente não deve rejeitar a hipótese nula. Quando as amostras são selecionadas de populações que não possuem a mesma dis- tribuição, as somas dos postos poderão ser muito diferentes, H será grande e você prova- velmente deve rejeitar a hipótese nula. Como só se rejeita a hipótese nula quando H é significativamente grande, o teste de Kruskal-Wallis é sempre um teste unilateral à direita. INSTRUÇÕES Performing a Kruskal-Wallis Test Em palavras Em símbolos 1. Verifique se as amostras são aleatórias e independentes, e cada tamanho de amostra é pelo menos 5. 2. Identifique a afirmação. Declare Formule H0 e Ha. as hipóteses nula e alternativa. 3. Especifique o nível de significância. Identifique α. 4. Identifique os graus de liberdade. g.l. = k – 1 5. Determine o valor crítico e a região Use a Tabela B.6 no Apêndice B. de rejeição. 6. Encontre a soma dos postos para cada amostra. a. Liste os dados combinados em ordem crescente. b. Classifique os dados combinados. 7. Encontre a estatística de teste H = 12 N N + 1 . R 2 1 n1 + R 2 2 n2 + . . . + R 2 k nk – 3 N + 1 e esboce a distribuição amostral. 8. Decida se rejeita ou não rejeita Se H está na região de rejeição, a hipótese nula. então rejeite H0. Caso contrário, não rejeite H0 9. Interprete a decisão no contexto da afirmação original. Capítulo 11 Testes não paramétricos 607 EXEMPLO 1 Realizando um teste de Kruskal-Wallis Você quer comparar o número de crimes denunciados em três delegacias policiais em uma cidade. Para tal, você seleciona aleatoriamente 10 semanas para cada delegacia e registra o número de crimes denunciados. A Tabela 11.11 mostra os resultados. Com α = 0,01, você pode concluir que a distribuição do número de crimes denunciados em pelo menos uma delegacia é diferente das demais? Tabela 11.11 Número de crimes denunciados por semana 101ª delegacia (Amostra 1) 106ª delegacia (Amostra 2) 113ª delegacia (Amostra 3) 60 65 69 52 55 51 49 64 70 52 66 61 50 53 67 48 58 65 57 50 62 45 54 59 44 70 60 56 62 63 SOLUÇÃO Você quer testar a afirmação de que a distribuição do número de crimes denunciados em pelo menos uma delegacia é diferente das demais. As hipóteses nula e alternativa são as seguintes: H0: A distribuição do número de crimes denunciados é a mesma nas três delegacias. Ha: A distribuição do número de crimes denunciados em pelo menos uma delega- cia é diferente das demais. (Afirmação) O teste é unilateral à direita com α = 0,01 e g.l. = k – 1 = 3 – 1 = 2. Da Tabela B.6 no Apêndice B, o valor crítico é ꭓ2 0 = 9,210.A região de rejeição é ꭓ2 > 9,210. Para cal- cular a estatística de teste, você deve encontrar a soma dos postos para cada amostra. A Tabela 11.12 mostra os dados combinados listados em ordem crescente e os corres- pondentes postos. Tabela 11.12 Ordenação dos dados e respectivos postos Dados ordenados Amostra Posto Dados ordenados Amostra Posto Dados ordenados Amostra Posto 44 101a 1 54 106a 11 62 113a 20,5 45 101a 2 55 106a 12 63 113a 22 48 101a 3 56 101a 13 64 106a 23 49 101a 4 57 101a 14 65 106a 24,5 50 101a 5,5 58 106a 15 65 113a 24,5 50 106a 5,5 59 113a 16 66 106a 26 51 113a 7 60 101a 17,5 67 113a 27 52 101a 8,5 60 113a 17,5 69 113a 28 52 101a 8,5 61 113a 19 70 106a 29,5 53 106a 10 62 106a 20,5 70 113a 29,5 608 Parte 4 Mais inferências estatísticas A soma dos postos para cada amostra é: R1 = 1 + 2 + 3 + 4 + 5,5 + 8,5 + 8,5 + 13 + 14 + 17,5 = 77 R2 = 5,5 + 10 + 11 + 12 + 15 + 20,5 + 23 + 24,5 + 26 + 29,5 = 177 R3 = 7 + 16 + 17,5 + 19 + 20,5 + 22 + 24,5 + 27 + 28 + 29,5 = 211 Usando essas somas e os valores n1 = 10, n2 = 10, n3 = 10 e N = 30, a estatística de teste é: H = 12 30 30 + 1 772 10 + 1772 10 + 2112 10 – 3 30 + 1 ≈ 12.521. A Figura 11.4 mostra a localização da região de rejeição e a estatística de teste H. Como H está na região de rejeição, você rejeita a hipótese nula. 2 4 6 8 10 12 14 � 2 H � 12,521 � = 0,01 0 2� = 9,210 Figura 11.4 Distribuição qui-quadrado, região de rejeição e estatística de teste. Interpretação Há evidência suficiente, ao nível de significância de 1%, para aceitar a afirmação de que a distribuição do número de crimes denunciados em pelo menos uma delegacia é diferente das demais. TENTE VOCÊ MESMO 1 Você quer comparar os salários de veterinários que trabalham no Texas, na Flórida e em Ohio. Para compará-los, você seleciona aleatoriamente diversos veterinários em cada estado e registra seus salários. A Tabela 11.13 mostra os salários (em milhares de dólares). Com α = 0,05, você pode concluir que a distribuição dos salários dos vete- rinários em pelo menos um estado é diferente das demais? (Adaptado de U.S. Bureau of Labor Statistics.) Tabela 11.13 Salários de veterinários TX (Amostra 1) FL (Amostra 2) OH (Amostra 3) 104,3 152,4 107,9 183,3 144,6 80,9 119,7 129,4 123,0 111,3 85,5 141,7 109,6 124,0 149,4 180,6 113,5 155,4 77,4 90,1 55,9 91,5 101,1 109,8 145,2 112,0 127,1 123,6 Retratando o mundo As informações a seguir, coletadas aleatoriamente, foram usadas para comparar as temperaturas da água (em graus Fahrenheit) de cidades na fronteira com o Golfo do México. (Adaptado de National Oceanographic Data Center.) Cedar Key FL (Amostra 1) Eugene Island, LA (Amostra 2) Dauphin Island, AL (Amostra 3) 62 51 63 69 55 51 77 57 54 59 63 60 60 74 75 75 83 80 83 85 70 65 60 78 79 64 82 86 76 84 82 83 86 Com α = 0,05, você pode concluir que uma distribuição de temperatura é diferente das outras? Capítulo 11 Testes não paramétricos 609 Construindo habilidades básicas e vocabulário 1. Quais são as condições para usar um teste de Kruskal-Wallis? 2. Explique por que o teste de Kruskal-Wallis é sempre um teste unilateral à direita. Usando e interpretando conceitos Realizando um teste de Kruskal-Wallis Nos exercícios 3 a 6, (a) identifique a afirmação e declareH0 e Ha, (b) encontre o valor crítico e identifique a região de rejei- ção, (c) encontre a estatística de teste, (d) decida entre rejeitar ou não a hipótese nula e (e) interprete a decisão no contexto da afirmação original. 3. Pontuação no SAT A tabela a seguir mostra a pontuação para uma amostra alea- tória de estudantes na Penn State University, na Carnegie Mellon Universitye na Universidade de Pittsburgh. Para um nível de significância α = 0,05, você pode con- cluir que a distribuição das pontuação do SAT em pelo menos um estado é diferente das demais? (Adaptado de National Association of Insurance Commissioners.) Universidade Pontuação SAT composta Penn State 1290 1280 1220 1340 1290 1250 1190 Carnegie Mellon 1490 1520 1500 1540 1570 1460 1490 Pittsburgh 1260 1470 1250 1430 1280 1300 1340 4. Remuneração por hora Um pesquisador quer determinar se há diferença nas taxas de remuneração por hora para enfermeiras registradas em Indiana, Kentucky e Ohio. O pesquisador seleciona aleatoriamente diversas enfermeiras registradas em cada estado e anota a variação da remuneração por hora de cada uma. A tabela a seguir mostra os resultados. Com α = 0,10, o pesquisador pode concluir que a distri- buição das taxas de remuneração por hora das enfermeiras registradas em pelo me- nos um estado é diferente das demais? (Adaptado de U.S. Bureau of Labor Statistics.) Estado Taxa de remuneração por hora (em dólares) Indiana 27,46 29,53 29,74 34,78 27,77 39,72 36,26 Kentucky 33,12 31,52 37,35 28,54 31,85 43,96 30,00 Ohio 29,34 26,66 38,43 30,30 35,88 39,70 5. Custos de construção A tabela mostra o custo de construção por metro qua- drado de uma amostra aleatória de prédios comerciais de um andar em San Francisco, Chicago, Atlanta e Nova York. Com α = 0,10, você pode concluir que a distribuição dos custos de construção em pelo menos uma cidade é diferente das outras? (Adaptado de Cumming) Estado Salário anual (em milhares de dólares) Kentucky 412 378 418 337 338 401 299 Carolina do Norte 320 408 288 328 294 343 370 Carolina do Sul 260 174 243 271 228 259 255 West Virginia 452 291 350 391 441 395 357 11.3 EXERCÍCIOS 610 Parte 4 Mais inferências estatísticas 6. Teor de cafeína A tabela a seguir mostra as quantidades de cafeína (em miligra- mas) em porções de 16 onças para uma amostra aleatória de bebidas. Com α = 0,01, você pode concluir que a distribuição das quantidades de cafeína em pelo menos uma bebida é diferente das demais? (Adaptado de Center for Science in the Public Interest.) Bebida Quantidade de cafeína em porções de 16 onças (em miligramas) Cafés 320 300 206 150 266 Refrigerantes 95 96 56 51 71 72 47 Energéticos 200 141 160 152 154 166 Chás 100 106 42 15 32 10 Expandindo conceitos Comparando dois testes Nos exercícios 7 e 8: (a) realize um teste de Kruskal-Wallis. (b) realize um teste ANOVA com um fator, supondo que cada população é normalmen- te distribuída e as variâncias populacionais são iguais. Se for conveniente, use tecnologia. (c) compare os resultados. 7. Estadia de pacientes em hospitais Um agente de seguros afirma que o número de dias que pacientes passam no hospital é diferente em pelo menos uma região dos Estados Unidos. A tabela a seguir mostra o número de dias que pacientes selecio- nados aleatoriamente passaram no hospital em quatro regiões dos Estados Unidos. Para o nível de significância α = 0,01, você pode concordar com a afirmação do agente de seguros? (Adaptado de U.S. National Center for Health Statistics.) Região Número de dias Nordeste 8 6 6 3 5 11 3 8 1 6 Centro-Oeste 5 4 3 9 1 4 6 3 4 7 Sul 5 8 1 5 8 7 5 1 Oeste 2 3 6 6 5 4 3 6 5 8. Consumo de energia A tabela a seguir mostra a energia consumida (em milhões de Btus) em um ano para uma amostra aleatória de domicílios de quatro regiões dos Estados Unidos. Com α = 0,01, você pode concluir que a energia consumi- da é diferente em pelo menos uma região? (Adaptado de U.S. Energy Information Administration.) Região Energia consumida (em milhões de Btus) Nordeste 61 95 140 127 93 97 84 123 89 163 Centro-Oeste 59 158 169 140 95 187 95 123 123 104 88 37 72 Sul 86 35 67 86 142 69 65 62 Oeste 81 39 85 35 113 46 125 70 77 63 Capítulo 11 Testes não paramétricos 611 O coeficiente de correlação de postos de Spearman O coeficiente de correlação de postos de Spearman Na Seção 9.1 você aprendeu como medir a força da relação entre duas variáveis usando o coeficiente de correlação de Pearson r. Dois requisitos para o coeficiente de corre- lação de Pearson são que as variáveis sejam linearmente relacionadas e que tenham uma distribuição normal bivariada. Quando esses requisitos não podem ser satisfeitos, você pode examinar a relação entre duas variáveis usando o equivalente não paramétrico para o coeficiente de correlação de Pearson – o coeficiente de correlação de postos de Spearman. O coeficiente de correlação de postos de Spearman tem várias vantagens em relação ao coeficiente de correlação de Pearson. Por exemplo, o coeficiente de correlação de postos de Spearman pode ser usado para descrever a relação entre dados lineares e não lineares. Também pode ser usado para dados no nível ordinal. Sem o auxílio de “tecno- logia”, o coeficiente de Spearman é mais fácil de ser calculado. DEFINIÇÃO O coeficiente de correlação de postos de Spearman rs é uma medida da força da relação entre duas variáveis. O coeficiente de correlação de postos de Spearman é calculado usando-se os postos dos valores de amostras pareadas. Se não houver em- pates nos postos de ambas as variáveis, a fórmula para o coeficiente de correlação de postos de Spearman será: rs = 1 – 6 d 2 n n2 – 1 em que n é o número de pares de valores e d é a diferença entre os postos de cada par. Se houver poucos empates nos postos, em relação ao número de pares de dados, então a fórmula ainda poderá ser usada para aproximar rs. Os valores de rs variam de –1 a 1, inclusive. Quando os postos em cada par de dados correspondentes são exatamente idênticos, rs é igual a 1. Quando os postos estão em ordem “inversa”, rs é igual a –1. Quando os postos de pares de dados correspondentes não têm relação, rs é igual a 0. Após calcular o coeficiente de correlação de postos de Spearman, você pode ve- rificar se a correlação entre as variáveis é significativa. Pode fazer essa determinação realizando um teste de hipótese para o coeficiente de correlação da população ρs. As hi- póteses nula e alternativa para esse teste são as seguintes: H0: ρs = 0 (Não há correlação entre as variáveis.) Ha: ρs ≠ 0 (Há correlação significativa entre as variáveis.) A Tabela B.10 no Apêndice B lista os valores críticos para o coeficiente de corre- lação de postos de Spearman para níveis de significância e tamanhos de amostra sele- cionados. A estatística de teste para o teste de hipótese é o coeficiente de correlação de postos de Spearman rs. 11.4 Correlação de postos O que você deve aprender Como usar o coeficiente de correlação de postos de Spearman para determinar se a correlação entre duas variáveis é significativa. 612 Parte 4 Mais inferências estatísticas INSTRUÇÕES Testando a significância do coeficiente de correlação de postos de Spearman Em palavras Em símbolos 1. Identifique a afirmação. Declare Formule H0 e Ha. as hipóteses nula e alternativa. 2. Especifique o nível de significância. Identifique α. 3. Determine o valor crítico. Use a Tabela B.10 no Apêndice B. 4. Encontre a estatística de teste. rs = 1 – 6 d 2 n n2 – 1 5. Tome uma decisão para rejeitar Se |rs| é maior que o valor crítico, ou não rejeitar a hipótese nula. então rejeite H0. Caso contrário, não rejeite H0. 6. Interprete a decisão no contexto da afirmação original. EXEMPLO 1 Coeficiente de correlação de postos de Spearman A Tabela 11.14 mostra as matrículas de juniores e sêniores para uma amostra aleatória de 10 faculdades. Com α = 0,05, você pode concluir que há correlação significativa entre o número de homens e o número de mulheres matriculados em uma faculdade? Tabela 11.14 Números de homens e de mulheres matriculados em 10 faculdades Júnior Sênior 1.786 2.182 4.246 4.415 1.419 1.537 1.188 1.236 2.394 2.182 1.079 919 4.049 4.209 3.595 3.741 1.102 1.086 1.345 1.282 SOLUÇÃO A afirmação é “há uma correlação significativa entre o número de homens e o número de mulheres matriculados em uma faculdade”. As hipóteses