Baixe o app para aproveitar ainda mais
Prévia do material em texto
80 Unidade II Unidade II 5 TESTES DE HIPÓTESES Prezado aluno, considerado atualmente um dos principais assuntos da estatística, a inferência estatística é dividida em dois tópicos: a estimação de parâmetros, que você acabou de estudar, e os testes de hipóteses. Esses métodos estatísticos foram desenvolvidos com as primeiras técnicas de inferência, as quais faziam diversas hipóteses sobre a natureza da população da qual se extraíam os dados. Uma vez que os valores relacionados com a população são denominados parâmetros, essas técnicas estatísticas foram denominadas de paramétricas. Saiba mais O jornalista Santos (2003), da Folha.com, disponibilizou sites com índices econômicos, estatísticas e dados demográficos que podem ser utilizados em projetos de pesquisa. Acesse: <http://www1.folha.uol.com.br/folha/informatica/ult124u14297.shtml>. Observação No final deste livro-texto, você encontrará três anexos, referentes às tabelas, que os auxiliarão na resolução de exercícios dos seguintes conteúdos: distribuição normal padronizada (z); distribuição t (de student); distribuição qui-quadrado. Testes de hipóteses são, portanto, definidos como suposições feitas sobre os parâmetros de uma população em estudo. Essas hipóteses ou suposições podem ou não ser verdadeiras. Veja, a seguir, como elas são interpretadas: 5.1 Hipóteses nulas e alternativas a) Hipótese nula (Ho): é qualquer hipótese a ser testada, ou seja, a ser validada pelo teste. b) Hipótese alternativa (H1): é qualquer hipótese diferente da nula, complementar à Ho. 81 MATEMÁTICA INTEGRADA O teste tem por finalidade colocar a hipótese nula em contradição com a hipótese alternativa. Assim, o teste poderá aceitar ou rejeitar a hipótese nula. A hipótese alternativa (H1), que é contrária à (Ho), será aceita se a hipótese nula (Ho) for rejeitada. Vamos supor que a média populacional μ seja o parâmetro que você deseja testar. As hipóteses nula (Ho) e alternativa (H1) são geralmente representadas como a seguir: 1º Tipo a) Ho: μ = μo H1: μ ≠ μo Quando efetuamos esse teste, o gráfico será sempre como a seguir: bilateral, com duas regiões de rejeição ou regiões críticas. Os valores que delimitam as áreas de aceitação e rejeição de todos os gráficos nos testes de hipóteses são obtidos das tabelas correspondentes de cada estudo. RC RC RA Figura 22 - Gráfico de distribuição bilateral, com duas áreas de rejeição Sendo: RA a região de aceitação (da hipótese nula (Ho)) e RC é a região crítica ou região de rejeição. Essas regiões, de aceitação e rejeição, são delimitadas por um valor tabelado obtido da Tabela da distribuição normal (tabela 16) ou da Tabela da Distribuição t-Student (tabela 21), como veremos mais à frente. 2º Tipo b) Ho: μ ≤ μo H1: μ > μo 82 Unidade II RC RA Figura 23 - Gráfico de distribuição, com área de rejeição à direita 3º Tipo c) Ho: μ ≥ μo H1: μ < μo RC RA Figura 24 - Gráfico de distribuição, com área de rejeição à esquerda Observação Veja que, na hipótese nula (Ho), sempre temos uma igualdade (=) e na hipótese alternativa (H1), uma desigualdade (≤, ≥ ou ≠). As hipóteses testadas em a (1o tipo) envolvem um teste bilateral, enquanto em b e c (2o e 30 tipos), testes unilaterais. Isso é justificado pelo fato de que nas hipóteses testadas no 1o tipo há duas regiões de rejeição (os dois extremos do gráfico); portanto, será bilateral ou bicaudal. Por outro lado, nos 2o e 3o tipos só há uma região de rejeição; portanto, o teste será unilateral ou unicaudal. Lembrete Os valores tabelados que delimitam as regiões de aceitação e rejeição do gráfico são retirados das tabelas de distribuição normal ou t-Student, como já foi explicado anteriormente. 83 MATEMÁTICA INTEGRADA 5.2 Teste de hipótese para a média de uma população, amostra grande e pequena Para decidir o valor tabelado que será utilizado como fronteira entre as regiões de rejeição e aceitação, analise a tabela a seguir: Tabela 29 Tamanho da amostra Se a variância populacional (σ 2 ) Uso a distribuição GRANDE (n ≥ 30) conhecida Normal GRANDE (n ≥ 30) desconhecida Normal PEQUENA (n < 30) conhecida Normal PEQUENA (n < 30) desconhecida T de Student Importante! Observe que só se utiliza a distribuição t de Student quando as amostras são pequenas, ou seja, o número de elementos for inferior a 30 e a variância populacional for desconhecida. Caso a amostra seja grande (a partir de 30 elementos), não importará ser conhecida ou não a variância populacional, e será usada a tabela da distribuição normal para encontrar o valor Z. Portanto, na maior parte dos casos usaremos a distribuição normal, pois necessita que uma das condições seja atendida: amostra grande (n ≥ 30) ou variância populacional conhecida. Lembrete Por outro lado, para usar a distribuição t de Student, duas condições terão de acontecer ao mesmo tempo: amostra pequena (n < 30) e variância populacional desconhecida. Para procedermos ao teste, temos que conhecer o valor tabelado Z da distribuição normal ou de t da distribuição t de Student. Além dos valores tabelados, que irão delimitar as áreas de aceitação e rejeição, temos que encontrar os valores calculados (ZCALC ou tCALC) para efetuar o teste, que serão nossas estatísticas de testes. São esses valores que serão analisados se estão na área de aceitação ou de rejeição do gráfico, delimitados pelos valores tabelados, para aceitarmos ou não a hipótese a ser testada. 1. Se o desvio padrão populacional (σ) for conhecido, a estatística de teste será: Z x n calc ou, se a amostra for grande (n ≥ 30) e não soubermos o valor do desvio padrão populacional (σ), usaremos o desvio padrão amostral (S), e a estatística teste será: 84 Unidade II Z x s n calc 2. No caso de a amostra ser pequena (n < 30) e o desvio padrão populacional desconhecido, usaremos a Distribuição t de Student, e a estatística de teste será: t x s n calc Vamos supor que usaremos a distribuição normal padrão (Z): Para o teste bilateral: RC RC RA Figura 25 - Gráfico de distribuição bilateral, com duas áreas de rejeição Se: • Zcalc estiver na região RA (região de aceitação), ou seja, Se - Ztab < Zcalc <Ztab , aceita-se Ho. • Caso ZCALC < - ZTAB, ou ZTAB < ZCALC, rejeita-se Ho . a) Teste unilateral à direita RC RA Figura 26 - Gráfico de distribuição, com área de rejeição à direita 85 MATEMÁTICA INTEGRADA • Se ZCALC < ZTAB, aceita-se Ho. • Se ZTAB < ZCALC, rejeita-se Ho. b) Para quando o teste for unilateral à esquerda RC RA Figura 27 - Gráfico de distribuição, com área de rejeição à esquerda • Se - ZTAB < ZCALC, aceita-se Ho. • Se ZCALC < ZTAB, rejeita-se Ho. Observação Você usará o mesmo raciocínio para os casos em que se tratar de distribuição t-Student, com a diferença de que compararemos tcalc. com ttab., ao invés de ZCALC. com ZTAB. Para ajudá-lo(a) na análise da teoria, observe a resolução de exercícios de teste de hipóteses. Vamos aplicá-lo em alguns exemplos: 1o Estabelecer a hipótese Nula (H0) e a hipótese alternativa (H1) de acordo com o enunciado do problema. 2o Também de acordo com os dados do enunciado do problema, definir a distribuição que deve ser utilizada (distribuição normal ou t-Student). 3o Consulte a tabela normal padrão ou a tabela t-Student para encontrar o valor de ZTAB ou tTAB. 4o Desenhe a curva, plotando no eixo das abscissas o valor tabelado, que será o limite entre a área de aceitação (RA) e a(s) área(s) de rejeição (RC-Região Crítica). 5o Calcule a estatística de teste (ZCALC ou tCALC), utilizando uma das fórmulas dadas anteriormente. 6o Compare o valor calculado com o valor tabelado e conclua se deverá ser aceita ou rejeitada a hipótese nula. 86 Unidade II Observação Agora que você já tem um roteiro para seguir na execução dos testes de hipóteses, deverá ficar bem mais fácil a sua realização. Mas, antes de passarmos para os exemplos, vamos praticar um pouco o uso das tabelascom os principais níveis de significância (α) que geralmente são adotados, como listados a seguir. A) I Na Tabela da Distribuição Normal (Tabela 16) Para o teste bilateral: a) Se α = 1%, teremos α/2 = 0,5% = 0,005 (para cada lado da curva) e a área de aceitação será de 99% (0,99), sendo 0,495 à esquerda e 0,495 à direita do ponto máximo da curva. Lembrete A distribuição normal é simétrica! Consultando a tabela normal, temos 0,4949 para uma abscissa de 2,57 e 0,4951 para uma abscissa de 2,58. Logo, por interpolação, a abscissa correspondente à área de 0,495 será a média das duas abscissas, ou seja, 2,575. Para facilitar, adotaremos, no teste bilateral, quando α = 1%, ZTAB = 2,58. Vejamos o gráfico da curva normal: 0,005 -ZTAB = -2,58 +ZTAB = +2,58 0,005 Áreas de aceitação 0,495 0,495 Figura 28 - Gráfico de distribuição normal, com duas áreas de rejeição Nesse caso, Ho só será aceita caso o valor de ZCALC estiver entre -2,58 e 2,58. b) Se α = 5%, teremos α/2 = 2,5% = 0,025 (para cada lado) e a área de aceitação será de 95% (0,95), sendo 0,475 à esquerda e 0,475 à direita. Verificamos, na tabela normal, que uma área de 0,475 corresponde à abscissa 1,96. Logo, no teste bilateral, quando α = 5%, então Z TAB =1,96. Vejamos o gráfico da curva normal: 87 MATEMÁTICA INTEGRADA 0,025 -ZTAB = -1,96 +ZTAB = +1,96 0,025 Áreas de aceitação 0,475 0,475 Figura 29 - Gráfico de distribuição normal, com duas áreas de rejeição Aceitaremos H0 se: -1,96 < ZCALC < 1,96. c) O mesmo desenvolvimento será adotado para α = 10%, α/2 = 5% = 0,05 (para cada lado). Área de aceitação igual a 0,90, sendo 0,45 à esquerda e 0,45 à direita. Na Tabela Normal, uma área de 0,4495 corresponde à abscissa 1,64 e uma área de 0,4505 corresponde à abscissa de 1,65. Portanto, com precisão, a abscissa seria 1,645. Mas, para facilitar, vamos adotar no teste bilateral, quando α = 10%, ZTAB = 1,65. Vejamos o gráfico da curva normal: 0,05 -ZTAB = -1,65 +ZTAB = +1,65 0,05 Áreas de aceitação 0,45 0,45 Figura 30 - Gráfico de distribuição normal, com duas áreas de rejeição Aceitaremos H0 se: -1,65 < ZCALC < 1,65. Para o teste unilateral (vamos considerar apenas o teste à direita, sabendo que vale o mesmo raciocínio para o teste à esquerda, bastando inverter os lados). d) Se α = 1% (0,01), a área de aceitação será de 99% (0,99) à esquerda. Mas, até a metade da curva (lembre-se de que a distribuição normal é simétrica), temos 50% (0,5) de área. Logo, queremos a abscissa correspondente a uma área de 0,49. Consultando, na tabela normal, o valor mais próximo é de 0,4901, correspondente a uma abscissa de 2,33. Assim, no teste unilateral à direita, quando α = 1%, teremos ZTAB = 2,33, e no teste unilateral à esquerda para o mesmo α, - ZTAB = -2,33. Veja o gráfico da curva normal: 88 Unidade II +ZTAB = +2,33 0,01 Áreas de aceitação 0,50 0,49 Figura 31 - Gráfico de distribuição normal, com área de rejeição à direita e) Se α = 5% (0,05), teremos área de aceitação = 0,95 à esquerda. Consultaremos, na tabela normal, a área de 0,45 (0,95 - 0,50), que corresponde à abscissa de 1,65. Portanto, no teste unilateral à direita, quando α = 5%, então ZTAB = 1,65, e no teste unilateral à esquerda para o mesmo α, -ZTAB = -1,65. Vejamos o gráfico da curva normal: +ZTAB = +1,65 0,05 Áreas de aceitação 0,50 0,45 Figura 32 - Gráfico de distribuição normal, com área de rejeição à direita f) Se α = 10% (0,10), área de aceitação = 0,90 à esquerda. Na tabela normal, o valor mais próximo de 0,40 (0,90 – 0,50) é de 0,3997, que corresponde à abscissa de 1,28. Portanto, no teste unilateral à direita, para α = 10%, ZTAB = 1,28 e no teste unilateral à esquerda, -ZTAB = -1,28. Vendo o gráfico da curva normal: +ZTAB = +1,28 0,10 Áreas de aceitação 0,50 0,40 Figura 33 - Gráfico de distribuição normal, com área de rejeição à direita 89 MATEMÁTICA INTEGRADA B) II Tabela da distribuição t-Student (Tabela 20) Nesse teste, temos que utilizar dois parâmetros para a consulta da tabela t-Student: α (alfa), que é o nível de significância, e (g.l.), que é o número de graus de liberdade dado por: n (número de elementos da amostra) menos 1 unidade, ou seja: g.l. = n – 1. Temos que avaliar também o tipo de tabela, que pode ser: bilateral ou unilateral. Aqui, usaremos a tabela bilateral, como pode ser notado no desenho da curva na própria tabela. Assim, no teste bilateral, o α da tabela será o próprio α utilizado no teste. Mas, para o teste unilateral, teremos que procurar, nessa tabela, o dobro do α. a) Teste bilateral: suponha uma amostra de 25 elementos (n = 25). Portanto, g.l. = 25 – 1, g.l. = 24. Para um α = 5%, vemos na tabela que a célula interseção de α = 0,05 e g.l. = 24 nos fornece 2,064. Portanto: tTAB = 2,064 para α = 5% e n = 25. Tabela 30 - Tabel t (de Student) gl/P 0,90 0,80 0,70 0,60 0,50 0,40 0,30 0,20 0,10 0,05 0,02 0,01 0,001 01 0,158 0,325 0,510 0,727 1,000 1,376 1,963 3,078 6,314 12,706 31,821 63,657 636,619 02 0,142 0,289 0,445 0,617 0,816 1,061 1,386 1,886 2,920 4,303 6,965 9,925 31,598 03 0,137 0,277 0,424 0,584 0,765 0,978 1,250 1,638 2,353 3,182 4,541 5,541 12,924 04 0,134 0,271 0,414 0,569 0,741 0,941 1,190 1,533 2,132 2,776 3,747 4,604 8,610 05 0,132 0,267 0,408 0,559 0,727 0,920 1,156 1,476 2,015 2,571 3,365 4,032 6,869 20 0,127 0,257 0,391 0,533 0,687 0,860 1,064 1,325 1,725 2,086 2,528 2,845 3,850 21 0,127 0,257 0,391 0,532 0,686 0,859 1,063 1,323 1,721 2,080 2,518 2,831 3,819 22 0,127 0,256 0,390 0,532 0,686 0,858 1,061 1,321 1,717 2,074 2,508 2,819 3,792 23 0,127 0,256 0,390 0,532 0,685 0,858 1,060 1,319 1,714 2,069 2,500 2,807 3,767 24 0,127 0,256 0,390 0,531 0,685 0,857 1,059 1,318 1,711 2,064 2,492 2,797 3,745 25 0,127 0,256 0,390 0,531 0,684 0,856 1,058 1,316 1,708 2,060 2,485 2,787 3,726 26 0,127 0,256 0,390 0,531 0,684 0,856 1,058 1,315 1,706 2,056 2,479 2,779 3,707 27 0,127 0,256 0,389 0,531 0,684 0,856 1,057 1,314 1,703 2,052 2,473 2,771 3,690 Observe o gráfico: 0,025 0,025 2,064 Figura 34 - Gráfico de distribuição t de Student, teste bilateral 90 Unidade II Observe que para um teste unilateral com o mesmo tamanho de amostra e o mesmo α: não será possível obter diretamente a interseção de α = 0,05 com g.l.= 24, pois o valor fornecido é para um teste bilateral. Nesse caso, busca-se a interseção de g.l. = 24 com α = 0,10. Lembrete Não se esqueça de que, na tabela (bilateral), α = 0,05 corresponde a 0,025 de cada lado. Por essa razão, será adotado α = 0,10, que corresponderá a 0,05 de cada lado. Assim, a célula interseção de α = 0,10 com g.l.= 24 fornecerá tTAB = 1,711. Veja o gráfico: 0,05 1,711 Figura 35 - Gráfico de distribuição t de Student, teste unilateral Exemplo de aplicação Exercícios resolvidos de teste para a média populacional utilizando a distribuição normal 1. A nota média em um curso de graduação era da ordem de 61 pontos. Atualmente existem monitores à disposição dos alunos para orientação nas disciplinas de maior dificuldade. Deseja-se saber se a nota média do curso aumentou após a introdução da monitoria. Para isso, selecionaram-se 40 alunos do curso atual, e a média de notas encontradas foi de 66 pontos, com um desvio padrão de 3 pontos. Ao nível de significância de 5%, pode-se concluir que a nota média aumentou? Solução: Dados: μ = 61 pontos N = 40 x = 66 pontos S = 3 pontos α = 5% 91 MATEMÁTICA INTEGRADA Primeiramente, você deverá calcular a estatística de teste: Cálculo da estatística de teste Z x s n Z Z Z Z calc calc calc calc calc 66 61 3 40 5 3 6 32 5 0 47 10 6 , , , 44 → estatística de teste Após o cálculo da estatística teste, devemos formular as hipóteses a serem testadas: Ho: μ = 61 pontos H1: μ ≠ 61 pontos Valores tabelados: serão obtidos a partir da tabela de distribuição normal (Tabela 16), com α = 5% e teste bilateral (bicaudal). 0 - zc = -1,96 + zc = 1,96 1 α = 95% 1 2 95 2 47 5 0 475 , % , 1 295 2 47 5 0 475 , % , Figura 36 - Diagrama de distribuição Normal, para nível de significância de 5% (ou seja, confiança de 90%) 92 Unidade II Tabela 31 z .00 .01 .02 .03 .04 .05 .06 .07 .08 .09 0.0 0.0000 0.0040 0.0080 0.0120 0.0160 0.0199 0.0239 0.0279 0.0319 0.0359 0.1 0.0398 0.0438 0.0478 0.0517 0.0557 0.0596 0.0636 0.0675 0.0714 0.0753 0.2 0.0793 0.0832 0.0871 0.0910 0.0948 0.0987 0.1026 0.1064 0.1103 0.1141 0.3 0.1179 0.1217 0.1255 0.1293 0.1331 0.1368 0.1406 0.1443 0.1480 0.1517 0.4 0.1554 0.1591 0.1628 0.1664 0.1700 0.1736 0.1772 0.1808 0.1844 0.1879 0.5 0.1915 0.1950 0.1985 0.2019 0.2054 0.2088 0.2123 0.2157 0.2190 0.2224 0.6 0.2257 0.2291 0.2324 0.2357 0.2389 0.2422 0.2454 0.2486 0.2517 0.2549 0.7 0.2580 0.2611 0.2642 0.2673 0.2704 0.2734 0.2764 0.2794 0.2823 0.2852 0.8 0.2881 0.2910 0.2939 0.2967 0.2995 0.3023 0.3051 0.3078 0.3106 0.3133 0.9 0.3159 0.3186 0.3212 0.3238 0.3264 0.3289 0.3315 0.3340 0.3365 0.3389 1.0 0.3413 0.3438 0.3461 0.3485 0.3508 0.3531 0.3554 0.3577 0.3599 0.3621 1.1 0.3643 0.3665 0.3686 0.3708 0.3729 0.3749 0.3770 0.3790 0.3810 0.3830 1.2 0.3849 0.3869 0.3888 0.3907 0.3925 0.3944 0.3962 0.3980 0.3997 0.4015 1.3 0.4032 0.4049 0.4066 0.4082 0.4099 0.4115 0.4131 0.4147 0.4162 0.4177 1.4 0.4192 0.4207 0.4222 0.4236 0.4251 0.4265 0.4279 0.4292 0.4306 0.4319 1.5 0.4332 0.4345 0.4357 0.4370 0.4382 0.4394 0.4406 0.4418 0.4429 0.4441 1.6 0.4452 0.4463 0.4474 0.4484 0.4495 0.4505 0.4515 0.4525 0.4535 0.4545 1.7 0.4554 0.4564 0.4573 0.4582 0.4591 0.4599 0.4608 0.4616 0.4625 0.4633 1.8 0.4641 0.4649 0.4656 0.4664 0.4671 0.4678 0.4686 0.4693 0.4699 0.4706 1.9 0.4713 0.4719 0.4726 0.4732 0.4738 0.4744 0.4750 0.4756 0.4761 0.4767 2.0 0.4772 0.4778 0.4783 0.4788 0.4793 0.4798 0.4803 0.4808 0.4812 0.4817 2.1 0.4821 0.4826 0.4830 0.4834 0.4838 0.4842 0.4846 0.4850 0.4854 0.4857 2.2 0.4861 0.4864 0.4868 0.4871 0.4875 0.4878 0.4881 0.4884 0.4887 0.4890 Procure no corpo da tabela o valor 0,4750, siga a linha e a coluna correspondente e obterá: Ztab 196, R R Área de aceitação - zTAB = -1,96 + zTAB = +1,96 Figura 37- Distribuição normal, para nível de significância de 5% (teste bilateral) 93 MATEMÁTICA INTEGRADA As regiões abaixo de -1,96 e acima de +1,96 são de rejeição e a região entre -1,96 e +1,96 é de aceitação. Como Zcalc = 10,64 está acima de + 1,96, está na área de rejeição, portanto rejeita-se Ho. Deve-se efetuar, portanto, um novo teste: Ho: μ = 61 pontos H1: μ ≥ 61 pontos Valor tabelado: será obtido a partir da tabela de distribuição normal, com α = 5% e teste unilateral (unicaudal). Lembrete: utilize o valor de α dobrado, ou seja: α = 10%. 0 - ztab = -1,645 1 - α = 90% 1 2 90 2 45 0 45 % , Figura 38 - Diagrama de distribuição normal, para nível de significância de 5% (ou seja, confiança de 90%) Tabela 32 z .00 .01 .02 .03 .04 .05 .06 .07 .08 .09 0.0 0.0000 0.0040 0.0080 0.0120 0.0160 0.0199 0.0239 0.0279 0.0319 0.0359 0.1 0.0398 0.0438 0.0478 0.0517 0.0557 0.0596 0.0636 0.0675 0.0714 0.0753 0.2 0.0793 0.0832 0.0871 0.0910 0.0948 0.0987 0.1026 0.1064 0.1103 0.1141 0.3 0.1179 0.1217 0.1255 0.1293 0.1331 0.1368 0.1406 0.1443 0.1480 0.1517 1.3 0.4032 0.4049 0.4066 0.4082 0.4099 0.4115 0.4131 0.4147 0.4162 0.4177 1.4 0.4192 0.4207 0.4222 0.4236 0.4251 0.4265 0.4279 0.4292 0.4306 0.4319 1.5 0.4332 0.4345 0.4357 0.4370 0.4382 0.4394 0.4406 0.4418 0.4429 0.4441 1.6 0.4452 0.4463 0.4474 0.4484 0.4495 0.4505 0.4515 0.4525 0.4535 0.4545 1.7 0.4554 0.4564 0.4573 0.4582 0.4591 0.4599 0.4608 0.4616 0.4625 0.4633 1.8 0.4641 0.4649 0.4656 0.4664 0.4671 0.4678 0.4686 0.4693 0.4699 0.4706 94 Unidade II Lembrete Procure, no corpo da tabela, o valor 0,450, siga a linha e a coluna correspondente para valores de z aproximados. No entanto, se for o caso de um cálculo mais rigoroso, é necessário estabelecer a média aritmética em relação aos valores encontrados para Z em torno de 0,450. ztab 164 165 2 1645 , , , No entanto, na situação de exercício, vamos utilizar: Z ou tab 165 165 , , Como a região de aceitação está à direita, utilizaremos o valor positivo de ZTAB = +1,65. R Área de aceitação - zTAB = -1,65 Figura 39 - Diagrama de distribuição normal, teste unilateral para nível de significância de 5% Uma vez que Zcalc = 10,64, está, portanto, na região de aceitação, aceita-se H1, então: H1: μ = > 61 pontos. Como μ = 61 pontos, já havia sido rejeitado no primeiro teste, então o que está sendo aceito agora é só μ > 61 pontos. Resposta: Como a hipótese aceita é de μ > 61 pontos, ao nível de significância de 5%, pode-se concluir que a nota média aumentou. 95 MATEMÁTICA INTEGRADA 2. O peso médio de embalagens de suco de uva em uma linha de produção está sendo investigado. O padrão prevê um conteúdo médio de 1000 ml por embalagem. Sabe-se que o desvio padrão é de 10 ml e que a variável tem distribuição normal. Ao nível de 1% de significância com 4 unidades amostrais, e sendo o conteúdo médio da embalagem de 1012 ml, o que se pode concluir quanto ao padrão estar sendo respeitado? Solução: Dados: μ = 1000 ml σ = 10 ml N = 4 x = 1012 ml α = 1% Cálculo da estatística de teste Z x n Z Z Z Z calc calc calc calc calc 1012 1000 10 4 12 10 2 12 5 2 4, → estatística teste Após o cálculo da estatística teste, devemos formular as hipóteses a serem testadas: Ho: μ = 1000 ml H1: μ ≠ 1000 ml Valores tabelados: serão obtidos a partir da tabela de distribuição normal, com α = 1% e teste bilateral (bicaudal) → Ztab = ± 2,58 96 Unidade II Lembrete O procedimento é similar ao do exercício anterior. Caso você tenha dúvidas, retome a unidade I. R R Área de aceitação - zTAB = -2,58 + zTAB = +2,58 Figura 40 - Diagrama de distribuição normal, teste bilateral para nível de significância de 1% As regiões abaixo de -2,58 e acima de +2,58 são de rejeição e a região entre -2,58 e +2,58 é de aceitação. Como Zcalc = 2,4 está entre –2,58 e +2,58, considerada região de aceitação, aceita-se Ho: μ = 1000 ml. Resposta: Uma vez que o padrão prevê um conteúdo médio de 1000 ml por embalagem, ao nível de 1%, podemos aceitar que o padrão está sendo respeitado. 3. A média de ganho de peso de crianças amamentadas com leite materno é de 25 g, com um desvio padrão de 5 g durante certo período observado nos primeiros meses de vida. Para uma amostra de 35 crianças observadas durante o mesmo período, alimentadas com leite de vaca, observou-se um ganho de peso médio de 30 g. Podemos afirmar, ao nível de 1%, que a amamentação com leite materno contribui mais para o ganho de peso nos primeiros meses de vida? Solução: Dados: μ = 25 g σ = 5 g N = 35 x = 30 α = 1% 97 MATEMÁTICA INTEGRADA Cálculo da estatística teste Z x n Z Z Z Z calc calc calc calc calc 30 25 5 35 5 5 5 92 5 0 84 5 95 , , , → estatística de teste Após o cálculo da estatística de teste, devemos formular as hipóteses a serem testadas: Ho: μ = 30 g H1: μ ≠ 30 g Valores tabelados: serão obtidos a partir da tabela de distribuição normal (Tabela 16). Lembrete O procedimento é similar ao dos exercícios anteriores. Caso você tenha dúvidas, retome a unidade I. Com α = 1% e teste bilateral (bicaudal) → Ztab = + 2,58 R R Área de aceitação - zTAB = -2,58 + zTAB = +2,58 Figura 41 - Diagrama de distribuição normal, teste bilateral para nível de significância de 1% 98 Unidade II As regiões abaixo de -2,58 e acima de +2,58 são de rejeição e a região entre - 2,58 e + 2,58 é de aceitação. Como Zcalc = 5,95 está acima de +2,58, ou seja, está na área de rejeição, rejeita-se Ho. Deve-se efetuar, portanto, um novo teste: Ho: μ = 30 g H1: μ ≥ 30 g Valor tabelado: será obtido a partir da tabela de distribuição normal (Tabela 16). com α = 1% e teste unilateral (unicaudal). Lembrete Como o teste unilateral só foi utilizado uma vez neste estudo, o cálculo de z tabeladoserá feito de forma mais detalhada. Assim, não se esqueça de utilizar o valor de α dobrado: α = 2%. 0 - ztab = -2,33 1 - α = 98% 1 2 98 2 49 0 49 % , Figura 42 - Diagrama de distribuição normal, para nível de significância de 1%, Teste Unilateral Tabela 33 z .00 .01 .02 .03 .04 .05 .06 .07 .08 .09 0.0 0.0000 0.0040 0.0080 0.0120 0.0160 0.0199 0.0239 0.0279 0.0319 0.0359 0.1 0.0398 0.0438 0.0478 0.0517 0.0557 0.0596 0.0636 0.0675 0.0714 0.0753 0.2 0.0793 0.0832 0.0871 0.0910 0.0948 0.0987 0.1026 0.1064 0.1103 0.1141 0.3 0.1179 0.1217 0.1255 0.1293 0.1331 0.1368 0.1406 0.1443 0.1480 0.1517 0.4 0.1554 0.1591 0.1628 0.1664 0.1700 0.1736 0.1772 0.1808 0.1844 0.1879 0.5 0.1915 0.1950 0.1985 0.2019 0.2054 0.2088 0.2123 0.2157 0.2190 0.2224 0.6 0.2257 0.2291 0.2324 0.2357 0.2389 0.2422 0.2454 0.2486 0.2517 0.2549 99 MATEMÁTICA INTEGRADA 0.7 0.2580 0.2611 0.2642 0.2673 0.2704 0.2734 0.2764 0.2794 0.2823 0.2852 0.8 0.2881 0.2910 0.2939 0.2967 0.2995 0.3023 0.3051 0.3078 0.3106 0.3133 0.9 0.3159 0.3186 0.3212 0.3238 0.3264 0.3289 0.3315 0.3340 0.3365 0.3389 1.0 0.3413 0.3438 0.3461 0.3485 0.3508 0.3531 0.3554 0.3577 0.3599 0.3621 1.1 0.3643 0.3665 0.3686 0.3708 0.3729 0.3749 0.3770 0.3790 0.3810 0.3830 1.2 0.3849 0.3869 0.3888 0.3907 0.3925 0.3944 0.3962 0.3980 0.3997 0.4015 1.3 0.4032 0.4049 0.4066 0.4082 0.4099 0.4115 0.4131 0.4147 0.4162 0.4177 1.4 0.4192 0.4207 0.4222 0.4236 0.4251 0.4265 0.4279 0.4292 0.4306 0.4319 1.5 0.4332 0.4345 0.4357 0.4370 0.4382 0.4394 0.4406 0.4418 0.4429 0.4441 1.6 0.4452 0.4463 0.4474 0.4484 0.4495 0.4505 0.4515 0.4525 0.4535 0.4545 1.7 0.4554 0.4564 0.4573 0.4582 0.4591 0.4599 0.4608 0.4616 0.4625 0.4633 1.8 0.4641 0.4649 0.4656 0.4664 0.4671 0.4678 0.4686 0.4693 0.4699 0.4706 1.9 0.4713 0.4719 0.4726 0.4732 0.4738 0.4744 0.4750 0.4756 0.4761 0.4767 2.0 0.4772 0.4778 0.4783 0.4788 0.4793 0.4798 0.4803 0.4808 0.4812 0.4817 2.1 0.4821 0.4826 0.4830 0.4834 0.4838 0.4842 0.4846 0.4850 0.4854 0.4857 2.2 0.4861 0.4864 0.4868 0.4871 0.4875 0.4878 0.4881 0.4884 0.4887 0.4890 2.3 0.4893 0.4896 0.4898 0.4901 0.4904 0.4906 0.4909 0.4911 0.4913 0.4916 2.4 0.4918 0.4920 0.4922 0.4925 0.4927 0.4929 0.4931 0.4932 0.4934 0.4936 2.5 0.4938 0.4940 0.4941 0.4943 0.4945 0.4946 0.4948 0.4949 0.4951 0.4952 Lembrete Procure no corpo da tabela o valor 0,490, siga a linha e a coluna correspondente para valores de z aproximados. No entanto, na situação de exercício, vamos utilizar: Z ou tab 2 33 2 33 , , Como a região de aceitação está à direita e a de rejeição à esquerda, utilizaremos o valor negativo de Ztab = - 2,33. R Área de aceitação - zTAB = -2,33 Figura 43 - Diagrama de distribuição normal, teste unilateral para nível de significância de 1% 100 Unidade II Uma vez que Zcalc = 5,95 está na região de aceitação, pois é maior que 2,33, rejeita-se H1. Então, a hipótese a ser aceita seria o 2o tipo, ou seja, H: μ > 30 g. Hipótese aceita: H1: μ > 30 g. Como μ = 30 gramas, já havia sido rejeitada no primeiro teste, então o que está sendo aceito agora é só μ > 30 g. Resposta: Como a hipótese aceita é de μ > 30 g, ao nível de significância de 1%, pode-se concluir que o ganho de peso com o leite de vaca é inferior nesse período, sendo superior o ganho de peso com leite materno. 4. Para verificar a eficácia de uma nova droga contra determinada doença, foram injetadas doses em 15 ratos, e a média de ratos que adoeceram foi igual a 20, com desvio padrão de 6. Com a droga antiga, a média de ratos doentes era em torno de 23. Podemos afirmar ao nível de 1% que a nova droga trouxe resultados melhores na prevenção da doença? Solução: Dados: μ =23 ratos N = 15 x = 20 ratos S = 6 pontos α = 1% Observação: Como se trata de amostra pequena (N < 30) e desvio padrão populacional (σ) desconhecido, deve-se aplicar o teste t de Student para a média populacional. Cálculo da estatística de teste: t x s n t t calc calc calc � � � � � � � 20 23 6 15 3 6 15 101 MATEMÁTICA INTEGRADA t t t calc calc calc � � � � � � 3 6 3 87 3 155 194 , , , Após o cálculo da estatística teste, devemos formular as hipóteses a serem testadas: Ho: μ = 23 ratos doentes H1: μ ≠ 23 ratos doentes Valores tabelados: serão obtidos a partir da tabela de distribuição t de Student (Tabela 20), com α = 1%, teste bilateral (bicaudal) e g.l. = N -1 = 15 – 1 = 14. Tabela 34 gl/P 0,90 0,80 0,70 0,60 0,50 0,40 0,30 0,20 0,10 0,05 0,02 0,01 0,001 01 0,158 0,325 0,510 0,727 1,000 1,376 1,963 3,078 6,314 12,706 31,821 63,657 636,619 02 0,142 0,289 0,445 0,617 0,816 1,061 1,386 1,886 2,920 4,303 6,965 9,925 31,598 03 0,137 0,277 0,424 0,584 0,765 0,978 1,250 1,638 2,353 3,182 4,541 5,541 12,924 04 0,134 0,271 0,414 0,569 0,741 0,941 1,190 1,533 2,132 2,776 3,747 4,604 8,610 05 0,132 0,267 0,408 0,559 0,727 0,920 1,156 1,476 2,015 2,571 3,365 4,032 6,869 06 0,131 0,265 0,404 0,553 0,718 0,906 1,134 1,440 1,943 2,447 3,143 3,707 5,959 07 0,130 0,263 0,402 0,549 0,711 0,896 1,119 1,415 1,895 2,365 2,365 3,499 5,408 08 0,130 0,262 0,399 0,546 0,706 0,889 1,108 1,397 1,860 2,306 2,896 3,355 5,041 09 0,129 0,261 0,398 0,543 0,703 0,883 1,100 1,383 1,833 2,262 2,821 3,250 4,781 10 0,129 0,260 0,397 0,542 0,700 0,879 1,093 1,372 1,812 2,228 2,764 3,169 4,587 11 0,129 0,260 0,396 0,540 0,697 0,876 1,088 1,363 1,796 2,201 2,718 3,106 4,437 12 0,128 0,259 0,395 0,539 0,695 0,873 1,083 1,356 1,782 2,179 2,681 3,055 4,318 13 0,128 0,259 0,394 0,538 0,694 0,870 1,079 1,350 1,771 2,160 2,650 3,012 4,221 14 0,128 0,258 0,393 0,537 0,692 0,868 1,076 1,345 1,761 2,145 2,624 2,977 4,140 15 0,128 0,258 0,393 0,536 0,691 0,866 1,074 1,341 1,753 2,131 2,602 2,947 4,073 Utilizando a linha de graus de liberdade 14 e a coluna referente a 1%, obtém-se ttab = 2,977. 102 Unidade II 0 - ttab = -2,977 + ttab = 2,977 99% g(t) 2 1 2 0 5 0 005 , % , 2 1 2 0 5 0 005 , % , Figura 44 - Diagrama de distribuição t de Student ttab = + 2,977 ttab = -2,977 RCRC ttab = -2,977 ttab = 2,977 RA Figura 45 - Diagrama de distribuição, teste bilateral Resposta: Como a estatística de teste (tcalc = 1,94) está na região de aceitação do gráfico, aceita-se: Ho: μ = 23 ratos doentes, o que significa que a média de ratos doentes não se modificou; logo, a droga não trouxe resultados melhores na prevenção da doença. Conclusão A droga não foi eficiente. 5. O tempo médio, por operário, para executar uma tarefa tem sido 100 minutos, com um desvio padrão de 15 minutos. Introduziu-se uma modificação para diminuir esse tempo e, após certo período, sorteou-se uma amostra de 16 operários, medindo-se o tempo de execução de cada um. O tempo médio da amostra foi de 85 minutos. Esses resultados trazem evidências estatísticas da melhora desejada ao nível de 5%? 103 MATEMÁTICA INTEGRADA Solução: Dados: μ = 100 minutos N = 16 x = 85 minutos σ = 15 minutos α = 5% Primeiramente, deveremos calcular a estatística de teste: Cálculo da estatística de teste Z x n Z Z Z Z calc calc calc calc calc 85 100 15 16 15 15 4 15 3 75, 4 estatística de teste Após o cálculo da estatística teste, devemos formular as hipóteses a serem testadas: Ho: μ = 100 minutos H1: μ ≠ 100 minutos Valores tabelados: serão obtidos a partir da tabela de distribuição normal (Tabela 16), com α = 5% = 5% e teste bilateral (bicaudal) → Ztab = + 1,96 104 Unidade II Lembrete O procedimento é similar ao dos exercícios anteriores. Caso você tenha dúvidas, retome a unidade I. R R Área de aceitação - zTAB = -1,96 + zTAB = +1,96 Figura 46 - Diagrama de distribuição, teste bilateral As regiões abaixo de -1,96 e acima de +1,96 são de rejeição, e a região entre -1,96 e +1,96 é de aceitação. Como Zcalc = -4 está abaixo de - 1,96, está na área de rejeição; portanto, rejeita-se Ho. Deve-se efetuar, portanto, um novo teste: Ho: μ = 100 minutos H1: μ ≥ 100 minutos Valortabelado: será obtido a partir da tabela de distribuição normal, com α = 5% e teste unilateral (unicaudal). Lembrete O procedimento é similar ao dos exercícios anteriores. Caso você tenha dúvidas, retome a unidade I. Como a região de aceitação está à direita, utilizaremos o valor positivo de Ztab = + 1,65. R Área de aceitação - zTAB = -1,65 Figura 47 - Diagrama de distribuição, teste bilateral 105 MATEMÁTICA INTEGRADA Uma vez que Zcalc = -4, está, portanto, na região de rejeição, rejeita-se H1, então: H1: μ ≤ 100 minutos. Como μ = 100 minutos, já havia sido rejeitado no primeiro teste; então, o que está sendo aceito agora é só μ < 100 minutos. Resposta: Como a hipótese aceita é de μ < 100 minutos, ao nível de significância de 5%, pode-se concluir que esses resultados trazem evidências estatísticas da melhora desejada, ao nível de 5%. 5.3 Teste de hipóteses para a média de duas populações O procedimento associado com o teste da diferença entre duas médias é similar ao utilizado no teste de um valor hipotético da média populacional, exceto que se utiliza o erro padrão da diferença entre médias como base para determinar o valor da estatística de teste associada com os resultados das amostras. A hipótese nula H0 usualmente testada é a de que as duas amostras tenham sido obtidas de populações com médias iguais, ou seja, (μ1 - μ2) = 0. A hipótese alternativa H1, chamada hipótese alternativa, é uma hipótese que só será considerada verdadeira no caso de H0 ser considerada falsa. O teste Z de duas amostras para verificar a diferença entre duas médias populacionais Para a realização desse teste, três condições devem ser satisfeitas: 1) as amostras devem ser selecionadas de forma aleatória; 2) essas amostras devem ser independentes; 3) cada amostra deve ter um tamanho maior ou igual a 30. Se isso não ocorrer, cada população estudada deve apresentar distribuição normal e desvio padrão conhecido. Caso essas condições não sejam satisfeitas, a distribuição amostral para a diferença entre as médias amostrais ( x x1 2− ) é uma distribuição normal com média e desvio padrão de: x x x x x x x x e n _ _ _ _ ( ) 1 2 1 2 1 2 1 2 2 1 2 2 2 1 2 1 11 2 1 2 2 1 2 2 2 1 2 1 2 2 1 2 n n nx x x x ( ) ( ) 106 Unidade II Observação A variância da distribuição amostral ( )x x1 2 2 é a soma das variâncias individuais das amostras para e χ χ1 2e . Lembrete Sendo a distribuição amostral para χ χ1 2e normal, você poderá utilizar o teste z para testar as diferenças entre duas médias populacionais μ1 e μ2. Nesse caso, a estatística de teste padronizada fica: z = (diferença observada) - (diferença formulada por hipótese) erro padrão Teste z de duas amostras para verificar a diferença entre médias populacionais Quando se trata de amostras independentes ou de uma amostra grande (maior ou igual a 30), o teste z de duas amostras poderá ser utilizado para testar a diferença entre duas médias populacionais. Nesse caso, a estatística teste será: 1 2 e a estatística padronizada será: z x x n n 1 2 1 2 1 2 1 2 2 2 Observação 1) Caso as amostras sejam grandes, poderá ser usado S1 e S2 em vez de σ1 e σ2. 2) Caso as amostras não sejam grandes, ainda poderá ser usado um teste z de duas amostras, desde que os desvios padrões sejam conhecidos e as populações estejam normalmente distribuídas. Procedimento para a realização do teste 1) Especifique as hipóteses nula (Ho) e alternativa (H1). 107 MATEMÁTICA INTEGRADA 2) Especifique o nível de significância (α). 3) Faça o esboço da distribuição amostral, obtendo os valores críticos a partir da tabela de distribuição normal (Tabela 16). 4) Determine quais são as regiões de rejeição a partir desses valores tabelados. 5) Calcule a estatística de teste padronizada. z x x n n 1 2 1 2 1 2 1 2 2 2 6) Decida se a hipótese nula (Ho) deverá ser ou não rejeitada. Essa decisão será tomada da seguinte maneira: caso z esteja na região de rejeição delimitada pelos valores tabelados, rejeite Ho. Caso contrário, não deverá rejeitar Ho. 7) Decisão de acordo com o contexto. Exemplo de aplicação 1) Num posto agrícola desejou-se testar o efeito de um fertilizante na produção de certo grão. Para isso, foram escolhidos 220 alqueires de terreno, 110 foram tratados com fertilizante e 110 sem o fertilizante (grupo controle). Todas as outras condições foram mantidas. A produção média na área com fertilizante foi de 8,5 sacas, com desvio padrão de 0,50, enquanto na área sem o fertilizante a média foi de 7,9, com desvio padrão de 0,80. Pode-se concluir que há aumento significativo na média de produção com o uso do fertilizante ao nível de 5%? Solução: Dados: n1 = 110 n2 = 110 x1 = 8,5 sacas x2 = 7,9 sacas S1 = 0,50 saca S2 = 0,80 saca α = 5% Você deseja testar se existe realmente uma diferença significativa na média de produção quando se utiliza o fertilizante e quando não. Logo, as hipóteses nula (Ho) e alternativa (H1) são: 108 Unidade II Ho: μ1 = μ2 H1: μ1 ≠ μ2 Os valores críticos que irão delimitar as áreas de aceitação e rejeição serão obtidos na tabela do Tabela 16, com as seguintes informações: teste bicaudal e nível de significância 5%. Os valores críticos são – 1,96 e + 1,96, ou seja, as regiões de rejeição serão z < - 1,96 e z > 1,96. Lembrete Caso você tenha dúvida na obtenção desses valores, retome a Unidade I. Como as amostras são grandes (n = 110 para as duas situações), você poderá usar S1 e S2 para calcular o erro padrão. R R ÁREA DE ACEITAÇÃO - zTAB = -1,96 + zTAB = +1,96 Figura 48 - Diagrama de distribuição Normal ( ) ( ) ( ) , x x x x x x s n s n1 2 1 2 1 2 2 2 1 2 2 1 2 110 0 80 110 0,50 0,0 2 002 0,006 0,00 ( ) ( ) , x x x x 1 2 1 2 8 0 09 109 MATEMÁTICA INTEGRADA Utilizando o teste Z, a estatística teste padronizada é: z x x z z z x x 1 2 1 2 1 2 8 5 7 9 0 0 09 0 6 0 09 6 67 , , , , , , O gráfico anterior mostra as regiões de rejeição e aceitação delimitadas pelos valores críticos encontrados na tabela do Tabela 16. Como z = 6,67 está na região de rejeição, está acima de 1,96; então, devemos rejeitar a hipótese nula. Portanto, ao nível de 5%, existe uma diferença significativa na média de produção com o uso do fertilizante. 2. Duas pesquisas independentes sobre salários de operadores de produtos químicos perigosos em duas regiões revelaram para a área A uma média de R$10,50/h e desvio padrão de R$2,50/h, e para a área B uma média de R$11,00/h e desvio padrão de R$1,00/h. A amostra foi de 100 operadores para ambos os casos. Pode-se concluir ao nível de 1% que os salários médios sejam iguais nas duas regiões? As hipóteses nula (Ho) e alternativa (H1) são: Ho: μ1 = μ2 H1: μ1 ≠ μ2 Os valores críticos que irão delimitar as áreas de aceitação e rejeição serão obtidos na tabela do Tabela 16, com as seguintes informações: teste bicaudal e nível de significância 1%. Os valores críticos são – 2,58 e + 2,58, ou seja, as regiões de rejeição serão z < - 2,58 e z > 2,58. Lembrete Caso você tenha dúvida na obtenção desses valores, retome a unidade I. Como as amostras são grandes (n = 100 para as duas situações), você poderá usar S1 e S2 para calcular o erro padrão. 110 Unidade II R R Área de aceitação - zTAB = -2,58 + zTAB = +2,58 Figura 49 - Diagrama de distribuição normal ( ) ( ) ( ) , , x x x x x x s n s n1 2 1 2 1 2 2 2 1 2 2 2 1 2 2 50 100 1 100 6 25 10 00 1 100 0 0625 0 01 0 0725 0 27 1 2 1 2 1 2 ( ) ( ) ( ) , , , , x x x x x x Utilizando o teste Z, a estatística teste padronizada é:z x x z z z x x 1 2 1 2 1 2 10 50 11 00 0 0 27 0 5 0 27 , , , , , 185, O gráfico anterior mostra as regiões de rejeição e aceitação delimitadas pelos valores críticos encontrados na tabela do Tabela 16. Como z = -1,85 está na região de aceitação, está acima de -2,58; então, não é possível rejeitar a hipótese nula. Portanto, a um nível de 1%, não existe evidência suficiente para confirmar a existência de uma diferença significativa entre as médias de salários. Pode-se, então, concluir que os salários médios são iguais nas duas regiões. 111 MATEMÁTICA INTEGRADA 3. Duas preparações diferentes (A e B) para um mesmo suco foram desenvolvidas e deseja-se comparar, entre outros parâmetros, se existe diferença de pH entre elas. Foram, então, realizados os respectivos ensaios, e os valores encontrados foram os seguintes: para uma amostra de seis sucos da preparação A, o pH médio encontrado foi de 7,4 e para uma amostra de seis sucos da preparação B, o pH médio encontrado foi de 7,54. Sendo os desvios padrões populacionais de 0,025 e 0,030, respectivamente, testar a hipótese de as médias serem iguais, contra a alternativa de serem diferentes, ao nível de significância de 5%. Solução As hipóteses nula (Ho) e alternativa (H1) são: Ho: μ1 = μ2 H1: μ1 ≠ μ2 Os valores críticos que irão delimitar as áreas de aceitação e rejeição serão obtidos da tabela (Tabela 16), com as seguintes informações: teste bicaudal e nível de significância 5%. Os valores críticos são – 1,96 e + 1,96, ou seja, as regiões de rejeição serão z < - 1,96 e z > 1,96. A seguir, devemos construir o gráfico com as respectivas áreas de aceitação e rejeição. R R Área de aceitação - zTAB = -1,96 + zTAB = +1,96 Figura 50 - Diagrama de distribuição normal, teste bilateral para nível de significância de 5% ( )x x s n s n1 2 1 2 1 2 2 2 z x x n n x x � �� � � �� � � � �� 1 2 1 2 1 2 1 2 2 2 1 2 2 20 025 6 0 03 6 � � � � �( ) , , 112 Unidade II � � � ( ) ( ) ( , , , , x x x x x x 1 2 1 2 1 2 0 000625 6 0 0009 6 0 000104 0 00015 � � � � � � � )) ( ) , , � �� 0 000254 0 02 1 2 � x x Utilizando o teste Z, a estatística teste padronizada é: z x x z z z x x 1 2 1 2 1 2 7 4 7 54 0 0 02 0 14 0 02 7 , , , , , O gráfico anterior mostra as regiões de rejeição e aceitação delimitadas pelos valores críticos encontrados na tabela do Tabela 16. Como z = -7 está na região de rejeição, está abaixo de -2,58, rejeita-se, portanto, a hipótese nula. Logo, a um nível de 1%, existem evidências suficientes para confirmar a existência de uma diferença significativa entre as médias das preparações dos sucos. 4. Num estudo comparativo do tempo médio para realização de certa tarefa, uma amostra aleatória de 50 homens e 50 mulheres de uma grande indústria encontrou os seguintes resultados: Estatísticas Homens Mulheres Médias 6 minutos 5 minutos Desvios padrões 1 minuto 2 minutos Pode-se dizer que existe diferença significativa entre o tempo médio para a realização da tarefa de homens e mulheres ao nível de 5%. Solução Está sendo pedido para se testar a existência de diferença significativa na média de tempo entre homens e mulheres na realização de certa tarefa. Logo, as hipóteses nula (Ho) e alternativa (H1) são: Ho: μ1 = μ2 113 MATEMÁTICA INTEGRADA H1: μ1 ≠ μ2 Os valores críticos que irão delimitar as áreas de aceitação e rejeição serão obtidos da tabela Tabela 16, com as seguintes informações: teste bicaudal e nível de significância 5%. Os valores críticos são – 1,96 e + 1,96, ou seja, as regiões de rejeição serão z < - 1,96 e z > 1,96. Como as amostras são grandes (n = 50 para as duas situações), para calcular o erro padrão serão utilizadas S1 e S2. R R Área de aceitação - zTAB = -1,96 + zTAB = +1,96 Figura 51 - Diagrama de distribuição normal, teste bilateral para nível de significância de 5% ( ) ( ) ( ) x x x x x x s n s n1 2 1 2 1 2 2 2 1 2 2 1 2 50 2 50 1 0,02 0,08 2 ( ) ( ) , x x x x 1 2 1 2 1 0 32 0, Utilizando o teste Z, a estatística teste padronizada é: z x x x x z z z 1 2 1 2 1 2 6 5 0 0 32 1 0 32 3 13 , , , z x x x x z z z 1 2 1 2 1 2 6 5 0 0 32 1 0 32 3 13 , , , 114 Unidade II Conclusão O gráfico anterior mostra as regiões de rejeição e aceitação delimitadas pelos valores críticos encontrados na tabela do Tabela 16. Como z = 3,13 está na região de rejeição, está acima de 1,96, devemos rejeitar a hipótese nula. Resposta: Logo, a um nível de 5%, existe uma diferença significativa na média de tempo gasto na execução da tarefa pelos homens e pelas mulheres. Podemos concluir, portanto, que as mulheres levaram menos tempo do que os homens na realização da tarefa, ao nível de 5%. 5. O departamento de psicologia fez um estudo comparativo do tempo médio de recuperação após um divórcio, com uma amostra de 80 mulheres com filhos e outra de 80 mulheres sem filhos, tomados ao acaso, de uma clínica, durante um ano. Os resultados estão mostrados na tabela a seguir. É possível afirmar, ao nível de 5% de significância, que as mulheres com filhos levam mais tempo para se recuperar do que as sem filhos? Estatísticas Mulheres com filhos Mulheres sem filhos Médias 4 anos 2 anos Desvios padrões 2 anos 1 ano Solução Você deseja testar se existe realmente uma diferença significativa na média de produção quando se utiliza o fertilizante e quando não. Logo, as hipóteses nula (Ho) e alternativa (H1) são: Ho: μ1 = μ2 H1: μ1 ≠ μ2 Os valores críticos que irão delimitar as áreas de aceitação e rejeição serão obtidos da tabela do Tabela 16, com as seguintes informações: teste bicaudal e nível de significância 5%. Os valores críticos são – 1,96 e + 1,96, ou seja, as regiões de rejeição serão z < - 1,96 e z > 1,96. Como as amostras são grandes (n = 80 para as duas situações), para calcular o erro padrão serão utilizadas S1 e S2. R R Área de aceitação - zTAB = -1,96 + zTAB = +1,96 Figura 52 - Diagrama de distribuição normal, teste bilateral para nível de significância de 5% 115 MATEMÁTICA INTEGRADA ( ) ( ) ( ) ( x x x x x x x s n s n1 2 1 2 1 2 2 2 1 2 2 1 2 1 80 1 80 80 1 80 2 4 2 x x x x x 2 1 2 1 2 0 05 0 0125 0 0625 0 25 ) ( ) ( ) , , , , Utilizando o teste Z, a estatística teste padronizada é z x x x x z z z 1 2 1 2 1 2 4 2 0 0 25 2 0 25 8 , , Conclusão O gráfico anterior mostra as regiões de rejeição e aceitação delimitadas pelos valores críticos encontrados na tabela do Tabela 16. Como z = 8 está na região de rejeição, está acima de 1,96, devemos rejeitar a hipótese nula. Resposta: A um nível de 5%, portanto, existe uma diferença significativa no tempo médio de adaptação à nova vida após o divórcio das mulheres com filhos em relação às mulheres sem filhos. As mulheres sem filhos adaptam-se mais rapidamente do que as mulheres sem filhos. 6 TESTES NÃO PARAMÉTRICOS 6.1 Teste de qui-quadrado Os dois testes estudados anteriormente são ditos testes paramétricos porque têm algumas exigências mínimas para serem utilizados, entre elas apresentar distribuição normal. Mas nem sempre é possível para o pesquisador atender a essas exigências, uma vez que os dados não apresentam sempre 116 Unidade II normalidade ou pode não haver independência entre os tratamentos, além de outras questões. Foram, então, desenvolvidos pelos estatísticos os testes não paramétricos, para situações em que não é possível a aplicação dos testes paramétricos. O teste que vamos estudar agora, teste qui-quadrado, é um dos não paramétricos mais conhecidos e utilizados, aplicado quandose deseja fazer a comparação de duas ou mais amostras. Seja uma amostra de tamanho n dividida em k eventos, Eo1, Eo2, Eo3, ... Ek, e as frequências observadas dos eventos sejam respectivamente fo1, fo2, fo3, ... fok e fe1, fe2, fe3, .... fek, as frequências esperadas. Vamos supor uma situação em que se deseja realizar um teste estatístico com o objetivo de verificar se existe adequação de ajustamento entre as frequências observadas e as frequências esperadas; ou seja, se as discrepâncias encontradas entre as frequências observadas e as frequências esperadas são devido ao acaso ou se existe, na realidade, diferença significativa entre elas. 6.2 Teste de adequação de ajustamento O procedimento utilizado nesse teste é similar ao que você utilizou nos testes anteriores. As etapas que deverá seguir são as seguintes: Etapa 1 Estabelecer a hipótese nula (Ho) e a hipótese alternativa (H1). • A hipótese H0 afirmará não existir discrepância entre as frequências observadas e as frequências esperadas. • A hipótese H1 afirmará existir discrepância entre as frequências observadas e as frequências esperadas. Etapa 2 • Efetuar o cálculo das frequências esperadas baseado na afirmação da hipótese Ho (ou seja, que não existe discrepância entre as frequências observadas e as frequências esperadas. • Avaliar as frequências esperadas. • Se existirem eventos que não satisfaçam a condição fe ≥ 5, as mesmas deverão se unir aos eventos adjacentes, dando origem, assim, a novas categorias. Etapa 3 • Estipular α e o nível de significância do teste. A variável do teste será a χ2 , com g.l. = k – 1 ou g.l. = k – r -1 (para teste de aderência para estimação de parâmetros), sendo k o número de eventos e r, o de parâmetros estimados. 117 MATEMÁTICA INTEGRADA Etapa 4 • Fazer o desenho da curva, plotando no eixo das abscissas o valor tabelado, que será o limite entre a área de aceitação (RA) de Ho e a(s) área(s) de rejeição (RC), utilizando a tabela do χ2 (Tabela 21). Etapa 5 • Calcular o valor da estatística de teste por meio da amostra. cal oi ei ei f f f 2 2 Etapa 6 Obter a conclusão: • Se cal tab 2 2 , não se pode rejeitar Ho; logo, as frequências observadas e esperadas não são discrepantes ou a diferença entre elas não é significativa. Se cal tab 2 2 , rejeita-se Ho, e concluímos com uma margem de erro α que existe diferença entre as frequências observadas e esperadas. Exemplo Com o intuito de verificar se o número de empréstimos de livros em uma biblioteca aberta, todos os dias se distribui igualmente pelos dias da semana, foram levantados os dados a seguir. Utilizar α = 5%. Tabela 35 Dia da semana Número de empréstimos Dom. 33 Seg. 26 Ter. 21 Qua. 22 Qui. 17 Sex. 20 Sáb. 36 TOTAL 175 118 Unidade II Solução 1) Formulação das hipóteses: Ho: as frequências de empréstimos são iguais todos os dias da semana. H1: as frequências de empréstimos são diferentes. 2) Escolher a variável de teste: χ2 com: g.l. = k – 1 = 7 – 1 = 6 Observação k = 7, porque são sete dias da semana que serão avaliados, uma vez que a biblioteca está aberta todos os dias. Consultando, portanto, a tabela de distribuição χ 2 (Tabela 21) com g.l. = 6 e α = 5%, encontramos 2 12 592tab , . Lembrete Vamos relembrar como fazer essa busca? χ2 tabelado (Tabela 21) será: Tabela 36 P(χ 2 com n graus de liberdade > valor do tabelado) = α α GL 0,999 0,995 0,99 0,975 0,95 0,9 0,75 0,5 0,25 0,1 0,05 0,025 0,01 0,005 1 0,000 0,000 0,000 0,001 0,004 0,016 0,102 0,455 1,323 2,706 3,841 5,024 6,635 7,879 2 0,002 0,010 0,020 0,051 0,103 0,211 0,575 1,386 2,773 4,605 5,991 7,378 9,210 10,597 3 0,024 0,072 0,115 0,216 0,352 0,584 1,213 2,366 4,108 6,251 7,815 9,348 11,345 12,838 4 0,091 0,207 0,297 0,484 0,711 1,064 1,923 3,357 5,385 7,779 9,488 11,143 13,277 14,860 5 0,210 0,412 0,554 0,831 1,145 1,610 2,675 4,351 6,626 9,236 11,070 12,833 15,086 16,750 6 0,381 0,676 0,872 1,237 1,635 2,204 3,455 5,348 7,841 10,645 12,592 14,449 16,812 18,548 7 0,598 0,989 1,239 1,690 2,167 2,833 4,255 6,346 9,037 12,017 14,067 16,013 18,475 20,278 8 0,857 1,344 1,646 2,180 2,733 3,490 5,071 7,344 10,219 13,362 15,507 17,535 20,090 21,955 9 1,152 1,735 2,088 2,700 3,325 4,168 5,899 8,343 11,389 14,684 16,919 19,023 21,666 23,589 119 MATEMÁTICA INTEGRADA 10 1,479 2,156 2,558 3,247 3,940 4,865 6,737 9,342 12,549 15,987 18,307 20,483 23,209 25,188 11 1,834 2,603 3,053 3,816 4,575 5,578 7,584 10,341 13,701 17,275 19,675 21,920 24,725 26,757 12 2,214 3,074 3,571 4,404 5,226 6,304 8,438 11,340 14,845 18,549 21,026 23,337 26,217 28,300 13 2,617 3,565 4,107 5,009 5,892 7,042 9,299 12,340 15,984 19,812 22,362 24,736 27,688 29,819 14 3,041 4,075 4,660 5,629 6,571 7,790 10,165 13,339 17,117 21,064 23,685 26,119 29,141 31,319 15 3,483 4,601 5,229 6,262 7,261 8,547 11,037 14,339 18,245 22,307 24,996 27,488 30,578 32,801 16 3,942 5,142 5,812 6,908 7,962 9,312 11,912 15,338 19,369 23,542 26,296 28,845 32,000 34,267 17 4,416 5,697 6,408 7,564 8,672 10,085 12,792 16,338 20,489 24,769 27,587 30,191 33,409 35,718 18 4,905 6,265 7,015 8,231 9,390 10,865 13,675 17,338 21,605 25,989 28,869 31,526 34,805 37,156 19 5,407 6,844 7,633 8,907 10,117 11,651 14,562 18,338 22,718 27,204 30,144 32,852 36,191 38,582 20 5,921 7,434 8,260 9,591 10,851 12,443 15,452 19,337 23,828 28,412 31,410 34,170 37,566 39,997 21 6,447 8,034 8,897 10,283 11,591 13,240 16,344 20,337 24,935 29,615 32,671 35,479 38,932 41,401 22 6,983 8,643 9,542 10,982 12,338 14,041 17,240 21,337 26,039 30,813 33,924 36,781 40,289 42,796 23 7,529 9,260 10,196 11,689 13,091 14,848 18,137 22,337 27,141 32,007 35,172 38,076 41,638 44,181 24 8,085 9,886 10,856 12,401 13,848 15,659 19,037 23,337 28,241 33,196 36,415 39,364 42,980 45,559 25 8,649 10,520 11,524 13,120 14,611 16,473 19,939 24,337 29,339 34,382 37,652 40,646 44,314 46,928 3) Determinar as regiões de aceitação (RA) e rejeição (RC). 4) Cálculo do valor de χcal 2 . Como o número de empréstimos foi 175; logo, a quantidade por dia será: e o e e N 175 7 25 Dessa forma, a tabela inicial será ampliada para: Tabela 37 Dias da semana fo fe Dom. 33 25 Seg. 26 25 Ter. 21 25 Qua. 22 25 Qui. 17 25 Sex. 20 25 Sáb. 36 25 TOTAL 175 175 120 Unidade II cal oi ei ei f f f 2 2 cal 2 2 2 2 2 233 25 25 26 25 25 21 25 25 22 25 25 17 25 225 20 25 25 36 25 25 12 12 2 2 2 cal Como o valor obtido de 2 12 592tab , , então: 5) Uma vez que cal 2 12 592 , , não podemos rejeitar Ho com nível de significância de 5%. 7 TESTE QUI-QUADRADO DE ADERÊNCIA 7.1 Teste para a normalidade Você poderá decidir, baseado em resultados encontrados com o teste qui-quadrado, se uma variável apresenta distribuição normal. As hipóteses para o teste para a normalidade serão sempre estas a seguir: Ho: a variável apresenta distribuição normal. H1: a variável não apresenta distribuição normal. Exemplo: Verificar se os dados a seguir apresentam distribuição normal, utilizando α = 5%. Os dados são referentes à altura de 100 estudantes do sexo feminino. Tabela 38 Alturas (cm) No estudantes (foi) 150|--156 4 156|--162 12 162|--168 22 168|--174 40 174|--180 20 180|--186 2 Total 100 121 MATEMÁTICA INTEGRADA Solução: Uma vez que a distribuição normal depende dos parâmetros média e desvio padrão para a determinação das frequências esperadas, será necessário obtê-los primeiramente. Hipóteses: Ho: a variável altura apresenta distribuição normal. H1: a variável altura não apresenta distribuição normal. Tabela 39 Alturas (cm) No estudantes (foi) Pmi Pmi . ƒi 150|--156 4 153 612 156|--162 12 159 1908 162|--168 22 165 3630 168|--174 40 171 6840 174|--180 20 177 3540 180|--186 2 183 366 Total 100 16896 A média aritmética para essas estaturas será dada por: x Pmifi f x cm i 168 96, Tabela 40 Alturas (cm) No estudantes (foi) Pmi (xi- x) (xi - x) 2 (xi - x) 2 . ƒi 150|--156 4 153 15,96 254,72 1018,88 156|--162 12 159 9,96 99,20 1190,40 162|--168 22 165 3,96 15,68 344,96 168|--174 40 171 2,04 4,16 166,40 174|--180 20 177 8,04 64,64 1292,80 180|--186 2 183 14,04 197,12 394,24 Total 100 4407,68 122 Unidade II E a variância por: 2 2 2 2 1 4407 68 100 1 44 5220 6 6725 s s s x x n S i . , , , 2 2 2 2 1 4407 68 100 1 44 5220 6 6725 s s s x x n S i . , , , Porém: z x x x s por estimativa. Por exemplo: para a classe 156|--162 Para xi =156 z x x s 156 168 96 6 6725 194 , , , Para xi =162 z x x s 162 168 96 6 6725 1 04 , , , Tabela 41 z .00 .01 .02 .03 .04 .05 .06 .07 .08 .09 0.0 0.0000 0.0040 0.0080 0.0120 0.0160 0.0199 0.0239 0.0279 0.0319 0.0359 0.1 0.0398 0.0438 0.0478 0.0517 0.0557 0.0596 0.0636 0.0675 0.0714 0.0753 0.2 0.0793 0.0832 0.0871 0.0910 0.0948 0.0987 0.1026 0.1064 0.1103 0.1141 0.3 0.1179 0.1217 0.1255 0.1293 0.1331 0.1368 0.1406 0.1443 0.1480 0.1517 0.4 0.1554 0.1591 0.1628 0.1664 0.1700 0.1736 0.1772 0.1808 0.1844 0.1879 0.5 0.1915 0.1950 0.1985 0.2019 0.2054 0.2088 0.2123 0.2157 0.2190 0.2224 0.6 0.2257 0.2291 0.2324 0.2357 0.2389 0.2422 0.2454 0.2486 0.2517 0.2549 0.7 0.2580 0.2611 0.2642 0.2673 0.2704 0.2734 0.2764 0.2794 0.2823 0.2852 0.8 0.2881 0.2910 0.2939 0.2967 0.2995 0.3023 0.3051 0.3078 0.3106 0.3133 123 MATEMÁTICA INTEGRADA 0.9 0.3159 0.3186 0.3212 0.3238 0.3264 0.3289 0.3315 0.3340 0.3365 0.3389 1.0 0.3413 0.3438 0.3461 0.3485 0.3508 0.3531 0.3554 0.3577 0.3599 0.3621 1.1 0.3643 0.3665 0.3686 0.3708 0.3729 0.3749 0.3770 0.3790 0.3810 0.3830 1.2 0.3849 0.3869 0.3888 0.3907 0.3925 0.3944 0.3962 0.3980 0.3997 0.4015 1.3 0.4032 0.4049 0.4066 0.4082 0.4099 0.4115 0.4131 0.4147 0.4162 0.4177 1.4 0.4192 0.4207 0.4222 0.4236 0.4251 0.4265 0.4279 0.4292 0.4306 0.4319 1.5 0.4332 0.4345 0.4357 0.4370 0.4382 0.4394 0.4406 0.4418 0.4429 0.4441 1.6 0.4452 0.4463 0.4474 0.4484 0.4495 0.4505 0.4515 0.4525 0.4535 0.4545 1.7 0.4554 0.4564 0.4573 0.4582 0.4591 0.4599 0.4608 0.4616 0.4625 0.4633 1.8 0.4641 0.4649 0.4656 0.4664 0.4671 0.4678 0.4686 0.4693 0.4699 0.4706 1.9 0.4713 0.4719 0.4726 0.4732 0.4738 0.4744 0.4750 0.4756 0.4761 0.4767 2.0 0.4772 0.4778 0.4783 0.4788 0.4793 0.4798 0.4803 0.4808 0.4812 0.4817 2.1 0.4821 0.4826 0.4830 0.4834 0.4838 0.4842 0.4846 0.4850 0.4854 0.4857 2.2 0.4861 0.4864 0.4868 0.4871 0.4875 0.4878 0.4881 0.4884 0.4887 0.4890 Da tabela (Tabela 16) para z = 1,94 A = 0,4738 Da tabela (Tabela 16) para z = 1,04 A = 0,3508 0,4738 - 0,3508 = 0,1230 • Portanto, para a classe 156|--162, obtiveram-se os valores como sendo 1,94|---1,04. • Na tabela do Tabela 16, encontrou-se probabilidade (área da curva normal entre os dois valores) igual a 0,1230. • Multiplicado esse valor pelo número total de elementos da amostra, obtém-se: fe = n.p = 100.0,1230 = 12,30 Complemente a tabela a partir do que foi feito anteriormente, como exemplo para a segunda classe. O resultado será: 124 Unidade II Tabela 42 Alturas (cm) No estudantes (foi) Valores em z P Fei(n.p) 150|--156 4 -2,84|-- -1,94 0, 0239 2,39 156|--162 12 -1,94|-- -1,04 0,1230 12,30 162|--168 22 -1,04|-- -0,14 0,2951 29,51 168|--174 40 -0,14|--0,76 0,3321 33,21 174|--180 20 0,76|-- 1,65 0,1741 17,41 180|--186 2 1,65|-- 2,55 0,4410 4,41 Total 100 A tabela ficará, então, da seguinte maneira: Tabela 43 foi foi fei fei 4 16 2,39 14,69 12 22 12,30 29,51 22 40 29,51 33,21 40 22 33,21 21,82 20 17,41 2 4,41 Importante: Você percebeu que houve uma redução no número de frequências? Isso ocorreu porque tivemos dois valores menores do que 5, e como já havíamos afirmado no teste de ajustamento, caso existissem eventos que não satisfizessem a condição de fe ≥ 5, essas frequências deveriam ser unidas aos eventos adjacentes, dando origem, assim, a novas categorias, o que foi feito anteriormente. Utilizando a fórmula, obtemos o χcalc 2 : calc oi ei ei f f f 2 2 2 216 14 69 14 69 22 29 51 29 51 40 ,, , , 33 21 33 21 22 2182 2182 0 2 2 2 , , , , , , ,calc 12 191 139 10 00 3 422 , ,calc Encontramos o valor do χcalc 2 na tabela (Tabela 21), com g.l. = k – r – 1 125 MATEMÁTICA INTEGRADA Sendo: r = número de parâmetros estimados (nesse caso, são dois, a média e o desvio padrão). Logo, g.l. = 4 – 2 -1 = 1 e α = 5%. O valor de χcalc 2 será 3,841. Tabela 44 - P(χ 2 com n graus de liberdade > valor do tabelado) = α α GL 0,999 0,995 0,99 0,975 0,95 0,9 0,75 0,5 0,25 0,1 0,05 0,025 0,01 0,005 1 0,000 0,000 0,000 0,001 0,004 0,016 0,102 0,455 1,323 2,706 3,841 5,024 6,635 7,879 2 0,002 0,010 0,020 0,051 0,103 0,211 0,575 1,386 2,773 4,605 5,991 7,378 9,210 10,597 3 0,024 0,072 0,115 0,216 0,352 0,584 1,213 2,366 4,108 6,251 7,815 9,348 11,345 12,838 4 0,091 0,207 0,297 0,484 0,711 1,064 1,923 3,357 5,385 7,779 9,488 11,143 13,277 14,860 5 0,210 0,412 0,554 0,831 1,145 1,610 2,675 4,351 6,626 9,236 11,070 12,833 15,086 16,750 6 0,381 0,676 0,872 1,237 1,635 2,204 3,455 5,348 7,841 10,645 12,592 14,449 16,812 18,548 7 0,598 0,989 1,239 1,690 2,167 2,833 4,255 6,346 9,037 12,017 14,067 16,013 18,475 20,278 8 0,857 1,344 1,646 2,180 2,733 3,490 5,071 7,344 10,219 13,362 15,507 17,535 20,090 21,955 9 1,152 1,735 2,088 2,700 3,325 4,168 5,899 8,343 11,389 14,684 16,919 19,023 21,666 23,589 10 1,479 2,156 2,558 3,247 3,940 4,865 6,737 9,342 12,549 15,987 18,307 20,483 23,209 25,188 11 1,834 2,603 3,053 3,816 4,575 5,578 7,584 10,341 13,701 17,275 19,675 21,920 24,725 26,757 12 2,214 3,074 3,571 4,404 5,226 6,304 8,438 11,340 14,845 18,549 21,026 23,337 26,217 28,300 13 2,617 3,565 4,107 5,009 5,892 7,042 9,299 12,340 15,984 19,812 22,362 24,736 27,688 29,819 14 3,041 4,075 4,660 5,629 6,571 7,790 10,165 13,339 17,117 21,064 23,685 26,119 29,141 31,319 15 3,483 4,601 5,229 6,262 7,261 8,547 11,037 14,339 18,245 22,307 24,996 27,488 30,578 32,801 16 3,942 5,142 5,812 6,908 7,962 9,312 11,912 15,338 19,369 23,542 26,296 28,845 32,000 34,267 17 4,416 5,697 6,408 7,564 8,672 10,085 12,792 16,338 20,489 24,769 27,587 30,191 33,409 35,718 18 4,905 6,265 7,015 8,231 9,390 10,865 13,675 17,338 21,605 25,989 28,869 31,526 34,805 37,156 19 5,407 6,844 7,633 8,907 10,117 11,651 14,562 18,338 22,718 27,204 30,144 32,852 36,191 38,582 20 5,921 7,434 8,260 9,591 10,851 12,443 15,452 19,337 23,828 28,412 31,410 34,170 37,566 39,997 21 6,447 8,034 8,897 10,283 11,591 13,240 16,344 20,337 24,935 29,615 32,671 35,479 38,932 41,401 22 6,983 8,643 9,542 10,982 12,338 14,041 17,240 21,337 26,039 30,813 33,924 36,781 40,289 42,796 23 7,529 9,260 10,196 11,689 13,091 14,848 18,137 22,337 27,141 32,007 35,172 38,076 41,638 44,181 24 8,085 9,886 10,856 12,401 13,848 15,659 19,037 23,337 28,241 33,196 36,415 39,364 42,980 45,559 25 8,649 10,520 11,524 13,120 14,611 16,473 19,939 24,337 29,339 34,382 37,652 40,646 44,314 46,928 Área de aceitação R χcalc 2 = 3,421 Figura 53 - Diagrama de distribuição Teste χ2 para nível de significância de 5% 126 Unidade II Uma vez que χcalc 2 = 3,421, concluímos que esse valor é menor que χtab 2 = 3,841, estando, portanto, na região da aceitação do gráfico. Logo, podemos aceitar Ho ao nível de significância de 5%. Resposta: Concluímos que a variável altura do sexo feminino segue a distribuição normal. 8 TESTE DE QUI-QUADRADO PARA INDEPENDÊNCIA O teste qui-quadrado tem especial importância porque nos permite verificar a associação ou dependência entre duas variáveis em estudo. Um dos objetivos do teste é, portanto, verificar se essas variáveis são estatisticamente independentes. Veja só, quando realiza uma pesquisa, você pode fazer uma estatística dos dados coletados, limitando- se a calcular as porcentagens referentes a cada pergunta realizada ou a cada item pesquisado. Essas porcentagens vão auxiliar você em algumasconclusões, mas não darão subsídios para descobrir se uma variável pesquisada tem relação com a outra. Por exemplo, ao final da pesquisa, você poderá mostrar que uma maior porcentagem de pessoas da amostra entrevistada é do gênero feminino. Mas será que esse fato tem alguma associação com a preferência por determinado sabor de alimento? Essa associação, ou não, você poderá verificar por meio do teste qui-quadrado de independência ou associação, que estudaremos a seguir. Você deverá saber: • como utilizar uma tabela de contingência para a obtenção das frequências esperadas; • como utilizar uma distribuição qui-quadrado para verificar se duas variáveis em estudo são independentes. Lembrete Duas variáveis são consideradas independentes quando a ocorrência de uma delas não afeta a probabilidade de ocorrência da outra. Um exemplo do lembrete anterior seria um nutricionista que deseja estudar se existe associação entre a classe social que o paciente pertence e o hábito de consumir frutas e legumes. Será que nesse caso as variáveis são independentes? Ou seja, o hábito alimentar independe da classe social? O teste qui-quadrado para independência nos permite verificar questões como essa. Por onde devemos começar, então? Primeiramente, usaremos dados amostrais que deverão estar organizados em uma tabela de contingência. 127 MATEMÁTICA INTEGRADA Mas o que é mesmo uma tabela de contingência? Definição Tabela de contingência é uma tabela de dupla entrada, ou seja, numa entrada, linha, teremos uma variável (por exemplo, classe social) e na outra entrada, coluna, a outra variável (hábito ou não de consumir frutas e legumes), em que as frequências observadas se distribuem nas linhas (r) e colunas (K), como mostrado a seguir: Tabela 45 y/x x1 x2 ... xk Totais y1 Fo11 Fo12 ... Fo1k L1 y2 Fo21 Fo22 ... Fo2k L2 ... ... yr For1 For2 ... fork Lk Totais C1 C2 ... Ck N Sendo: C1 = soma da primeira coluna C2 = soma da segunda coluna L1 = soma da primeira linha L2 = soma da segunda linha N = soma de todas as frequências da tabela Exemplo de aplicação 1. A tabela a seguir é de contingência do tipo 3 x 3, ou seja, tem três linhas e 3 colunas, e representa os resultados de uma pesquisa aleatória de 586 pessoas classificadas por idade e preferência musical. Analisando a tabela, observamos que 105 entrevistados, com 20 anos ou menos, preferem música eletrônica e 23 da mesma faixa etária preferem música clássica. Da mesma maneira, observamos que 120 entrevistados, com idade entre 21 e 31 anos, preferem MPB; enquanto 48 da mesma faixa etária preferem música clássica, e assim por diante. Tabela 46 Preferência musical/ faixa etária 20 ou menos 21------ 31 32 ou mais MPB 45 120 65 Clássica 23 48 100 Eletrônica 105 60 20 128 Unidade II Lembrete Veja que temos a dupla entrada mencionada anteriormente, ou seja, faixa etária e preferência musical. Atenção: Observe que, em uma tabela de contingência, fer,k representa a frequência esperada para a célula na linha r e na coluna k. Na tabela anterior, fe2,3 representa a frequência esperada para a célula na linha 2 e na coluna 3. Com essa observação e supondo que as duas variáveis em estudo numa tabela de contingência são independentes, você poderá usar essas informações para obter as correspondentes frequências esperadas de cada uma das células. Para o cálculo da frequência esperada de cada célula, é utilizada a fórmula a seguir: erk (soma da linha r) x (soma da linha k) N Onde: ƒerk = frequência esperada Vamos analisar a seguir um exemplo de obtenção de frequências esperadas: A partir dos dados da tabela (que foi nosso exemplo anterior), obter a frequência esperada para cada célula de contingência a seguir. Para tanto, vamos supor que as variáveis, a faixa etária e a preferência musical sejam independentes. Tabela 47 Preferência musical/ faixa etária 20 ou menos 21------ 31 32 ou mais Total MPB 45 120 65 230 Clássica 23 48 100 171 Eletrônica 105 60 20 185 Total 173 228 185 586 Solução: Vamos utilizar a fórmula indicada anteriormente para o cálculo das frequências esperadas: erk (soma da linha r) x (soma da linha k) N 129 MATEMÁTICA INTEGRADA Substituindo as correspondentes somatórias das linhas e das colunas, teremos: e r k N e e e e . . , . 11 11 12 12 230 173 586 67 90 230 228 586 889 49 230 185 586 72 62 171 173 586 13 13 21 , . , . e e e e e e e e 21 22 22 23 23 50 48 171 228 586 66 53 171 185 586 , . , . 53 98 185 173 586 54 62 185 228 586 71 31 31 32 32 , . , . e e e e ,, . , 98 185 185 586 58 40 33 33 e e Temos, portanto, com esses resultados a tabela com as respectivas frequências esperadas: 130 Unidade II Tabela 48 Preferência musical/faixa etária 20 ou menos 21------ 31 32 ou mais MPB 67,90 89,49 72,61 Clássica 50,48 66,53 53,98 Eletrônica 54,62 71,98 58,40 Agora que você já sabe calcular as frequências esperadas, pode se utilizar do teste qui-quadrado de independência ou da associação para testar a independência de variáveis pesquisadas. Restrições do uso do teste qui-quadrado χ2 Por razões teóricas: • os testes vistos aplicam-se sem restrições se todas as frequências esperadas forem maiores ou iguais a 5; • quando o grau de liberdade for igual a 1, cada frequência esperada não deve ser inferior a 5; • quando o grau de liberdade for maior do que 1, o teste χ 2 não deve ser usado se mais de 20% das frequências esperadas forem inferiores a 5, ou se qualquer frequência esperada for inferior a 1. Se essas condições não se verificam, eventualmente, podem-se juntar categorias adjacentes, de modo a aumentar as frequências esperadas; • os testes somente devem ser aplicados aos dados observados, e nunca com as proporções ou porcentagens oriundas desses. Você irá utilizar o seguinte procedimento para efetuar o teste: Etapa 1 Inicialmente estabelecer as hipóteses: Ho: as variáveis são independentes ou não existe associação entre elas; H1: as variáveis são dependentes ou existe associação entre elas. Etapa 2 Calcular as frequências esperadas. erk (soma da linha r) x (soma da linha k) N 131 MATEMÁTICA INTEGRADA Etapa 3 Fixar α (nível de significância). Etapa 4 Determinar o número de graus de liberdade, g.l. = (r -1). (k -1). Onde r = número de linhas da tabela. k = número de colunas. Etapa 5 Determinar RA e RC, usar a tabela do Tabela 21. Etapa 6 Identificar a área de rejeição. Área de aceitação R χtab 2 Figura 54 - Diagrama de distribuição para se identificar área de rejeição. Teste χ2 para nível de significância dado χtab 2 = Tabela de distribuição χ 2 Com α (nível de significância) e g.l. = (r -1).(k -1) Sendo: r = número de linhas da tabela de frequências observadas; k = número de colunas da tabela de frequências observadas. 132 Unidade II Etapa 7 Calcular a estatística de teste: cal oi ei ei cal oi ei ei f 2 2 2 2 245 67 90 67 90 , , 1120 89 49 89 49 65 72 61 72 61 23 50 48 50 48 48 66 2 2 2 , , , , , , ,, , , , , , , 53 66 53 100 53 98 53 98 105 54 62 54 62 60 7198 2 2 2 7198 20 58 40 58 40 0 0 0 0 2 2 2 , , , , , , , ,cal 7 72 1 4 8 14 96 5 16 339 23 46 47 199 25 2, , , , , 0 151932cal Etapa 8 Conclusão Se cal tab 2 2 , Ho não é rejeitada, ou seja, não podemos dizer que as variáveis são dependentes. Se cal tab 2 2 , Ho é rejeitada, concluindo-se, portanto, que as variáveis são dependentes ou existe associação entre elas. Exemplo de aplicação Vamos colocar em prática, então, a teoria que você acabou de aprender sobre teste qui-quadrado de independência, resolvendo exercícios.1. A tabela a seguir mostra os resultados de uma pesquisa feita com uma amostra aleatória de 529 crianças classificadas por classe social e a presença ou não de obesidade. Testar ao nível de 1% se existe dependência entre a classe social e a obesidade em crianças. Tabela 49 Classe social/presença de obesidade Sim Não Total A 150 80 230 B 50 90 140 C 59 100 159 Total 259 270 N= 529 133 MATEMÁTICA INTEGRADA Solução: A tabela anterior representa as frequências observadas (fo) na pesquisa. Precisamos agora encontrar as frequências esperadas (fe). Sabemos que as frequências esperadas são dadas por: e r k N . Sendo: ∑r = soma da linha que se deseja calcular a fe. ∑k = soma da coluna que se deseja calcular a fe. N = soma de todas as frequências da tabela de frequências observadas. Dessa maneira, podemos calcular todas as frequências esperadas (fe) correspondentes. e e 11 11 230 259 529 112 61 . , e e e e e 12 12 21 21 2 230 270 529 117 39 140 259 529 68 54 . , . , 22 22 31 31 32 140 270 529 7146 159 259 529 77 85 1 . , . , e e e e 559 270 529 811532 . , e Com os valores das frequências esperadas, correspondentes a cada frequência observada, é possível construir a tabela de frequência esperada para o estudo. 134 Unidade II Tabela 50 - Tabela de frequências esperadas (fe) Classe social/ presença de obesidade Sim Não A 112,61 117,39 B 68,54 71,46 C 77,85 81,15 Etapa 1 Formulação das hipóteses: Ho: as variáveis são independentes ou não existe associação entre elas. H1: as variáveis são dependentes ou existe associação entre elas. Etapa 2 Cálculo das frequências esperadas, já calculadas anteriormente. Etapa 3 Nível de significância α = 1%. Etapa 4 Determinação do número de graus de liberdade, g.l. = (r -1)(k -1) Como a tabela tem três linhas (r = 3) e duas colunas (k = 2), g.l. =(3 – 1)(2 – 1) Logo, g.l. = 2.1 g.l. = 2 Etapa 5 Determinação da RA e da RC a partir da tabela do Tabela 21. Etapa 6 Identificar a área de rejeição. χtab 2 = Tabela de distribuição χ 2 com α (nível de significância) = 1% = 0,01 e g.l. = 2 135 MATEMÁTICA INTEGRADA Tabela 51 - P(χ 2 com n graus de liberdade > valor do tabelado) = α α GL 0,999 0,995 0,99 0,975 0,95 0,9 0,75 0,5 0,25 0,1 0,05 0,025 0,01 0,005 1 0,000 0,000 0,000 0,001 0,004 0,016 0,102 0,455 1,323 2,706 3,841 5,024 6,635 7,879 2 0,002 0,010 0,020 0,051 0,103 0,211 0,575 1,386 2,773 4,605 5,991 7,378 9,210 10,597 3 0,024 0,072 0,115 0,216 0,352 0,584 1,213 2,366 4,108 6,251 7,815 9,348 11,345 12,838 4 0,091 0,207 0,297 0,484 0,711 1,064 1,923 3,357 5,385 7,779 9,488 11,143 13,277 14,860 5 0,210 0,412 0,554 0,831 1,145 1,610 2,675 4,351 6,626 9,236 11,070 12,833 15,086 16,750 6 0,381 0,676 0,872 1,237 1,635 2,204 3,455 5,348 7,841 10,645 12,592 14,449 16,812 18,548 7 0,598 0,989 1,239 1,690 2,167 2,833 4,255 6,346 9,037 12,017 14,067 16,013 18,475 20,278 8 0,857 1,344 1,646 2,180 2,733 3,490 5,071 7,344 10,219 13,362 15,507 17,535 20,090 21,955 9 1,152 1,735 2,088 2,700 3,325 4,168 5,899 8,343 11,389 14,684 16,919 19,023 21,666 23,589 10 1,479 2,156 2,558 3,247 3,940 4,865 6,737 9,342 12,549 15,987 18,307 20,483 23,209 25,188 11 1,834 2,603 3,053 3,816 4,575 5,578 7,584 10,341 13,701 17,275 19,675 21,920 24,725 26,757 12 2,214 3,074 3,571 4,404 5,226 6,304 8,438 11,340 14,845 18,549 21,026 23,337 26,217 28,300 13 2,617 3,565 4,107 5,009 5,892 7,042 9,299 12,340 15,984 19,812 22,362 24,736 27,688 29,819 14 3,041 4,075 4,660 5,629 6,571 7,790 10,165 13,339 17,117 21,064 23,685 26,119 29,141 31,319 15 3,483 4,601 5,229 6,262 7,261 8,547 11,037 14,339 18,245 22,307 24,996 27,488 30,578 32,801 16 3,942 5,142 5,812 6,908 7,962 9,312 11,912 15,338 19,369 23,542 26,296 28,845 32,000 34,267 17 4,416 5,697 6,408 7,564 8,672 10,085 12,792 16,338 20,489 24,769 27,587 30,191 33,409 35,718 18 4,905 6,265 7,015 8,231 9,390 10,865 13,675 17,338 21,605 25,989 28,869 31,526 34,805 37,156 19 5,407 6,844 7,633 8,907 10,117 11,651 14,562 18,338 22,718 27,204 30,144 32,852 36,191 38,582 20 5,921 7,434 8,260 9,591 10,851 12,443 15,452 19,337 23,828 28,412 31,410 34,170 37,566 39,997 21 6,447 8,034 8,897 10,283 11,591 13,240 16,344 20,337 24,935 29,615 32,671 35,479 38,932 41,401 22 6,983 8,643 9,542 10,982 12,338 14,041 17,240 21,337 26,039 30,813 33,924 36,781 40,289 42,796 23 7,529 9,260 10,196 11,689 13,091 14,848 18,137 22,337 27,141 32,007 35,172 38,076 41,638 44,181 24 8,085 9,886 10,856 12,401 13,848 15,659 19,037 23,337 28,241 33,196 36,415 39,364 42,980 45,559 25 8,649 10,520 11,524 13,120 14,611 16,473 19,939 24,337 29,339 34,382 37,652 40,646 44,314 46,928 Obtemos: χtab 2 9 210, χtab 2 = 9,210 Área de aceitação R Figura 55 - Diagrama de distribuição para se identificar área de rejeição. Teste χ2 para nível de significância dado 136 Unidade II Etapa 7 Calcular a estatística teste. cal oi ei ei f f f 2 2 2150 112 61 112 61 80 117 39 117 39 , , , , 22 2 2 2 50 68 54 68 54 90 7146 7146 59 77 85 77 85 100 , , , , , , 8115 8115 0 2 2 2 , , , , , , , , cal cal 12 41 1191 5 2 4 81 4 56 4 38 443 09, Etapa 8 Conclusão Caso cal tab 2 2 , Ho não é rejeitada, ou seja, não podemos dizer que as variáveis são dependentes. Resposta: Como cal tab 2 2 = (43,09) > cal tab 2 2 = (9,210), rejeita-se Ho; logo, existe dependência entre a classe social e a obesidade. 2) No exercício a seguir, utilizando o teste qui-quadrado para independência, responda às seguintes questões: a) Estabeleça as hipóteses nula (Ho) e alternativa (H1). b) Obter o número de graus de liberdade (g.l.). Determinar o valor crítico, identificando as regiões de rejeição. c) Calcule a estatística teste. d) Tomar a decisão de rejeitar ou não a hipótese nula (Ho). Qual a decisão a ser tomada de acordo com o contexto? Um pesquisador deseja determinar se a faixa salarial dos funcionários de uma empresa está relacionada ao gênero. Foi selecionada uma amostra de 465 funcionários, e os resultados estão mostrados na tabela a seguir. Sendo α = 5%, há evidência suficiente para concluir que a faixa salarial do funcionário dessa empresa está relacionada ao gênero? 137 MATEMÁTICA INTEGRADA Tabela 52 Faixa salarial/ gênero 2|----4 4|----6 6|----8 Total Masculino 45 80 100 225 Feminino 110 70 60 240 Total 155 150 160 N = 465 Solução: a) Hipóteses Ho: a faixa salarial independe do gênero. H1: a faixa salarial depende do gênero. b) Número de graus de liberdade (g.l.). Como a tabela de contingência tem duas linhas e três colunas, a distribuição qui-quadrado possui (g.l.). = (r -1). (k – 1) = (2 – 1). (3 – 1) Logo, (g.l.). = 1.2 (g.l.). = 2 Uma vez que (g.l.). = 2 e α = 5% (0,05), da tabela do Tabela 21, obtemos o valor crítico, ou seja, cal tab 2 2 = 5,991. Tabela 53 - P(χ 2 com n graus de liberdade > valor do tabelado) = α α GL 0,999 0,995 0,99 0,975 0,95 0,9 0,75 0,5 0,25 0,1 0,05 0,025 0,01 0,005 1 0,000 0,000 0,000 0,001 0,004 0,016 0,102 0,455 1,323 2,706 3,841 5,024 6,635 7,879 2 0,002 0,010 0,020 0,051 0,103 0,211 0,575 1,386 2,773 4,605 5,991 7,378 9,210 10,597 3 0,024 0,072 0,115 0,216 0,352 0,584 1,213 2,366 4,108 6,251 7,815 9,348 11,345 12,838 4 0,091 0,207 0,297 0,484 0,711 1,064 1,923 3,357 5,385 7,779 9,488 11,143 13,277 14,860 5 0,210 0,412 0,554 0,831 1,145 1,610 2,675 4,351 6,626 9,236 11,070 12,833 15,086 16,750 6 0,381 0,676 0,872 1,237 1,635 2,204 3,455 5,348 7,841 10,645 12,592 14,449 16,812 18,548 7 0,598 0,989 1,239 1,690 2,167 2,833 4,255 6,346 9,037 12,017 14,067 16,013 18,475 20,278 8 0,857 1,344 1,646 2,180 2,733 3,490 5,071 7,344 10,219 13,362 15,507 17,535 20,090 21,955 9 1,152 1,735 2,088 2,700 3,325 4,168 5,899 8,343 11,389 14,684 16,919 19,023 21,666 23,589 10 1,479 2,156 2,558
Compartilhar