Baixe o app para aproveitar ainda mais
Prévia do material em texto
Testes de Hipo´teses sobre a me´dia: Va´rias Amostras Na aula de hoje veremos como comparar mais de duas populac¸o˜es, baseados em dados forneci- dos por amostras dessas populac¸o˜es. A Ana´lise de Variaˆncia (ANOVA) e´ uma te´cnica usada em Estat´ıstica para este fim e requer que a varia´vel sob ana´lise tenha distribuic¸a˜o normal. Uma versa˜o na˜o parame´trica para a compara- c¸a˜o de va´rias populac¸o˜es e´ o teste de Kruskal- Wallis que tambe´m sera´ apresentado na aula de hoje. 1 EXEMPLO 1: (A´LCOOL E HABILIDADE DE DIRIGIR) Trinta e seis (36) pessoas participaram de um experimento para descobrir os efeitos do a´lcool na habilidade de dirigir. Elas foram aleato- riamente associadas a uma de treˆs condic¸o˜es: placebo, pouco a´lcool e muito a´lcool. A bebida na˜o-alcoo´lica parecia e tinha o mesmo gosto das demais. Os participantes foram pesados e tomaram a quantidade apropriada de bebida. Observe que temos uma situac¸a˜o de amostras independentes (interparticipantes), pois os gru- pos sa˜o diferentes. Uma hora apo´s beber, os participantes dirigiram em um simulador du- rante 10 minutos e o nu´mero de erros que eles cometeram foi automaticamente registrado por um computador. Os dados obtidos esta˜o na tabela a seguir. 2 Placebo Pouco A´lcool Muito A´lcool 5 5 8 10 7 10 7 9 8 3 8 9 5 2 11 7 5 15 11 6 7 2 6 11 3 4 8 5 4 8 6 8 17 6 10 11 x¯ = 5,83 x¯ = 6,17 x¯ = 10,25 s = 2,69 s = 2,33 s = 3,05 Ha´ diferenc¸a significativa entre am me´dias dos diferentes grupos (placebo, pouco a´lcool e mui- to a´lcool)? Em caso afirmativo, a diferenc¸a esta´ presente entre todos os grupos ou em apenas um em relac¸a˜o aos demais? 3 Ana´lise Explorato´ria dos dados: a seguir apre- senta-se um box-plot(gra´fico caixa) dos resul- tados para cada grupo. 4 Na ANOVA a um fator com amostras indepen- dentes, os dados podem ser representados da seguinte forma cond. 1 cond. 2 ... cond. a y11 y12 ... y1a y21 y22 ... y2a ... ... ... ... yn11 yn22 ... ynaa Como as amostras sa˜o independentes, elas po- dem ter tamanhos diferentes. a representa o nu´mero de condic¸o˜es diferentes. nj representa o nu´mero de observac¸o˜es sob a j-e´sima condic¸a˜o, j = 1,2, ..., a yij representa a i-e´sima observac¸a˜o sob a j- e´sima condic¸a˜o, i = 1,2, ..., nj e j = 1,2, ..., a. 5 O nome em Estat´ıstica para um experimento com essa cofigurac¸a˜o e´ experimento a um fator completamente aleatorizado. No Bioestat a func¸a˜o apropriada para esse caso esta´ em Estat´ısticas, Ana´lise da Variaˆncia, ANOVA:um crite´rio. 6 Um teste de hipo´teses apropriado aqui e´{ H0 : µ1 = µ2 = ... = µa H1 : pelo menos uma das me´dias e´ diferente das demais µj corresponde a` me´dia do j-e´simo grupo. Neste exemplo temos treˆs grupos tal que j = 1,2,3. A te´cnica que iremos trabalhar, Ana´lise de Va- riaˆncia (ANOVA) requer que as amostras pro- venham de populac¸o˜es normais com variaˆncias iguais. O Bioestat tem testes que verificam a norma- lidade. A ANOVA busca por diferenc¸as entre as me´dias dos grupos. Quando as me´dias sa˜o bem dife- rentes, dizemos que existe um alto grau de variac¸a˜o entre condic¸o˜es. Se na˜o existirem diferenc¸as entre as me´dias dos grupos, na˜o existira´ variac¸a˜o entre as condic¸o˜es. 7 Variaˆncia entre grupos: corresponde a` variac¸a˜o devida a`s condic¸o˜es que definem os grupos. Variaˆncia intra-grupos: corresponde a` variac¸a˜o dentro de cada grupo. Na ANOVA a um fator com amostras inde- pendentes a variac¸a˜o total e´ decomposta em duas parcelas correspondentes a` variac¸a˜o entre grupos e a` variac¸a˜o intra-grupos. SQTot︸ ︷︷ ︸ variac¸a˜o total = SQentre︸ ︷︷ ︸ variac¸a˜o entre grupos + SQdentro︸ ︷︷ ︸ variac¸a˜o dentro dos grupos Se a hipo´tese nula de que todas as me´dias sa˜o iguais, isto e´, de que na˜o ha´ variac¸a˜o entre grupos, e´ ver- dadeira, segue que a variac¸a˜o dentro dos grupos tende a ser igual a` variac¸a˜o total. 8 Notac¸a˜o: SQTot: variac¸a˜o total, SQentre: va- riac¸a˜o entre grupos e SQdentro: variac¸a˜o intra grupos. QMTot = SQTot N − 1: e´ uma me´dia da variac¸a˜o to- tal. N e´ o nu´mero total de observac¸o˜es no pro- blema. No exemplo que estamos considerando N = 3× 12 = 36. QMentre = SQentre a− 1 : e´ uma me´dia da variac¸a˜o entre grupos, chamada quadrado me´dio entre grupos. a e´ o nu´mero de grupos (condic¸o˜es) no pro- blema. No exemplo que estamos considerando a = 3. QMdentro = SQdentro N − a : e´ uma me´dia da variac¸a˜o intra grupos, chamada quadrado me´dio intra grupos. 9 A estat´ıstica do teste realizado pela ANOVA e´ dada pela raza˜o dos quadrados me´dios entre grupos e intra grupos, a saber, F = QMentre QMdentro . Se a hipo´tese nula e´ verdadeira, e´ poss´ıvel mos- trar que a estat´ıstica F tem uma distribuic¸a˜o F de Snedecor com a− 1 e N − a graus de liber- dade no numerador e denominador, respecti- vamente. Se a hipo´tese nula e´ verdadeira, espera-se que a raza˜o entre os quadrados me´dios entre e den- tro dos grupos seja pequena. Em geral, re- jeitaremos H0 quando os valores amostrais de F forem grandes. 10 A Distribuic¸a˜o F de Snedecor A distribuic¸a˜o F esta´ definida para valores po- sitivos e apresenta assimetria positiva. A seguir veja um gra´fico da densidade F com 4 e 2 graus de liberdade. 11 Usando um n´ıvel de significaˆncia α, a Regia˜o Cr´ıtica do teste da ANOVA sera´ a cauda su- perior da distribuic¸a˜o Fa−1,N−a de a´rea α. 12 Na ANOVA e´ comum apresentar os resultados usando uma tabela chamada tabela ANOVA. Esta tabela conte´m as seguintes informac¸o˜es: fontes de variac¸a˜o, graus de liberdade, quadra- dos me´dios e a raza˜o F . fonte de variac¸a˜o SQ gl QM F entre grupos SQentre a− 1 QMentre F = QMentreQMdentro dentro dos grupos (residual) SQdentro N − a QMdentro total SQTot N − 1 QMentre = SQentre a− 1 , QMDentro = SQdentro N − a Se o valor de F for grande, H0 sera´ rejeitada. 13 Uma outra medida que tambe´m decorre da ana´lise de variaˆncia e´ a chamada porcenta- gem da variac¸a˜o total explicada pelo fator sob considerac¸a˜o. Vimos que SQTot︸ ︷︷ ︸ variac¸a˜o total = SQentre︸ ︷︷ ︸ variac¸a˜o entre grupos + SQdentro︸ ︷︷ ︸ variac¸a˜o dentro dos grupos Essa equac¸a˜o leva a` seguinte definic¸a˜o R2 = SQentre SQTot Observe que R2 esta´ entre 0 e 1. Quanto maior for o valor de R2, mais o fator explica a variac¸a˜o dos dados no problema. 14 O Bioestat tem a func¸a˜o ANOVA. No caso do exemplo apresentado devemos escolher: Estat´ısticas, Ana´lise da Variaˆncia, ANOVA: um crite´rio. O quadro a seguir mostra a sa´ıda do Bioestat para os dados do exemplo sob considerac¸a˜o. 15 Do quadro anterior podemos ver que o p-valor do teste ANOVA e´ muito pequeno (menor que 0,001), indicando que esses dados trazem evi- deˆncia muito forte contra a hipo´tese nula de que as me´dias sob as diferentes condic¸o˜es sa˜o iguais. Observe que o valor da estat´ıstica de teste F tambe´m e´ grande. Logo, devemos rejeitar H0 em favor da hipo´tese alternativa de que pelo menos uma das me´dias e´ diferente das demais. Se a hipo´tese nula, me´dias iguais, for rejeitada, significa que ha´ evideˆncia de que existem dife- renc¸as nas me´dias de tratamento. Observe que a hipo´tese alternativa e´ bastante vaga: pelo menos uma me´dia e´ diferente das demais. A diferenc¸a existente na˜o e´ especificada por H1. 16 Dado que rejeitamos H0, sera´ importante saber, por exemplo, se as me´dias sa˜o duas a duas diferentes entre si, ou se uma delas e´ diferente das demais, ou outraspossibilidades contem- pladas por H1. Existem va´rios testes de comparac¸a˜o das me´- dias duas a duas, no caso de rejeic¸a˜o de H0 na ANOVA. Vamos apresentar aqui o teste de Tukey. 17 Comparac¸o˜es de pares de me´dias de trata- mento Vamos ver a seguir o me´todo de Tukey desig- nado para este tipo de comparac¸a˜o: { H0 : µi = µk, ∀i 6= k H1 : pelo menos um par de me´dias e´ desigual . Teste de Tukey (1953): Procedimento para o qual o n´ıvel de significaˆncia global e´ exata- mente α, quando os tamanhos amostrais sa˜o iguais e no ma´ximo α, quando os tamanhos sa˜o desiguais. Este procedimento tambe´m pode ser usado para construir intervalos de confianc¸a sobre as diferenc¸as de todos os pares de me´dias. Para estes intervalos, o n´ıvel de confianc¸a si- multaˆneo e´ 100(1−α)% para amostras de tama- nhos iguais e pelo menos 100(1 − α)% para amostras de tamanhos desiguais. 18 O procedimento de Tukey usa a distribuic¸a˜o da estat´ıstica de variac¸a˜o “studentizada” q = y¯max − y¯min√ QMdentro/n , com y¯max e y¯min a maior e a menor entre as me´dias de tratamento. Para tamanhos amostrais iguais, o teste de Tukey declara que duas me´dias sa˜o significa- tivamente diferentes se o valor absoluto da diferenc¸a amostral excede Tα = qα(a,N − a) √ QMdentro n . Valores de qα(a,N−a) sa˜o tabulados em textos especializados de Estat´ıstica e tambe´m esta˜o dispon´ıveis em programas computacionais. 19 Atenc¸a˜o: E´ poss´ıvel ocorrer a seguinte situac¸a˜o: (i) rejeita-se H0 via ANOVA. (ii) na˜o sa˜o encontradas diferenc¸as significa- tivas quando se comparam as me´dias duas a duas. Esta situac¸a˜o tem uma explicac¸a˜o, pois o teste F e´ um teste simultaˆneo de todos as com- parac¸o˜es poss´ıveis e na˜o apenas das me´dias duas a duas. Se isso ococrrer significa que o contraste signi- ficativo na˜o sera´ uma comparac¸a˜o simples de duas me´dias. 20 Rodando as comparac¸o˜es, via teste de Tukey, dos pares de me´dias dos diferentes grupos para o problema sob estudo no Bioestat obtemos o seguinte quadro: 21 Pela sa´ıda no Bioestat podemos concluir que a me´dia sob a condic¸a˜o muito a´lcool e´ significati- vamente diferente das outras duas me´dias, mas as me´dias sob as condic¸o˜es placebo e pouco a´lcool na˜o sa˜o significativamente diferentes. Na sa´ıda do programa temos um resumo da tabela ANOVA, as me´dias amostrais em cada grupo e as linhas comparando os pares de me´- dias duas a duas. ns representa na˜o significativo. Assim, as me´dias sob placebo e pouco a´lcool na˜o sa˜o significativamente diferentes. Observe tambe´m, pelo quadro anterior, que R2 = 145,167 145,167 + 241,583 ' 0,375 ou 37,5%. 22 EXEMPLO 2: Um laborato´rio farmaceˆutico deseja investigar a bioatividade de uma nova droga. Um experimento a um fator comple- tamente aleatorizado foi conduzido com treˆs n´ıveis de dosagem da droga, e os resultados obtidos esta˜o na tabela a seguir. 20 g 30 g 40 g 24 37 42 28 44 47 37 31 52 30 35 38 (a) Ha´ evideˆncias para indicar que os n´ıveis de dosagem afetam a bioatividade? Use α = 0,05. (b) Se a sua resposta foi afirmativa, fac¸a com- parac¸o˜es entre os pares de me´dia. Que con- cluso˜es voceˆ pode tirar? 24 Sa´ıda do Bioestat: FV gl SQ QM F p-valor dose 2 450.7 225.33 7.036 0.0145 * Residuals 9 288.2 32.03 Conclu´ımos, ao n´ıvel de significaˆncia de 5% que ha´ efeito de dosagem na bioatividade. A porcentagem da variac¸a˜o total explicada pela dosagem e´ dada por 450,7 450,7+288,2 ' 0,61 ou 61%. 25 (b) Vamos usar o prodedimento de Tukey para comparar as me´dias duas a duas. Sa´ıda do Bioestat: diferenc¸a p-valor 30-20 7 0.2403 40-20 15 0.0114 40-30 8 0.1680 Observa-se que a diferenc¸a existe entre a dosa- gem menor e a dosagem maior. Entre dosagens consecutivas, a diferenc¸a na˜o e´ significativa. 26 Ale´m disso, pelos efeitos estimados, conclu´ımos que maior e´ a dosagem, maior sera´ a bioativi- dade. 27 Amostras relacionadas: experimento intrapar- ticipantes: Como fica? Em Estat´ıstica o nome usado para esse tipo de situac¸a˜o e´ Experimento a um fator em Blocos Completos Aleatorizados. No Bioestat usa-se a seguinte func¸a˜o para esse caso: Estatisticas, Ana´lise da Variaˆncia, ANO- VA:dois crite´rios. Suponha agora que no experimento do exem- plo anterior participam apenas 12 pessoas e que em intervalos de tempo espac¸ados elas se- jam submetidas, em ordem aleato´ria, a cada uma das condic¸o˜es: placebo, pouco a´lcool e muito a´lcool. Ou seja, agora sa˜o as mesmas pessoas que sa˜o observadas sob cada condic¸a˜o. 28 Nesse caso as amostras na˜o sa˜o independentes e ale´m da variac¸a˜o entre grupos e dentro do grupos, passamos a poder medir uma variac¸a˜o inerente a cada participante (variac¸a˜o de linha, tambe´m chamada variac¸a˜o devido aos blocos). Observe que agora as amostras sob cada con- dic¸a˜o tera˜o tamanhos iguais. Na ANOVA a um fator com amostras rela- cionadas(medidas repetidas), os dados podem ser representados da seguinte forma cond. 1 cond. 2 ... cond. a y11 y12 ... y1a y21 y22 ... y2a ... ... ... ... yn1 yn2 ... yna Como as amostras sa˜o as mesmas, elas teˆm tamanhos iguais. 29 cond. 1 cond. 2 ... cond. a y11 y12 ... y1a y21 y22 ... y2a ... ... ... ... yn1 yn2 ... yna a representa o nu´mero de condic¸o˜es diferentes. n representa o nu´mero de observac¸o˜es sob cada condic¸a˜o. N = an e´ o nu´mero total de observac¸o˜es. yij representa a i-e´sima observac¸a˜o sob a j- e´sima condic¸a˜o, i = 1,2, ..., n e j = 1,2, ..., a. 30 Na ANOVA a um fator com amostras rela- cionadas a variac¸a˜o total e´ decomposta em treˆs parcelas correspondentes a` variac¸a˜o entre grupos, a variac¸a˜o inerente a cada participante (variac¸a˜o dos blocos) e a variac¸a˜o residual. SQTot︸ ︷︷ ︸ variac¸a˜o total = SQentre︸ ︷︷ ︸ variac¸a˜o entre grupos + SQBl︸︷︷︸ variac¸a˜o do indiv´ıduo + SQres︸ ︷︷ ︸ variac¸a˜o residual Notac¸a˜o: SQTot: variac¸a˜o total, SQentre: variac¸a˜o entre grupos, SQBl - variac¸a˜o nos blocos (individual) e SQdentro: variac¸a˜o residual (dentro de cada grupo). QMTot = SQTot N − 1: e´ uma me´dia da variac¸a˜o total. N e´ o nu´mero total de observac¸o˜es no problema. QMentre = SQentre a− 1 : e´ uma me´dia da variac¸a˜o entre grupos, chamada quadrado me´dio entre grupos. a e´ o nu´mero de grupos (condic¸o˜es) no problema. QMBl = SQBl n− 1: e´ uma me´dia da variac¸a˜o dos blocos, chamada quadrado me´dio dos blocos. n e´ o nu´mero de observac¸o˜es (igual) sob cada condic¸a˜o. QMdentro = SQdentro (a− 1)(n− 1): e´ uma me´dia da variac¸a˜o residual, chamada quadrado me´dio residual ou intra grupos. 31 A estat´ıstica do teste realizado pela ANOVA nesse caso e´ dada pela raza˜o dos quadrados me´dios entre grupos e residual, a saber, F = QMentre QMdentro . Se a hipo´tese nula e´ verdadeira, e´ poss´ıvel mos- trar que a estat´ıstica F tem uma distribuic¸a˜o F de Snedecor com a−1 e (a−1)(n−1) graus de liberdade no numerador e denominador, re- spectivamente. Se a hipo´tese nula e´ verdadeira, espera-se que a raza˜o entre os quadrados me´dios entre e den- tro dos grupos seja pequena. Em geral, re- jeitaremos H0 quando os valores amostrais de F forem grandes. 32 A tabvela ANOVA correspondente a esse caso e´ dada por fonte de variac¸a˜o SQ gl QM F entre grupos SQentre a− 1 QMentre F = QMentreQMdentro blocos (individual) SQBl n− 1 QMBl dentro dos grupos (residual) SQdentro (a− 1)(n− 1) QMdentro total SQTot N − 1 QMentre = SQentre a− 1 , QMDentro = SQdentro (a− 1)(n−1) Se o valor de F for grande, H0 sera´ rejeitada. O Bioestat tem essa func¸a˜o. Estat´ısticas, Ana´lise da Variaˆncia, ANOVA: dois crite´rios. 33 O quadro a seguir mostra a sa´ıda do Bioestat para os dados do exemplo sob considerac¸a˜o. Podemos perceber que o teste ANOVA rejeita H0, pois o p-valor e´ muito pequeno. Logo, faz sentido realizar as comparac¸o˜es de me´dias duas a duas. 34 O quadro a seguir mostra a sa´ıda do Bioestat usando o procedimento de Tukey. 35 Cuidado: toda vez que as medidas forem repeti- das para as mesmas unidades amostrais e´ fun- damental rodar a ANOVA a dois crite´rios, pois caso contra´rio a variac¸a˜o dentro dos grupos podera´ ficar inflacionada acarretando na na˜o rejeic¸a˜o de H0 um maior nu´mero de vezes por conta da variac¸a˜o residual inflacionada, ou seja, aumentando a chance de cometer o erro tipo II. Se as amostras forem relacionadas, ou seja, se for um experimento intra-participantes, rode o a ANOVA a dois crite´rios. 36 Vamos agora apresentar um me´todo na˜o-para- me´trico para a ana´lise de variaˆncia (ANOVA): O teste de Kruskal-Wallis Em situac¸o˜es nas quais a suposic¸a˜o de nor- malidade na˜o e´ justificada, existe um procedi- mento alternativo ao teste F da ANOVA que na˜o depende desta suposic¸a˜o. Um procedi- mento desse tipo foi desenvolvido por Kruskal e Wallis em 1952. Neste teste, H0 corresponde a` hipo´tese de que os a tratamentos (grupos ou condic¸o˜es) sa˜o ideˆnticos versus a alternativa de que algum tratamento (grupo ou condic¸a˜o) gera observa- c¸o˜es que sa˜o maiores que as outras geradas pe- los outros tratamentos (grupos ou condic¸o˜es). 37 Como este procedimento e´ designado para ser sens´ıvel para testar diferenc¸as em me´dias, al- gumas vezes e´ conveniente pensar no teste de Kruskal-Wallis como um teste para a igualdade de me´dias de tratamento (grupo ou condic¸a˜o). Este teste e´ uma alternativa na˜o-parame´trica a` ANOVA usual. Passos no teste Kruskal-Wallis P1) Designe postos rij a`s observac¸o˜es yij em ordem crescente das observac¸o˜es. Em caso de empate, designe a`s observac¸o˜es empatadas a me´dia dos postos correspondentes caso na˜o houvesse empate. yij representa a i-e´sima observac¸a˜o do j-e´simo grupo. 38 P2) Calcule a soma dos postos para cada trata- mento (grupo ou condic¸a˜o), a saber, ri. = ni∑ j=1 rij, i = 1,2, ..., a. P3) Calcule a estat´ıstica de teste H dada por H = 1 S2 { N a∑ i=1 (R¯i. − R¯..)2 } = 1 S2 [ a∑ i=1 R2i. ni − N(N + 1) 2 4 ] com ni o nu´mero de observac¸o˜es no i-e´simo tratamento (grupo), N o nu´mero total de replicac¸o˜es, e S2 = 1 N−1 a∑ i=1 n∑ j=1 (Rij−R¯..)2 = 1 N − 1 a∑ i=1 ni∑ j=1 R2ij − N(N + 1)2 4 . Observe que S2 e´ a variaˆncia amostral dos pos- tos. Se na˜o existem empates, S2 = N(N+1)/12 e a estat´ıstica de teste sim- plifica para H = 12 N(N + 1) a∑ i=1 R2i. ni − 3(N + 1). 39 Quando o nu´mero de empates e´ moderado, havera´ pouca diferenc¸a entre as duas expres- so˜es para H e a forma mais simples pode ser usada. Se os ni’s sa˜o razoavelmente grandes, digamos ni ≥ 5, ∀ i, a distribuic¸a˜o de H e´ aproximadamente uma Qui-quadrado com a−1 graus de liberdade sob H0. Portanto, a regia˜o cr´ıtica do teste a um n´ıvel α de significaˆncia, sera´ dada por H ≥ χ2(1−α),a−1. O p-valor tambe´m pode ser usado. :) Calma: o Bioestat conte´m esse teste e voceˆ na˜o precisara´ se preocupar em designar postos e calcular a estat´ıstica H. 40 Vamos rodar o teste proposto por Kruskal- Wallis no Bioestat. Estat´ısticas seguido de Ana´lise da Variaˆncia seguido de Kruskal-Wallis. Indique as colunas contendo os dados e exe- cute para obter Como podemos ver o p-valor e´ pequeno, in- dicando que os dados trazem evideˆncia muito forte contra H0. 41 Novamente, como H0 e´ rejeitada, faz sentido em comparar os pares de me´dias duas a duas. No Bioestat ha´ dois testes dispon´ıveis: Dunn e Student-Newman-Keuls. Rodando o procedimento porposto por Dunn obte´m-se 42 Refereˆncias bibliogra´ficas: (1) Busssab e Morettin - Estat´ıstica Ba´sica. Editora Saraiva (2) Triola. Introduc¸a˜o a` Estat´ıstica. LTC. (3) Dancey e Reidy - Estat´ıstica sem Matema´tica para Psicologia - Penso 43
Compartilhar