Baixe o app para aproveitar ainda mais
Prévia do material em texto
Rev. Mat. Estat., São Paulo, v.23, n.3, p.71-85, 2005 71 ABORDAGEM NÃO-PARAMÉTRICA DO PROBLEMA DE BEHRENS-FISHER USANDO BOOTSTRAP Juliana Carvalho NERY1 Daniel Furtado FERREIRA1 Lucas Monteiro CHAVES1 ��RESUMO: O objetivo desse trabalho foi avaliar o poder e a taxa de erro tipo I de um teste não- paramétrico baseado em postos proposto por Brunner e Munzel (2000) e para uma alternativa de bootstrap desse critério. Os resultados encontrados foram comparados ao teste paramétrico t de Student, que é o mais comumente utilizado quando ambas as amostras são provenientes de populações normais com variâncias iguais, e ao teste não-paramétrico de Mann-Whitney (1947). Foram simuladas amostras de duas populações considerando um modelo normal com variâncias heterogêneas. O teste Brunner e Munzel Bootstrap (BB) foi o único a controlar a taxa de erro tipo I no valor nominal de 5% para amostras iguais e pequenas e com heterogeneidade de variâncias; Nessa mesma situação, porém com diferença entre as médias de k = 0,5 erro-padrão, esse teste apresenta maiores poderes em relação aos demais competidores. Tanto para amostras intermediárias e de tamanhos iguais e k = 2, quanto para grandes amostras e de tamanhos iguais e elevada heterogeneidade o teste BB apresenta maior poder juntamente com o MW em relação aos demais concorrentes. ��PALAVRAS-CHAVE: Testes não-paramétricos; Behrens-Fisher; bootstrap; simulação; heterogeneidade de variâncias. 1 Introdução A comparação de duas médias populacionais é um problema que faz parte do objetivo de inúmeras pesquisas. Muitas vezes o interesse do pesquisador tem foco na comparação das médias de duas populações que podem ser, por exemplo, a comparação de uma variedade nova com outra, comercial padrão, ou de um novo fármaco com um placebo, ou de duas rações comerciais, entre outras situações. Para atender esse objetivo, duas amostras independentes são obtidas, uma de cada população e em seguida é aplicado um teste. Para aplicação desse teste algumas alternativas podem ser realizadas. Essas alternativas dependem do atendimento ou não de algumas pressuposições. Assim, sob normalidade e homogeneidade de variância a opção exata e mais poderosa é o teste t de Student (Cochran, 1964; Zar, 1996). Se houver a violação da pressuposição de homogeneidade, considerando ainda a normalidade, o teste t pode ser empregado, mas sujeito a correção dos graus de liberdade proposta por Satterthwaite (1946). Nesse caso, o 1 Departamento de Ciências Exatas, Universidade Federal de Lavras – UFLA, CEP 37200-000, Lavras, MG, E-mail: danielff@ulfa.br 72 Rev. Mat. Estat., São Paulo, v.23, n.3, p.71-85, 2005 teste de t perde poder e não controla a taxa de erro tipo I adequadamente no valor nominal de significância adotado. Finalmente, se houver violação da normalidade dos dados de cada amostra, as alternativas não-paramétricas ou de computação intensiva (bootstrap, aleatorização etc.) podem ser usados (Zar, 1996; Manly, 1998). Sob a violação da homogeneidade de variâncias, as alternativas não-paramétricas e de computação intensiva são viáveis de serem empregadas. A comparação de duas médias de populações normais com variâncias heterogêneas é a situação identificada como problema de “Behrens-Fisher” (Behrens, 1929; Fisher, 1939). Dentre as técnicas de computação intensiva o procedimento de bootstrap tem um destaque especial (Manly, 1998). Para a comparação de duas médias populacionais a técnica de bootstrap consiste em compor uma amostra comum originada da junção das amostras individuais de cada população. A partir dessa amostra, são obtidas por reamostragem com reposição amostras do mesmo tamanho daquelas extraídas individualmente de cada população. A estatística do teste é computada e o procedimento é repetido milhares de vezes. Com os milhares de valores da estatística é possível obter uma distribuição de probabilidade empírica e efetuar testes de hipóteses e estimação de parâmetros. (Manly, 1998). Se as pressuposições de normalidade e homogeneidade são atendidas os procedimentos de bootstrap são equivalentes ao teste t de Student. Nesse caso, o esforço computacional requerido para efetuar o bootstrap é muito elevado, tornando esse procedimento menos interessante de ser usado pois o custo em termos de tempo de análise é maior. Por outro lado, se as pressuposições são violadas o bootstrap apresenta resultados mais eficientes e precisos, compensando o tempo extra requerido (Manly, 1998). Os testes não-paramétricos de comparação de duas médias populacionais independentes são usados, em geral, quando as pressuposições de normalidade e homogeneidade são violadas. No caso dessas pressuposições serem atendidas, verifica-se que o teste não-paramétrico é considerado menos poderoso do que o teste t paramétrico. Por outro lado, se as pressuposições forem violadas o poder dos testes não-paramétricos é maior. Os testes não-paramétricos não fazem pressuposições sobre a natureza da distribuição das populações amostradas. O teste mais utilizado é o de Mann-Whitney (1947). Além desse, pode-se citar o teste da mediana (Mood et al., 1974). Uma excelente aproximação normal da estatística do teste de Mann-Whitney é apresentada em Zar (1996). Este teste é considerado o mais poderoso entre os testes não-paramétricos, no entanto, apresenta cerca de 95% do poder do teste t se as pressuposições são atendidas e é mais poderoso que o t se as pressuposições forem violadas. O teste de Mann-Whitney é afetado por parâmetros de escalas e também por parâmetros de dispersão e forma das populações amostradas. O efeito da dispersão é considerado de maior impacto na performance do teste (Zar, 1996). Este teste pode ser conservativo ou não-conservativo dependendo das diferenças de tamanhos de amostras e da razão das variâncias das populações de referência. O teste é conservativo quando a maior amostra é obtida da população de maior variância e não-conservativo no caso oposto. A simulação Monte Carlo tem sido constantemente usada para avaliar e comparar a acurácia de testes estatístico (Borges e Ferreira, 1999). As taxas de erro tipo I, ou seja, a probabilidade de rejeitar Ho verdadeira e as taxas de erro tipo II, a probabilidade de não rejeitar Ho que é de fato falsa, têm sido os critérios de tais estudos (Hodges e Lehmann, 1956; Borges e Ferreira, 1999). Rev. Mat. Estat., São Paulo, v.23, n.3, p.71-85, 2005 73 Procurando uma alternativa de ampla utilização, tanto para distribuições populacionais contínuas quanto para discretas, Brunner e Munzel (2000) apresentam um teste baseado em postos. Uma aproximação normal assintótica é apresentada e uma aproximação para pequenas amostras, baseada na distribuição t de Student. A acurácia desse procedimento foi avaliada por simulação. Para amostras intermediárias e maiores o teste apresentou controle adequado das taxas de erro tipo I. Para amostras extremamente pequenas (ni < 10, i = 1 ou 2) o teste não controlou adequadamente as taxas de erro tipo I. Nenhum estudo de poder foi apresentado pelos autores. O presente trabalho teve os seguintes objetivos: a) Avaliar o poder e taxa de erro tipo I de uma alternativa de bootstrap do critério não- paramétrico de Brunner e Munzel (2000) por meio de simulação Monte Carlo considerando o problema de Behrens-Fisher; b) Avaliar o poder e a taxa de erro tipo I do critério não-paramétrico original e de uma alternativa bootstrap; c) Comparar o poder e taxas de erro tipo I dessas alternativas com os testes de Mann- Whitney e t de Student com a correção nos graus de liberdade proposta por Satterthwaite. 2 Metodologia Inicialmente foram simuladas amostras de duas populações (1 e 2) de acordo com o modelo estatístico 1. = +i j i i jX µ ε (1) em que, Xi j é o valor observado na amostra referente a i-ésima população e j-ésima unidade amostral; iµ é a média da i-ésima população; ji ε é o efeitodo erro experimental gerado de uma distribuição normal com média 0 e variância 2iσ ; i = 1 ou 2; j = 1,2, ... ,ni; ni é o tamanho da amostra extraída da i-ésima população. Duas etapas foram consideradas no processo de simulação. A primeira referiu-se a avaliação da taxa de erro tipo I e os valores de iµ foram considerados iguais a zero para i = 1 ou 2, sem perda de generalidade. A segunda etapa referiu-se a avaliação do poder e os valores de 1µ foram considerados iguais a zero e o valor de 2µ foi função de erro- padrão da diferença entre médias, equação 2. 1 2 2 2 1 2 2 1 1 2 X Xk k n n σ σµ µ σ −= + = + (2) em que, k é uma quantidade real positiva que foi especificada e refere-se a diferença das médias expressas em números de erros-padrão da diferença de médias amostrais. Os tamanhos amostrais considerados no presente estudo foram ni = 2(1)10(5)30(10)60. Foram consideradas situações em que n1 = n2 e algumas situações 74 Rev. Mat. Estat., São Paulo, v.23, n.3, p.71-85, 2005 em que n1 ≠ n2. Os valores de k foram iguais a 0, 0,5, 1, 2, e 4. A variância da população 1 foi considerada igual a 1 e a da população 2 foi determinada em função da heterogeneidade de variâncias pretendida, equação 3. 2 22 22 1 σδ σ δ σ = � = (3) em que, os valores de δ , razão de variâncias, foram os seguintes: 1, 2, 8 e 16. Os valores de ji ε foram simulados usando o teorema da probabilidade integral (Hoel et al., 1978) e algoritmo apresentado em Dachs (1998). Após a simulação das amostras em cada etapa foram aplicados os testes de Brunner e Munzel (2000), Mann-Whitney (1947) e t de Student conforme descrição apresentada a seguir. Foram consideradas 2.000 simulações para cada configuração envolvendo os diferentes tamanhos amostrais, diferenças de médias e razão de variâncias. As taxas de erro tipo I e o poder foram computados pelo número de simulações que apresentaram significâncias (P < α) nos respectivos testes e etapas. Os valores de α considerados foram de 5% e 1%. O teste de Brunner e Munzel (2000) é apresentado na seqüência. Definindo Rij como o número de ordem da observação Xij entre todas as n = n1 + n2 observações X11, X12, ... , 22n X . Definiu-se, ainda, a média do número de ordem na i-ésima população na equação (4), a qual foi computada para cada amostra. 1 in ij j i i i i R R R n n = • • = = � (4) A estatística Wn, definida em (5) foi, então, computada. 2 11 ˆn n R R W n σ • − •= × (5) em que, nσ � foi definido em (6), sendo calculado para ser substituído em (5). � � � � � � += 2 2 2 1 2 1 ˆˆˆ nn nn σσσ (6) Os estimadores 2iσ � de (6), por sua vez foram computados de acordo com (7). 2 2 2 ˆ ( ) i i i S n n σ = − (7) em que, Rev. Mat. Estat., São Paulo, v.23, n.3, p.71-85, 2005 75 2 2 ( ) 1 11 1 2 in i i i ij ij i ji n S R R R n •= + = − − +� �− � � (8) é a variância empírica de Rij - (i) ijR . A variável (i)ijR definida em (8) refere-se ao número de ordem da observação (i) ijX entre todas as ni observações Xi1, Xi2, ... , 2in X , ou seja, é o número de ordem interno da observação Xij entre as ni observações dentro da i-ésima amostra, i = 1 ou 2. A aproximação t da estatística Wn para pequenas amostras seguiu a recomendação de Brunner e Munzel (2000), com uso dos graus de liberdade ajustados ν, cuja expressão está apresentada em (9). ( ) 222 1 2 22 1 ˆ ˆ 1 i i i i i i i n n n σ ν σ = = � � �= � � � �− � � � (9) Simultaneamente com a aplicação do teste Wn original, foi considerada uma versão de bootstrap. Para isso as amostras 1 e 2 foram unidas compondo uma amostra comum. Dessa amostra foram sorteados com reposição n1 elementos para compor uma nova amostra da população 1 e outra de n2 elementos para a população 2. A estatística (5) foi calculada em cada uma dessas reamostragens. Foi obtido um total de 2.000 reamostragens. Dessa forma, a proporção de estimativas de bootstrap de Wn que em módulo foi superior a estatística Wn das amostras originais é o estimador da significância empírica. Concomitantemente, foram aplicados os testes t convencional com correção de graus de liberdade proposta por Satterthwaite (1946) e de Mann-Whitney (1947) de acordo com procedimentos descritos em Zar (1996). 3 Resultados e discussão Nas Figuras 1 (a) e (b) estão apresentadas às taxas de erro tipo I para α igual a 5% e 1% dos quatro testes avaliados nesse trabalho: o teste t (t), o teste de Brunner e Munzel (B), o teste de Mann-Whitney (MW) e a versão bootstrap do teste Brunner e Munzel (BB). Os valores esperados para a taxa de erro tipo I considerando o valor nominal de 5% e o intervalo de confiança de 99% para proporções (Leemis e Trivedi, 1996) são 0,0383 e 0,0639. Para α igual a 1% o intervalo de confiança é 0,0052 e 0,0173. Assim, todos os valores obtidos para taxa de erro tipo I que se encontrarem nesses intervalos são considerados iguais aos valores nominais adotados. Para amostras de mesmos tamanhos e pequenas (n1 = n2 = 5) com δ = 1 verificou-se que os únicos testes que controlaram a taxa de erro tipo I foram o teste t e o MW. 76 Rev. Mat. Estat., São Paulo, v.23, n.3, p.71-85, 2005 O teste B foi não-conservativo e BB foi conservativo para taxas de erro nominal de 5% (a). O teste B foi não-conservativo, ainda, quando se considerou o nível nominal de 1%. Para essa mesma situação de tamanhos amostrais iguais, mas com heterogeneidade de variâncias o teste t passou a apresentar taxas superiores a taxa nominal de 1%, os teste B e a 5% e o de MW foram não-conservativos para 1% e o teste BB apresentou taxas de erro tipo I igual ao valor nominal para 5% e valor superior ao nominal para 1%. Para grandes amostras de tamanhos iguais (n1 = n2 = 30) os testes, em geral, apresentaram taxas iguais ou próximas aos valores nominais. Com δ = 16 o teste MW apresentou taxas significativamente superiores às nominais. É conveniente salientar que a versão bootstrap do teste de Brunner e Munzel (BB) para amostras iguais e extremamente pequenas e com heterogeneidade pronunciada das variâncias foi a única a apresentar taxa de erro tipo I não significativamente diferente do valor nominal de 5% (dados não apresentados). Para 1%, embora não tenha controlado a taxa de erro tipo I, o teste t foi o que apresentou melhores resultados para n1 = n2 = 5 e δ = 16. Em geral, o que se percebe é que para grandes amostras o teste de MW, na presença de grande heterogeneidade de variâncias δ = 16, tende a ser não-conservativo. Da mesma forma, para níveis de significância nominais menores, em situações de grandes heterogeneidades há uma maior tendência dos testes serem não-conservativos em termos relativos. 0 1 2 3 4 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 n 1 =n 2 =30 k=0 δ=16 n 1 =n 2 =30 k=0 δ=1 n 1 =n 2 =5 k=0 δ=16 n 1 =n 2 =5 k=0 δ=1 t B MW BB P or ce nt ag em d e si gn ifi câ nc ia (% ) (a) 0 1 2 3 4 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 n 1 =n 2 =30 k=0 δ=16 n 1 =n 2 =30 k=0 δ=1 n 1 =n 2 =5 k=0 δ=16 n 1 =n 2 =5 k=0 δ=1 P or ce nt ag em d e si gn ifi câ nc ia (% ) t B MW BB (b) FIGURA 1 – Erro tipo I para valor nominal de significância igual (a) 5% e (b) 1% com amostras de tamanhos iguais. Na Figura 2 estão apresentados as situações com amostras de diferentes tamanhos para α igual a 5% (a) e 1% (b). Duas situações distintas foram consideradas, ou seja, ora a população de maior variância estava associada à amostra de menor tamanho e ora à de maior tamanho. Para as situações de n1 = 10 e n2 = 3 com variâncias homogêneas (δ = 1) e α = 5% o teste t e MW controlaram as taxas de erro tipo I e o teste B foi não-conservativo com taxas de erro tipo I maior que 5% e o teste de BB foi considerado conservativo. Para Rev. Mat. Estat., São Paulo, v.23, n.3, p.71-85, 2005 77 α = 1% e δ = 1 os testes t e MW apresentaram taxas iguaisa nominal e os testes B e BB foram considerados não-conservativos. Considerando ainda, n1 = 10 e n2 = 3 só que para δ = 16 verificou-se que todos os testes foram considerados não-conservativos tanto para 5% quanto para 1%. O teste de Brunner e Munzel foi entre eles o que apresentou resultado melhor. Considerando agora a situação em que a população de maior variância teve uma maior amostra associada (n1 = 3 e n2 = 10) o teste t, MW e BB apresentaram taxas de erro tipo I iguais a nominal de 5% para δ = 1. Nessa situação, o teste B apresentou taxas maiores que a nominal. Para α = 1%, nas mesmas condições descritas anteriormente, somente o teste t teve taxas de erro tipo I iguais a nominal, os testes B e BB foram não- conservativos e o teste MW foi conservativo. Para δ = 16, com n1 = 3 e n2 = 10 e α = 5% todos os testes foram conservativos. O teste B foi, no entanto, o que melhor resultados apresentou. Para α = 1% e δ = 16, o teste MW foi o único que controlou as taxas de erro tipo I, sendo o t e BB conservativos e o teste B não-conservativo. 0 1 2 3 4 0 2 4 6 8 10 12 14 16 18 20 n 1 =3; n 2 =10 k=0 δ=16 n 1 =3; n 2 =10 k=0 δ=1 n 1 =10; n 2 =3 k=0 δ=16 n 1 =10; n 2 =3 k=0 δ=1 P o rc e n ta g e m d e s ig n ifi câ n ci a ( % ) t B MW BB (a) 0 1 2 3 4 0 2 4 6 8 10 12 14 16 18 20 n 1 =3; n 2 =10 k=0 δ=16 n 1 =3; n 2 =10 k=0 δ=1 n 1 =10; n 2 =3 k=0 δ=16 n 1 =10; n 2 =3 k=0 δ=1 P or ce nt ag em d e si gn ifi câ nc ia (% ) t B MW BB (b) FIGURA 2 – Erro tipo I para valor nominal de significância igual (a) 5% e (b) 1%, com amostras de tamanhos diferentes. Na Figura 3 apresentam-se as taxas de erro tipo I dos quatro testes para α = 5% em função da razão de variâncias para n1 = 15 e n2 = 5 e também n1 = 5 e n2 = 15. Quando a população de menor variância for àquela associada a maior amostra, os testes tendem a ser não-conservativos com o aumento da heterogeneidade de variâncias (δ) e quando a população de menor variância estiver associada a menor amostra os testes tendem a se tornar conservativos com o aumento de δ. O teste de pior desempenho com n1 > n2 foi o de MW à medida que a heterogeneidade aumentava. O melhor teste na presença de heterogeneidade com n1 < n2 foi o teste de Brunner e Munzel (B). 78 Rev. Mat. Estat., São Paulo, v.23, n.3, p.71-85, 2005 0 2 4 6 8 10 12 14 16 0 2 4 6 8 10 12 14 16 18 20 P or ce nt ag em d e si gn ifi câ nc ia (% ) Razão de variâncias (δ) t (n 1 =15 e n 2 =5) B (n 1 =15 e n 2 =5) t (n 1 =5 e n 2 =15) B (n 1 =5 e n 2 =15) (a) 0 2 4 6 8 10 12 14 16 0 2 4 6 8 10 12 14 16 18 20 P or ce nt ag em d e si gn ifi câ nc ia (% ) Razão de variâncias (δ) MW (n 1 =15 e n 2 =5) BB (n 1 =15 e n 2 =5) MW (n 1 =5 e n 2 =15) BB (n 1 =5 e n 2 =15) (b) FIGURA 3 – Erro tipo I para (a) t e Bruner e (b) MW e BB com amostras de tamanhos diferentes. Nas Figuras 4 e 5 (a) e (b) está apresentado o poder dos quatro testes para k = 0,5, n1 = n2 = 5 ou n1 = n2 = 30, δ = 1, 2, 8 e 16 para α = 5% (Figuras 4 (a) e (b)) e α = 1% ( Figuras 5 (a) e (b) ). Para pequenas amostras de tamanhos iguais n1 = n2 = 5 o teste B foi o que apresentou maiores poderes em relação aos demais, principalmente em situações de pequeno valor de α, como, por exemplo α = 1% (Figura 5 (a)). Nesta última situação o teste BB foi o de segundo maior poder. Na medida em que a heterogeneidade de variâncias aumentou, o teste BB melhorou seu desempenho em relação ao poder. Os valores do poder foram superiores aos dos valores nominais de significância adotados para essas situações. Os testes B e MW apresentaram nessa circunstância poderes inferiores aos valores nominais de significância adotados. O teste t, melhorou sua performance com o aumento da heterogeneidade (δ) das variâncias e tendeu a superar o teste BB quando α foi igual a 5% (Figura 4 (a)). Para grandes amostras e de tamanhos iguais (n1 = n2 = 30) o teste BB apresentou maior poder juntamente com o MW em relação aos seus competidores, para situações de elevada heterogeneidade e principalmente a 5% (Figuras 4 e 5 (b)). Essa é uma vantagem que este teste (BB) apresenta em relação aos seus competidores nas situações em que a violação da pressuposição de homocedastia é mais acentuada e onde o teste t tem maiores deficiências. Ressalta-se, ainda, o fato de que o baixo poder encontrado é devido a magnitude da diferença entre as médias populacionais, a qual foi mantida fixa em k = 0,5 erro-padrão da diferença de média, tanto para pequenas amostras, quanto para grandes amostras. Uma situação apontada na literatura (Zar, 1996) como desfavorável ao teste t em relação ao poder e ao controle das taxas de erro tipo I é quando as amostras são de diferentes tamanhos. Nesse caso, a pior situação é quando a amostra de menor tamanho está associada à população de maior variância. Visando avaliar e comparar o poder dos testes, avaliou-se situações com amostras de tamanhos diferentes (Figuras 6 e 7 (a) e (b)). Rev. Mat. Estat., São Paulo, v.23, n.3, p.71-85, 2005 79 0 1 2 3 4 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 n 1 =n 2 =5 k=0,5 δ=16 n 1 =n 2 =5 k=0,5 δ=8 n 1 =n 2 =5 k=0,5 δ=2 n 1 =n 2 =5 k=0,5 δ=1 P od er (% ) t B MW BB (a) 0 1 2 3 4 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 n 1 =n 2 =30 k=0,5 δ=16n 1 =n 2 =30 k=0,5 δ=8 n 1 =n 2 =30 k=0,5 δ=2n1=n2=30 k=0,5 δ=1 P od er (% ) t B MW BB (b) FIGURA 4 – Poder para diferentes heterogeneidades e tamanhos de amostras iguais e valor nominal de significância igual a 5%. 0 1 2 3 4 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 n 1 =n 2 =5 k=0,5 δ=16 n 1 =n 2 =5 k=0,5 δ=8 n 1 =n 2 =5 k=0,5 δ=2 n 1 =n 2 =5 k=0,5 δ=1 P od er ( % ) t B MW BB (a) 0 1 2 3 4 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 n 1 =n 2 =30 k=0,5 δ=16 n 1 =n 2 =30 k=0,5 δ=8 n 1 =n 2 =30 k=0,5 δ=2 n 1 =n 2 =30 k=0,5 δ=1 P od er (% ) t B MW BB (b) FIGURA 5 – Poder para diferentes heterogeneidades e tamanhos de amostras iguais e valor nominal de significância igual a 1%. Para a situação ideal (δ = 1), α = 5%, n1 = 3 e n2 = 10 e k = 0,5 (Figura 6 (a)), o teste B destacou em relação aos seus competidores. No entanto, nessa mesma situação, com k = 4, o teste B apresentou uma performance muito inferior aos demais testes (Figura 7(a)). Ainda nessa situação, com o aumento de δ de 1 para 16 o teste B melhorou sua performance relativa ao poder, principalmente com k = 4. Mas, mesmo assim continuou pior que os competidores para k = 4. Praticamente o mesmo comportamento do teste B foi observado com α = 1% (Figuras 6 (b) e 7 (b)). A única diferença é que para 80 Rev. Mat. Estat., São Paulo, v.23, n.3, p.71-85, 2005 grandes valores de k e alta heterogeneidade o teste B superou seus concorrentes. O teste BB, em geral, apresentou piores desempenhos em relação aos demais quanto ao poder para essas situações descritas. Quando a amostra de menor tamanho foi à segunda, que está associada à população de maior variância, verificou-se que os testes BB e MW apresentaram poderes superiores aos concorrentes e relativamente similares entre si nas situações de elevada heterogeneidade de variâncias (δ = 16), tanto para 5% quanto para 1% (Figuras 6 e 7 (a) e (b)). As vantagens relativas desses testes foram mais pronunciadas para k maiores (k = 4) e para α menores (α = 1%). 0 1 2 3 4 0 2 4 6 8 10 12 14 16 18 20 22 24 n 1 =10; n 2 =3 k=0,5 δ=16 n 1 =10; n 2 =3 k=0,5 δ=1 n 1 =3; n 2 =10 k=0,5 δ=16 n 1 =3; n 2 =10 k=0,5 δ=1 P od er (% ) t B MW BB (a) 0 1 2 3 4 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 n 1 =10; n 2 =3 k=0,5 δ=16 n 1 =10; n 2 =3 k=0,5 δ=1 n 1 =3; n 2 =10 k=0,5 δ=16 n 1 =3; n 2 =10 k=0,5 δ=1 P od er (% ) t B MW BB (b) FIGURA 6 – Poder para diferentesheterogeneidades e tamanhos de amostras e valor nominal de significância igual (a) 5% e (b) 1%. 0 1 2 3 4 0 10 20 30 40 50 60 70 80 90 100 110 120 130 n 1 =10; n 2 =3 k=4 δ=16 n 1 =10; n 2 =3 k=4 δ=1 n 1 =3; n 2 =10 k=4 δ=16 n 1 =3; n 2 =10 k=4 δ=1P od er (% ) t B MW BB (a) 0 1 2 3 4 0 10 20 30 40 50 60 70 80 90 100 110 120 130 n 1 =10; n 2 =3 k=4 δ=16 n 1 =10; n 2 =3 k=4 δ=1 n 1 =3; n 2 =10 k=4 δ=16 n 1 =3; n 2 =10 k=4 δ=1 P od er (% ) t B MW BB (b) FIGURA 7 – Poder para diferentes heterogeneidades e tamanhos de amostras e valor nominal de significância igual (a) 5% e (b) 1%. Rev. Mat. Estat., São Paulo, v.23, n.3, p.71-85, 2005 81 Nas Figuras 8 (a) e (b) apresenta-se o poder dos quatro testes em função do tamanho de amostra e considerando n1 = n2, δ = 16 e k = 4 para (a) α = 5% e (b) α = 1%. De uma maneira geral, verifica-se que o teste B é o de pior poder, praticamente igualando aos demais para amostras superiores a 30, principalmente para α = 1%. Para amostras entre 2 e 10 o poder dos testes B e MW foi, em geral, superior ao dos demais testes para α = 1%. Todos os testes com n1 = n2 > 10 apresentaram poder de elevada magnitude, ou seja, superior a 80% para α = 5% e superior a 60% para α = 1%. 0 1 2 3 4 0 10 20 30 40 50 60 70 80 90 100 110 120 130 n 1 =10; n 2 =3 k=4 δ=16 n 1 =10; n 2 =3 k=4 δ=1 n 1 =3; n 2 =10 k=4 δ=16 n 1 =3; n 2 =10 k=4 δ=1P od er (% ) t B MW BB (a) 0 1 2 3 4 0 10 20 30 40 50 60 70 80 90 100 110 120 130 n 1 =10; n 2 =3 k=4 δ=16 n 1 =10; n 2 =3 k=4 δ=1 n 1 =3; n 2 =10 k=4 δ=16 n 1 =3; n 2 =10 k=4 δ=1 P od er (% ) t B MW BB (b) FIGURA 8 – Poder para diferentes heterogeneidades e tamanhos de amostras e valor nominal de significância igual (a) 5% e (b) 1%. Na Tabela 1 está apresentado o poder dos quatro testes avaliados nesse trabalho para k = 2, n1 = n2 ou n1 ≠ n2, δ = 1, 2, 8 e 16 e α = 5% e 1%. Para pequenas amostras de tamanhos iguais (n1 = n2 = 2) e k = 2, o teste t melhorou sua performance com o aumento da heterogeneidade (δ) de variâncias, apresentando poderes superiores aos valores nominais de significância adotados, principalmente para α = 5%. O teste BB apresentou, nessa circunstância, poderes superiores aos valores nominais de significância adotados, porém sua performance piorou com o aumento da heterogeneidade de variâncias. Os testes B e MW apresentaram poderes nulos. Esses resultados enfatizam a necessidade de que os tamanhos amostrais em situações reais sejam grandes. A finalidade de discutir uma situação extrema como essa (n1 = n2 = 2) é simplesmente fazer uma comparação dos diversos testes em condições adversas e apontar suas vantagens e desvantagens relativas. Enquanto os testes BB e MW melhoraram suas performances à medida que se aumentava a heterogeneidade de variâncias, para amostras de tamanhos intermediários e de iguais (n1 = n2 = 10) e k = 2, seus concorrentes pioraram suas performances nessa circunstância. Os testes que apresentaram um maior poder com alta heterogeneidade foram o t e MW, principalmente para α = 5%. 82 Rev. Mat. Estat., São Paulo, v.23, n.3, p.71-85, 2005 Tabela 1. Poder dos quatro testes avaliados em função do tamanho das amostras de ambas as populações (n1 e n2) e da heterogeneidade de variâncias para k = 2 e para valor nominal de significância igual (a) 5% e (b) 1%. Testes Tamanho de Amostras t Brunner MW Brun. Boot. n1 n2 δ 1% 5% 1% 5% 1% 5% 1% 5% 2 2 1 4,80 21,35 0,00 0,00 0,00 0,00 12,20 12,20 2 2 2 5,20 23,40 0,00 0,00 0,00 0,00 11,00 11,00 2 2 8 6,85 26,20 0,00 0,00 0,00 0,00 8,25 8,25 2 2 16 7,90 27,75 0,00 0,00 0,00 0,00 5,65 5,65 5 5 1 16,30 40,50 21,45 36,60 13,20 41,55 21,50 29,60 5 5 2 18,25 41,80 22,85 36,10 13,95 43,45 25,20 32,40 5 5 8 17,10 40,00 17,55 27,40 18,15 41,65 27,30 33,60 5 5 16 14,10 35,55 13,50 20,45 19,80 38,10 26,90 31,90 10 10 1 23,60 49,30 28,50 48,85 21,30 48,70 11,50 31,80 10 10 2 23,35 48,10 27,65 46,60 21,65 46,55 12,65 35,60 10 10 8 21,05 46,50 23,50 40,80 22,95 47,05 14,45 35,75 10 10 16 20,15 44,60 22,55 39,20 23,70 48,35 15,40 36,40 30 30 1 27,50 51,70 28,90 50,45 26,20 49,25 21,45 49,40 30 30 2 26,90 51,70 26,25 49,55 25,05 49,70 21,35 48,65 30 30 8 25,55 49,70 22,40 42,20 26,35 47,30 25,05 48,15 30 30 16 24,00 47,95 20,00 41,00 26,80 48,20 24,25 49,00 3 10 1 20,90 44,70 27,30 38,20 13,15 40,70 27,40 35,00 3 10 2 11,75 29,90 24,35 37,75 7,35 28,30 18,90 27,20 3 10 8 6,00 20,85 21,70 33,35 3,50 19,55 8,10 13,55 3 10 16 8,05 22,75 19,05 30,25 3,25 17,55 6,30 10,90 10 3 1 19,30 44,10 28,75 39,75 12,40 40,80 27,15 35,00 10 3 2 30,10 52,90 26,25 34,80 20,70 48,25 35,35 41,65 10 3 8 31,85 39,65 16,90 21,75 39,80 60,00 42,80 50,20 10 3 16 26,00 32,90 12,00 15,40 49,60 64,30 45,10 55,15 5 15 1 22,60 46,05 30,15 46,15 20,05 44,90 18,10 32,30 5 15 2 14,70 35,30 28,70 46,35 15,00 37,25 10,00 24,75 5 15 8 13,45 34,50 23,10 41,15 6,90 26,10 3,25 12,75 5 15 16 18,55 43,15 22,20 40,90 6,30 24,75 3,25 11,10 15 5 1 23,50 46,60 30,70 46,35 21,10 44,95 18,65 32,10 15 5 2 32,95 52,35 31,25 44,90 28,85 50,65 23,50 36,80 15 5 8 21,95 40,10 26,85 44,00 38,35 59,75 32,05 39,85 15 5 16 16,25 37,40 20,35 42,85 39,70 64,05 32,00 40,15 15 10 1 23,35 48,40 27,40 47,80 21,60 45,25 12,45 41,20 15 10 2 27,25 51,60 27,40 47,20 25,00 49,40 15,05 42,75 15 10 8 19,50 44,75 22,75 40,90 28,90 50,20 18,15 44,20 15 10 16 18,25 44,65 22,65 38,15 30,65 51,00 19,35 44,30 25 5 1 23,45 47,30 29,25 45,00 21,30 44,40 20,65 34,95 25 5 2 36,55 53,65 31,45 44,90 31,00 52,95 26,85 39,90 25 5 8 18,35 36,60 33,10 42,15 39,70 62,05 31,80 42,35 25 5 16 11,15 32,00 31,75 38,45 38,25 62,90 32,55 43,10 30 10 1 24,90 49,75 27,45 47,50 23,15 47,20 15,00 41,80 30 10 2 33,60 54,55 26,90 46,85 31,35 54,20 22,40 49,20 30 10 8 18,90 43,55 21,70 40,50 37,95 57,95 27,50 55,40 30 10 16 18,00 42,65 22,00 37,30 40,90 59,30 28,50 58,55 Rev. Mat. Estat., São Paulo, v.23, n.3, p.71-85, 2005 83 0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 0 10 20 30 40 50 60 70 80 90 100 110 120 130 P od er (% ) Tamanhos de Amostras t B MW BB (a) 0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 0 10 20 30 40 50 60 70 80 90 100 110 120 130 P od er (% ) Tamanhos de Amostras t B MW BB (b) FIGURA 9 – Poder em função de n para heterogeneidade de 16 para valor nominal de significância igual (a) 5% e (b) 1% e k = 4. Considerando agora a situação de grandes amostras e de tamanhos iguais (n1 = n2 = 30) e k = 2, todos os testes apresentaram poder superior a 40% para α = 5% e superior a 20% para α = 1% tanto com elevada heterogeneidade de variâncias quanto com homocedastia. Ressalta-se o fato de que o maior poder encontrado é devido a maior diferença entre as médias populacionais, fixada em k = 2 erros-padrão da diferença de média. Para a situação em que a amostra de maior tamanho está associada à população de maior variância (n1 = 3 e n2 = 10) e k = 2, o teste B destacou em relação aos seus competidores, apresentando valores maiores de poder para α = 5% e 1% tanto com homocedastia quanto com elevada heterogeneidade de variâncias (δ = 16). Quando a amostra de menor tamanho está associada à população de maior variância (n1 = 10 e n2 = 3) e k = 2, os testes BB e MW apresentaram poderes superiores aos seus concorrentes e relativamente semelhantes entre si nas situações de elevada heterogeneidade de variâncias (δ = 16), tanto para 5% quanto para 1%. Nessa mesma situação, mas com homogeneidade de variâncias todos os quatro testes avaliados apresentaram poderes similares entre si para α = 5% e 1%. As demais situações com n1 ≠ n2 (n1 > n2 ou n1 < n2) apresentaram resultados similares aos destacados para n1 = 3 e n2 = 10 ou n1 = 10 e n2 = 3 (Tabela 1). Conclusões Não existem vantagens dos testes B e BB em relação aos testes t e MW. Alguns casos específicos em que houve performancediferenciada dos testes B e BB são destacados na seqüência. Para amostras iguais e extremamente pequenas e com heterogeneidade de variâncias, o teste BB foi o único que apresentou taxas de erro tipo I 84 Rev. Mat. Estat., São Paulo, v.23, n.3, p.71-85, 2005 iguais ao valor nominal de 5%. Quanto ao poder do teste BB, para pequenas amostras e de tamanhos iguais e k = 0,5, esse teste foi o que apresentou maiores poderes em relação aos demais competidores, principalmente para α = 1%. Para amostras intermediárias e de tamanhos iguais e k = 2, os testes BB e MW melhoraram suas performances à medida que se aumentou a heterogeneidade de variâncias. Para grandes amostras e de tamanhos iguais e elevada heterogeneidade o teste BB apresentou maior poder juntamente com o MW em relação aos demais concorrentes, principalmente para α = 5%. Essa é uma vantagem que este teste (BB) apresenta em relação aos seus competidores nas situações em que a violação da pressuposição de homocedastia é mais acentuada e onde o teste t tem maiores deficiências. Quando a amostra de menor tamanho foi a segunda, a qual está associada a população de maior variância verificou que os testes BB e MW apresentaram poderes superiores aos concorrentes e relativamente similares entre si nas situações de elevada heterogeneidade de variâncias, tanto para α = 5% quanto para α = 1%. As vantagens relativas desses testes foram mais pronunciadas para k maiores (k = 4) e para α menores (α = 1%). Agradecimentos Á Fapemig pelo financiamento do trabalho. NERY, J. C.; FERREIRA, D. F.; CHAVES, L. M. Non-parametric approach to the Behrens-Fisher problem using bootstrap. Rev. Mat. Estat., São Paulo, v.23, n.3, p.71-85, 2005. ��ABSTRACT: This work intended to evaluate the power and type-I error rates of a non-parametric test proposed by Brunner and Munzel (2000) and a bootstrap alternative of that approach. The results found were compared to the parametric Student t test, which is the common two-sample test applied to normal and homocedastic variance populations and to the non-parametric test of Mann-Whitney (1947). Samples were simulated from two normal populations considering heterogeneous variances. The Brunner and Munzel bootstrap alternative test (BB) was the only test to control the type-I error rate on the nominal level of 5% for samples of equal and extremely small sizes in heterogeneous variance situations. In this situation the power of the BB test was greater than those of its competitors considering populational means difference of k = 0.5 standard error. For the intermediate equa-size samples with k = 2 and large equa-size samples with high heterogeneity, BB and MW tests showed greater power than their competitors. ��KEYWORDS: Nonparametric test; Behrens-Fisher; bootstrap; simulation; heterogeneous variances. Referências BEHRENS, W. V. Ein Beitrag zur fehlerberechnung bei weinigen beobachtungen. Landwirtsch Jahrbücher., Berlin, v.68, p.807-837, 1929. BORGES, L. C.; FERREIRA, D. F. Comparação de duas aproximações do teste t com variâncias heterogêneas através de simulação. Ciênc. Agrotecnol., Lavras, v.23, n.2, p.390-403, 1999. Rev. Mat. Estat., São Paulo, v.23, n.3, p.71-85, 2005 85 BRUNNER, E.; MUNZEL, U. The nonparametric Behrens-Fisher problem: Asymptotic theory and a small sample approximation. Biom. J., Berlin, v.42, n.1, p.17-25, 2000. COCHRAN, W. G. Approximate significance levels of the Behrens-Fisher test. Biometrics, Washington, v.20, p.191-195, 1964. DACHS, J. N. W. Estatística computacional: uma introdução ao turbo Pascal. Rio de Janeiro: Livros Técnicos e Científicos, 1998. 236p. FISHER, R. A. The comparison of samples with possibly unequal variances. Ann. Eugen., London, v.9, p.174-180, 1939. HODGES, J. L. Jr.; LEHMANN, E. L. The efficiency of some nonparametric competitors of the t-test. Ann. Math. Stat., Baltimore, v.27, p.324-335, 1956. HOEL, P. G.; PORT, S. C.; STONE, C. J. Introdução a teoria de probabilidade. Tradução de Fernando Yassouchiyoshi. Rio de Janeiro: Interciência, 1978. 269p. LEEMIS, L. M.; TRIVEDI, K. S. A comparison of approximate interval estimators for the Bernoulli parameter. Am. Stat., Washington, v.50, n.1, p.63-8, 1996. MANLY, B. F. J. Randomization, bootstrap and Monte Carlo methods in biology. 2nd ed., London: Chapman e Hall, 1998. 399p. MANN, H. B.; WHITNEY, D. R. On a test of whether one of two random variables is stochastically larger than the order. Ann. Math. Stat., Baltimore, v.18, p.50-60, 1947. MOOD, A. M.; GRAYBILL, F. A.; BOES, D. C. Introduction to theory of statistics. 3rd ed., New York: McGraw Hill, 1974. 842p. SATTHERTHWAITE, F. E. An approximate distribution of estimates of variance components. Biom. Bull., London, v. 2, p.110-114, 1946. ZAR, J. H. Biostatistical analysis. 3th ed., New York: Prentice-Hall, 1996. 662p. Recebido em 09.09.2003. Aprovado após revisão em 03.03.2006.
Compartilhar