A5-Juliana-Daniel

•
Humanas / Sociais

Revisando conteúdos
02/02/2023
E aí, curtiu este material?
Ajude a incentivar outros estudantes a melhorar o conteúdo
Gostou desse material? Compartilhe! 🧡
Administração

599.547 Materiais compartilhados
Baixe o app para aproveitar ainda mais
Leia os materiais offline, sem usar a internet. Além de vários outros recursos!
Prévia do material em texto
Rev. Mat. Estat., São Paulo, v.23, n.3, p.71-85, 2005 71 
ABORDAGEM NÃO-PARAMÉTRICA DO PROBLEMA 
DE BEHRENS-FISHER USANDO BOOTSTRAP 
Juliana Carvalho NERY1 
Daniel Furtado FERREIRA1 
Lucas Monteiro CHAVES1 
��RESUMO: O objetivo desse trabalho foi avaliar o poder e a taxa de erro tipo I de um teste não-
paramétrico baseado em postos proposto por Brunner e Munzel (2000) e para uma alternativa de 
bootstrap desse critério. Os resultados encontrados foram comparados ao teste paramétrico t de 
Student, que é o mais comumente utilizado quando ambas as amostras são provenientes de 
populações normais com variâncias iguais, e ao teste não-paramétrico de Mann-Whitney (1947). 
Foram simuladas amostras de duas populações considerando um modelo normal com variâncias 
heterogêneas. O teste Brunner e Munzel Bootstrap (BB) foi o único a controlar a taxa de erro 
tipo I no valor nominal de 5% para amostras iguais e pequenas e com heterogeneidade de 
variâncias; Nessa mesma situação, porém com diferença entre as médias de k = 0,5 erro-padrão, 
esse teste apresenta maiores poderes em relação aos demais competidores. Tanto para amostras 
intermediárias e de tamanhos iguais e k = 2, quanto para grandes amostras e de tamanhos iguais e 
elevada heterogeneidade o teste BB apresenta maior poder juntamente com o MW em relação 
aos demais concorrentes. 
��PALAVRAS-CHAVE: Testes não-paramétricos; Behrens-Fisher; bootstrap; simulação; 
heterogeneidade de variâncias. 
1 Introdução 
A comparação de duas médias populacionais é um problema que faz parte do 
objetivo de inúmeras pesquisas. Muitas vezes o interesse do pesquisador tem foco na 
comparação das médias de duas populações que podem ser, por exemplo, a comparação 
de uma variedade nova com outra, comercial padrão, ou de um novo fármaco com um 
placebo, ou de duas rações comerciais, entre outras situações. Para atender esse objetivo, 
duas amostras independentes são obtidas, uma de cada população e em seguida é aplicado 
um teste. Para aplicação desse teste algumas alternativas podem ser realizadas. Essas 
alternativas dependem do atendimento ou não de algumas pressuposições. Assim, sob 
normalidade e homogeneidade de variância a opção exata e mais poderosa é o teste t de 
Student (Cochran, 1964; Zar, 1996). Se houver a violação da pressuposição de 
homogeneidade, considerando ainda a normalidade, o teste t pode ser empregado, mas 
sujeito a correção dos graus de liberdade proposta por Satterthwaite (1946). Nesse caso, o 
 
1 Departamento de Ciências Exatas, Universidade Federal de Lavras – UFLA, CEP 37200-000, Lavras, MG, 
E-mail: danielff@ulfa.br 
72 Rev. Mat. Estat., São Paulo, v.23, n.3, p.71-85, 2005 
teste de t perde poder e não controla a taxa de erro tipo I adequadamente no valor nominal 
de significância adotado. Finalmente, se houver violação da normalidade dos dados de 
cada amostra, as alternativas não-paramétricas ou de computação intensiva (bootstrap, 
aleatorização etc.) podem ser usados (Zar, 1996; Manly, 1998). Sob a violação da 
homogeneidade de variâncias, as alternativas não-paramétricas e de computação intensiva 
são viáveis de serem empregadas. A comparação de duas médias de populações normais 
com variâncias heterogêneas é a situação identificada como problema de 
“Behrens-Fisher” (Behrens, 1929; Fisher, 1939). 
Dentre as técnicas de computação intensiva o procedimento de bootstrap tem um 
destaque especial (Manly, 1998). Para a comparação de duas médias populacionais a 
técnica de bootstrap consiste em compor uma amostra comum originada da junção das 
amostras individuais de cada população. A partir dessa amostra, são obtidas por 
reamostragem com reposição amostras do mesmo tamanho daquelas extraídas 
individualmente de cada população. A estatística do teste é computada e o procedimento é 
repetido milhares de vezes. Com os milhares de valores da estatística é possível obter uma 
distribuição de probabilidade empírica e efetuar testes de hipóteses e estimação de 
parâmetros. (Manly, 1998). Se as pressuposições de normalidade e homogeneidade são 
atendidas os procedimentos de bootstrap são equivalentes ao teste t de Student. Nesse 
caso, o esforço computacional requerido para efetuar o bootstrap é muito elevado, 
tornando esse procedimento menos interessante de ser usado pois o custo em termos de 
tempo de análise é maior. Por outro lado, se as pressuposições são violadas o bootstrap 
apresenta resultados mais eficientes e precisos, compensando o tempo extra requerido 
(Manly, 1998). 
Os testes não-paramétricos de comparação de duas médias populacionais 
independentes são usados, em geral, quando as pressuposições de normalidade e 
homogeneidade são violadas. No caso dessas pressuposições serem atendidas, verifica-se 
que o teste não-paramétrico é considerado menos poderoso do que o teste t paramétrico. 
Por outro lado, se as pressuposições forem violadas o poder dos testes não-paramétricos é 
maior. Os testes não-paramétricos não fazem pressuposições sobre a natureza da 
distribuição das populações amostradas. O teste mais utilizado é o de Mann-Whitney 
(1947). Além desse, pode-se citar o teste da mediana (Mood et al., 1974). Uma excelente 
aproximação normal da estatística do teste de Mann-Whitney é apresentada em Zar 
(1996). Este teste é considerado o mais poderoso entre os testes não-paramétricos, no 
entanto, apresenta cerca de 95% do poder do teste t se as pressuposições são atendidas e é 
mais poderoso que o t se as pressuposições forem violadas. O teste de Mann-Whitney é 
afetado por parâmetros de escalas e também por parâmetros de dispersão e forma das 
populações amostradas. O efeito da dispersão é considerado de maior impacto na 
performance do teste (Zar, 1996). Este teste pode ser conservativo ou não-conservativo 
dependendo das diferenças de tamanhos de amostras e da razão das variâncias das 
populações de referência. O teste é conservativo quando a maior amostra é obtida da 
população de maior variância e não-conservativo no caso oposto. 
A simulação Monte Carlo tem sido constantemente usada para avaliar e comparar a 
acurácia de testes estatístico (Borges e Ferreira, 1999). As taxas de erro tipo I, ou seja, a 
probabilidade de rejeitar Ho verdadeira e as taxas de erro tipo II, a probabilidade de não 
rejeitar Ho que é de fato falsa, têm sido os critérios de tais estudos (Hodges e Lehmann, 
1956; Borges e Ferreira, 1999). 
Rev. Mat. Estat., São Paulo, v.23, n.3, p.71-85, 2005 73 
Procurando uma alternativa de ampla utilização, tanto para distribuições 
populacionais contínuas quanto para discretas, Brunner e Munzel (2000) apresentam um 
teste baseado em postos. Uma aproximação normal assintótica é apresentada e uma 
aproximação para pequenas amostras, baseada na distribuição t de Student. A acurácia 
desse procedimento foi avaliada por simulação. Para amostras intermediárias e maiores o 
teste apresentou controle adequado das taxas de erro tipo I. Para amostras extremamente 
pequenas (ni < 10, i = 1 ou 2) o teste não controlou adequadamente as taxas de erro tipo I. 
Nenhum estudo de poder foi apresentado pelos autores. 
O presente trabalho teve os seguintes objetivos: 
a) Avaliar o poder e taxa de erro tipo I de uma alternativa de bootstrap do critério não-
paramétrico de Brunner e Munzel (2000) por meio de simulação Monte Carlo 
considerando o problema de Behrens-Fisher; 
b) Avaliar o poder e a taxa de erro tipo I do critério não-paramétrico original e de uma 
alternativa bootstrap; 
c) Comparar o poder e taxas de erro tipo I dessas alternativas com os testes de Mann-
Whitney e t de Student com a correção nos graus de liberdade proposta por 
Satterthwaite. 
2 Metodologia 
Inicialmente foram simuladas amostras de duas populações (1 e 2) de acordo com o 
modelo estatístico 1. 
= +i j i i jX µ ε (1) 
em que, Xi j é o valor observado na amostra referente a i-ésima população e j-ésima 
unidade amostral; iµ é a média da i-ésima população; ji ε é o efeitodo erro 
experimental gerado de uma distribuição normal com média 0 e variância 2iσ ; i = 1 ou 2; 
j = 1,2, ... ,ni; ni é o tamanho da amostra extraída da i-ésima população. 
Duas etapas foram consideradas no processo de simulação. A primeira referiu-se a 
avaliação da taxa de erro tipo I e os valores de iµ foram considerados iguais a zero para 
i = 1 ou 2, sem perda de generalidade. A segunda etapa referiu-se a avaliação do poder e 
os valores de 1µ foram considerados iguais a zero e o valor de 2µ foi função de erro-
padrão da diferença entre médias, equação 2. 
1 2
2 2
1 2
2 1
1 2
X Xk k n n
σ σµ µ σ −= + = +
 
(2) 
em que, k é uma quantidade real positiva que foi especificada e refere-se a diferença das 
médias expressas em números de erros-padrão da diferença de médias amostrais. 
Os tamanhos amostrais considerados no presente estudo foram 
ni = 2(1)10(5)30(10)60. Foram consideradas situações em que n1 = n2 e algumas situações 
74 Rev. Mat. Estat., São Paulo, v.23, n.3, p.71-85, 2005 
em que n1 ≠ n2. Os valores de k foram iguais a 0, 0,5, 1, 2, e 4. A variância da população 1 
foi considerada igual a 1 e a da população 2 foi determinada em função da 
heterogeneidade de variâncias pretendida, equação 3. 
2
22
22
1
σδ σ δ
σ
= � =
 
(3) 
em que, os valores de δ , razão de variâncias, foram os seguintes: 1, 2, 8 e 16. 
Os valores de ji ε foram simulados usando o teorema da probabilidade integral 
(Hoel et al., 1978) e algoritmo apresentado em Dachs (1998). 
Após a simulação das amostras em cada etapa foram aplicados os testes de Brunner e 
Munzel (2000), Mann-Whitney (1947) e t de Student conforme descrição apresentada a 
seguir. Foram consideradas 2.000 simulações para cada configuração envolvendo os 
diferentes tamanhos amostrais, diferenças de médias e razão de variâncias. As taxas de 
erro tipo I e o poder foram computados pelo número de simulações que apresentaram 
significâncias (P < α) nos respectivos testes e etapas. Os valores de α considerados foram 
de 5% e 1%. 
O teste de Brunner e Munzel (2000) é apresentado na seqüência. Definindo Rij como 
o número de ordem da observação Xij entre todas as n = n1 + n2 observações X11, 
X12, ... ,
22n
X . Definiu-se, ainda, a média do número de ordem na i-ésima população na 
equação (4), a qual foi computada para cada amostra. 
1
in
ij
j i
i
i i
R
R
R
n n
= •
• = =
�
 
(4) 
A estatística Wn, definida em (5) foi, então, computada. 
2 11
ˆn n
R R
W
n σ
• − •= ×
 
(5) 
em que, nσ
�
foi definido em (6), sendo calculado para ser substituído em (5). 
�
�
�
�
�
�
+=
2
2
2
1
2
1 ˆˆˆ
nn
nn
σσσ
 
(6) 
Os estimadores 2iσ
�
 de (6), por sua vez foram computados de acordo com (7). 
2
2
2
ˆ
( )
i
i
i
S
n n
σ =
− 
(7) 
em que, 
Rev. Mat. Estat., São Paulo, v.23, n.3, p.71-85, 2005 75 
2
2 ( )
1
11
1 2
in
i i
i ij ij i
ji
n
S R R R
n •=
+	 
= − − +� �− 
 �
�
 
(8) 
é a variância empírica de Rij - 
(i)
ijR . 
A variável (i)ijR definida em (8) refere-se ao número de ordem da observação 
(i)
ijX 
entre todas as ni observações Xi1, Xi2, ... , 
2in
X , ou seja, é o número de ordem interno da 
observação Xij entre as ni observações dentro da i-ésima amostra, i = 1 ou 2. 
A aproximação t da estatística Wn para pequenas amostras seguiu a recomendação de 
Brunner e Munzel (2000), com uso dos graus de liberdade ajustados ν, cuja expressão está 
apresentada em (9). 
( )
222
1
2
22
1
ˆ
ˆ
1
i
i i
i
i i i
n
n n
σ
ν
σ
=
=
	 
� �

 �=
	 
� �
� �−
 �
�
�
 
(9) 
Simultaneamente com a aplicação do teste Wn original, foi considerada uma versão 
de bootstrap. Para isso as amostras 1 e 2 foram unidas compondo uma amostra comum. 
Dessa amostra foram sorteados com reposição n1 elementos para compor uma nova 
amostra da população 1 e outra de n2 elementos para a população 2. A estatística (5) foi 
calculada em cada uma dessas reamostragens. Foi obtido um total de 2.000 
reamostragens. Dessa forma, a proporção de estimativas de bootstrap de Wn que em 
módulo foi superior a estatística Wn das amostras originais é o estimador da significância 
empírica. 
Concomitantemente, foram aplicados os testes t convencional com correção de graus 
de liberdade proposta por Satterthwaite (1946) e de Mann-Whitney (1947) de acordo com 
procedimentos descritos em Zar (1996). 
3 Resultados e discussão 
Nas Figuras 1 (a) e (b) estão apresentadas às taxas de erro tipo I para α igual a 5% e 
1% dos quatro testes avaliados nesse trabalho: o teste t (t), o teste de Brunner e Munzel 
(B), o teste de Mann-Whitney (MW) e a versão bootstrap do teste Brunner e Munzel 
(BB). Os valores esperados para a taxa de erro tipo I considerando o valor nominal de 5% 
e o intervalo de confiança de 99% para proporções (Leemis e Trivedi, 1996) são 0,0383 e 
0,0639. Para α igual a 1% o intervalo de confiança é 0,0052 e 0,0173. Assim, todos os 
valores obtidos para taxa de erro tipo I que se encontrarem nesses intervalos são 
considerados iguais aos valores nominais adotados. Para amostras de mesmos tamanhos e 
pequenas (n1 = n2 = 5) com δ = 1 verificou-se que os únicos testes que controlaram a taxa 
de erro tipo I foram o teste t e o MW. 
76 Rev. Mat. Estat., São Paulo, v.23, n.3, p.71-85, 2005 
O teste B foi não-conservativo e BB foi conservativo para taxas de erro nominal de 
5% (a). O teste B foi não-conservativo, ainda, quando se considerou o nível nominal de 
1%. Para essa mesma situação de tamanhos amostrais iguais, mas com heterogeneidade de 
variâncias o teste t passou a apresentar taxas superiores a taxa nominal de 1%, os teste B e 
a 5% e o de MW foram não-conservativos para 1% e o teste BB apresentou taxas de erro 
tipo I igual ao valor nominal para 5% e valor superior ao nominal para 1%. Para grandes 
amostras de tamanhos iguais (n1 = n2 = 30) os testes, em geral, apresentaram taxas iguais 
ou próximas aos valores nominais. Com δ = 16 o teste MW apresentou taxas 
significativamente superiores às nominais. É conveniente salientar que a versão bootstrap 
do teste de Brunner e Munzel (BB) para amostras iguais e extremamente pequenas e com 
heterogeneidade pronunciada das variâncias foi a única a apresentar taxa de erro tipo I não 
significativamente diferente do valor nominal de 5% (dados não apresentados). Para 1%, 
embora não tenha controlado a taxa de erro tipo I, o teste t foi o que apresentou melhores 
resultados para n1 = n2 = 5 e δ = 16. Em geral, o que se percebe é que para grandes 
amostras o teste de MW, na presença de grande heterogeneidade de variâncias δ = 16, 
tende a ser não-conservativo. Da mesma forma, para níveis de significância nominais 
menores, em situações de grandes heterogeneidades há uma maior tendência dos testes 
serem não-conservativos em termos relativos. 
 
0 1 2 3 4
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
n
1
=n
2
=30
k=0 δ=16
n
1
=n
2
=30
k=0 δ=1
n
1
=n
2
=5
k=0 δ=16
n
1
=n
2
=5
k=0 δ=1
 t
 B
 MW
 BB
P
or
ce
nt
ag
em
 d
e 
si
gn
ifi
câ
nc
ia
 (%
)
(a) 
0 1 2 3 4
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
n
1
=n
2
=30
k=0 δ=16
n
1
=n
2
=30
k=0 δ=1
n
1
=n
2
=5
k=0 δ=16
n
1
=n
2
=5
k=0 δ=1
P
or
ce
nt
ag
em
 d
e 
si
gn
ifi
câ
nc
ia
 (%
)
 t
 B
 MW
 BB
(b) 
FIGURA 1 – Erro tipo I para valor nominal de significância igual (a) 5% e (b) 1% com amostras de 
tamanhos iguais. 
Na Figura 2 estão apresentados as situações com amostras de diferentes tamanhos 
para α igual a 5% (a) e 1% (b). Duas situações distintas foram consideradas, ou seja, ora a 
população de maior variância estava associada à amostra de menor tamanho e ora à de 
maior tamanho. Para as situações de n1 = 10 e n2 = 3 com variâncias homogêneas (δ = 1) e 
α = 5% o teste t e MW controlaram as taxas de erro tipo I e o teste B foi não-conservativo 
com taxas de erro tipo I maior que 5% e o teste de BB foi considerado conservativo. Para 
Rev. Mat. Estat., São Paulo, v.23, n.3, p.71-85, 2005 77 
α = 1% e δ = 1 os testes t e MW apresentaram taxas iguaisa nominal e os testes B e BB 
foram considerados não-conservativos. 
Considerando ainda, n1 = 10 e n2 = 3 só que para δ = 16 verificou-se que todos os 
testes foram considerados não-conservativos tanto para 5% quanto para 1%. O teste de 
Brunner e Munzel foi entre eles o que apresentou resultado melhor. 
Considerando agora a situação em que a população de maior variância teve uma 
maior amostra associada (n1 = 3 e n2 = 10) o teste t, MW e BB apresentaram taxas de erro 
tipo I iguais a nominal de 5% para δ = 1. Nessa situação, o teste B apresentou taxas 
maiores que a nominal. Para α = 1%, nas mesmas condições descritas anteriormente, 
somente o teste t teve taxas de erro tipo I iguais a nominal, os testes B e BB foram não-
conservativos e o teste MW foi conservativo. Para δ = 16, com n1 = 3 e n2 = 10 e α = 5% 
todos os testes foram conservativos. O teste B foi, no entanto, o que melhor resultados 
apresentou. Para α = 1% e δ = 16, o teste MW foi o único que controlou as taxas de erro 
tipo I, sendo o t e BB conservativos e o teste B não-conservativo. 
 
0 1 2 3 4
0
2
4
6
8
10
12
14
16
18
20
n
1
=3; n
2
=10
k=0 δ=16
n
1
=3; n
2
=10
k=0 δ=1
n
1
=10; n
2
=3
k=0 δ=16
n
1
=10; n
2
=3
k=0 δ=1
P
o
rc
e
n
ta
g
e
m
 d
e
 s
ig
n
ifi
câ
n
ci
a
 (
%
)
 t
 B
 MW
 BB
(a) 
0 1 2 3 4
0
2
4
6
8
10
12
14
16
18
20
n
1
=3; n
2
=10
k=0 δ=16
n
1
=3; n
2
=10
k=0 δ=1
n
1
=10; n
2
=3
k=0 δ=16
n
1
=10; n
2
=3
k=0 δ=1
P
or
ce
nt
ag
em
 d
e 
si
gn
ifi
câ
nc
ia
 (%
)
 t
 B
 MW
 BB
(b) 
FIGURA 2 – Erro tipo I para valor nominal de significância igual (a) 5% e (b) 1%, com amostras 
de tamanhos diferentes. 
Na Figura 3 apresentam-se as taxas de erro tipo I dos quatro testes para α = 5% em 
função da razão de variâncias para n1 = 15 e n2 = 5 e também n1 = 5 e n2 = 15. Quando a 
população de menor variância for àquela associada a maior amostra, os testes tendem a ser 
não-conservativos com o aumento da heterogeneidade de variâncias (δ) e quando a 
população de menor variância estiver associada a menor amostra os testes tendem a se 
tornar conservativos com o aumento de δ. O teste de pior desempenho com n1 > n2 foi o 
de MW à medida que a heterogeneidade aumentava. O melhor teste na presença de 
heterogeneidade com n1 < n2 foi o teste de Brunner e Munzel (B). 
78 Rev. Mat. Estat., São Paulo, v.23, n.3, p.71-85, 2005 
0 2 4 6 8 10 12 14 16
0
2
4
6
8
10
12
14
16
18
20
P
or
ce
nt
ag
em
 d
e 
si
gn
ifi
câ
nc
ia
 (%
)
Razão de variâncias (δ)
 t (n
1
=15 e n
2
=5)
 B (n
1
=15 e n
2
=5)
 t (n
1
=5 e n
2
=15)
 B (n
1
=5 e n
2
=15) 
(a) 
0 2 4 6 8 10 12 14 16
0
2
4
6
8
10
12
14
16
18
20
P
or
ce
nt
ag
em
 d
e 
si
gn
ifi
câ
nc
ia
 (%
)
Razão de variâncias (δ)
 MW (n
1
=15 e n
2
=5)
 BB (n
1
=15 e n
2
=5)
 MW (n
1
=5 e n
2
=15)
 BB (n
1
=5 e n
2
=15)
(b) 
FIGURA 3 – Erro tipo I para (a) t e Bruner e (b) MW e BB com amostras de tamanhos diferentes. 
Nas Figuras 4 e 5 (a) e (b) está apresentado o poder dos quatro testes para k = 0,5, 
n1 = n2 = 5 ou n1 = n2 = 30, δ = 1, 2, 8 e 16 para α = 5% (Figuras 4 (a) e (b)) e α = 1% 
( Figuras 5 (a) e (b) ). Para pequenas amostras de tamanhos iguais n1 = n2 = 5 o teste B foi 
o que apresentou maiores poderes em relação aos demais, principalmente em situações de 
pequeno valor de α, como, por exemplo α = 1% (Figura 5 (a)). Nesta última situação o 
teste BB foi o de segundo maior poder. Na medida em que a heterogeneidade de 
variâncias aumentou, o teste BB melhorou seu desempenho em relação ao poder. Os 
valores do poder foram superiores aos dos valores nominais de significância adotados 
para essas situações. Os testes B e MW apresentaram nessa circunstância poderes 
inferiores aos valores nominais de significância adotados. O teste t, melhorou sua 
performance com o aumento da heterogeneidade (δ) das variâncias e tendeu a superar o 
teste BB quando α foi igual a 5% (Figura 4 (a)). 
Para grandes amostras e de tamanhos iguais (n1 = n2 = 30) o teste BB apresentou 
maior poder juntamente com o MW em relação aos seus competidores, para situações de 
elevada heterogeneidade e principalmente a 5% (Figuras 4 e 5 (b)). Essa é uma vantagem 
que este teste (BB) apresenta em relação aos seus competidores nas situações em que a 
violação da pressuposição de homocedastia é mais acentuada e onde o teste t tem maiores 
deficiências. Ressalta-se, ainda, o fato de que o baixo poder encontrado é devido a 
magnitude da diferença entre as médias populacionais, a qual foi mantida fixa em k = 0,5 
erro-padrão da diferença de média, tanto para pequenas amostras, quanto para grandes 
amostras. 
Uma situação apontada na literatura (Zar, 1996) como desfavorável ao teste t em 
relação ao poder e ao controle das taxas de erro tipo I é quando as amostras são de 
diferentes tamanhos. Nesse caso, a pior situação é quando a amostra de menor tamanho 
está associada à população de maior variância. Visando avaliar e comparar o poder dos 
testes, avaliou-se situações com amostras de tamanhos diferentes (Figuras 6 e 7 (a) e (b)). 
Rev. Mat. Estat., São Paulo, v.23, n.3, p.71-85, 2005 79 
0 1 2 3 4
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
n
1
=n
2
=5
k=0,5 δ=16
n
1
=n
2
=5
k=0,5 δ=8
n
1
=n
2
=5
k=0,5 δ=2
n
1
=n
2
=5
k=0,5 δ=1
P
od
er
 (%
)
 t
 B
 MW
 BB
(a) 
0 1 2 3 4
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
n
1
=n
2
=30
k=0,5 δ=16n
1
=n
2
=30
k=0,5 δ=8
n
1
=n
2
=30
k=0,5 δ=2n1=n2=30
k=0,5 δ=1
P
od
er
 (%
) t
 B
 MW
 BB
(b) 
FIGURA 4 – Poder para diferentes heterogeneidades e tamanhos de amostras iguais e valor 
nominal de significância igual a 5%. 
 
0 1 2 3 4
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
n
1
=n
2
=5
k=0,5 δ=16
n
1
=n
2
=5
k=0,5 δ=8
n
1
=n
2
=5
k=0,5 δ=2
n
1
=n
2
=5
k=0,5 δ=1
P
od
er
 (
%
) t
 B
 MW
 BB
(a) 
0 1 2 3 4
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
n
1
=n
2
=30
k=0,5 δ=16
n
1
=n
2
=30
k=0,5 δ=8
n
1
=n
2
=30
k=0,5 δ=2
n
1
=n
2
=30
k=0,5 δ=1
P
od
er
 (%
) t
 B
 MW
 BB
(b) 
FIGURA 5 – Poder para diferentes heterogeneidades e tamanhos de amostras iguais e valor 
nominal de significância igual a 1%. 
Para a situação ideal (δ = 1), α = 5%, n1 = 3 e n2 = 10 e k = 0,5 (Figura 6 (a)), o teste 
B destacou em relação aos seus competidores. No entanto, nessa mesma situação, com 
k = 4, o teste B apresentou uma performance muito inferior aos demais testes 
(Figura 7(a)). Ainda nessa situação, com o aumento de δ de 1 para 16 o teste B melhorou 
sua performance relativa ao poder, principalmente com k = 4. Mas, mesmo assim 
continuou pior que os competidores para k = 4. Praticamente o mesmo comportamento do 
teste B foi observado com α = 1% (Figuras 6 (b) e 7 (b)). A única diferença é que para 
80 Rev. Mat. Estat., São Paulo, v.23, n.3, p.71-85, 2005 
grandes valores de k e alta heterogeneidade o teste B superou seus concorrentes. O teste 
BB, em geral, apresentou piores desempenhos em relação aos demais quanto ao poder 
para essas situações descritas. 
 Quando a amostra de menor tamanho foi à segunda, que está associada à 
população de maior variância, verificou-se que os testes BB e MW apresentaram poderes 
superiores aos concorrentes e relativamente similares entre si nas situações de elevada 
heterogeneidade de variâncias (δ = 16), tanto para 5% quanto para 1% (Figuras 6 e 7 (a) e 
(b)). As vantagens relativas desses testes foram mais pronunciadas para k maiores (k = 4) 
e para α menores (α = 1%). 
0 1 2 3 4
0
2
4
6
8
10
12
14
16
18
20
22
24
n
1
=10; n
2
=3
k=0,5 δ=16
n
1
=10; n
2
=3
k=0,5 δ=1
n
1
=3; n
2
=10
k=0,5 δ=16
n
1
=3; n
2
=10
k=0,5 δ=1
P
od
er
 (%
) t
 B
 MW
 BB
(a) 
0 1 2 3 4
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
n
1
=10; n
2
=3
k=0,5 δ=16
n
1
=10; n
2
=3
k=0,5 δ=1
n
1
=3; n
2
=10
k=0,5 δ=16
n
1
=3; n
2
=10
k=0,5 δ=1
P
od
er
 (%
) t
 B
 MW
 BB
(b) 
FIGURA 6 – Poder para diferentesheterogeneidades e tamanhos de amostras e valor nominal de 
significância igual (a) 5% e (b) 1%. 
0 1 2 3 4
0
10
20
30
40
50
60
70
80
90
100
110
120
130
n
1
=10; n
2
=3
k=4 δ=16
n
1
=10; n
2
=3
k=4 δ=1
n
1
=3; n
2
=10
k=4 δ=16
n
1
=3; n
2
=10
k=4 δ=1P
od
er
 (%
)
 t
 B
 MW
 BB
(a) 
0 1 2 3 4
0
10
20
30
40
50
60
70
80
90
100
110
120
130
n
1
=10; n
2
=3
k=4 δ=16
n
1
=10; n
2
=3
k=4 δ=1
n
1
=3; n
2
=10
k=4 δ=16
n
1
=3; n
2
=10
k=4 δ=1
P
od
er
 (%
) t
 B
 MW
 BB
(b) 
FIGURA 7 – Poder para diferentes heterogeneidades e tamanhos de amostras e valor nominal de 
significância igual (a) 5% e (b) 1%. 
Rev. Mat. Estat., São Paulo, v.23, n.3, p.71-85, 2005 81 
Nas Figuras 8 (a) e (b) apresenta-se o poder dos quatro testes em função do tamanho 
de amostra e considerando n1 = n2, δ = 16 e k = 4 para (a) α = 5% e (b) α = 1%. De uma 
maneira geral, verifica-se que o teste B é o de pior poder, praticamente igualando aos 
demais para amostras superiores a 30, principalmente para α = 1%. Para amostras entre 2 
e 10 o poder dos testes B e MW foi, em geral, superior ao dos demais testes para α = 1%. 
Todos os testes com n1 = n2 > 10 apresentaram poder de elevada magnitude, ou seja, 
superior a 80% para α = 5% e superior a 60% para α = 1%. 
 
0 1 2 3 4
0
10
20
30
40
50
60
70
80
90
100
110
120
130
n
1
=10; n
2
=3
k=4 δ=16
n
1
=10; n
2
=3
k=4 δ=1
n
1
=3; n
2
=10
k=4 δ=16
n
1
=3; n
2
=10
k=4 δ=1P
od
er
 (%
)
 t
 B
 MW
 BB
(a) 
0 1 2 3 4
0
10
20
30
40
50
60
70
80
90
100
110
120
130
n
1
=10; n
2
=3
k=4 δ=16
n
1
=10; n
2
=3
k=4 δ=1
n
1
=3; n
2
=10
k=4 δ=16
n
1
=3; n
2
=10
k=4 δ=1
P
od
er
 (%
) t
 B
 MW
 BB
(b) 
FIGURA 8 – Poder para diferentes heterogeneidades e tamanhos de amostras e valor nominal de 
significância igual (a) 5% e (b) 1%. 
 
Na Tabela 1 está apresentado o poder dos quatro testes avaliados nesse trabalho para 
k = 2, n1 = n2 ou n1 ≠ n2, δ = 1, 2, 8 e 16 e α = 5% e 1%. Para pequenas amostras de 
tamanhos iguais (n1 = n2 = 2) e k = 2, o teste t melhorou sua performance com o aumento 
da heterogeneidade (δ) de variâncias, apresentando poderes superiores aos valores 
nominais de significância adotados, principalmente para α = 5%. O teste BB apresentou, 
nessa circunstância, poderes superiores aos valores nominais de significância adotados, 
porém sua performance piorou com o aumento da heterogeneidade de variâncias. Os 
testes B e MW apresentaram poderes nulos. Esses resultados enfatizam a necessidade de 
que os tamanhos amostrais em situações reais sejam grandes. A finalidade de discutir uma 
situação extrema como essa (n1 = n2 = 2) é simplesmente fazer uma comparação dos 
diversos testes em condições adversas e apontar suas vantagens e desvantagens relativas. 
Enquanto os testes BB e MW melhoraram suas performances à medida que se 
aumentava a heterogeneidade de variâncias, para amostras de tamanhos intermediários e 
de iguais (n1 = n2 = 10) e k = 2, seus concorrentes pioraram suas performances nessa 
circunstância. Os testes que apresentaram um maior poder com alta heterogeneidade 
foram o t e MW, principalmente para α = 5%. 
82 Rev. Mat. Estat., São Paulo, v.23, n.3, p.71-85, 2005 
Tabela 1. Poder dos quatro testes avaliados em função do tamanho das amostras de 
ambas as populações (n1 e n2) e da heterogeneidade de variâncias para k = 2 e 
para valor nominal de significância igual (a) 5% e (b) 1%. 
Testes Tamanho de 
Amostras t Brunner MW Brun. Boot. 
n1 n2 δ 1% 5% 1% 5% 1% 5% 1% 5% 
2 2 1 4,80 21,35 0,00 0,00 0,00 0,00 12,20 12,20 
2 2 2 5,20 23,40 0,00 0,00 0,00 0,00 11,00 11,00 
2 2 8 6,85 26,20 0,00 0,00 0,00 0,00 8,25 8,25 
2 2 16 7,90 27,75 0,00 0,00 0,00 0,00 5,65 5,65 
5 5 1 16,30 40,50 21,45 36,60 13,20 41,55 21,50 29,60 
5 5 2 18,25 41,80 22,85 36,10 13,95 43,45 25,20 32,40 
5 5 8 17,10 40,00 17,55 27,40 18,15 41,65 27,30 33,60 
5 5 16 14,10 35,55 13,50 20,45 19,80 38,10 26,90 31,90 
10 10 1 23,60 49,30 28,50 48,85 21,30 48,70 11,50 31,80 
10 10 2 23,35 48,10 27,65 46,60 21,65 46,55 12,65 35,60 
10 10 8 21,05 46,50 23,50 40,80 22,95 47,05 14,45 35,75 
10 10 16 20,15 44,60 22,55 39,20 23,70 48,35 15,40 36,40 
30 30 1 27,50 51,70 28,90 50,45 26,20 49,25 21,45 49,40 
30 30 2 26,90 51,70 26,25 49,55 25,05 49,70 21,35 48,65 
30 30 8 25,55 49,70 22,40 42,20 26,35 47,30 25,05 48,15 
30 30 16 24,00 47,95 20,00 41,00 26,80 48,20 24,25 49,00 
3 10 1 20,90 44,70 27,30 38,20 13,15 40,70 27,40 35,00 
3 10 2 11,75 29,90 24,35 37,75 7,35 28,30 18,90 27,20 
3 10 8 6,00 20,85 21,70 33,35 3,50 19,55 8,10 13,55 
3 10 16 8,05 22,75 19,05 30,25 3,25 17,55 6,30 10,90 
10 3 1 19,30 44,10 28,75 39,75 12,40 40,80 27,15 35,00 
10 3 2 30,10 52,90 26,25 34,80 20,70 48,25 35,35 41,65 
10 3 8 31,85 39,65 16,90 21,75 39,80 60,00 42,80 50,20 
10 3 16 26,00 32,90 12,00 15,40 49,60 64,30 45,10 55,15 
5 15 1 22,60 46,05 30,15 46,15 20,05 44,90 18,10 32,30 
5 15 2 14,70 35,30 28,70 46,35 15,00 37,25 10,00 24,75 
5 15 8 13,45 34,50 23,10 41,15 6,90 26,10 3,25 12,75 
5 15 16 18,55 43,15 22,20 40,90 6,30 24,75 3,25 11,10 
15 5 1 23,50 46,60 30,70 46,35 21,10 44,95 18,65 32,10 
15 5 2 32,95 52,35 31,25 44,90 28,85 50,65 23,50 36,80 
15 5 8 21,95 40,10 26,85 44,00 38,35 59,75 32,05 39,85 
15 5 16 16,25 37,40 20,35 42,85 39,70 64,05 32,00 40,15 
15 10 1 23,35 48,40 27,40 47,80 21,60 45,25 12,45 41,20 
15 10 2 27,25 51,60 27,40 47,20 25,00 49,40 15,05 42,75 
15 10 8 19,50 44,75 22,75 40,90 28,90 50,20 18,15 44,20 
15 10 16 18,25 44,65 22,65 38,15 30,65 51,00 19,35 44,30 
25 5 1 23,45 47,30 29,25 45,00 21,30 44,40 20,65 34,95 
25 5 2 36,55 53,65 31,45 44,90 31,00 52,95 26,85 39,90 
25 5 8 18,35 36,60 33,10 42,15 39,70 62,05 31,80 42,35 
25 5 16 11,15 32,00 31,75 38,45 38,25 62,90 32,55 43,10 
30 10 1 24,90 49,75 27,45 47,50 23,15 47,20 15,00 41,80 
30 10 2 33,60 54,55 26,90 46,85 31,35 54,20 22,40 49,20 
30 10 8 18,90 43,55 21,70 40,50 37,95 57,95 27,50 55,40 
30 10 16 18,00 42,65 22,00 37,30 40,90 59,30 28,50 58,55 
 
Rev. Mat. Estat., São Paulo, v.23, n.3, p.71-85, 2005 83 
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34
0
10
20
30
40
50
60
70
80
90
100
110
120
130
P
od
er
 (%
)
Tamanhos de Amostras
 t
 B
 MW
 BB
(a) 
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34
0
10
20
30
40
50
60
70
80
90
100
110
120
130
P
od
er
 (%
)
Tamanhos de Amostras
 t
 B
 MW
 BB
(b) 
FIGURA 9 – Poder em função de n para heterogeneidade de 16 para valor nominal de significância 
igual (a) 5% e (b) 1% e k = 4. 
Considerando agora a situação de grandes amostras e de tamanhos iguais 
(n1 = n2 = 30) e k = 2, todos os testes apresentaram poder superior a 40% para α = 5% e 
superior a 20% para α = 1% tanto com elevada heterogeneidade de variâncias quanto com 
homocedastia. Ressalta-se o fato de que o maior poder encontrado é devido a maior 
diferença entre as médias populacionais, fixada em k = 2 erros-padrão da diferença de 
média. 
Para a situação em que a amostra de maior tamanho está associada à população de 
maior variância (n1 = 3 e n2 = 10) e k = 2, o teste B destacou em relação aos seus 
competidores, apresentando valores maiores de poder para α = 5% e 1% tanto com 
homocedastia quanto com elevada heterogeneidade de variâncias (δ = 16). 
Quando a amostra de menor tamanho está associada à população de maior variância 
(n1 = 10 e n2 = 3) e k = 2, os testes BB e MW apresentaram poderes superiores aos seus 
concorrentes e relativamente semelhantes entre si nas situações de elevada 
heterogeneidade de variâncias (δ = 16), tanto para 5% quanto para 1%. Nessa mesma 
situação, mas com homogeneidade de variâncias todos os quatro testes avaliados 
apresentaram poderes similares entre si para α = 5% e 1%. As demais situações com 
n1 ≠ n2 (n1 > n2 ou n1 < n2) apresentaram resultados similares aos destacados para n1 = 3 e 
n2 = 10 ou n1 = 10 e n2 = 3 (Tabela 1). 
Conclusões 
Não existem vantagens dos testes B e BB em relação aos testes t e MW. Alguns 
casos específicos em que houve performancediferenciada dos testes B e BB são 
destacados na seqüência. Para amostras iguais e extremamente pequenas e com 
heterogeneidade de variâncias, o teste BB foi o único que apresentou taxas de erro tipo I 
84 Rev. Mat. Estat., São Paulo, v.23, n.3, p.71-85, 2005 
iguais ao valor nominal de 5%. Quanto ao poder do teste BB, para pequenas amostras e de 
tamanhos iguais e k = 0,5, esse teste foi o que apresentou maiores poderes em relação aos 
demais competidores, principalmente para α = 1%. Para amostras intermediárias e de 
tamanhos iguais e k = 2, os testes BB e MW melhoraram suas performances à medida que 
se aumentou a heterogeneidade de variâncias. Para grandes amostras e de tamanhos iguais 
e elevada heterogeneidade o teste BB apresentou maior poder juntamente com o MW em 
relação aos demais concorrentes, principalmente para α = 5%. Essa é uma vantagem que 
este teste (BB) apresenta em relação aos seus competidores nas situações em que a 
violação da pressuposição de homocedastia é mais acentuada e onde o teste t tem maiores 
deficiências. Quando a amostra de menor tamanho foi a segunda, a qual está associada a 
população de maior variância verificou que os testes BB e MW apresentaram poderes 
superiores aos concorrentes e relativamente similares entre si nas situações de elevada 
heterogeneidade de variâncias, tanto para α = 5% quanto para α = 1%. As vantagens 
relativas desses testes foram mais pronunciadas para k maiores (k = 4) e para α menores 
(α = 1%). 
Agradecimentos 
Á Fapemig pelo financiamento do trabalho. 
 
NERY, J. C.; FERREIRA, D. F.; CHAVES, L. M. Non-parametric approach to the 
Behrens-Fisher problem using bootstrap. Rev. Mat. Estat., São Paulo, v.23, n.3, p.71-85, 
2005. 
 
��ABSTRACT: This work intended to evaluate the power and type-I error rates of a non-parametric 
test proposed by Brunner and Munzel (2000) and a bootstrap alternative of that approach. The 
results found were compared to the parametric Student t test, which is the common two-sample 
test applied to normal and homocedastic variance populations and to the non-parametric test of 
Mann-Whitney (1947). Samples were simulated from two normal populations considering 
heterogeneous variances. The Brunner and Munzel bootstrap alternative test (BB) was the only 
test to control the type-I error rate on the nominal level of 5% for samples of equal and extremely 
small sizes in heterogeneous variance situations. In this situation the power of the BB test was 
greater than those of its competitors considering populational means difference of k = 0.5 
standard error. For the intermediate equa-size samples with k = 2 and large equa-size samples 
with high heterogeneity, BB and MW tests showed greater power than their competitors. 
��KEYWORDS: Nonparametric test; Behrens-Fisher; bootstrap; simulation; heterogeneous 
variances. 
Referências 
BEHRENS, W. V. Ein Beitrag zur fehlerberechnung bei weinigen beobachtungen. 
Landwirtsch Jahrbücher., Berlin, v.68, p.807-837, 1929. 
BORGES, L. C.; FERREIRA, D. F. Comparação de duas aproximações do teste t com 
variâncias heterogêneas através de simulação. Ciênc. Agrotecnol., Lavras, v.23, n.2, 
p.390-403, 1999. 
Rev. Mat. Estat., São Paulo, v.23, n.3, p.71-85, 2005 85 
BRUNNER, E.; MUNZEL, U. The nonparametric Behrens-Fisher problem: Asymptotic 
theory and a small sample approximation. Biom. J., Berlin, v.42, n.1, p.17-25, 2000. 
COCHRAN, W. G. Approximate significance levels of the Behrens-Fisher test. 
Biometrics, Washington, v.20, p.191-195, 1964. 
DACHS, J. N. W. Estatística computacional: uma introdução ao turbo Pascal. Rio de 
Janeiro: Livros Técnicos e Científicos, 1998. 236p. 
FISHER, R. A. The comparison of samples with possibly unequal variances. Ann. Eugen., 
London, v.9, p.174-180, 1939. 
HODGES, J. L. Jr.; LEHMANN, E. L. The efficiency of some nonparametric competitors 
of the t-test. Ann. Math. Stat., Baltimore, v.27, p.324-335, 1956. 
HOEL, P. G.; PORT, S. C.; STONE, C. J. Introdução a teoria de probabilidade. 
Tradução de Fernando Yassouchiyoshi. Rio de Janeiro: Interciência, 1978. 269p. 
LEEMIS, L. M.; TRIVEDI, K. S. A comparison of approximate interval estimators for the 
Bernoulli parameter. Am. Stat., Washington, v.50, n.1, p.63-8, 1996. 
MANLY, B. F. J. Randomization, bootstrap and Monte Carlo methods in biology. 2nd 
ed., London: Chapman e Hall, 1998. 399p. 
MANN, H. B.; WHITNEY, D. R. On a test of whether one of two random variables is 
stochastically larger than the order. Ann. Math. Stat., Baltimore, v.18, p.50-60, 1947. 
MOOD, A. M.; GRAYBILL, F. A.; BOES, D. C. Introduction to theory of statistics. 3rd 
ed., New York: McGraw Hill, 1974. 842p. 
SATTHERTHWAITE, F. E. An approximate distribution of estimates of variance 
components. Biom. Bull., London, v. 2, p.110-114, 1946. 
ZAR, J. H. Biostatistical analysis. 3th ed., New York: Prentice-Hall, 1996. 662p. 
 
 Recebido em 09.09.2003. 
 Aprovado após revisão em 03.03.2006.