monograf01estatNparamt

•
UNIP

Nelson Borges
15/10/2013
E aí, curtiu este material?
Ajude a incentivar outros estudantes a melhorar o conteúdo
Gostou desse material? Compartilhe! 🧡
Estatistica Nao Parametrica

25 Materiais compartilhados
Baixe o app para aproveitar ainda mais
Leia os materiais offline, sem usar a internet. Além de vários outros recursos!
Prévia do material em texto
Universidade dos Açores 
Departamento de Matemática 
 
 
 
 
 
 
Discente: Filipe Gago da Câmara 
Docente: Dr. Osvaldo Silva 
 
Ponta Delgada, 29 de Junho de 2001 
 
Estatística 
Não Paramétrica 
Testes de Hipóteses e Medidas de Associação 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Índice 
ÍND CE I
 
Teste de Hipóteses ......................................................................................................................1 
Introdução...................................................................................................................................3 
Capitulo 1: Caso de uma amostra ...............................................................................................6 
1.1 Teste da Binomial.............................................................................................................6 
21.2 Teste do Qui-Quadrado ( χ ) para uma amostra............................................................10 
1.3 Teste de Kolmogorov-Smirnov ......................................................................................12 
1.4. Teste de Iterações de Uma Amostra ..............................................................................17 
Capítulo 2: Caso de duas amostras relacionadas ......................................................................23 
2.1 Teste dos Sinais ..............................................................................................................23 
2.2 Teste de McNemar .........................................................................................................25 
2.3 Teste de Wilcoxon ..........................................................................................................28 
Capitulo 3: Caso de duas amostras independentes ...................................................................32 
3.1 Teste de Iterações de Wald-Wolfowitz ..........................................................................32 
3.2 Teste U de Mann-Whitney .............................................................................................37 
3.3 Teste de Moses para reacções extremas .........................................................................41 
3.4 Teste da Qui-Quadrado ( 2χ ) para duas amostras independentes ..................................44 
Capítulo 4: Caso de k amostras relacionadas ...........................................................................50 
4.1 Teste Q de Cochran .......................................................................................................50 
4.2 Teste de Friedman ..........................................................................................................54 
Capítulo 5: Caso de k amostras independentes ........................................................................57 
5.1 Teste de Kruskal-Wallis .................................................................................................57 
Capitulo 6: Medidas de Correlação ..........................................................................................60 
6.1 Coeficiente de Correlação por postos de Kendall: τ .....................................................60 
6.2 Coeficiente de Correlação por postos de Spearman: Sr .................................................64 
6.3 Coeficiente de Concordância de Kendall: W ................................................................66 
Conclusão .................................................................................................................................70 
Bibliografia...............................................................................................................................75 
Anexos ......................................................................................................................................75 
Anexo 0 ................................................................................................................................76 
Anexo I: Caso de uma amostra.............................................................................................77 
Anexo II: Caso duas amostras relacionadas .........................................................................81 
Anexo III: Caso de duas amostras independentes ................................................................85 
Anexos IV: Caso de k amostras relacionadas.......................................................................91 
Anexo V: Caso de k amostras independentes.......................................................................94 
Anexo VI: Medidas de Correlação. ......................................................................................95 
Tabelas......................................................................................................................................75 
Tabela A ...............................................................................................................................76 
Tabela B................................................................................................................................77 
Tabela C................................................................................................................................78 
Tabela D ...............................................................................................................................79 
Tabela E................................................................................................................................81 
Tabela F ................................................................................................................................82 
Tabela G ...............................................................................................................................84 
Tabela J.................................................................................................................................85 
Tabela K ...............................................................................................................................88 
Tabela N ...............................................................................................................................89 
Tabela O ...............................................................................................................................91 
Tabela P ................................................................................................................................93 
Tabela Q ...............................................................................................................................94 
Tabela R................................................................................................................................95 
 
Teste de Hipóteses 
TESTE DE HIPÓTESES 
 
Em muitas situações, queremos tomar uma decisão de forma a minimizar os riscos 
envolventes. 
No campo da estatística, formulamos hipóteses acerca de uma dada amostra, estas 
hipóteses são submetidas a determinados testes. A hipótese a ser testada designamos por 
Hipótese Nula ( ), a Hipótese Alternativa ( 1H ) é a conclusão a que chegamos quando a 
hipótese nula é rejeitada. 
0H
Quando formulamos uma decisão sobre podem ocorrer dois erros distintos. O 
primeiro, designado por erro tipo I, consiste em rejeitar a hipótese nula quando ela é 
verdadeira. O segundo, designado por erro tipo II, consiste em aceitar 0 quando ela é falsa
0H
H . 
A estes erros estão associados uma probabilidade, isto é, 
 
β=)|.(
α=.)|.(
00
00
falsaHHacP
verdHHrejP
 
 
Quando queremos reduzir a probabilidade de ambos os tipos de erro, devemos aumentar 
a dimensão da amostra. 
À probabilidade α damos o nome de nível de significância. 
Como o valorα entra no processo de determinação de aceitação ou rejeição de H , a 
condição de objectividade da prova exige que o nível de significância seja fixado antes da 
recolha de dados. Os valores mais comuns para α são de 0,05 e 0,01 de acordo com a 
importância prática dos resultados. 
0
Quanto mais pequena é a probabilidade β mais potente é o teste, ou seja, o teste óptimo 
da hipótese 0 vs. 1 é aquele que para uma probabilidade de ocorrer o erro tipo I, torne 
mínima a probabilidade de ocorrer o erro tipo II. 
H H
Após ter escolhido as hipóteses e o nível de significância devemos determinar qual a 
distribuição amostral. Esta é uma distribuição teórica que, se puséssemos considerar todos 
os eventos possível, dava-nos as probabilidades, sob , associadas aos valores numéricos 
possíveis da estatística. 
0H
1 
Teste de Hipóteses 
Neste momento temos que escolher o teste estatístico apropriado, tendo em conta os 
seus pressupostos. 
Definida as hipóteses, o nível de significância, o teste estatístico, falta-nos saber como 
rejeitar/aceitar 0H . 
 
 o . 
e ita a 
hipótese nula. 
Região de rejeição é uma região da distribuição amostral, na qual consiste num 
conjunto de valores tão extremos que, quando é verdadeira, a probabilidade α do valor 
observado da amostra estar entre eles é muito pequena. A probabilidade associada a qualquer 
valor na região de rejeição é afectada pela natureza da hipótese alternativa. Se indica o 
sentido da diferença, utiliza-se um teste unilateral, caso contrário, utiliza-se um teste 
bilateral. 
0H
1H
A seguinte figura ilustra-nos como as duas regiões diferem entre si, mas não altera o 
tamanho. 
Figura 1: Dois tipos de testes 
 
 
 
 
 
 
 
P=0.05P=0.025P=0.025
Teste bilateral Teste unilateral 
 A área de cor azul é a região de rejeição para um =α 05.0
Para uma decisão final, basta ver se o valor resultante de um teste estatístico está na 
região de rejeição ou não. 
Uma abordagem alternativa para o teste de hipóteses é sugerida pelo cálculo da 
probabilidade associada. ( ) a uma dada observação. O valor é a probabilidade de ser 
verdadeira. Se toma um valor menor ou igual a , então rejeitamos a hipótese nula, caso 
contrário, se p toma um valor superi r a α , então aceitamos H O valor p (ou 
probabiliade de significância) dá-nos também uma ideia do poder do teste estatístico. 
Quanto maior for a probabilidade p mais forte é o teste e com mais facilidade s
p p 0H
p α
0
ace
2 
Introdução 
 
 
INTRODUÇÃO 
 
Nos primórdios da estatística, desde que o Homem se organiza em sociedade, ela 
aparece como processo organizado de contagem, seja ela de pessoas, cereais, frutas, etc.. 
Estes processos de contagem eram, posteriormente, apresentados à sociedade através de 
tabelas e gráficos. 
A palavra estatística aparece sempre ligada a coisas do Estado (status), mas só no séc. 
XVII a estatística é tida como uma disciplina autónoma destinada a descrever factos ligados 
ao estado. A estatística era associada ao processo político, como base para o planeamento do 
Estado. 
Esse processo de contagem do todo, denominado Censo, não é um procedimento dos 
tempos passados. Na verdade ela constitui uma importante área da Estatística. 
Relativamente à totalidade dos dados, há uma outra linha de trabalho que é conhecida 
como Estatística Descritiva, que procura expressar as informações mais relevantes contidas 
num conjunto de dados através do cálculo de valores. Cada um destes valores resume de uma 
forma específica o conjunto de dados. 
Mais recentemente, surgiu outro campo da estatística que designa-se por Estatística 
Indutiva ou Inferência Estatística 
Esta estatística preocupa-se em estimar o verdadeiro valor desconhecido do(s) 
parâmetro(s) de uma população e testar hipóteses com respeito ao valor dos parâmetros 
estimados, ou à natureza da distribuição da população. 
Aqui é que surge uma separação, ou sabemos à partida qual a distribuição da população 
(Estatística Paramétrica), ou não sabemos qual a sua distribuição (Estatística Não 
Paramétrica). 
Focaremos o nosso estudo sobre a Estatística Não Paramétrica. Os primeiros métodos 
da estatística não paramétrica, embora com pouco uso até aos anos 40, foram referidos por 
John Arbuthnot em 1710. Estes começaram a ter maior impacto só a partir de 1942 com 
Wolfowitz. A partir daí o interesse aumentou de uma forma rápida. 
Hoje a estatística não paramétrica é considerada como um dos campos mais importantes 
da estatística. As técnicas que advêm desta categoria são usadas com grande frequência nas 
ciências físicas, biológicas e sociais ou até mesmo na comunicação. Outros autores, também 
dão importância a outros campos, tais como, na análise de dados da qualidade da água 
3 
Introdução 
 
 
(Helsel), em aplicações na medicina (Brown and Hayden) ou mesmo na psicologia 
(Buckalew). 
Enumeremos, algumas vantagens para os métodos conhecidos: 
 
1. Como os métodos da estatística não paramétrica depende do mínimo de suposições, 
a possibilidade de o método não ser adequado é menor. 
2. Para alguns métodos a avaliação pode ser rápida e fácil, especialmente se o cálculo 
for manual. Deste modo, usando-os pode poupar tempo. É considerado importante, 
se não tivermos tempo ou se não temos meios técnicos para o cálculo rápido. 
3. Os métodos estatísticos são fáceis de perceber, mesmo tendo o mínimo de 
preparação matemática e estatística. 
4. Muito dos testes não paramétrica trabalham só com a ordem dos dados. 
5. Poderão trabalhar com amostras de pequenas dimensões. 
 
É claro que os métodos de estatística não paramétrica também trazem desvantagens. As 
mais importantes são as seguintes: 
 
1. Os testes não paramétricos, por vezes, são usados quando os testes paramétricos são 
mais apropriados, porque estes testes são mais simples e rápidos, deste modo, pode 
haver perda de informação. 
2. Ainda que os procedimentos não paramétricos têm a reputação de requerer só 
cálculos simples, a aritmética em muitas instâncias pode ser tendenciosa e 
trabalhosa, especialmente quando as amostras são grandes. 
3. Os métodos paramétricos são mais potentes para uma mesma dimensão e um 
mesmo α do que os métodos da estatística não paramétrica. 
 
Situação onde podemos usar os métodos da estatística não paramétrica 
 
Os métodos não paramétricos são apropriados quando: 
 
1. As hipóteses a testar não envolve parâmetros da população. 
2. Se conhece a ordem dos dados. 
3. Os pressupostos necessários para o uso válidos dos métodos paramétricos não são 
conhecidos. Em muitos casos o planeamento de um projecto de pesquisa pode 
4 
Introdução 
 
 
sugerir um certo processo paramétrico, mas quando iremos aplicar este processo 
poderá violar de uma forma determinante os pressuposto. Neste caso, um método 
não paramétrico seria a única alternativa. 
 
Quando queremos implementar um método devemos ter em conta o nível de medida das 
variáveis a analisar, estas estão divididas em diferentes grupos: 
1. Escala Nominal: neste nível situam-se todas as observações que são categorias e 
não têm uma ordem natural, por exemplo, o sexo dos alunos de uma dada turma. 
Para que tenha uma ordem, pode ser atribuído um valor numérico, no entanto, os 
números não tem um verdadeiro e único significado (Ex.: masculino=1, feminino=2 
ou feminino=1, masculino=2); 
2. Escala Ordinal: as observações são categorias que têm uma ordem natural. Estas 
observações podem não ser numéricas. Por exemplo, as classificações dos testes 
podem ser mau, não satisfaz, satisfaz, bom ou muito bom. 
3. Escala Intervalar: tem todas as características da ordinal com a vantagemde 
conhecer as distâncias entre dois números quaisquer da escala. Estes valores estão 
limitados entre dois valores. (Ex. As notas das frequências de uma dada turma, os 
valores estão entre zero e vinte). 
4. Escala de Razões: além das características de uma escala intervalar, tem um 
verdadeiro ponto zero como origem. Não existe limites. Nesta escala, a razão de 
dois pontos quaisquer é independente da unidade de mensuração, por exemplo, se 
determinarmos os pesos de dois objectos diferentes não somente em libras, mas 
também em gramas, observamos que a razão dos dois pesos em libras é idêntica à 
razão dos dois pesos em gramas. 
 
Os vários métodos para testar as hipóteses serão apresentados de forma a focar as 
diferenças entre as várias fontes de informação disponíveis, tais como, as tabelas e os dois 
Software especializados: o Mathematica® e o SPSS®. A introdução dos dados, no caso do 
SPSS®, e a programação das funções, no caso do Mathematica®, estarão em anexo, bem com 
as tabelas aqui utilizadas. 
5 
Capítulo 1: Caso de uma amostra 
CAPITULO 1: CASO DE UMA AMOSTRA 
 
Os testes estatísticos inerentes ao caso de uma amostra servem para comprovar uma 
hipótese que exige a extracção de uma amostra. É usualmente usado para teste de aderência, 
isto é, se determinada amostra provém de uma determinada população com uma distribuição 
específica. 
 As provas de uma amostra verificam se há diferenças significativas na locação 
(tendência central) entre a amostra e a população, se há diferenças significativas entre 
frequências observadas e as frequências que poderíamos esperar com base em determinado 
princípio, se há diferenças significativas entre as proporções observadas e as proporções 
esperadas e se é razoável admitir que a amostra seja uma amostra aleatória de alguma 
população conhecida. 
 
1.1 Teste da Binomial 
 
Antes de falar no teste da Binomial, falemos um pouco da distribuição Binomial. Esta 
distribuição é comum ser usada para a contagem de eventos de um modelo observado. É 
baseado no pressuposto de que a contagem podem ser representada como um resultado de 
uma sequência de resultados independentes de Bernoulli (por exemplo: o lançamento de uma 
moeda). Se a probabilidade de observar um resultado R é P para cada n ensaios, então a 
probabilidade que R será observado num ensaio x exacto é 
 
xNx
x PPx
N
p −−⎟⎟⎠
⎞
⎜⎜⎝
⎛= )1( 
 
A distribuição definida por: [ ] ),,1( NxpxXP x K=== é chamada distribuição 
bi râmnomial com pa etros n e p. O nom que a expansão binomial de e aparece, pelo facto de
np)− é nPPP +++ K10 . 
O Teste da Binomial aplica-se a amostras que provém de uma população, onde o 
número de casos observados podem ser representados por uma variável aleatória que tenha 
distribuição binomial. As amostras consistem em dois classes (ex: cara o
p 1( +
u coroa; sucesso ou 
insucesso), deste modo este teste é aplicado a amostra de escala nominal. 
(1.1.1) 
6 
Capítulo 1: Caso de uma amostra 
Cada uma das classes tem a sua proporção de casos esperados, tomaremos, assim, P 
para a proporção de uma das classes, e para a outra classe. PQ -1=
P é fixo para uma determinada população, mas, devido aos efeitos aleatórios, não 
podemos esperar que determinada amostra tenha exactamente a mesma proporção. 
A hipótese a ser testada é se o valor da população é P . 
A probabilidade de obter x objectos numa das categorias e noutra categoria é 
dada pela fórmula 1.1.1.. 
xN −
No entanto, não queremos saber qual a probabilidade exacta dos valores observadas, 
mas sim qual a probabilidade de obter os valores observados ou valores mais extremos. Então 
para o método aplicamos a seguinte distribuição amostral: 
∑
=
iNiN
i QPC
- 
ão da amostra); 
3. ostra, elas são classificadas em pequenas amostras 
3.1. 
x
i 0
Método: 
1. Determinar o número de casos observados N (dimens
2. Determinar as frequências em cada uma das classes; 
Conforme a dimensão da am
( )25≤N ) e grandes amostras ( 25>N ): 
Para pequenas amostra e 21== QP , a tabela D dá as probabilidades unilaterais, 
sob 0H , de vários tão pequenos quanto um x observado. Emprega-se uma prova 
unilateral quando se conhece em antemão qual das classes tem menor frequência, 
3.2. Se robabilidade, sob , de ocorrência do valor 
caso contrário basta, para uma prova bilateral, duplicar os valores da tabela D. 
 QP = , determina-se a p 0H
observado x , utilizando a fórmula 1.1.2. 
Para grandes amostras, pode-se demonstrar que quando N cresce a distribuição 
binomial tende para a distribuição Normal. Se s rápida se P estiver próximo 
de 
3.3. 
rá mai
2
1 . Os parâmetros a usar serão a média =NPµ x e o desvio padrão NPQ=σ , 
deste m
x
odo, tem distribuição aproximadamente normal com média 0 e 
variância 1, sendo: 
z
NPQ
x-NP
=
σ
x-µ
z= x (1.
x 
(1.1.2) 
1.3) 
7 
Capítulo 1: Caso de uma amostra 
Devido à natureza da variável x ser discreta e a distribuição normal ser contínua, 
deve-se incorporar um factor de correcção. Assim sendo z fica 
 
NPQ
-NPx
z
)5.0±(
= 
 
onde x + 0.5 
(1.1.4) 
é utilizado quando x < NP e x – 0.5 quando x > NP. 
Então para grandes amostras e P próximo de 21 , testamos a hipóteses pla icando a 
fórmula 1.1.4. A tabela A dá a probabilidade, sob , associada à ocorrência de 
 grandes quanto um valor de z observado, dado por aquela fórmula. A 
tabela dá os valores unilaterais de p, sendo necessário para prova bilateral, 
plo 1.1.1: 
mos que num
. O pais querem saber se a probabilidade de nascer feminino ou masculino é igual. 
R
idade de ascer menino ( ) ou 
menina (
p babilidade. 
ial porque os dados estão dicotomizados em duas classes 
discretas. O nascim ,
0H
valores tão
duplicá-los. 
Se o valor p associado ao valor observado x, não superar α , então rejeita-se H . 0
 
Exem
 
Suponha a dada família nasceram 12 filhos, 7 do sexo feminino e 5 do sexo 
masculino s 
esolução: 
 
Hipóteses: 
 210 =: ppH Não há diferenças na probabil n 1p
)2p . 
211 : pH ≠ Há diferença na pro
 
Escolhe-se o teste binom
ento é um processo aleatório, assim 21== QP . 
 
Seja e N número de filhos = 12 01,0=α
 
 
8 
Capítulo 1: Caso de uma amostra 
A distribuição amostral é dada pela fórmula: 
387,0
5
00 == i
i
i
i
 
-12- == ∑∑ iNix iNiN QPCQPC 
ara a bilateral basta 
duplicar o valor, sendo assim,
Sabemos que o cálculo anterior deu a probabilidade unilateral, p
 774,0387,02 =×=p . A região de rejeição consiste em todos 
e x tão pequenos que a probabilidade, sob a hipótese nula, associada à sua 
ocorrência não seja superior a 0,01. 
Como a probabilidade p = 0,774 associado a 
os valores d
5≤x é maior que 01,0=α , conclui-se 
que não existe diferenças nas probabilidades de nascer menino ou menina. 
O SPSS®, além do valor p, dá-nos um quadro resumo da amostra: 
 
Output 1.1.1: 
 
 
Este software pode fazer o teste com maior rapidez, muito embora, se a dimensão da 
amos
 
nascimentos e que 
nasceram 725 crianças do sexo masculino, para testar a hipótese, basta: 
 
pmB
tra for muito grande, a introdução dos dados poderá ser demorada. Para colmatar esta 
situação podemos recorrer ao Mathematica®, pois, basta dar o número de casos de um das 
classes como ilustra o seguinte exemplo: 
 
E emplo 1.1.2: x
Suponhamos agora que queremos saber se a probabilidade de nascer masculino ou 
feminino num dado país é igual. Considerando uma amostra de 1500 
n inomial p-value = 0.5725 
One- Sided PValue - > 0.102896822008 
Two- Sided PValue - > 0.205793644017 
9 
Capítulo 1: Casode uma amostra 
Como o “p-value” é maior que 01.0=α , então aceitamos a hipótese de que não existe 
diferenças entre o número de nascimentos do sexo masculino e feminino. 
 
1.2 Teste do Qui-Quadrado ( 2χ ) para uma amostra 
 
É adequado aplicar este teste quando temos os dados da amostra dividida em duas ou 
mais categoria. O propósito deste método é ver se existem diferenças significativas entre o 
núme ivíduos, de objectos ou de respostas, em determinada classe, e o respectivo 
núme Isto é, a técnica testa se as frequências 
obser
hipótese 
 método envolve os seguintes passos: 
1. Enquadrar as frequências observadas nas k categorias. A soma 
ser N, número de observações independentes; 
 Por meio de , determinar as frequências esperadas para uma
3. órmula: 
 
ros de ind
2χro esperado baseado na hipótese nula.
vadas estão suficientemente próximas das esperadas para justificar sua ocorrência sob a 
nula. 
 
Método: 
O
2. 0H
 Calcular o valor de 2χ por meio da seguinte f
( )∑ −= k ii EO 22χ 
=i i
calc E1
.
 
 
iO = número de casos observados na categoria i 
 = número de casos esperados na categoria i sob 0H 
= número de categorias na classificação; 
iE
k 
4. Determinar o grau de liberdade ( 1−= kgl ); 
5. Com base na tabela C, determinar a probabilidade associada à
2de um valor tão grande quanto o valor observado de 
considerado. Se o valor de p, assim obtido, for igual a, ou meno
χ
se a hipótese nula. 
das frequências deve 
 das k células; 
 ocorrência, sob 0H , 
para o valor de 
r do que, 
gl
α , rejeita-
(1.2.1)
10 
Capítulo 1: Caso de uma amostra 
Nota: quando k > 2, se mais de 20 por cento dos ’s são inferiores a cinco, combina-
se de maneira razoável, categorias adjacentes. Reduzindo, assim o número de classes e 
aume uns dos ’s. Quando k = 2. Pode-se empregar a prova 
para uma amostra só se cada frequência esperada é no mínimo, igual a 5 (Cochran, 1954). 
 
E
 
Tabela
elho Branco Preto Azul Cinzento
iE
 iE
2χ ntando o números de alg
xemplo 1.2.1: 
Dada a seguinte tabela: 
 
 1.2.1: 
Cor Verm
Número de automóveis 29 25 19 15 17 
 
Querem e há preferência em determinada cor, isto é, há razões para dizer que 
há preferência rminada cor? Com um nível de significância 
os saber s
 em dete 05,0=α . 
esolução: 
ormulamos as hipóteses: 
R
 
F
5
1: CinzentoAzulPretoBrancoVermelho0 ===== PPPPPH 
01 : HH é falsa. 
 
Calculamos o número total de frequências e o valor esperado: 
 
105 ++++====== 1715192529CinzentoAzulPretoBrancoVermelho NNNNNN =
 
21
5
105 ===Ei 
 
k
N
alculamos 2χ : C
( ) ( ) ( ) ( ) ( ) 48,6
21
2117
21
2115
21
2119
21
2125
21
2129 222222 ≈−+−+−+−+−=χ 
11 
Capítulo 1: Caso de uma amostra 
A tabela C indica que 48,62 ≥χ para gl = 4 tem a probabilidade de ocorrência 
entre 1,0=p e 2,0=p . Como p > α então não podemos rejeitar 0H . Concluindo que a 
proporção de casos em cada categoria é igual, para um nível de 0,05. 
 
Através deste exemplo, verifica-se que 
tabela, deste modo, seria mais preciso se util
não podemos ir buscar o valor exacto de p na 
assim, o SPSS® seria a melhor escolha, como
 
Output 1.2.1: 
 
 
 
 
 
 
oderíamos utilizar o Mathematica®, através da função QuiQuadrada1Amostra[], 
iQuadrada1Amostra 29,25,19,17,15 
izarmos outros meios de cálculo mais eficazes, 
 ilustra o seguinte output: 
 
P
dando como parâmetro a amostra: 
 
Qu
PValue: 0.166297 
 
como é observado, o
associad
a am
função de distribuição empírica da amostra define-se como a proporção das observações da 
amostra que são menores ou iguais a 
 Mathematica® calcula com maior precisão o valor da probabilidade 
a. 
 
1.3 Teste de Kolmogorov-Smirnov 
 
O Teste de Kolmogorov-Smirnov de um ostra é baseado na diferença entre a função 
de distribuição cumulativa )(0 xF e a função de distribuição empírica da amostra )(xSn . A 
x para todos os valores reais x . )(xSn dispõe dum 
estimador pontual consistente para a verdadeira distribuição . Mais, através do teorema )(xFX
12 
Capítulo 1: Caso de uma amostra 
de Glivenko-Cantelli1 , podemos afirmar que )(xSn aproxima-se da distribuição teórica. 
Portanto, p ra um n grande, o desvio entre as duas dia stribuições, ,)()( xFxS Xn − fica cada 
vez m is pequenos para todos os valores de x . Assim ficama os com o seguinte resultado: 
 
)()(sup xFxD X
x
n −= (1.3.1) 
 
À esta nD chama os estatística de Kolmogorov-Smirnov de uma amostra. É 
particularmente út
Sn
tística m
i a a Estatística Não Paramétrica, porque a probabilidade de não 
depen este modo, pode ser chamada estatística 
sem distribuição. 
l par nD
de de )(xFX desde que XF seja contínua. D nD
O desvio à direita e à esquerda definida por 
 
 [ ])()(sup xFxSD Xn
x
n −=+ [ ])()(sup xSxFD nXn −=− (1.3.2) 
 
x
são c
uições de são independentes de 
podem s assumir, sem perda de generalidade, que é a distribuição uniforme com 
par sim o s o seguinte teorema: 
 
Teorema 1.3.1: Para 
hamados estatísticas de Kolmogorov-Smirnov unilaterais. Estas medidas também não 
têm distribuição. 
 Para que possamos utilizar a estatística de Kolmogorov para inferência, a distribuição 
da amostra deve ser conhecida. Sabendo que as distrib nD XF , 
o XF
âmetros (0,1). As btemo
)()(sup xFxSD Xn
x
n −= onde é uma função distribuição 
cumulativa contínua qualquer, temos: 
 
)(xFX
 
1 Teore ko-Cantelli: converge uniformemente para com a probabilidade 1; que é ma de Gliven )(xnS )(xFX
10)()(suplim =⎥⎦
⎤⎢⎣
⎡ =−
∞<<∞−∞→
xFxSP Xn
xn
 
13 
Capítulo 1: Caso de uma amostra 
⎪⎩1
⎪⎪ −≥
n
nvse
vse
2
12
0
10! uun K
i extraí d
 preciso ter em enos 
ordinal. 
Seja uma distribuição de frequências acumuladas, teórica, sob 
Seja a distribuição de frequências acumuladas de uma amostra aleatória de N 
⎪⎨ −<<=⎟⎠
⎞⎜⎝
⎛ +< ∫ ∫ ∫+− +− +− −− nnvseduduuuufvnDP
vn
vn
vn
vn
vnn
vnn nnn 2
120),,,(
2
1 2/1
2/1
2/3
2/3
2/)12(
2/)12( 121
KKK
⎪⎪
⎧ ≤0
 
onde ( ) ⎩⎨= contrário caso0,,,
1
21
n
nuuuf K 
 
⎧ <<<<
Método: 
Este método pretende testar se uma determinada amostra fo da e uma população 
com uma determinada distribuição teórica. 
Quando se escolhe este teste é conta que a variável seja pelo m
)(0 XF 0H . 
)(XS N
observações. Quando X é qualquer valor possível, 
N
kXS N =)( , onde k é o número de 
observações não superiores a X. 
ela hipótese Nula, de que a amostra tenha sido extraída de uma população com a 
distrib pecífica, espera-se que as diferenças entre e sejam 
pequenas e estejam dentro dos limites dos erros aleatórios. O teste de Kolm irnov 
focali
P
uição teórica es )(XS N )(0 XF
ogorov-Sm
za a maior dessas diferenças. Ao valor de )()(0 XSXF N− é chamado de desvio 
máximo, D: 
 
)()(0 XSXFmáxD N−= 
 
A Distribuição amostral de D, sob 0H , é conhecida. A tabela E dá certos valores 
críticos dessa distribuição amostral. Note-se que a significância de um dado valor D depende 
de N. 
(1.3.3) 
 
14 
Capítulo 1: Caso de uma amostra 
Exemplo 1.3.1: 
 
Suponha-se que um pesquisador esteja interessado na confirmação experimental da 
observação sociológica, de que os negros Americanos aparentam demonstrar uma hierarquia 
de preferência em relação à tonalidade de pele. Para comprovar quão sistemáticas são essas 
 o pesquisador fictício tira uma fotografia de cada um dentro de 10 indivíduos 
negros. O fotógrafo revela essas fotografias,obtendo cinco cópias de cada uma, de tal forma 
que cada cópia difi ou em s, ser classificadas 
em cinco tipos, desde a mais clara até à mais escura. À fotografia mais escura é atribuído o 
posto 1, e para a mais clara é atribuída o posto 5. Pede-se então a cada indivíduo que escolha 
uma de entre as cinco cópias de sua própria foto. Se os indivíduos forem indiferentes em 
relação à tonalidade da cor da pele, a escolha deverá recair igualmente sobre os cinco postos 
(com ex
tão os diversos 
indivíduos deverão consistentemente manifestar preferência por um dos postos extremos. Os 
resultados est u
Tabela 1.3.1: 
preferências,
ra ligeiramente das tras tonalidade, podendo, poi
cepção, é óbvio, de diferenças aleatórias). 
Se, por outro lado, a cor tiver importância, tal como supomos, en
ão na seg inte tabela: 
Posto da foto 1 2 3 4 5 
N.º de indivíduos 0 1 0 5 4 
 
Resolução: 
Formulamos as hipóteses: 
 
ffH 543 fff ==210 : == ão há diferenças no número esperado de escolhas para 
cada um dos cinco postos, isto é, a amostra prov de uma população com um distribuição 
uniforme.) 
 
é falsa ( não são iguais). 
ção de frequências 
acumuladas teórica e a da amostra: 
 
 (N
ém a 
01 : HH 54321 ,,,, fffff
 
Com a ajuda de uma tabela, calculamos a diferença entre a distribui
15 
Capítulo 1: Caso de uma amostra 
Tabela
 
 1.3.2: 
1f 2f 3f 4f 5f 
N.º de indivíduos que 
0 1 0 5 4 
escolhem a cor 
)(0 XF 5 
1
5
 1
5
 1
5
 1
5
 1
)(0 XS 0 10
1 
10
1 
10
6 
10
10 
)()(0 XSXF N− 5
1 
10
3 
10
5 
10
2 0 
 
De seguida, calculamos o máximo entre estas diferenças: 
{ } 5,0
10
5)()(0 ==−= XSXFmáxD N 
Consultamos a tabela E que nos dá a probabilidade p associada de ocorrência (bilateral) 
de com5,0≥D 10=N : 
Utilizando um nível de significância 
.01,0≤p 
01,0=α , podemos concluir que é falsa, sendo 
assim, os indivíduos demonstram preferência na tonalidade. 
Como é observado, a tabela dá-nos intervalos de p , não sendo possível obter o seu valor 
exacto. Poderíamos escolher um 
0H
03,0=α e se, após o cálculo de D, a probabilidade 
associada estiver entre 0,01 e 0,05, não era possível dar uma resposta. 
o SPSS® p
Output 1.3.1: 
odemos obter o valor exacto de p: N
 
 
 
16 
Capítulo 1: Caso de uma amostra 
1.4. Teste de Iterações de Uma Amostra 
 
Dado uma sequência de dois ou mais tipos de símbolos, uma iteração é definida como 
uma sucess u ma s símbolos idênticos em que são seguidos e precedidos por outro 
símbolo diferente ou nenhum símb lo. 
Pistas para uma sequência não aleatória são dadas através da 
ão de um o i
o
existência de algum 
padrão. O n
reflectir a existência de algum tipo de padrão. 
Quer a situação de um núm
 aleatória
grande ou muito pequeno. 
ste teste utiliza-se quando os valores estão numa escala nominal ou ordinal, em que a 
amostra 
Dada uma sequência d m do segundo 
tipo, onde 
úmero de iterações e o comprimento, em que estão interrelacionados, devem 
Uma alternativa para saber se é ou não aleatória é baseada no número total de iterações. 
 número pequeno quer a situação de um ero grande de iterações, 
sugere que a sequência de símbolos estão dispostos de forma ordenada (não ), isto é, 
a hipótese nula é rejeitada se o número de iterações é muito 
E
 é dicotómica.
e n elementos de dois tipos, 1n do pri eiro tipo e 2n
nnn =+ 21 . Se é o número de do tipo 2, então, o 
número total de iterações na sequência é 
1 2
21
r iterações do tipo 1 e r
rrR += . Para fazer um teste para a aleatoriedade, 
precisamos da distribuição de probabilidade de R quando a hipótese nula é verdadeira. 
A distribuição de R será encontrada quando conhecerm s a distribuição de r e r , 
bastando somar as duas distribuições. Sabendo que sobre a hipótese nula todos os arranjos de 
o
 objectos é equiprovável, a probabilidade de 
1 2
21 nn + 11 rR = e 22 rR = é o número de arranjos 
L
distintos de 21 nn + objectos dividido pelo total de arranjos distintos, que é !!/! 21 nnn . Para a 
quantidade do numerador, o lema seguinte pode ser usado. 
 
ema 1.4.1: O número de formas distintas para distribuir n objectos iguais por 
r distintas células sem células vazias é n
r
≥⎟⎟⎠⎜
⎜
⎝ − 
se
 lulas, em que pode ser feito em ⎜⎜⎝
⎛
−11
1
r
n
 diferentes 
.,
1
1n ⎞⎛ − r
 
De modo a obter uma quência com r iterações de objectos do tipo 1, os n objectos 
iguais deve ser postas dentro de cé ⎞−1
1 1
1r ⎟⎟⎠
17 
Capítulo 1: Caso de uma amostra 
maneira a-se d os objectos. O 
núme s distintos começando com uma iteração do tipo 1 é o produto 
⎛ −⎞
⎜⎜⎝
⎛
−
− 12
1
1 n
r
n
a iteração do tipo 2. 
O conjunto de objectos do tipo 1 e do tipo 2 deve ser alternado, e consequentemente poderá 
acontecer o seguinte: 
s. Aplic o mesmo modo para obter 2r iterações com outr 2n
ro total de arranjo
⎟⎟⎠⎜
⎜
⎝ −⎟
⎟
⎠ 11 2r
. Analogamente, para uma sequência começando com um
1 ⎞
121 ±= r ou 21 rr = . Se 121 += rr , a sequênciar deve começar com uma 
iteração do tipo 1; Se e ser o tipo 2 a começar. Caso a sequência 
pod o do er 
duplicado. Assim foi
Teorema 1.4.1: Seja e os respectivos números de iterações de objectos do 
2 n ma ostra aleatória de dimensão . A distribuição 
a probabilidade conjunta de e é 
121 −= rr então dev 21 rr =
e começar com tipo 1 ou 2., portanto, o número de arranjos distintos deve s
 provado os seguintes resultados. 
 
1R 2R 1n
tipo 1 e n objectos do tipo u am2 21 nnn +=
d 1R 2R
⎟⎠⎜⎝ 1n
e 2=c se 21 rr = e 1=c se 121
⎟⎜
⎞⎛ −
⎠
⎞
⎝
⎛ −
21
1
1
1
n
nn
 (1.4.1) 
ond
⎞⎛ += 21),(, 2121 n
f rrRR 
⎟⎟⎠⎜
⎜
⎝ −⎟
⎟⎜⎜ −
21
1rr
c
 
±= rr . 
 
Corolário 1.4.1: A distribuição da probabilidade marginal de é 1R
11
1
2
1
21
,,2,1
11
nr
n
n
nn
K=
⎟⎟⎠
⎞
⎜⎜⎝
+
⎟⎟
⎞
⎜⎜
⎛ +
⎟⎟
⎞
⎜⎜
⎛ −
 
 2R trocando posições de 1n com 2n e vice-versa. 
 
1
1
)(
1
11 n
rr
f rR ⎛
⎠⎝⎠⎝ −=
 Similar para
Teorem
 do tipo 1 e do tipo 2, numa amostra aleatória é 
,,2,1
21
22
=
,,2,1
11
=
=
ourr
nr K
 
nr K
121 ±= rr
(1.4.2) 
a 1.4.2: A distribuição de probabilidade de R , número total de iterações e 
21 nn += objectos, 1nn 2n
18 
Capítulo 1: Caso de uma amostra 
⎪⎪
⎪⎪
⎪
⎩
⎪⎪
⎪⎪
⎪⎪
⎧
⎟⎟⎠
⎞
⎜⎜⎝
⎛ +
⎟⎟⎠
⎞
⎜⎜⎝
⎛
−
−
⎟⎟⎠
⎞
⎜⎜⎝ −
+⎟⎟⎠⎜
⎜
⎝ −⎟
⎟
⎠⎜
⎜
⎝ −
⎟⎟⎠
⎞
⎜⎜⎝
⎛ +
⎟⎟⎠
⎞
⎜⎜⎝
⎛
−
−
⎟⎟⎠
⎞
⎜⎜⎝
⎛
−
−
parérse
n
nn
r
n
rrr
imparérse
n
nn
r
n
r
n
1
21
2121
1
21
21
2/)1(
1
2/)3(2/)3(2/)1(
12/
1
12/
1
2
 (1.4.3) 
 
nn
⎪⎨ ⎛ −⎞⎛ −⎞⎛ −
=
nnn
rf R
111
)(
 para ,3,2r 21,= K + 
 
1. Dispo observa sua ordem ncia; 
2. C
Método: 
r as 1n e 2n ções na de ocorrê
ontar o número r de iter
3. Det robabilida ass valor tã mo quanto o 
valor observado de r. Se t abilidade inferior, 
ações; 
erminar a p de, sob 0H , ociada a um o extre
al prob é igual, ou a α , rejeitar . A 
técnica para a determinação do valor de p depende do tama e 
3.1. S ambos n eriores a r à tabela abela FI dá o 
valor de r que é tão pequeno que a sua probabilidade associada, sob é 
 tão grande que a sua probabilidade 
 0H
nho dos grupos 1n 2n : 
e 1n e 2n são ão sup 20, recorre F. A t
0H
025,0=p ; a tabela FII dá o valor de r que é
associada é 025,0=p . Para uma prova bilateral consideramos os dois valores, ao 
nível 05,0=p . Para uma prova unilateralconsideramos a tabela correspondente 
mbém a um nível aos valores previstos ta 05,0=p . 
3.2. Se 1n ou 2n for superior a 20 então determinar uma aproximação à Normal através 
da se guinte fórmula: 
 
( )
( ) ( )1
12
21
2
21
21
21
−++
⎟⎟⎠
⎞⎛ ++
nnnn
nn
nn
(1.4.1) 
22 212121 −−
==
nnnnnn
z
rσ 
⎜⎜⎝
−− rr rµ
19 
Capítulo 1: Caso de uma amostra 
calculado o valor de z, recorrer à tabela A. 
Apresentamos uma tabela onde é dado o total de pagamentos feitos pelas equipas da 
iga Nacional de baseball dos EUA: 
Tabela 1.4.1: Pagamentos em milhões de dólares. 
 
Exemplo 1.4.1: 
 
L
 
Equipa Pagamento Equipa Pagamento 
Atlanta 47.93 Montreal 15.41 
Chicago Cubs 31.45 New York Mets 23.46 
Cincinnati 40.72 Philadelphia 29.72 
Colorado 38.19 Pittsburgh 21.25 
Florida 30.08 San Diego 27.25 
Houston 26.89 San Francisco 34.79 
Los Angeles 34.65 St. Louis 38.92 
 
A mediana deste conjunto de números é de 30,765. 
 valor maior que a mediana. 
ência aleatória. Com um nível de 
significância 
Convertemos os valores indicados na tabela para zeros e uns, o zero corresponde a um 
valor menor que a mediana e o um corresponde a um
Obtemos a seguinte sequência: 
1,1,1,1,0,0,1,0,0,0,0,0,1,1 
Queremos saber se os valores estão numa sequ
05,0=α . 
Resolução: 
 
Formulamos as hipóteses: 
0H : os zeros e uns ocorrem em ordem aleatória 
01 : HH é falsa. 
 
O número de iterações é 5=r ; 1 e 72 =n =n 7
 s para o r com a ajuda da Tabela F que nos dá o seguinte 
resultado: 
13 
Calculamos os extremo
3 5 
Região de Rejeição Região de Rejeição 
Região de Aceitação 
20 
amendes
Rectangle
Capítulo 1: Caso de uma amostra 
 
 
odo, 
concluímos que, com um nível de significância 
 
 
Como r pertence ao intervalo de aceitação, podemos aceitar 0H , deste m
05,0=α , os pagamentos ocorrem de forma 
aleatória. 
 
Podemos verificar que estas tabelas não nos dão o valor de p, apenas um intervalo de 
rejeição. Quer no Mathematica®, quer no SPSS® podemos calcular de uma forma exacta o 
valor da probabilidade associada. 
Vejamos então no SPSS: 
 
Output 1.4.1: 
 
Como podemos observar a probabilidade associada é de 164,0=p , assim chegamos ao 
mesmo resultado, isto é, aceitamos a hipótese nula. 
No Mathematica® usamos dois procedimentos, um para converter para zeros e uns 
outro para o cálculo da probabilidade: 
Guardamos os valores numa variável do tipo lista: 
 
Pagamentos = 47.93, 31.45, 40.72, 38.19, 30.08, 26.89, 34.65, 15.41, 
23.46, 29.72, 21.25, 27.25, 34.79, 38.92 
 
 
convertemos para zeros e uns: 
ZeroUns = convertToZerosAndOnes pagamentos 
1, 1, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1 
21 
amendes
Placed Image
Capítulo 1: Caso de uma amostra 
 
e calculamos a probab
npmRunsTest ZeroUns 
ilidade associada: 
Number of Runs - > 5 
Two- Sided PValue - > 0.155012 
 
Concluímos, do mesmo modo, que não há razão para rejeitar a hipótese nula. 
 
omo conclusão para este teste, podem a ajuda do computador, não 
é nec a
C os afirmar que, com
essário fazer uma aproximação à normal, visto que, não tem limitação das tabelas. 
22 
Capítulo 2: Caso de duas amostras relacionadas 
CAPÍTULO 2: CASO DE DUAS 
tro. 
 
2.1 Teste dos Sinais 
 
É dado uma amostra aleatória de pares ordenados da forma 
)y , cada par é substituído por um sinal mais ou menos depende 
se o prim aior ou menor. 
1.
2. Determ embros de cada par; 
. Determinar N = número das diferenças com sinal; 
 sociada à ocorrência, sob , de um 
AMOSTRAS RELACIONADAS 
 
Empregam-se os testes para duas amostras relacionadas quando queremos determinar, 
para uma mesma situação, se duas abordagens, tratamentos ou métodos são diferentes ou se 
um é melhor que o ou
( ) ( ) ({ }2122211211 ,,...,,,, nn yyyyy
eiro valor é m
 
Método: 
 Emparelhar n pares; 
inar o sinal da diferença entre os dois m
3
4. O método para determinar a probabilidade as 0
valor tão extremo quanto o valor observado de 
H
z depende do tamanho de N: 
i. Se , a tabela D teral associada a uma 
valor tão pequeno quanto o valor esperado 
25≤N dá a probabilidade unila p
x = número de sinais com menor 
frequência. Duplica-se o valor da pr
ii. Se N , calcular o valor de 
obabilidade quando se trata de um teste 
bilateral. 
> 25 z mediante o emprego da fórmula: 
 
N
Nx 1)5,0( −±
z
1
2= 
2
 
Utiliza-se 5,0+x quando Nx 21< , caso contrário, 5,0−x . 
al duplicar o 
valor de 
lor da probabilidade obtida no teste não for superior a
A tabela A dá os valores unilaterais de p , para um teste bilater
 α , rejeitar 
(2.1.1) 
0H . 
p . 
Se o va
23 
Capítulo 2: Caso de duas amostras relacionadas 
Exemplo 2.1.1: 
essor acredita 
que u
Tabela
8 76 60 46 86 33 94 122 75 65 80 111 62
Depois 21 85 58 58 91 32 106 145 83 78 80 122 75
 
Um professor da disciplina de alemão pretende avaliar o impacto de uma viagem, com a 
duração de uma semana à Alemanha, sobre o vocabulário dos estudantes. O prof
ma semana na Alemanha resultará num acréscimo significativo das palavras do 
vocabulário dos seus alunos, antes e depois de regressarem da viagem, tendo obtido os 
seguintes resultados: 
 
 2.1.1: 
Antes 9
1 
esolução: 
ormulamos as hipóteses: 
 Não há diferenças, i esmo de sinais “-”. 
é falsa. 
 
R
 
F
0H : sto é, o número de sinais “+” é o m
H 01 : H
 
Iremos usar o teste dos sinais, escolhendo um 05,0=α . 
Após a análise dos pares ordenados verificamos a seguinte sequência de sinais: 
+ + - + + - + + + + + +i 
12=N (ne 2=x ste caso houve um empate) e 
 
25≤NComo , recorremos à tabela D, e verificamos que para uma prova unilateral o 
valor de p é de 0,019, mas como a prova é bilateral 038,0=p 
Sendo assim, rejeitamos a hipótese nula, dado lugar à hipótese alternativa, concluindo 
endável os alunos irem à Alemanha. 
Vam ver como seria no computador este exemplo: 
Após a introdução dos dados no SPSS®, teríamos os seguintes resultados: 
que seria recom
 
Para o caso de grandes amostras a contagem de sinais seriam demorados e susceptível a 
erros e teríamos que utilizar uma aproximação, seria prudente a utilização de um computador. 
os
24 
Capítulo 2: Caso de duas amostras relacionadas 
 
.1: Output 2.1
 
 
Como pode-se verificar, ermos visualizar o valor da probabilidade de um 
modo mais exacto, podemos ver também o número total de sinais que ocorrem. 
parâmetr
empates 
 
npmSignTestFrequencies 2, 10 
 além de pod
Outro modo seria utilizando o Mathematica®, na função a utilizar damos como 
os: o número de sinais positivos e o número de sinais negativos, excluindo os 
em ambos os casos: 
Title: Sign Test 
Test Statistic: Number of Pluses is 2 
Distribution BinomialDistribution 
2 - sided p- value - > 0.0385742 
 
os verificar que o valor de p é dado com maior número de casas decimais. 
 
2.2 Teste de McNemar 
duas amostras relacionadas, isto é, tem como objectivo avaliar a eficiência de situações 
 que cada o indivíduo é utilizado como o seu próprio controlo. Utiliza-
se a m escala nominal para avaliar alterações da situação “após” em relação à 
situação “antes”. 
Podem
 
O teste desenvolvido por McNemar é usado para analisar frequências (proporções) de 
“antes” e “depois”, em
ensuração em
 
Método: 
1. Enquadrar as frequências observadas numa tabela de quatro células na forma 
seguinte: 
25 
amendes
Rectangle
Capítulo 2: Caso de duas amostras relacionadas 
Tabela 2.2.1: 
+ A B
- C D
Depois
Antes
- +
 
As células A e D são consideradascélulas de mudança, enquanto que as células B e C 
são células que não muda de estado. O total de indivíduos que acusam mudança é 
pois ? ositivo” e a 
probabilidade de “Antes ? Positivo; Depois ? Negativo” e , calcular as 
A e D: 
 
DAm += ; 
2. Considerando 1p a probabilidade de “Antes ? Negativo; De P 2p
21 pp =
frequências esperadas nas células )(21 DAE += . 
as frequênciasSe esperadas são inferiores a 5 , empregar a prova binomial em 
substituição á de McNemar, neste caso, DAN += e { }DAx ,min= ; 
3. Ca 2X so não se verifique que as frequências são inferiores a 5, calcular o valor de 
com o emprego da seguinte fórmula: 
 
( )
DA
DA
X +
−−=
2
2 1 com gl = 1 
va 
unilateral, basta dividir por dois o valor tabelado. Caso o valor de p, exibido pela 
tabela, não supera 
 
4. Mediante referência à tabela C, determinar o probabilidade, sob 0H , associada a um 
valor tão grande quanto o valor observado de 2X . Se se tratar de uma pro
α , rejeitar m
 
Exem lo 2.2.1: 
 
Dada a seguinte tabela de resultados: 
 
Tabela 2.2.1: 
Marca A
Sucesso 19 11
0H e favor da hipótese alternativa. 
p
 
Marca B Sucesso Insucesso
Insucesso 4 16 
 
 
(2.2.1) 
26 
Capítulo 2: Caso de duas amostras relacionadas 
 
ificância 
de 
 
Queremos saber qual a melhor marca de medicamentos com um nível de sign
05,0=α . 
olução: Res
n diferenças 
entre a m células (B e C). Se verificarmos 
que B
então a m é melhor. Com base neste raciocínio, formulamos as nossas hipóteses: 
 
McNemar demo strou que A ou D não contribui para a determinação das
arca A e a marca B, Mas sim através das restantes 
 > C, podemos concluir que a Marca A é melhor que a marca B, caso contrário, se B < C 
arca B
 
0H : Não existe diferenças entre a marca A e a Marca B ( 21marcaBmarcaA == pp ) 
01 : HH é falsa. 
 
( )
1142857143,0
1619
11619 22 =+
−−=X com
 
omo 2 XX > então rejeitamos a hipótese nula, dando lugar à hipótese 
alternativa, isto é, existe diferenças entre a marca A e a marca B, sendo a marca A melhor que 
a marca B. 
 da probabilidade associada: 
 
 1=gl 
Através da tabela C, calculamos uma aproximação do valor de )1(21 α−X : 
 
0039,0)1()1( 295.0
2
1 ==− XX α 
)1(295.C 0
Com a ajuda do computador, não é preciso recorrer à tabela, podendo calcular o valor 
preciso
Output 2.2.1: 
 
27 
Capítulo 2: Caso de duas amostras relacionadas 
No Mathematica®, a função a utilizar será a mesma da binomial dando como 
parâm ero total dos valores das células onde há mudança de comportamento entre 
as ma as, a probabilidade (neste caso é 0,5) e o menor valor entre as células de mudança: 
 
pmBinomial PValue 0.5, 4 
etros: o núm
rc
n
One- Sided PValue - > 0.0592346 
Two- Sided PValue - > 0.118469 
 
om o Mathematica® chegamos à mesma conclusão do método pelas tabelas, com a 
vanta
 
ilcoxon é mais poderoso que o teste dos sinais, pois, além de considerar o 
sentido da diferença também tem em conta o seu valor e o posto em que se insere. 
 Para cada par, determinar a diferença ( ), com sinal, entre os dois valores; 
2. Atribuir postos a esses ’s independentemente de sinal. No caso de d’s empatados, 
atribuir a média dos postos empatados; 
3. Atribuir a cada p inal inal – e ele representa; 
4. Determinar 
C
gem de ser com maior precisão. 
 
2.3 Teste de Wilcoxon 
O teste de W
 
Método: 
1. id
id
osto o s + ou o s do d qu
T qu l à m s som ostos d esmo sinal; 
5. Determinar N que é igual ao t d’s co l; 
6. O processo para determinação nificân o valor o ervado de T vai depender 
de N: 
Se , a tabela G dá os valores críticos de T pa rsos tam
observado de T não supera o valor indicado na tabela, para um dado nível de significância e 
um particular N, pode ser rejeitada; 
Se , calcular o valor de z pela seguinte fórmu
 
e é igua enor da as de p e m
otal de m sina
 da sig cia d bs
25≤N ra dive anhos de N. Se o valor 
 0H
25>N la: 
24
12N)(1(
(
+
−
=
NN
NT
z (2.3.1) 4 +
)1+N
28 
Capítulo 2: Caso de duas amostras relacionadas 
Determinar a sua pr ade ada, s , mediante referência à Tabela A. 
Para uma prova bilateral, duplicar o valor de p dado. 
Se o p assim obtido não for superior a 
obabilid associ ob 0H
α , rejeitar 
 
Exemplo 2.3.1: 
valores que correspondem ao 
núme nos em diferentes profissões divididos pelo 
sexo: 
Tabela 2.3.1:
Femin 55 8556 2972 324 19448 1790 5163 12495 7594 1128 3724 614 
0H . 
 
Na tabela seguinte apresentamos uma sequência de 
ro de pessoas que trabalham à mais de 25 a
 
ino 47618 15110 65
Masculino 6523 16708 8883 7825 1002 442 11161 1661 6346 3153 4760 10946 10593 23565
 
Pretendemos determinar se existem grandes diferenças entre os sexos nas diferentes 
ocupações. 
esolução: 
amos as hipóteses: 
: Não há diferenças entre o sexo masculino e o feminino nas diferentes ocupações. 
Há diferenças entre os sexos. 
emos usar o teste de Wilcoxon, escolhendo um
 
R
 
Formul
 
0H
H :1
 
Ir 05,0=α . 
 
Dispomos os dados numa tabela para calcular as diferenças e os postos: 
 
 
 
 
 
 
29 
Capítulo 2: Caso de duas amostras relacionadas 
Tabela 2.3.2: 
iA iB iii BAd −= Postos 
47618 56523 -8 12 905 
15110 16708 -1598 5 
6555 8883 -2328 8 
8556 7825 731 3 
2972 1002 1970 7 
324 442 -118 1 
19448 11161 8287 11 
1790 1661 129 2 
5163 6346 -1183 4 
12495 3153 9342 13 
7594 4760 2834 9 
1128 10946 -9818 14 
3724 10593 -6869 10 
614 2356 -1742 6 
 
4591321173 =+++++=+T 
6061014418512 =+++++++=−T 45},min{ == −+ TTT 
 
Como N < 25 (N = 14) então estamos perante a um caso de pequenas amostras, neste 
caso basta ver qual o valor tabelado de T descrito na tabela G: 
Para um N = 14 e 05,0=α (prova bilateral) temos 21=tabeladoT 
 
Como então aceitamos a hipótese, isto é, não existe diferenças entre os 
sexos nas diferentes ocupações. 
 
No SPSS®, basta introduzir os dados em duas series de variáveis, ficando com o 
seguinte resultado: 
 
 
 
 
tabeladoTT >
30 
Capítulo 2: Caso de duas amostras relacionadas 
Output 2.3.1: 
 
 
 
 teste assimptotico. Não nos dá o valor de T mas 
sim
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Podemos observar que o SPSS faz um
 
 
 
 
Podemos observar que o SPSS faz um
Capítulo 2: Caso de duas amostras relacionadas 
31 
Output 2.3.1: 
 
 
 
 teste assimptotico. Não nos dá o valor de T mas 
sim o valor da probabilidade associada. Neste caso , então podemos concluir que 638,0=p
não existe diferenças entre os sexos. 
31 
Capítulo 3: Caso de duas amostras independentes 
CAPITULO 3: CASO DE DUAS 
 
ger a
tos, ap
ensões diferentes. 
istribuições são contínuas, uma única ordem é sempre possível, 
visto 
AMOSTRAS INDEPENDENTES 
Como os testes do capítulo 2, os testes, de seguida, apresentados, servem, de um modo 
al, para determinar se as diferenças nas amostras constituem evidência convincente de um 
diferença nos processos, ou tratamen licados a elas. A principal diferença é de que as 
amostras são independentes e como tal, podem ter dim
 
3.1 Teste de Iterações de Wald-Wolfowitz 
 
Seja duas amostras independentes mXXX ,,, 21 K e nYYY ,,, 21 K combinadas numa 
única sequência ordenada da menor à maior, não deixando de identificar a sua amostra. 
Assumindo que as suas d
que teoricamente não existem empates. Por exemplo, com 4=m e 5=n , a sequência 
poder
 distribuições são idênticas 
 paratodo o x 
esperam X e Y estejam bem misturadas na sequência obtida. Visto que, a dimensão 
+ a ostra d ulação comum. 
Com a r s idênticas precedida e 
seguida por t ero total de iterações de uma amostra 
ordenada é 
iterações sugere ên o provém de uma única amostra, mas sim de 
duas amostr as popula
menores que os i
configuração pa
também podem ticamente menores que os Y’s. Contudo, a ordem 
inversa tamb e ta
iterações não po
Em primeiro lugar, o teste de iterações é apropriado quando a hipótese alternativa é 
bilateral 
ia ser X Y Y X X Y Y em que é indicado que o menor elemento pertence à amostra X, o 
segundo menor da amostra Y, etc., e o valor maior pertence à amostra Y. Sobre a hipótese nula 
de que as
)()(:0 xFxFH xY =
os que 
nm N= constitui um am e dimensão N de uma pop
ite ação, definida em 1.4, como uma sequência de letra
uma letra diferen e ou nenhuma letra, o núm
um indicativo do grau de mistura. Um padrão de arranjos com muito poucas 
que os N valores da sequ cia nã
as de du ções diferentes. Por exemplo, se todos os elemento de X são 
 elementos de Y, na sequência formada dever a ter só duas iterações. Esta 
rticular pode indicar que não só as populações não são equivalentes, como 
indicar que X’s são estocas
ém só contém duas iterações, , por nto, um teste baseado só no número total de 
de distinguir estes casos. 
32 
Capítulo 3: Caso de duas amostras independentes 
)() xFx x≠ para alguns x 
uma variável R aleatória como o número total de iterações numa ordem de m 
 aleatórios. 
(:1 FH Y
Definimos 
X e n Y valores
Desde que poucas iterações tendem a duvidar da hipótese nula quando a alternativa é 
, O teste de iterações de Wald-Wolfowitz (1940) para um nível de significância 1H α 
geralmente tem a região de rejeição αcR ≤ onde αc é escolhido para ser o maior inteiro que 
satisfaz αα ≤≤ )( cR quando 0H é verdadeira. 
sde que as observações X e Y são dois tipos de objectos arranjados numa sequência 
mente aleatória, se 0H é verdadeira, a distribuição da probabilidade nula de R é 
stribuição 1.4.2 do corolário 1.4.1 para o teste de iterações de um
P
De
completa
igual é di a amostra, bastando 
mudar 
os Y’s são os objectos do tipo 2. 
Este teste tem a particular vantagem de permitir comprovar qualquer tipo de diferença. 
os aplicar a prova de Wald-Wolfowitz supõe-se que a variável em 
estudo tenha distribuição básica contínua, e exige mensuração no mínimo ao nível de escala 
ordin
 e 2n para m e n respectivamente, assumindo que os X’s são os objecto do tipo 1 e 1n
Para que possam
al. 
 
Método: 
Suponhamos que nn =1 e mn =2 , os passos a seguir são: 
i. Dispor os 21 nn + valores numa única sequência ordenada; 
ii. Determinar r = número de iterações; 
iii. O método para determinação da significância do valor observado de r 
dep h e
 , a e F s o
ende do taman o de 1n 2n : 
iv. Se 20,n 21 ≤n tab la I dá o valores crític s de r para um nível de 
significância 0,05. Caso o valor observado de r não superar o valor tabelado 
para os valores dados de e , então podemo ao nível de 
gnificância 
1n 2n s rejeitar 0H
si 05,0=α ; 
v. Se um dos valores de e superar 20, podemos utilizar a seguinte 
ormal: 
1n 2n
aproximação à N
33 
Capítulo 3: Caso de duas amostras independentes 
)1()( 21
2
21 −++ nnnn
Após a determ
)2(2
5.01
2
2
212121
21
21
−−
−⎟⎟⎠
⎞
⎜⎜⎝
⎛ +−
=
nnnnnn
nn
nnr
z (3.1.1) 
inação do valor de z, determina-se a probabilidade associada 
através da tabela A. Se o valor p não for maior que p α então devemos rejeitar 
Teoricamente, não deveria ocorrer empates nos valores de uma prova de iterações, 
que as populações, das quais se extraíram as amostras, deveriam ter distribuições 
cont é o a p i bilidade das 
mens l n o rr e a r e r s. Portanto, 
por vezes, pode originar valores diferentes para 
a hipótese nula; 
 
Caso ocorram empates. 
por
ínuas. Na aplicação do m todo, p r f lta de rec são ou de sensi
urações pode eventua me te co er mp tes nos dife ent s g upo
r . Assim para abranger todos os 
epetir o método para todas as ordens diferentes. 
Caso i c e o étodo é 
inapl
 
Exemplo 3.1.1: 
 
 de discriminação de brilho) de 21 ratos 
norm o número de tentativas de reaprendizagem de 8 ratos. Queremos saber se os dois 
imais diferem nas suas taxas de aprendizagem (reaprendizagem). 
A segui a t e r r feitas pelos 
ratos do grupo g
Tabela 3.1.1: 
Ratos A 20 55 29 24 75 56 31 45 
casos, deve-se r
 chegue a d ferentes de isõ s s bre a hipótese nula, então, este m
icável. 
Num estudo destinado a comprovar a teoria da equipotencialidade, Ghiselli comparou o 
número de tentativas de aprendizagem (numa tarefa
ais com
grupos de an
nte tabel dá-nos as tenta ivas de apr ndizagem ( eap endizagem) 
 A e do rupo B: 
Ratos B 23 8 24 15 8 6 15 15 21 23 16 15 24 15 21 15 18 14 22 15 14
 
 
 
34 
Capítulo 3: Caso de duas amostras independentes 
Resolu
s : 
 difer s
inação de brilho. 
Os dois grupos de ratos diferem em relação à taxa de aprendizagem 
(reaprendizagem). 
 
A prova a escolher é a prova de Wald-Wolfowitz, pois é uma prova global para a 
diferença entre duas amostras. O nível de significância a escolher será 
ção: 
 
Formulamos as hipóte es
0H : Não há ença entre os ratos normais e os ratos em período pós-operatório com 
lesões corticais, no que diz respeito à aprendizagem (ou reaprendizagem) numa 
tarefa de discrim
H :1
01,0=α . 
Dispomos por ordem crescente e contamos o número de iterações: 
 
Tabela 3.1.2: 
 20 Valores 6 8 8 14 14 15 15 15 15 15 15 15 16 18
Grupo B B B B B B B B B B B B B B A 
Iterações 1 2 
Tabel 
21 21 22 23 23 24 45 55 56 75 
a 3.1.2 (continuação):
Valores 24 24 29 31
Grupo B B B B B B A B A A A A A A 
Iterações 3 4 5 6 
 
 
Neste caso o número de iterações é 61 =r , mas, note-se que há empates entre os dois 
grupo
Tabela 3.1.3: 
Valores 6 8 8 14 14 15 15 15 15 15 15 15 16 18 20 
s, neste caso, teremos que repetir a contagem: 
 
Grupo B B B B B B B B B B B B B B A 
Iterações 1 2 
 
 
35 
Capítulo 3: Caso de duas amostras independentes 
Tabela 3.1.3 (continuação): 
Valores 21 21 22 23 23 24 24 24 29 31 45 55 56 75 
Grupo B B B B B B B A A A A A A A 
Iterações 3 4 
 
Assim, ficamos com 42 =r . 
Dado que 81 =n e 20212 >=n , então não podemos recorrer à tabela F. Para que 
possamos calcular a probabilidade associada teremos que fazer uma aproximação à Normal 
com o auxilio da fórmula (3.2.1): 
 
Para : Para 41 =r 62 =r : 
[ ]
)1218()218(
218)21)(8)(2()21)(8)(2(
5,01
218
)21)(8)(2(4
2
1
−++
−−
−⎟⎠
⎞⎜⎝
⎛ ++−=z
 
 864,3= 
 
[ ]
)1218()218(
218)21)(8)(2()21)(8)(2(
5,01
218
)21)(8)(2(6
2
2
−++
−−
−⎟⎠
⎞⎜⎝
⎛ ++−=z 
 908,2= 
 
Recorrendo à Tabela A, calcula-se o valor da probabilidade associada: 
 
Para um 864,31 ≥z , verificamos que 
0=p 
 
Para um 908,22 ≥z , verificamos que a 
0014,0
a probabilidade é probabilidade é 
1 2 =p 
 
Ambas as probabilidades e , são inferiores a 1p 2p 01,0=α . Deste modo, concluímos 
que os dois grupos de animais diferem significativamente nas suas taxas de aprendizagem 
(reaprendizagem). 
e gnificância este 
método não teria efeito. 
 
Caso, alguma das probabilidades fossem superior do que o nível d si
Vejamos como o SPSS® apresentava o resultado: 
 
36 
Capítulo 3: Caso de duas amostras independentes 
 
Output 3.1.1: 
 
 
 
 
Como pod
iterações, calcul a probabilidade associada. A conclusão atirar seria a 
mesma pelo tradicional
Como van
visto que, no m
cálculo de po
 
3.
 
Como no teste de iterações de Wald-Wolfowitz, o teste de U de Mann-Whitney (1947) é 
baseado na ideia de que um padrão particular, exibido quando X e Y variáveis aleatórias estão 
numa única fila postos em ordem crescente, fornece informação sobre a relação entre as suas 
populações. Contudo, em vez de basear-se pelo núm
de Mann-Whitney é baseado na magnitude de Y’s em relação com os X’s, digamos que é a 
posição dos Y’s numa sequência ordenada. 
O objectivo deste teste é comprovar se dois grupos independentes foram ou não 
extraídos duma população com a mesma mediana. Para isso, as amostras devem ser 
independentes e aleatórias: uma extraída duma população com mediana não conhecida e 
outra extraída de outra população com mediana desconhecida . O nível de mensuração 
enos ordinal e as duas popul
A hipótese a comprovar é ver se as populações têm a mesma mediana, sendo a 
altern
emos constatar, o SPSS® indica-nos o número mínimo e máximo de 
ando para cada um
método . 
tagem para o SPSS®, é o modo rápido como se calcula as probabilidades, 
étodo tradicional, em caso de empates, temos que repetir a ordenação e o 
dendo provocar maior número de erros. p ,
2 Teste U de Mann-Whitney 
ero total de iterações, o critério do teste 
1M
2M
tem que ser pelo m ações devem ter uma distribuição contínua. 
ativa, as medianas serem diferentes ou uma maior do que a outra. 
 
37 
Capítulo 3: Caso de duas amostras independentes 
 
Método: 
s aos valores, em caso de empate, fazer a média dos postos 
correspondentes; 
a determinar U basta recorrer à fórmula seguinte: 
 
 
1. Determinar os valores 1n (=número de casos do menor grupo) e 2n ; 
2. Dispor em conjunto os valores dos dois grupos, ordenando-os de forma ascendente; 
3. Atribuir posto
4. Par
);min( 21 UU= U (3.2.1) 
Sendo: 111
)1( RnnnnU −211 2
++= e UnnU 1212 −= 
com s postos atribuídos à amostra 1; 
ar a significância do valor de depende de : 
ma prova bilateral basta duplicar o valor 
nstar na tabela, deve ser 
inte tado como
 1R = soma do
5. O método para determin 2n
i. Se 82 ≤n , a tabela J dá a probabilidade exacta associada a um valor tão 
pequeno quanto o valor de U. Para u
obtido na tabela, Caso o valor de U não co
rpre UnnU −= 21' ; 
ii. Se 209 ≤≤ n , é utilizada a tabela K, que dá os valores2 críticos de U para 
níveis de significância de 0,001, 0,01, 0,025, 0,05 para um teste unilateral, 
duplicando estes valores para u ilateral. Caso o valor observado de 
aior do que /2, deve ser interpretado como U’ descrito na alínea 
r
 Se n pr abilidade deve r c ula atr és d pro ação 
is i o al, av o r q a e rm : 
 
ma prova b
U é m 21nn
ante ior; 
iii. 202 > , a ob se alc da av e uma a xim
à d tribu ção N rm atr és d valo de z ue é nos d do p la fó ula 
12
)1( 2121 ++ nnnn
2
21−
=
nnU
z 
 
ostras, expressão utilizada será: 
(3.2.2) 
Caso ocorram empates, em grandes am
38 
Capítulo 3: Caso de duas amostras independentes 
 
⎟⎟⎠
⎞−− ∑TN2⎜⎜⎝
⎛
−
−
=
N
NN
nn
nnU
z
1)1(
2
3
21
21
 
 
onde: 21 nnN += e 12
ttT −= sendo t o número de observaçõe
3
s empatadas para uma dada 
posiç
e o valor observado de U tem probabilidade associada não superior a 
ão. 
αS , rejeitar a 
hipótese nula. 
 
Exemplo 3.2.1: 
 
a disciplina de Estatística Aplicada, onde se encontra inscritos alunos do curso de 
Matem
Tabela
N
ática (ensino de) e Matemática/Informática, registaram-se as seguintes classificações 
numa das frequências: 
 
 3.2.1: 
Mat. (ensino de) 10.5 16.5 11 9.8 17.1 1.5 14.8 9.9 9.8 10.3 8.7
Mat./Informática 11.4 12.9 10.1 7.9 8.8 12.8 
 
O que se pode conclu édias das ordens das classificações. 
 
Resolução: 
ulamos as hipóteses: 
ática 
Há diferenças entre as médias das ordens (teste bilateral). 
 
pós a contagem do número de casos em ambas as amostras temos: 
 
(3.2.3) 
 ir acerca das m
Form
0
(ensino de) e de Matemática Informática 
H : Não há diferenças entre as médias das ordens das notas dos alunos de Matem
H :1
A
39 
Capítulo 3: Caso de duas amostras independentes 
40 
61 =n e 112 =n 
Calculemos U: 
Tabela 3.2.2: 
1,5 7,9 8,7 8,8 9,8 9,8 9,9 10,1 10,3 10,5 11 11,4 12,8 12,9 14,8 16,5 17,1
E I E I E E E I E E E I I I E E E 
1 2 3 4 5,5 5,5 7 8 9 10 11 12 13 14 15 16 17 
 
34)141312842(
2
)16(61161 =+++++−+×+×=U 
32341162 =−×=U 32)32;34min( ==U 
 
Como 9 202 ≤n recorremos à tabela J: ≤
Para 61 =n , 112 =n e 05.0=α (bilateral), 
temos
m
populaçõ
Vej
Após a introdução dos valores, dá-nos o seguinte resultado: 
 
Output 3.2
: 3=tabeladoU . 1
 
Co o calculadotabelado UU < , podemos concluir que as duas amostras provêem de 
es com a mesma média. 
 
amos como podemos resolver este exemplo no SPSS®: 
.1: 
 
 
 
 
 
Capítulo 3: Caso de duas amostras independentes 
É claro que existe clara vantagens em utilizar o SPSS®. Pois, dá um quadro resume que 
contém o valor exacto da probabilidade, a probabilidade assimptótica e tam ém o valor de U. 
Tendo como principal vantagem o pouco tempo gasto para o emprego deste teste. 
No Mathematica® coma ajuda da função npmMannWhitneyTest[list1,list2], fica: 
Mat
Mat 0
rpm M
b
Ensino = 10.5, 16.5, 11, 9.8, 17.1, 1.5, 14.8, 9.9, 9.8, 10.3, 8.7 
Informatica = 11.4, 12.9, 1 .1, 7.9, 8.8, 12.8 
MannWhitneyTest MatEnsino, atInformatica 
Title: Mann- Whitney Test 
Sample Medians: 10.75, 10.3 
Test Statistic: 32 .
Distribution: Normal Approximation 
2 - Sided PValue - > 0.919895 
ina-se especificamente a dados de mensuração mínima na escala 
ordinal. Esta prova tem como objectivo ver se as populações têm a mesma oscilação, isto é, o 
teste de Moses é aplicável quando é previsto que um dos grupos tenha valores altos, e o outro 
alores baixos. 
 deste teste é que não requer que as populações tenha medianas 
iguais. Todavia, Moses (1952b) salienta que um teste baseado em medianas ou em postos 
médios, por exemplo, o teste de Mann-Whitney, é mais eficiente, devendo, por 
conse ialmente útil quando existem 
razõe a priori para esperar que determinada condição experimental conduza a escores 
extrem ou em outra direcção. 
Mé
es são: 
eja e o número de casos de controlo e experimentais respectivamente. 
ar q eno arbitrário; 
 
Esta função apenas dá um valor aproximado de p. 
Podemos concluir que para fazer um teste com maior rigor e rapidez, o SPSS® seria a 
melhor escolha, pois o SPPS® calcula o valor exacto. 
 
3.3 Teste de Moses para reacções extremas 
 
O teste de Moses dest
v
A principal vantagem
U
guinte, ser preferido à prova de Moses. Esta última é espec
s 
os em uma 
 
todo: 
Os passos a seguir para o teste de Mos
S Cn En
1. Antes de reunir os dados deve-se especific Será um número pe u h .
41 
Capítulo 3: Caso de duas amostras independentes 
2. Reunidos os dados, dispô-los em postos em uma única série conservando a 
ntidade do grupo em cada posto; 
D t m â n i d s
eliminar os postos mais extremos dos cada extremidade da respectiva 
série, isto é, 
ide
3. e er inar o valor de s , mbito ou abra gênc a o postos de controlo, após h
 h C ’s em
112 +−= CCsh (3.3.1) 
onde, é o posto que corresponde o último grupo de controlo, retirando h valores 
 corresponde ao primeiro posto do grupo de controlo, retirando h 
4. Determinar o valor de 
2C
de controlo e 1
valores de controlo; 
C
g, excesso do valor observado de sobre ,ou seja, 
5. Determinar a probabilidade associada aos dados observados, calculando o valor de 
 pela fórmula: 
hs hnC 2−
)2( hnsg Ch −−= ; 
p
 ( )
⎟⎟⎠⎜
⎜
⎝ Cn
E
⎞⎛ +
⎟⎟⎠⎜
⎜
⎝ −⎟
⎟
⎠⎜
⎜
⎝=+−≤
∑
EC
EC
Ch nn
ini
ghnsp 2 
⎞⎛ −++⎞⎛ −−+
=
g
i E
ihnhni
0
1222
m caso de ocorrência de empates entre grupos, considerar esses empates de todos 
odos possíveis e determinar para cada um deles. A média desses p’s é então 
utilizada para a decisão; 
6. Se p não superar 
pos m
α , rejeitar 
 
xemplo 3.3.1: 
s e o 
grupo
inutos e o 
grau d . o grau 20 significa que a pessoa tem pavor a 
ratos.
 
(3.3.2) 
.0H 
E
 
Num estudo para avaliar o grau de medo, perante ratos, escolheu-se dois grupos de 
indivíduos. O grupo C, constituído por 7 indivíduos, que trabalha diariamente com rato
 E, formado por 6 indivíduos, têm dificuldades em controlar o medo, quando estão 
próximos de ratos. 
Quer o grupo C quer o grupo E estiveram em contacto com ratos durante 10 m
e medo foi medido numa escala de 0 a 20
 Os resultados foram: 
42 
Capítulo 3: Caso de duas amostras independentes 
 
 
Tabela 3.3.1: 
Grupo C 6 5 10 7 12 3 8 
Grupo E 0 4 11 18 9 19 
 
Será que as duas amostras provêem da mesma população? 
 
Resolução: 
vidimos em dois casos: o da esquerda com
Formulamos as hipóteses: 
0H : Não há diferenças entre o grupo C e o grupo E. 
 :1H Há diferenças entre os dois grupos. 
 
Di 0=h e o da direita com 
po: 
Tabela 3.3.2: 
Posto 
1=h . 
Dispomos os valores em postos, conservando o gru
 
1 2 3
Grupo E C E
 
 
Determinamos
7=Cn : 
g
lizandEntão uti
( ) ∑=≤h
 0=
10 isp
 
 Sendo α
entre os grupo
5 11 12 13
Tabela 3.3.3: 
Posto 1 2 3
Grupo E C E
 
 4 6 7 8 9 10
C C C C E C E C E E 
 o valor de g , com 10=hs e 
3)027(10 =×−−= 
 
Determinamo
101211 =+−=hs 
: 7=Cn
g
o a fórmula 3.3.2: 
⎟⎟⎠
⎞
⎜⎜⎝
⎛
⎟⎟
⎞⎜⎛ −⎟⎞⎜⎛ + 753 ii
( ) ∑
1
=≤ =6 ihsp⎠
⎜⎝ −⎟⎠⎜⎝=
7
13
6 i
 
,
0 i
2168 0=
, concluímos que, para qualquer um d05,0=
s C e E, sendo assim da m, as amostras provêem
4 5 6 7 8 9 10 11 12 13
C C C C E C E C E E
s o valor de g , com 6=hs e 
6149 =+−=hs 
1)127(6 =×−−= 
⎟⎟⎠
⎞
⎜⎜⎝
⎛
⎟⎟⎠
⎞
⎜⎜⎝
⎛
−
−
⎟⎟
⎞⎜⎛ + 3i
⎠⎜⎝
7
13
6
9
0 i
i
i
 
1795, 
os casos, não e isx te diferenças 
esma população. 
43 
Capítulo 3: Caso de duas amostras independentes 
No SPSS®, após a introdução dos valores e escolha do teste, temos o seguinte 
resultado: 
Output 3.3.1: 
 
 
 
 
 
Como podemos ver no SPSS®, ele calcula a probabilidade associada para um 1=h (por 
e para um 0=h , assim não o precisamos de escolher um h no início do teste. 
ematica®, o proc im
ele escolhido) 
No Math ed ento a utilizar foi o npmMosesTest, este procedimento 
aceita m h escolhi
Prim
Amo
Amo
rpmMosesTest amostra1, amostra2, 1 
 co o parâmetros as duas amostras, sendo a de controlo a primeira, e o do: 
eiramente, criamos as duas listas e de seguida corremos o procedimento: 
stra1 = 6, 5, 10, 7, 12, 3, 8 
stra2 = 0, 4, 11, 18, 9, 19 
h = 1; Sh 6 =
Nc = 7; Ne = 6; N = 13 
Valor Unilateral de p: 0.179487 
Valor Bilateral de p: 0.358974 
o podemos verificar, o Mathematica® dá-nos os valores de ambas a probabilidades 
e as p
 escala de medida pode ser em apenas nominal. 
Com
rincipais variáveis do teste. As vantagens deste procedimento são a rapidez e a precisão 
dos valores dados. 
 
3.4 Teste da Qui-Quadrado ( 2χ ) para duas amostras independentes 
 
O objectivo deste teste é de comprovar que dois grupos diferem em relação a 
determinada característica e, consequentemente, com respeito à frequência relativa com que 
os componentes dos grupos se enquadram nas diversas categorias. Para a comprovação, 
contamos o número de casos de cada grupo que recai nas diversas categorias, e comparamos a 
proporção de casos de um grupo nas diversas categorias, com a proporção de casos do outro 
grupo. 
A
44 
Capítulo 3: Caso de duas amostras independentes 
 
 
Método: 
Os passos a seguir para o teste são: 
1. Enquadrar as frequências observadas numa tabela de contingência . Utilizando 
as k colunas para os grupos e as r linhas para as condições. Assim para este teste, 
a ( ) de cada célula fazendo o produto dos totais 
3. P rar dois casos: 
Se 
rk ×
2=k ; 
ijE2. Determinar a frequência esperad
marginais referentes a cada uma e dividindo-o por N. (N é o total de casos); 
ara determinar o valor de χ há que conside2
 a fórmula será: ( )2>r ∑∑ −= r k ijij E EO
2
2χ 
= =
 = número de casos observados na categoria i no grupo j 
o grupo j sob 
= número de grupos na classificação 
i j ij1 1
ijO
ijE = número de casos esperados na categoria i n 0H 
k 
r = número de categorias na classificação; 
Se 
 
2=r então consideramos a seguinte tabela: 
 
Tabela 3.4.1: 
 Grupo 1 Grupo 2 Total
Categoria 1 A B A+B
Categoria 2 C D C+D
Total A+C B+D N 
 
Então temos a fórmula: 
))()()((
2
2
2
DBCADCBA
NBCADN
++++
⎟⎠
⎞⎜⎝
⎛ −−
=χ 
Esta fórmula é um pouco mais fácil da aplicar do que a fórmula (3.4.1), pois 
requer apenas uma divisão. Além disso, tem a principal vantagem de 
(3.4.2) 
(3.4.1) 
45 
Capítulo 3: Caso de duas amostras independentes 
incorporar uma correcção de continuidade que melhora sensivelmente a 
aproximação do 2χ ; 
4. Determinar a significância do valor observado de 2χ com )1)(1( −−= krgl , com o 
auxílio da tab C. Para um teste unilateral basta dividir por dois o nível de 
significância indicado. Se a probabilidade indicada na tabela for inferior a 
ela 
α , 
rejeitar a hipótese nula. 
 
Exemplo 3.4.1: 
 
Um investigador estudou a relação entre os interesses vocacionais e a escolha do 
currículo, e a taxa de desistência do curso universitário por parte de estudantes bem dotados. 
Os indivíduos observados era no mínimo de 90 pontos 
percentuais nos testes de admissão e que haviam resolvido mudar de carreira após a matrícula. 
o pesquisador comparou os e lha curricular se manteve na 
linha considerada desejável à vista do resultado obtido no Teste Vocacional de Strong (tais 
casos sendo considerad como “positivos”) com os estudantes destacados cuja escolha 
curricular se processou em sentido diverso do indicado pelo Teste de interesse. A hipótese do 
inves da “positiva” acusam maior 
frequência de permanência na faculdade ou no curso universitário inicialmente escolhido. Os 
valores são dados na seguinte tabela: 
 
Tabel
m estudantes classificados
 studantes destacados cuja a esco
os
tigador é que os estudantes cuja escolha foi considera
a 3.4.2: 
 Positivo Negativo Total
Afastamento 10 11 21 
Permanência 46 13 59 
Total 56 24 80 
 
Resolução: 
 
Formulamos as hipóteses: 
: Não há diferenças entre os dois grupos no que diz respeito à proporção dos 
estudantes que permanecem na faculdade. 
0H
46 
Capítulo 3: Caso de duas amostras independentes 
 :1H A percentagem de permanência na faculdade é maior que os estudantes cuja a 
escolha do currículo foi considerada “positiva”. 
Iremos trabalhar com um nível de significância 05,0=α . 
 
Considerando os valores dados pela tabela ficamos com: 
 
)24)(56)(59)(21(
2
80)46)(11()13)(10(80
2
2
⎟⎠
⎞⎜⎝
⎛ −−
=χ 424,5= 
 
A probabilidade de ocorrência, sob , de com 0H 424,5
2 ≥χ 1=gl é 
01,0)02,0(
2
1 =<p . Como este valor é inferior a 05,0=α , a decisão é rejeitar . Conclui-
se, pois,