Prévia do material em texto
1
UNIVERSIDADE FEDERAL DE SANTA MARIA
CENTRO DE CIÊNCIAS NATURAIS E EXATAS
DEPARTAMENTO DE ESTATÍSTICA
ESPECIALIZAÇÃO EM ESTATÍSTICA E MODELAGEM QUANTITATIVA
APOSTILA DE
ESTATÍSTICA NÃO-PARAMÉTRICA
Profª Anaelena Bragança de Moraes
Profª Roselaine Ruviaro Zanini
Profª Luciane Flores Jacobi
2
SUMÁRIO
I – Conceitos iniciais ................................................................................................. 03
1 Introdução ............................................................................................................. 03
2 Principais conceitos ............................................................................................. 03
3 Classificação dos testes estatísticos ...................................................................... 06
4 A escolha dos testes estatísticos............................................................................ 08
II – Principais testes não-paramétricos ................................................................ 10
1. Testes aplicáveis a uma amostra .......................................................................... 10
1.1 Teste binomial .................................................................................................. 10
1.2 Teste de aderência do qui-quadrado ............................................................... 13
1.3 Teste de Kolmogorov-Smirnov ......................................................................... 15
1.4 Teste de Lilliefors .............................................................................................. 19
1.5 Teste de iterações (aleatoriedade) ..................................................................... 19
2. Testes aplicáveis a duas amostras relacionadas .................................................... 21
2.1 Teste de McNemar ............................................................................................. 22
2.2 Teste dos sinais ................................................................................................. 23
2.3 Teste de Wilcoxon ............................................................................................. 25
3. Teste aplicáveis a duas amostras independentes .................................................. 27
3.1 Teste U de Mann-Whitney ................................................................................. 27
3.2 Teste exato de Fisher ......................................................................................... 30
4. Testes aplicáveis a k amostras relacionadas ......................................................... 31
4.1 Teste de Friedman ............................................................................................. 32
4.1.1 Comparações múltiplas para o teste de Friedman ......................................... 34
5. Testes aplicáveis a k amostras independentes ...................................................... 35
5.1 Teste de Kruskal-Wallis .................................................................................... 35
5.1.1 Comparações múltiplas para o teste de Kruskal-Wallis.................................. 37
5.2 Teste de independência do qui-quadrado: tabela de contingência .................. 38
5.2.1 Correção de Yates ou correção de continuidade ............................................. 39
5.2.2 Complementação do teste de associação ou independência 40
5.2.3 Condições para o uso do χ2 42
5.2.4 Fórmula alternativa para o cálculo do χ2 em tabelas 2x2 43
6. Correlação ordinal de Spearman 44
III - Procedimentos básicos para uso do programa computacional STATISTICA ...... 46
1. Resolução dos testes não-paramétricos utilizando o programa computacional STATISTICA 43
IV – Referências bibliográficas 66
3
I - CONCEITOS INICIAIS
1. Introdução
A inferência estatística aborda dois tipos de problemas fundamentais: a estimação de parâmetros
de uma população e o teste de hipóteses.
Na inferência estatística, procura-se obter conclusões sobre um grande número de eventos, com
base na observação de apenas uma parte deles. A estatística proporciona meios para formalizar e
padronizar os processos para obter tais conclusões.
Um problema comum da inferência estatística consiste em determinar, em termos de
probabilidades, se as diferenças observadas entre duas amostras significam que as populações
submetidas à amostragem sejam realmente diferentes entre si.
Outro problema usual consiste em determinar se é provável que um conjunto de valores se refira
a uma determinada população. Ou ainda, se diversos grupos são diferentes entre si.
Um grande número de técnicas de inferência, que não exigem hipóteses muito numerosas ou
rigorosas sobre os parâmetros, são chamadas “de distribuição livre” ou “não-paramétricas” e têm como
resultado conclusões que exigem menores qualificações.
Para se obter uma decisão sobre se uma hipótese particular é confirmada por um conjunto de
dados, deve-se dispor de um processo objetivo que permita rejeitar ou aceitar aquela hipótese, que é o
Teste de Hipóteses.
A seguir, serão apresentados alguns conceitos importantes de estatística.
2. Principais conceitos
Os principais conceitos utilizados na aplicação dos testes não-paramétricos são:
Consistência de um teste
Um teste é consistente para uma determinada alternativa, se o seu poder (probabilidade de
rejeitar H0, quando H0 é falsa = 1- β) tende para 1, quando o tamanho da amostra tende para o infinito.
Testes equivalentes
Dois testes são equivalentes quando tem o mesmo poder, isto é, um rejeita
oH
, quando o outro
rejeita, e aceita quando o outro aceita.
Ordem ou posto (rank)
Quando se classifica uma variável conforme seus valores e atribuem-se números correspondentes
às suas posições na classificação conjunta do grupo, cada número é denominado ordem ou posto, ou
seja, um posto é um número atribuído a um item da amostra individual segundo sua ordem na lista
4
ordenada. Ao primeiro item é atribuído o posto 1 (um), ao segundo item, o posto 2 (dois) e assim
sucessivamente. Usualmente classifica-se numa ordem crescente.
Se ocorrer empate nos postos, o usual é em encontrar a média dos postos envolvidos e atribuir
esse posto médio a cada um dos itens empatados.
Exemplo: Atribuir postos aos valores da seguinte amostra: 15 13 12 10 15 15 11 13
Hipótese de nulidade (H0)
É uma hipótese de que não haja diferenças.
Hipótese alternativa (H1)
É a definição operacional da hipótese de pesquisa do pesquisador, ou seja, a teoria que está
sendo comprovada.
Hipótese de pesquisa
É a predição deduzida da teoria que está sendo comprovada.
Procedimento para a realização de um teste de hipóteses:
O procedimento objetivo utilizado para se chegar a uma decisão sobre uma hipótese particular, é
constituído por várias etapas:
a) definir a hipótese nula
oH
;
b) escolher um teste estatístico para testar
oH
;
c) especificar um nível de significância e um tamanho de amostra n;
d) determinar (ou supor determinada) a distribuição amostral do teste estatístico sob a hipótese nula;
e) definir a região de rejeição, com base nos itens anteriores;
f) calcular o valor da estatística do teste, utilizando os dados obtidos da(s) amostra(s). Se esse valor
estiver na região de rejeição, a decisão será rejeitar
oH
; se esse valor estiver fora da região derejeição, a decisão será que
oH
não pode ser rejeitada ao nível de significância escolhido.
Tipos de erros
Há dois tipos de erro que podem ser cometidos ao formular-se uma decisão sobre H0. O erro do
tipo I, que consiste em rejeitar
H0, quando esta hipótese for verdadeira e o erro do tipo II, que consiste
em aceitar H0, quando a mesma for falsa.
5
A probabilidade de cometer um erro do tipo I é denotada por : P (erro do tipo I) =
A probabilidade de cometer um erro do tipo II é denotada por : P (erro do tipo II) =
Alguns itens que resumem a escolha do nível de significância e do tamanho da amostra são:
• o poder de uma prova, 1 - , é a probabilidade de rejeitar a hipótese de nulidade (H0) quando ela é
realmente falsa;
• o poder está relacionado com a natureza do teste estatístico escolhido;
• geralmente, o poder de um teste estatístico aumenta com o tamanho da amostra (n);
• poder-eficiência: seleciona-se um teste estatístico de ampla generalidade e eleva-se seu poder até o
do teste mais poderoso disponível, pelo aumento do tamanho da amostra. se o teste A é o mais
poderoso de seu tipo e se o teste B é outro teste adequado ao mesmo projeto, então:
Poder-eficiência do teste B = 100 (Na/Nb) %
onde: Na é o tamanho da amostra A;
Nb é o tamanho da amostra B exigido, para o teste B ter o mesmo poder do teste A.
Variável
É um símbolo, como X, Y, Z, ..., que pode assumir resultados de um conjunto, que lhe são
atribuídos, conjunto este chamado domínio da variável. Se a variável pode assumir somente um valor,
ela é denominada constante.
As variáveis podem ser classificadas em:
• Variáveis qualitativas ou atributos: indica alguma propriedade do fenômeno de observação;
• Variáveis quantitativas discretas: quando podem assumir apenas alguns valores de um conjunto;
• Variáveis quantitativas contínuas: quando podem assumir, teoricamente, qualquer valor de um
conjunto.
Em geral, as medições dão origem a variáveis contínuas, enquanto que as enumerações ou
contagens resultam em variáveis discretas.
Níveis de mensuração das variáveis
Nível de mensuração significa a escala em que foi medida a variável, objeto de investigação. O
nível de mensuração de cada variável é a mais elementar informação que um pesquisador precisa ter
antes de selecionar a técnica estatística que será aplicada ao conjunto de observações.
São quatro os níveis de mensuração: nominal, ordinal, intervalar e de razão.
a) Escala nominal ou classificadora: a mensuração em seu mais baixo nível existe quando números
ou outros símbolos são usados para classificar um objeto, pessoa ou característica. Quando números
ou outros símbolos são usados para identificar os grupos a que vários objetos pertencem, esses
números ou símbolos constituem uma escala nominal ou classificadora. Então, consiste na
6
contagem ou enumeração de uma variável em suas diversas categorias, as quais são mutuamente
exclusivas. Algumas estatísticas apropriadas são: moda, os testes do qui-quadrado, de McNemar,
exato de Fisher e coeficiente de contingência C.
b) Escala ordinal ou escala por postos: pode ocorrer que os elementos em uma categoria de cada
escala não sejam apenas diferentes dos elementos em outras categorias da mesma escala, mas que
guardem certo tipo de relação entre eles. Isto é, a variável em estudo é partida em categorias
ordenadas em graus convencionados havendo uma relação entre categorias do tipo maior do que.
Algumas estatísticas recomendadas nesta escala são: moda, mediana, medidas separatrizes (quartis,
decis, centis), correlação de Spearman e os testes dos sinais, da mediana, do Wilcoxon, U de Mann-
Whitney, Kruskal-Wallis e Friedman.
c) Escala intervalar: quando a escala tem todas as características de uma escala ordinal, e quando,
além disso, se conhecem as distâncias entre dois números quaisquer da escala, então se consegue
uma mensuração consideravelmente mais forte que a ordinal. Atribui-se à variável um número real,
uma unidade constante e comum de mensuração. A unidade de mensuração e o ponto zero são
arbitrários. A escala intervalar é a primeira escala, verdadeiramente, quantitativa. Todas as
estatísticas são permitidas e também os testes paramétricos (satisfeitos os pressupostos) e não-
paramétricos.
d) Escala de razões: quando uma escala tem todas as características de uma escala de intervalos e,
além disso, tem um verdadeiro ponto zero como origem, é chamada escala de razões. Todas as
estatísticas são permitidas, pois esta é a escala de mensuração mais completa e também podem ser
aplicados os testes paramétricos (satisfeitas as suposições) e não-paramétricos.
3. Classificação dos testes estatísticos
Os métodos estatísticos podem ser classificados como paramétricos e não-paramétricos.
Os paramétricos baseiam-se na amostragem de uma população, onde os dados amostrais estão
relacionados com a população através de parâmetros específicos. Esses métodos exigem determinadas
condições para serem aplicados.
Quando forem satisfeitas todas as condições para a utilização de um método estatístico
paramétrico, pode-se aumentar o tamanho da amostra e utilizar um método não-paramétrico,
permitindo uma equivalência entre os testes em termos de poder. Isto se justifica pelo conceito de
poder-eficiência, onde o poder de qualquer teste aumenta com o aumento do tamanho da amostra.
7
Como o próprio nome sugere a estatística não-paramétrica não depende dos parâmetros
populacionais e nem de suas respectivas estimativas amostrais. Para Siegel (1975), as vantagens dos
testes estatísticos não-paramétricos são:
a) as afirmações probabilísticas decorrentes da maior parte dos testes estatísticos não-paramétricos são
probabilidades exatas (salvo no caso de grandes amostras, em que se dispõe de aproximações
excelentes), independentemente da forma da distribuição da população da qual a amostra foi
selecionada aleatoriamente. Em certos casos, alguns testes não-paramétricos admitem que a
distribuição básica seja contínua, suposição igualmente feita no caso dos testes paramétricos;
b) quando se utilizam amostras muito pequenas, não existe alternativa para o emprego de um teste
não-paramétrico, a menos que se conheça, exatamente, a natureza da distribuição da população;
c) os testes estatísticos não-paramétricos prestam-se não só ao tratamento de dados apresentados em
postos, como também aqueles cujos escores aparentemente numéricos têm, na realidade, a força de
postos. Isto é, o pesquisador pode apenas determinar se um indivíduo possui maior ou menor
quantidade de característica que está estudando, sem, entretanto, poder dizer realmente quanto mais
ou quanto menos. Se os dados se apresentam inerentemente em postos, ou mesmo se podem ser
classificados apenas como positivos ou negativos (mais ou menos, melhor ou pior), então tais dados
podem ser tratados por métodos não-paramétricos, ao passo que, para tratá-los por métodos
paramétricos, devem-se fazer suposições precárias, e mesmo irreais, sobre as distribuições básicas;
d) existem testes estatísticos adequados para o tratamento de amostras constituídas de observações de
várias populações diferentes;
e) são menos exigentes e mais eficientes que os paramétricos, quando os dados da população não
seguem uma distribuição normal;
f) são úteis nos casos em que é difícil estabelecer uma escala de valores quantitativos para os dados.
As desvantagens dos testes não-paramétricos, segundo Siegel (1975) são:
a) se todas as suposições associadas ao modelo estatístico paramétrico são satisfeitas pelos dados, e se
as mensurações têm o nível requerido, então o emprego de um teste não-paramétricorepresenta um
desperdício de dados. O grau de desperdício é expresso através do poder-eficiência do método não-
paramétrico;
b) são testes menos sensíveis, mas podem ser aplicados a um conjunto muito mais amplo de casos.
4. A escolha de testes estatísticos (www.vademecum.com.br/iatros/Testes.htm)
Critérios de escolha
Dentre os inúmeros testes e técnicas estatísticas que se apresentam no contexto de um trabalho
de pesquisa, é natural certo grau de desorientação inicial quanto à identificação daqueles que são ou
8
não aplicáveis a cada situação. Para se poder realizar as escolhas adequadas, é importante considerar
alguns parâmetros básicos dos dados a serem analisados, tais como:
• No de amostras: o número de grupos distintos sendo analisados (um ou mais).
• Relação entre amostras: refere-se a duas ou mais amostras consistirem ou não de múltiplas medidas
das mesmas entidades ou de entidades relacionadas (serem ou não pareadas ou casadas).
• Escala numérica: a forma na qual os dados foram registrados (escala nominal, ordinal, intervalar ou
de razão).
• Distribuição: a densidade de probabilidade (“distribuição de probabilidade”) dos dados (normal ou
não-normal).
• Dependência entre variáveis: o conhecimento de uma variável contribuir ou não para o
conhecimento de outras (respectivamente, serem associadas ou independentes entre si).
São estes os fatores que determinam quais os procedimentos gráficos e analíticos possíveis para
cada combinação de número de amostras e tipos de dados.
Possibilidades de análise
Os quadros abaixo apontam para as análises de dados possíveis nas diversas situações de
pesquisa, porém, não indicam exatamente os procedimentos a serem usados em cada situação. Isso
ocorre devido ao fato de que a decisão final depende não apenas das restrições matemáticas, mas
também dos objetivos do estudo e da própria natureza dos achados que vão sendo produzidos. É
importante, contudo, ter em mente que as tabulações a serem apresentadas constituem um mapa de
referência que deixa claro espaço de ações dentro do qual pode se manifestar a liberdade do pensador
analítico.
Estatística descritiva
O quadro abaixo indica os tipos de técnicas estatísticas que podem ser aplicadas para a descrição
de conjuntos de dados para se obter um resumo ou descrição geral deles.
Nº de
amostras
Escala
numérica
Distribuição
Análises aplicavéis
Gráficos aplicáveis
uma ou + ordinal,
intervalar ou
razão
normal média, mediana, moda, , quartis,
desvio padrão, coeficiente de
variação, intervalo de confiança,
mínimo, máximo, série temporal*
histograma, Box & Whiskers,
gráfico de séries, ogiva
(função de distribuição).
uma ou + ordinal,
intervalar ou
razão
não- normal média, mediana, moda, , quartis,
desvio padrão, coeficiente de
variação, intervalo de confiança,
mínimo, máximo, série temporal*
histograma, Box & Whiskers,
gráfico de séries, ogiva
(função de distribuição).
uma ou + nominal não-normal freqüências, série temporal* pictograma, gráfico de séries.
*quando uma das variáveis registradas for o tempo.
9
Comparações entre amostras
O quadro indica as técnicas estatísticas que podem ser aplicadas para a comparação entre os
parâmetros de dois ou mais grupos de dados.
Nº de
amostras
Tipos de
relação
Distribuição
Escala numérica
Análises aplicáveis
duas pareadas normal intervalar ou razão teste t de Student pareado
duas pareadas não-normal ordinal, intervalar ou
razão
teste dos sinais, teste de Wilcoxon
duas pareadas não-normal nominal dicotômica* teste de McNemar
duas não-pareadas normal intervalar ou razão teste t de Student para duas amostras
independentes
duas não-pareadas não-normal ordinal, intervalar ou
razão
teste U de Mann-Whitney, de Wald-
Wolfowitz, de Kolmogorov-Smirnov
duas não-pareadas não-normal nominal teste do qui-quadrado (homogeneidade)
três ou + pareadas normal intervalar ou razão ANOVA c/ medidas repetidas
três ou + pareadas não-normal ordinal, intervalar ou
razão
ANOVA de Friedman
três ou + pareadas não-normal nominal teste Q de Cochran
três ou + não-pareadas normal intervalar ou razão ANOVA c/ grupos independentes
três ou + não-pareadas não-normal ordinal, intervalar ou
razão
ANOVA de Kruskal-Wallis
três ou + não-pareadas não-normal nominal teste do qui-quadrado
*variável com apenas dois valores ou duas categorias (variável binária).
Relação entre variáveis
O quadro a seguir mostra as técnicas analíticas e procedimentos gráficos aplicáveis quando se
quer verificar a existência e/ou caracterizar a relação entre duas ou mais variáveis.
Nº de
variáveis
Escala numérica
das variáveis
Distribuição
Análises aplicáveis
Gráficos aplicáveis
duas intervalar e/ou razão normal correlação de Pearson,
regressão linear simples
diagrama de dispersão (x,y)
duas ordinal e/ou intervalar
e/ou razão
não-normal correlação de Spearman diagrama de dispersão (x,y)
duas nominal não-normal teste do qui-quadrado _
três ou mais intervalar e/ou razão normal regressão múltipla diagrama previsão vs.
observação
três ou mais ordinal e/ou intervalar
e/ou razão
não-normal correlação de Kendall diagrama de dispersão(x,y)
três ou mais nominal não-normal análise discriminante _
três ou mais intervalar e/ou razão normal e/ou não-
normal
regressão linear múltipla,
regressão não-linear
_
três ou mais nominal dicotômica*
(variável resposta) e/ou
nominal e/ou ordinal
e/ou intervalar e/ou razão
normal e/ou não-
normal
regressão logística _
*variável com apenas dois valores ou duas categorias (variável binária).
A seguir, serão apresentadas as metodologias dos principais testes estatísticos não-paramétricos,
com seus respectivos procedimentos, pressuposições, hipóteses, regras de decisão, conclusões e
exemplos.
10
II - PRINCIPAIS TESTES NÃO-PARAMÉTRICOS
A seguir apresenta-se um Fluxograma mostrando os principais testes não-paramétricos, os quais
serão abordados neste capítulo.
FLUXOGRAMA 1 – Testes não-paramétricos
1. Testes aplicáveis a uma amostra
Após a seleção de uma amostra, procura-se comprovar a hipótese de que a mesma possa ter sido
extraída de uma população, a qual tem uma distribuição especificada.
O tipo de teste usualmente empregado para o caso de uma amostra é um teste de aderência que
pode ser o binomial, o qui-quadrado ou o de Kolmogorov-Smirnov, estando sua escolha condicionada
a fatores como: nível de mensuração utilizado; número de categorias em sua mensuração; tamanho da
amostra; poder do teste estatístico.
1.1 Teste Binomial
A proporção populacional é, freqüentemente, um parâmetro de interesse em pesquisas, as quais
se baseiam em populações constituídas somente por duas classes e, qualquer observação sobre a
população, recairá em uma dessas classificações.
Para qualquer população dicotomizada, ou seja, dividida em duas classes, a proporção de uma
das classes é igual a p e, para outra classe, é igual a q = 1 - p, sendo: p+q = 1.
11
Um teste apropriado neste caso é o teste binomial que é empregado na análise de dados
dicotômicos obtidos de amostras extraídas, aleatoriamente, de populações dicotomizadas. Ex: sim;
não; macho, fêmea; verdadeiro, falso, etc.
Pressuposições:
a) os dados constituem o resultado de n tentativas repetidas de Bernoulli.1 O resultado de cada
tentativa pode ser classificado como sucesso ou fracasso;
b) o número de sucessosé dado pelo número de respostas de determinada característica;
c) o número de sucessos dividido por n, resulta em p0, que é a proporção amostral que representa a
característica de interesse;
d) as probabilidades populacionais: p de sucesso e q de fracasso, são constantes para cada uma das n
tentativas, as quais são independentes.
Hipóteses:
oH
: p = po (A proporção observada em dada amostra não difere da populacional considerada)
1H
: p po ou p po ou p po
onde: po = suposto valor para a proporção populacional;
p = verdadeiro valor para a proporção populacional.
Procedimento:
a) fixar o nível de significância ;
b) observar n = número total de observações;
c) estabelecer as freqüências das ocorrências em cada uma das duas categorias;
d) determinar a probabilidade, sob
oH
, da ocorrência dos valores observados ou valores mais
extremos:
• se n 25 e:
a) p = q = ½, uma tabela específica, mostra as probabilidades unilaterais, sob
oH
, de vários
valores tão pequenos quanto um x observado. Emprega-se um teste unilateral quando se pode
especificar qual das categorias terá menor freqüência e para um teste bilateral, multiplica-se
por 2 o valor tabelado;
b) p q, utilizar a fórmula:
ini
x
oi
i
n qpC)xX(P
−
=
==
= p ( 1 )
onde: x é a menor freqüência observada entre as duas categorias.
Se o valor de p, associado ao valor observado de x ou a um valor ainda mais extremo, for menor
ou igual a , rejeita-se
oH
, ou seja, P (X valor tabelado) = p.
12
• se n > 25 (amostra grande) e p é próximo a ½ , testar
oH
, aplicando-se a equação:
( )
npq
np0,5x
Z
−
=
N (0, 1)
A correção (x + 0,5), quando x < n.p e (x - 0,5), quando x > n.p é utilizada porque a distribuição
binomial é discreta e a normal é contínua.
Quando o tamanho da amostra aumenta, a distribuição binomial tende para a distribuição normal.
Essa tendência é acentuada quando p está próximo de ½ e, mais lenta quando p está muito próximo de
0 ou de 1.
Assim, quanto maior a disparidade entre p e q, maior deve ser n, para que a aproximação seja
satisfatória.
Regra empírica:
Quando n.p.q
9 a distribuição amostral de x é, aproximadamente normal, com média = n.p e
desvio padrão =
npq
.
)1,0(N
npq
npxx
Z
−
=
−
=
Regra de decisão: Se p > , aceita-se
oH
e se p , rejeita-se
oH
.
Conclusão: O teste binomial pode ser empregado quando existem somente duas categorias na
classificação dos dados. É especialmente utilizado quando o tamanho da amostra é muito pequeno e os
dados são mensurados em escala nominal ou ordinal.
Exemplos do teste Binomial
1 - Em um estudo sobre os efeitos da fadiga, um pesquisador ensinou a 18 alunos de uma universidade
dois processos diferentes de dar o mesmo nó. Metade dos alunos, selecionados aleatoriamente entre os
18, aprendeu primeiro o método A e a outra metade aprendeu primeiro o método B. Mais tarde, à meia
noite, após um exame final de 4 horas, cada aluno foi solicitado a dar o nó. A suposição era que a
fadiga induziria a regressão, isto é, que cada aluno tenderia a aplicar o processo que havia aprendido
primeiro. Cada aluno foi então classificado em duas categorias: se utilizou o método que aprendera em
primeiro lugar ou o método que aprendera em segundo lugar, quando solicitado a dar o nó sob a ação
da fadiga, apresentando os resultados de 16 e 2, respectivamente. (Exemplo do Siegel, p. 42).
Solução (o programa STATISTICA não realiza este teste):
Hipóteses:
oH
: p1 = p2 = 0,5 (não há diferença entre as probabilidades de utilizar o método aprendido em 1º
e 2º lugar);
1H
: p1 > p2 (a probabilidade de utilizar o método aprendido em 1º lugar é maior do que a
do método aprendido em 2º lugar).
1 Tentativa repetida de Bernoulli é uma tentativa onde existem somente dois tipos possíveis de resultados: sucesso, cuja
probabilidade é denotada por “p”, ou fracasso, cuja probabilidade é denotada por “q”.
13
Sendo n = 18 (número de observações independentes), x = 2 (menor freqüência) e = 1%, tem-
se: P(X 2) = 0,001, conforme o valor tabelado.
Como este valor é menor que 1%, rejeita-se
oH
, ou seja, conclui-se que as pessoas sob ação da
fadiga tendem ao método aprendido em 1º lugar.
2 – Cinotti e Patti encontraram vacuoles subcapular anterior nos olhos de 11 em 25 sujeitos diabéticos.
Se esses dados satisfazem as suposições do teste binomial e se considerarmos os sujeitos como uma
amostra aleatória da população de sujeitos similares, pode-se concluir que a proporção populacional
com a condição de interesse é maior que 0,27?
3 – Durante o ano fiscal de 1969 – 1970, 56% dos criminosos sob a custódia da Cadeia Estadual de
Correções da Georgia tinham menos de 25 anos de idade. Suponha que 23 criminosos de uma amostra
aleatória de 50 criminosos sob custódia da Cadeia Estadual de Correções de outro Estado possuíam
menos de 25 anos de idade. Esses dados indicam que a proporção populacional amostrada com menos
de 25 anos de idade é menor que 56%?
1.2 Teste de aderência do qui-quadrado (2)
No teste de aderência desenvolvido por Karl Pearson em 1960, pode-se dividir uma variável em
duas ou mais categorias, para comprovar se existe diferença significativa entre o número observado de
elementos em determinada categoria (indivíduos, objetos, respostas, etc.) e o respectivo número
esperado, baseado na hipótese
oH
.
É utilizado, também, para saber se os dados amostrais suportam a hipótese de que a população
em estudo segue certa distribuição específica, como por exemplo, a binomial, a Poisson, a normal,
entre outras. Assim, admite-se que a distribuição da variável em estudo seja descrita por determinado
modelo teórico de probabilidade e verifica-se o grau de aderência dos dados amostrais ao modelo.
Destaca-se a importância do teste, pois a validação das inferências estatísticas paramétricas, por
exemplo, dependem da forma das populações das quais são extraídas as amostras.
Pressuposições:
a) os dados analisados consistem de uma amostra aleatória de n observações independentes;
b) a escala de mensuração pode ser nominal;
c) as observações podem ser classificadas em k categorias que completam todas as possibilidades de
classificação. Isto é, as categorias são mutuamente exclusivas e exaustivas. O número de
observações dentro de uma dada categoria é chamado de freqüência observada.
14
Hipóteses:
H0:
ifo
=
ife
(a amostra foi extraída de uma população que segue uma distribuição específica);
H1:
ifo
ife
(a amostra não foi extraída de uma população que segue uma distribuição
específica).
Espera-se, teoricamente, uma concordância entre as freqüências observadas e as esperadas.
A estatística do teste é igual a:
( )
=
−
=
k
1i i
2
ii2
c
fe
fefo
( 2 )
onde:
ifo
= freqüência observada classificada na categoria i;
ife
= freqüência esperada classificada na categoria i, com base na hipótese H0;
k = número de categorias.
Para amostras grandes, a distribuição amostral do
2
c
, sob H0, segue a distribuição do
qui-quadrado, com = k - 1 - r graus de liberdade, onde r é o número de parâmetros que tiveram suas
estimativas calculadas a partir da amostra.
Procedimento:
a) enquadram-se as freqüências observadas (
ifo
) nas k categorias.A soma das freqüências deve ser
igual a n (número de observações independentes);
b) através de H0, determina-se as freqüências esperadas (
ife
) para cada uma das k células:
• quando k 2, o teste não deve ser aplicado quando mais de 20 das células tenha
ife
5 ou se
qualquer célula tenha
ife
. Categorias adjacentes podem ser combinadas, desde que
apresentem alguma propriedade comum, para que seja possível interpretar o resultado do teste.
• quando k = 2, pode-se utilizar o teste 2 somente se as
ife
’s .
Se estas condições não forem satisfeitas, aplica-se o teste Binomial;
c) calcular o valor de
2
c
;
d) determinar o valor dos graus de liberdade = k-1-r;
e) estabelecer o nível de significância .
Regra de decisão: Se
2
c
2
,
, aceita-se
oH
, p e se
2
c
2
,
, rejeita-se
oH
, p .
As restrições apontadas ao uso do teste do qui-quadrado se devem à relação imperfeita que existe
entre a equação (2) e a verdadeira distribuição do qui-quadrado. Uma das razões é que os dados de
freqüências são discretos e a distribuição qui-quadrado é contínua. Na medida em que os graus de
liberdade e as
ife
’s decrescem, a aproximação se torna mais deficiente.
15
Conclusão: O teste do qui-quadrado deve ser empregado quando os dados estão dispostos em
categorias discretas e quando as freqüências esperadas são, suficientemente, grandes. Pode ser
aplicado para dados mensurados em escala nominal ou ordinal.
Exemplos do teste qui-quadrado de aderência
1 - A Tabela 1, a seguir, obtida por Philips (1972), mostra o mês de nascimento de 348 americanos
famosos. teste a hipótese de que a data de nascimento segue uma distribuição uniforme ao longo do
ano. Use = 5%.
TABELA 1 – Exemplo do teste do qui-quadrado de aderência
Mês Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez Total
No 38 32 29 30 19 17 34 24 31 26 36 32 348
Fonte: Soares (1991, p. 232)
Hipóteses:
oH
: a distribuição é uniforme;
1H
: a distribuição não é uniforme.
Para a distribuição uniforme:
ife
=
12
348
= 29
TABELA 2 – Freqüências observadas e esperadas do teste do qui-quadrado
Mês Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez Total
foi 38 32 29 30 19 17 34 24 31 26 36 32 348
ife
29 29 29 29 29 29 29 29 29 29 29 29 348
O valor calculado é
2
c
= 15,72 e pela tabela do qui-quadrado o valor tabelado é
2
,
(11; 0,05) =
19,68. Como
2
c
é menor que o
2
,
, aceita-se H0, ou seja, a data do nascimento segue uma
distribuição uniforme ao longo do ano. De outra forma, observa-se que p > (0,10 < p < 0,151750).
2 – Verificar se os dados a seguir se ajustam a uma distribuição de Poisson. = 5%
Número de acidentes 0 1 2 3 4 5
Número de dias 25 19 10 9 4 3
Os outros testes do qui-quadrado serão apresentados posteriormente.
1.3 Teste de Kolmogorov-Smirnov
O teste para uma amostra foi introduzido por Kolmogorov em 1933. Em 1939, Smirnov
introduziu o procedimento do teste para dados de duas amostras.
É um teste de aderência, que determina se os valores da amostra podem ser considerados como
provenientes de uma população com uma distribuição teórica conhecida.
16
Procura-se especificar a distribuição de freqüência acumulada teórica e compará-la com a
distribuição de freqüência acumulada observada. Determina-se o ponto na qual as duas distribuições,
teórica e observada, apresentam maior diferença e se essa diferença é significativa ou pode ser
atribuída ao acaso.
A vantagem é que este teste pode ser aplicado, sem restrição, para pequenas amostras (
ife
’s
pequenas) e, na maioria dos casos, é mais poderoso que o teste do qui-quadrado.
Pressuposições:
a) os dados consistem de observações independentes constituindo uma amostra aleatória de tamanho
n de uma função de distribuição desconhecida, denotada por F(x);
b) a escala de mensuração é, no mínimo, ordinal.
Hipóteses:
H0: não há diferença entre as freqüências esperadas e observadas das categorias da variável
(Fo(x) = Sn(x));
H1: Há diferença entre as freqüências esperadas e as freqüências observadas, (Fo(x) Sn(x) ou
Fo(x) > Sn(x) ou Fo(x) < Sn(x).
Procedimento:
a) especificar Fo(x) = distribuição teórica acumulada sob H0 (proporção de casos esperados em
escores menores ou iguais a x);
b) dispor os escores observados numa distribuição cumulativa, fazendo corresponder cada intervalo
de Sn(x) com o intervalo comparável de Fo(x); onde Sn(x) = distribuição acumulada observada =
k/n, onde k é o número de observações menores ou iguais a x;
c) para cada posto da distribuição cumulativa, subtrair Sn(x) de Fo(x);
d) determinar D = máximo |Fo(x) – Sn(x)|; o teste de Kolmogorov-Smirnov focaliza a maior diferença,
ou seja, o maior valor de D (desvio máximo);
e) mediante referência a uma tabela específica, determinar a probabilidade (bilateral) associada à
ocorrência, sob
oH
, de valores tão grandes quanto o valor observado de D;
f) para um teste unilateral, com F(x) < Fo(x): D+ = máximo |Fo(x) – Sn(x)|;
g) para um teste unilateral, com F(x) > Fo(x): D- = máximo | Sn(x) – Fo(x)|.
A distribuição amostral de D, sob H0, é conhecida, sendo que a tabela mostra certos valores
críticos dessa distribuição amostral. A significância de D depende do tamanho da amostra n.
17
Regra de decisão: Rejeita-se H0, ao nível de significância , se as estatísticas D, D+ ou D- excedem
em (1 - ) o valor tabelado, ou seja, a amostra não se origina de uma suposta distribuição, espera-se
encontrar grandes discrepâncias entre Sn(x) e Fo(x).
Se p , aceita-se H0 (aceita-se a distribuição testada);
Se p , rejeita-se H0 (teste significativo, rejeita-se a distribuição testada).
Conclusão: O teste de Kolmogorov-Smirnov é o mais poderoso dos testes de aderência.
Comparação entre os testes de aderência: qui-quadrado e Kolmogorov-Smirnov
• o teste do qui-quadrado é usado com freqüências de observações enquanto que o Kolmogorov-
Smirnov é usado com observações contínuas;
• o teste do qui-quadrado é apropriado para dados nominais, quando a distribuição é supostamente
discreta;
• o teste Kolmogorov-Smirnov permite testes unilaterais bem como bilaterais; o teste do qui-
quadrado não distingue a direção das discrepâncias entre os valores observados e esperados;
• o teste do qui-quadrado requer que as observações sejam agrupadas em categorias, enquanto que o
teste de Kolmogorov-Smirnov não. Desta maneira o teste faz o uso mais completo dos dados.
Exemplos do teste de Kolmogorov-Smirnov
1 – Verifique se os dados da Tabela 4 seguem a distribuição de Poisson.
TABELA 4 – Número de filhos por casal, em 120 casais investigados.
Nº de filhos 0 1 2 3 4 5 6 7 8 9 10 11 12
Freq. observ. 24 16 16 18 15 9 6 5 3 4 3 0 1
2 - Grundmann et al informa os pesos dos rins de 36 cachorros Mongrel antes que eles fossem usados
em uma experiência. Os dados são mostrados na Tabela 5. Teste a hipótese nula que estes dados sejam
de uma população normalmente distribuída com média de 85 gramas e um desvio padrão de 15
gramas.
TABELA 5 – Pesos de rins, em gramas, de cachorros Mongrel
58 78 84 90 97 70 90 86 82
59 90 70 74 83 90 76 88 84
68 93 70 94 70 110 67 68 75
80 68 82 104 92 112 84 98 80
18
3 - Conjunto de dados referentes a recém-nascidos no Serviço da Maternidade do HE da Faculdade de
Medicina de Itajubá, ano de 1996. Levantamento seqüencial, período aproximado de dois meses com o
total de 96 casos, classificados em 9 variáveis. O teste verificará a normalidade das variáveis estatura(cm) e perímetro cefálico ao nível de 5%.
TABELA 3 – Exemplo do teste de Kolmogorov-Smirnov
Criança Estatura Perímetro Cefálico Criança Estatura Perímetro Cefálico
1 52 32 49 52 36
2 49 33,5 50 51 36
3 42 33 51 52 36
4 50 36 52 52 35
5 48 32 53 53 34
6 48 36 54 50 33
7 47 33,5 55 50 37
8 45 32 56 50 36
9 47 33 57 52 36
10 49 33 58 48 34
11 48 32 59 51 34
12 47 34 60 47 33
13 49 32 61 47 33
14 49 34 62 49 35
15 49 36 63 49 34,5
16 48 32 64 48 32
17 50 34 65 48 33
18 47 33,5 66 48 32
19 49 33 67 49 33
20 50 37 68 51 34
21 47 34 69 43 30
22 52 34 70 48 28
23 48 34 71 45 32
24 53 34 72 48 35
25 51 34 73 45 33
26 48 34 74 47 36
27 49 33 75 51 34
28 49 32 76 47 36
29 51 32 77 48 37
30 49 35 78 50 35
31 51 35 79 43 31
32 50 33 80 49 34
33 48 34 81 52 34,5
34 53 35 82 48 34
35 50 37 83 49 35
36 54 36 84 49 35
37 52 36 85 50 34
38 50 35 86 47 33,5
39 50 34 87 49 35
40 48 34 88 48 34
41 50 34 89 49 35
42 51 35 90 50 35
43 46 33 91 48 36
44 49 34 92 47 34
45 53 33 93 46 35
46 51 33 94 50 36
47 50 34 95 42 31
48 51 37 96 50 39
Fonte: Arango (2001, p. 168). média = 48,98 cm e desvio-padrão = 2,33 cm
19
1.4 Teste de Lilliefors
O teste de Kolmogorov-Smirnov admite uma função de distribuição específica, com média e
variância conhecidas.
Para testar normalidade, Lilliefors (1967), introduziu uma modificação no teste de Kolmorogov-
Smirnov, ampliando o seu uso aos casos em que a média e a variância não são conhecidas, mas sim,
estimadas através dos dados da amostra, conforme as seguintes equações, respectivamente:
n
x
X
n
1i
i
==
e
1n
)Xx(
S
2
n
1i
i
2
−
−
=
=
Estrutura-se o teste, analogamente ao de Kolmogorov-Smirnov, a partir dos Zi, ao invés da
variável original.
S
)Xx(
Z ii
−
=
, i = 1, 2, ..., n onde Zi é a variável padronizada.
Hipóteses:
Ho: as observações seguem uma distribuição normal;
H1: as observações não seguem uma distribuição normal.
A aceitação de Ho não significa que a distribuição padrão seja normal, mas apenas nos indica que
esta é uma razoável aproximação da distribuição desconhecida.
Como a média e a variância não foram especificadas, mas sim, estimadas através da amostra, os
limites superiores da distribuição de D (bilateral) do teste de Kolmogorov-Smirnov não são
apropriados. A regra de decisão do teste de Lilliefors é a mesma do teste de Kolmogorov-Smirnov.
Exemplos do teste de Lilliefors
1- Verifique a normalidade dos dados do exemplo 3 de Kolmogorov, pelo teste de Lilliefors.
2 - A Tabela 6 mostra parte de um estudo sobre a doença de Alzheimer. São os dados compatíveis
com a hipótese que o peso do cérebro de vítimas da doença de Alzheimer é normalmente distribuído?
Encontre o valor de p?
TABELA 6 - o peso do cérebro de vítimas da doença de Alzheimer
Peso (g) 800 – 900 – 1000 – 1100 – 1200 – 1300
Nº de casos 9 23 59 42 20
1.5 Teste de iterações (aleatoriedade)
Este teste tem como objetivo verificar se uma amostra extraída de uma população é, realmente,
aleatória.
20
Esta técnica se baseia na ordem ou seqüência em que os escores individuais foram obtidos
originalmente, sendo que uma iteração é definida como uma sucessão de símbolos idênticos que
aparecem seguidos e precedidos por símbolos diferentes (ou por nenhum símbolo).
Ex: + + - - - + - - - - + + - + ; r = 7 iterações
Pressuposições:
Os dados analisados consistem de uma seqüência de observações, registradas na ordem de suas
ocorrências, os quais podem ser classificados dentro de dois tipos mutuamente exclusivos, onde:
• n é o tamanho da amostra;
• n1 é o número de observações de um tipo;
• n2 é o número de observações de outro tipo.
Hipóteses:
oH
: a ordem dos símbolos é aleatória;
1H
: a ordem dos símbolos não é aleatória.
Procedimento:
a) dispor as n1 e n2 observações na ordem de sua ocorrência: n1 = número de símbolos de um tipo e n2
= número de símbolos de outro tipo;
b) contar o número de iterações de símbolos dos dois tipos, ou seja, o valor de r;
c) a determinação do valor de p depende do tamanho dos grupos n1 e n2; se n1 e n2 são menores ou
iguais a 20, recorrer à tabela que mostra o valor de r, sendo p = 0,025, e a outra tabela que mostra o
valor de r, sendo p = 0,025 (limite superior). Para um teste bilateral, a região de rejeição = 5%
consiste de ambos os valores tabelados de r no sentido previsto e de todos os mais extremos do que
aqueles.
d) se n1 ou n2 é maior do que 20, determinar o valor de Z N(0,1) pela fórmula:
( ) ( )1nnnn
)nnnn2(nn2
1
nn
nn2
rr
Z
21
2
21
212121
21
21
r
r
−++
−−
+
+
−
=
−
= (3)
e) Para decidir pela aceitação ou rejeição de H0, considerar os valores tabelados da variável Z.
Regra de decisão: se o valor de p, associado ao valor de r, ≤ , rejeita-se H0, caso contrário, aceita-se
H0.
Conclusão: o teste de iterações de uma amostra está relacionado à aleatoriedade da ocorrência
temporal ou à seqüência de escores em uma amostra. Porém, nenhuma afirmativa de caráter geral pode
ser feita sobre a eficiência das provas de aleatoriedade baseadas em iterações.
21
Exemplos do teste de iterações (Solução:o STATISTICA não realiza este teste)
1 - O número de estabelecimentos de varejo que iniciaram atividades e também fecharam as portas nos
anos 1948-1980, em uma grande cidade, estão na Tabela 7. Levando-se em conta que a mediana é 138,
deseja-se verificar, ao nível de 5% de significância, se esta seqüência é aleatória ou não.
TABELA 7 – Exemplo do teste de iterações
108 103 109 107 125 142 147 122 116
153 144 162 143 126 145 129 134 137
143 150 148 152 126 106 112 139 132
122 138 148 155 146 158
Fonte: Freund & Simon (2000, p. 351).
Hipóteses: H0: a seqüência de dados é aleatória;
H1: a seqüência de dados não é aleatória.
Utilizando-se a letra “a” para valores acima da mediana e a letra “b” para valores abaixo da
mediana, tem-se a seguinte seqüência, observando os valores na Tabela 7:
bbbbb aa bb aaaa b a bbb aaaa bbb a bb aaaa
Observa-se que n1 = 16 e n2 = 16, desconsiderando o valor igual à mediana. Pela tabela, para n1 =
16 e n2 = 16, encontra-se r = 11 e pela outra tabela, para n1 = 16 e n2 = 16, encontra-se r = 23, a qual
mostra que a região de rejeição consiste de todos os r’s inferiores a 11 e de todos os r’s superiores a 23.
Como o número de seqüências distintas de letras “a” e “b” é r = 12, aceita-se
oH
, concluindo-se
que não há evidências significativas de que a seqüência não seja aleatória, ao nível de 5%.
2 – Verifique a aleatoriedade da seguinte amostra constituída pelos resultados de 40 lançamentos de
uma moeda onde K representa cara e C coroa.
{K, K, C, C, K, C, K, K, C, K, C, C, K, K, K, C, K, K, C, K, K, C, C, K, C, K, K, C, K, C, C, K, K, C,
K, K, K, C, C, K}
2. Testes aplicáveis a duas amostras relacionadas
Estes testes são utilizados na análise de duas amostras relacionadas, onde os elementos recebem
um tipo de tratamento ou nenhum tratamento para, posteriormente, serem comparados aos pares (as
amostras devem ser de mesmo tamanho), podendo-se ter duas situações:
a) indivíduos semelhantes são tomados aos pares, sendo um deles tratado e o outro indivíduo do par,
considerado como o controle;
22
b) os indivíduos são considerados como seu próprio controle,constituindo o que se denomina de pré e
pós-tratamento.
Para a análise dos dados provenientes de duas amostras relacionadas, normalmente, aplica-se o
teste paramétrico t pareado, desde que sejam atendidas as exigências para sua aplicação. Caso
contrário torna-se mais eficiente a aplicação de um teste não-paramétrico.
2.1 Teste de McNemar
Este teste foi introduzido por McNemar em 1947. É recomendado quando se está interessado no
número de sujeitos que respondeu de forma diferente depois de expostos a alguma intervenção ou
tratamento, observando-se uma situação: antes e depois.
Pressuposições:
a) os dados consistem de n objetos ou pares de sujeitos, dependendo se eles fazem seu próprio
controle ou se os sujeitos experimentais são pareados com um determinado grupo controle;
b) a escala de mensuração é nominal, com 4 categorias;
c) quando os sujeitos são seu próprio controle, eles são independentes uns dos outros. No caso em que
pares combinados são usados, estes são independentes, mas as observações dentro de um dado par
são relacionadas.
Hipóteses:
H0: pA = pD (a proporção de elementos, com a característica de interesse, é a mesma sob as duas
condições ou tratamentos);
H1: pA pD ou pA > pD ou pA < pD.
onde: pA: proporção com a característica de interesse sob uma condição;
PD: proporção com a característica de interesse sob outra condição.
Procedimento:
a) enquadrar as freqüências observadas em uma tabela de quatro células na forma:
Antes
- +
Depois
+ A B
- C D
b) determinar as freqüências esperadas nas células A e D, onde ocorreram mudanças de antes para
depois:
ife
= ½(A+D)
• se as freqüências esperadas são inferiores a 5, empregar o teste binomial em substituição ao
teste de McNemar;
• se as freqüências esperadas forem maiores ou iguais a 5, calcular o valor de
2
c
com o emprego
da fórmula:
23
( )
DA
1DA
2
2
c
+
−−
=
( 4 )
onde: A = número de casos observados na célula A;
D = número de casos observados na célula D.
A distribuição amostral do 2, sob
oH
calculada pela equação (4), segue a distribuição do qui-
quadrado com = 1 grau de liberdade.
Regra de decisão: Se
2
c
>
2
,
, então rejeita-se
oH
, caso contrário, aceita-se H0.
Conclusão: Quando o fator discriminante é categorizado segundo duas situações, mas referentes ao
mesmo grupo, os testes qui-quadrado e exato de Fisher não se aplicam. Assim, recomenda-se a
aplicação do teste de McNemar, quando uma ou ambas as condições analisadas são mensuradas ao
nível nominal.
Exemplo do teste de McNemar
1 - Dois supermercados disputam a preferência dos consumidores de uma cidade. Um deles (A), para
aumentar o seu número de fregueses, lança uma campanha publicitária, através de concursos, com
vários brindes. O resultado final do concurso apresentou a seguinte situação, numa amostra tomada ao
acaso com 100 consumidores. Verificar se a campanha foi eficiente, ao nível de 5%.
TABELA 8 – Exemplo do teste de McNemar
Depois da campanha
Antes da campanha A B Total
A 37 3 40
B 13 47 60
Total 50 50 100
Fonte: Campos (1983, p. 88).
2.2 Teste dos sinais
Segundo Campos (1983) o teste dos sinais foi introduzido por Wilcoxon (1945) e é o mais antigo
(1710) de todos os testes não-paramétricos. Possui essa denominação pelo fato de utilizar sinais “+” e
“-” como dados, no lugar de medidas quantitativas, sendo particularmente importante quando é
impossível ou inviável obter tais medidas.
O teste dos sinais não faz suposições com relação a forma da distribuição das diferenças, nem
supõe que os diferentes pares tenham sido extraídos da mesma população.
Em um teste unilateral, a previsão indica qual dos sinais “+” ou “-” ocorre mais freqüentemente.
Para um teste bilateral, a previsão indica que as freqüências de ocorrências dos dois sinais são
significativamente diferentes.
24
Pressuposições:
a) a variável em estudo tem distribuição contínua, com distribuição simétrica;
b) os pares ( Xi, Yi ), i = 1, 2, ..., n, são mutuamente independentes entre si;
c) dentro de cada par, a escala de medida utilizada é ao menos ao nível ordinal.
Hipóteses:
oH
: os tratamentos não diferem entre si;
1H
: os tratamentos diferem entre si;
Procedimento:
a) determinar o sinal da diferença entre os dois valores de cada par;
b) determinar N = número total de diferenças com sinal “+” e “-”;
c) dependendo do tamanho de N, determinar a probabilidade associada à ocorrência.
• se N 25, utilizar a distribuição binomial (p=q=0,5), uma tabela específica fornece a
probabilidade unilateral (p) associada a um valor x, onde x = número de sinais com menor freqüência;
• se N 25, utilizar a aproximação de x à distribuição normal, pois μx=n.p e σx=
q.p.n
= 0,5
n
já que p=q=0,5. Determinar o valor de Z utilizando a fórmula:
Z = ( x 0,5 ) - ½ N (5)
½ (N)1/2
onde: (x + 0,5) é utilizado quando x < ½ N e (x − 0,5) é utilizado quando x > ½ N.
A Tabela da distribuição normal padronizada fornece as probabilidades p associadas aos valores
de Z;
d) para um teste bilateral, em ambos os casos, multiplica-se o valor de p por 2.
e) desconsideram-se os empates.
Regra de decisão: Se p > , aceita-se H0 e se p < , rejeita-se H0.
Conclusão: O teste dos sinais é empregado quando é possível fazer a mensuração ordinal dentro dos
pares de amostras. Isto é, o teste é aplicado a dados referentes a uma variável basicamente contínua,
mas que só pode ser medida de maneira grosseira.
Exemplo do teste dos sinais
1 - Uma firma submeteu oito de seus empregados a um treinamento intensivo sobre um novo método a
ser implantado, visando a um maior rendimento na produção. O resultado em número diário de peças
produzido está na Tabela 9. Aplique o teste dos sinais ao nível de significância de 5%, para decidir se
o novo método deve substituir o antigo.
25
TABELA 9 – Exemplo do teste dos sinais
Empregado Método antigo Método novo
1 18 24
2 15 14
3 19 22
4 23 28
5 12 16
6 16 20
7 18 20
8 17 18
Fonte: Campos (1983, p.77)
2.3 Teste de Wilcoxon
Foi introduzido por Wilcoxon em 1945, sendo utilizado para comparar duas amostras
relacionadas ou dependentes, considerando os escores das diferenças ordenadas segundo seus valores
absolutos. Ele é equivalente ao teste t de Student pareado, aplicado a dados, pelo menos, a nível
ordinal.
São considerados o sentido e o valor das diferenças entre os pares das amostras relacionadas.
Pressuposições:
a) o nível de mensuração da variável deve ser, no mínimo, ordinal;
b) as observações são consideradas aos pares.
Hipóteses: H0: não há diferença significativa entre os dois tratamentos;
H1: há diferença significativa entre os dois tratamentos.
Procedimento:
a) para cada par, determinar a diferença (di), com sinal, entre os dois escores. Ocorrendo di = 0, este
par é eliminado da análise;
b) atribuir postos a esses di’s independentemente do sinal. No caso de di’s empatados, atribuir a média
dos postos empatados;
c) atribuir a cada posto o sinal + ou o sinal - do di que ele representa. No caso de todos os di’s de
mesmo sinal T = 0;
d) determinar T = a menor das somas de postos de mesmo sinal;
e) mediante contagem, determinar n = total de di’s com sinal;
f) o processo para a determinação da significância do valor observado de T vai depender de n:
• se n 25, uma tabela específica mostra os valores críticos de T.
• se n > 25, a distribuição T se aproxima da distribuição normal. Então se calcula o valor de Z pelaequação:
26
( )
( )( )
24
1n21nn
4
1nn
T
Z
++
+
−
= ~ N(0,1) (6)
onde: n = número de pares;
T = menor soma de postos de mesmo sinal.
Regra de decisão: Se T T, rejeita-se H0, p e se T > T, aceita-se H0, p .
Conclusão: O teste de Wilcoxon pode ser empregado quando os dados são mensurados, no mínimo,
ao nível ordinal, tanto dentro dos pares como entre os pares, podendo-se classificar as diferenças
observadas para os diversos pares de dados.
Exemplos do teste de Wilcoxon
1 - São apresentados, na Tabela 10, os pesos (em libras) de 16 pessoas, antes e depois de submetidos a
uma dieta de emagrecimento de duas semanas. Aplique o teste de Wilcoxon, ao nível de significância
de 5%, para testar a eficácia da dieta.
TABELA 10 – Exemplo do teste de Wilcoxon
Antes Depois
169,0 159,9
188,6 181,3
222,1 209,0
160,1 162,3
187,5 183,5
202,5 197,6
167,8 171,4
214,3 202,1
143,8 145,1
198,2 185,5
166,9 158,6
142,9 145,4
160,5 159,5
198,7 190,6
149,7 149,0
181,6 183,1
Fonte: Freund (2000, p. 341).
2 – Mediu-se a capacidade torácica de 7 indivíduos selecionados aleatoriamente. Esse grupo de
indivíduos submeteu-se voluntariamente, durante um mês, a um treino especial que tinha por objetivo
o aumento daquela capacidade. No final do mês de treino, foi medida, de novo, a capacidade torácica.
Os resultados de ambas as medições estão representadas na Tabela 11 (em litros) e também
observações da variação relativa da capacidade torácica, tida como mais adequada do que a variação
27
absoluta, para se avaliar o impacto do treino. Com base nos dados apresentados, poder-se-á concluir,
ao nível de significância de 5%, que o treino é eficaz?
TABELA 11 – Capacidade torácicas (em litros) antes e depois de um treino específico
Indivíduo Antes do treino (CA) Depois do treino(CD) Diferença relativa
*
A 3,5 3,4 -0,029
B 3,6 3,9 0,083
C 4,1 4,5 0,098
D 2,9 3,1 0,069
E 3,4 3,9 0,147
F 4,2 4,4 0,048
G 3,9 3,8 -0,026
*Diferença relativa = C/CA = (CD – CA)/CA
3 Testes aplicáveis a duas amostras independentes
Segundo Campos (1983), quando são comparados dois tratamentos, o maior interesse está em
verificar se existe superioridade de um tratamento em relação ao outro, quanto à natureza dos dados.
Para o caso de populações independentes, emprega-se um teste estatístico não-paramétrico
devidamente adequado aos dados a serem analisados, não sendo necessário que as amostras tenham o
mesmo tamanho.
O teste do qui-quadrado para duas amostras, será abordado no caso de k amostras independentes.
3.1 Teste U de Mann-Whitney
O teste U de Mann-Whitney foi introduzido pelos autores Mann e Whitney em 1947 e pode ser
utilizado para comprovar se duas amostras independentes foram ou não selecionadas da mesma
população, desde que a variável seja no mínimo a nível ordinal. Trata-se de um dos mais poderosos
testes não-paramétricos, sendo um teste alternativo ao teste t de Student para duas médias.
A estatística U é definida como: o número de vezes que os valores de um conjunto são
precedidos pelos valores de outro, ou ainda, o número de vezes que os valores de um conjunto
precedem os valores de outro. Disso resulta que, dados dois conjuntos de valores, pode-se obter dois
resultados numéricos para U, devendo um desses valores ser adotado como o valor da estatística. Essa
escolha vai depender do tipo de tabela que será empregada para a interpretação.
Pressuposições:
a) as duas amostras são casualizadas e independentes;
b) distribuição contínua;
c) escala, no mínimo, ordinal.
Hipóteses: H0: população1 = população 2 (os tratamentos são iguais);
28
H1: população1 população 2 (os tratamentos são diferentes, teste bilateral) ou H1:
população1<população 2 (unilateral à esquerda) ou H1: população1>população 2 unilateral à direita)
Procedimento:
a) determinar os valores de n1 e n2, onde:
n1 = número de casos do grupo menor;
n2 = número de casos do grupo maior.
b) dispor em conjunto os escores dos dois grupos, atribuindo o posto 1 ao escore que for menor
algebricamente. Os postos variam de 1 a n = n1 + n2;
Às observações empatadas atribuir a média dos postos correspondentes.
c) determinar o valor de U, mediante contagem ou mediante aplicação das fórmulas:
( ) ( )
2
22
211
11
21 R
2
1nn
n.nUouR
2
1nn
n.nU −
+
+=−
+
+=
(7)
onde: R1 = soma dos postos atribuídos ao grupo cujo tamanho da amostra é n1;
R2 = soma dos postos atribuídos ao grupo cujo tamanho da amostra é n2;
d) o método para determinação da significância do valor observado de U depende do tamanho de n2:
U = n1.n2 - U
’ (8)
Para a realização do teste, considera-se o U de menor valor.
• se n2 8, uma tabela específica mostra a probabilidade exata p. Para um teste bilateral, duplicar o
valor de p. Se o valor de U não estiver na tabela usar U’.
• se 9 n2 20, utilizar uma tabela específica. Se U > (n1.n2)/2, deve ser interpretado com U’, então é
feita uma transformação usando-se a equação (8).
• se n2 > 20, a distribuição de U se aproxima da distribuição normal, então utilizar a equação:
( )( )
12
1nnnn
2
n.n
U
Z
2121
21
++
−
= (9)
Quando ocorrem muitos empates, aplicar a fórmula com correção:
( )
−
−
−
−
=
T
12
nn
1nn
n.n
2
n.n
U
Z
3
21
21
(10)
onde:
−
=
12
tt
T
3 ;
t = número de vezes que cada escore aparece empatado.
29
Regra de decisão:
a) Se o valor observado de U tem probabilidade associada maior do que (p > ), aceita-se H0.
b) Se o valor observado de U tem probabilidade associada ), rejeita-se
oH
.
Conclusão: O teste U de Mann-Whitney é empregado quando se deseja comprovar se duas amostras
independentes são provenientes da mesma população. É utilizado quando as variáveis se apresentam
no mínimo ao nível ordinal.
Exemplos do teste U de Mann-Whitney
1 - São apresentados, na Tabela 12, os minutos que amostras aleatórias de 15 homens e 12 mulheres
levaram para completar um teste escrito para renovação de sua carteira de motorista. Aplique o teste U
de Mann-Whitney para testar, ao nível de 5%, se existe diferença significativa entre os tempos que
homens e mulheres levam para completar o teste escrito, respectivamente.
TABELA 12 – Exemplo do teste U de Mann-Whitney
HOMENS MULHERES
9,9 8,6
7,4 10,9
8,9 9,8
9,1 10,7
7,7 9,4
9,7 10,3
11,8 7,3
7,5 11,5
9,2 7,6
10,0 9,3
10,2 8,8
9,5 9,6
10,8
8,0
11,0
Fonte: Freund & Simon (2000, p.347)
2 – Pretende-se avaliar se as distribuições dos consumos domésticos de energia elétrica por habitante
em duas regiões relativamente pobres não possuem diferença significativa. Na Tabela 13 apresentam-
se os dados referentes a consumos anuais por habitante, expressos em milhares de Kwh (baixa tensão),
para duas amostras aleatórias independentes, uma correspondendo a 10 consumidores de uma região
A, e a outra a 8 consumidores de outra região B.
30
TABELA 13 – Consumos anuais de energia elétrica de baixa tensão
(milhares de Kwh/habitante) nas regiões A e B.
Região A Região B
0,237 0,341
0,235 0,482
0,423 0,464
0,398 0,256
0,241 0,908
0,237 0,286
0,344 0,518
0,449 0,326
0,741
0,405
Fonte: Guimarães & Cabral (1998)
3.2 Teste exato de Fisher
Campos (1983) relata que, embora o teste do qui-quadrado seja o teste não-paramétrico mais
empregado parao caso de duas amostras independentes, não é apropriado para pequenas amostras.
Neste caso, utiliza-se o teste exato de Fisher. Este teste não-paramétrico é empregado na análise de
dados discretos (nominais ou ordinais) e os escores são representados por freqüências em tabela de
contingência 2x2, ver Tabela 14.
TABELA 14 – Tabela de contingência do teste exato de Fisher
- + Total
Grupo I A B A+B
Grupo II C D C+D
Total A+C B+D N
Os grupos I e II podem ser dois grupos independentes quaisquer (amostras). Os sinais – e +
indicam duas classificações quaisquer.
O teste determina se os dois grupos diferem na proporção em que se enquadram nas duas
classificações.
Pressuposições:
a) as amostras (grupos) são casuais e independentes;
b) as duas classes são mutuamente exclusivas.
Hipóteses:
oH
: Grupo I = Grupo II;
1H
: Grupo I Grupo II .
Procedimento:
a) enquadrar as freqüências observadas em uma tabela 2x2;
b) determinar os totais marginais. Cada conjunto de totais marginais tem como soma n (número de
casos independentes observados);
31
c) o método de decisão depende do tipo de probabilidade que se deseja.
Utilizar uma tabela específica para auxiliar no teste.
A probabilidade de observar determinado conjunto de freqüências em uma tabela 2x2, quando se
consideram fixos os totais marginais, é dada pela distribuição hipergeométrica:
( )
!D!C!B!A!n
)!DB()!CA()!DC(!BA
BA
n
B
DB
A
CA
p
++++
=
+
+
+
= (11)
Se uma das células tem freqüência zero é fácil de calcular. Mas se nenhuma freqüência é zero,
sob H0, podem ocorrer desvios mais extremos em relação à distribuição. Com os mesmos totais
marginais, tais desvios mais extremos devem ser levados em conta, pois, a questão é, sob H0: qual a
probabilidade de tal ocorrência ou de uma ocorrência ainda mais extrema?
Por exemplo, se o menor valor em uma célula é 2, deve-se determinar três probabilidades pela
fórmula acima e somá-las.
Regra de decisão: Se o valor de p dado pela equação anterior não superar o nível de significância ,
rejeita-se H0, caso contrário, aceita-se H0.
Conclusão: O teste exato de Fisher é empregado quando se deseja comprovar se dois conjuntos de
dados independentes provêm de uma mesma população e se representam populações que diferem em
locação (tendência central), por exemplo, se uma população possui menor mediana do que a outra.
Exemplo do teste exato de Fisher
1 - Num estudo sobre fecundidade de duas raças bovinas foram feitos acasalamentos, obtendo-se os
resultados da Tabela 15. Verifique se as duas raças diferem quanto à fecundidade, ao nível de 5%.
TABELA 15 – Exemplo do teste exato de Fisher
Acasalamentos
Fecundos Não fecundos Total
Raça A 3 7 10
Raça B 4 1 5
Fonte: Campos (1983, p.156)
4 Testes aplicáveis a k amostras relacionadas
Quando se compara três ou mais amostras ou condições, é necessário empregar um teste
estatístico que indique se existe uma diferença significativa entre as mesmas.
32
Para o caso de k amostras relacionadas, amostras de mesmo tamanho são colocadas em
correspondência segundo critérios que podem interferir nos valores das observações.
Em tais casos, utilizam-se provas estatísticas não-paramétricas correlatas à análise de variância
de classificação dupla ou plano de blocos completamente casualizados utilizado no caso paramétrico.
4.1 Teste de Friedman
Quando os dados de k amostras correspondentes se apresentam pelo menos a nível ordinal, ao
teste de Friedman é útil para comprovar a hipótese de nulidade, H0, de que as k amostras foram
extraídas da mesma população.
Este teste tem a mesma configuração de um delineamento em blocos casualizados, pareamento
para k amostras dispostas em blocos. O teste tem maior eficiência no caso de pequenas amostras. É um
teste F aplicado aos postos das observações dentro de cada bloco (linha). É uma extensão do teste
bilateral dos sinais.
Como as k amostras estão em correspondência, o número de casos é o mesmo em cada uma
delas. A correspondência pode ser estabelecida estudando-se o mesmo grupo de indivíduos sob cada
um dos k tratamentos. Ou então o pesquisador pode obter vários conjuntos, cada um deles consistindo
de k indivíduos em correspondência, associando em seguida, aleatoriamente, um indivíduo em cada
conjunto ao primeiro tratamento, um indivíduo em cada conjunto ao segundo tratamento, etc.
Pressuposições:
a) as k amostras são relacionadas;
b) as populações são aproximadamente da mesma forma e contínuas;
c) escala de mensuração pelo menos ordinal.
Hipóteses:
oH
: os tratamentos não diferem entre si;
1H
: pelo menos dois tratamentos diferem entre si.
Procedimento:
a) dispor os escores em uma tabela de dupla entrada com k colunas (tratamentos ou populações que
são aproximadamente da mesma forma e contínuas) e n linhas (grupos ou indivíduos)
independentes;
b) atribuir postos de 1 a k às observações em cada linha (bloco);
c) determinar a soma dos postos em cada coluna: Rj;
d) calcular o valor de
2
r
usando a equação:
( )
( ) ( )
=
+−
+
=
k
1j
2
j
2
r 1kn3R
1knk
12
(12)
onde: n = número de linhas (blocos) ou indivíduos;
k = número de colunas ou tratamentos;
33
Rj = soma dos postos atribuídos às observações do tratamento j, nas n linhas.
e) determinar a probabilidade de ocorrência, sob H0, associada ao valor observado de
2
r
, com auxílio
das tabelas específicas.
a) se houver empate nas ordenações, calcular a média dos postos;
b) sobre o poder do teste de Friedman, Siegel (1975) refere-se aos resultados alcançados por
Friedman como sendo, praticamente, os mesmos no caso em que são comparados com ao do teste
F (ANOVA).
Regra de decisão:
a) para amostras pequenas: k = 3, n = 2 a 9 e k = 4, n = 2 a 4, localizar na tabela específica a
probabilidade p de
2
r
: Se p , rejeita-se H0 e se p , aceita-se H0.
b) para amostras grandes utilizar a aproximação à distribuição do qui-quadrado (tabela do qui-
quadrado), com = k - 1 graus de liberdade: Se
2
r
2
v,
, rejeita-se H0, p e se
2
r
2
v,
,
aceita-se H0, p .
Conclusão: o teste de Friedman é empregado quando a variável se apresenta no mínimo em escala
ordinal. Este teste comprova se as k amostras relacionadas provêm de uma mesma população, de
acordo com os postos médios. O teste de Friedman apresenta a vantagem de dispor de tabelas de
probabilidades exatas para amostras muito pequenas.
Exemplo do teste de Friedman
1 - Num ensaio sobre adubação nitrogenada de alface, realizado pelo Professor Salim Simão, da E. S.
A. “Luiz de Queiroz”, foram considerados os seguintes tratamentos:
Tratamento 1: Testemunha
Tratamento 2: 5 g de salitre/10 litros de água
Tratamento 3: 10 g de salitre/10 litros de água
Tratamento 4: 20 g de salitre/10 litros de água
A adubação básica foi NPK e a adubação nitrogenada referida foi feita em cobertura. Os
resultados de produção (peso de 12 pés, em gramas) estão na Tabela 16. Verifique, pelo teste de
Friedman, com nível de significância de 5%, se houve resposta à adubação nitrogenada.
TABELA 16 – Exemplo do teste de Friedman
BLOCOS Tratamento 1 Tratamento 2 Tratamento 3 Tratamento 4
I 3.640 4.200 4.700 5.300
II 4.890 4.550 6.020 5.900
III 4.800 5.320 5.250 5.150
IV 4.460 5.500 5.580 5.560
Fonte: Campos (1983, p.238)
34
4.1.1 Comparações múltiplas para o teste de Friedman
As comparações múltiplas têm como objetivocomplementar os resultados ou as conclusões
obtidas pelo teste de Friedman, quando nele se rejeita H0; procurando localizar as possíveis diferenças
entre pares de tratamentos.
Obviamente, tais comparações são limitadas, pois permitem apenas confrontar os tratamentos
dois a dois, não sendo possível a comparação entre grupos de tratamentos.
a) Caso de pequenas amostras
Consideram-se
2
)1k(k −
pares de tratamentos e determina-se, para cada par, a diferença:
|Ri - Rj| (i = 1, 2, ..., k - 1) e (j = i + 1, ..., k)
onde: Ri e Rj representam as somas das ordens atribuídas aos tratamentos i e j, respectivamente, nos n
blocos.
A um nível de erro experimental , admite-se: ti tj, se |Ri - Rj| 1, isto é, a diferença mínima
significativa (d.m.s.), a um nível de significância , é:
d.m.s = 1, ou seja, P0 (|Ri - Rj| 1) =
Os valores de 1 (diferença mínima significativa) são obtidos por uma tabela específica.
b) Caso de grandes amostras
Quando o número de blocos, ou o número de tratamentos, ou ambos ultrapassam os valores
previstos na tabela para pequenas amostras, obtém-se a diferença mínima significativa através de:
12
)1k(nk
Q.s.m.d
+
=
(13)
onde: Q é o valor da amplitude, dado por uma tabela específica.
Exemplo de comparações múltiplas para o teste de Friedman, para o caso de grandes amostras
Admitindo-se um caso onde k = 5 e n = 16, no qual o teste de Friedman detectou diferença
significativa entre, pelo menos dois tratamentos, procede-se ao cálculo das comparações múltiplas para
verificar quais deles estão causando estas diferenças, de acordo com a soma de postos a seguir:
R1 = 28 R2 = 45 R3 = 41 R4 = 59 R5 = 67
Como não se dispõe de Tabela para 1, para n = 16, calculamos a d.m.s. pelo método apropriado
às grandes amostras. Admitindo-se = 5%, C é Q = 3,858 (obtido na tabela) e, conseqüentemente:
35
4,24
12
)6)(5(16
858,3.s.m.d ==
.
Por outro lado, tem-se:
|R1 - R2| = 17 |R1 - R3| = 13 |R1 - R4| = 31 |R1 - R5| = 39
|R2 - R3| = 4 |R2 - R4| = 14 |R2 - R5| = 22 |R3 - R4| = 18 |R3 - R5| = 26 |R4 - R5| = 8
Comparando os valores calculados para as diferenças, com o d.m.s = 24,4, conclui-se, ao nível
de 5%, que há diferença significativa entre os tratamentos: t1 t4 ; t1 t5 e t3 t5.
As comparações múltiplas podem ser facilmente, resolvidas usando-se uma planilha eletrônica,
conforme a mostrada na Figura 1, com a solução deste exemplo.
FIGURA 1 – Planilha eletrônica de comparações múltiplas de Friedman
5. Testes aplicáveis a k amostras independentes
Na análise de dados, freqüentemente, busca-se decidir se diversas variáveis independentes
podem ser consideradas como provenientes de uma mesma população. Para isso, são empregados
métodos estatísticos que comprovam a significância das diferenças entre k grupos de amostras
independentes.
5.1 Teste de Kruskal-Wallis
Este teste foi introduzido por Kruskal-Wallis em 1952, tendo por finalidade estabelecer um
confronto entre k amostras independentes, sendo um teste de postos.
O teste de Kruskal-Wallis é utilizado para comparar a hipótese de nulidade H0, de que k amostras
independentes provenham da mesma população ou de populações diferentes. Este teste é alternativo ao
teste F no campo paramétrico ou uma ANOVA com classificação simples.
Quando k = 2 amostras, este teste corresponde ao teste U de Mann-Whitney bilateral e, para mais
de 2 amostras (k>2), pode-se considerá-lo uma extensão do mesmo.
36
Pressuposições:
a) as observações são independentes;
b) dentro de uma amostra, todas as observações são provenientes da mesma população;
c) as k populações têm aproximadamente a mesma forma e são contínuas;
d) exige mensuração no mínimo ao nível ordinal.
Hipóteses: H0: os tratamentos não diferem entre si (t1 = t2 = ... = tk )
H1: pelo menos dois tratamentos diferem entre si.
Procedimento:
a) dispor, em postos, as observações de todos os k grupos em uma série, atribuindo-lhes postos de 1 a
n, em ordem crescente;
b) determinar o valor de Rj (soma de postos) para cada um dos k grupos de postos;
c) calcular a estatística H:
( )
( )
=
+−
+
=
k
1j j
2
j
1n3
n
R
1nn
12
H
(14)
onde: n = número total de dados;
nj = número de observações por amostra;
jR
= soma dos postos atribuídos às observações do tratamento j;
T
= somatório sobre todos os grupos de empates
d) se houver grande proporção de observações empatadas, calcular o valor de H dividido
por:
nn
T
1
3
g
1j
j
−
−
= ,
onde: g = número de grupos de empates;
j
3
jj ttT −=
;
tj = número de observações empatadas.
e) o método para determinar a significância do valor observado de H depende do tamanho de k e do
tamanho dos grupos:
• se k = 2, emprega-se o teste bilateral de U de Mann-Whitney;
• se k = 3 e n1, n2, n3 5, pode-se utilizar uma tabela específica para determinar a probabilidade
associada, sob H0, de um H tão grande quanto o observado;
• em outros casos, a significância de um valor tão grande quanto o valor observado de H, pode
ser determinada mediante a tabela do qui-quadrado, com = k-1, pois, a medida que os
s'n j
crescem, a distribuição de H tende à distribuição do qui-quadrado com k-1 graus de liberdade
(k>3 e nj>6).
37
Regra de decisão: Se a probabilidade associada ao valor observado de H não superar o nível de
significância , rejeita-se H0 e p .
Se a probabilidade associada ao valor observado de H superar o nível de significância , aceita-
se H0 e p > .
Conclusão: O teste de Kruskal-Wallis é empregado quando a variável se apresenta no mínimo em
escala ordinal. Este teste comprova se k amostras independentes podem ter sido extraídas de uma
mesma população, através da conversão dos escores em postos, preservando plenamente a magnitude
dos escores. Neste teste, todas as informações contidas nas observações são utilizadas.
Exemplo do teste de Kruskal-Wallis
1 - Numa pesquisa sobre qualidade de vinho, foram provados três tipos, por cinco degustadores. Cada
degustador provou doze amostras (quatro de cada tipo) e atribuiu a cada uma delas uma nota de zero a
dez. As médias das notas atribuídas pelos cinco degustadores a cada uma das amostras estão na Tabela
17. Verificar se há preferência dos degustadores por algum dos tipos de vinho, ao nível de 5%.
TABELA 17 - Exemplo do teste de Kruskal-Wallis
Tipo 1 Tipo 2 Tipo 3
5,0 8,3 9,2
6,7 9,3 8,7
7,0 8,6 7,3
6,8 9,0 8,2
Fonte: Campos (1983, p.221)
5.1.1 Comparações múltiplas para o teste de Kruskal-Wallis
O método das comparações múltiplas é aplicado como uma complementação do teste de
Kruskal-Wallis, quando rejeita-se H0, ou seja, admite-se que, pelo menos dois tratamentos diferem
entre si. As comparações múltiplas identificam quais os tratamentos que diferem significativamente.
a) Caso de pequenas amostras
Para cada par i e j de tratamentos, determina-se o módulo das diferenças:
|Ri – Rj|, para i = 1, 2, ..., k-1 e j = i+1, ..., k.
onde: Ri e Rj representam as somas das ordens (postos) atribuídas aos tratamentos i e j
respectivamente, na classificação conjunta das N observações, referentes aos k tratamentos. No caso de
empates, utilizam-se as ordens médias:
38
i
i
i
n
R
R =
e
j
j
j
n
R
R =
A diferença mínima significativa (d.m.s.) a um nível de erro experimental , segundo a qual se
admite ti tj é:
a) d. m. s. = , para n1 = n2 = ... = nk = n, onde: P0 (|Ri – Rj| ) = . Estes valores de encontram-se
tabelados.
b)
h)
n
1
n
1(
12
)1N(N
.s.m.d
ji
+
+
=
, para o caso de diferentes números de repetições entre os k
tratamentos;
onde: h é o limite dado por tabela específica para o teste de Kruskal-Wallis;
ni e nj são os números de repetições dos tratamentos i e j, respectivamente.
Exemplo de comparações múltiplas do teste de Kruskal-Wallis seguindo o exemplo anterior.
Para verificar entre quais tipos de vinho ocorrem diferenças, determinam-se as diferenças:
273710RR 21 =−=− ; 213110RR 31 =−=− ; 63137RR 32 =−=−
O valor de = 27 é obtido em tabela ao nível 0,011, para n = 4, k = 3. Conclui-se, então, que ao
nível = 0,011, existe diferença significativa entre os vinhos “1” e “2”, indicando preferência por este
último, observando-se o valor absoluto das diferenças. As outras diferenças não são significativas.
b) Caso de grandes amostras
Determinam-se as diferenças |Ri – Rj| e, a um nível , as diferenças mínimas significativas
segundo as quais ti tj são:
a)
12
)1N(k
Q
12
)1kn(k
Q.s.m.d
+
=
+
=
, para n1 = n2 = ... = nk = n. Os valores de Q estão tabelados;
b)
)
n
1
n
1
(
12
)1N(N
z.s.m.d
ji
)]1k(k[ +
+
= −
, no caso de tratamentos não igualmente repetidos.
onde:
)]1k(k[z −
é um limite superior da distribuição normal.
Nos casos não previstos na tabela, pode-se realizar o teste de comparações múltiplas,
escrevendo-se a fórmula adequada numa planilha eletrônica, como exemplificado anteriormente.
5.2 Teste de independência do qui-quadrado: tabela de contingência
Uma importante aplicação do teste do
2
ocorre, quando se deseja estudar as relações entre duas
ou mais variáveis de classificação. A representação das freqüências observadas, neste caso, pode ser
39
feita por meio de uma tabela de contingência. Considerando-se dois critérios de classificação h x k, em
que as freqüências observadas ocupam h linhas e k colunas.
A cada freqüência observada na tabela de contingência, tem-se uma freqüência esperada, que
será calculada com base na hipótese H0, de acordo com as regras das distribuições conjuntas de
probabilidade.
O pesquisador aqui está interessado em testar o grau de associação entre as variáveis, então as
hipóteses serão da seguinte forma:
Hipóteses:
oH
: as variáveis são independentes;
1H
: as variáveis não são independentes, ou seja, elas apresentam algum grau de associação
Pressuposições:
a) cada classificação deve ser independente de qualquer outra classificação (nenhum evento deve ser
computado em mais de uma célula);
b) quando n > 40, utilizar o
2
com correção de Yates;
c) quando 20 < n < 40, utilizar o
2
com correção de Yates se todas as
ife
’s > 5;
d) para investigar a concordância entre freqüências observadas e freqüências esperadas, utiliza-se a
estatística:
( )
= =
−
=
h
1i
K
1j ij
2
ijij2
c
fe
fefo (15)
onde: = (h-1).(k-1) graus de liberdade;
h = número de linhas;
k = número de colunas.
A restrição
ijfe
5 também deve ser atendida. Para tabelas 2x2, nos casos em que 20 < n < 40,
com
ijfe
< 5, utilizar o teste exato de Fisher.
Regra de decisão: Se
2
c
2
,
, aceita-se H0, p e se
2
c
2
,
, rejeita-se H0, p .
Conclusão:
5.2.1 Correção de Yates ou correção de continuidade
Quando as amostras são pequenas pode acontecer que a freqüência esperada de alguma célula
seja menor do que 5. Considerando-se uma tabela de contingência 2x2, o número de graus de liberdade
é =1 e portanto, não se pode fazer qualquer reagrupamento de dados. Em tal caso deve-se usar a
fórmula devida a Yates.
40
( )
=
−−
=
K
1i i
2
ii2
c
fe
5,0fefo (16)
Exemplo do teste de independência do qui-quadrado
1 - Em determinado estudo com 100 fumantes (expostos) e 90 não-fumantes (não expostos/controles)
em relação a ocorrência de infarto do miocárdio (IM) apresentou os resultados da Tabela 18. Verificar
se existe associação entre a exposição (fumo) e o infarto do miocárdio (desfecho) para um nível de
significância de = 5%?
TABELA 18 - Ocorrência de infarto relacionado ao uso de tabaco
Infarto do miocárdio
Presença Ausência Total
Fumantes 17 83 100
Não-fumantes 6 86 90
Total 23 167 190
Fonte: Motta (2002, p. 194)
5.2.2 Complementação do teste de associação ou independência
Exemplo: Vieira e Prolla (1979) estudaram uma amostra de 384 pacientes com problemas pulmonares,
classificando-os segundo a presença ou não de eosinófilos no escarro e o tipo de pneumopatia
diagnosticada. Poder-se-ia perguntar: “Constituem os dados obtidos evidencia suficiente de associação
entre estas duas variáveis?”.
TABELA 19 - Presença de eosinófilos no escarro e tipo de doença pulmonar em 384 pacientes Porto-
alegrenses
GRUPO QUANTO AO TIPO DE PNEUMOPATIA*
Eosinófilos no escarro Grupo 1 Grupo 2 Grupo3 Grupo4 Total
Sim
Não
142 (72%)
55 (28%)
26 (58%)
19 (42%)
32 (44%)
41 (56%)
28 (41%)
41 (59%)
228 (59%)
156 (41%)
Total 197 (100%) 45 (100%) 73 (100%) 69 (100%) 384
*Grupo 1: asma; Grupo 2: bronquite crônica com broncoespasmo; Grupo 3: bronquite crônica ou enfisema sem
broncoespasmo; Grupo 4: outras doenças pulmonares.
Análise de resíduos em tabelas l x c
A análise de resíduos é usada como auxiliar na interpretação de dados organizados em tabelas
LxC. Por seu intermédio, é possível avaliar como as diferentes caselas contribuírem para o valor χ2calc.
41
Calcula-se inicialmente o resíduo padronizado (Rp) para cada casela:
E
EO
Rp
−
=
A seguir, cada resíduo deve sofrer uma correção, passando a denominar-se resíduo ajustado
(Raj):
−
−
=
TG
TL
TG
TC
R
R
p
aj
11
onde: TC: total da coluna correspondente à casela;
TL: total da linha correspondente à casela;
TG: total geral.
Finalmente, os valores de Raj são comparados com valores críticos da distribuição normal, por
exemplo, Z = 1,96 para um nível de 0,05 de significância. Se Raj for maior do que Zα, conclui-se que o
valor observado na casela (O) desvia-se significativamente (para mais ou para menos, conforme o sinal
de Raj) do valor esperado (E).
Os resíduos ajustados obtidos para os dados da Tabela 19 estão apresentados na Tabela 20. Na
primeira casela, o resíduo ajustado foi obtido do seguinte modo:
( ) 311,2
0,117
0,117142
1;R p +=
−
=
−
=
E
EO
gruposim
( ) 20,5
384
228
1
384
197
1
311,2
11
1;R aj +=
−
−
+
=
−
−
=
TG
TL
TG
TC
R
gruposim
p
Como Raj = | +5,20| > Z0,05 = 1,96, conclui-se que o número de asmáticos que apresentam
eosinófilos no escarro foi significativamente maior (pois Raj é positivo) do que o esperado se as
variáveis fossem independentes. Portanto, existe associação positiva entre asma e presença de
eosinófilos no escarro.
A interpretação dos demais resíduos ajustados é feita do mesmo modo, após compará-los com o
Zα. Por exemplo, no Grupo 3 a freqüência de indivíduos com eosinófilos no escarro é
significativamente menor do que o esperado ao acaso (|Raj = -3| > 1,96).
42
TABELA 20 - Resíduos ajustados (Raj) obtidos para os dados da Tabela 19. Os
valores em negrito são significativos ao nível 0,05
QUANTO AO TIPO DE PNEUMOPATIA*
Eosinófilos no escarro Grupo 1 Grupo 2 Grupo3 Grupo4
Sim
Não
5,20
-5,20
-0,230,23
-3,00
3,00
-3,51
3,51
*Grupo 1: asma; Grupo 2: bronquite crônica com broncoespasmo; Grupo 3: bronquite crônica
ou enfisema sem broncoespasmo; Grupo 4: outras doenças pulmonares.
Na Tabela 20 há seis resíduos significativos. Combinando este resultado com as percentagens
observadas na Tabela 20, a conclusão geral é a de que indivíduos com eosinófilos no escarro são mais
freqüentes entre asmáticos (72%) e menos comuns em pacientes dos Grupos 3 (44%) e 4 (41%). Em
pacientes do Grupo 2, a percentagem de pessoas com eosinófilos no escarro (58%) não difere
significativamente daquela observada para o total da amostra (59%).
5.2.3 Condições para o uso do χ2
O teste χ2 deve ser realizado com freqüências observadas absolutas, isto é, número de casos.
Informações na forma de percentagens somente podem ser utilizadas modificando-se a fórmula de
cálculo do χ2.
Além disso, é necessário lembrar que a distribuição teórica do χ2 é uma distribuição contínua de
valores. Quando gl = 1 (tabelas 2x2), porém, a distribuição empírica do χcal2 não se aproxima
suficientemente da distribuição teórica do χ2 para permitir testes adequados. Para aproximar melhor
estas duas distribuições, usa-se a correção para continuidade proposta por F. Yates.
Finalmente, o uso da distribuição teórica do χ2 pressupõe que os valores esperados fei não sejam
excessivamente pequenos. Classicamente, as exigências relativas a este aspecto eram:
(1) O total da amostra devia ser superior a 25 (ou 30, segundo alguns autores).
(2) No máximo 20% dos valores esperados nas categorias (fei) poderiam ser inferiores a 5 e nenhum
fei poderia ser menor do que 1.
Estudos recentes, porém, sugerem que estas exigências quanto às freqüências esperadas são
rigorosas demais, sendo que muitos valores de fei podem ser iguais a 1 sem afetar de modo importante
o teste (ver, por exemplo, revisões em Everitt, 1992; p. 470 e 504). Assim, uma abordagem mais
moderna respeitaria as seguintes condições:
(1) Em testes de ajustamento (tabelas de entrada única):
43
(a) Tabelas com apenas duas categorias (k = 2): fei deve ser ≥ 5,0 cada categoria e usa-se a correção
de Yates para o cálculo do χcal2. Se alguma fei < 5,0 é preferível obter diretamente o valor de p
associado ao teste de hipóteses pela distribuição binominal.
(b) Tabelas com k > 2 e todas as fei’s iguais: para testes usando α = 0,05, os valores de fei devem ser
≥ 1,0; para α = 0,01, fei ≥ 2,0.
(c) Tabelas com k > 2 e fei’s diferentes: aplica-se o teste χ2 se forem satisfeitas três exigências: n
10 e n 2 /k 10 e n/k 2 para testes com α = 0,05 (para α = 0,01, a última exigência fica n/k
4).
(2) Em tabelas de contingência (dupla entrada):
(d) Tabelas 2x2 (com duas linhas e duas colunas): nenhuma fei pode ser < 5,0. Além disso, deve-se
utilizar a correção de Yates no cálculo do χcal2. Se a fei mínima não for alcançada, usar o teste
exato de Fisher.
(e) Tabelas 2xC (duas linhas e duas colunas): o χ2 pode ser calculado se todas as fei 1,0.
(f) Tabelas LxC (com mais de duas linhas e mais de duas colunas): o teste χ2 é um procedimento
seguro se a fei média for 6,0 ou maior para testes com α = 0,05, e 0,10 ou maior para testes com
α = 0,01. A fei média pode ser obtida dividindo-se o total de indivíduos estudados pelo número
de caselas.
Observações:(1) Já foi sugerido que o teste G, baseado na razão de verossimilhanças, fosse usado
como uma alternativa para solucionar o problema dos “esperados pequenos”, mas os autores não são
unânimes em preferi-lo como substituto do χ2 neste caso.
(2) Com o moderno desenvolvimento dos computadores pessoais e programas
estatísticos, não é difícil, obter atualmente, o nível crítico amostral exato do χcal2 para amostras que
apresentam valores da fei pequenas demais.
5.2.4 Fórmula alternativa para o cálculo do χ2 em tabelas 2x2
Em tabelas 2x2, podem-se indicar as caselas por A, B, C, D e o total geral por N. O χ2 para
tabelas desse tipo, com correção de Yates, pode ser obtido pela fórmula a seguir, computacionalmente
mais conveniente (não se esqueça de verificar antes se existe alguma fei < 5). Para um cálculo sem a
correção de Yates, retira-se do numerador a quantidade N.
)DB)(CA)(DC)(BA(
2
N
BCADN
2
2
Yates
++++
−−
=
44
A correção de Yates melhora bastante a aproximação da distribuição amostral do qui-quadrado.
6. Correlação ordinal de Spearman
Simbologia: População (s); Amostra (rs)
De todas as estatísticas baseadas em postos, o coeficiente de correlação por postos de Spearman
foi a que surgiu primeiro. Esta estatística é uma medida de associação a nível não-paramétrico e exige
que ambas as variáveis se apresentem em escala de mensuração pelo menos ordinal, de modo que os
valores das variáveis em estudo possam dispor-se em postos em duas séries ordenadas.
Resumo do procedimento:
1) Atribuir postos à variável X, de 1 a N. Atribuir postos, de 1 a N, também a variável Y;
2) Obter o valor de di, (a diferença entre os postos de cada par (xi, yi)), di=xi-yi;
3) Elevar cada di ao quadrado e somar os N casos, obtendo
=
N
1i
2
id
;
Obs: Se a proporção de empates na variável X ou na variável Y é grande, calcular rS pela fórmula:
r
X Y d
X Y
onde X
N N
T
Y
N N
T
t t
S X
Y
T
=
+ −
=
−
−
=
−
−
=
−
2 2 2
2 2
2
3
2
3
3
2 12
12
12
onde: t = número de observações empatadas em determinado posto;
T = fator de correção para empates.
Quando não há empates:
12
)NN(
YX
3N
1i
2
N
1i
2 −==
==
substituindo na equação (1) resulta na
equação (2).
Caso contrário, quando não houver empates, aplicar a fórmula:
NN
d6
1r
3
N
1i
2
i
S
−
−=
= (2)
45
onde: N = número de pares;
di = diferença entre os postos de cada par de dados.
O campo de variação do coeficiente: -1 rs +1
4) Se os indivíduos constituem uma amostra aleatória de uma população, pode-se comprovar se o valor
observado de rS indica a existência de associação entre as variáveis X e Y na população. O método
depende do tamanho de N.
Hipóteses: H0: ρS = 0 (não há correlação)
H1: ρS ≠ 0 (há correlação)
a) Para N de 4 a 50, uma tabela específica unidimensional dá os valores críticos de rS para os níveis de
significância 0,0005 a 025 (teste unilateral). Se rS ≥ rα, rejeita-se H0, p ≤ α;
b) Para N > 10, pode-se determinar a significância de um valor de t associado àquele valor (pela
fórmula abaixo), e determinando em seguida a significância de tal valor de t com auxílio da tabela de
valores críticos de t de Student, com = N - 2 gl.
Estatística calculada:
( )21
2
S
S
r
N
rt
−
−
=
Obs: Este teste é o mesmo utilizado para testar a significância do coeficiente de correlação de Pearson.
O cálculo do coeficiente de correlação com base nos postos pode ser utilizado como alternativa ao
cálculo com base nos valores de suas variáveis quantitativas (Pearson) por uma questão de facilidade,
desde que não se tenha muita exigência quanto ao rigor.
46
III - PROCEDIMENTOS BÁSICOS PARA USO DO PROGRAMA COMPUTACIONAL
STATISTICA
O banco de variáveis pode ser construído em outros programas computacionais e importado para
o STATISTICA ou então, construído diretamente no mesmo. Abrindo o programa aparecerá a seguinte
tela:
FIGURA 2 – Janela de seleção das análises estatísticas
Deve-se clicar em switch to paraabrir as telas correspondentes à análise estatística escolhida. No
STATISTICA, o banco de dados é criado acessando file/new data na barra principal de ferramentas. O
programa solicita que se escolha o nome do arquivo para salvar, antes da digitação dos dados na
planilha, conforme a figura:
FIGURA 3 - Janela de seleção de arquivos
47
A seguir aparecerá uma tela (matriz) com 10 linhas e 10 colunas. As colunas correspondem às
variáveis e as linhas correspondem aos casos (OBSERVAÇÕES).
FIGURA 4 – Planilha de dados
O ajuste do número de variáveis e/ou casos pode ser efetuado acionando os botões vars e/ou
cases da barra principal de ferramentas. As opções add e delete, permitem adicionar e eliminar
variáveis e/ou casos, respectivamente, conforme a figura.
FIGURA 5 – Janela de seleção de modificações nas variáveis e casos
Para nomear a variável, basta clicar duas vezes no cabeçalho da coluna correspondente. Após a
abertura da tela a seguir, preencher com o nome desejado e clicar em ok.
48
FIGURA 6 – Janela de formatação das variáveis
Esta janela possibilita ainda, escolher o número de casas decimais, a categoria da variável,
modificar a variável, etc.
1. Resolução dos testes não paramétricos utilizando o programa computacional STATISTICA
Exemplo do teste do qui-quadrado de aderência (ex 1 – pag 13)
Hipóteses:
oH
: a distribuição é uniforme;
1H
: a distribuição não é uniforme.
Para distribuição uma uniforme:
ife
=
12
348
= 29
TABELA 19 – Freqüências observadas e esperadas do teste do qui-quadrado
mês jan fev mar abr mai jun jul ago set out nov dez total
fo 38 32 29 30 19 17 34 24 31 26 36 32 348
ife
29 29 29 29 29 29 29 29 29 29 29 29 348
Para a realização do teste, seleciona-se, no módulo principal do STATISTICA, a opção:
nonparametrics/distrib., conforme a seguinte janela do programa:
49
FIGURA 7 – Janela de seleção das análises estatísticas
Seleciona-se: observed versus expected
2
e clica-se em OK.
FIGURA 8 – Janela de seleção dos testes não-paramétricos (observed versus expected
2
)
A janela com a entrada dos dados é mostrada a seguir.
50
FIGURA 9 – Planilha de dados para o teste qui-quadrado
A figura 9 mostra a caixa de seleção de variáveis e comandos para o teste do
2
. Selecionam-se
as variáveis clicando-se duas vezes sobre variables e em OK.
FIGURA 10 – Janela de seleção das variáveis para o teste qui-quadrado
Os resultados obtidos podem ser observados na janela a seguir:
FIGURA 11 – Janela de resultados do teste qui-quadrado
51
O valor calculado é
2
c
= 15,72 e pela Tabela do qui-quadrado o valor tabelado é
2
,
(11; 0,05)
= 19,68. Como o
2
c
é menor que o
2
,
, aceita-se
oH
, ou seja, a data do nascimento segue uma
distribuição uniforme ao longo do ano. De outra forma, observa-se que p > (0,10 < p < 0,151750).
Exemplo do teste Kolmogorov-Smirnov (ex 1 – pag 15)
Para proceder ao teste de Kolmogorov-Smirnov com o objetivo de testar a normalidade dos
dados, seleciona-se analysis e ok, na barra principal de ferramentas; depois frequency tables e ok,
selecionando nesta janela k-s test, mean/std.dv know e ok, conforme a figura a seguir:
FIGURA 12– Janela de seleção do teste de Kolmogorov-Smirnov
FIGURA 13 – Janela de resultados do teste de Kolmogorov-Smirnov
De acordo com os resultados obtidos, a variável peso segue uma distribuição normal (p > ). No
entanto, de acordo com o resultado do STATISTICA, o teste rejeita H0, ao nível de 10% (0,05 < p <
52
0,10), não aceitando a normalidade dos dados. No caso de fixarmos = 5%, o teste aceitaria H0. Cabe
ao pesquisador definir o nível de significância desejado.
Pode-se destacar que, entre os dados, há um grupo de crianças prematuras, provocando um
desvio na distribuição da estatura.
Exemplo do teste de Lilliefors (ex 1 – pag 17)
Para proceder ao teste de Lilliefors será usado o mesmo exemplo anterior do teste de
Kolmogorov-Smirnov. Aqui, seleciona-se Lilliefors test, mean/std.dv unknow e ok.
FIGURA 14 – Janela de resultados do teste de Lilliefors
De acordo com os resultados obtidos para a variável peso, aceita-se H0, ou seja, a mesma segue
uma distribuição normal (p > 0,05). No entanto, para a variável estatura, rejeita-se h0 (p < 0,01), ao
nível de 5%, ou seja, a estatura não segue uma distribuição normal.
Exemplo do teste de McNemar
Hipóteses:
oH
: a campanha não foi eficiente;
1H
: a campanha foi eficiente.
A Figura seguinte mostra a caixa de seleção de variáveis e comandos para o teste de McNemar.
FIGURA 15 – Janela de seleção dos testes não-paramétrico (McNemar)
53
FIGURA 16 – janela de entrada dos dados para o teste de McNemar
FIGURA 17 – janela de resultados do teste de McNemar
O valor calculado é
2
c
= 5,06 e o tabelado é
2
,
(1; 0,05) = 3,84. Como
2
c
>
2
,
ou, rejeita-
se
oH
, ou seja, a campanha foi eficiente. De outra forma, observa-se que p < (p = 0,0245).
Exemplo do teste dos sinais (ex 1 – pag 24)
Hipóteses:
oH
: o método antigo é igual ao método novo;
54
1H
: método antigo difere do método novo.
FIGURA 18 – Janela de seleção dos testes não-paramétricos (Sign test)
A Janela com os dados para a realização do teste dos sinais é mostrada a seguir:
FIGURA 19 – Planilha de dados para o teste dos sinais
A figura seguinte mostra a caixa de seleção de variáveis e comandos para o teste dos sinais.
55
selecionam-se as variáveis clicando-se duas vezes em Variables e OK.
FIGURA 20 – Janela de seleção das variáveis para o teste dos sinais
Os resultados obtidos podem ser observados a seguir:
FIGURA 21 – Janela de resultados do teste dos sinais
Como p = 0,0771 é maior que 0,05, aceita-se Ho, ou seja, não há evidências significativas de que
o método antigo e o método novo diferem entre si.
Exemplo do teste de Wilcoxon (ex 1 – pag 26)
Hipóteses:
oH
: a dieta não é eficaz;
1H
: a dieta é eficaz.
A figura seguinte mostra a janela na qual seleciona-se Wilcoxon matched pairs test e clica-se em
OK.
FIGURA 22 – Janela de seleção dos testes não-paramétricos (Wilcoxon matched pairs test)
A janela com a entrada, adequada, dos dados é mostrada a seguir:
56
FIGURA 24 - Planilha de dados para o teste de Wilcoxon
Selecionam-se as variáveis clicando-se duas vezes sobre Variables e em OK.
FIGURA 25 – janela de seleção das variáveis para o teste de Wilcoxon
Os resultados obtidos podem ser observados a seguir:
FIGURA 26 – Janela de resultados do teste de Wilcoxon
Como p< (p = 0,026191), rejeita-se
oH
, ou seja, não há evidências significativas de que a dieta
não seja eficaz.
Exemplo do teste U de Mann-Whitney (ex 1 – pag 30)
Hipóteses:
oH
: não há diferença significativa entre os tempos que homens e mulheres levam para
completar o teste;
57
1H
: há diferença significativa entre os tempos que homens e mulheres levam para
completar o teste.
A Figura 27 mostra a janela com os testes Não-paramétricos disponíveis no programa. seleciona-
se Mann-Whitney U test e clica-se em OK.
FIGURA 27 – Janela de seleção dos testes não-paramétricos(Mann-Whitney U test)
A Figura 28 mostra a caixa de seleção de variáveis e comandos para o teste U. Selecionam-se as
variáveis clicando-se duas vezes sobre Variables e em OK.FIGURA 28 – Janela de seleção das variáveis para o teste U de Mann-Whitney
A janela com a entrada dos dados é mostrada na Figura 29.
58
FIGURA 29 – Planilha de dados para o teste U de Mann-Whitney
Os resultados obtidos podem ser observados na Figura 30.
FIGURA 30 – Janela de resultados do teste U de Mann-Whitney.
Como p>, aceita-se
oH
, ou seja, não há evidências significativas de que os tempos que homens
e mulheres levam para completar o teste diferem (p = 0,922258).
Exemplo do teste exato de Fisher (ex 1 – pag 33)
Hipóteses:
oH
: as duas raças não diferem quanto à fecundidade;
1H
: as duas raças diferem quanto à fecundidade.
A Figura seguinte mostra a janela com os testes não-paramétricos disponíveis no programa.
Seleciona-se 2x2 Tables X2, V2, Phi2, McNemar, Fisher exact e clica-se em OK.
59
FIGURA 31 – Janela de seleção dos testes não-paramétricos (Fisher Exact)
A figura seguinte mostra a caixa de entrada dos dados da tabela de freqüências das variáveis.
Digitam-se os valores das freqüências observadas e clica-se em OK.
FIGURA 32 – Janela de entrada dos dados para o teste exato de Fisher
Os resultados obtidos podem ser observados na Figura 33, a seguir.
60
FIGURA 33 – Janela de resultados do teste exato de Fisher
Como p>, aceita-se
oH
, ou seja, as raças bovinas não diferem quanto à fecundidade. (p=
0,1189)
Exemplo do teste de Friedman (ex 1 – pag 36)
Hipóteses:
oH
: todos os tratamentos são iguais (t1 = t2 = t3 = t4);
1H
: pelo menos dois tratamentos diferem entre si.
A Figura 34, a seguir, mostra a janela com os testes não-paramétricos na qual seleciona-se
Friedman ANOVA & kendall’s concordance e clica-se em OK.
FIGURA 34 – Janela de seleção do teste de Friedman
61
A janela com a entrada dos dados é mostrada a seguir:
FIGURA 35 – Planilha de dados para o teste de Friedman
A Figura seguinte mostra a caixa de seleção de variáveis e os comandos para a realização do
teste de Friedman. Selecionam-se as variáveis clicando-se duas vezes sobre Variables e em OK.
FIGURA 36 – Janela de seleção das variáveis para o teste de Friedman
Os resultados obtidos podem ser observados na Figura seguinte.
62
FIGURA 37 – Janela de resultados do teste de Friedman
O valor calculado de
2
r
= 6,90 é menor que o valor tabelado
2
,v
= 7,50, aceitando-se
oH
, ao
nível de 5%, ou seja, os tratamentos não diferem entre si; p< 0,07518.
Exemplo do teste de Kruskal-Wallis (ex 1 pag 41)
Hipóteses:
oH
: não há preferência dos degustadores por algum dos tipos de vinhos;
1H
: há preferência dos degustadores por algum dos tipos de vinhos
Para a realização dos testes não-paramétricos, a opção de estatística não-paramétrica pode ser
escolhida no módulo principal do programa STATISTICA. A Figura 38 mostra a janela com os testes
Não-paramétricos na qual seleciona-se o Kruskal-Wallis ANOVA, median test e clica-se em OK.
FIGURA 38 – Janela de seleção dos testes não-paramétricos (Kruskal-Wallis ANOVA)
63
A Figura 39 mostra a caixa de seleção de variáveis e os comandos para o teste de Kruskal-
Wallis, a qual mostra o teste da mediana, simultaneamente. Selecionam-se as variáveis: dependente e
independente, clicando-se duas vezes sobre variables e em OK.
FIGURA 39 – Janela de seleção das variáveis para o teste de Kruskal-Wallis
FIGURA 40 - Janela de seleção de códigos para o teste de Kruskal-Wallis
A janela com a entrada dos dados é mostrada a seguir:
FIGURA 41 - Planilha de dados para o teste de Kruskal-Wallis
Os resultados obtidos podem ser observados nas seguintes figuras:
64
FIGURA 42 – Janela de resultados do teste da mediana
FIGURA 43 – Janela de resultados do teste de Kruskal-Wallis
Aplicando-se o teste de Kruskal-Wallis, o valor, no qual rejeita-se H0, com
4nnn 321 ===
e
h = 7,731 é = 0,007. Pode-se então, concluir que, pelo menos, dois tratamentos diferem entre si.
De outra forma, como p<, a hipótese H0 será rejeitada, ou seja, há evidência significativa de
que os degustadores têm preferência por algum dos tipos de vinhos (p = 0,0210).
Exemplo do teste de independência do qui-quadrado (ex 1 – pag 44)
Hipóteses: H0: não existe associação entre o fumo e o infarto do miocárdio (independência entre as
variáveis);
H1: existe associação entre o fumo e o infarto do miocárdio (associação entre as variáveis).
Para a realização do teste, seleciona-se no modulo principal do STATISTICA, a opção:
nonparametrics/distrib. e clica-se em switch to.
Seleciona-se: 2x2 tables x2/v2/phi2, Mcnemar, Fisher exact e clica-se em ok, conforme a Figura
44.
65
FIGURA 44 – Janela de seleção dos testes não-paramétricos (2x2 tables 2)
A janela com a entrada dos dados para o teste é mostrada a seguir.
FIGURA 45 – Janela de entrada dos dados para o teste do qui-quadrado
Os resultados obtidos podem ser observados na figura seguinte.
FIGURA 46 – Janela de resultados do teste do qui-quadrado
66
O valor calculado de
2
c
= 4,75 e o valor tabelado de
2
,
(1; 0,05) = 3,84. Como
2
c
é maior que
o
2
,
, rejeita-se H0, ou seja, aceita-se a hipótese de associação entre os fumantes e o infarto do
miocárdio, ao nível de 5%; p< (p = 0,0292).
BIBLIOGRAFIA
1. Siegel, Sidney; Castellan, N. John Jr.. Estatística não-paramétrica para ciências do comportamento.
Porto Alegre: Artmed, 2006.
2. Campos, Humberto de - Estatística experimental não-paramétrica.4ª Ed., Piracicaba, 1983.
3. Callegari-Jacques, Sidia M. Bioestatística: princípios e aplicações. Porto Alegre: Artmed, 2003.
4. IATROS – Estatística e pesquisa científica para profissionais de saúde. Disponível em:
www.vademecum.com.br/iatros/testes.htm