Buscar

Unidade 3 - Estatística aplicada à saúde

Prévia do material em texto

ESTATÍSTICA APLICADA À SAÚDEESTATÍSTICA APLICADA À SAÚDE
ANÁLISE DA VARIÂNCIAANÁLISE DA VARIÂNCIA
(ANOVA) E TESTES NÃO(ANOVA) E TESTES NÃO
PARAMÉTRICOSPARAMÉTRICOS
Au to r ( a ) : M e . M a rc e l o Tava re s d e L i m a
R ev i s o r : R e n a t a C r i s t i n a d e S o u z a C h a t a l ov
Tempo de leitura do conteúdo estimado em 1 hora e 15 minutos.
Introdução
Prezado(a) estudante, seja bem-vindo(a) a esta leitura textual. Iremos apresentar os testes
ANOVA e não paramétricos. O primeiro é um teste de hipóteses estatísticas, utilizado em
pesquisas para comparar várias médias, ou seja, três ou mais. Essas médias podem ser oriundas
de grupos independentes ou dependentes, no entanto iremos abordar apenas os casos de
grupos independentes. A intenção é testar medidas populacionais a partir do uso de amostras
aleatórias. Também apresentaremos exemplos em que serão descritos os cálculos matemáticos
e a aplicação no programa computacional SPSS. O segundo teste a ser desenvolvido será o teste
não paramétrico, utilizado como alternativa para o teste T quando os pressupostos não são
garantidos. Além disso, serão apresentados exemplos e aplicações no SPSS. Desejamos a você
uma excelente leitura.
O objetivo da análise de conglomerados, também conhecida como análise de agrupamentos ou
de cluster, é particionar um conjunto de dados em grupos que são internamente homogêneos e
externamente distintos, ou seja, segmentar ou agrupar em grupos menores (subgrupos). A
classi�cação é realizada com base em uma medida de similaridade ou dissimilaridade dentro e
entre os grupos.
Análise de Variância
(ANOVA)
#PraCegoVer: o infográ�co interativo, que tem como título “Análise de variância”, apresenta como plano
de fundo a ilustração de vários documentos, planilhas, grá�cos, tabelas e um notebook. Acima desses
elementos, aparecem mãos que parecem estar analisando os documentos. O infográ�co também
apresenta quatro botões interativos, com seus respectivos subtítulos, que, ao serem clicados,
expandem um texto. O primeiro botão interativo tem como título: “O que é?”. Ao ser clicado, surge o
seguinte texto: “‘Análise de variância (comumente abreviada por ANOVA, da expressão em inglês
analysis of variance) é um conjunto de modelos estatísticos utilizados para comparação entre médias
de grupos de interesse’ (MARTINEZ, 2015, p. 263)”. O segundo botão interativo tem como título: “Como
funciona?”. Ao ser clicado, surge o seguinte texto: “O procedimento considera a variância como medida
de variabilidade, sendo que esta representa a variabilidade dos dados em relação à média aritmética
deles. Então, se uma variável quantitativa contínua apresentar maior variabilidade em relação à média
entre grupos comparados, poderemos supor que as médias diferem entre si”. O terceiro botão interativo
tem como título: “Análise de variância”. Ao ser clicado, surge o seguinte texto: “o método foi batizado
como análise de variância. ‘O procedimento de ANOVA, em sua forma mais simples, procura “quebrar” a
variância amostral de uma variável quantitativa contínua em duas partes. Uma parte diz respeito à
variabilidade entre os grupos. A outra parte mensura a variabilidade dentro dos grupos. Se a
variabilidade entre os grupos é relativamente grande quando comparada à variabilidade dentro dos
grupos, inferimos que há evidências de diferenças entre as médias populacionais relativas aos grupos’
(MARTINEZ, 2015, p. 264)”. O quarto botão interativo tem como título: “Pressupostos”. Ao ser clicado,
surge o seguinte texto: “diz respeito à homocedasticidade, ou seja, é suposto que as variâncias dos
grupos sejam semelhantes ou, então, muito próximas em valores. Essa condição precisa ser garantida,
pois, caso não seja, poderemos obter resultados pouco con�áveis”.
O que é?
Como funciona?
Análise de variância
Pressupostos
Análise de variância
Fonte: Adaptado de hvostik/123RF.
Além do pressuposto de homocedasticidade, outros precisam ser garantidos para a correta
aplicação da ANOVA. De acordo com Martinez (2015, p. 267),
Os grupos que comparamos são independentes entre si. Isso signi�ca que os grupos
são compostos por indivíduos distintos e que o fato de um dado indivíduo ter sido
escolhido para compor a amostra não interfere na escolha de outro indivíduo (ou seja,
não são dados pareados). Deve-se ter apenas uma observação para cada indivíduo no
conjunto de dados. A distribuição dos dados em cada grupo deve ser
aproximadamente simétrica, de forma que a média seja de fato representativa do
conjunto de dados.
Para facilitar a compreensão, vamos considerar o exemplo descrito por Martinez (2015) sobre o
estudo do Índice de Massa Corporal (IMC) de 53 mulheres portadoras de diabetes tipo 2. O
estudo considera a informação da escolaridade dessas mulheres. A Tabela 3.1 apresenta os
dados do estudo. Vamos analisá-la.
Tabela 3.1 - Dados do estudo sobre IMC em mulheres
Fonte: Martinez (2015, p. 265).
#PraCegoVer: a imagem apresenta uma tabela com 10 colunas e quatro linhas. A primeira
coluna contém os níveis de escolaridade das mulheres, que são: fundamental, médio e
superior. As seis colunas seguintes contêm os dados de IMC para as mulheres, em
quilograma por metro quadrado, com o título “Observações do IMC”. A oitava coluna contém
o tamanho de cada grupo e é representada pela letra n, sendo 30 para o grupo com ensino
fundamental, 13 para o com ensino médio e 10 para o com ensino superior, intitulada “n”. A
nona coluna contém os valores médios de IMC para cada grupo, sendo, respectivamente,
29,98, 26,82 e 24,81; com o título “Média”. A décima coluna contém os valores de desvio
padrão para o IMC de cada grupo, sendo, respectivamente, 3,58, 358 e 3,78; com o título
“Desvio padrão”.
Conforme Hair et al. (2009), para realizar uma análise de cluster cuidadosa, são necessários
métodos com as seguintes características:
     (3.1).
Vamos explicar cada termo. O que antecede o sinal de igualdade representa a soma de
quadrados dos desvios das observações em relação à média geral, ou seja, à média de todos os
dados da amostral; esse termo será denotado na análise de variância por Soma de Quadrados
Total (SQT). O primeiro termo depois da igualdade é a soma de quadrados dos desvios das
observações de cada grupo em relação à média do grupo; ele será denotado por Soma de
Quadrados Dentro do grupo (SQD). O último termo é a soma de quadrados dos desvios da média
= +∑
k
i=1
∑
ni
j=1
( − )xij x̄
2 ∑
k
i=1
∑
ni
j=1
( − )xij x̄i
2 ∑
k
i=1
ni( − )x̄i x̄
2
de cada grupo em relação à média total dos dados e ele será denotado por Soma de Quadrados
Entre grupos (SQE). Então, teremos, de forma análoga, que: . O
signi�cado de cada sigla é:
SQT = Soma de Quadrados Total;
SQD = Soma de Quadrados Dentro do grupo;
SQE = Soma de Quadrados Entre grupos.
Para os dados de IMC, temos que a média amostral geral é igual a   . A SQT será dada
por:
      (3.2).
Ressaltamos que a quantidade de observações por grupo é dada por e
, respectivamente para as mulheres com escolaridade correspondente ao ensino
fundamental, médio e superior. O elemento representa cada uma das observações do
conjunto de dados. Os termos SQE e SQD, de acordo com a Equação 3.1, são dados por:
De forma geral, o Código de Nuremberg estabeleceu que nenhum ser humano poderia ser
submetido a projetos de pesquisa sem o seu devido consentimento, sendo o primeiro documento
a ter alcance internacional, por conta, principalmente, do repúdio da comunidade internacional
quanto aos crimes cometidos no período nazi-fascista (PALÁCIOS; REGO; SCHRAMM, 2009).
A necessidade de regulamentação de pesquisas em seres humanos, para proteger seus
participantes, e o desejo do corpo médico ter sua própria regulamentação foram motivações para
a criação da Declaração de Helsinque, a qual foi aprovada pela Associação Médica Mundial, e
cuja primeira versão é de 1964 (PALÁCIOS; REGO; SCHRAMM, 2009).
     e        (3.4),
Em 1988, o Conselho Nacional de Saúde (CNS) do Brasil estabeleceu normas que tratam da ética
empesquisa com seres humanos e, em 10 de outubro de 1996, aprovou as diretrizes/normas que
regulamentam pesquisas com seres humanos, denominada Resolução 196/96 (PALÁCIOS;
REGO; SCHRAMM, 2009).
A Resolução 196/96 estabeleceu princípios básicos para permitir apreciação da ética em
protocolos de pesquisa, criando os Comitês de Ética em Pesquisa (CEP) e a Comissão Nacional
de Ética em Pesquisa (Conep). O conteúdo da resolução incorpora as experiências históricas da
regulamentação sobre ética em pesquisa, principalmente com base no Código de Nuremberg
(1947), na Declaração dos Direitos Humanos (1948), na Declaração de Helsinque (desde a
primeira versão de 1964), nas Diretrizes Internacionais para a Revisão Ética de Estudos
Epidemiológicos e nas Diretrizes Éticas Internacionais para Pesquisas Biomédicas Envolvendo
SQT = SQD + SQE
= 27, 66x̄
= 796, 49∑
3
i=1
∑
ni
j=1
( − 27, 66)xij
2
= 30, = 13n1 n2
= 10n3
xij
SQE = 30. + 13. + 10. = 142, 67(28, 98 − 27, 66)2 (26, 82 − 27, 66)2 (24, 81 − 27, 66)2
QME =
SQE
k−1
QMD =
SQD
n−k
Seres Humanos, assim como em conteúdos de leis promulgadas após a aprovação da
Constituição de 1988 (PALÁCIOS; REGO; SCHRAMM, 2009; NOVOA, 2014).
Samohyl (2009) estabelece que o grá�co de soma acumulada (CUSUM) é um aprimoramento do
grá�co de controle X de Shewhart, este, de�nido como sendo a forma de monitoramento da
média de um processo especí�co cuja característica de qualidade de interesse X é uma
grandeza mensurável representada. Assim sendo, o CUSUM é o mais apropriado para se
reconhecer o histórico dos dados, característica ausente em grá�cos mais simples, e também
para identi�car pequenas alterações nos processos muito antes dos alarmes dos grá�cos X,
considerados como LSC e LIC.
A ANOVA é apresentada em forma de tabela com alguns desses elementos calculados. A Tabela
3.2 mostra uma Tabela ANOVA genérica para um fator.
Tabela 3.2 - Tabela ANOVA genérica
Fonte: Adaptada de Martinez (2015).
#PraCegoVer: a imagem apresenta um modelo de Tabela ANOVA com cinco colunas e
quatro linhas. A primeira linha contém os títulos de cada coluna, sendo que a primeira
informa as fontes de variabilidade, de acordo com as somas de quadrados: entre grupos,
dentro de grupos e total (em cada linha). A segunda coluna informa, em cada linha, os graus
de liberdade associados a cada termo. A terceira coluna deve conter os valores de somas de
quadrados para cada fonte de variação. A quarta coluna deve conter os quadrados médios
para cada fonte de variação. A quinta coluna deve conter a estatística F do teste ANOVA.
Para os dados do estudo do IMC, considerando os grupos e as informações necessárias para o
uso do teste ANOVA, a tabela �cará apresentada conforme mostra o modelo a seguir.
μμ
Fonte de variação
Graus de
liberdade
Soma de
Quadrados
Quadrados
médios
Estatística F
Entre grupos SQE QME
Dentro de grupos SQD QMD
Total SQT
k − 1
F =
QME
QMD
n − k
n − 1
Tabela 3.3 - Tabela ANOVA para o estudo do IMC.
Fonte: Adaptada de Martinez (2015).
#PraCegoVer: a imagem apresenta uma tabela com cinco colunas e quatro linhas. A
primeira linha contém os títulos de cada coluna, sendo que a primeira informa as fontes de
variabilidade, de acordo com as somas de quadrados: entre grupos, dentro de grupos e total
(em cada linha). A segunda coluna informa, em cada linha, os graus de liberdade associados
a cada termo, sendo esses, respectivamente, 2 (linha dois), 50 (linha três) e 52 (linha quatro).
A terceira coluna contém os valores de somas de quadrados para cada fonte de variação,
sendo, respectivamente, 142,67 (linha dois), 653,82 (linha três) e 796,79 (linha quatro). A
quarta coluna contém os quadrados médios para cada fonte de variação: 71,33 (linha dois) e
13,08 (linha três). A quarta linha está vazia. A quinta coluna contém a estatística F do teste
ANOVA, que é 5,45.
Na Tabela ANOVA, é possível perceber, a partir do resultado da Estatística F, que o valor
representa QME um pouco mais do que cinco vezes o QMD, indicando existência de maior
variação amostral do IMC entre os grupos do que dentro dos grupos. No entanto é possível
con�rmar essa suspeita com o teste F.
Apesar de a eticidade e a cienti�cidade da pesquisa cientí�ca, em especial, daquela realizada
com seres humanos, serem aspectos que caminham juntos, não cabe aos Comitês de Ética em
Pesquisa (CEP) a emissão de pareceres sobre a metodologia utilizada no desenvolvimento dos
estudos (NOVOA, 2014).
A distribuição de probabilidades F de Snedecor é útil para testar hipóteses de igualdade entre k
médias populacionais, ou seja, , a partir de uma Tabela ANOVA. Como
hipótese alternativa, considera-se que pelo menos uma média é diferente das demais
(MARTINEZ, 2015).
Se a hipótese nula H for verdadeira, deveremos assumir que o valor da estatística F da Tabela
ANOVA é resultado de uma distribuição F de Snedecor, com e graus de liberdade
(MARTINEZ, 2015). Para testar a hipótese H ao nível de 5% de signi�cância, comparamos a
: = = … =H0 μ1 μ2 μk
0
k − 1 n − k
0
estatística F com um valor F* tabelado com e graus de liberdade da distribuição F
de Snedecor. Se F>F*, deveremos decidir por rejeitar H ao nível de signi�cância α.
Dito isso, vamos considerar os dados do exemplo do IMC de mulheres, lembrando que o valor
obtido na Tabela ANOVA é F = 5,45. O valor F* pode ser obtido em tabelas disponíveis em livros
de estatística, em páginas da internet ou em programas computacionais que possuem a rotina do
teste implementada, por exemplo, uma planilha do Microsoft Excel.
Temos que grupos, de acordo com a escolaridade, e um total de observações do
estudo. Portanto, teremos que obter um valor para F* com 2 e 50 graus de liberdade. Da tabela,
teremos que F* = 3,183 com α = 0,05 (5% de signi�cância). Comparando os valores, observamos
que F>F*, portanto, decidimos por rejeitar H ao nível de 5%, ou seja, pelo menos uma das médias
de IMC é diferente das demais.
Para complementar a análise, já que o teste F apenas sinaliza que há alguma média diferente,
precisamos utilizar como teste post hoc ou, a posteriori, teste de comparações múltiplas, o que
apresentaremos a seguir, exempli�cando com os dados do estudo do IMC de mulheres.
Não existem sistemas de medição que possam ser classi�cados como ideais. Dessa forma, é
atribuição direta dos engenheiros de�nir e implantar sistemas de medição que apresentem
propriedades estatísticas consideradas adequadas.
Os abusos cometidos em nome do Estado e da Ciência, apurados e denunciados
mundialmente em 1947 no Relatório �nal do Tribunal Internacional de Nuremberg,
levaram à elaboração do primeiro Código de conduta em pesquisas,
internacionalmente aceito – o Código de Nurembergue (1947) (PALÁCIOS; REGO,
SCHRAMM, 2009, p. 607).
Cada área de pesquisa, no geral, tem preferência por utilizar um teste ou outro. Na área da saúde,
por exemplo, é comum o uso do teste de Bonferroni. Portanto, será o teste desenvolvido neste
material. Para conhecer os demais testes, você pode consultar as referências bibliográ�cas ou
outros textos que tratam do assunto.
O teste de Bonferroni recebeu esse nome para referenciar o trabalho do matemático italiano Carlo
Emilio Bonferroni (1892-1960). O teste é realizado considerando a existência de k grupos
comparados dois a dois (MARTINEZ, 2015). Para isso, deveremos obter a quantidade
     (3.5),
onde os índices e referenciam os grupos do estudo (sempre considerando ). O termo 
é o percentil da distribuição t de Student com graus de liberdade, podendo ser obtido na
tabela da distribuição t de Student, disponível em livros de estatística, páginas da internet ou
programas computacionais. Martinez (2015, p. 274) a�rma que “a área sob a curva t de Student
de a é , para um nível de signi�cância α”. Assim, . O termo c
representa a quantidade de pares de médias que serão comparadas.
k − 1 n − k
0
k = 3 n = 53
0
= .Dij tB QMD.( + )1
ni
1
nj
− −−−−−−−−−−−−−
√
i j i ≠ j tB
n − k
−tB tB 1 − α/c =tB t(n−k;1−α/c)
A pesquisa epidemiológica tem por base acoleta sistemática de dados sobre eventos
associados, principalmente, à saúde das pessoas pertencentes a populações de interesse. O
tratamento analítico dado aos fatores pesquisados tem base em três procedimentos, a saber, a
mensuração de variáveis aleatórias, a estimação de parâmetros populacionais e o uso de testes
estatísticos (BLOCH; COUTINHO, 2009).
Vamos considerar para representar o grupo de mulheres com ensino fundamental e 
para representar o grupo de mulheres com ensino médio. Perceba que grupos, pois
também temos o grupo de mulheres com ensino superior. Além disso, 
graus de liberdade para a quantidade QMD da Tabela ANOVA. Então, o percentil da distribuição t
de Student será igual a . Temos que calcular , tal que:
.
Agora, calculamos a diferença absoluta entre as médias amostrais dos grupos, dada por
. Comparamos esse resultado com .
Temos que 2,16 < 2,97, portanto, não encontramos evidências de diferença signi�cativa entre as
médias de IMC de mulheres com ensino fundamental e com ensino médio.
Precisamos comparar o grupo de mulheres com ensino fundamental com o grupo com ensino
superior e, da mesma forma, o grupo com ensino médio com o grupo com ensino superior. O
procedimento é análogo, portanto, vamos apresentar os cálculos de forma resumida, conforme
Martinez (2015). A Tabela 3.4 mostra os cálculos e os resultados.
i = 1 j = 2
k = 3
n − k = 53 − 3 = 50
= = = 2, 477t50;1−0,025 t50;0,975 tB D12
= 2, 477. = 2, 97D12 13, 08. ( + )1
30
1
13
− −−−−−−−−−−−−
√
| − | = |28, 98 − 26, 82| = 2, 16x̄1 x̄2 = 2, 97D12
Tabela 3.4 - Resultados do teste de Bonferroni para o estudo sobre IMC de mulheres
Fonte: Adaptada de Martinez (2015).
#PraCegoVer: a imagem apresenta uma tabela que contém quatro colunas e quatro linhas.
Na primeira linha de cada coluna, estão os títulos. A primeira coluna explicita, em cada linha,
a comparação que está sendo realizada entre os grupos com ensino fundamental, médio e
superior. A segunda coluna apresenta os cálculos da diferença absoluta entre as médias em
cada linha, sendo, respectivamente, 2,16, 4,17 e 2,01. A terceira coluna apresenta o resultado
calculado da quantidade Dij, sendo, respectivamente, 2,97, 3,27 e 377. A quarta coluna
apresenta a resposta, se foi encontrada diferença signi�cativa ou não na comparação, sendo
“não” para fundamental x médio, “sim” para fundamental x superior e “não” para médio x
superior.
O procedimento pode ser realizado para comparar vários pares de médias. Perceba, também, que
dizer que não existem evidências de diferenças signi�cativas não quer dizer que as médias
populacionais não sejam, realmente, diferentes, pois o resultado está baseado em amostras. Se
outras amostras forem utilizadas, os resultados também podem ser diferentes.
Conhecimento
Teste seus Conhecimentos
(Atividade não pontuada)
Muitos estudos são realizados para comparar medidas quantitativas entre grupos; muitas
vezes, essas comparações são feitas entre três ou mais grupos. Para essa situação, se houver
intenção em utilizar testes estatísticos, o mais apropriado será o teste ANOVA. No entanto o
teste ANOVA não é su�ciente para indicar onde se localizam as diferenças, caso existam.
Assinale a alternativa que apresenta corretamente o que é necessário para que as diferenças
sejam identi�cadas.
a) Identi�car a maior média e assinalar como medida que está causando a diferença
entre as demais médias.
b) Identi�car a menor média e assinalar como medida que está causando a diferença
entre as demais médias.
c) Selecionar uma das médias e concluir que ela é a fonte causadora de signi�cância
estatística.
d) Realizar teste complementar para veri�car, aos pares, qual ou quais médias diferem
das demais.
e) Veri�car se tem alguma diferença maior que 0,05 e, se houver, concluir que são
signi�cativamente diferentes.
O SPSS (Statistical Package for Social Sciences) é um programa para análise de dados,
desenvolvido pela empresa IBM®. É de fácil uso, pois não exige conhecimento de programação
dos usuários, apesar de possuir módulo para inserção de linhas de comandos. A análise de
dados é feita com a seleção de menus na barra de ferramentas do programa.
Na página da IBM, é possível fazer download de versão para teste, que dura 30 dias, também é
possível comprar a licença de�nitiva. Estudantes e docentes possuem facilidades na aquisição
(SOFTWARE..., 2021).
Aula Prática no SPSS:
Análise de Variância
(ANOVA)
A aplicação será realizada com os dados do IMC de mulheres, apresentados na seção anterior, as
quais foram divididas em grupos de acordo com a escolaridade, que �cou
codi�cada:1=fundamental; 2=médio; 3=superior. Não esqueça de salvar os dados no programa.
Para realizar o teste ANOVA no SPSS, basta selecionar o menu “Analisar” e as opções “Comparar
Médias” e “ANOVA de um fator…”.
Ao selecionar o menu “ANOVA de um fator…”, aparecerá uma caixa de diálogos com alguns
espaços que precisam ser preenchidos com informações sobre os dados. É necessário indicar
qual é a variável dependente (IMC) e qual é o fator (variável independente: escolaridade).
Figura 3.1 - Preenchimento da caixa de diálogos para teste ANOVA no SPSS
Fonte: Elaborada pelo autor.
#PraCegoVer: a imagem é uma captura de tela do programa SPSS. Nela, são exibidos os campos
preenchidos com os nomes das colunas de dados. Um espaço chamado “Lista de Variáveis
Dependentes” deve ser preenchido com a coluna dos valores de IMC; outro espaço, chamado “Fator”,
deve ser preenchido com a coluna de escolaridade. Além disso, são apresentados os seguintes botões,
no lado direito da tela: “Contrastes”, “Posteriori”, “Opções” e “Bootstrap”. Na parte inferior, há os botões:
“OK”, “Colar”, “Recon�gurar”, “Cancelar” e “Ajuda”. Por �m, encontra-se uma caixa de diálogo a ser
ativada, ou não, com o seguinte texto: “Estimar o tamanho do efeito para testes gerais”.
Agora, precisamos clicar no botão “Posteriori”, no lado direito da caixa de diálogos, e em “Análise
de Variância Unidirecional” para selecionar o teste de comparações múltiplas. Como
apresentamos o teste de Bonferroni no texto, vamos selecionar a opção referente a ele. A Figura
3.2 mostra a caixa de diálogos citada.
Figura 3.2 - Caixa de diálogos para selecionar o teste de comparações múltiplas no SPSS
Fonte: Elaborada pelo autor.
#PraCegoVer: a imagem é uma captura de tela do programa SPSS. Nela, está apresentada uma caixa
de diálogos com opções de seleção de testes de comparações múltiplas. A caixa que antecede o nome
Bonferroni é marcada para que ele seja utilizado na análise dos dados. Além disso, estão presentes as
seguintes opções de seleção de “Variâncias iguais presumidas”: “DMS, Bonferroni, Sjdak, Scheffe, R-E-
G-W F, R-E-G-W Q, S-N-K, Tukey, B de Tukey, Duncan, GT2 de Hochberg, Gabriel, Waller-Ducan” (no qual é
possível con�gurar a razão de erro do TipoI/TipoII) e “Dunnet” (no qual é possível estabelecer a
categoria de controle, além de de�nir se o texto possuirá dois lados, <Controle ou >Controle). De
“Variâncias iguais não presumidas”, há as seguintes opções: “T12 de Tamhane, T3 de Dunnett, Games-
Howell; C de Dunnett”. No “Teste de hipótese nula”: “Use o mesmo nível de signi�cância [alpha] que a
con�guração em Opções” e “Especi�que o nível de signi�cância [alfa] para o teste post hoc”. Após
todas as possibilidades de con�guração, há os botões “Continuar”, “Cancelar” e “Ajuda”.
Seleção de opções
Na caixa de diálogos “ANOVA de um fator: Comparações Múltiplas Posteriori”, selecionamos o
botão referente ao teste de Bonferroni e clicamos no botão “Continuar”, na parte inferior, e, na
caixa seguinte, clique no botão “Opções…”; na caixa de diálogos que aparecer, selecione a opção
“Descritivo” e “Teste de homogeneidade das variâncias” e clique em “Continuar” e em “OK”. A
imagem a seguir demonstra como deverá �car a seleção.
Figura 3.3 – Caixas de opções do SPSS para realização de ANOVA.
Fonte: Elaborada pelo autor.
#PraCegoVer: a imagem é uma captura de tela do programa SPSS. A �gura mostra uma caixa de
diálogos com opçõesde seleção para serem apresentadas na saída do programa. Foram selecionadas
as opções “Descritivo” e “Teste de homogeneidade das variâncias” para serem apresentadas nos
resultados. Além dessas opções, ainda são exibidas nas ferramentas as seguintes possibilidades de
ajuste: em “Estatística” – “Efeitos �xos e aleatórios, Teste de Brown-Forysthe e Teste de Welch”; “Grá�co
de médias”; em “Valores omissos” – “Excluir casos análise por análise e Excluir casos por métodos
listwise”; em “Intervalos de Con�ança”, é possível ajustar o nível de con�ança do teste. Após todas as
con�gurações, na parte inferior, há os botões: “Continuar”, “Cancelar” e “Ajuda”.
A saída apresentada com a seleção de todas as opções feitas é um tanto extensa e será
apresentada em duas partes. A primeira parte mostra o teste de homogeneidade de variâncias
para o IMC de acordo com cada grupo de mulheres.
Tabela 3.5 – Teste de homogeneidade de variâncias obtido no SPSS
Fonte: Elaborada pelo autor.
#PraCegoVer: a tabela contém duas linhas e cinco colunas. A primeira coluna tem a primeira
linha vazia e, na segunda linha, o texto “Com base em média”. A segunda coluna contém o
título “Estatística de Levene” e, a segunda linha, o valor 0,1052. A terceira coluna tem título
“df1” e a segunda linha, o valor 2. A quarta coluna tem título “df2” e a segunda linha, o valor
50. A quinta coluna tem título “Sig.” e a segunda linha, o valor 0,9003.
Para efeitos didáticos, vamos considerar que os dados de IMC são aderentes à distribuição de
probabilidades normal, um dos pressupostos para a realização da ANOVA. No entanto essa
veri�cação precisa ser feita antes da ANOVA ser executada. O teste de homogeneidade de
variâncias, feito com o teste de Levene, indica que não há evidência de variâncias diferentes.
Observe, na linha “Com base em média” e na coluna “Sig”, o valor-p 0,900, maior que o nível de
signi�cância usual 0,05. Então, o pressuposto de homocedasticidade está garantido.
Ainda como parte dos resultados do SPSS, a Tabela 3.6 apresenta a ANOVA obtida com a
execução do programa. É por meio desses resultados que iremos identi�car se os grupos
diferem, em média, entre si. Observe.
Tabela 3.6 – ANOVA obtida no SPSS para os dados do IMC
Fonte: Elaborada pelo autor.
#PraCegoVer: a tabela contém quatro linhas e seis colunas. A primeira coluna contém a
primeira linha vazia e, na segunda linha, o texto “Entre grupos”; na terceira linha, o texto ”Nos
grupos”; na quarta linha, o texto “Total”. A segunda coluna contém título “Soma de
quadrados” e, na segunda linha, o valor 142,6416; na terceira linha, o valor 653,8459; na
quarta linha, o valor 796,4875. A terceira coluna contém título “df” e, na segunda linha, o valor
2; na terceira linha, o valor 50; na quarta linha, o valor 52. A quarta coluna contém título
“Quadrado Médio” e, na segunda linha, o valor 71,32; na terceira linha, o valor 13,08. A quarta
linha está vazia. A quinta coluna contém título “Z” e, na segunda linha, o valor 5,45. A terceira
e a quarta linhas estão vazias. A sexta coluna contém título “Sig.” e, na segunda linha, o valor
0,0072. A terceira e a quarta linhas estão vazias.
Analisando os resultados obtidos na Tabela ANOVA, observamos a estatística F com valor 5,45,
como visto anteriormente, mas temos, também, o valor-p do teste igual a 0,0072, indicando que a
hipótese nula de igualdade entre as médias deve ser rejeitada. Temos, então, que fazer as
comparações múltiplas para identi�car onde se encontram as diferenças. A Tabela 3.7 apresenta
o resultado obtido com o SPSS com o teste de Bonferroni.
Tabela 3.7 – Comparação múltipla (teste de Bonferroni) obtida no SPSS para os dados do IMC
Fonte: Elaborada pelo autor.
#PraCegoVer: a tabela contém cinco linhas e cinco colunas. A primeira coluna contém título
“(I) Escolaridade”, na segunda, terceira e na quinta linha, o valor 1; na quarta linha, o valor 2.
A segunda coluna contém título “(J) Escolaridade” e, na segunda linha, o valor 2; na terceira
linha, o valor 3; na quarta linha, o valor 1 e, na quinta linha, o valor 3. A terceira coluna contém
título “Diferença média (I-J)” e, na segunda linha, o valor 2,1579; na terceira linha, o valor
4,1703; na quarta linha, o valor negativo 2,1579 e, na quinta linha, o valor 2,0125. A quarta
coluna tem o título “Erro Padrão” e, na segunda linha, o valor 1,2008; na terceira linha, o valor
1,3205; na quarta linha, o valor 1,2008 e, na quinta linha, o valor 1,5211. A quinta coluna
contém título “Sig.” e, na segunda linha, o valor 0,2351; na terceira linha, o valor 0,0081; na
quarta linha, o valor 0,2351 e, na quinta linha, o 0,5755.
Para veri�car onde existe diferença signi�cativa, podemos avaliar os resultados da tabela
“Comparações múltiplas". As duas primeiras colunas indicam as possíveis combinações entre os
grupos (pares de médias). A coluna “Diferença média (I-J)” mostra as diferenças de médias e, na
coluna “Sig”, temos os valores-p do teste associado. Se forem menores que o nível de
signi�cância adotado, rejeitamos H0, caso contrário, não rejeitamos H0. Apenas na comparação
entre Grupo 1 (fundamental) e Grupo 3 (superior) identi�camos valor-p igual a 0,008, menor que
0,05 (5% de signi�cância). Nas outras comparações, Grupo 1 (fundamental) com Grupo 2
(médio), o valor-p é 0,235 e, entre Grupo 2 (médio) e Grupo 3 (superior), o valor-p é igual a 0,575.
praticar
Vamos Praticar
(I) Escolaridade (J) Escolaridade Diferença média (I-J) Erro Padrão Sig.
1 2 2,1579 1,2008 0,2351
1 3 4,1703 1,3205 0,0081
2 1 -2,1579 1,2008 0,2351
1 3 2,0125 1,5211 0,5755
Considere o exemplo apresentado sobre o estudo do IMC de mulheres de acordo com a
escolaridade. Suponha que você deseja replicar o procedimento de análise de variância, mas
quer ser mais rigoroso na realização do teste estatístico. Portanto, decidiu utilizar nível de
signi�cância de 1% (0,01). Qual seria, então, o procedimento a ser realizado? Qual o valor do
percentil da distribuição F de Snedecor?
Os testes estatísticos que exigem condições ou pressupostos para serem utilizados, como a
aderência para a distribuição normal, a homogeneidade de variâncias, dentre outros, são ditos
testes paramétricos, ou seja, as “estatísticas de testes usam as estimativas dos parâmetros de
determinada distribuição” (SIQUEIRA; TIBÚRCIO, 2011, p. 295).
Iremos descrever, neste material, um teste não paramétrico, ou seja, um teste que não exige
pressupostos como os descritos no parágrafo anterior. Será aplicado para variáveis quantitativas
e para comparar distribuições de grupos “em situações em que a distribuição da variável de
interesse não é conhecida ou tem comportamento não normal” (SIQUEIRA; TIBÚRCIO, 2011, p.
295).
Vale ressaltar que, quando as autoras falam de comportamento “não normal” querem dizer que a
variável não tem aderência para a distribuição de probabilidades normal. Portanto, não atende ao
pressuposto de um teste paramétrico.
Testes Não Paramétricos
(Amostras
Independentes)
Para exempli�car, consideremos o exemplo apresentado por Martinez (2015), o qual considera
uma amostra de tamanho n = 10 valores de altura de indivíduos (em centímetros), dados por 164,
184, 165, 180, 181, 159, 168, 167, 169 e 170. Para transformar esses valores em postos,
consideramos, para o menor valor de altura, o posto igual a 1 e para o segundo menor valor de
altura, o posto igual a 2 e assim por diante. Os valores de alturas transformados em postos serão,
então, dados por 2, 10, 3, 8, 9, 1, 5, 4, 6, e 7, respectivamente.
Quando houver observações iguais, a�rma-se a existência de empates. Para exempli�car uma
situação dessas, consideremos que os valores de altura (em centímetros) sejam 164, 184, 165,
180, 181, 159, 168, 165, 169 e 170. Observe que existem dois valores de altura 165 cm, ou seja,
temos um empate na amostra. Para transformarmos os dados em postos, atribuímos valores de
ordem e, para os valores iguais, atribuímos a média dos postos.
Considerando os postos para os valores, teremos 2, 10, 3, 8, 9, 1, 5, 4, 6 e 7, respectivamente.
Observeque os valores de altura 165 cm recebem postos 3 e 4. No entanto extraímos a média
aritmética desses postos e substituímos para torná-los de�nitivos, ou seja, 2, 10, 3,5, 8, 9, 1, 5, 3,5,
6 e 7. Observe que o posto agora é 3,5, porque a média entre 3 e 4 é igual a 3,5. Se existirem mais
de dois valores iguais, devemos aplicar a mesma regra apresentada para valores empatados.
Para comparar dois grupos independentes, utilizamos o teste não paramétrico de Mann-Whitney,
também conhecido por Mann-Whitney-Wilcoxon, ou ainda, teste da soma dos postos de Wilcoxon
(SIQUEIRA; TIBÚRCIO, 2011).
A construção do teste inicia-se com a obtenção dos postos das observações amostrais como se
fossem um grupo único. Em seguida, construímos as hipóteses, de acordo com Martinez (2015,
p. 284), iguais a
A nova resolução divide-se em 13 partes e apresenta-se mais longa e �losó�ca,
levando-se em consideração referenciais básicos de bioética, como o reconhecimento
e a a�rmação da dignidade, a liberdade, a autonomia, a bene�cência, a não
male�cência, a justiça e a equidade, dentre outros que visam assegurar os direitos e
deveres que dizem respeito aos participantes da pesquisa, à comunidade cientí�ca e
ao Estado (NOVOA, 2014, p. VII).
Martinez (2015, p. 284) também declara que “entendemos que λ é um parâmetro que mede a
‘distância’ entre essas curvas. A hipótese nula, então, estabelece que λ = 0, enquanto a hipótese
alternativa estabelece λ ≠ 0”. O autor se refere às curvas (grá�cos) geradas pelas distribuições ou
pelas populações de dados que estão sendo testados.
Para exempli�car, vamos considerar a aplicação descrita por Martinez (2015) sobre o colesterol
LDL em homens que praticam atividade física e em homens sedentários, para efeitos de
comparação entre eles. Os níveis séricos de colesterol LDL, em mg/dl, para o grupo de homens
que pratica atividade física são dados por: 126, 81, 86, 121, 95, 106 e 123. Para os sedentários, os
valores são: 122, 90, 203, 122, 182, 190, 163 e 198.
Em seguida, devemos obter os postos dos valores amostrais, lembrando que, nesse momento, é
preciso considerar os dados como se fossem de um único grupo, para, então, obter as somas
dos postos, representadas por W e W , respectivamente, para representar o grupo de homens
que pratica atividade física e o de homens sedentários. A Tabela 3.8 apresenta os dados
originais, os postos e a soma dos postos.
1 2
Tabela 3.8 - Dados originais, postos e soma dos postos
Fonte: Martinez (2015, p. 286).
#PraCegoVer: a imagem apresenta uma tabela que contém três colunas e 18 linhas. A
primeira coluna contém todos os dados de colesterol para todos os homens participantes do
estudo: 81, 8690, 95, 106, 121, 122, 122, 123, 126, 163, 182 190, 198 e 203 e, por �m, uma
linha destinada para os dois postos. A segunda coluna contém os valores de postos para o
grupo de homens que pratica atividade física: 1, 2, 0, 4, 5, 6, 0, 0, 9, 10, 0, 0, 0, 0 e 0, somando
W = 37. Na terceira coluna, temos os postos atribuídos aos dados de homens sedentários:
0, 0, 3, 0, 0, 0, 7,5, 7,5, 0, 0, 11, 12, 13, 14, 15, totalizando a soma de W = 83.
A estatística do teste de hipóteses W será dada pelo menor valor obtido entre W e W . Teremos,
então, que será W = 37. Agora, consideremos m como o valor médio esperado para W, se a
hipótese H for verdadeira. O valor para essa medida será dado por
     (3.6).
Consideramos como o tamanho amostral com a menor soma de postos e como o
tamanho amostral com a maior soma. Teremos, então, que e . Agora,
substituindo em , teremos
.
Continuando, devemos obter uma medida representada pela letra grega (lê-se “ni”), para
representar uma medida de variação amostral de W, supondo que a hipótese H é verdadeira.
Podemos obter por
     (3.7).
Martinez (2015, p 287) ressalta que “o número 12 que aparece no denominador dessa expressão
origina-se de propriedades matemáticas de soma de postos, e não de nossos dados amostrais”.
O valor numérico para será dado por
.
Ainda sob o pressuposto de que H seja verdadeira, podemos considerar a medida
      (3.8),
com base em amostras aleatórias de tamanho indivíduos, com distribuição normal
padrão e, se considerarmos o nível de signi�cância α, iremos rejeitar a hipótese nula H quando o
valor for menor que ou maior , considerando que o intervalo que vai de a 
delimitará uma região que corresponderá a da área central da curva normal padrão
(BUSSAB; MORETTIN, 2017).
Considerando α = 0,05, teremos que , de acordo com a tabela da distribuição normal
padrão. Então, rejeitaremos H quando for menor que -1,96 ou maior que 1,96. Para os dados
do exemplo, teremos que
,
1
2
1 2
0
m =
.( + +1)n1 n1 n2
2
n1 n2
= 7n1 = 8n2
m
m = = 56
7.(7+8+1)
2
ν
0
ν
ν =
. .( + +1)n1 n2 n1 n2
12
− −−−−−−−−−−
√
ν
ν = = 8, 64
7.8.(7+8+1)
12
− −−−−−−−
√
0
=z0
W−m
ν
n = +n1 n2
0
z0 −z∗ z∗ −z∗ z∗
(1 − α) .100
= 1, 96z∗
0 z0
= = −2, 2z0
37−56
8,64
portanto, rejeitaremos H ao nível de 5% de signi�cância, pois -2,2 < -1,96. Concluímos que temos
evidências de que os homens que fazem atividades físicas tendem a apresentar níveis séricos de
colesterol LDL diferentes dos homens sedentários.
Conhecimento
Teste seus Conhecimentos
(Atividade não pontuada)
Podemos considerar que o erro de medição sempre estará presente quando a indicação do
sistema de medição não relacionar corretamente com o valor verdadeiro do mensurando.
Sendo assim, de�ne-se como erro de medição a diferença entre o valor indicado pelo sistema
de medição e o valor verdadeiro do componente ou da peça dimensionada.
a) Para utilizar um teste não paramétrico, os dados precisam ser aderentes à
distribuição de probabilidades normal.
b) A homocedasticidade é condição necessária para utilizar um teste não paramétrico
em análise de dados.
c) Ao usarmos um teste não paramétrico, estamos considerando que as distribuições
são simétricas em torno de um eixo.
d) O uso de teste não paramétrico é realizado quando os pressupostos dos testes
paramétricos não são atendidos.
e) Se concluirmos por rejeitar a hipótese nula de um teste não paramétrico, podemos
dizer que as distribuições são análogas.
0
Em situações em que se utiliza o esquema de pareamento ou de amostras dependentes, o teste
de Mann-Whitney ou de soma de postos do Wilcoxon não é adequado quando se deseja/pretende
utilizar um teste não paramétrico para testar hipóteses estatísticas.
As hipóteses estatísticas consideradas para o teste são semelhantes àquelas apresentadas para
o teste de Mann-Whitney, replicadas no elemento interativo a seguir, com adaptações (MARTINEZ,
2015).
1. H : Nas populações que originaram os dados das duas amostras, nossa variável de
interesse segue uma mesma distribuição de probabilidade. Portanto, seus valores
não se modi�cam entre os momentos distintos.
2. H : Nas populações que originaram os dados das duas amostras, nossa variável de
interesse segue distribuições de probabilidade que se diferem por um parâmetro de
locação. Portanto, seus valores modi�cam-se entre os momentos distintos.
Vamos considerar, para exempli�car, a situação descrita por Martinez (2015), sobre um estudo
sobre pressão arterial sistólica em uma amostra de tamanho n = 12, considerando a
administração de um tratamento. A Tabela 3.9 apresenta os dados do estudo, as diferenças entre
os momentos, assim como os sinais dessas diferenças.
Testes Não Paramétricos
(Amostras
Dependentes)
0
1
Tabela 3.9 - Níveis de pressão arterial sistólica (mmHg) para 12 indivíduos, antes e depois de um tratamento
Fonte: Martinez (2015, p. 289).
#PraCegoVer: a imagem apresenta uma tabela com os dados do estudo sobre pressão
arterial, antes e depois da aplicação de um tratamento. Também apresenta os postos dos
dados e os postos considerando o sinal da diferença. A primeira coluna diz respeito aos
sujeitos, representados por: Antes, Depois, Diferença, Posto, Posto + e Posto -. As colunas
que se seguem correspondem a cada um dos sujeitos pertencentes ao estudo. A segunda
colunacorrespondente ao Sujeito 1, tem título “1” e, da segunda até a sétima linha, contém
os valores: 161; 151, -10, 10 e 10, sendo a sexta linha em branco. A terceira coluna tem título
“2” e, da segunda até a sétima linha, contém os valores: 137; 134; -3; 3 e 6, sendo que a sexta
linha está em branco. A quarta coluna tem título “3” e, da segunda até a quarta linha, tem
valores: 141; 133; -8; 6,5; vazio e 3,5. A quinta coluna contém título “4” e, da segunda até a
sétima linha, os valores: 138; 129; -9; 8,5; vazio e 8,5. A sexta coluna contém título “5” e, da
segunda até a sétima linha, contém os valores: 144; 135; -9; 8,5; vazio e 8,5. A sétima coluna
contém título “6” e, da segunda até a sétima linha, contém os valores: 135; 128; -7; 5; vazio e
5. A oitava coluna contém título “7” e, da segunda até a sétima linha, contém os valores: 127;
131; 4; 4; 4 e vazio. A nona coluna contém título “8” e, da segunda até a sétima coluna, os
valores: 142; 134; -8; 6,5; vazio e 6,5. A décima coluna contém título “9” e, da segunda até a
sétima linha, os valores: 127; 112; -15; 11; vazio e 11. A décima primeira coluna contém título
“10” e, da segunda até a sétima linha, os valores: 129; 127; -2; 1,5; vazio e 1,5. A décima
segunda coluna contém título “11” e, da segunda até a sétima linha, os valores: 124; 104; -20;
12; vazio e 12. A décima terceira coluna contém título “12” e, da segunda até a sétima linha,
os valores: 134; 136; 2; 1,5; 1,5 e vazio.
Vamos considerar W+ como a soma dos postos com diferenças de sinal positivo, então, W+ = 4 +
1,5 = 5,5. De maneira análoga, vamos considerar W- a quantidade que considera a soma de todas
as diferenças com sinal negativo. Teremos, então, W- = 72,5. A estatística W será o menor valor
dessas diferenças, logo, W = 5,5.
Segundo Martinez (2015, p. 289), “o valor médio que esperaríamos encontrar para W quando a
hipótese nula é verdadeira é denotado por , que obtemos usando a expressão”
     (3.9).
Para os dados que estamos utilizando como exemplo, temos:
.
Poderemos, também, considerar a obtenção da medida pela seguinte expressão:
      (3.10).
Consideremos, agora, outra medida, a ser representada por (lê-se “ni”), como representante da
variação amostral da soma dos postos, e a ser dada, matematicamente, por
      (3.11).
Novamente, considerando os dados do exemplo, teremos, então,
Sob a condição de que a hipótese nula seja verdadeira, a transformação
      (3.12)
segue distribuição normal padrão (lembre-se N(0;1)). Dessa forma, iremos decidir por rejeitar a
hipótese nula H quando for menor que -1,96 ou maior que 1,96, considerando nível de
signi�cância de 5%. Com os valores do exemplo, teremos:
Portanto, decidimos por rejeitar a hipótese nula H0, pois -2,6 < -1,96. Podemos, assim, concluir
que temos evidências de que os níveis de pressão arterial sistólica se modi�carão com a
administração do tratamento.
m
m =
+W+ W−
2
m = = 39
5,5+72,5
2
m
m = = = 39
n.(n+1)
4
12.13
4
ν
ν =
n.(n+1).(2n+1)
24
− −−−−−−−−−
√
ν = ≅12, 75.
12.(12+1).(2.12+1)
24
− −−−−−−−−−−−
√
=z0
W−m
ν
0 z0
= = −2, 6.z0
5,5−39
12,75
Existem situações em que se tem mais de dois grupos para comparar. Nesses casos, podemos
utilizar o teste não paramétrico de Kruskal-Wallis e complementá-lo com o teste de Dunn
(comparações múltiplas) para identi�car as diferenças, caso existam. Mais detalhes podem ser
encontrados em Martinez (2015).
Neste item, apresentaremos como utilizar o SPSS para fazer uma aplicação de teste não
paramétrico para amostras independentes e, também, para amostras dependentes. Para isso,
vamos considerar os dados descritos no texto, na parte teórica apresentada previamente.
Vamos iniciar com a aplicação do caso de amostras independentes. Os dados devem ser
inseridos na aba de planilha de dados do SPSS. Codi�camos os dois grupos considerados
(1=homens que praticam atividade física; 2=homens sedentários).
Um detalhe importante para que o teste não paramétrico possa ser realizado no SPSS é que
devemos ajustar, na aba “Visualização da variável”, a coluna que contém os valores de colesterol
Aula Prática no SPSS:
Testes Não Paramétricos
para medida em escala. Isso pode ser feito ajustando a coluna “Medida”, selecionando a opção
“Escala”. A Figura 3.4 mostra a tela da aba do SPSS.
Figura 3.4 - Ajuste do tipo de variável para os dados do estudo sobre colesterol
Fonte: Elaborada pelo autor.
#PraCegoVer: a imagem é uma captura de tela do programa SPSS. Nela, estão presentes as abas
superiores: “Arquivo, Editar, Visualizar, Dados, Transformar, Analisar, Grá�cos, Utilitários, Extensões,
Janelas e Ajuda”. Também são exibidos ícones dos seguintes atalhos. No centro da página, encontra-se
uma tabela com 10 colunas denominadas, respectivamente: “Nome, Tipo, Largura, Decimais, Rótulo,
Valores, Omisso, Colunas, Alinhar, Medida e Papel”. A tabela possui duas linhas: linha 1 - coluna 1:
“Grupo”; linha 1 - coluna 2: “Colesterol”; coluna 2 – linha 1: “Numérico”; coluna 2 – linha 2: “Numérico”;
coluna 3 – linha 1: 1; coluna 3 – linha 2: 3; coluna 4 – linha 1: 0; coluna 4 – linha 2: 0; coluna 5 – linha 1:
vazia, sem texto digitado; coluna 5 – linha 2: “Colesterol LDL”; coluna 6 – linha 1: “Nenhum”; coluna 6 –
linha 2: “Nenhum”; coluna 7 – linha 1: 8; coluna 7 – linha 2: 8; coluna 8 – linha 1: símbolo que representa
alinhamento direito; coluna 8 – linha 2: símbolo que representa alinhamento direito; coluna 9 – linha 1:
“Nominal”; coluna 9 – linha 2: “Escala”; coluna 10 – linha 1: entrada e linha 2: “Entrada”.
Agora, podemos executar o teste não paramétrico para amostras independentes. Para isso,
devemos selecionar um conjunto de opções no menu de ferramentas. Então, selecionamos as
opções “Analisar”, “Testes não paramétricos” e “Amostras Independentes…”. A Figura 3.5 mostra
essas opções.
Figura 3.5 – Menu de opções para selecionar um teste não paramétrico para amostras
independentes no SPSS
Fonte: Elaborada pelo autor.
#PraCegoVer: a imagem é uma captura de tela do programa SPSS. Nela, estão presentes as abas
superiores: “Arquivo, Editar, Visualizar, Dados, Transformar, Analisar, Grá�cos, Utilitários, Extensões,
Janelas e Ajuda”. Também são exibidos ícones dos seguintes atalhos. No centro da imagem,
encontram-se os menus para seleção de realização do teste não paramétrico para amostras
independentes: “Análise de potência, Meta- Análise, Relatórios, Estatística Descritiva, Estatística
Bayesiana, Tabelas, Comparar Médias, Modelo Linear Geral, Modelos lineares generalizados, Modelos
mistos, Correlacionar, Regressão, Log linear, Redes neurais, Classi�car, Redução de dimensão, Escala,
Testes não paramétricos”, que se dividem em: “Uma Amostra..., Amostras Independentes..., Amostras
Relacionadas... e Caixas de diálogo legadas, Previsão, Sobrevivência, Respostas múltiplas, Análise de
valor omisso.., Imputações Múltiplas, Amostras Complexas”. Na parte inferior da imagem, encontram-
se duas abas, denominadas “Visualização de dados e Visualização de variável”.
Será aberta uma caixa de diálogos denominada “Testes Não Paramétricos: Duas ou Mais
Amostras Independentes”. A Figura 3.6 mostra essa caixa de diálogos.
Figura 3.6 - Caixa de diálogos com opções para execução de teste não paramétrico para amostras
independentes no SPSS
Fonte: Elaborada pelo autor.
#PraCegoVer: a imagem é uma captura de tela do programa SPSS e mostra as opções existentes para
executar um teste não paramétrico: os botões “Objetivos, Campos, Con�gurações”; depois, a seguinte
descrição: “Identi�ca diferenças entre dois ou mais grupos usando teste não paramétricos. Os testes
não paramétricos não assumem que seus dados sigam distribuição normal”; abaixo, há a seguinte
caixa de diálogo: “Qual é o seu objetivo? Cada objetivo corresponde a uma con�guração padrão distinta
na guia Con�gurações que pode ser customizada posteriormente, se desejado”. Em seguida são
apresentadas as seguintes opções de seleção: “Comparar automaticamente distribuições entre grupos,
Comparar medianas entre grupos, Customizar análise”,estando a primeira opção marcada. Por �m, na
parte inferior da imagem, está exibida a descrição: “Comparar automaticamente as distribuições entre
os grupos usando o teste U de Mann-Whitney para 2 amostras, ou Kruskal-Wallis 1-way Anova para
amostras k. O teste escolhido varia com base em seus dados”; em seguida, os botões: “Executar, Colar,
Recon�gurar, Cancelar e Ajuda”.
Na parte superior, selecionamos o botão “Campos” para indicar os grupos e a variável de análise.
A Figura 3.7 mostra como deve �car a seleção.
Figura 3.7 - Caixa de diálogos com opções para execução de teste não paramétrico para amostras
independentes com a aba “Campos”, no SPSS, preenchida
Fonte: Elaborada pelo autor.
#PraCegoVer: a imagem é uma captura de tela do programa SPSS e mostra como devemos inserir as
variáveis para que o SPSS execute um teste não paramétrico para amostras independentes. Com isso,
são exibidas as seguintes abas: “Objetivo, Campos e Con�gurações”. A aba “Campos” é selecionada e
mostra as seguintes possibilidades de seleção: “Usar papéis prede�nidos e Usar designação de carro
customizado”, sendo o último selecionado. Depois, na caixa denominada “Campos”, é possível
selecionar os campos que serão testados, nesse caso, está selecionado o campo “Colesterol HDL”. Ao
�nal, na parte inferior da imagem, estão os botões: “Executar, Colar, Recon�gurar, Cancelar e Ajuda”,
estando o primeiro clicado.
Agora, é só clicar no botão “Executar”. A saída do programa mostra alguns resultados e alguns
grá�cos. Esses serão omitidos do texto por questões de espaço. No entanto sugerimos que você
replique os dados e faça o teste para ver a saída completa. A parte superior da saída do SPSS é
mostrada na Tabela 3.10.
Tabela 3.10 - Saída da execução do teste não paramétrico para amostras independentes no SPSS
Fonte: Elaborada pelo autor.
#PraCegoVer: a tabela possui três linhas e quatro colunas. A primeira coluna tem título
“Hipótese nula” e, a segunda linha, o texto “A distribuição de colesterol LDL é igual nas
categorias de Grupo”. A terceira linha contém os textos em lista “a. O nível de signi�cância é
,050; b. A signi�cância assintótica é exibida e c. A exata signi�cância é exibida para este
teste”. A segunda coluna contém título “Teste” e, na segunda linha, o texto “Amostras
Independentes de Teste U de Mann-Whitney”. A terceira coluna contém título “Sig” e
sobrescritos “a” e “b”. A quarta coluna tem título “Decisão” e, na segunda linha, o texto
“Rejeitar a hipóteses nula”.
A sumarização de teste de hipótese apresenta a hipótese nula do teste, no caso, o teste de Mann-
Whitney, com valor-p (coluna “Sig”) e com a decisão tomada a partir do resultado obtido. O valor-
p é 0,029, ou seja, menor que 0,05 (5% de signi�cância) o nível de signi�cância adotado. Portanto,
rejeita-se H . Perceba que não foi necessário transformar os dados em postos porque o
programa faz isso internamente.
Nesse momento, vamos apresentar um exemplo de aplicação no SPSS para amostras
dependentes. Para isso, vamos considerar os dados do estudo da pressão sistólica, em que foi
aplicado um tratamento e foi feita a medida antes e depois da aplicação, como visto
anteriormente. Para esse caso, os dados devem ser inseridos em colunas distintas.
Depois de inserirmos os dados, podemos selecionar o teste apropriado para o desenho do
estudo. Iremos, então, selecionar “Analisar”, “Testes não paramétricos” e “Amostras
Relacionadas…”, conforme mostra a Figura 3.8.
Hipótese nula Teste Sig. Decisão
A distribuição de Colesterol LDL é
igual nas categorias de Grupo.
Amostras Independentes de
Teste U de Mann-Whitney
0,029
Rejeitar a
hipótese
nula.
a. O nível de signi�cância é ,050.
b. A signi�cância assintótica é exibida.
c. A exata signi�cância é exibida para este teste.
a,b
c
0
Figura 3.8 - Seleção de menus para execução de teste não paramétrico para amostras dependentes
no SPSS
Fonte: Elaborada pelo autor.
#PraCegoVer: a imagem é uma captura de tela do programa SPSS. Nela, estão exibidos os menus que
devemos selecionar para executar um teste não paramétrico para amostras dependentes, sendo esses:
“Análise de potência, Meta- Análise, Relatórios, Estatística Descritiva, Estatística Bayesiana, Tabelas,
Comparar Médias, Modelo Linear Geral, Modelos lineares generalizados, Modelos mistos, Correlacionar,
Regressão, Log linear, Redes neurais, Classi�car, Redução de dimensão, Escala, Testes não
paramétricos”, que se dividem em: “Uma Amostra..., Amostras Independentes..., Amostras
Relacionadas...” e “Caixas de diálogo legadas, Previsão, Sobrevivência, Respostas múltiplas, Análise de
valor omisso... e Imputações Múltiplas”.
Feito isso, uma caixa de diálogos denominada “Testes Não Paramétricos: Duas ou Mais
Amostras Relacionadas” será aberta, como mostra a Figura 3.9. Basta clicar no botão “Executar”
que o teste será executado. A saída da execução do teste mostra algumas tabelas e, também,
alguns grá�cos. Para economizar espaço, mostraremos apenas uma das tabelas da saída, a qual
mostra o valor-p do teste.
Figura 3.9 - Caixa de diálogos com opções de teste não paramétrico para amostras dependentes no
SPSS
Fonte: Elaborada pelo autor.
#PraCegoVer: a imagem é uma captura de tela do programa SPSS e mostra as opções existentes de
testes na caixa de diálogos para execução de teste não paramétrico para amostras dependentes no
SPSS. Com isso, são exibidas as seguintes abas: “Objetivo, Campos e Con�gurações”. A aba
“Con�gurações” é selecionada e mostra as seguintes possibilidades de seleção: “Escolha
automaticamente os testes com base nos dados e Customizar testes”. Ao �nal, na parte inferior da
imagem, estão os botões: “Executar, Colar, Recon�gurar, Cancelar e Ajuda”, estando o primeiro clicado.
O valor-p é 0,009 menor que 0,005 ou 5% de signi�cância, usualmente usado. Logo, decidimos
por rejeitar a hipótese nula de igualdade entre os dados dos dois momentos, como visto antes. A
Tabela 3.11 mostra esses resultados.
Tabela 3.11 - Saída da execução do teste não paramétrico para amostras dependentes no SPSS
Fonte: Elaborada pelo autor.
#PraCegoVer: a tabela possui três linhas e quatro colunas. A primeira coluna tem título
“Hipótese nula” e, a segunda linha, o texto “A mediana de diferenças entre Antes e Depois é
igual a zero”. A terceira linha tem os textos em lista: “a. O nível de signi�cância é ,050. b. A
signi�cância assintótica é exibida”. A segunda coluna tem título “Teste” e, na segunda linha,
o texto “Amostras Relacionadas de Teste dos Postos Sinalizados de Wilcoxon”. A terceira
coluna tem título “Sig” e sobrescritos “a” e “b”. Na segunda linha, há o valor 0,009. A quarta
coluna tem título “Decisão” e, na segunda linha, o texto “Rejeitar a hipótese nula”.
O SPSS suporta outros desenhos de pesquisa. Cabe a você explorar o programa e aprender a
manusear as opções adequadamente. O que foi apresentado é uma parte de um grande mundo
da análise de dados da área da saúde.
Hipótese nula Teste Sig. Decisão
A mediana de
diferenças entre
Antes e Depois é igual
a 0.
Amostras Relacionadas de Teste
dos Postos Sinalizados de
Wilcoxon
0,009
Rejeitar a
hipótese nula.
a. O nível de signi�cância é ,050.
b. A signi�cância assintótica é exibida.
a,b
Existem muitas possibilidades de realização de testes estatísticos para análise de dados.
Portanto, é importante saber qual o teste mais adequado para o que se deseja, pois a seleção vai
depender diretamente do que se quer investigar e do desenho de pesquisa utilizado na
investigação. Isso vale para qualquer área de pesquisa.
Conhecimento
Teste seus Conhecimentos
(Atividade não pontuada)
Os testes não paramétricos são uma boa alternativa quando os pressupostos dos testes
paramétricos não são garantidos pelos dados amostrais de um estudo especí�co, pois são mais
�exíveis e menos exigentes quanto a pressupostos.
Sobre a aplicação de testes não paramétricos no SPSS, assinale a alternativa correta.
a) A disposição dos dados, tanto para análise de grupos independentes quanto
dependentes, deve ser igual naplanilha do SPSS.
b) O programa computacional SPSS exige conhecimento de linguagem de programação
para executar testes não paramétricos.
c) Os dados devem ser transformados em postos (ranks) antes de serem inseridos na
planilha do programa computacional SPSS.
d) Para realizar a execução de teste não paramétrico para amostras dependentes, é
preciso digitar os dados em colunas distintas no SPSS.
e) O teste de Bonferroni é um único que pode ser executado no SPSS para
comparações múltiplas de amostras independentes.
Material
Complementar
F I L M E
Análise de Variância (ANOVA)
Ano: 2018.
Comentário: o vídeo mostra uma aula de uma professora que apresenta
exemplos de aplicação do uso de ANOVA em dados diversos. A aula é
bastante didática e aplicada. Portanto, assista ao �lme para consolidar o
seu conhecimento sobre o tema desenvolvido.
Para conhecer mais sobre a indicação, acesse o trailer, disponível em:
TRA I LER
L I V R O
Controle estatístico de qualidade
Editora: E-book produzido pelo Laboratório Médico de Pesquisas Médicas
Avançadas (LAMPADA) da UERJ.
Autor: Sérgio Miranda Freire.
Comentário: o livro aborda muitas técnicas estatísticas para análise de
dados e, também, aplicações diversas com o uso do programa
computacional de análise de dados R. Vale a pena conhecê-lo, pois o autor
tem bastante experiência de análise de dados na área da saúde.
Conclusão
Prezado estudante! Apresentamos o teste ANOVA para um fator ou variável independente, para
estudos com amostras independentes. Consideramos, de forma breve, apresentar os pressupostos
para o correto uso dele, bem como exemplos de aplicação. Da mesma forma, apresentamos testes não
paramétricos, tanto para amostras independentes quanto dependentes, e mostramos exemplos
práticos e aplicados no programa computacional SPSS. Desejamos que tenha tido uma boa leitura e
continuamos a convidar você para continuar seus estudos sobre os testes aqui apresentados. Bons
estudos e até logo!
Referências
BUSSAB, Wilton W.de Oliveira.; MORETTIN, P. A. Estatística
básica. 6. ed. São Paulo: Editora Saraiva, 2017. Disponível em:
https://integrada.minhabiblioteca.com.br/#/books/9788547220228/
Acesso em: 27 ago. 2021.
ESTATÍSTICA e Probabilidade - Aula 14 - Análise de Variância (ANOVA). [S. l.: s. n.], 2018. 1 vídeo (13
min.). Publicado pelo canal UNIVESP. Disponível em: https://www.youtube.com/watch?
v=1ceP2FL5fzE&ab_channel=UNIVESP. Acesso em: 26 set. 2021.
FREIRE, S. M. Bioestatística básica. Rio de Janeiro: LAMPADA – Laboratório Médico de Pesquisas
Médicas Avançadas/ UERJ, 2021. Disponível em:
http://www.lampada.uerj.br/bioestatisticabasica/bioestatisticabasica.html. Acesso em: 11 fev. 2022.
Caro(a) estudante, a con�abilidade e a aceitação dos resultados obtidos pelos processos de medição
são muito relevantes no âmbito das questões metrológicas. Basicamente, nenhum tipo de medição que
possa ser realizada representa o verdadeiro valor mensurado. Essa variação normalmente é explicada
pelas limitações inerentes ao processo dimensional, as quais limitam as quantidades de medições que
podem ser realizadas, assim como está associada aos efeitos das demais variações que possam estar
presentes.
NORMANDO, D.; TJÄDERHANE, L.; QUINTÃO, C. C. A. A escolha do teste estatístico – um tutorial em
forma de apresentação em PowerPoint. Dental Press J. Orthod., [S. l.], v. 15, n. 1, p. 101-106, jan./fev.
https://integrada.minhabiblioteca.com.br/#/books/9788547220228/
https://www.youtube.com/watch?v=1ceP2FL5fzE&ab_channel=UNIVESP
https://www.youtube.com/watch?v=1ceP2FL5fzE&ab_channel=UNIVESP
http://www.lampada.uerj.br/bioestatisticabasica/bioestatisticabasica.html
2010. Disponível em: https://www.scielo.br/j/dpjo/a/qSQTjRQd4YzWQWSkDmBmspn/?
format=pdf&lang=pt.  Acesso em: 26 set. 2021.
SIQUEIRA, A. L.; TIBÚRCIO, J. D. Estatística na área da saúde: conceitos, metodologia, aplicações e
prática computacional. Belo Horizonte: Coopmed, 2011.
SOFTWARE IBM SPSS. IBM, [2021]. Disponível em: https://www.ibm.com/br-pt/analytics/spss-
statistics-software. Acesso em: 30 ago. 2021.
https://www.scielo.br/j/dpjo/a/qSQTjRQd4YzWQWSkDmBmspn/?format=pdf&lang=pt
https://www.scielo.br/j/dpjo/a/qSQTjRQd4YzWQWSkDmBmspn/?format=pdf&lang=pt
https://www.ibm.com/br-pt/analytics/spss-statistics-software
https://www.ibm.com/br-pt/analytics/spss-statistics-software

Continue navegando