Baixe o app para aproveitar ainda mais
Prévia do material em texto
ESTATÍSTICA APLICADA À SAÚDEESTATÍSTICA APLICADA À SAÚDE ANÁLISE DA VARIÂNCIAANÁLISE DA VARIÂNCIA (ANOVA) E TESTES NÃO(ANOVA) E TESTES NÃO PARAMÉTRICOSPARAMÉTRICOS Au to r ( a ) : M e . M a rc e l o Tava re s d e L i m a R ev i s o r : R e n a t a C r i s t i n a d e S o u z a C h a t a l ov Tempo de leitura do conteúdo estimado em 1 hora e 15 minutos. Introdução Prezado(a) estudante, seja bem-vindo(a) a esta leitura textual. Iremos apresentar os testes ANOVA e não paramétricos. O primeiro é um teste de hipóteses estatísticas, utilizado em pesquisas para comparar várias médias, ou seja, três ou mais. Essas médias podem ser oriundas de grupos independentes ou dependentes, no entanto iremos abordar apenas os casos de grupos independentes. A intenção é testar medidas populacionais a partir do uso de amostras aleatórias. Também apresentaremos exemplos em que serão descritos os cálculos matemáticos e a aplicação no programa computacional SPSS. O segundo teste a ser desenvolvido será o teste não paramétrico, utilizado como alternativa para o teste T quando os pressupostos não são garantidos. Além disso, serão apresentados exemplos e aplicações no SPSS. Desejamos a você uma excelente leitura. O objetivo da análise de conglomerados, também conhecida como análise de agrupamentos ou de cluster, é particionar um conjunto de dados em grupos que são internamente homogêneos e externamente distintos, ou seja, segmentar ou agrupar em grupos menores (subgrupos). A classi�cação é realizada com base em uma medida de similaridade ou dissimilaridade dentro e entre os grupos. Análise de Variância (ANOVA) #PraCegoVer: o infográ�co interativo, que tem como título “Análise de variância”, apresenta como plano de fundo a ilustração de vários documentos, planilhas, grá�cos, tabelas e um notebook. Acima desses elementos, aparecem mãos que parecem estar analisando os documentos. O infográ�co também apresenta quatro botões interativos, com seus respectivos subtítulos, que, ao serem clicados, expandem um texto. O primeiro botão interativo tem como título: “O que é?”. Ao ser clicado, surge o seguinte texto: “‘Análise de variância (comumente abreviada por ANOVA, da expressão em inglês analysis of variance) é um conjunto de modelos estatísticos utilizados para comparação entre médias de grupos de interesse’ (MARTINEZ, 2015, p. 263)”. O segundo botão interativo tem como título: “Como funciona?”. Ao ser clicado, surge o seguinte texto: “O procedimento considera a variância como medida de variabilidade, sendo que esta representa a variabilidade dos dados em relação à média aritmética deles. Então, se uma variável quantitativa contínua apresentar maior variabilidade em relação à média entre grupos comparados, poderemos supor que as médias diferem entre si”. O terceiro botão interativo tem como título: “Análise de variância”. Ao ser clicado, surge o seguinte texto: “o método foi batizado como análise de variância. ‘O procedimento de ANOVA, em sua forma mais simples, procura “quebrar” a variância amostral de uma variável quantitativa contínua em duas partes. Uma parte diz respeito à variabilidade entre os grupos. A outra parte mensura a variabilidade dentro dos grupos. Se a variabilidade entre os grupos é relativamente grande quando comparada à variabilidade dentro dos grupos, inferimos que há evidências de diferenças entre as médias populacionais relativas aos grupos’ (MARTINEZ, 2015, p. 264)”. O quarto botão interativo tem como título: “Pressupostos”. Ao ser clicado, surge o seguinte texto: “diz respeito à homocedasticidade, ou seja, é suposto que as variâncias dos grupos sejam semelhantes ou, então, muito próximas em valores. Essa condição precisa ser garantida, pois, caso não seja, poderemos obter resultados pouco con�áveis”. O que é? Como funciona? Análise de variância Pressupostos Análise de variância Fonte: Adaptado de hvostik/123RF. Além do pressuposto de homocedasticidade, outros precisam ser garantidos para a correta aplicação da ANOVA. De acordo com Martinez (2015, p. 267), Os grupos que comparamos são independentes entre si. Isso signi�ca que os grupos são compostos por indivíduos distintos e que o fato de um dado indivíduo ter sido escolhido para compor a amostra não interfere na escolha de outro indivíduo (ou seja, não são dados pareados). Deve-se ter apenas uma observação para cada indivíduo no conjunto de dados. A distribuição dos dados em cada grupo deve ser aproximadamente simétrica, de forma que a média seja de fato representativa do conjunto de dados. Para facilitar a compreensão, vamos considerar o exemplo descrito por Martinez (2015) sobre o estudo do Índice de Massa Corporal (IMC) de 53 mulheres portadoras de diabetes tipo 2. O estudo considera a informação da escolaridade dessas mulheres. A Tabela 3.1 apresenta os dados do estudo. Vamos analisá-la. Tabela 3.1 - Dados do estudo sobre IMC em mulheres Fonte: Martinez (2015, p. 265). #PraCegoVer: a imagem apresenta uma tabela com 10 colunas e quatro linhas. A primeira coluna contém os níveis de escolaridade das mulheres, que são: fundamental, médio e superior. As seis colunas seguintes contêm os dados de IMC para as mulheres, em quilograma por metro quadrado, com o título “Observações do IMC”. A oitava coluna contém o tamanho de cada grupo e é representada pela letra n, sendo 30 para o grupo com ensino fundamental, 13 para o com ensino médio e 10 para o com ensino superior, intitulada “n”. A nona coluna contém os valores médios de IMC para cada grupo, sendo, respectivamente, 29,98, 26,82 e 24,81; com o título “Média”. A décima coluna contém os valores de desvio padrão para o IMC de cada grupo, sendo, respectivamente, 3,58, 358 e 3,78; com o título “Desvio padrão”. Conforme Hair et al. (2009), para realizar uma análise de cluster cuidadosa, são necessários métodos com as seguintes características: (3.1). Vamos explicar cada termo. O que antecede o sinal de igualdade representa a soma de quadrados dos desvios das observações em relação à média geral, ou seja, à média de todos os dados da amostral; esse termo será denotado na análise de variância por Soma de Quadrados Total (SQT). O primeiro termo depois da igualdade é a soma de quadrados dos desvios das observações de cada grupo em relação à média do grupo; ele será denotado por Soma de Quadrados Dentro do grupo (SQD). O último termo é a soma de quadrados dos desvios da média = +∑ k i=1 ∑ ni j=1 ( − )xij x̄ 2 ∑ k i=1 ∑ ni j=1 ( − )xij x̄i 2 ∑ k i=1 ni( − )x̄i x̄ 2 de cada grupo em relação à média total dos dados e ele será denotado por Soma de Quadrados Entre grupos (SQE). Então, teremos, de forma análoga, que: . O signi�cado de cada sigla é: SQT = Soma de Quadrados Total; SQD = Soma de Quadrados Dentro do grupo; SQE = Soma de Quadrados Entre grupos. Para os dados de IMC, temos que a média amostral geral é igual a . A SQT será dada por: (3.2). Ressaltamos que a quantidade de observações por grupo é dada por e , respectivamente para as mulheres com escolaridade correspondente ao ensino fundamental, médio e superior. O elemento representa cada uma das observações do conjunto de dados. Os termos SQE e SQD, de acordo com a Equação 3.1, são dados por: De forma geral, o Código de Nuremberg estabeleceu que nenhum ser humano poderia ser submetido a projetos de pesquisa sem o seu devido consentimento, sendo o primeiro documento a ter alcance internacional, por conta, principalmente, do repúdio da comunidade internacional quanto aos crimes cometidos no período nazi-fascista (PALÁCIOS; REGO; SCHRAMM, 2009). A necessidade de regulamentação de pesquisas em seres humanos, para proteger seus participantes, e o desejo do corpo médico ter sua própria regulamentação foram motivações para a criação da Declaração de Helsinque, a qual foi aprovada pela Associação Médica Mundial, e cuja primeira versão é de 1964 (PALÁCIOS; REGO; SCHRAMM, 2009). e (3.4), Em 1988, o Conselho Nacional de Saúde (CNS) do Brasil estabeleceu normas que tratam da ética empesquisa com seres humanos e, em 10 de outubro de 1996, aprovou as diretrizes/normas que regulamentam pesquisas com seres humanos, denominada Resolução 196/96 (PALÁCIOS; REGO; SCHRAMM, 2009). A Resolução 196/96 estabeleceu princípios básicos para permitir apreciação da ética em protocolos de pesquisa, criando os Comitês de Ética em Pesquisa (CEP) e a Comissão Nacional de Ética em Pesquisa (Conep). O conteúdo da resolução incorpora as experiências históricas da regulamentação sobre ética em pesquisa, principalmente com base no Código de Nuremberg (1947), na Declaração dos Direitos Humanos (1948), na Declaração de Helsinque (desde a primeira versão de 1964), nas Diretrizes Internacionais para a Revisão Ética de Estudos Epidemiológicos e nas Diretrizes Éticas Internacionais para Pesquisas Biomédicas Envolvendo SQT = SQD + SQE = 27, 66x̄ = 796, 49∑ 3 i=1 ∑ ni j=1 ( − 27, 66)xij 2 = 30, = 13n1 n2 = 10n3 xij SQE = 30. + 13. + 10. = 142, 67(28, 98 − 27, 66)2 (26, 82 − 27, 66)2 (24, 81 − 27, 66)2 QME = SQE k−1 QMD = SQD n−k Seres Humanos, assim como em conteúdos de leis promulgadas após a aprovação da Constituição de 1988 (PALÁCIOS; REGO; SCHRAMM, 2009; NOVOA, 2014). Samohyl (2009) estabelece que o grá�co de soma acumulada (CUSUM) é um aprimoramento do grá�co de controle X de Shewhart, este, de�nido como sendo a forma de monitoramento da média de um processo especí�co cuja característica de qualidade de interesse X é uma grandeza mensurável representada. Assim sendo, o CUSUM é o mais apropriado para se reconhecer o histórico dos dados, característica ausente em grá�cos mais simples, e também para identi�car pequenas alterações nos processos muito antes dos alarmes dos grá�cos X, considerados como LSC e LIC. A ANOVA é apresentada em forma de tabela com alguns desses elementos calculados. A Tabela 3.2 mostra uma Tabela ANOVA genérica para um fator. Tabela 3.2 - Tabela ANOVA genérica Fonte: Adaptada de Martinez (2015). #PraCegoVer: a imagem apresenta um modelo de Tabela ANOVA com cinco colunas e quatro linhas. A primeira linha contém os títulos de cada coluna, sendo que a primeira informa as fontes de variabilidade, de acordo com as somas de quadrados: entre grupos, dentro de grupos e total (em cada linha). A segunda coluna informa, em cada linha, os graus de liberdade associados a cada termo. A terceira coluna deve conter os valores de somas de quadrados para cada fonte de variação. A quarta coluna deve conter os quadrados médios para cada fonte de variação. A quinta coluna deve conter a estatística F do teste ANOVA. Para os dados do estudo do IMC, considerando os grupos e as informações necessárias para o uso do teste ANOVA, a tabela �cará apresentada conforme mostra o modelo a seguir. μμ Fonte de variação Graus de liberdade Soma de Quadrados Quadrados médios Estatística F Entre grupos SQE QME Dentro de grupos SQD QMD Total SQT k − 1 F = QME QMD n − k n − 1 Tabela 3.3 - Tabela ANOVA para o estudo do IMC. Fonte: Adaptada de Martinez (2015). #PraCegoVer: a imagem apresenta uma tabela com cinco colunas e quatro linhas. A primeira linha contém os títulos de cada coluna, sendo que a primeira informa as fontes de variabilidade, de acordo com as somas de quadrados: entre grupos, dentro de grupos e total (em cada linha). A segunda coluna informa, em cada linha, os graus de liberdade associados a cada termo, sendo esses, respectivamente, 2 (linha dois), 50 (linha três) e 52 (linha quatro). A terceira coluna contém os valores de somas de quadrados para cada fonte de variação, sendo, respectivamente, 142,67 (linha dois), 653,82 (linha três) e 796,79 (linha quatro). A quarta coluna contém os quadrados médios para cada fonte de variação: 71,33 (linha dois) e 13,08 (linha três). A quarta linha está vazia. A quinta coluna contém a estatística F do teste ANOVA, que é 5,45. Na Tabela ANOVA, é possível perceber, a partir do resultado da Estatística F, que o valor representa QME um pouco mais do que cinco vezes o QMD, indicando existência de maior variação amostral do IMC entre os grupos do que dentro dos grupos. No entanto é possível con�rmar essa suspeita com o teste F. Apesar de a eticidade e a cienti�cidade da pesquisa cientí�ca, em especial, daquela realizada com seres humanos, serem aspectos que caminham juntos, não cabe aos Comitês de Ética em Pesquisa (CEP) a emissão de pareceres sobre a metodologia utilizada no desenvolvimento dos estudos (NOVOA, 2014). A distribuição de probabilidades F de Snedecor é útil para testar hipóteses de igualdade entre k médias populacionais, ou seja, , a partir de uma Tabela ANOVA. Como hipótese alternativa, considera-se que pelo menos uma média é diferente das demais (MARTINEZ, 2015). Se a hipótese nula H for verdadeira, deveremos assumir que o valor da estatística F da Tabela ANOVA é resultado de uma distribuição F de Snedecor, com e graus de liberdade (MARTINEZ, 2015). Para testar a hipótese H ao nível de 5% de signi�cância, comparamos a : = = … =H0 μ1 μ2 μk 0 k − 1 n − k 0 estatística F com um valor F* tabelado com e graus de liberdade da distribuição F de Snedecor. Se F>F*, deveremos decidir por rejeitar H ao nível de signi�cância α. Dito isso, vamos considerar os dados do exemplo do IMC de mulheres, lembrando que o valor obtido na Tabela ANOVA é F = 5,45. O valor F* pode ser obtido em tabelas disponíveis em livros de estatística, em páginas da internet ou em programas computacionais que possuem a rotina do teste implementada, por exemplo, uma planilha do Microsoft Excel. Temos que grupos, de acordo com a escolaridade, e um total de observações do estudo. Portanto, teremos que obter um valor para F* com 2 e 50 graus de liberdade. Da tabela, teremos que F* = 3,183 com α = 0,05 (5% de signi�cância). Comparando os valores, observamos que F>F*, portanto, decidimos por rejeitar H ao nível de 5%, ou seja, pelo menos uma das médias de IMC é diferente das demais. Para complementar a análise, já que o teste F apenas sinaliza que há alguma média diferente, precisamos utilizar como teste post hoc ou, a posteriori, teste de comparações múltiplas, o que apresentaremos a seguir, exempli�cando com os dados do estudo do IMC de mulheres. Não existem sistemas de medição que possam ser classi�cados como ideais. Dessa forma, é atribuição direta dos engenheiros de�nir e implantar sistemas de medição que apresentem propriedades estatísticas consideradas adequadas. Os abusos cometidos em nome do Estado e da Ciência, apurados e denunciados mundialmente em 1947 no Relatório �nal do Tribunal Internacional de Nuremberg, levaram à elaboração do primeiro Código de conduta em pesquisas, internacionalmente aceito – o Código de Nurembergue (1947) (PALÁCIOS; REGO, SCHRAMM, 2009, p. 607). Cada área de pesquisa, no geral, tem preferência por utilizar um teste ou outro. Na área da saúde, por exemplo, é comum o uso do teste de Bonferroni. Portanto, será o teste desenvolvido neste material. Para conhecer os demais testes, você pode consultar as referências bibliográ�cas ou outros textos que tratam do assunto. O teste de Bonferroni recebeu esse nome para referenciar o trabalho do matemático italiano Carlo Emilio Bonferroni (1892-1960). O teste é realizado considerando a existência de k grupos comparados dois a dois (MARTINEZ, 2015). Para isso, deveremos obter a quantidade (3.5), onde os índices e referenciam os grupos do estudo (sempre considerando ). O termo é o percentil da distribuição t de Student com graus de liberdade, podendo ser obtido na tabela da distribuição t de Student, disponível em livros de estatística, páginas da internet ou programas computacionais. Martinez (2015, p. 274) a�rma que “a área sob a curva t de Student de a é , para um nível de signi�cância α”. Assim, . O termo c representa a quantidade de pares de médias que serão comparadas. k − 1 n − k 0 k = 3 n = 53 0 = .Dij tB QMD.( + )1 ni 1 nj − −−−−−−−−−−−−− √ i j i ≠ j tB n − k −tB tB 1 − α/c =tB t(n−k;1−α/c) A pesquisa epidemiológica tem por base acoleta sistemática de dados sobre eventos associados, principalmente, à saúde das pessoas pertencentes a populações de interesse. O tratamento analítico dado aos fatores pesquisados tem base em três procedimentos, a saber, a mensuração de variáveis aleatórias, a estimação de parâmetros populacionais e o uso de testes estatísticos (BLOCH; COUTINHO, 2009). Vamos considerar para representar o grupo de mulheres com ensino fundamental e para representar o grupo de mulheres com ensino médio. Perceba que grupos, pois também temos o grupo de mulheres com ensino superior. Além disso, graus de liberdade para a quantidade QMD da Tabela ANOVA. Então, o percentil da distribuição t de Student será igual a . Temos que calcular , tal que: . Agora, calculamos a diferença absoluta entre as médias amostrais dos grupos, dada por . Comparamos esse resultado com . Temos que 2,16 < 2,97, portanto, não encontramos evidências de diferença signi�cativa entre as médias de IMC de mulheres com ensino fundamental e com ensino médio. Precisamos comparar o grupo de mulheres com ensino fundamental com o grupo com ensino superior e, da mesma forma, o grupo com ensino médio com o grupo com ensino superior. O procedimento é análogo, portanto, vamos apresentar os cálculos de forma resumida, conforme Martinez (2015). A Tabela 3.4 mostra os cálculos e os resultados. i = 1 j = 2 k = 3 n − k = 53 − 3 = 50 = = = 2, 477t50;1−0,025 t50;0,975 tB D12 = 2, 477. = 2, 97D12 13, 08. ( + )1 30 1 13 − −−−−−−−−−−−− √ | − | = |28, 98 − 26, 82| = 2, 16x̄1 x̄2 = 2, 97D12 Tabela 3.4 - Resultados do teste de Bonferroni para o estudo sobre IMC de mulheres Fonte: Adaptada de Martinez (2015). #PraCegoVer: a imagem apresenta uma tabela que contém quatro colunas e quatro linhas. Na primeira linha de cada coluna, estão os títulos. A primeira coluna explicita, em cada linha, a comparação que está sendo realizada entre os grupos com ensino fundamental, médio e superior. A segunda coluna apresenta os cálculos da diferença absoluta entre as médias em cada linha, sendo, respectivamente, 2,16, 4,17 e 2,01. A terceira coluna apresenta o resultado calculado da quantidade Dij, sendo, respectivamente, 2,97, 3,27 e 377. A quarta coluna apresenta a resposta, se foi encontrada diferença signi�cativa ou não na comparação, sendo “não” para fundamental x médio, “sim” para fundamental x superior e “não” para médio x superior. O procedimento pode ser realizado para comparar vários pares de médias. Perceba, também, que dizer que não existem evidências de diferenças signi�cativas não quer dizer que as médias populacionais não sejam, realmente, diferentes, pois o resultado está baseado em amostras. Se outras amostras forem utilizadas, os resultados também podem ser diferentes. Conhecimento Teste seus Conhecimentos (Atividade não pontuada) Muitos estudos são realizados para comparar medidas quantitativas entre grupos; muitas vezes, essas comparações são feitas entre três ou mais grupos. Para essa situação, se houver intenção em utilizar testes estatísticos, o mais apropriado será o teste ANOVA. No entanto o teste ANOVA não é su�ciente para indicar onde se localizam as diferenças, caso existam. Assinale a alternativa que apresenta corretamente o que é necessário para que as diferenças sejam identi�cadas. a) Identi�car a maior média e assinalar como medida que está causando a diferença entre as demais médias. b) Identi�car a menor média e assinalar como medida que está causando a diferença entre as demais médias. c) Selecionar uma das médias e concluir que ela é a fonte causadora de signi�cância estatística. d) Realizar teste complementar para veri�car, aos pares, qual ou quais médias diferem das demais. e) Veri�car se tem alguma diferença maior que 0,05 e, se houver, concluir que são signi�cativamente diferentes. O SPSS (Statistical Package for Social Sciences) é um programa para análise de dados, desenvolvido pela empresa IBM®. É de fácil uso, pois não exige conhecimento de programação dos usuários, apesar de possuir módulo para inserção de linhas de comandos. A análise de dados é feita com a seleção de menus na barra de ferramentas do programa. Na página da IBM, é possível fazer download de versão para teste, que dura 30 dias, também é possível comprar a licença de�nitiva. Estudantes e docentes possuem facilidades na aquisição (SOFTWARE..., 2021). Aula Prática no SPSS: Análise de Variância (ANOVA) A aplicação será realizada com os dados do IMC de mulheres, apresentados na seção anterior, as quais foram divididas em grupos de acordo com a escolaridade, que �cou codi�cada:1=fundamental; 2=médio; 3=superior. Não esqueça de salvar os dados no programa. Para realizar o teste ANOVA no SPSS, basta selecionar o menu “Analisar” e as opções “Comparar Médias” e “ANOVA de um fator…”. Ao selecionar o menu “ANOVA de um fator…”, aparecerá uma caixa de diálogos com alguns espaços que precisam ser preenchidos com informações sobre os dados. É necessário indicar qual é a variável dependente (IMC) e qual é o fator (variável independente: escolaridade). Figura 3.1 - Preenchimento da caixa de diálogos para teste ANOVA no SPSS Fonte: Elaborada pelo autor. #PraCegoVer: a imagem é uma captura de tela do programa SPSS. Nela, são exibidos os campos preenchidos com os nomes das colunas de dados. Um espaço chamado “Lista de Variáveis Dependentes” deve ser preenchido com a coluna dos valores de IMC; outro espaço, chamado “Fator”, deve ser preenchido com a coluna de escolaridade. Além disso, são apresentados os seguintes botões, no lado direito da tela: “Contrastes”, “Posteriori”, “Opções” e “Bootstrap”. Na parte inferior, há os botões: “OK”, “Colar”, “Recon�gurar”, “Cancelar” e “Ajuda”. Por �m, encontra-se uma caixa de diálogo a ser ativada, ou não, com o seguinte texto: “Estimar o tamanho do efeito para testes gerais”. Agora, precisamos clicar no botão “Posteriori”, no lado direito da caixa de diálogos, e em “Análise de Variância Unidirecional” para selecionar o teste de comparações múltiplas. Como apresentamos o teste de Bonferroni no texto, vamos selecionar a opção referente a ele. A Figura 3.2 mostra a caixa de diálogos citada. Figura 3.2 - Caixa de diálogos para selecionar o teste de comparações múltiplas no SPSS Fonte: Elaborada pelo autor. #PraCegoVer: a imagem é uma captura de tela do programa SPSS. Nela, está apresentada uma caixa de diálogos com opções de seleção de testes de comparações múltiplas. A caixa que antecede o nome Bonferroni é marcada para que ele seja utilizado na análise dos dados. Além disso, estão presentes as seguintes opções de seleção de “Variâncias iguais presumidas”: “DMS, Bonferroni, Sjdak, Scheffe, R-E- G-W F, R-E-G-W Q, S-N-K, Tukey, B de Tukey, Duncan, GT2 de Hochberg, Gabriel, Waller-Ducan” (no qual é possível con�gurar a razão de erro do TipoI/TipoII) e “Dunnet” (no qual é possível estabelecer a categoria de controle, além de de�nir se o texto possuirá dois lados, <Controle ou >Controle). De “Variâncias iguais não presumidas”, há as seguintes opções: “T12 de Tamhane, T3 de Dunnett, Games- Howell; C de Dunnett”. No “Teste de hipótese nula”: “Use o mesmo nível de signi�cância [alpha] que a con�guração em Opções” e “Especi�que o nível de signi�cância [alfa] para o teste post hoc”. Após todas as possibilidades de con�guração, há os botões “Continuar”, “Cancelar” e “Ajuda”. Seleção de opções Na caixa de diálogos “ANOVA de um fator: Comparações Múltiplas Posteriori”, selecionamos o botão referente ao teste de Bonferroni e clicamos no botão “Continuar”, na parte inferior, e, na caixa seguinte, clique no botão “Opções…”; na caixa de diálogos que aparecer, selecione a opção “Descritivo” e “Teste de homogeneidade das variâncias” e clique em “Continuar” e em “OK”. A imagem a seguir demonstra como deverá �car a seleção. Figura 3.3 – Caixas de opções do SPSS para realização de ANOVA. Fonte: Elaborada pelo autor. #PraCegoVer: a imagem é uma captura de tela do programa SPSS. A �gura mostra uma caixa de diálogos com opçõesde seleção para serem apresentadas na saída do programa. Foram selecionadas as opções “Descritivo” e “Teste de homogeneidade das variâncias” para serem apresentadas nos resultados. Além dessas opções, ainda são exibidas nas ferramentas as seguintes possibilidades de ajuste: em “Estatística” – “Efeitos �xos e aleatórios, Teste de Brown-Forysthe e Teste de Welch”; “Grá�co de médias”; em “Valores omissos” – “Excluir casos análise por análise e Excluir casos por métodos listwise”; em “Intervalos de Con�ança”, é possível ajustar o nível de con�ança do teste. Após todas as con�gurações, na parte inferior, há os botões: “Continuar”, “Cancelar” e “Ajuda”. A saída apresentada com a seleção de todas as opções feitas é um tanto extensa e será apresentada em duas partes. A primeira parte mostra o teste de homogeneidade de variâncias para o IMC de acordo com cada grupo de mulheres. Tabela 3.5 – Teste de homogeneidade de variâncias obtido no SPSS Fonte: Elaborada pelo autor. #PraCegoVer: a tabela contém duas linhas e cinco colunas. A primeira coluna tem a primeira linha vazia e, na segunda linha, o texto “Com base em média”. A segunda coluna contém o título “Estatística de Levene” e, a segunda linha, o valor 0,1052. A terceira coluna tem título “df1” e a segunda linha, o valor 2. A quarta coluna tem título “df2” e a segunda linha, o valor 50. A quinta coluna tem título “Sig.” e a segunda linha, o valor 0,9003. Para efeitos didáticos, vamos considerar que os dados de IMC são aderentes à distribuição de probabilidades normal, um dos pressupostos para a realização da ANOVA. No entanto essa veri�cação precisa ser feita antes da ANOVA ser executada. O teste de homogeneidade de variâncias, feito com o teste de Levene, indica que não há evidência de variâncias diferentes. Observe, na linha “Com base em média” e na coluna “Sig”, o valor-p 0,900, maior que o nível de signi�cância usual 0,05. Então, o pressuposto de homocedasticidade está garantido. Ainda como parte dos resultados do SPSS, a Tabela 3.6 apresenta a ANOVA obtida com a execução do programa. É por meio desses resultados que iremos identi�car se os grupos diferem, em média, entre si. Observe. Tabela 3.6 – ANOVA obtida no SPSS para os dados do IMC Fonte: Elaborada pelo autor. #PraCegoVer: a tabela contém quatro linhas e seis colunas. A primeira coluna contém a primeira linha vazia e, na segunda linha, o texto “Entre grupos”; na terceira linha, o texto ”Nos grupos”; na quarta linha, o texto “Total”. A segunda coluna contém título “Soma de quadrados” e, na segunda linha, o valor 142,6416; na terceira linha, o valor 653,8459; na quarta linha, o valor 796,4875. A terceira coluna contém título “df” e, na segunda linha, o valor 2; na terceira linha, o valor 50; na quarta linha, o valor 52. A quarta coluna contém título “Quadrado Médio” e, na segunda linha, o valor 71,32; na terceira linha, o valor 13,08. A quarta linha está vazia. A quinta coluna contém título “Z” e, na segunda linha, o valor 5,45. A terceira e a quarta linhas estão vazias. A sexta coluna contém título “Sig.” e, na segunda linha, o valor 0,0072. A terceira e a quarta linhas estão vazias. Analisando os resultados obtidos na Tabela ANOVA, observamos a estatística F com valor 5,45, como visto anteriormente, mas temos, também, o valor-p do teste igual a 0,0072, indicando que a hipótese nula de igualdade entre as médias deve ser rejeitada. Temos, então, que fazer as comparações múltiplas para identi�car onde se encontram as diferenças. A Tabela 3.7 apresenta o resultado obtido com o SPSS com o teste de Bonferroni. Tabela 3.7 – Comparação múltipla (teste de Bonferroni) obtida no SPSS para os dados do IMC Fonte: Elaborada pelo autor. #PraCegoVer: a tabela contém cinco linhas e cinco colunas. A primeira coluna contém título “(I) Escolaridade”, na segunda, terceira e na quinta linha, o valor 1; na quarta linha, o valor 2. A segunda coluna contém título “(J) Escolaridade” e, na segunda linha, o valor 2; na terceira linha, o valor 3; na quarta linha, o valor 1 e, na quinta linha, o valor 3. A terceira coluna contém título “Diferença média (I-J)” e, na segunda linha, o valor 2,1579; na terceira linha, o valor 4,1703; na quarta linha, o valor negativo 2,1579 e, na quinta linha, o valor 2,0125. A quarta coluna tem o título “Erro Padrão” e, na segunda linha, o valor 1,2008; na terceira linha, o valor 1,3205; na quarta linha, o valor 1,2008 e, na quinta linha, o valor 1,5211. A quinta coluna contém título “Sig.” e, na segunda linha, o valor 0,2351; na terceira linha, o valor 0,0081; na quarta linha, o valor 0,2351 e, na quinta linha, o 0,5755. Para veri�car onde existe diferença signi�cativa, podemos avaliar os resultados da tabela “Comparações múltiplas". As duas primeiras colunas indicam as possíveis combinações entre os grupos (pares de médias). A coluna “Diferença média (I-J)” mostra as diferenças de médias e, na coluna “Sig”, temos os valores-p do teste associado. Se forem menores que o nível de signi�cância adotado, rejeitamos H0, caso contrário, não rejeitamos H0. Apenas na comparação entre Grupo 1 (fundamental) e Grupo 3 (superior) identi�camos valor-p igual a 0,008, menor que 0,05 (5% de signi�cância). Nas outras comparações, Grupo 1 (fundamental) com Grupo 2 (médio), o valor-p é 0,235 e, entre Grupo 2 (médio) e Grupo 3 (superior), o valor-p é igual a 0,575. praticar Vamos Praticar (I) Escolaridade (J) Escolaridade Diferença média (I-J) Erro Padrão Sig. 1 2 2,1579 1,2008 0,2351 1 3 4,1703 1,3205 0,0081 2 1 -2,1579 1,2008 0,2351 1 3 2,0125 1,5211 0,5755 Considere o exemplo apresentado sobre o estudo do IMC de mulheres de acordo com a escolaridade. Suponha que você deseja replicar o procedimento de análise de variância, mas quer ser mais rigoroso na realização do teste estatístico. Portanto, decidiu utilizar nível de signi�cância de 1% (0,01). Qual seria, então, o procedimento a ser realizado? Qual o valor do percentil da distribuição F de Snedecor? Os testes estatísticos que exigem condições ou pressupostos para serem utilizados, como a aderência para a distribuição normal, a homogeneidade de variâncias, dentre outros, são ditos testes paramétricos, ou seja, as “estatísticas de testes usam as estimativas dos parâmetros de determinada distribuição” (SIQUEIRA; TIBÚRCIO, 2011, p. 295). Iremos descrever, neste material, um teste não paramétrico, ou seja, um teste que não exige pressupostos como os descritos no parágrafo anterior. Será aplicado para variáveis quantitativas e para comparar distribuições de grupos “em situações em que a distribuição da variável de interesse não é conhecida ou tem comportamento não normal” (SIQUEIRA; TIBÚRCIO, 2011, p. 295). Vale ressaltar que, quando as autoras falam de comportamento “não normal” querem dizer que a variável não tem aderência para a distribuição de probabilidades normal. Portanto, não atende ao pressuposto de um teste paramétrico. Testes Não Paramétricos (Amostras Independentes) Para exempli�car, consideremos o exemplo apresentado por Martinez (2015), o qual considera uma amostra de tamanho n = 10 valores de altura de indivíduos (em centímetros), dados por 164, 184, 165, 180, 181, 159, 168, 167, 169 e 170. Para transformar esses valores em postos, consideramos, para o menor valor de altura, o posto igual a 1 e para o segundo menor valor de altura, o posto igual a 2 e assim por diante. Os valores de alturas transformados em postos serão, então, dados por 2, 10, 3, 8, 9, 1, 5, 4, 6, e 7, respectivamente. Quando houver observações iguais, a�rma-se a existência de empates. Para exempli�car uma situação dessas, consideremos que os valores de altura (em centímetros) sejam 164, 184, 165, 180, 181, 159, 168, 165, 169 e 170. Observe que existem dois valores de altura 165 cm, ou seja, temos um empate na amostra. Para transformarmos os dados em postos, atribuímos valores de ordem e, para os valores iguais, atribuímos a média dos postos. Considerando os postos para os valores, teremos 2, 10, 3, 8, 9, 1, 5, 4, 6 e 7, respectivamente. Observeque os valores de altura 165 cm recebem postos 3 e 4. No entanto extraímos a média aritmética desses postos e substituímos para torná-los de�nitivos, ou seja, 2, 10, 3,5, 8, 9, 1, 5, 3,5, 6 e 7. Observe que o posto agora é 3,5, porque a média entre 3 e 4 é igual a 3,5. Se existirem mais de dois valores iguais, devemos aplicar a mesma regra apresentada para valores empatados. Para comparar dois grupos independentes, utilizamos o teste não paramétrico de Mann-Whitney, também conhecido por Mann-Whitney-Wilcoxon, ou ainda, teste da soma dos postos de Wilcoxon (SIQUEIRA; TIBÚRCIO, 2011). A construção do teste inicia-se com a obtenção dos postos das observações amostrais como se fossem um grupo único. Em seguida, construímos as hipóteses, de acordo com Martinez (2015, p. 284), iguais a A nova resolução divide-se em 13 partes e apresenta-se mais longa e �losó�ca, levando-se em consideração referenciais básicos de bioética, como o reconhecimento e a a�rmação da dignidade, a liberdade, a autonomia, a bene�cência, a não male�cência, a justiça e a equidade, dentre outros que visam assegurar os direitos e deveres que dizem respeito aos participantes da pesquisa, à comunidade cientí�ca e ao Estado (NOVOA, 2014, p. VII). Martinez (2015, p. 284) também declara que “entendemos que λ é um parâmetro que mede a ‘distância’ entre essas curvas. A hipótese nula, então, estabelece que λ = 0, enquanto a hipótese alternativa estabelece λ ≠ 0”. O autor se refere às curvas (grá�cos) geradas pelas distribuições ou pelas populações de dados que estão sendo testados. Para exempli�car, vamos considerar a aplicação descrita por Martinez (2015) sobre o colesterol LDL em homens que praticam atividade física e em homens sedentários, para efeitos de comparação entre eles. Os níveis séricos de colesterol LDL, em mg/dl, para o grupo de homens que pratica atividade física são dados por: 126, 81, 86, 121, 95, 106 e 123. Para os sedentários, os valores são: 122, 90, 203, 122, 182, 190, 163 e 198. Em seguida, devemos obter os postos dos valores amostrais, lembrando que, nesse momento, é preciso considerar os dados como se fossem de um único grupo, para, então, obter as somas dos postos, representadas por W e W , respectivamente, para representar o grupo de homens que pratica atividade física e o de homens sedentários. A Tabela 3.8 apresenta os dados originais, os postos e a soma dos postos. 1 2 Tabela 3.8 - Dados originais, postos e soma dos postos Fonte: Martinez (2015, p. 286). #PraCegoVer: a imagem apresenta uma tabela que contém três colunas e 18 linhas. A primeira coluna contém todos os dados de colesterol para todos os homens participantes do estudo: 81, 8690, 95, 106, 121, 122, 122, 123, 126, 163, 182 190, 198 e 203 e, por �m, uma linha destinada para os dois postos. A segunda coluna contém os valores de postos para o grupo de homens que pratica atividade física: 1, 2, 0, 4, 5, 6, 0, 0, 9, 10, 0, 0, 0, 0 e 0, somando W = 37. Na terceira coluna, temos os postos atribuídos aos dados de homens sedentários: 0, 0, 3, 0, 0, 0, 7,5, 7,5, 0, 0, 11, 12, 13, 14, 15, totalizando a soma de W = 83. A estatística do teste de hipóteses W será dada pelo menor valor obtido entre W e W . Teremos, então, que será W = 37. Agora, consideremos m como o valor médio esperado para W, se a hipótese H for verdadeira. O valor para essa medida será dado por (3.6). Consideramos como o tamanho amostral com a menor soma de postos e como o tamanho amostral com a maior soma. Teremos, então, que e . Agora, substituindo em , teremos . Continuando, devemos obter uma medida representada pela letra grega (lê-se “ni”), para representar uma medida de variação amostral de W, supondo que a hipótese H é verdadeira. Podemos obter por (3.7). Martinez (2015, p 287) ressalta que “o número 12 que aparece no denominador dessa expressão origina-se de propriedades matemáticas de soma de postos, e não de nossos dados amostrais”. O valor numérico para será dado por . Ainda sob o pressuposto de que H seja verdadeira, podemos considerar a medida (3.8), com base em amostras aleatórias de tamanho indivíduos, com distribuição normal padrão e, se considerarmos o nível de signi�cância α, iremos rejeitar a hipótese nula H quando o valor for menor que ou maior , considerando que o intervalo que vai de a delimitará uma região que corresponderá a da área central da curva normal padrão (BUSSAB; MORETTIN, 2017). Considerando α = 0,05, teremos que , de acordo com a tabela da distribuição normal padrão. Então, rejeitaremos H quando for menor que -1,96 ou maior que 1,96. Para os dados do exemplo, teremos que , 1 2 1 2 0 m = .( + +1)n1 n1 n2 2 n1 n2 = 7n1 = 8n2 m m = = 56 7.(7+8+1) 2 ν 0 ν ν = . .( + +1)n1 n2 n1 n2 12 − −−−−−−−−−− √ ν ν = = 8, 64 7.8.(7+8+1) 12 − −−−−−−− √ 0 =z0 W−m ν n = +n1 n2 0 z0 −z∗ z∗ −z∗ z∗ (1 − α) .100 = 1, 96z∗ 0 z0 = = −2, 2z0 37−56 8,64 portanto, rejeitaremos H ao nível de 5% de signi�cância, pois -2,2 < -1,96. Concluímos que temos evidências de que os homens que fazem atividades físicas tendem a apresentar níveis séricos de colesterol LDL diferentes dos homens sedentários. Conhecimento Teste seus Conhecimentos (Atividade não pontuada) Podemos considerar que o erro de medição sempre estará presente quando a indicação do sistema de medição não relacionar corretamente com o valor verdadeiro do mensurando. Sendo assim, de�ne-se como erro de medição a diferença entre o valor indicado pelo sistema de medição e o valor verdadeiro do componente ou da peça dimensionada. a) Para utilizar um teste não paramétrico, os dados precisam ser aderentes à distribuição de probabilidades normal. b) A homocedasticidade é condição necessária para utilizar um teste não paramétrico em análise de dados. c) Ao usarmos um teste não paramétrico, estamos considerando que as distribuições são simétricas em torno de um eixo. d) O uso de teste não paramétrico é realizado quando os pressupostos dos testes paramétricos não são atendidos. e) Se concluirmos por rejeitar a hipótese nula de um teste não paramétrico, podemos dizer que as distribuições são análogas. 0 Em situações em que se utiliza o esquema de pareamento ou de amostras dependentes, o teste de Mann-Whitney ou de soma de postos do Wilcoxon não é adequado quando se deseja/pretende utilizar um teste não paramétrico para testar hipóteses estatísticas. As hipóteses estatísticas consideradas para o teste são semelhantes àquelas apresentadas para o teste de Mann-Whitney, replicadas no elemento interativo a seguir, com adaptações (MARTINEZ, 2015). 1. H : Nas populações que originaram os dados das duas amostras, nossa variável de interesse segue uma mesma distribuição de probabilidade. Portanto, seus valores não se modi�cam entre os momentos distintos. 2. H : Nas populações que originaram os dados das duas amostras, nossa variável de interesse segue distribuições de probabilidade que se diferem por um parâmetro de locação. Portanto, seus valores modi�cam-se entre os momentos distintos. Vamos considerar, para exempli�car, a situação descrita por Martinez (2015), sobre um estudo sobre pressão arterial sistólica em uma amostra de tamanho n = 12, considerando a administração de um tratamento. A Tabela 3.9 apresenta os dados do estudo, as diferenças entre os momentos, assim como os sinais dessas diferenças. Testes Não Paramétricos (Amostras Dependentes) 0 1 Tabela 3.9 - Níveis de pressão arterial sistólica (mmHg) para 12 indivíduos, antes e depois de um tratamento Fonte: Martinez (2015, p. 289). #PraCegoVer: a imagem apresenta uma tabela com os dados do estudo sobre pressão arterial, antes e depois da aplicação de um tratamento. Também apresenta os postos dos dados e os postos considerando o sinal da diferença. A primeira coluna diz respeito aos sujeitos, representados por: Antes, Depois, Diferença, Posto, Posto + e Posto -. As colunas que se seguem correspondem a cada um dos sujeitos pertencentes ao estudo. A segunda colunacorrespondente ao Sujeito 1, tem título “1” e, da segunda até a sétima linha, contém os valores: 161; 151, -10, 10 e 10, sendo a sexta linha em branco. A terceira coluna tem título “2” e, da segunda até a sétima linha, contém os valores: 137; 134; -3; 3 e 6, sendo que a sexta linha está em branco. A quarta coluna tem título “3” e, da segunda até a quarta linha, tem valores: 141; 133; -8; 6,5; vazio e 3,5. A quinta coluna contém título “4” e, da segunda até a sétima linha, os valores: 138; 129; -9; 8,5; vazio e 8,5. A sexta coluna contém título “5” e, da segunda até a sétima linha, contém os valores: 144; 135; -9; 8,5; vazio e 8,5. A sétima coluna contém título “6” e, da segunda até a sétima linha, contém os valores: 135; 128; -7; 5; vazio e 5. A oitava coluna contém título “7” e, da segunda até a sétima linha, contém os valores: 127; 131; 4; 4; 4 e vazio. A nona coluna contém título “8” e, da segunda até a sétima coluna, os valores: 142; 134; -8; 6,5; vazio e 6,5. A décima coluna contém título “9” e, da segunda até a sétima linha, os valores: 127; 112; -15; 11; vazio e 11. A décima primeira coluna contém título “10” e, da segunda até a sétima linha, os valores: 129; 127; -2; 1,5; vazio e 1,5. A décima segunda coluna contém título “11” e, da segunda até a sétima linha, os valores: 124; 104; -20; 12; vazio e 12. A décima terceira coluna contém título “12” e, da segunda até a sétima linha, os valores: 134; 136; 2; 1,5; 1,5 e vazio. Vamos considerar W+ como a soma dos postos com diferenças de sinal positivo, então, W+ = 4 + 1,5 = 5,5. De maneira análoga, vamos considerar W- a quantidade que considera a soma de todas as diferenças com sinal negativo. Teremos, então, W- = 72,5. A estatística W será o menor valor dessas diferenças, logo, W = 5,5. Segundo Martinez (2015, p. 289), “o valor médio que esperaríamos encontrar para W quando a hipótese nula é verdadeira é denotado por , que obtemos usando a expressão” (3.9). Para os dados que estamos utilizando como exemplo, temos: . Poderemos, também, considerar a obtenção da medida pela seguinte expressão: (3.10). Consideremos, agora, outra medida, a ser representada por (lê-se “ni”), como representante da variação amostral da soma dos postos, e a ser dada, matematicamente, por (3.11). Novamente, considerando os dados do exemplo, teremos, então, Sob a condição de que a hipótese nula seja verdadeira, a transformação (3.12) segue distribuição normal padrão (lembre-se N(0;1)). Dessa forma, iremos decidir por rejeitar a hipótese nula H quando for menor que -1,96 ou maior que 1,96, considerando nível de signi�cância de 5%. Com os valores do exemplo, teremos: Portanto, decidimos por rejeitar a hipótese nula H0, pois -2,6 < -1,96. Podemos, assim, concluir que temos evidências de que os níveis de pressão arterial sistólica se modi�carão com a administração do tratamento. m m = +W+ W− 2 m = = 39 5,5+72,5 2 m m = = = 39 n.(n+1) 4 12.13 4 ν ν = n.(n+1).(2n+1) 24 − −−−−−−−−− √ ν = ≅12, 75. 12.(12+1).(2.12+1) 24 − −−−−−−−−−−− √ =z0 W−m ν 0 z0 = = −2, 6.z0 5,5−39 12,75 Existem situações em que se tem mais de dois grupos para comparar. Nesses casos, podemos utilizar o teste não paramétrico de Kruskal-Wallis e complementá-lo com o teste de Dunn (comparações múltiplas) para identi�car as diferenças, caso existam. Mais detalhes podem ser encontrados em Martinez (2015). Neste item, apresentaremos como utilizar o SPSS para fazer uma aplicação de teste não paramétrico para amostras independentes e, também, para amostras dependentes. Para isso, vamos considerar os dados descritos no texto, na parte teórica apresentada previamente. Vamos iniciar com a aplicação do caso de amostras independentes. Os dados devem ser inseridos na aba de planilha de dados do SPSS. Codi�camos os dois grupos considerados (1=homens que praticam atividade física; 2=homens sedentários). Um detalhe importante para que o teste não paramétrico possa ser realizado no SPSS é que devemos ajustar, na aba “Visualização da variável”, a coluna que contém os valores de colesterol Aula Prática no SPSS: Testes Não Paramétricos para medida em escala. Isso pode ser feito ajustando a coluna “Medida”, selecionando a opção “Escala”. A Figura 3.4 mostra a tela da aba do SPSS. Figura 3.4 - Ajuste do tipo de variável para os dados do estudo sobre colesterol Fonte: Elaborada pelo autor. #PraCegoVer: a imagem é uma captura de tela do programa SPSS. Nela, estão presentes as abas superiores: “Arquivo, Editar, Visualizar, Dados, Transformar, Analisar, Grá�cos, Utilitários, Extensões, Janelas e Ajuda”. Também são exibidos ícones dos seguintes atalhos. No centro da página, encontra-se uma tabela com 10 colunas denominadas, respectivamente: “Nome, Tipo, Largura, Decimais, Rótulo, Valores, Omisso, Colunas, Alinhar, Medida e Papel”. A tabela possui duas linhas: linha 1 - coluna 1: “Grupo”; linha 1 - coluna 2: “Colesterol”; coluna 2 – linha 1: “Numérico”; coluna 2 – linha 2: “Numérico”; coluna 3 – linha 1: 1; coluna 3 – linha 2: 3; coluna 4 – linha 1: 0; coluna 4 – linha 2: 0; coluna 5 – linha 1: vazia, sem texto digitado; coluna 5 – linha 2: “Colesterol LDL”; coluna 6 – linha 1: “Nenhum”; coluna 6 – linha 2: “Nenhum”; coluna 7 – linha 1: 8; coluna 7 – linha 2: 8; coluna 8 – linha 1: símbolo que representa alinhamento direito; coluna 8 – linha 2: símbolo que representa alinhamento direito; coluna 9 – linha 1: “Nominal”; coluna 9 – linha 2: “Escala”; coluna 10 – linha 1: entrada e linha 2: “Entrada”. Agora, podemos executar o teste não paramétrico para amostras independentes. Para isso, devemos selecionar um conjunto de opções no menu de ferramentas. Então, selecionamos as opções “Analisar”, “Testes não paramétricos” e “Amostras Independentes…”. A Figura 3.5 mostra essas opções. Figura 3.5 – Menu de opções para selecionar um teste não paramétrico para amostras independentes no SPSS Fonte: Elaborada pelo autor. #PraCegoVer: a imagem é uma captura de tela do programa SPSS. Nela, estão presentes as abas superiores: “Arquivo, Editar, Visualizar, Dados, Transformar, Analisar, Grá�cos, Utilitários, Extensões, Janelas e Ajuda”. Também são exibidos ícones dos seguintes atalhos. No centro da imagem, encontram-se os menus para seleção de realização do teste não paramétrico para amostras independentes: “Análise de potência, Meta- Análise, Relatórios, Estatística Descritiva, Estatística Bayesiana, Tabelas, Comparar Médias, Modelo Linear Geral, Modelos lineares generalizados, Modelos mistos, Correlacionar, Regressão, Log linear, Redes neurais, Classi�car, Redução de dimensão, Escala, Testes não paramétricos”, que se dividem em: “Uma Amostra..., Amostras Independentes..., Amostras Relacionadas... e Caixas de diálogo legadas, Previsão, Sobrevivência, Respostas múltiplas, Análise de valor omisso.., Imputações Múltiplas, Amostras Complexas”. Na parte inferior da imagem, encontram- se duas abas, denominadas “Visualização de dados e Visualização de variável”. Será aberta uma caixa de diálogos denominada “Testes Não Paramétricos: Duas ou Mais Amostras Independentes”. A Figura 3.6 mostra essa caixa de diálogos. Figura 3.6 - Caixa de diálogos com opções para execução de teste não paramétrico para amostras independentes no SPSS Fonte: Elaborada pelo autor. #PraCegoVer: a imagem é uma captura de tela do programa SPSS e mostra as opções existentes para executar um teste não paramétrico: os botões “Objetivos, Campos, Con�gurações”; depois, a seguinte descrição: “Identi�ca diferenças entre dois ou mais grupos usando teste não paramétricos. Os testes não paramétricos não assumem que seus dados sigam distribuição normal”; abaixo, há a seguinte caixa de diálogo: “Qual é o seu objetivo? Cada objetivo corresponde a uma con�guração padrão distinta na guia Con�gurações que pode ser customizada posteriormente, se desejado”. Em seguida são apresentadas as seguintes opções de seleção: “Comparar automaticamente distribuições entre grupos, Comparar medianas entre grupos, Customizar análise”,estando a primeira opção marcada. Por �m, na parte inferior da imagem, está exibida a descrição: “Comparar automaticamente as distribuições entre os grupos usando o teste U de Mann-Whitney para 2 amostras, ou Kruskal-Wallis 1-way Anova para amostras k. O teste escolhido varia com base em seus dados”; em seguida, os botões: “Executar, Colar, Recon�gurar, Cancelar e Ajuda”. Na parte superior, selecionamos o botão “Campos” para indicar os grupos e a variável de análise. A Figura 3.7 mostra como deve �car a seleção. Figura 3.7 - Caixa de diálogos com opções para execução de teste não paramétrico para amostras independentes com a aba “Campos”, no SPSS, preenchida Fonte: Elaborada pelo autor. #PraCegoVer: a imagem é uma captura de tela do programa SPSS e mostra como devemos inserir as variáveis para que o SPSS execute um teste não paramétrico para amostras independentes. Com isso, são exibidas as seguintes abas: “Objetivo, Campos e Con�gurações”. A aba “Campos” é selecionada e mostra as seguintes possibilidades de seleção: “Usar papéis prede�nidos e Usar designação de carro customizado”, sendo o último selecionado. Depois, na caixa denominada “Campos”, é possível selecionar os campos que serão testados, nesse caso, está selecionado o campo “Colesterol HDL”. Ao �nal, na parte inferior da imagem, estão os botões: “Executar, Colar, Recon�gurar, Cancelar e Ajuda”, estando o primeiro clicado. Agora, é só clicar no botão “Executar”. A saída do programa mostra alguns resultados e alguns grá�cos. Esses serão omitidos do texto por questões de espaço. No entanto sugerimos que você replique os dados e faça o teste para ver a saída completa. A parte superior da saída do SPSS é mostrada na Tabela 3.10. Tabela 3.10 - Saída da execução do teste não paramétrico para amostras independentes no SPSS Fonte: Elaborada pelo autor. #PraCegoVer: a tabela possui três linhas e quatro colunas. A primeira coluna tem título “Hipótese nula” e, a segunda linha, o texto “A distribuição de colesterol LDL é igual nas categorias de Grupo”. A terceira linha contém os textos em lista “a. O nível de signi�cância é ,050; b. A signi�cância assintótica é exibida e c. A exata signi�cância é exibida para este teste”. A segunda coluna contém título “Teste” e, na segunda linha, o texto “Amostras Independentes de Teste U de Mann-Whitney”. A terceira coluna contém título “Sig” e sobrescritos “a” e “b”. A quarta coluna tem título “Decisão” e, na segunda linha, o texto “Rejeitar a hipóteses nula”. A sumarização de teste de hipótese apresenta a hipótese nula do teste, no caso, o teste de Mann- Whitney, com valor-p (coluna “Sig”) e com a decisão tomada a partir do resultado obtido. O valor- p é 0,029, ou seja, menor que 0,05 (5% de signi�cância) o nível de signi�cância adotado. Portanto, rejeita-se H . Perceba que não foi necessário transformar os dados em postos porque o programa faz isso internamente. Nesse momento, vamos apresentar um exemplo de aplicação no SPSS para amostras dependentes. Para isso, vamos considerar os dados do estudo da pressão sistólica, em que foi aplicado um tratamento e foi feita a medida antes e depois da aplicação, como visto anteriormente. Para esse caso, os dados devem ser inseridos em colunas distintas. Depois de inserirmos os dados, podemos selecionar o teste apropriado para o desenho do estudo. Iremos, então, selecionar “Analisar”, “Testes não paramétricos” e “Amostras Relacionadas…”, conforme mostra a Figura 3.8. Hipótese nula Teste Sig. Decisão A distribuição de Colesterol LDL é igual nas categorias de Grupo. Amostras Independentes de Teste U de Mann-Whitney 0,029 Rejeitar a hipótese nula. a. O nível de signi�cância é ,050. b. A signi�cância assintótica é exibida. c. A exata signi�cância é exibida para este teste. a,b c 0 Figura 3.8 - Seleção de menus para execução de teste não paramétrico para amostras dependentes no SPSS Fonte: Elaborada pelo autor. #PraCegoVer: a imagem é uma captura de tela do programa SPSS. Nela, estão exibidos os menus que devemos selecionar para executar um teste não paramétrico para amostras dependentes, sendo esses: “Análise de potência, Meta- Análise, Relatórios, Estatística Descritiva, Estatística Bayesiana, Tabelas, Comparar Médias, Modelo Linear Geral, Modelos lineares generalizados, Modelos mistos, Correlacionar, Regressão, Log linear, Redes neurais, Classi�car, Redução de dimensão, Escala, Testes não paramétricos”, que se dividem em: “Uma Amostra..., Amostras Independentes..., Amostras Relacionadas...” e “Caixas de diálogo legadas, Previsão, Sobrevivência, Respostas múltiplas, Análise de valor omisso... e Imputações Múltiplas”. Feito isso, uma caixa de diálogos denominada “Testes Não Paramétricos: Duas ou Mais Amostras Relacionadas” será aberta, como mostra a Figura 3.9. Basta clicar no botão “Executar” que o teste será executado. A saída da execução do teste mostra algumas tabelas e, também, alguns grá�cos. Para economizar espaço, mostraremos apenas uma das tabelas da saída, a qual mostra o valor-p do teste. Figura 3.9 - Caixa de diálogos com opções de teste não paramétrico para amostras dependentes no SPSS Fonte: Elaborada pelo autor. #PraCegoVer: a imagem é uma captura de tela do programa SPSS e mostra as opções existentes de testes na caixa de diálogos para execução de teste não paramétrico para amostras dependentes no SPSS. Com isso, são exibidas as seguintes abas: “Objetivo, Campos e Con�gurações”. A aba “Con�gurações” é selecionada e mostra as seguintes possibilidades de seleção: “Escolha automaticamente os testes com base nos dados e Customizar testes”. Ao �nal, na parte inferior da imagem, estão os botões: “Executar, Colar, Recon�gurar, Cancelar e Ajuda”, estando o primeiro clicado. O valor-p é 0,009 menor que 0,005 ou 5% de signi�cância, usualmente usado. Logo, decidimos por rejeitar a hipótese nula de igualdade entre os dados dos dois momentos, como visto antes. A Tabela 3.11 mostra esses resultados. Tabela 3.11 - Saída da execução do teste não paramétrico para amostras dependentes no SPSS Fonte: Elaborada pelo autor. #PraCegoVer: a tabela possui três linhas e quatro colunas. A primeira coluna tem título “Hipótese nula” e, a segunda linha, o texto “A mediana de diferenças entre Antes e Depois é igual a zero”. A terceira linha tem os textos em lista: “a. O nível de signi�cância é ,050. b. A signi�cância assintótica é exibida”. A segunda coluna tem título “Teste” e, na segunda linha, o texto “Amostras Relacionadas de Teste dos Postos Sinalizados de Wilcoxon”. A terceira coluna tem título “Sig” e sobrescritos “a” e “b”. Na segunda linha, há o valor 0,009. A quarta coluna tem título “Decisão” e, na segunda linha, o texto “Rejeitar a hipótese nula”. O SPSS suporta outros desenhos de pesquisa. Cabe a você explorar o programa e aprender a manusear as opções adequadamente. O que foi apresentado é uma parte de um grande mundo da análise de dados da área da saúde. Hipótese nula Teste Sig. Decisão A mediana de diferenças entre Antes e Depois é igual a 0. Amostras Relacionadas de Teste dos Postos Sinalizados de Wilcoxon 0,009 Rejeitar a hipótese nula. a. O nível de signi�cância é ,050. b. A signi�cância assintótica é exibida. a,b Existem muitas possibilidades de realização de testes estatísticos para análise de dados. Portanto, é importante saber qual o teste mais adequado para o que se deseja, pois a seleção vai depender diretamente do que se quer investigar e do desenho de pesquisa utilizado na investigação. Isso vale para qualquer área de pesquisa. Conhecimento Teste seus Conhecimentos (Atividade não pontuada) Os testes não paramétricos são uma boa alternativa quando os pressupostos dos testes paramétricos não são garantidos pelos dados amostrais de um estudo especí�co, pois são mais �exíveis e menos exigentes quanto a pressupostos. Sobre a aplicação de testes não paramétricos no SPSS, assinale a alternativa correta. a) A disposição dos dados, tanto para análise de grupos independentes quanto dependentes, deve ser igual naplanilha do SPSS. b) O programa computacional SPSS exige conhecimento de linguagem de programação para executar testes não paramétricos. c) Os dados devem ser transformados em postos (ranks) antes de serem inseridos na planilha do programa computacional SPSS. d) Para realizar a execução de teste não paramétrico para amostras dependentes, é preciso digitar os dados em colunas distintas no SPSS. e) O teste de Bonferroni é um único que pode ser executado no SPSS para comparações múltiplas de amostras independentes. Material Complementar F I L M E Análise de Variância (ANOVA) Ano: 2018. Comentário: o vídeo mostra uma aula de uma professora que apresenta exemplos de aplicação do uso de ANOVA em dados diversos. A aula é bastante didática e aplicada. Portanto, assista ao �lme para consolidar o seu conhecimento sobre o tema desenvolvido. Para conhecer mais sobre a indicação, acesse o trailer, disponível em: TRA I LER L I V R O Controle estatístico de qualidade Editora: E-book produzido pelo Laboratório Médico de Pesquisas Médicas Avançadas (LAMPADA) da UERJ. Autor: Sérgio Miranda Freire. Comentário: o livro aborda muitas técnicas estatísticas para análise de dados e, também, aplicações diversas com o uso do programa computacional de análise de dados R. Vale a pena conhecê-lo, pois o autor tem bastante experiência de análise de dados na área da saúde. Conclusão Prezado estudante! Apresentamos o teste ANOVA para um fator ou variável independente, para estudos com amostras independentes. Consideramos, de forma breve, apresentar os pressupostos para o correto uso dele, bem como exemplos de aplicação. Da mesma forma, apresentamos testes não paramétricos, tanto para amostras independentes quanto dependentes, e mostramos exemplos práticos e aplicados no programa computacional SPSS. Desejamos que tenha tido uma boa leitura e continuamos a convidar você para continuar seus estudos sobre os testes aqui apresentados. Bons estudos e até logo! Referências BUSSAB, Wilton W.de Oliveira.; MORETTIN, P. A. Estatística básica. 6. ed. São Paulo: Editora Saraiva, 2017. Disponível em: https://integrada.minhabiblioteca.com.br/#/books/9788547220228/ Acesso em: 27 ago. 2021. ESTATÍSTICA e Probabilidade - Aula 14 - Análise de Variância (ANOVA). [S. l.: s. n.], 2018. 1 vídeo (13 min.). Publicado pelo canal UNIVESP. Disponível em: https://www.youtube.com/watch? v=1ceP2FL5fzE&ab_channel=UNIVESP. Acesso em: 26 set. 2021. FREIRE, S. M. Bioestatística básica. Rio de Janeiro: LAMPADA – Laboratório Médico de Pesquisas Médicas Avançadas/ UERJ, 2021. Disponível em: http://www.lampada.uerj.br/bioestatisticabasica/bioestatisticabasica.html. Acesso em: 11 fev. 2022. Caro(a) estudante, a con�abilidade e a aceitação dos resultados obtidos pelos processos de medição são muito relevantes no âmbito das questões metrológicas. Basicamente, nenhum tipo de medição que possa ser realizada representa o verdadeiro valor mensurado. Essa variação normalmente é explicada pelas limitações inerentes ao processo dimensional, as quais limitam as quantidades de medições que podem ser realizadas, assim como está associada aos efeitos das demais variações que possam estar presentes. NORMANDO, D.; TJÄDERHANE, L.; QUINTÃO, C. C. A. A escolha do teste estatístico – um tutorial em forma de apresentação em PowerPoint. Dental Press J. Orthod., [S. l.], v. 15, n. 1, p. 101-106, jan./fev. https://integrada.minhabiblioteca.com.br/#/books/9788547220228/ https://www.youtube.com/watch?v=1ceP2FL5fzE&ab_channel=UNIVESP https://www.youtube.com/watch?v=1ceP2FL5fzE&ab_channel=UNIVESP http://www.lampada.uerj.br/bioestatisticabasica/bioestatisticabasica.html 2010. Disponível em: https://www.scielo.br/j/dpjo/a/qSQTjRQd4YzWQWSkDmBmspn/? format=pdf&lang=pt. Acesso em: 26 set. 2021. SIQUEIRA, A. L.; TIBÚRCIO, J. D. Estatística na área da saúde: conceitos, metodologia, aplicações e prática computacional. Belo Horizonte: Coopmed, 2011. SOFTWARE IBM SPSS. IBM, [2021]. Disponível em: https://www.ibm.com/br-pt/analytics/spss- statistics-software. Acesso em: 30 ago. 2021. https://www.scielo.br/j/dpjo/a/qSQTjRQd4YzWQWSkDmBmspn/?format=pdf&lang=pt https://www.scielo.br/j/dpjo/a/qSQTjRQd4YzWQWSkDmBmspn/?format=pdf&lang=pt https://www.ibm.com/br-pt/analytics/spss-statistics-software https://www.ibm.com/br-pt/analytics/spss-statistics-software
Compartilhar