Baixe o app para aproveitar ainda mais
Prévia do material em texto
i Análise de Variância com um Fator One-Way Anova ii Luisa Zanolli Moreno Médica veterinária, mestranda do curso de pós-graduação em saúde pública da Faculdade de Saúde Pública da Universidade de São Paulo André Moreno Morcillo Professor Associado do Departamento de Pediatria da Faculdade de Ciências Médicas da Universidade Estadual de Campinas Pesquisador do CIPED – Centro de Investigação em Pediatria da Universidade Estadual de Campinas Análise de Variância com um Fator One-Way Anova Campinas – São Paulo – Brasil [Outubro de 2012] 1 A Análise de Variância (Anova) é a prova indicada para comparação das médias de três ou mais grupos independentes. Esta técnica de análise é usada em quase todas as áreas do conhecimento. Seu desenvolvimento e concepção ocorreu entre 1925 e 1930 e se deve a Ronald A. Fisher. Apesar do seu teste de hipóteses avaliar as médias, o princípio da análise de variância é uma comparação de variâncias. � CONDIÇÕES NECESSÁRIAS � A variável dependente deve ser contínua e ter distribuição normal ou aproximadamente normal � As amostras1 devem ser independentes e tomadas ao acaso � As variâncias das amostras devem ser homogêneas (“iguais”). � HIPÓTESES DE TRABALHO H0: as amostras têm médias iguais H1: pelo menos uma amostra tem média diferente das demais Se tomarmos amostras razoavelmente grandes e ao acaso de uma população, observaremos que as suas médias têm valores muito próximos, não exatamente iguais. Esta diferença expressa o papel do acaso, também chamado erro amostral, conseqüência do processo de seleção dos casos. Por outro lado, se as amostras tivessem sido tomadas de populações distintas, suas médias seriam diferentes. No modelo proposto por Fisher, consideram-se amostras com variâncias iguais, nos interessando avaliar a possível diferença entre suas médias. � UMA SITUAÇÃO CONCRETA Ishy et al. (2011)2 realizaram um estudo para avaliar o efeito da simpatectomia no tratamento da hiperhidrose palmar, que incluiu 40 pacientes e 20 controles sadios. Os pacientes foram randomizados para alocação nos grupos G3 ou G4 (denervação do 3º ou 4º 1 No restante do texto a palavra “amostra” será substituída por “grupo”. 2 Ishy A, de Campos JR, Wolosker N, Kauffman P, Tedde ML, Chiavoni CR, Jatene FB. Objective evaluation of patients with palmar hyperhidrosis submitted to two levels of sympathectomy: T3 and T4. Interact Cardiovasc Thorac Surg. 2011 Apr;12(4):545-8. 2 gânglios torácicos respectivamente). Na tabela apresentada a seguir são apresentadas as médias da idade e índice de massa corporal dos três grupos (G3, G4, Controles). Média e desvio padrão da idade e do índice de massa corporal (IMC) G3 (N=20) G4 (N=20) Controles (N=20) P-value Idade (anos) 25,1±5,5 25,0±7,1 25,8±7,0 0,910 IMC (kg/m2) 21,8±1,4 23,0±1,4 22,3±2,9 0,180 (média±desvio padrão) Observe que as diferenças entre as médias da idade dos três grupos são pequenas. O mesmo ocorreu para o índice de massa corporal. Como decidir se as diferenças observadas entre as médias são estatisticamente significantes? Será que estas diferenças poderiam ser decorrentes do erro amostral (acaso)? Como se trata da comparação das médias de três grupos independentes (G3, G4 e Controles), a Análise de Variância pode ser usada, desde que os dados tenham distribuição normal e que as variâncias sejam iguais. Observe na coluna “p-value” da tabela os valores 0,910 e 0,180. Estes valores representam as probabilidades da análise de variância, mostrando que as diferenças não são estatisticamente significantes. É muito grande a probabilidade de que possam ocorrer por acaso (0,910 e 0,180). � PRINCÍPIOS DA ANÁLISE DE VARIÂNCIA O princípio da Análise de Variância é comparar a relação entre a dispersão que há “entre” os grupos com a observada “dentro” dos grupos, ou seja, comparar a variância que há “entre” os grupos com a observada ”dentro” dos grupos. Mas, não comparamos as médias dos grupos? Não, diretamente não! Decidimos se as médias são iguais ou diferentes de forma indireta. A dispersão de ”todos” os N elementos que compõem a população é igual à soma da dispersão “dentro” dos grupos com a dispersão “entre” os grupos. Dispersão total = dispersão “dentro” dos grupos + dispersão “entre” os grupos. Considerando que a análise de variância exige que as amostras tenham variâncias homogêneas, a dispersão “entre” as amostras deve-se à diferença entre as médias dos grupos. 3 Se as amostras têm médias iguais, a dispersão “entre“ os grupos deve ser menor ou igual àquela observada “dentro“ dos grupos, caso contrário, a dispersão “entre“ será maior que a “dentro“. � ENTENDENDO MELHOR O CONCEITO � A SOMA DE QUADRADOS Uma maneira prática de avaliar a dispersão de um conjunto de dados é estudar o desvio ou diferença de cada elemento em relação à média, mais precisamente, o quadrado destes desvios. É desta forma que são calculados o desvio padrão e a variância. Recordando, a variância é a soma dos quadrados dos desvios (SQD) dividida por n-1 casos. Considerando uma observação qualquer xi e a média da amostra x , o quadrado do seu desvio (QD) será: ( )xxiQD −= 2 A soma dos quadrados dos desvios (SQD) de todos os n elementos de um grupo qualquer será: ( )∑ − = = n i xxiSQD 1 2 � A SOMA DOS QUADRADOS DOS DESVIOS NA ANÁLISE DE VARIÂNCIA Na análise de variância estamos comparando três ou mais grupos, cada qual com sua média e variância; cada qual com sua soma de quadrados dos desvios. Se agruparmos todos os casos das amostras formaremos um grupo maior, que chamaremos de “total“, com sua média e variância, com sua própria soma de quadrados dos desvios. Se os grupos têm médias e variâncias iguais, então a média do “total” será igual às médias dos grupos. Isto não ocorre na prática, pois sempre haverá uma variação decorrente do acaso, o chamado erro amostral, que causará pequenas diferenças entre as médias. A variância do “total“ sempre será igual ou maior que a variância dos grupos. A soma dos quadrados dos desvios do “total“ será sempre igual ou maior que a soma dos quadrados dos desvios dos grupos. Para deixarmos um pouco mais claro estes pontos que são muito importantes para a compreensão do princípio da análise de variância, utilizamos uma função do software SPSS para sortear três amostras (n=10) de número aleatórios, com médias diferentes e variâncias 4 iguais. A seguir, reunimos os elementos das amostras em um único grupo (n=30). Todos os casos foram sorteados pela mesma técnica. � Primeiro caso: os grupos têm médias muito próximas n Média Desvio Padrão Soma dos Quadrados Grupo I 10 7,0 4,7 201,0 Grupo II 10 6,2 5,1 238,1 Grupo III 10 7,8 4,9 214,5 Total 30 7,0 4,8 666,0 A soma dos quadrados do “total“ é 666,0 A soma dos quadrados dos desvios dos três grupos é: 201,1 + 238,0 + 214,5 = 653,6. A diferença entre a soma dos quadrados dos desvios é 666,0 - 653,6 = 12,4, que equivale a 1,9% do total. Portanto, 1,9% dos quadrados dos desvios não são explicados pela variabilidade interna das amostras. Na verdade, deve-se à diferença entre as médias dos grupos. � Segundo caso: os grupos têm médias um pouco mais afastadas.n Média Desvio Padrão Soma dos Quadrados Grupo I 10 7,8 4,9 214,5 Grupo II 10 13,8 5,6 282,9 Grupo III 10 20,5 4,3 162,9 Total 30 14,0 7,1 1461,6 A soma dos quadrados do “total“ é 1461,6 A soma dos quadrados dos desvios dos três grupos é 214,5 + 282,9 + 162,9 = 660,3 A diferença entre a soma dos quadrados dos desvios é: 1461,6 - 660,3 = 801,3 que equivale a 54,8% do total. Portanto, 54,8% dos quadrados dos desvios não podem ser explicados pela variabilidade interna das amostras. É o efeito da diferença entre as médias 5 dos grupos. Observe que o fato das médias das amostras estarem mais afastadas determinou um maior efeito na soma de quadrados do total. � Terceiro caso: os grupos têm médias mais afastadas. n Média Desvio Padrão Soma dos Quadrados Grupo I 10 7,8 4,9 214,5 Grupo II 10 20,5 4,3 162,9 Grupo III 10 29,5 4,6 194, 5 Total 30 19,3 10,1 2942,3 A soma dos quadrados do “total“ é 2942,3 A soma dos quadrados dos desvios dos três grupos é 214,5 + 162,9 + 194,5 = 571,9. A diferença entre a soma dos quadrados dos desvios é: 2942,3 - 571,9 = 2370,4, que equivale a 80,6% do total. Neste caso, 80,6% dos quadrados não podem ser explicados pela variabilidade interna das amostras. O maior afastamento das médias das amostras determinou um grande efeito na soma de quadrado dos desvios do total. Resumimos na tabela abaixo as somas dos quadrados dos três casos apresentados, para que fique mais claro o efeito decorrente das mudanças nas médias das amostras. Soma dos quadrados do total Soma dos quadrados dentro das amostras Diferença % diferença Iº caso 666,0 653,6 12,4 1,9 IIº caso 1461,6 660,3 801,3 54,8 IIIº caso 2942,3 571,9 2370,4 80,6 Observações importantes: Nos três estudos as amostras têm variâncias iguais e médias diferentes. Ao afastarmos as médias não ocorreram modificações substanciais na soma dos quadrados dos desvios “dentro” dos grupos, mas houve grande modificação na soma dos quadrados dos desvios do “total”, que é explicado pelo afastamento das médias. 6 Convencionou-se chamar a "diferença" por Soma dos Quadrados dos Desvios ENTRE os grupos (SQDE); de Soma dos Quadrados dos Desvios DENTRO (SQDD) àquela que ocorre no interior dos grupos e de Soma dos Quadrados dos Desvios do TOTAL (SQDT) àquela que ocorre quando reunimos todos os casos num único grupo. Assim, tornou-se possível comparar as médias de três ou mais grupos a partir do estudo das variâncias “entre” e “dentro”. � APLICANDO ESTES CONCEITOS NA ANÁLISE DE VARIÂNCIA • Calculando a SQD do “total” (SQDT) 1. Calculamos a média da população, também chamada de média geral ou grande média N X X N i ∑ = = 1 2. Calculamos a soma dos quadrados dos desvios do total . ( )∑ − = = N i T XXSQD 1 2 • Calculando a SQD “dentro” dos grupos (SQDD) 1. Calcula-se a soma dos quadrados dos desvios de cada grupo. 2. Somamos a SQD de todos os grupos ( ) ( ) ( ) ( )∑ ∑ ∑ −−−∑ − = = == ++++= n i n i n i n i D xxxxxxxxSQD kk 1 1 1 222 1 2 ...332211 • Calculando a SQD “entre“ as amostras (SQDE) ( ) ( ) ( ) ( ) ( ) N k X n x n x n x n xSQD k E ∑ − ∑ ++ ∑ + ∑ + ∑ = 22 3 2 2 2 1 2 ... 321 A SQD “entre” as amostras (SQDE) também poderá ser obtida a partir de SQDT e SQDD. 7 SQDSQDSQD DTE −= Observação: recomendamos que a Soma dos Quadrados dos Desvios seja calculada pela fórmula da calculadora, tal como é apresentada abaixo ( ) ( )NSQD xxxx N i ∑ −== ∑∑ − = 2 2 1 2 Como comparar as somas dos quadrados dos desvios? Como saber se uma determinada SQD=15 é ou não maior do que outra SQD=13? Para fazer esta comparação deve se levar em consideração o número de casos dos grupos. Calcula-se a média das somas dos quadrados dos desvios (QMD) de cada grupo: n SQDQMD = Uma amostra com 20 elementos e SQD = 15 tem QMD = 15/20 = 0,75, enquanto outra com 10 elementos com SQD=13 terá QMD = 13/10 = 1,3 Neste exemplo a segunda amostra tem maior variabilidade. � O Quadrado Médio dos Desvios (QMD) Na análise de variância comparamos as médias das somas dos quadrados dos desvios que ocorrem “entre” e “dentro” dos grupos, que passam a receber o nome de Quadrado Médio dos Desvios ENTRE (QMDE) e Quadrado Médio dos Desvios DENTRO (QMDD). Os Quadrados Médios dos Desvios são calculados em relação aos respectivos graus de liberdade. Observe que a soma dos quadrados dos desvios dividida pelos graus de liberdade é a variância. s n SQDQMD 2 1 = − = • Quadrado médio dos desvios “dentro” das amostras (QMDD) O QMDD é calculado a partir da SQDD e seus graus de liberdade (N-k) 8 kN SQDQMD DD − = kNglDentro −= • Quadrado médio dos desvios “entre” as amostras (QMDE) O QMDE é calculado a partir da SQDE e seus graus de liberdade. Como são k amostras, o número de gl é k-1 1− = k SQDQMD EE 1−= kglEntre � CALCULANDO A ESTATÍSTICA F Para compararmos o QMDE e o QMDD usamos a estatística F, que é a razão entre o QMDE e o QMDD. Quanto maior o QMDE, maior será o valor de F. QMD QMD D EF = � TESTE DE HIPÓTESE A Análise de Variância avalia se o quadrado médio “entre” os grupos é “maior” que o quadrado médio “dentro” dos grupos, ou, de outra maneira, se a razão entre os quadrados médios é “maior” que 1. O teste é sempre unilateral. QMQMH QMQMH DentroEntre DentroEntre > ≤ :1 :0 ou Ao avaliarmos estas hipóteses, indiretamente estamos avaliando as hipóteses iniciais, que se referiam às médias. 1QM :0 ENTRE ≤QMH DENTRO 1QM :1 ENTRE >QMH DENTRO 9 H0: as amostras têm médias iguais H1: pelo menos uma amostra tem média diferente das demais � TOMADA DE DECISÃO Uma vez estabelecido o nível de significância desejado (α) e calculada a estatística F, procura-se na tabela de F unilateral o valor de Fcrítico para k-1 graus de liberdade “entre” os grupos (colunas da tabela) e N-k graus de liberdade “dentro” dos grupos (linhas da tabela). Se o valor de F obtido é igual ou maior ao Fcrítico rejeita-se H0 Probability Density Function y=F(x;3;25) Rejeição de H0Não Rejeição de H0 F crítico 10 � A TABELA DA ANÁLISE DE VARIÂNCIA A forma clássica de apresentação dos dados da análise de variância é a seguinte: SQD Gl QMD F “Entre” as amostras “Dentro” das amostras Do “total” SQD – soma dos quadrados dos desvios; Gl – graus de liberdade; QMD - quadrado médio dos desvios; F - QMD QMD D E O objetivo desta tabela é simplesmente facilitar os cálculos! 11 Exemplo Para avaliar se havia diferença entre as médias das idades das crianças de três classes da quarta série de uma escola do ensino fundamental, tomou-se uma amostra ao acaso (n=15) de cada classe. H0 : não há diferença entre as médias das idades das três classes H1 : pelo menos uma classe tem média de idade diferente das demais Nível de significância adotado: 0,05 Classe A Classe B Classe C 8 10 10 8 11 11 11 9 10 11 10 10 11 9 10 10 10 9 9 9 7 12 11 11 10 11 11 10 9 11 11 10 10 10 10 9 10 10 10 11 10 12 9 10 9 A partir dos dadosapresentados na tabela acima, calculamos as seguintes informações: n, Σx, Σx2. Classe A Classe B Classe C Todos os Casos Σx 151 149 150 450 Σx2 1539 1487 1520 4546 n 15 15 15 45 12 Calculando a Soma dos Quadrados das Diferenças do “Total” (SQDT) ( ) 46 45 4504546 2 2 2 =−= ∑ −=∑ N X XSQDT Calculando a Soma dos Quadrados dos desvios “dentro” dos grupos (SQDD) 1. Calcula-se a soma dos quadrados dos desvios dentro cada classe pela fórmula ( ) ∑ ∑ −= n x xSQD 2 2 k 2. Calcula-se a soma dos quadrados dos desvios “dentro” das três classes SQDD= SQDClasse A + SQDClasse B + SQDClasse C SQDD= 18,9335 + 6,9335 + 20 = 45,867 Calculando a Soma dos quadrados dos desvios “entre” as classes (SQDE) ( ) ( ) ( ) ( ) 133,0 45 450 15 150 15 149 15 151 2222 =− ++=SQD E A seguir constrói-se a tabela da Análise de Variância, calculam-se os quadrados médios e o valor F SQD Gl QMD F Entre as amostras 0,133 2 0,067 0,061 Dentro das amostras 45,867 42 1,092 Do total (as três amostras juntas) 46 44 Comparando o F calculado e tomando decisão F = QMDE / QMDD = 0,067 / 1,092 = 0,061 O valor de F crítico unilateral para 2 gl “entre” as classe e 42 gl “dentro” das classes é Fαααα=0,05;2;42 = 3,21 13 Como o F calculado é menor que o Fcrítico estamos na área de não-rejeição de H0. Portanto, não se pode rejeitar H0, concluindo que não há diferença estatisticamente significante entre as médias das idades das três classes. As diferenças observadas são decorrentes do erro amostral (acaso). � COMO PUBLICAMOS OS RESULTADOS? O ideal é construir uma tabela com as informações numéricas e complementá-la com um gráfico de intervalo de confiança. Veja como fica: Média e do Desvio padrão das idades N Média DP p-valor Classe A 15 10,1 1,2 Classe B 15 9,9 0,7 Classe C 15 10,0 1,2 < 0,05 DP : desvio padrão; p-valor : probabilidade da Anova Probability Density Function y=F(x;3;25) Rejeição de H0Não Rejeição de H0 F crítico 14 Classe_CClasse_BClasse_A 95 % CI 10,5 10,0 9,5 Figura 2 - Intervalo de Confiança de 95% da média das idades � A COMPARAÇÃO DAS VARIÂNCIAS DAS AMOSTRAS A condição mais importante para a realização da Anova é a homogeneidade (igualdade) das variâncias das amostras. O teste de Bartlett é usado para esta avaliação. Por ser extremamente trabalhoso, é impraticável de ser realizado com a calculadora. No SPSS usa-se o teste de Levene, obtido no módulo <option> <homogeneity of variance test> da Anova. Os atalhos são: Analyze ⇒⇒⇒⇒ Compare Means ⇒⇒⇒⇒ One-Way Anova ⇒⇒⇒⇒ Option ⇒⇒⇒⇒ Homogeneity of variance test 15 As hipóteses de trabalho são: eso diferentiâncias sãH1: as var o iguaisiâncias sãH0: as var Quando o p-valor do teste for maior que 0,05 não poderemos rejeitar H0, o que significa que podemos executar a análise de variância. Atenção: no SPSS o p-valor recebe o nome de <Sig.>, que representa <Significance>. Todas as vezes que nos referirmos ao p-valor frente a um processamento do SPSS deve-se procurar a coluna <Sig.>. No exemplo apresentado a seguir, em destaque no retângulo vermelho encontramos o p-valor (Sig.) do teste de Levene que é menor que 0,001. Assim rejeitamos H0, o que inviabiliza a execução da análise de variância. Quando o p-valor obtido no teste de Levene for menor ou igual a 0,05, o que nos impede de usar a Anova, pode-se avaliar o uso de algumas transformações, tais como arcsenx x xxx ,1 , , ,log 2 . A seguir apresentamos o resultado da transformação de Blom, aplicada aos dados do exemplo anterior. Observe que agora os grupos têm variâncias homogêneas (p=0,094). 44,145 2 402 ,000 WEIGHT vehicle weight (lbs.) Levene Statistic df1 df2 Sig. Test of Homogeneity of Variances 2,382 2 402 ,094 NWEIGHT NORMAL of WEIGHT using BLOM Levene Statistic df1 df2 Sig. Test of Homogeneity of Variances 16 Quando os resultados das transformações não forem favoráveis à Anova, nós a substituímos por uma análise de variância não-paramétrica (o teste de Kruskal-Wallis), que não exige a normalidade da variável e a igualdade das variâncias. � TESTES DE COMPARAÇÕES MÚLTIPLAS3 Quando a Anova aponta que há diferenças estatisticamente significantes entre as médias, usamos um teste complementar para identificar estas diferenças. O software SPSS dispõe de um grande número destes testes, sendo que os mais usados são o Teste de Tukey e o Teste de Bonferroni. No SPSS os atalhos são: Analyze ⇒⇒⇒⇒ Compare Means ⇒⇒⇒⇒ One-Way Anova ⇒⇒⇒⇒ Post Hoc ⇒⇒⇒⇒ Tukey ou Analyze ⇒⇒⇒⇒ Compare Means ⇒⇒⇒⇒ One-Way Anova ⇒⇒⇒⇒ Post Hoc ⇒⇒⇒⇒ Bonferroni No exemplo abaixo, pode-se observar que o software compara as médias dos grupos, duas a duas, usando o teste de Tukey. Apresenta na segunda coluna a diferença entre as médias (Mean Difference), na terceira coluna o erro padrão da diferença (Std Error), na quarta coluna o p-valor do teste e, por fim, o intervalo de confiança da diferença entre as médias (95% Confidence Interval) na última coluna. 3 Consultar o texto específico sobre os testes de comparações múltiplas. 17 No exemplo apresentado, pode-se observar que há diferença entre as médias dos grupos American e European (p<0,001); American e Japanese (p<0,001). A diferença entre o grupo European e Japanese não é estatisticamente significante (IC95%: -45,81 a 466,34; p=0,132). Dependent Variable: WEIGHT vehicle weight (lbs.) Tukey HSD 935,83* 89,415 ,000 726,27 1145,40 1146,10* 86,739 ,000 942,81 1349,39 -935,83* 89,415 ,000 -1145,40 -726,27 210,27 109,262 ,132 -45,81 466,34 -1146,10* 86,739 ,000 -1349,39 -942,81 -210,27 109,262 ,132 -466,34 45,81 (J) ORIGIN country of origin 2 European 3 Japanese 1 American 3 Japanese 1 American 2 European (I) ORIGIN country of origin 1 American 2 European 3 Japanese Mean Difference (I-J) Std. Error Sig. Lower Bound Upper Bound 95% Confidence Interval Multiple Comparisons The mean difference is significant at the .05 level.*. 18 � Exercício proposto Os dados abaixo se referem a uma avaliação da Postura, do Pico de Fluxo Expiratório (PFE), da Pressão Inspiratória Máxima (PIMAX) e a Distância Percorrida no Teste de Caminhada de 6 Minutos (TC6) de crianças. Postura PFE PIMAX TC6 1 275 100 606 1 250 80 647 1 200 40 635 1 320 25 654 2 300 35 672 2 310 35 612 2 450 40 624 2 225 25 621 2 290 70 658 2 215 70 624 2 250 110 660 2 300 75 501 3 300 10 727 3 310 35 728 3 300 30 618 3 265 30 652 3 330 30 711 3 280 65 620 3 220 60 651 3 275 80 616 3 270 90 687 Postura: 1 – problema postural grave; 2 – problema postural moderado; 3 – postura normal (New York Score) Usando o SPSS realize as seguintes tarefas: 1. Avalie se os dados de PFE, PIMAX e TC6 têm distribuição normal? 2. Caso não tenham distribuição normal, qual a transformação que você indicaria para ajustá-los? 3. Compare as médias das três variáveis em relação aos grupos de postura por ANOVA. 4. Apresente os dados usando um curto texto, um gráfico e uma tabela. 19 � BibliografiaAltman DG. Practical statistics for medical research. 1st ed. London: Chapman & Hall, 1991. Bussab WO, Morettin PA. Estatística básica. 5ª ed. São Paulo: Saraiva, 2003. Callegari-Jacques SM. Bioestatística: princípios e aplicações. 1ª ed. Porto Alegre: Artmed, 2003. Daniel WW. Biostatistics – A foundation for analysis in the health sciences. 6th ed., New York: John Wiley & Sons, Inc., 1995. Field A. Descobrindo a estatística usando o SPSS. 2ª ed. Porto Alegre: Artmed, 2009. Howell DC. Statistical methods for psychology. 5th ed. Belmont, CA: Duxbury Press, 2002. Levin J. Estatística aplicada às Ciências Humanas. São Paulo: Harper & Row do Brasil, 1987. Memória JMP. Breve história da Estatística. Brasília: Embrapa Informação Tecnológica, 2004. Vieira S. Análise de variância. São Paulo: Editora Atlas, 2006. Zar J. Biostatistical analysis. 4th ed. Upper Side River: Prentice-Hall Inc., 1999. 20 � A ANÁLISE DE VARIÂNCIA NO SPSS A planilha deve ter duas variáveis: uma que receberá o código dos grupos e a outra para os dados da variável dependente. A variável que definirá o grupo é categórica, mas no SPSS deverá ser sempre numérica. No exemplo anterior teríamos: Classe A = 1 Classe B = 2 Classe C = 3 No menu click: Analize ⇒⇒⇒⇒ Compare Means ⇒⇒⇒⇒ One-Way Anova 1. Selecione a variável dependente na janela superior (Dependent List): classe 2. Selecione o fator na janela inferior (Factor): idade 21 Click em <Options> para habilitar a estatística descritiva e a comparação das variâncias Click em <OK> para continuar o processamento 22 Analisando os resultados do SPSS A análise deve ser realizada em duas etapas: inicialmente avaliamos se as variâncias são homogêneas (iguais). Se isto ocorrer, então, passamos para a etapa seguinte que é a interpretação da tabela da análise de variância. 1. Homogeneidade das variâncias O SPSS utiliza o teste de Levine para avaliar a homogeneidade das variâncias, com as seguintes hipóteses: H0: as variâncias são homogêneas ou “iguais” H1: as variâncias não são homogêneas ou “diferentes” Avalie se o teste é significativo (Sig. < 0,05). Quando isto ocorre H0 é rejeitada, concluindo-se que as variâncias são diferentes, portanto não podemos usar a análise de variância. Quanto Sig. > 0,05 então as variâncias são iguais (H0 não é rejeitada). Nestes casos podemos usar a análise de variância. Neste exemplo Sig. = 0,305, portanto, H0 não pode ser rejeitada 2. Interpretação da tabela da análise de variância As hipóteses de trabalho da análise de variância são: H0: todas as médias são iguais H1: pelo menos uma média é diferente das demais H0 será rejeitada se o teste for significativo (Sig. < 0,05), concluindo-se que pelo menos uma das médias é diferente. Quanto Sig. > 0,05 então as médias são iguais (H0 não poderá ser rejeitada). 1,223 2 42 ,305IDADE Levene Statistic df1 df2 Sig. Test of Homogeneity of Variances 23 Neste exemplo H0 não pode ser rejeitada, pois Sig=0,941. Agora podemos apresentar o p-valor (Sig.) exato na tabela referente à análise das idades das três classes, apresentada na página 13. Média e do Desvio padrão das idades N Média DP p-valor Classe A 15 10,1 1,2 Classe B 15 9,9 0,7 Classe C 15 10,0 1,2 0,941 DP : desvio padrão; p-valor : probabilidade da Anova ANOVA Idade ,133 2 ,067 ,061 ,941 45,867 42 1,092 46,000 44 Between Groups Within Groups Total Sum of Squares df Mean Square F Sig. 24 Valores críticos de F ao nível de 5% (Unilateral) GL “entre” →→→→ GL “dentro” ↓↓↓↓ 1 2 3 4 5 6 7 8 9 10 11 12 1 161.4 199.5 215.7 224.6 230.2 234.0 236.8 238.9 240.5 241.9 243.0 243.9 2 18.51 19.00 19.16 19.25 19.30 19.33 19.35 19.37 19.38 19.40 19.40 19.41 3 10.13 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.81 8.79 8.76 8.74 4 7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6.00 5.96 5.93 5.91 5 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77 4.74 4.70 4.68 6 5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.10 4.06 4.03 4.00 7 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.68 3.64 3.60 3.57 8 5.32 4.46 4.07 3.84 3.69 3.58 3.50 3.44 3.39 3.35 3.31 3.28 9 5.12 4.26 3.86 3.63 3.48 3.37 3.29 3.23 3.18 3.14 3.10 3.07 10 4.96 4.10 3.71 3.48 3.33 3.22 3.14 3.07 3.02 2.98 2.94 2.91 11 4.84 3.98 3.59 3.36 3.20 3.09 3.01 2.95 2.90 2.85 2.82 2.79 12 4.75 3.89 3.49 3.26 3.11 3.00 2.91 2.85 2.80 2.75 2.72 2.69 13 4.67 3.81 3.41 3.18 3.03 2.92 2.83 2.77 2.71 2.67 2.63 2.60 14 4.60 3.74 3.34 3.11 2.96 2.85 2.76 2.70 2.65 2.60 2.56 2.53 15 4.54 3.68 3.29 3.06 2.90 2.79 2.71 2.64 2.59 2.54 2.51 2.48 16 4.49 3.63 3.24 3.01 2.85 2.74 2.66 2.59 2.54 2.49 2.45 2.42 17 4.45 3.59 3.20 2.96 2.81 2.70 2.61 2.55 2.49 2.45 2.41 2.38 18 4.41 3.55 3.16 2.93 2.77 2.66 2.58 2.51 2.46 2.41 2.37 2.34 19 4.38 3.52 3.13 2.90 2.74 2.63 2.54 2.48 2.42 2.38 2.34 2.31 20 4.35 3.49 3.10 2.87 2.71 2.60 2.51 2.45 2.39 2.35 2.31 2.28 21 4.32 3.47 3.07 2.84 2.68 2.57 2.49 2.42 2.37 2.32 2.28 2.25 22 4.30 3.44 3.05 2.82 2.66 2.55 2.46 2.40 2.34 2.30 2.26 2.23 23 4.28 3.42 3.03 2.80 2.64 2.53 2.44 2.37 2.32 2.27 2.24 2.20 24 4.26 3.40 3.01 2.78 2.62 2.51 2.42 2.36 2.30 2.25 2.22 2.18 25 4.24 3.39 2.99 2.76 2.60 2.49 2.40 2.34 2.28 2.24 2.20 2.16 26 4.23 3.37 2.98 2.74 2.59 2.47 2.39 2.32 2.27 2.22 2.18 2.15 27 4.21 3.35 2.96 2.73 2.57 2.46 2.37 2.31 2.25 2.20 2.16 2.13 28 4.20 3.34 2.95 2.71 2.56 2.45 2.36 2.29 2.24 2.19 2.15 2.12 29 4.18 3.33 2.93 2.70 2.55 2.43 2.35 2.28 2.22 2.18 2.14 2.10 30 4.17 3.32 2.92 2.69 2.53 2.42 2.33 2.27 2.21 2.16 2.12 2.09 40 4.08 3.23 2.84 2.61 2.45 2.34 2.25 2.18 2.12 2.08 2.04 2.00 60 4.00 3.15 2.76 2.53 2.37 2.25 2.17 2.10 2.04 1.99 1.95 1.92 120 3.92 3.07 2.68 2.45 2.29 2.17 2.09 2.02 1.96 1.91 1.86 1.83 ∞∞∞∞ 3.84 3.00 2.60 2.37 2.21 2.10 2.01 1.94 1.88 1.83 1.79 1.75 gl1 = graus de liberdade “entre” as amostras gl2 = graus de liberdade “dentro” das amostras 25 Ronald A. Fisher “Diferentemente das técnicas estatísticas utilizadas pela Escola Biométrica, as pesquisas científicas de natureza experimental exigiam tratamento adequado às pequenas amostras, com objetivo inferencial, conforme revelaram os trabalhos pioneiros de Gosset, que se tornou conhecido pelo seu pseudônimo de Student. Esses trabalhos foram continuados no mais alto nível teórico por R. A. Fisher, a figura mais representativa da Fase da Experimentação, considerado o criador dos métodos modernos da Análise e Delineamento de Experimentos.” “Ronald Aylmer Fisher (1890 – 1962) nasceu em Londres, no dia 17 de fevereiro de 1890, e faleceu em Adelaide, na Austrália, a 29 de julho de 1962. Após terminar seus estudos secundários em Harrow, que com Eton eram as mais famosas escolas públicas da Inglaterra (que, na verdade, de públicas só têm o nome), matriculou-se, em 1909, no curso de Matemática da Universidade de Cambridge, com uma bolsa de estudos para o Gonville and Caius College. Em 1912, bacharelou-se, mas continuou por mais 1 ano estudando Mecânica Estatística e Física Quântica com Sir James Jeans, e Teoria dos Erros, com F. M. J. Stratton, ambos renomados astrônomos.” “Como estudante, interessou-se também pela Genética, tendo lido os trabalhos de Karl Pearson sobre Mathematical Contributions to the Theory of Evolution, e participado ativamente como presidente da Sociedade de Eugenia da Universidade de Cambridge.” “Durante sua vida profissional, iniciada em 1912, aindacomo estudante universitário, e que se estendeu por meio século, até sua morte, fez contribuições teóricas fundamentais à Estatística e à análise e delineamento de experimentos que, por si, já garantiriam sua fama de um dos maiores cientistas do século.” “Além dessas contribuições, Fisher foi também um eminente geneticista, exemplo raro da combinação de talento matemático e de cientista natural no mais elevado sentido, o que bem revela a versatilidade de seu gênio. Basta mencionar seu célebre artigo publicado em 1918 e o famoso livro em 1930, anteriormente citados. Com John Burdon Sanderson Haldane (1892 – 1964) e com o geneticista americano Sewall Wright (1889 – 1988) – conhecido dos estatísticos por sua invenção do path coefficient (coeficiente de percurso) na regressão múltipla – Fisher constituiu o triunvirato que governou os primeiros 25 anos de existência da Genética de Populações. Não devem ser omitidas, também, suas importantes pesquisas serológicas, que culminaram com a elucidação do mecanismo hereditário do sistema Rh de grupos sangüíneos.” “Considerado por C. Radhakrishna Rao como o fundador da Estatística Moderna, Fisher foi não somente o maior estatístico de sua época, mas para muitos que conheceram sua obra monumental, é ainda o maior estatístico de todos os tempos. Ao longo de sua eminente carreira, recebeu várias honrarias e distinções acadêmicas, entre outras, o grau de Doutor por sua Alma Mater em 1926, o título de Fellow of the Royal Society (F. R. S.) em 1929, e o título honorífico de Sir, em 1952.” Trecho extraído da “Breve História da Estatística” de José Maria Pompeu Memória (páginas 36 e 37).
Compartilhar