Baixe o app para aproveitar ainda mais
Prévia do material em texto
FUNDAMENTOS DO SAS APLICADO À EXPERIMENTAÇÃO AGRÍCOLA ii Obra publicada pela Universidade Federal de Pelotas Reitora: Prof. Dra. Inguelore Scheunemann de Souza Vice-Reitor: Prof. Dr. André Luiz Haack Pró-Reitor de Extensão e Cultura: Prof. Francisco Elifalete Xavier Pró-Reitor de Graduação: Profa. Anne Marie Moor Mc Culloch Pró-Reitor de Pesquisa e Pós-Graduação: Prof. Odir Antônio Dellagostinn Pró-Reitor Administrativo: Paulo Roberto Soares de Pinho Pró-Reitor de Planejamento e Desenvolvimento: Prof. Paulo Silveira Júnior Diretor da Editora e Gráfica Universitária: Prof. Manoel Luiz Brenner de Moraes Conselho Editorial MEMBROS TITULARES Prof. Antonio Jorge do Amaral Bezerra Prof. Regina Maria Balzano de Mattos Prof. Manoel Luiz Brenner de Moraes Prof. José Justino Faleiros Prof. Elomar Antonio Callegaro Tambara Prof. Renato Luiz Mello Varoto Prof. Neusa Mariza Rodrigues Félix Profa. Ligia Antunes Leivas Prof. Francisco Elifalete Xavier Prof. Teófilo Alves Galvão MEMBROS SUPLENTES Prof Álvaro Luiz Moreira Hipólito Prof. Isabel Bonat Hirsch Prof. Nicola Caringi Lima Prof. Valter Eliogabalos Azambuja Editora e Gráfica Universitária R Lobo da Costa,447 – Pelotas, RS – CEP 96010-150 Fone/fax:(53)227 3677 e-mail: editoraufpel@uol.com.br Layout, Editoração Eletrônica: Jefferson Luís Meirelles Coimbra. Capa: Paulo Lanzetta Apoio Técnico: Ariano Martins de Magalhães Júnior. Impresso no Brasil Primeira Edição: 2004 ISBN 85-7192-241-1 Tiragem: 400 exemplares Dados de catalogação na fonte: (Marlene Cravo Castillo – CRB-10/744) C679f Coimbra, Jefferson Luis Meirelles Fundamentos do SAS aplicado a experimentação agrícola / Jefferson Luis Meirelles Coimbra; Fernando Irajá Félix de Carvalho; Antônio Costa de Oliveira. Pelotas : Ed. Universitária / UFPEL, 2004. 246p. : il. ISBN 85-7192-241-1 1. SAS 2. Estatística experimental 3. Análise paramétrica 4. Análise não paramétrica 5. Proc Glm 6. Proc Anova I. Carvalho, Fernando Irajá Félix de II. Oliveira, Antônio Costa de III. Título CDD 630.20112 iii Jefferson Luís Meirelles Coimbra Fernando Irajá Félix de Carvalho Antônio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Departamento de Fitotecnia F U N D A M E N T O S D O S A S A P L I C A D O À E X P E R I M E N T A Ç Ã O A G R Í C O L A Pelotas Editora e Gráfica Universitária - UFPel 2004 iv Aos meus avós, Oswaldino Meirelles e Adelina dos Anjos Meirelles, A minha esposa, Silvana Manfredi Meirelles Coimbra, Ao meu filho, Enzo Manfredi Meirelles Coimbra. Jefferson Luís Meirelles Coimbra Á comunidade Científica e a Família. Fernando Irajá Félix de Carvalho A minha esposa Carla, A meus filhos Victoria e Eduardo, Pela compreensão com o tempo dedicado a Pesquisa Científica. Antônio Costa de Oliveira v PREFÁCIO Este Manual é baseado em vários livros citados na bibliografia consultada, e tem como objetivo apresentar fundamentos do SAS na área da Estatística aplicada à Experimentação Agrícola. Dada à heterogeneidade do grupo discente, bem como a diversidade de interesses tanto dos alunos de cursos de Graduação quanto de Pós-Graduação das áreas de Ciências Agrárias, foi julgado conveniente e relevante que fosse escrito de modo resumido e principalmente, de modo prático, um material acessível com os principais métodos estatísticos aplicados à Experimentação Agrícola. Com a pretensão de cobrir a grande quantidade de temas abordados pelos Professores dessa instituição de forma exímia; este manual no entanto aborda mais profundamente questões freqüentes que os alunos se deparam na análise de seus experimentos não sendo possível aprofundar todos os pontos mencionados com igual intensidade. A iniciativa da redação deste texto surgiu da necessidade de unir o conhecimento teórico associado à aplicação prática dos mais variados métodos Estatísticos empregados na Experimentação Agrícola, oferecendo assim, principalmente ao estudante e ao pesquisador um material introdutório e bastante amplo. Este manual não tem pretensão de substituir quaisquer das obras da vasta bibliografia existente sobre o assunto e deliberadamente consultada pelos seus autores. Este manual tenta poupar esforços para os discentes no que se refere à execução e interpretação de análises estatísticas mais empregadas na Experimentação Agrícola, como por exemplo, análise de regressão linear simples e análise de variância por meio de diversos delineamentos estatísticos. É exigido do leitor um conhecimento, mesmo que superficial, para extrair os objetivos maiores deste manual. Os autores não empregaram uma metodologia de apresentação técnico-científica rigosa; sendo assim, tanto a escrita quanto os resultados obtidos estão apresentados de modo bastante particular, o que na suas opiniões isto não representa uma deficiência didática, muito pelo contrário, tornando vi assim a leitura e a interpretação de modo prático e, principalmente acessível a grande maioria dos profissionais da área agronômica. Finalmente, os autores expressam seus agradecimentos pelo apoio indispensável à realização deste manual, aos Engenheiros Agrônomos José Antônio Gonzales da Silva e a Silvana Manfredi-Coimbra pelas valiosas sugestões e críticas sempre no sentido de enriquecer o conteúdo deste modesto manual. Agradecemos a todos que contribuíram de forma direta ou indireta para elaboração deste manual. Em especial, ao Professor da Universidade Federal de Pelotas João Gilberto Corrêa da Silva e a Estudante de Doutorado em Ciência do Solo da Universidade Federal do Rio de Janeiro Maria Antonieta Alsare, ajudando- nos por meio de leitura cuidadosa, sugestões, correções e elaboração dos programas em SAS e discussão muito profícua. Esperamos que nossa iniciativa seja de fato útil aos interessados no emprego do SAS como ferramenta para solucionar uma grande fatia dos problemas que aparecem no momento de ‘rodar’ a análise estatística, estimulando-os a desenvolver soluções individuais para seus mais variados empregos na área agronômica. Finalmente, assumimos total responsabilidade pelas imperfeições e solicitamos aos usuários que nos apresentem críticas e sugestões para uma futura edição revisada. Jefferson Luís Meirelles Coimbra Fernando Irajá Félix de Carvalho Antônio Costa de Oliveira Pelotas, outubro de 2004. vii ÍNDICE 01. INTRODUÇÃO GERAL -------------------------------------------------------- 01 02. TESTE DE NORMALIDADE ---------------------------------------------------- 03 03. TESTES NÃO PARAMÉTRICOS PARA COMPARAR DOIS GRUPOS------------------------ 17 04. TESTES NÃO PARAMÉTRICOS PARA COMPARAR MAIS DE DOIS GRUPOS---------------- 25 05. DISTRIBUIÇÃO DE FREQÜÊNCIAS --------------------------------------------- 31 06. DELINEAMENTO COMPLETAMENTE CASUALIZADO ---------------------------------- 37 07. DELINEAMENTO BLOCOS AO ACASO -------------------------------------------- 45 08. DELINEAMENTO QUADRADO LATINO --------------------------------------------53 09. MAIS DE UMA OBSERVAÇÃO POR PARCELA -------------------------------------- 61 10. COMPARAÇÃO DE MÉDIAS POR MEIO DE CONTRASTES ----------------------------- 67 11. ANÁLISE DE REGRESSÃO ---------------------------------------------------- 73 11.1. ANÁLISE DOS RESÍDUOS ---------------------------------------------- 81 12. FATORIAL 2X2 SEM INTERAÇÃO ---------------------------------------------- 85 13. FATORIAL COM INTERAÇÃO -------------------------------------------------- 91 14. EXPERIMENTO FATORIAL FIXO DESBALANCEADO --------------------------------- 99 15. EXPERIMENTO FATORIAL: INTERAÇÃO TRIPLA NÃO SIGNIFICATIVA---------------- 115 16. EXPERIMENTO FATORIAL: INTERAÇÃO TRIPLA SIGNIFICATIVA-------------------- 127 viii 17. DOIS FATORES: QUALITATIVO ESPECÍFICO ----------------------------------- 139 17.1. TESTE DE SIGNIFICÂNCIA DE CONTRASTES ------------------------------ 145 18. DOIS FATORES: QUANTITATIVO versus QUALITATIVO COM DOIS NÍVEIS----------- 149 18.1. AJUSTANDO A EQUAÇÃO DE REGRESSÃO --------------------------------- 154 19. DOIS FATORES: QUANTITATIVO versus QUALITATIVO COM MAIS DE DOIS NÍVEIS--- 159 19.1. AJUSTANDO A EQUAÇÃO DE REGRESSÃO --------------------------------- 167 20. DOIS FATORES: QUANTITATIVOS -------------------------------------------- 173 20.1. AJUSTANDO AS EQUAÇÕES DE REGRESSÃO PARA N e P -------------------- 179 20.2. AJUSTANDO A EQUAÇÃO DE REGRESSÃO PARA N ------------------------- 182 20.3. AJUSTANDO A EQUAÇÃO DE REGRESSÃO PARA P -------------------------- 183 20.4. AJUSTANDO A EQUAÇÃO DE REGRESSÃO POLINOMIAL ---------------------- 184 21. ANÁLISE CONJUNTA DE EXPERIMENTOS --------------------------------------- 185 21.1. VERIFICANDO A HOMOGENEIDADE DA VARIÂNCIA ------------------------- 189 21.2. ANÁLISE DE VARIÂNCIA CONJUNTA ------------------------------------ 193 21.3. ANÁLISE DE VARIÂNCIA PARA TESTAR O GRAU DE POLINÔMIO ------------- 199 21.4. COMPARAÇÃO DE MÉDIAS POR SCHEFFE --------------------------------- 200 21.5. AJUSTANDO A EQUAÇÃO DE REGRESSÃO --------------------------------- 201 22. DELINEAMENTO DE PARCELAS DIVIDIDAS ------------------------------------- 203 22.1. EFEITO SIMPLES --------------------------------------------------- 210 22.2. ANÁLISE DE VARIÂNCIA PARA POLINÔMIOS ORTOGONAIS ------------------ 212 ix 22.3. EQUAÇÕES DE REGRESSÃO AJUSTADAS PARA CADA CULTIVAR --------------- 212 23. DELINEAMENTO DE PARCELAS SUB-DIVIDIDAS --------------------------------- 215 24. ANÁLISE DE COVARIÂNCIA ------------------------------------------------- 223 25. PLANO EXPERIMENTAL ----------------------------------------------------- 231 26. BIBLIOGRAFIA CONSULTADA ------------------------------------------------ 235 x Introdução Geral Coimbra, J.L.M.; Carvalho, F.I.F. & Oliveira, A.C - 1 - 01. INTRODUÇÃO GERAL O sistema SAS (Statistical Analysis System) é um Software (programa de computador) para análises de dados (SAS, 2002). O objetivo maior do programa SAS é executar vários tipos de análises de dados via computador em um só programa estatístico, como, por exemplo, análise de variância univariada e multivariada, análise de regressão linear simples e testes não paramétricos. Em vez de aprender vários pacotes estatísticos e vários tipos de programação, o usuário somente precisa aprender o sistema de análise estatística SAS, para resolver uma grande parte dos seus problemas de análises tanto paramétrica quanto não paramétrica via computador. De modo geral, o SAS está dividido em três janelas básicas que são: Program, Output e Log. A tela denominada de ‘Program’ é o local onde devem ser digitadas as linhas de comando do programa. Já, a janela ‘Output’ é aquela onde são mostrados (gerados) os resultados obtidos de forma idêntica ao descritos pelo manual, no item resultados obtidos; estes resultados obtidos são impressos nesta tela quando a programação for apresentada de modo rigorosamente correta, caso contrário pode não aparecer informação nenhuma. A janela denominada de ‘Log’ tem por objetivo mostrar informações bastante úteis com respeito a possíveis erros encontrados, tanto na programação quanto na digitação dos dados a serem analisados, ou seja, qualquer nota ou mensagem com respeito a erro é exibida nesta janela. Normalmente, a síntese dos erros é apresentada na cor preta até atingir um número máximo de erros que será identificado pela cor vermelha, enquanto que a cor azul representa o oposto. Introdução Geral Coimbra, J.L.M.; Carvalho, F.I.F. & Oliveira, A.C - 2 - Por exemplo, um erro bastante comum é quanto à identificação das variáveis alfanuméricas que devem ser identificadas pelo cifrão ($), no comando input; caso for negligenciado este símbolo, automaticamente aparecerão na janela ‘log’ na cor preta, até 19 erros, ultrapassando o limite fixado para os erros serão identificados na cor vermelha. Este truncamento pode ser definido pelo usuário. Teste de Normalidade Coimbra, J.L.M.; Carvalho, F.I.F. & Oliveira, A.C - 3 - 02. TESTE DE NORMALIDADE INTRODUÇÃO Ao analisarmos uma variável qualquer, temos em primeiro lugar que verificar a condição de normalidade da distribuição dos dados (Silva, 1993). De acordo com este mesmo autor, a razão dessa exigência é o fato dos testes estatísticos em geral se basearem na curva de distribuição normal do erro. Caso for ignorada esta pressuposição, poderemos obter um resultado pouco provável. A curva normal de freqüência é a distribuição contínua mais importante, tanto do ponto de vista teórico quanto nas aplicações práticas da estatística (Littel, 1996). Muitos métodos estatísticos assumem que os valores de uma amostra, retirados de uma população seguem uma distribuição normal. Freqüentemente, devemos decidir se aceitamos ou não a hipótese que testa a normalidade dos dados. A distribuição normal é uma distribuição teórica com importantes propriedades, uma das mais importantes é que os parâmetros: média, moda e mediana possuem valores iguais (Johnson, 1971). OBJETIVOS: i) obter algumas estatísticas elementares univariadas; ii) testar a normalidade; iii) representar graficamente os dados; iv) manipular o procedimento (proc sort) em relação ao(s) fator(es) de interesse. Teste de Normalidade Coimbra, J.L.M.; Carvalho, F.I.F. & Oliveira, A.C - 4 - LINHAS DE COMANDOS DO PROGRAMA As linhas de comando do programa são instruções que comunicam o computador com o SAS; cada linha de comando termina com ponto-e-vírgula, por esta razão os dados inseridos na planilha de dados não devem conter ponto-e-vírgula. Após o término das linhas de comando do programa deve ser digitado o comando F3 ou o comando submit (submeter) este (s), o qual determina que seja rodado o programa. Cada linha de comando corresponde a uma linha de programação inserida no item programação. A1- nome atribuído ao conjunto de dados; A2- título do programa (opcional); A3- entrada dos dados, deve possuir obrigatoriamente a mesma seqüência da planilha abaixo (caráter, geração, produto e y); o símbolo alfa numérico ($), deve ser utilizado sempre que alguma variável relacionada no input estiveridentificada por meio de letras ou número acompanhado por letra(s), por exemplo A2 ou 2A; A4 - indica que as linhas de dados seguem logo abaixo; A5 - comando que identifica o término da entrada de dados; A6 - comando que determina a realização de uma ordenação, por (by) uma ou mais variáveis listadas no input (linha A3), neste caso, é referente ao número total de observações de y (ciclo vegetativo) avaliado dentro de cada produto (MMS, GAMA e DMS) e dentro de cada geração (M2 e M3). Por exemplo, para o produto mutagênico ‘MMS’ na geração segregante M2, ‘N’ é igual a cinco valores observados (104, 104, 80, 104 e 70). Pode ser observado que se não fosse utilizado o sorteio (by) por geração este valor de ‘N’ analisando somente o produto químico MMS seria aumentado para 10 observações (104, 104, 80, 104, 70, 104, 103, 104, 96 e 108). Teste de Normalidade Coimbra, J.L.M.; Carvalho, F.I.F. & Oliveira, A.C - 5 - A7 - determina a realização de uma análise univariada para testar a normalidade, sorteada pelas mesmas variáveis identificadas no proc sort (linha A6). A8 - variável resposta, que neste caso é ciclo vegetativo de plantas medido em dias; A9 - comando que determina a representação gráfica dos dados em questão; A10 - realiza gráficos com barras verticais; A11 - realiza gráficos com barras horizontais; A12 - final da programação; PROGRAMAÇÃO 1A1 DATA JLMC; A2 /* Teste da normalidade dos dados*/; A3 INPUT carater$ geração$ produto$ Y; A4 CARDS; ciclo M2 GAMA 106 ciclo M2 GAMA 108 ciclo M2 GAMA 102 ciclo M2 GAMA 102 ciclo M2 GAMA 106 ciclo M2 GAMA 104 ciclo M2 GAMA 104 ciclo M2 GAMA 99 ciclo M2 GAMA 104 ciclo M2 GAMA 110 ciclo M2 MMS 104 ciclo M2 MMS 104 ciclo M2 MMS 80 ciclo M2 MMS 104 ciclo M2 MMS 70 ciclo M3 MMS 104 ciclo M3 MMS 103 ciclo M3 MMS 104 ciclo M3 MMS 96 ciclo M3 MMS 108 ciclo M3 DMS 104 1 Referem-se apenas à descrição didática de cada linha de comando utilizado para construção do programa, portanto, não devem aparecer na programação no momento da análise final. Teste de Normalidade Coimbra, J.L.M.; Carvalho, F.I.F. & Oliveira, A.C - 6 - ciclo M3 DMS 108 ciclo M3 DMS 110 ciclo M3 DMS 108 ciclo M3 DMS 104 ciclo M3 DMS 106 ciclo M3 DMS 103 ciclo M3 DMS 106 ciclo M3 DMS 106 ciclo M3 DMS 110 A5 ; A6 proc sort; by produto geracao; A7 proc univariate data=jlmc normal;by produto geracao; A8 var y; A9 proc chart data=jlmc;by produto geracao; A10 vbar y; A11 hbar y; A12 run; RESULTADOS OBTIDOS Para fins ilustrativos do teste de normalidade, foi considerado parte de um experimento que tinha como objetivo avaliar a distribuição de freqüências de duas gerações segregantes (M2 e M3) oriundas de três agentes mutagênicos, sendo: dois químicos (MMS e DMS) e um físico (raios gama, oriundos de 60Co). Neste experimento em particular, a variável resposta, ciclo vegetativo de plantas foi avaliada em dias entre a emergência e o florescimento de 50% das plantas da parcela. Cada número listado abaixo possui um número correspondente no item saída. 1 → análise realizada exclusivamente para os fatores determinados no comando proc sort; 2 → variável resposta ou dependente, neste caso ciclo vegetativo em dias; 3 → número total de observações; 4 → média aritmética geral ou global; 5 → desvio padrão; Teste de Normalidade Coimbra, J.L.M.; Carvalho, F.I.F. & Oliveira, A.C - 7 - 6 → skewness igual a zero significa que a distribuição é simétrica, valores de skewness negativos e positivos deslocam a distribuição para direita e esquerda, respectivamente. A curva normal é igual a ZERO (simétrica); 7 → coeficiente de variação em percentagem; 8 → o teste estatístico ‘W’ é maior que zero e menor que 1 (0<W<1). Valor de W, muito pequeno, indica que os dados não seguem uma distribuição normal. De modo prático devemos ter valor de W acima de 0,95. 9 → soma total dos valores observados; 10 → variância; 11 → curtose mede o grau de achatamento da curva; estimativas superiores à unidade indicam uma menor concentração dos dados em torno da média. Duas distribuições podem ter a mesma variância, mas uma delas pode apresentar maior concentração dos dados em torno da média, a outra terá naturalmente as caudas mais alongadas. A distribuição normal possui um valor de curtose igual a ZERO. Estimativas de valores superiores à unidade indicam uma menor concentração dos dados em torno da média; conseqüentemente maior o grau de divergência genética e vice-versa, pois tanto o parâmetro de assimetria quanto de curtose são estimados sempre em relação à distribuição normal. 12 → desvio padrão da média; 13 → probabilidade (Pr>W) representa a probabilidade de aceitar ou não a hipótese da nulidade denotada por H0 (H0: os dados seguem uma distribuição normal); caso for rejeitada a hipótese de nulidade devemos aceitar obrigatoriamente a hipótese alternativa representada por Ha ou H1 (hipótese Ha: os dados não seguem uma distribuição normal), este valor pode variar de (0>W>1), Teste de Normalidade Coimbra, J.L.M.; Carvalho, F.I.F. & Oliveira, A.C - 8 - de modo prático, valores próximos a zero indicam que os dados não seguem uma distribuição normal. 14 → mediana é o valor abaixo e acima do qual se tem a metade dos valores. 15 → amplitude de variação (valor máx - valor min); 16 → moda é o valor mais freqüente ou mais comum de uma distribuição; INTERPRETAÇÃO Observando os resultados obtidos para o produto mutagênico MMS (metil- metanossulfonato) na geração segregante M2 pode ser constatado primeiramente que os valores da média (92,4) da moda (104,0) e da mediana (104,0) não mostraram o mesmo valor para os três parâmetros, apontando assim que estes dados amostrados, provavelmente não seguem uma distribuição normal; Os valores tanto de skewness quanto de curtose mostraram valores diferentes de zero, principalmente para o valor de curtose. Valor da estatística W (W = 0,760816/Pr<W = 0,0390) corrobora a não normalidade dos dados para esta análise, especificamente. É de grande conveniência acadêmica e prática, para visualização dos dados, plotar graficamente as distribuições de freqüência, com o intuito de constatar visualmente o tipo de distribuição contínua (normal) ou discreta (não normal). Para exemplificar, uma distribuição discreta (não normal) podemos observar no gráfico da população A. Observando os resultados gerados para o produto mutagênico físico raios gama (60Co) na geração segregante M2 pode ser constatado primeiramente que os valores da média (104,5) da moda (104,0) e da mediana (104,0) mostraram, praticamente o mesmo valor para os três parâmetros; Os valores tanto de skewness quanto de curtose mostraram valores próximos a zero, principalmente para estatística da curtose. Valor da estatística W (W = 0,973066/Pr<W = 0,9105) corrobora a normalidade dos dados para esta população, individualmente. Teste de Normalidade Coimbra, J.L.M.; Carvalho, F.I.F. & Oliveira, A.C - 9 - Para exemplificar, uma distribuição contínua (normal) podemos observar o gráfico da populaçãoB. De modo geral, é prudente aceitarmos a hipótese que os dados seguem uma distribuição normal quando a estatística W for superior a 0,95; exclusivamente para dados que seguem uma distribuição contínua, como por exemplo, rendimento de grãos. SAÍDA: --------------------------- 1 → PRODUTO=MMS GERACAO=M2 ------------------------------- Univariate Procedure 2 → Variable=Y Moments 3 → N 5 Sum Wgts 5 4 → Mean 92.4 9 → Sum 462 5 → Std Dev 16.272 10 → Variance 264.8 6 → Skewness -0.81838 11 → Kurtosis -2.12206 USS 43748 CSS 1059.2 7 → CV 17.61112 12 → Std Mean 7.277362 T:Mean=0 12.69691 Pr>|T| 0.0002 Num ^= 0 5 Num > 0 5 M(Sign) 2.5 Pr>=|M| 0.0625 Sgn Rank 7.5 Pr>=|S| 0.0625 8 → W:Normal 0.760816 13 → Pr<W 0.0390 Quantiles(Def=5) 100% Max 104 99% 104 75% Q3 104 95% 104 14 → 50% Med 104 90% 104 25% Q1 80 0% 70 0% Min 70 5% 70 1% 70 15 → Range 34 Q3-Q1 24 16 → Mode 104 Teste de Normalidade Coimbra, J.L.M.; Carvalho, F.I.F. & Oliveira, A.C - 10 - -------------------------------------- PRODUTO=MMS GERACAO=M3 -------------------------- Univariate Procedure Variable=Y Moments N 5 Sum Wgts 5 Mean 103 Sum 515 Std Dev 4.358899 Variance 19 Skewness -1.08671 Kurtosis 2.484765 USS 53121 CSS 76 CV 4.231941 Std Mean 1.949359 T:Mean=0 52.83789 Pr>|T| 0.0001 Num ^= 0 5 Num > 0 5 M(Sign) 2.5 Pr>=|M| 0.0625 Sgn Rank 7.5 Pr>=|S| 0.0625 W:Normal 0.888301 Pr<W 0.3463 Quantiles(Def=5) 100% Max 108 99% 108 75% Q3 104 95% 108 50% Med 104 90% 108 25% Q1 103 10% 96 0% Min 96 5% 96 1% 96 Range 12 Q3-Q1 1 Mode 104 --------------------------------- PRODUTO=dms GERACAO=M3 ------------------------------- Univariate Procedure Variable=Y Moments N 10 Sum Wgts 10 Mean 106.5 Sum 1065 Std Dev 2.460804 Variance 6.055556 Skewness 0.167768 Kurtosis -1.13345 USS 113477 CSS 54.5 CV 2.310614 Std Mean 0.778175 T:Mean=0 136.8588 Pr>|T| 0.0001 Num ^= 0 10 Num > 0 10 M(Sign) 5 Pr>=|M| 0.0020 Sgn Rank 27.5 Pr>=|S| 0.0020 W:Normal 0.926661 Pr<W 0.4003 Quantiles(Def=5) 100% Max 110 99% 110 75% Q3 108 95% 110 50% Med 106 90% 110 25% Q1 104 10% 103.5 0% Min 103 5% 103 1% 103 Range 7 Q3-Q1 4 Mode 106 Teste de Normalidade Coimbra, J.L.M.; Carvalho, F.I.F. & Oliveira, A.C - 11 - -------------------------------- PRODUTO=gama GERACAO=M2 ------------------------------- Univariate Procedure Variable=Y Moments N 10 Sum Wgts 10 Mean 104.5 Sum 1045 Std Dev 3.17105 Variance 10.05556 Skewness 0.078403 Kurtosis 0.12582 USS 109293 CSS 90.5 CV 3.034497 Std Mean 1.002774 T:Mean=0 104.2109 Pr>|T| 0.0001 Num ^= 0 10 Num > 0 10 M(Sign) 5 Pr>=|M| 0.0020 Sgn Rank 27.5 Pr>=|S| 0.0020 W:Normal 0.973066 Pr<W 0.9105 Quantiles(Def=5) 100% Max 110 99% 110 75% Q3 106 95% 110 50% Med 104 90% 109 25% Q1 102 10% 100.5 0% Min 99 5% 99 1% 99 Range 11 Q3-Q1 4 Mode 104 POPULAÇÃO A --------------------------------- PRODUTO=MMS GERACAO=M2 ------------------------------- Frequency 3 ˆ ***** ‚ ***** ‚ ***** ‚ ***** ‚ ***** 2 ˆ ***** ‚ ***** ‚ ***** ‚ ***** ‚ ***** 1 ˆ ***** ***** ***** ‚ ***** ***** ***** ‚ ***** ***** ***** ‚ ***** ***** ***** ‚ ***** ***** ***** Šƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 70 80 90 100 Y Midpoint Teste de Normalidade Coimbra, J.L.M.; Carvalho, F.I.F. & Oliveira, A.C - 12 - --------------------------- PRODUTO=MMS GERACAO=M2 ------------------------ Y Cum. Cum. MidpointFreq Freq Percent Percent ‚ 70 ‚********** 1 1 20.00 20.00 ‚ 80 ‚********** 1 2 20.00 40.00 ‚ 90 ‚ 0 2 0.00 40.00 ‚ 100 ‚****************************** 3 5 60.00 100.00 ‚ Šƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒˆ 1 2 3 Frequency --------------------- PRODUTO=MMS GERACAO=M3 --------------------------- Frequency 3 ˆ ***** ‚ ***** ‚ ***** ‚ ***** ‚ ***** 2 ˆ ***** ‚ ***** ‚ ***** ‚ ***** ‚ ***** 1 ˆ ***** ***** ***** ‚ ***** ***** ***** ‚ ***** ***** ***** ‚ ***** ***** ***** ‚ ***** ***** ***** Šƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 96 100 104 108 Y Midpoint Teste de Normalidade Coimbra, J.L.M.; Carvalho, F.I.F. & Oliveira, A.C - 13 - ---------------------------------- PRODUTO=MMS GERACAO=M3 ------------------------------ Y Cum. Cum. Midpoint Freq Freq Percent Percent ‚ 96 ‚********** 1 1 20.00 20.00 ‚ 100 ‚ 0 1 0.00 20.00 ‚ 104 ‚****************************** 3 4 60.00 80.00 ‚ 108 ‚********** 1 5 20.00 100.00 ‚ Šƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒˆ 1 2 3 Frequency -------------------------------------- PRODUTO=dms GERACAO=M3 -------------------------- Frequency 3 ˆ ***** ***** ‚ ***** ***** ‚ ***** ***** ‚ ***** ***** ‚ ***** ***** 2 ˆ ***** ***** ***** ***** ‚ ***** ***** ***** ***** ‚ ***** ***** ***** ***** ‚ ***** ***** ***** ***** ‚ ***** ***** ***** ***** 1 ˆ ***** ***** ***** ***** ‚ ***** ***** ***** ***** ‚ ***** ***** ***** ***** ‚ ***** ***** ***** ***** ‚ ***** ***** ***** ***** Šƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 104 106 108 110 Y Midpoint Teste de Normalidade Coimbra, J.L.M.; Carvalho, F.I.F. & Oliveira, A.C - 14 - ------------------------------- PRODUTO=dms GERACAO=M3 --------------------------------- Y Cum. Cum. Midpoint Freq Freq Percent Percent ‚ 104 ‚****************************** 3 3 30.00 30.00 ‚ 106 ‚****************************** 3 6 30.00 60.00 ‚ 108 ‚******************** 2 8 20.00 80.00 ‚ 110 ‚******************** 2 10 20.00 100.00 ‚ Šƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒˆ 1 2 3 Frequency POPULAÇÃO B ---------------------------------- PRODUTO=gama GERACAO=M2 ----------------------------- Frequency 5 ˆ ***** ‚ ***** ‚ ***** ‚ ***** ‚ ***** 4 ˆ ***** ‚ ***** ‚ ***** ‚ ***** ‚ ***** 3 ˆ ***** ‚ ***** ‚ ***** ‚ ***** ‚ ***** 2 ˆ ***** ***** ***** ‚ ***** ***** ***** ‚ ***** ***** ***** ‚ ***** ***** ***** ‚ ***** ***** ***** 1 ˆ ***** ***** ***** ***** ‚ ***** ***** ***** ***** ‚ ***** ***** ***** ***** ‚ ***** ***** ***** ***** ‚ ***** ***** ***** ***** Šƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 100.5 103.5 106.5 109.5 Y Midpoint Teste de Normalidade Coimbra, J.L.M.; Carvalho, F.I.F. & Oliveira, A.C - 15 - -------------------------------- PRODUTO=gama GERACAO=M2 ------------------------------- Y Cum. Cum. Midpoint Freq Freq Percent Percent ‚ 100.5 ‚***** 1 1 10.00 10.00 ‚ 103.5 ‚************************* 5 6 50.00 60.00 ‚ 106.5 ‚********** 2 8 20.00 80.00 ‚ 109.5 ‚********** 2 10 20.00 100.00 ‚ Šƒƒƒƒˆƒƒƒƒˆƒƒƒƒˆƒƒƒƒˆƒƒƒƒˆ 1 2 3 4 5 Frequency Teste de Normalidade Coimbra, J.L.M.; Carvalho, F.I.F. & Oliveira, A.C - 16 - Testes não paramétricos para comparar dois grupos Coimbra, J.L.M.; Carvalho, F.I.F. & Oliveira, A.C - 17 - 03. TESTES NÃO PARAMÉTRICOS PARA COMPARAR DOIS GRUPOS INTRODUÇÃO Os testes paramétrico exigem algumas condições para serem válidos. Essas condições nunca ou quase nunca são completamente satisfeitas, mas isso não importa, desde que estejam satisfeitas aproximadamente. Felizmente, ainda assim, estes dados podem ser analisados por meio de algum teste não paramétrico, por exemplo, Wilcoxon, qui-quadrado, Kruskal-Wallis,entre outros. O teste chamado de Wilcoxon Rank Sum Test, é um teste não paramétrico utilizado para comparação de distribuição de freqüências em lugar de parâmetros. A única suposição normalmente requerida para este teste é que as observações devem ser independentes. OBJETIVOS: Após constatar a não normalidade na distribuição dos dados o procedimento alternativo é comparar as distribuição por meio de algum teste não paramétrico, por exemplo, Wilcoxon, pois temos apenas dois grupos. LINHAS DE COMANDO DO PROGRAMA A1 - nome atribuído aos dados a serem analisados pelo SAS; A2 - título do programa; A3 - entrada dos dados; Testes não paramétricos para comparar dois grupos Coimbra, J.L.M.; Carvalho, F.I.F. & Oliveira, A.C - 18 - A4 - indica que as linhas de dados seguem logo abaixo; A5 - comando que identifica o término da entrada de dados; A6 - comando que identifica a realização de uma ordenação, por (by) uma ou mais variáveis listadas no input; A7 - realiza uma análise univariada sobre algumas estatísticas elementares para cada variável identificada no comando proc sort; A8 - adicionalmente ao resultado do Wilcoxon Rank Sum Test, proc npar1way gera resultados de alguns testes com resultados similares, como por exemplo, Kruskal- Wallis test (Qui-quadrado aproximado); A9 - comando que classifica os dados em grupos; A10 - variável resposta Y; A11 - separação das linhas de comando (opcional); A12 - o comando run seguido de ‘;’ determinam o final da programação; PROGRAMAÇÃO A1 DATA JLMC ; A2 /* Teste não paramétrico */; A3 INPUT carater$ geracao$ Y; A4 CARDS; ciclo M2 106 ciclo M2 108 ciclo M2 102 ciclo M2 102 ciclo M2 106 ciclo M2 104 ciclo M2 104 ciclo M2 99 ciclo M2 104 ciclo M2 110 ciclo M2 104 ciclo M2 104 ciclo M2 80 Testes não paramétricos para comparar dois grupos Coimbra, J.L.M.; Carvalho, F.I.F. & Oliveira, A.C - 19 - ciclo M2 104 ciclo M2 70 ciclo M3 104 ciclo M3 103 ciclo M3 104 ciclo M3 96 ciclo M3 108 ciclo M3 104 ciclo M3 108 ciclo M3 110 ciclo M3 108 ciclo M3 104 ciclo M3 106 ciclo M3 103 ciclo M3 106 ciclo M3 106 ciclo M3 110 A5 ; A6 proc sort; by geracao; A7 proc univariate normal; by geracao; A8 proc npar1way data=jlmc wilcoxon; A9 class geracao; A10 var y; A11 ; A12 run; RESULTADOS OBTIDOS Para fins ilustrativos do teste de Wilcoxon Rank Sum Test, foi considerado parte de um experimento que tinha como objetivo avaliar a distribuições de freqüência de duas gerações segregantes oriundas do mutagênico químico EMS (etil metanossulfonato). As gerações segregantes avaliados foram divididas em dois grupos: M2 (grupo 1) e M3 (grupo II). 1 → variável resposta ou dependente; 2 → número total de observações; 3 → média aritmética geral ou global; 4 → valor de skewness positivo a distribuição desloca para esquerda, especificamente para este caso. A curva normal apresenta valor de skewness igual a ZERO; Testes não paramétricos para comparar dois grupos Coimbra, J.L.M.; Carvalho, F.I.F. & Oliveira, A.C - 20 - 5 → o teste estatístico W é maior que zero e menor que 1 (0<W<1). Valor de W, muito pequeno, indica que os dados não seguem uma distribuição normal de probabilidade. 6 → mediana é o valor abaixo e acima do qual se tem a metade dos valores. 7 → moda é o valor mais freqüente ou mais comum de uma distribuição; 8 → A distribuição normal possui valor de curtose igual a ZERO; 9 → classificado pela variável geração (geracao, pois o SAS não identifica o til ‘~’; 10 → número de observações em cada geração segregante; 11 → soma dos escores do teste de Wilcoxon associado com cada geração. Todos os valores sobre a variável resposta são organizados do mais alto para o mais baixo valor, onde são nomeados graus com o valor mais baixo igual à unidade; somando os escores para cada geração obtemos as somas de escores; 12 → escores esperados de Wilcoxon sob a hipótese de nulidade (H0). Se o tamanho das amostras para as duas gerações é o mesmo, estes valores também serão iguais; 13 → desvio padrão das somas de escores sob a hipótese de nulidade; 14 → escores médios para cada geração. Este valor é calculado pela soma de escores dividido pelo número de observações; 15 → O valor da Prob>|Z| = 0,1214; 16 → teste de t approx (0,1322); 17 → teste de Kruskal-Wallis (qui-quadrado aproximado) (Prob>Chisq = 0,1164); Testes não paramétricos para comparar dois grupos Coimbra, J.L.M.; Carvalho, F.I.F. & Oliveira, A.C - 21 - INTERPRETAÇÃO Pode ser constatado e confirmado a não normalidade das distribuições de freqüências tanto para geração M2 quanto para a geração M3 através dos parâmetros de skewness, curtose, média≠mediana≠moda e finalmente corroborada pelo teste de W:Normal. Depois de verificado a não normalidade dos dados o procedimento mais adequado seria comparar as duas distribuições por meio de algum teste não paramétrico, por exemplo, Wilcoxon ou qui-quadrado. O valor da Prob>|Z| = 0,1214, este valor é maior que o nível de significância de 0,05, logo pode ser concluído que as duas distribuições não são significativamente diferentes, pelo teste de Wilcoxon, ou seja, as distribuições das duas gerações avaliadas são idênticas. Portanto, as diferenças encontradas entre os escores médios são atribuídas integralmente ao erro experimental. Os valores encontrados para os testes de T Aprox (Prob = 0,1322) e para o teste de Kruskal-Wallis Test (qui-quadrado aprox) (Prob>Chisq = 0,1164), ambos os valores são maiores que o nível de significância de 0,05, logo pode ser concluído que as duas distribuições também não são significativamente diferentes quando analisados por estes dois testes não paramétricos. Testes não paramétricos para comparar dois grupos Coimbra, J.L.M.; Carvalho, F.I.F. & Oliveira, A.C - 22 - SAÍDA -------------------------------------- GERACAO=M2 ------------------------------------- Univariate Procedure 1 → Variable=Y Moments 2 → N 15 Sum Wgts 15 3 → Mean 100.4667 Sum 1507 Std Dev 10.81577 Variance 116.981 4 → Skewness -2.27673 8 → Kurtosis 4.673429 USS 153041 CSS 1637.733 CV 10.76553 Std Mean 2.792621 T:Mean=0 35.97577 Pr>|T| 0.0001 Num ^= 0 15 Num > 0 15 M(Sign) 7.5 Pr>=|M| 0.0001 Sgn Rank 60 Pr>=|S| 0.0001 5 → W:Normal 0.647355 Pr<W 0.0001 Quantiles(Def=5) 100% Max 110 99% 110 75% Q3 106 95% 110 6 → 50% Med 104 90% 108 25% Q1 102 10% 80 0% Min 705% 70 1% 70 Range 40 Q3-Q1 4 7 → Mode 104 Testes não paramétricos para comparar dois grupos Coimbra, J.L.M.; Carvalho, F.I.F. & Oliveira, A.C - 23 - ----------------------------------------- GERACAO=M3 ----------------------------------- Univariate Procedure Variable=Y Moments N 15 Sum Wgts 15 Mean 105.3333 Sum 1580 Std Dev 3.498299 Variance 12.2381 Skewness -1.12981 Kurtosis 2.65898 USS 166598 CSS 171.3333 CV 3.32117 Std Mean 0.903257 T:Mean=0 116.615 Pr>|T| 0.0001 Num ^= 0 15 Num > 0 15 M(Sign) 7.5 Pr>=|M| 0.0001 Sgn Rank 60 Pr>=|S| 0.0001 W:Normal 0.885997 Pr<W 0.0589 Quantiles(Def=5) 100% Max 110 99% 110 75% Q3 108 95% 110 50% Med 106 90% 110 25% Q1 104 10% 103 0% Min 96 5% 96 1% 96 Range 14 Q3-Q1 4 Mode 104 Testes não paramétricos para comparar dois grupos Coimbra, J.L.M.; Carvalho, F.I.F. & Oliveira, A.C - 24 - N P A R 1 W A Y P R O C E D U R E Wilcoxon Scores (Rank Sums) for Variable Y Classified by Variable GERACAO 11 12 13 14 9 10 ↓ ↓ ↓ ↓ ↓ ↓ Sum of Expected Std Dev Mean GERACAO N Scores Under H0 Under H0 Score M2 15 195.500000 232.500000 23.5639263 13.0333333 M3 15 269.500000 232.500000 23.5639263 17.9666667 Average Scores Were Used for Ties Wilcoxon 2-Sample Test (Normal Approximation) (with Continuity Correction of .5) 15 ↓ S = 195.500 Z = -1.54898 Prob > |Z| = 0.1214 16 → T-Test Approx. Significance = 0.1322 17 → Kruskal-Wallis Test (Chi-Square Approximation) CHISQ = 2.4655 DF = 1 Prob > CHISQ = 0.1164 Testes não paramétricos para comparar mais de dois grupos Coimbra, J.L.M.; Carvalho, F.I.F. & Oliveira, A.C - 25 - 04. TESTES NÃO PARAMÉTRICOS PARA COMPARAR MAIS DE DOIS GRUPOS INTRODUÇÃO Neste manual, os procedimentos ANOVA e GLM são designados especificamente para realização de uma análise de variância, onde algumas suposições elementares devem ser satisfeitas, por exemplo, a distribuição normal dos dados e a homogeneidade de variância. Se estas suposições não são atendidas, uma maneira semelhante de analisar a variância pode ser obtida pelo emprego do teste de Kruskal-Wallis por meio do procedimento npar1way (proc npar1way); no entanto, o teste de Kruskal-Wallis também pressupõe a independência dos valores obtidos. Para decidir qual o teste mais apropriado, deve ser testada a hipótese de normalidade. Se esta hipótese for confirmada pode ser utilizado o proc GLM (General Linear Models), proc ANOVA (apropriado para análise de dados balanceados) ou proc MIXED (fatores fixo e aleatório combinados, indicado para estimativas de componentes de variância); em caso contrário pode ser utilizado o teste de Kruskal-Wallis. Em suma, o teste de Kruskal-Wallis se aplica a ensaios inteiramente casualizados, quando há três ou mais tratamentos. No caso de serem dois tratamentos, o teste de Wilcoxon é o mais indicado (Pimentel-Gomes, 1990 e Pimentel-Gomes, 1987). Uma distinção que pode ser importante para escolher entre alguns testes específicos é se os dados são balanceados ou não. No caso de dados não balanceados e que não seguem uma distribuição normal, alternativamente, pode ser empregado o teste de Kruskal-Wallis. Testes não paramétricos para comparar mais de dois grupos Coimbra, J.L.M.; Carvalho, F.I.F. & Oliveira, A.C - 26 - Na prática, o teste de Kruskal-Wallis pode ser empregado para testar variáveis ordinais, intervalares ou variáveis obtidas através de notas, por exemplo seguindo uma escala de notas atribuídas com o objetivo de quantificar as infestações de alguma moléstia (bastante comum na experimentação agrícola). OBJETIVOS Comparar os efeitos de diferentes agentes mutagênicos (mais de dois grupos) sobre a variável resposta ciclo vegetativo de plantas em dias (assumindo que os dados não seguem uma distribuição normal de probabilidades), por meio do teste de Kruskal-Wallis. LINHAS DE COMANDO DO PROGRAMA A1 - nome atribuído aos dados a serem analisados pelo SAS; A2 - título do programa; A3 - entrada dos dados; A4 - indica que as linhas de dados seguem logo abaixo; A5 - comando que identifica o término da entrada de dados; A6 - realiza o teste não paramétrico de Kruskal-Wallis por meio do procedimento npar1way; A7 - variáveis classificatórias (classifica os dados em grupos distintos); A8 - variável resposta ou dependente, neste caso ciclo vegetativo de plantas; A9 - título da análise (opcional); A10 - o comando run seguido do ponto e vírgula ‘;’ determina o final da programação; Testes não paramétricos para comparar mais de dois grupos Coimbra, J.L.M.; Carvalho, F.I.F. & Oliveira, A.C - 27 - PROGRAMAÇÃO A1 DATA JLMC ; A2 /* Compar. entre mais de dois grupos */; A3 INPUT carater$ geracao$ produto$ Y; A4 CARDS; ciclo M2 ems 96 ciclo M2 ems 88 ciclo M2 ems 72 ciclo M2 ems 52 ciclo M2 gama 86 ciclo M2 gama 104 ciclo M2 gama 104 ciclo M2 gama 99 ciclo M2 gama 104 ciclo M2 gama 110 ciclo M2 MMS 104 ciclo M2 des 104 ciclo M2 des 80 ciclo M2 MMS 104 ciclo M2 MMS 70 ciclo M3 MMS 104 ciclo M3 MMS 103 ciclo M3 MMS 104 ciclo M3 des 96 ciclo M3 des 108 ciclo M3 azida 104 ciclo M3 azida 108 ciclo M3 azida 110 ciclo M3 azida 108 ciclo M3 dms 104 ciclo M3 dms 106 ciclo M3 dms 103 ciclo M3 dms 106 ciclo M3 dms 106 ciclo M3 dms 110 A5 ; A6 proc npar1way data=jlmc wilcoxon; A7 class produto; A8 var y; A9 title ' compar. mais de um grupo'; A10 run; Testes não paramétricos para comparar mais de dois grupos Coimbra, J.L.M.; Carvalho, F.I.F. & Oliveira, A.C - 28 - RESULTADOS OBTIDOS Para fins ilustrativos do teste de Kruskal-Wallis, foi considerado parte de um experimento que tinha como objetivoavaliar seis produtos mutagênicos, (cinco químicos e um físico) através do teste não paramétrico de Kruskal-Wallis. 1 → variável resposta ou dependente; 2 → classificado pela variável produto (nome dos agentes mutagênicos); 3 → número de observações em cada mutagênico; 4 → soma dos escores do teste de Wilcoxon Rank. Todos os valores sobre a variável resposta são organizados do mais alto para o mais baixo valor, onde são nomeados graus com o valor mais baixo igual à unidade; somando os escores para cada geração obtemos as somas de escores; 5 → escores esperados de Wilcoxon sob a hipótese de nulidade (H0). 6 → desvio padrão das somas de escores sob a hipótese de nulidade; 7 → escores médios para cada geração. Este valor é calculado pela soma de escores dividido pelo número de observações; 8 → teste de Kruskal-Wallis (qui-quadrado aproximado) (Prob>Chisq = 0,0165); SAÍDA I: N P A R 1 W A Y P R O C E D U R E 1 ↓ Wilcoxon Scores (Rank Sums) for Variable Y Classified by Variable PRODUTO 4 5 6 7 2 3 ↓ ↓ ↓ ↓ ↓ ↓ Sum of Expected Std Dev Mean PRODUTO N Scores Under H0 Under H0 Score ems 4 17.500000 62.0 16.0613765 4.3750000 gama 6 92.500000 93.0 18.8993705 15.4166667 MMS 6 78.500000 93.0 18.8993705 13.0833333 des 4 54.000000 62.0 16.0613765 13.5000000 azida 4 97.500000 62.0 16.0613765 24.3750000 dms 6 125.000000 93.0 18.8993705 20.8333333 Average Scores Were Used for Ties Testes não paramétricos para comparar mais de dois grupos Coimbra, J.L.M.; Carvalho, F.I.F. & Oliveira, A.C - 29 - Kruskal-Wallis Test (Chi-Square Approximation) 8 ↓ CHISQ = 13.867 DF = 5 Prob > CHISQ = 0.0165 INTERPRETAÇÃO O valor de probabilidade originado pelo teste de Kruskal-Wallis (Prob>Chisq = 0,0165) é menor que o valor da probabilidade de referência 0,05 (5%); portanto pode ser concluído que os agentes mutagênicos possuem efeitos diferenciados sobre a variável resposta ciclo vegetativo de plantas. Mas é interessante procurar comparar as médias de tratamentos duas a duas, para melhor discriminar a diferença entre elas. Para isso, apresentaremos um método simplificado, de precisão muito satisfatória (Schlotzhauer & Littel, 1987). Utilizando poucas linhas de comando a mais pode ser realizado um teste de comparação de médias bastante útil e versátil denominado Bonferroni. 1 proc anova; 2 class produto; 3 model y= produto; 4 means produto /bon; 5 ; 6 run; O teste de Bonferroni pode ser aplicado para testar conjunto de contrastes, sem que haja a exigência de ortogonalidade nem um número máximo de contrastes. Difere do teste de Scheffé, principalmente no momento em que os contrastes são definidos (a priori devemos usar o teste de Bonferroni). Um outro teste bastante utilizado é o teste da diferença mínima significativa (LSD) de Fisher é um teste de t aplicado a contrastes não ortogonais. Isto faz com que o teste seja aplicado ao nível de probabilidade de erro tipo I (é o erro que cometemos ao rejeitar uma hipótese verdadeira, que deveria ser aceita) maior do que o declarado, e quanto maior for o número de tratamentos, tanto maior será o nível real ao qual o teste é aplicado. Por este motivo o teste acusa a significância (falsa) de contrastes que pelo teste de Scheffé, provavelmente seriam não significativos. Testes não paramétricos para comparar mais de dois grupos Coimbra, J.L.M.; Carvalho, F.I.F. & Oliveira, A.C - 30 - A interpretação do teste de médias analisadas através do teste de Bonferroni é a seguinte: os únicos produtos mutagênicos que apresentaram o mesmo número de dias entre a emergência e o florescimento obtido pelo produto AZIDA foram DMS, GAMA, MMS e DES, que não diferiram dele, sendo que o outro produto mutagênico EMS apresentou um ciclo vegetativo inferior aos demais mutagênicos, exceto aos mutagênicos DES e MMS. SAÍDA II: Analysis of Variance Procedure Bonferroni (Dunn) T tests for variable: Y NOTE: This test controls the type I experimentwise error rate, but generally has a higher type II error rate than REGWQ. Alpha= 0.05 df= 24 MSE= 122.0625 Critical Value of T= 3.26 Minimum Significant Difference= 23.237 WARNING: Cell sizes are not equal. Harmonic Mean of cell sizes= 4.8 Means with the same letter are not significantly different. Bon Grouping Mean N PRODUTO A 107.500 4 azida A A 105.833 6 dms A A 101.167 6 gama A B A 98.167 6 MMS B A B A 97.000 4 des B B 77.000 4 ems Distribuição de Freqüências Coimbra, J.L.M.; Carvalho, F.I.F. & Oliveira, A.C - 31 - 05. DISTRIBUIÇÃO DE FREQÜÊNCIAS INTRODUÇÃO A distribuição de freqüências serve para descrever, classificar e distinguir os indivíduos entre eles (SAS, 1999). OBJETIVO Classificar uma(s) determinada(s) variável(eis) em colunas e linhas para fins comparativos por meio de algum método específico, por exemplo qui-quadrado. LINHAS DE COMANDO DO PROGRAMA A1 - nome atribuído aos dados a serem analisados pelo SAS; A2 - entrada dos dados deve possuir obrigatoriamente a mesma seqüência da planilha abaixo; o símbolo alfa numérico $, deve ser utilizado sempre que alguma variável relacionada no input estiver identificada através de letras ou número acompanhado por letra(s), por exemplo como o ciclo e o M2; A3 - indica que as linhas com os dados a serem analisados seguem logo abaixo; A4 - ‘;’ identifica o final da entrada de dados; A5 - o procedimento proc freq produz tabelas de freqüências com várias entradas; Distribuição de Freqüências Coimbra, J.L.M.; Carvalho, F.I.F. & Oliveira, A.C - 32 - A6 - o procedimento ‘table’ gera uma tabela específica conforme o número de entradas ou variáveis relacionadas neste procedimento, juntamente com algumas análises estatísticas como teste exato de Fisher´s, freqüência esperada, desvio (Fo-Fe), qui-quadrado calculado para cada célula da tabela ; A7 - primeiro título do programa. Opcionalmente o SAS permite colocar mais de um título por programação; A8 - segundo título do programa; A9 - final da programação; PROGRAMAÇÃO A1 DATA JLMC ; A2 INPUT carater$ geracao$ produto$ Y; A3 CARDS; ciclo M2 gama 106 ciclo M2 gama 108 ciclo M2 gama 102 ciclo M2 gama 102 ciclo M2 gama 106 ciclo M2 gama 104 ciclo M2 gama 104 ciclo M2 gama 99 ciclo M2 gama 104ciclo M2 gama 110 ciclo M2 MMS 104 ciclo M2 MMS 104 ciclo M2 MMS 80 ciclo M2 MMS 104 ciclo M2 MMS 70 ciclo M3 MMS 104 ciclo M3 MMS 103 ciclo M3 MMS 104 ciclo M3 MMS 96 ciclo M3 MMS 108 ciclo M3 dms 104 ciclo M3 dms 108 ciclo M3 dms 110 ciclo M3 dms 108 Distribuição de Freqüências Coimbra, J.L.M.; Carvalho, F.I.F. & Oliveira, A.C - 33 - ciclo M3 dms 104 ciclo M3 dms 106 ciclo M3 dms 103 ciclo M3 dms 106 ciclo M3 dms 106 ciclo M3 dms 110 A5 proc freq data=jlmc; A7 tables geracao*produto / exact expected deviation cellchi2; A8 title1’Distribuição de freqüências’; A9 title2’Analise em duas geraçoes segregantes’; A10 run; RESULTADOS OBTIDOS 1 → freqüência observada; 2 → freqüência esperada; 3 → o desvio (Fo-Fe); 4 → teste do qui-quadrado por célula; 5 → percentagem total em relação ao número total de indivíduos avaliados; 6 → percentagem de indivíduos na linha representado numa única célula; 7 → percentagem de indivíduos na coluna representado numa única célula. INTERPRETAÇÃO Freqüência observada pode ser definida como o número de indivíduos encontrados num valor específico. Freqüência esperada é o total de indivíduos na linha multiplicada pelo total de indivíduos na coluna dividida pelo número de total indivíduos avaliados, por exemplo, (15x10/30=5). O desvio é calculado através da subtração da freqüência observada menos a esperada. Distribuição de Freqüências Coimbra, J.L.M.; Carvalho, F.I.F. & Oliveira, A.C - 34 - Qui-quadrado é igual o desvio elevado ao quadrado dividido pela Fe, por exemplo, para o mutagênico MMS na geração M2 o qui quadrado para uma única célula é (02/5)=0. A percentagem total de indivíduos é calculada pelo número de indivíduos em cada célula dividido pelo número total de indivíduos (5/30)x100=16.67%). O Item 6 é obtido de modo semelhante ao item 5, no entanto este valor é obtido por meio do número de indivíduos na linha, por exemplo, (5/15)x100=33,33%. O item 7 é obtido de modo semelhante ao item 6, no entanto este valor é obtido através do número de indivíduos na coluna, por exemplo, (5/10)x100=50%. O item 8 é a somatória dos valores de cada qui-quadrado (por célula) com sua respectiva probabilidade Prob>0,001, indicando assim que os desvios obtidos não são devidos ao acaso exclusivamente. Isto indica que a segregação encontrada nas gerações M2 e M3 em relação aos produtos mutagênicos avaliados é significativamente diferente. Distribuição de Freqüências Coimbra, J.L.M.; Carvalho, F.I.F. & Oliveira, A.C - 35 - SAÍDA: TABLE OF GERACAO BY PRODUTO GERACAO PRODUTO 1 → Frequency ‚ 2 → Expected ‚ 3 → Deviation ‚ 4 → Cell Chi-Square‚ 5 → Percent ‚ 6 → Row Pct ‚ 7 → Col Pct ‚MMS ‚dms ‚gama ‚ Total ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ M2 ‚ 5 ‚ 0 ‚ 10 ‚ 15 ‚ 5 ‚ 5 ‚ 5 ‚ ‚ 0 ‚ -5 ‚ 5 ‚ ‚ 0 ‚ 5 ‚ 5 ‚ ‚ 16.67 ‚ 0.00 ‚ 33.33 ‚ 50.00 ‚ 33.33 ‚ 0.00 ‚ 66.67 ‚ ‚ 50.00 ‚ 0.00 ‚ 100.00 ‚ ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ M3 ‚ 5 ‚ 10 ‚ 0 ‚ 15 ‚ 5 ‚ 5 ‚ 5 ‚ ‚ 0 ‚ 5 ‚ -5 ‚ ‚ 0 ‚ 5 ‚ 5 ‚ ‚ 16.67 ‚ 33.33 ‚ 0.00 ‚ 50.00 ‚ 33.33 ‚ 66.67 ‚ 0.00 ‚ ‚ 50.00 ‚ 100.00 ‚ 0.00 ‚ ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ Total 10 10 10 30 33.33 33.33 33.33 100.00 STATISTICS FOR TABLE OF GERACAO BY PRODUTO Statistic DF Value Prob ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 8 → Chi-Square 2 20.000 0.001 Likelihood Ratio Chi-Square 2 27.726 0.001 Mantel-Haenszel Chi-Square 1 4.833 0.028 Fisher's Exact Test (2-Tail) 9.75E-06 Phi Coefficient 0.816 Contingency Coefficient 0.632 Cramer's V 0.816 Sample Size = 30 Distribuição de Freqüências Coimbra, J.L.M.; Carvalho, F.I.F. & Oliveira, A.C - 36 - Delineamento Completamente Casualizado Coimbra, J.L.M.; Carvalho, F.I.F. & Oliveira, A.C - 37 - 06. DELINEAMENTO COMPLETAMENTE CASUALIZADO INTRODUÇÃO Preliminarmente é necessário tecer comentários sobre como o programa SAS identifica o tipo de delineamento que será utilizado. Este questionamento freqüentemente é feito. A resposta para esta questão é dada pelas causas de variações que são atribuídas ao modelo (model). Este modelo para análise de variância sempre é constituído por uma ou mais variáveis resposta, por exemplo, rendimento de grãos, estatura de planta, ciclo vegetativo, reação a doenças e insetos, etc; sendo que neste trabalho a variável resposta foi sempre denominada de ‘y’. A segunda parte do modelo é constituída pela(s) variável(eis) classificatória(s), por exemplo, para o delineamento completamente casualizado a variável classificatória é somente o fator de tratamento, para o delineamento de blocos casualizados as variáveis classificatórias são tratamentos e blocos e assim por diante; tal fato ocorre invariavelmente no caso de apenas um fator experimental. OBJETIVOS: (1) elucidar a(s) causa(s) de variação para o delineamento inteiramente casualizado ou completamente casualizado através do proc ANOVA; (2) realizar o(s) teste(s) de comparações de médias. Delineamento Completamente Casualizado Coimbra, J.L.M.; Carvalho, F.I.F. & Oliveira, A.C - 38 - MODELO MATEMÁTICO PARA O DELINEAMENTO COMPLETAMENTE CASUALIZADO Yij = m + ti + eij Onde: Yij = valor observado na parcela que recebeu o tratamento i na repetição j; m = média da população; ti= efeito do tratamento i aplicado na parcela; eij= erro experimental. LINHAS DE COMANDO DO PROGRAMA A1 → nome atribuído aos dados a serem analisados pelo SAS; A2 → título do programa; A3 → entrada dos dados, deve possuir obrigatoriamente a mesma seqüência da planilha abaixo; A4 → indica que as linhas com os dados a serem analisados seguem logo abaixo; A5 → ‘;’ identifica o final da entrada de dados; A6 → o procedimento proc ANOVA gera uma tabela de análise de variância para cada variável dependente listada previamente no modelo (model); A7 → as variáveis classificatórias são variáveis independentes, também listadas previamente no modelo; A8 → o modelo (model) deve ser composto de uma variável resposta mais as causas de variaçãoespecíficas para cada delineamento experimental, por exemplo: variável resposta (ciclo vegetativo) = tratamentos (trat); A9 → executa uma comparação múltipla de médias para a variável independente (deve estar obrigatoriamente listada na parte direita do modelo) seguida pela identificação do teste que será realizado, neste caso específico foi determinado que as médias fossem analisadas pelo teste de Duncan e de Scheffé; A10 → indica o final da programação; Delineamento Completamente Casualizado Coimbra, J.L.M.; Carvalho, F.I.F. & Oliveira, A.C - 39 - PROGRAMAÇÃO A1 DATA JLMC ; A2 /* Delineamento Inteiramente Casualizado */; A3 INPUT trat$ rep Y; A4 CARDS; A 1 64 B 1 53 C 1 46 D 1 56 E 1 39 F 1 46 A 2 59 B 2 51 C 2 48 D 2 45 E 2 59 F 2 50 A 3 50 B 3 55 C 3 43 D 3 45 E 3 53 F 3 65 A 4 63 B 4 69 C 4 35 D 4 42 E 4 53 F 4 59 A5 ; A6 proc anova; A7 class trat; A8 model y = trat; A9 means trat / duncan scheffe; A10 run; RESULTADOS OBTIDOS Vamos considerar os resultados de um experimento citado por Silva (1995), na qual é comparado o rendimento de grãos por parcela de seis cultivares de soja (A, B, C, D, E e F). 1 → nome de cada variável incluída no comando class; Delineamento Completamente Casualizado Coimbra, J.L.M.; Carvalho, F.I.F. & Oliveira, A.C - 40 - 2 → são os níveis de cada variável listada no comando class; 3 → é a nomenclatura que foi arbitrada para as variáveis que serão analisadas; 4 → é o número total de observações que estão sendo computadas na análise de variância; 5 → variável resposta ou dependente; 6 → graus de liberdade; 7 → soma de quadrados para a variável dependente; 8 → valor do teste de F, é a razão do quadrado médio (model) e o quadrado médio do erro; 9 → a probabilidade associada com a estatística F, denominada Pr>F; 10 → soma do quadrado do erro experimental; para encontrar o quadrado médio do erro basta dividir a soma dos quadrados do erro pelo número de graus de liberdade (972/18 = 54); 11 → coeficiente de determinação, significa quanto da variação dos valores observados da variável resposta é explicada pelo modelo; 12 → coeficiente de variação em % (desvio padrão/média); 13 → média geral do ensaio; 14 → fonte de variação para cada variável independente listadas no model; 15 → graus de liberdade; 16 → soma de quadrados separadamente para cada variável independente (x) previamente listada mo model; 17 → valor da estatística F para cada fonte variação em estudo; 18 → Pr>F, valor da probabilidade associado com o valor de F. Delineamento Completamente Casualizado Coimbra, J.L.M.; Carvalho, F.I.F. & Oliveira, A.C - 41 - INTERPRETAÇÃO Conclusão estatística: o resultado do teste foi significativo (Pr>F = 0,0476) ao nível de 5% de probabilidade, rejeitamos a hipótese de nulidade (H0: os efeitos dos tratamentos são iguais) e concluímos que os tratamentos possuem efeitos diferentes sobre o caráter avaliado (rendimento de grãos), com um grau de confiança superior a 95% de probabilidade. Conclusão prática: os cultivares avaliados possuem potencial produtivo distinto. O resultado do teste de F nos mostra que as médias provavelmente são distintas, embora desconhecidas até o momento. Existe vários testes apropriados para discriminar e comparar as médias duas a duas. Neste manual para este ensaio particularmente, foram utilizados o teste de Duncan e de Scheffé. O teste de Duncan é um teste diferente do teste de Scheffé, principalmente por utilizar amplitudes múltiplas, pois existem várias diferenças mínimas significativas, utilizadas de acordo com o posicionamento das médias depois de ordenadas. Dunnett (1970) e Schaffer (1977) apontam que com três ou mais médias sendo comparadas, a teoria do teste de Duncan é menos apropriado, principalmente, pois o nível de significância global não é mantido. O teste de Scheffé não revelou diferenças significativas entre as médias originadas das seis cultivares; no entanto o teste de Duncan apontou diferença significativa para algumas médias, formando assim dois grupos: o grupo 1 das cultivares A, B, F, E e D, e o grupo 2, das cultivares E, D e C. As médias analisadas dentro de cada grupo não diferem a 5% de probabilidade e, os cultivares repetidos entre grupos (E e D) também não diferem. Muito provavelmente pelo fato do teste de Duncan não manter o nível de significância global, deve ter acusado falsa significância, comparativamente. Delineamento Completamente Casualizado Coimbra, J.L.M.; Carvalho, F.I.F. & Oliveira, A.C - 42 - SAÍDA: Analysis of Variance Procedure Class Level Information 1 2 3 ↓ ↓ ↓ Class Levels Values TRAT 6 A B C D E F 4 → Number of observations in data set = 24 Analysis of Variance Procedure 5 ↓ Dependent Variable: Y 6 7 8 9 ↓ ↓ ↓ ↓ Source DF Sum of Squares F Value Pr > F Model 5 760.00000000 2.81 0.0476 10 → Error 18 972.00000000 Corrected Total 23 1732.00000000 11 12 13 ↓ ↓ ↓ R-Square C.V. Y Mean 0.438799 14.13167 52.0000000 14 15 16 17 18 ↓ ↓ ↓ ↓ ↓ Source DF Anova SS F Value Pr > F TRAT 5 760.00000000 2.81 0.0476 Delineamento Completamente Casualizado Coimbra, J.L.M.; Carvalho, F.I.F. & Oliveira, A.C - 43 - Analysis of Variance Procedure Duncan's Multiple Range Test for variable: Y NOTE: This test controls the type I comparisonwise error rate, not the experimentwise error rate Alpha= 0.05 df= 18 MSE= 54 Number of Means 2 3 4 5 6 Critical Range 10.92 11.45 11.79 12.03 12.20 Means with the same letter are not significantly different. Duncan Grouping Mean N TRAT A 59.000 4 A A A 57.000 4 B A A 55.000 4 F A B A 51.000 4 E B A B A 47.000 4 D B B 43.000 4 C Analysis of Variance Procedure Scheffe's test for variable: Y NOTE: This test controls the type I experimentwise error rate but generally has a higher type II error rate than
Compartilhar