Baixe o app para aproveitar ainda mais
Prévia do material em texto
Bioestatística Aplicada- Thierry R. Gasnier- Universidade Federal do Amazonas 2020 1 Chave para testes e gráficos básicos e guia de procedimentos no MYSTAT Testes e gráficos são ferramentas de análise que se complementam no estabelecimento e descrição de relações. Uma tendência pode parecer significativa em um gráfico, mas o teste mostra que na realidade não é evidência suficiente para se afirmar algo. Um teste pode dar um resultado significativo, mas um gráfico pode mostrar que as premissas não são válidas ou que a forma da relação não é bem o que esperávamos. Além disto, há uma forte relação entre tipos de testes e tipos de gráficos, tanto que as chaves para testes servem também como chaves para gráficos. Considerando que cada tipo de gráfico é utilizado para diversos tipos de testes, separamos a parte dos testes (letras) e dos gráficos (seções) para evitar a redundância das explicações de gráficos. Pelo mesmo motivo, apresentamos primeiro os testes, entretanto, geralmente é melhor se fazer primeiro os gráficos, especialmente quando é importante se escolher entre testes paramétricos e não paramétricos. Abaixo das tabelas há explicações e o caminho para cada teste no Mystat12. Os gráficos associados aos testes estão ao final de cada comentário, e os seus caminhos e explicações estão na Chave para Gráficos. Testes com apenas uma variável (inclui pareamento) ........................................................Tabela 1 Testes com duas variáveis (sem pareamento ou blocos)................................................... Tabela 2 Testes com duas variáveis com pares ou blocos ............................................................ Tabela 3 Testes com duas ou mais variáveis preditoras e uma resposta ...................................... Tabela 4 Dúvidas conceituais recorrentes durante as aulas práticas. 1) O que significa a probabilidade calculada nos testes? Um resultado favorável à hipótese de trabalho (evidência na direção do esperado) não prova que ela está certa, pois um resultado favorável pode acontecer por acaso. Para uma análise apropriada, temos de levar este risco conta. Para isto, assumimos temporariamente que a hipótese de trabalho está errada, que o seu oposto, a hipótese nula, está certa. Fazemos isto porque a hipótese nula permite calcularmos a chance de, por mero acaso, um determinado resultado ter se afastado tanto do valor de referência da hipótese nula. Por exemplo, podemos calcular a chance de uma moeda cair 10 vezes cara em 10 lances, considerando que o esperado é 50% de caras (valor de referência). O resultado deste cálculo é P=0,002 (teste exato binomial), isto é, há uma chance de 2 em mil de isto acontecer por acaso. Uma probabilidade baixa (normalmente abaixo de 0,05, ou de 0,01) indica que temos elementos para rejeitar a ideia que a hipótese nula está correta e isto corrobora a hipótese de trabalho (e. g. que a moeda é viciada). A fórmula usada para o cálculo depende de algumas características dos dados, e esta apostila serve fazer a escolha do procedimento computacional apropriado ao caso. 2) O que são hipóteses unicaudais? Hipótese unicaudal é a hipótese que leva a previsões unilaterais, por exemplo, na hipótese que o tamanho de machos de uma população é significativamente superior ao tamanho de fêmeas. Na hipótese bicaudal, as previsões são bilaterais, por exemplo, que o tamanho de machos é diferente do número de fêmeas, isto é, significativamente maior OU significativamente menor. 3) O teste estatístico é a parte mais importante de uma pesquisa? Antes de utilizar os procedimentos apresentados aqui em problemas de pesquisa, lembre-se que o centro da pesquisa está nas questões biológicas relevantes. A estatística não é o centro, mas uma ferramenta para ajudar a responder questões. Lembre-se ainda que o teste é algo mais amplo do que um cálculo de probabilidade. Problemas de inflação de testes e na falta de representatividade conceitual, universal e paralela podem invalidar um teste (ver cap. 3 e 4 da apostila) (Ao final há um Apêndice com dicas sobre a instalação e o uso do SYSTAT/ MYSTAT). Bioestatística Aplicada- Thierry R. Gasnier- Universidade Federal do Amazonas 2020 2 Tabela 1: Testes com uma variável Estes testes são chamados de testes de aderência (“goodness of fit”) porque servem para verificar se os dados obtidos para uma variável se ajustam a um valor de referência da hipótese nula. Exemplos: a razão sexual 8 em 10 está dentro do esperado de 50% por sexo? Com 4 acertos em 15 tentativas podemos dizer que atingimos o nível de 25% de acertos nos arremessos ao cesto (ou pode ter sido sorte?). As frequências observadas das combinações de [verde/amarelo] x [liso/rugoso] (40:10:10:2) estão dentro da razão esperada de alelos pela segunda a lei de Mendel (9:3:3:1)? Este crânio fóssil único é significativamente maior que as medidas anteriores de vários crânios de outra localidade? Estas medidas de mercúrio estão significativamente maiores do que a média recomendada pelo governo? A distribuição de frequências de tamanhos de peixes machos adultos é compatível com uma distribuição normal? Estes testes normalmente não “pedem” gráficos, mas, se necessário, algumas destas situações podem ser representadas conforme as seções I e II dos gráficos. Os testes mais importantes estão destacados com ***. ***Uma amostra com valores Binários tem frequência compatível com frequência teórica esperada (valor de referência da hipótese nula)? (Aderência de proporção). Binomial exato; Teste z aprox. ou Intervalo de confiança (a) Graf: Seção I Uma amostra com valores Categóricos é compatível com frequências teóricas categóricas esperadas? (Aderência de proporções). Teste ‘Qui2’ ou teste G (b) Graf: Seção I Um valor quantitativo é compatível com uma população de valores com distribuição normal com média e desvio padrão conhecidos? (Aderência de valor a uma média de pop. com distribuição normal- DN) ou: A média de uma amostra com valores quantitativos com distribuição normal é compatível com uma média esperada (Aderência a valor quantitativo com DN) Teste z para um valor; Teste z para uma amostra; Teste t para uma amostra (c) Graf: Seção II ***Uma amostra com valores quantitativos (contagens ou medidas) é compatível com um valor de referência da hipótese nula? (Aderência a valor quantitativo) ou um valor de contagem é compatível com uma média esperada? Intervalo de confiança por “boostrap” ou por contagem simples (d) Graf: Seção II A distribuição observada de uma variável com medidas ordinais ou quantitativas é compatível com frequências teóricas esperadas? (Aderência a modelos de distribuição- Inclui teste de normalidade) Kolmogorov Smirnov (KS) Shapiro-Wilk (e) Graf: Seção II Há duas formas válidas de se testar hipóteses que são muito semelhantes nos resultados, mas que diferem na facilidade de compreensão e na flexibilidade conforme a situação (Wood 2014). A primeira abordagem é a “P<α rejeita” e a segunda é a “IC exclui referência rejeita Ho”. “Rejeita” refere-se à rejeição da hipótese nula e “IC” é Intervalo de Confiança da estimativa de parâmetro populacional (ver cap. 3 da apostila conceitual para intervalo de confiança e cap. 4 para “P<α” e hipótese nula). Usaremos a primeira na maior parte desta apostila, mas nas situações desta tabela marcadas com ***, que são as mais comuns em testes de aderência, daremos prioridade à segunda. A abordagem com IC é mais intuitiva e cada vez é mais recomendada para estas situações. http://arxiv.org/pdf/0912.3878v5 Bioestatística Aplicada- Thierry R. Gasnier- Universidade Federal do Amazonas 2020 3 a) Teste de uma proporção (obtida x esperada- variável binária). Para este tipo de problema recomendamos a abordagem “IC exclui valor referência rejeita” (ver pag. 2) e o cálculo do Intervalo de Confiança pelo método Wald modificado*. No site http://www.graphpad.com/quickcalcs/confInterval1, entre com o número de sucessos (“numerator”) e o número total de observações (“denominator”) e veja se o valor de referência (esperadopara Ho verdadeira) está dentro ou fora do intervalo de confiança escolhido (90%, 95% ou 99%). Em testes bicaudais a hipótese nula é rejeitada se o valor de referência estiver fora do intervalo de confiança. Em testes unicaudais se o intervalo de confiança estiver acima ou abaixo do valor de referência, conforme a direção prevista pela hipótese em análise. Outra opção usando o RStudio: Instale o pacote "PropCIs" e rode as duas linha de script abaixo trocando os valores do exemplo com valores que deseja testar.: library(PropCIs) conf.def<-0.95; numerador<-62; denominador<-73; addz2ci(x=numerador, n=denominador, conf.def) Se preferir a abordagem “P<α rejeita” usando o Mystat: Analyse/ Hypothesis Testing/ Proportion/ Single proportion/ marcar opção aggregate, entre o total em Trials e os sucessos em Successes, e o valor da proporção de referência da hipótese nula. Nos resultados utilize a primeira opção de probabilidade apresentada nos resultados para N<1000. (Link para Tab1) *Agresti, A., and Coull, B. A. (1998), Approximate is better than "exact" for interval estimation of binomial proportions, The American Statistician, 52: 119-126. b) Tabela de contingência de uma via (proporções obtidas x esperadas- variável categórica). O teste de Qui2 de uma via com três ou mais categorias no Mystat12 pode ser feito apenas se a hipótese nula tiver proporções homogêneas (e.g. 25% em cada uma de 4 categorias): Analyze/ One way freq. tab. Se as proporções não forem homogêneas (e.g. a proporção 9:3:3:1 da 2ª lei de Mendel), o mais prático é se fazer o teste online disponível em alguns sites*. Neste site entre proporções esperadas em Expected proportions assim: 9/16; 3/16, etc. e as observadas em “Observed Frequency” e depois pressione “calculate”. Se não estiver online, outra opção é usar a função Teste.quiqua no Excel. O teste G é uma alternativa ao Qui2 recomendada em alguns livros, mas não é muito diferente, de forma que não a abordaremos. Estes testes não admitem hipóteses unicaudais. (*e.g. http://vassarstats.net/csfit.html - Verificado em 30/08/2020). Tab1. http://www.graphpad.com/quickcalcs/confInterval1/ http://vassarstats.net/csfit.html Bioestatística Aplicada- Thierry R. Gasnier- Universidade Federal do Amazonas 2020 4 c) Teste de aderência para variáveis quantitativas com distribuição normal. Se a distribuição não for normal ou for desconhecida, passe para a seção “d”. Estes testes dividem-se em: a) testes com um valor comparado a um padrão esperado com média e desvio padrão conhecidos e b) testes com uma amostra comparada a uma média e um desvio padrão conhecidos e c) testes com uma amostra comparada com uma média conhecida, mas desvio padrão desconhecido. Quando estamos querendo verificar se um valor está significativamente diferente do esperado para uma média e um desvio padrão pré-determinados ou “conhecidos”, então utilizamos o teste Z. No Mystat12 entre em Utilities/ Probability Calculator/ Continous/ entre a média em “Location or mean”, o desvio padrão da população em “Scale or SD “e o valor que será testado em “Input Value” Por exemplo, se a distribuição de número de enfartes por dia no Brasil é bem conhecida (média e desvio padrão definidos), então você pode saber se o número de enfartes no dia que o Brasil perdeu da Alemanha por 7 a 1 foi significativamente maior que a média utilizando o teste Z para um valor. É questionável o que podemos chamar de “média e desvio padrão conhecidos”; quase sempre estes valores foram determinados a partir de amostras. Alguns autores sugerem que quando o tamanho amostral para estes valores for superior a 200, pode se usar o teste Z, do contrário é melhor utilizar um sempre o teste t para comparar amostras com médias. Quando estamos querendo comparar uma amostra com valores pré-determinados de média e desvio padrão, utilizamos o teste Z para uma amostra no Mystat12 [Analyse/ Hip. Test./ Mean/ One Sample Z test./ entrar a variável e os valores de média e desvio padrão pré determinados]. Por exemplo, se você recebe um lote de ratos e quer saber se eles estão dentro da média e desvio padrão conhecidos para ratos de laboratório, então você utiliza o teste Z para uma amostra. Quando estamos querendo verificar se uma amostra está significativamente diferente de uma média pré-definida, mas não temos um valor pré-definido para o desvio padrão ou quando queremos verificar se um valor está significativamente diferente dos valores de uma amostra considerada referência utilizamos o Teste t para uma amostra. Note que nestes dois casos o desvio padrão é estimado pela amostra. No Mystat: Analyse/ Hip. Test./ Mean/ One Sample t test./ entrar a variável e o valor de média a ser comparada]. Por exemplo, há padrões de valor máximo de mercúrio, mínimo de Oxigênio e ideais de pH para lagos em uma legislação estadual. Entretanto, você fez medidas distribuídas em uma área protegida (30 amostras) e percebeu que o valor das medidas era significativamente maior de mercúrio, menor de Oxigênio e diferente do ideal de pH. Com base nisto, você contesta a norma para cada variável, pois os valores de referência deveriam refletir os valores locais em ambientes protegidos. Note que o teste será unicaudal para mercúrio e oxigênio e será bicaudal para pH. Tab1. d) Teste de aderência de parâmetro em amostra vs valor de referência. Nesta seção são apresentadas duas formas de se determinar intervalos de confiança de variáveis quantitativas sem a premissa de normalidade na distribuição dos dados. A primeira é para amostras e tem uma ampla gama de aplicações enquanto a segunda é para determinar o IC a partir de um único valor de contagem e tem aplicação limitada. Bootstrap. Partindo de uma amostra que represente* razoavelmente uma população, podemos simular esta população a partir destes dados (por “clonagem de valores”) e obter múltiplas estimativas (e. g. 1000) de precisão similar por reamostragens de tamanho igual. Determinamos intervalos de confiança da estimativa de parâmetro excluindo extremos, por exemplo, ao excluir 2,5% dos maiores valores e 2,5% dos menores determinamos um intervalo de confiança de 95%. Se a distribuição for aproximadamente normal, um tamanho amostral de 10 já permite o uso da técnica. Se houver valores extremos raros, a amostra deve ser maior e incluir alguns destes valores para uma determinação apropriada do intervalo de confiança. Este método, denominado IC por percentil, foi aperfeiçoado com Bioestatística Aplicada- Thierry R. Gasnier- Universidade Federal do Amazonas 2020 5 um pequeno ajuste de valores, e a técnica recomendada é o Bootstrap BCA. Inclua os valores quantitativos em uma coluna do MYSTAT e vá em Analyse/ Basic Statistics, escolha a variável a ser avaliada; na aba resampling, marque a caixinha “perform resampling”, mantenha a opção “Bootstrap”, coloque o valor 1000 para “Number of Samples”, o mesmo tamanho amostral dos dados originais em “Sample Size”, qualquer número em ramdom seed (e. g. 4), escolha a opção 95% ou 99% para a amplitude do IC, escolha o parâmetro que deseja (Média, mediana, etc) e dê OK. O seu intervalo de confiança está na tabela “X% Confidence Intervals for Means” abaixo de BCA Method. *ver representação universal e numérica na apostila. A segunda técnica é a determinação do intervalo de confiança a partir de uma única contagem de uma unidade amostral padronizada. Imagine que você recebe uma fotografia de um campo tamanho padrão de microscópio com uma amostra de sangue e percebe que há 10 células brancas em um campo padrão. Você lembra que a média de células por campo é 3, mas não encontra informações sobre quanto este valor costuma variar. Para uma abordagem preliminar, você usa um site para determinar o intervalo de confiança de contagem (e. g. *1) para o valor 10 e verifica que o IC95% vai de 4,80 a 18,39, o que não inclui 3, e conclui que precisa tomar providências com este paciente. Esta técnica é pouco utilizada porque geralmente há formas bem melhores de calcular intervalos de confiança quando conhecemos bem avariação (ver seção “c”), como ocorre em análises de células sanguíneas. O exemplo do sangue foi utilizado porque ilustra muito bem uma das premissas para o uso desta técnica: situações de “homogeneidade” na distribuição dos elementos nas unidades amostrais, como ocorre com células sanguíneas em uma lâmina. A técnica poderia ser aplicada em outras situações, por exemplo, para determinar intervalos de confiança de uma densidade populacional de organismos que se distribuem de forma aproximadamente homogênea na paisagem ou para mostrar que o número de peixes mortos na beira da lagoa está acima do normal (você sempre vê um ou outro em sua caminhada matinal, mas hoje viu 10). Se for possível se obter mais leituras, é recomendável utilizar leituras múltiplas e um método como o bootstrap. Entretanto, não deixa de ser uma técnica útil, pois há efetivamente situações em que não se pode obter mais dados de contagem e faltam informações sobre a variação esperada, ou simplesmente como uma primeira estimativa grosseira de intervalo de confiança para avaliações preliminares. (*1 http://www.graphpad.com/quickcalcs/confInterval1/). Tab1. e) Teste de Kolmogorov Smirnov (KS). Este teste serve para comparar a distribuição obtida com uma distribuição teórica esperada. O Mystat12 oferece diversas distribuições teóricas para esta comparação: Uniforme, Uniforme Discreta, Poison, Lognormal e Normal. Um dos usos mais comuns do KS é como teste de normalidade [Analyse/ Fitting distributions/Continuous/ Selecione “normal”]. Quando esta opção é utilizada, também é apresentado outro teste de normalidade, o Shapiro-Wilk. Quando “P<α” os dados são evidência significativa que a distribuição NÃO se ajusta à distribuição teórica. No caso de um teste de normalidade, isto significa que não deveríamos utilizar um teste paramétrico. Entretanto, se “P” for maior ou igual a α, isto não garante que existe normalidade. Na prática, podemos assumir normalidade se o tamanho amostral for maior que 30 e “P>α”. Se o tamanho amostral for de 10 a 30, uma avaliação gráfica é recomendável e para tamanhos amostrais menores apenas se houver base teórica firme para assumí-la. Tab1. http://www.graphpad.com/quickcalcs/confInterval1/ Bioestatística Aplicada- Thierry R. Gasnier- Universidade Federal do Amazonas 2020 6 Tabela 2: Testes com duas variáveis com unidades amostrais simples São os testes mais utilizados, pois são os mais básicos para avaliar relações entre: a) uma Variável Preditora (VP) e uma Variável Resposta (VR) ou b) duas dependentes (V1 e V2) de uma terceira externa (correlação). Daremos ênfase à situação “a”, destacando diferenças de aplicações entre as duas situações quando necessário. Nos testes desta tabela, em contraste com os testes da tabela 3, as unidades amostrais são simples (i.e. não são pares ou blocos divididos em subunidades). *OBS- Variável resposta quantitativa em condição não paramétrica: a) número de níveis na variável resposta entre 3 e 7, ou b) forte desvio da normalidade na distribuição da variável resposta (VR) para algum nível da variável preditora (VP), ou c) forte desvio de homogeneidade de variâncias de VR em cada nível de VP (exceto Teste T). Considere a possibilidade de transformar dados quantitativos (seção 3.4) antes de utilizar a estatística não- paramétrica desta coluna. Variável resposta quantitativa em condição paramétrica: a) número de níveis maior que 10 e b) normalidade na distribuição da VR em todos os níveis da VP e c) Homogeneidade de Variâncias de VR entre os níveis da VP (esta opção não é desnecessária em variável preditora binária). Condições intermediárias: Em situações intermediárias, dependerá do pesquisador assumir uma postura mais conservadora (escolhendo condição NP) ou ousada (escolhendo condição P). Variável. Resposta Binária (Categ. de 2) Categórica Ordinal ou Quantitativa Condição NP* Quantitativa Condição P*Variável Preditora↓ Binária (cat. de 2) Test Exato de Fisher ou Teste de 2 prop., (g) Graf: Seção III Tabela de Contingência (h) Graf: Seção III Mann- Whitney; Cochran’s LT (i) Graf: Seção III (ord) ou IV (qt.) Teste t (de 2 grupos) (j) Graf: Seção IV Categórica Tabela de Contingência (h) Graf: Seção III Tabela de Contingência (h) Graf: Seção III Kruskal-Wallis; Tab. Cont. (k) Graf: Seção III (ord) ou IV (q.) Análise de Variância (l) Graf: Seção IV Ordinal Mann- Whitney; Cochran’s LT (i) Graf: Seção VI Dicotomizar VP ou VR e usar teste apropriado (Max. Balanço) (m) Correlação de Postos/ RNL(n) Graf: Seção V Correlação de Postos/ RNL(n) Graf: Seção V Quantitativa Regressão Logística (p) Graf: Seção VI Dicotomizar VP ou VR (Max. Balanço) (m) Correlação de Postos/ RNL(n) Graf: Seção V Pearson/ Regressão Linear/ RNL (o) Graf: Seção V Bioestatística Aplicada- Thierry R. Gasnier- Universidade Federal do Amazonas 2020 7 g) Testes Binário x Binário (Teste de Fisher ou Teste de duas proporções). Obs: Antes de realizar o teste, veja se seu arquivo tem uma coluna de frequência ou se cada linha é uma unidade amostral. Se houver uma coluna de frequência, é necessário informar o programa em [Data/ Case Weighting/ By frequency- informar qual é a coluna de frequência] para podermos realizar os testes. Inicialmente usaremos o teste de Fisher que se aplica a qualquer situação de relação entre variáveis binárias, mas leia ainda o próximo parágrafo para uma opção com maior poder. No Mystat12: [Analyze/ Tables/ Two way/ Entre a variável preditora (se houver) em ”Row” (linha) e a variável resposta (se houver) em “Column” (coluna)/ na aba measures: marque “Fisher Exact Test” (e desmarque “Pearson”)]. Repare que foi construída uma tabela de duas vias (com linhas e colunas). O programa calcula a Probabilidade do Teste Bicaudal (PTB). Opção unicaudal no teste de Fisher. Para se obter a probabilidade do teste unicaudal (PTU), divide-se a PTB por 2 e: a) se a tendência for em direção de rejeição de H0, o resultado é o valor da divisão; b) se a tendência for em direção de rejeição de H0, o resultado é PTU= 1-(PTB/2). Tabelas de Contingência (TC) também poderiam ser utilizadas para verificar relações entre duas variáveis binárias, mas são menos precisas, especialmente para tamanhos amostrais pequenos. Teste de duas proporções. No caso de relações consequentes, isto é, quando há uma variável preditora e uma variável resposta, havendo dados suficientes, o teste de duas proporções é mais recomendável, pois tem mais poder (menor chance de Erro Tipo II) que o teste de Fisher. Estamos usando como critério de segurança para usar o teste de duas proporções que todas as quatro “caixinhas centrais” (número de entidades para cada combinação de nível das duas variáveis) da tabela do teste de Fisher tenham mais de 10 entidades (isto previne a ampliação da chance de Erro Tipo I). Neste teste, cada nível da variável preditora será chamado de grupo (linha1 da tabela de Fisher= grupo 1 e linha2= grupo 2) e um dos níveis da variável resposta será chamado de sucesso (“Success”- tanto faz qual). No MYSTAT, [Analyze/ Hypotesis testing/ Proportions/ Equality of two proportions/ marque a opção aggregate/ Entre os totais de cada grupo em “number of trials” e os números de “Sucessos” em “number of Successes”, escolha “not equal” para bicaudal e “greater than” (maior que) ou “less than” (menor que) para unicaudal conforme a hipótese.”]. Geralmente, mais de uma probabilidade é apresentada, pois o Mystat12 usa abordagens alternativas (testes Binomiais Exatos ou testes de aproximação normal). Com tamanhos amostrais pequenos (N<25), o Mystat12 fará o teste Binomial Exato que é o melhor neste caso, e uma ou duas aproximações normais que podem ser desprezadas. Em tamanhos amostrais maiores (N≥25), o Mystat12 mostra uma ou duas formas de aproximação normal. Para simplificar, recomendo que você faça o teste conforme indicado acima e simplesmente escolha o valor de P mais conservador (maior P) que for apresentado. Os gráficos para estes testes estão representados na seção III da apostila de gráficos. Tab2.h) Tabela de Contingência. Antes de realizar o teste, veja se seu arquivo tem uma coluna de frequência ou se cada linha é uma unidade amostral. Se houver uma coluna de frequência, é necessário informar o programa em [Data/ Case Weighting/ By frequency- informar qual é a coluna de frequência] para os testes. Para os gráficos, costuma se obter resultados melhores desativando a coluna de frequência e utilizando-a no eixo y. No Mystat12: [Analyze/ Tables/ Two way/ uma variável vai em “row variable” e a outra em “column variable”/ Na aba measures marcar Pearson Chi Square]. Este teste também tem algumas limitações: a) quanto mais células na Tabela de Contingência, mais fraco é o teste. b) Se a freqüência em alguma célula for inferior a cinco, o teste é considerado suspeito pelo programa MYSTAT. Para obter mais poder e para evitar freqüências baixas nas células é recomendada a redução no número de níveis ao mínimo necessário por exclusão ou por fusão de categorias na Variável Preditora e/ou na Variável Resposta (se chegar a 2x2 mudar para opção de testes “a” descritos acima). Os gráficos para esta situação estão representados na seção III da apostila de gráficos. Bioestatística Aplicada- Thierry R. Gasnier- Universidade Federal do Amazonas 2020 8 Caso esteja analisando uma relação consequente, ao preparar a tabela, escolha uma apresentação dos dados em porcentagem de linha se a variável preditora estiver em linha ou em porcentagem de coluna se a variável preditora estiver em coluna. [Analyze/ Tables/ Two way/ uma variável vai em “row variable” e a outra em “column variable”- Marcar % de linha ou de coluna]. Caso tenha interesse de realizar contraste entre níveis da variável preditora, compare cada combinação de par de nível. Por exemplo, se os níveis forem A, B e C, compare AxB, AxC e BxC. Use “Select Case” para selecionar os valores dos níveis a cada comparação. Tab2. i) Teste não paramétrico com variável preditora binária e resposta ordinal ou quantitativa (ou vice versa): Mann-Whitney (MW) ou Cochrans Test for Linear Trend (CLT). Considerações preliminares: i1) antes de realizar o teste, veja se seu arquivo tem uma coluna de frequência ou se cada linha é uma unidade amostral. Se houver uma coluna de frequência, é necessário informar o programa em [Data/ Case Weighting/ By frequency- informar qual é a coluna de frequência] para os testes. Para os gráficos, costuma se obter resultados melhores desativando a coluna de frequência e utilizando-a no eixo y. i2) Se houver na análise uma variável ordinal não numérica, transforme-a para numérica (e. g. qualidade$= ruim, regular, boa ou muito boa -> qualidade= 0, 1, 2, 3). Isto pode ser feito manualmente ou pela função DATA/ Transform/ Recode. Nas propriedades desta variável é conveniente marcar “Category” na entrada de dados ou depois em “Edit/ Category”, pois os gráficos costumam ficar melhores. i3) Se a variável resposta for quantitativa, é melhor começar pela seção “j” (teste t), pois, ao realizar o teste, o Mystat mostra um gráfico que ajuda a avaliar se há normalidade na distribuição da variável resposta nos dois níveis da preditora. i4) Mann-Whitney (MW) e Cochrans Test for Linear Trend (CLT) geralmente são utilizados quando temos uma variável preditora binária e a variável resposta ordinal ou quantitativa, mas também podem ser utilizados quando a variável preditora é ordinal e a resposta é binária. O teste Mann-Whitney é mais recomendado quando a variável ordinal ou quantitativa tiver mais de 6 níveis e o Cochrans Test for Linear Trend se tiver entre 3 e 6 níveis. Para mais de 6 níveis ordinais/ quantitativos use Mann-Whitney (MW) no MYSTAT12: [Analyse/ Non Parametric tests/ Kruskal/ entre a variável binária em “grouping variable” e a ordinal ou quantitativa em “selected variable” ], (a opção é realmente chamada “Kruskal”, mas o programa detectará automaticamente que a “grouping variable” é binária e realizará o teste MW). Embora o MW seja mais robusto que um teste paramétrico, ele não é totalmente “distribution free”. A opção não paramétrica mais poderosa é o teste de permuta que não estamos tratando aqui. Se você tiver um teste importante nestas condições com poucos dados, é recomendável buscar a assistência de um estatístico. Em especial, é necessário cuidado com comparações com excesso de valores zero. Se o número de zeros for superior a 25% dos dados é melhor evitar o MW. A alternativa mais simples é transformar os dados da variável resposta em binários (0/1; presença/ausência) e utilizar um teste de duas proporções ou teste exato de Fisher (ver seção a). Para 3 a 6 níveis ordinais/ quantitativos use o Cochrans Test for Linear Trend que no MYSTAT está em Analyze/ Tables/ Two-Way/ entrar a variável preditora em linha e a variável resposta em coluna/ Marca aba Measures/ marca Cochrans Test for Linear Trend. Para variáveis ordinais, costuma ser melhor se utilizar os gráficos da seção III e para variáveis quantitativas costuma ser melhor se utilizar os gráficos da seção IV. Tab2. Bioestatística Aplicada- Thierry R. Gasnier- Universidade Federal do Amazonas 2020 9 j) O Teste t no Mystat12 está em [Analyze, Hypothesis testing, mean, two sample t test, a variavel Preditora vai em “grouping variable e a resposta vai em “Selected Variable”. Utilize sempre a probabilidade da opção variâncias separadas]. Ao realizar o teste, um gráfico é mostrado, verifique se o número de níveis e a normalidade são apropriados para um teste paramétrico. Se não houver normalidade, considere a possibilidade de transformar os dados (seção 3.4) e repita o teste com a nova variável antes de passar para um teste não paramétrico. O Teste t admite hipóteses unicaudais (opção “alternative types”) No caso de hipóteses unicaudais, para escolher a cauda “greater than” ou “less than” . Os gráficos para esta situação estão representados na seção IV da apostila de gráficos. Tab2. k) Teste não paramétrico com variável preditora categórica e resposta ordinal ou quantitativa. Considerações preliminares: k1) antes de realizar o teste, veja se seu arquivo tem uma coluna de frequência ou se cada linha é uma unidade amostral. Se houver uma coluna de frequência, é necessário informar o programa em [Data/ Case Weighting/ By frequency- informar qual é a coluna de frequência] para os testes. Para os gráficos, costuma se obter resultados melhores desativando a coluna de frequência e utilizando-a no eixo y. k2) Se houver na análise uma variável ordinal não numérica, transforme-a para numérica (e. g. qualidade$= ruim, regular, boa ou muito boa -> qualidade= 0, 1, 2, 3). Isto pode ser feito manualmente ou pela função DATA/ Transform/ Recode. Nas propriedades desta variável é conveniente marcar “Category” na entrada de dados ou depois em “Edit/ Category”, pois os gráficos costumam ficar melhores. k3) O teste Kruskal Wallis é utilizado quando temos uma variável preditora categórica e variável resposta ordinal com mais de 6 níveis. O teste também pode ser utilizado com variável preditora categórica e variável resposta quantitativa como alternativa não paramétrica à ANOVA, quando não foi possível se obter normalidade e homocedasticidade nem com transformação dos dados da variável resposta e caso haja no mínimo 6 níveis na variável resposta (neste caso ver alternativas ao final do próximo parágrafo). Para o teste Kruskal Wallis (KW) no Mystat12: [Analyze/ Non Parametric tests/ Kruskal] informe a variável resposta em “Selected variable”, a variável preditora em “grouping variable”.] Contraste em Kruskal Wallis. Detectada uma diferença estatisticamente significativa, pode se utilizar múltiplos testes Mann Whitney para o contraste (teste das diferenças entre níveis) de forma semelhante ao que se faz com o Teste Tukey em ANOVA. Para isto, primeiro ordene as categorias da variável preditora pelos valores da mediana. Se não souber ainda estes valores, use DATA/By Groups/ selecione a variável resposta, depois em Analyse/ Basic Statistics/ selecione a variável resposta e desmarque todas as opções menosa Median. Anote a sequência ordenada de níveis com base nos valores de mediana, por exemplo C, D, A, B. Desmaque os grupo em DATA/By Groups/ e agora compare os níveis C x D; D x A e A x B em pares. Use Data/ Select cases para cada par de níveis e Analyze/ Non Parametric tests/ Kruskal e informe a variável resposta em “Selected variable”, a variável preditora em “grouping variable” para o teste entre cada par de nível com Mann Whitney. Excesso de “Ties” (empates). Embora o KW seja mais robusto que a ANOVA, ele não é totalmente “distribution free”. Em especial, é necessário cuidado com comparações com excesso de valores zero, 1 ou 100% (comuns por exemplo em variáveis de percentagens ou proporções). Se o número de empates for superior a 25% dos dados é melhor evitar o KW. A alternativa mais simples é transformar os dados da variável resposta em binários (0/1; presença/ausência) e utilizar uma tabela de contingência. Poucos níveis na variável resposta. Também é necessária cautela quando o número de níveis na variável resposta for igual ou inferior a 6. Neste caso, há diferentes alternativas em função do que você considerar mais apropriado. A opção não paramétrica mais poderosa é o teste de permuta que não estamos tratando aqui. Vale a pena procurar um estatístico para te ajudar neste tipo de teste se você tiver um problema importante nestas condições. Outra opção é você eliminar ou fundir níveis da variável preditora, transformando-a em binária e utilizar o Cochrans Test for Linear Trend (ver seção c). Caso não queira eliminar ou fundir níveis das variáveis preditoras nem utilizar testes de permuta, uma alternativa pouco poderosa, mas válida, é tratar os dados ordinais como categóricos e utilizar uma Tabela de Contingência (ver seção h). Outra alternativa seria realizar múltiplos CLT e corrigir o α pelo número de testes. Tab2. Bioestatística Aplicada- Thierry R. Gasnier- Universidade Federal do Amazonas 2020 10 Para interpretar os resultados, especialmente se a variável resposta for ordinal, costuma ser importante se montar uma tabela com valores em porcentagens por total dentro de cada nível da variável preditora. Ao preparar a tabela escolha uma apresentação dos dados em porcentagem de linha se a variável preditora estiver em linha ou em porcentagem de coluna se a variável preditora estiver em coluna. [Analyze/ Tables/ Two way/ uma variável vai em “row variable” e a outra em “column variable”- Marcar % de linha ou de coluna]. Para variáveis respostas ordinais de 2 a 4 níveis, costuma ser melhor se utilizar os gráficos da seção III e para variáveis respostas ordinais com mais que 4 níveis ou para variáveis respostas quantitativas, costuma ser melhor se utilizar os gráficos da seção IV. Tab 2. l) No Mystat12, a ANOVA está em: [Analyze, Analisys of Variance, Estimate Model]. A variável preditora vai em “Factor” e a variável resposta vai em “Dependent” e na aba Options marque o teste os testes de normalidade e o teste de homogeneidade de variância. Se o resultado da ANOVA for significativo, verifique o contraste das média. O contraste indica quais níveis da variável preditora diferem significativamente nos valores da variável resposta. Por ser uma versão gratuita do SYSTAT, o MYSTAT não inclui contrastes. Neste link http://priede.bf.lu.lv/ftp/pub/TIS/datu_analiize/PAST/2.17c/pastprogram.zip você pode baixar o programa estatístico “Past*” para fazer o contraste pelo teste de Tukey. Depois de instalado, copie os dados do Mystat (simplesmente blocando os dados do Mystat e colando na planilha do Past). Clique na coluna da variável preditora, segure a tecla Shift e clique na coluna da variável resposta e depois vá ao menu Statistics/ One Way Anova, confira o resultado com o obtido no Mystat (para ver se não houve algum erro e veja em destaque (cor de rosa) as diferenças entre médias que foram estatisticamente significativas pelo teste de Tukey. * O programa Past, apesar de ser mais simples, contém várias aplicações úteis ao biólogo que o Mystat não tem. Outra opção é usar o RStudio: Salve o arquivo do Mystat em txt com um nome como “nome.txt” usando “save as” na forma tipo ASCII text na área de trabalho. Abra o RStudio e importe o arquivo nome.txt. Faça um [attach(nome)]; [names(nome)]; [model=aov(variavel resposta~ as.factor (variável.preditora))]; [summary.lm(model)]; [TukeyHSD(model)] (em itálico nomes de arquivos e variáveis do exemplo e entre colchetes os comandos em R). Confira o resultado da ANOVA do Mystat e do R para certificar-se que não houve algum erro no procedimento. Os gráficos para esta situação estão representados na seção IV da apostila de gráficos. Tab2. m) Existem técnicas avançadas que permitem realizar testes nestas condições, mas como estamos nos restringindo às técnicas básicas, nossa opção é dicotomizar uma ou ambas variáveis e usar um teste apropriado considerado as escalas das novas variáveis. A escolha depende do caso. Se a variável resposta categórica puder ser reduzida a duas categorias, teríamos Mann Whitney para variável preditora ordinal e Regressão Logística para variável preditora quantitativa. Se não puder, então a variável preditora poderia ser dicotomizada, o que resultaria em Tabela de contingência. Dar preferência à fusão que leve à menor diferença de número de casos entre os níveis da variável preditora (melhor balanço). Tab2. n) Se o objetivo for apenas testar a relação, pode se utilizar dois testes de Correlação de Postos: Spearman ou Kendall, no Mystat12: Analyze/ Tables/ Two Way entre uma variável em Row Variable a e outra em Colum variable. Caso haja uma variável preditora, marque a opção Row Percents se VP estiver em “Row” e Colum percents de VP estiver em “Colum”. Na aba “measures” marque Spearman e Kendall. São testes muito semelhantes, e recomendo que ambos sejam realizados e a escolha do resultado seja pelo mais conservador dos dois (maior valor de P). http://priede.bf.lu.lv/ftp/pub/TIS/datu_analiize/PAST/2.17c/pastprogram.zip Bioestatística Aplicada- Thierry R. Gasnier- Universidade Federal do Amazonas 2020 11 Se for importante descrever a relação, então temos duas opções, um modelo a priori caso haja uma expectativa sobre o formato da relação (e.g. um modelo logístico), ou a partir de um modelo a posteriori, que pode se basear na forma dos dados com uma curva com “Smooth=LOWESS” no gráfico Scatterplot. A partir de um modelo matemático (e.g. Y= a+b*X+c*X^2), pode se determinar os coeficientes pela função NONLIN do Mystat12: Analyze/ Regression/ Nonlinear/ Loss e entra o modelo trocando variável resposta e variável preditora pelos nomes das variáveis (a menos que tenha muita segurança, é bom fazer isto junto a um estatístico nas primeiras vezes). Os gráficos para esta situação estão representados na seção VI da apostila de gráficos. Tab2. o) Regressões e “correlações” retilineares*. A regressão retilinear [Analyze, Regression, Least Squares] e a correlação de Pearson [Analyze, Correlation, Simple, Pearson, Option Probabilities] apresentam o mesmo resultado (P calculado), então por que dois nomes? O nome do teste para verificar uma relação retilinear entre duas variáveis contínuas é uma questão que gera confusão. Muitos livros dividem Correlação e Regressão em dois capítulos e os autores dizem que a primeira refere-se a um estudo de associação e a segunda ao estudo de causalidade. Entretanto, a questão da causalidade está na “jurisdição” do desenho amostral (validação interna), não da análise numérica de dados (validação dados-> conclusão). Sokal & Rohlf (1988: pag. 564) explicam a questão mais profundamente. A medida de Correlação de Pearson descreve o quanto é forte a associação entre duas variáveis (seja devido a uma relação causal entre as duas ou devido a uma terceira). A regressão retilinear é um calculo de coeficientes para passar uma reta. Este cálculo da reta pode ser de dois tipos: 1) se tivermos uma variável preditora com valores fixos e exatos, como normalmente ocorre em um experimento, então verificamos se a Regressão Retilinear(reta) simples ou Modelo I calculada pelo método dos mínimos quadrados é significativa e se os resíduos estão distribuídos de forma apropriada. Se estiver, verificamos P e acabou (não represente uma reta em um gráfico se P>α). Se os resíduos não estiverem apropriados (seção 3.3), conforme a situação, transformamos os dados (para obter normalidade e homocedasticidade) ou utilizamos uma regressão não retilinear (curva). Uma regressão curvilinear pode ser obtida da forma descrita no item g. Podemos comparar estatisticamente se a relação curvilinear é significativa melhora significativamente o modelo em relação a uma regressão retilinear simples. Para isto, crie a variável XQuad (XQuad=X^2) e entre ela em regressão retilinear de mínimos quadrados com a fórmula do item g. 2). Se tivermos uma variável preditora com valores aleatórios e/ou inexatos, então precisamos de uma Regressão Modelo II para determinar coeficientes mais apropriados de uma relação retilinear (reta). Há diferentes modelos, conforme o caso (o assunto é complexo e polêmico). Um modelo flexível é o “Reduced Major Axis Regression” que dá os coeficientes em Loss com a fórmula (Y-(a+b*X))^2/ABS(b). Os gráficos para esta situação estão representados na seção V da apostila de gráficos. *Considerando que uma curva é uma linha, seria mais apropriado utilizar o termo “curvilinear” para as regressões chamadas “não lineares” e o termo retilinear para as regressões chamadas de “lineares”. Tab2. p) A regressão logística é um teste simples para quem usa um programa de estatístico. No Mystat: [Analyze, Regression, Logit Regression, Estimate Model Variável preditora em Independent e variável resposta em Dependent]. A probabilidade a ser comparada com alfa é o último valor “p-value” apresentado. A variável binária pode ser numérica (0 ou 1) ou categórica, como “m” ou “f” para macho e fêmea. Neste caso, tanto faz. Em alguns casos é melhor usar números para evitar confusão na interpretação do modelo. Por exemplo, se você estiver estudando a probabilidade de morte de plantas submetidas a diferentes concentrações de herbicida, então é melhor modelar com uma variável numérica (0= sobreviveu e 1= morreu). A regressão logística raramente é ensinada em cursos básicos de estatística com ênfase matemática porque a matemática do cálculo é muito complexa. Em função disto, o gráfico da regressão logística é relativamente pouco conhecido (ver Seção VI). O gráfico incluindo dados e modelo é um pouco mais complexo de ser feito. Tab2. Bioestatística Aplicada- Thierry R. Gasnier- Universidade Federal do Amazonas 2020 12 Tabela 3: Testes pareados ou com blocos Estes testes são utilizados para verificar indiretamente a relação entre duas variáveis. As vantagens desta abordagem são discutidas no capítulo 7 da apostila. As variáveis preditoras (VP) e as variáveis respostas (VR) da relação em estudo não são colunas na planilha EPR e por isto são denominadas “implícitas”. Ao invés delas, utilizamos variáveis “medidas repetidas” (VMR) para “fatores intra-objeto” na analise da relação implícita. Este formato é denominado estrutura EPR longitudinal. Por exemplo, para analisar se há uma relação entre o número de baratas silvestres de serapilheira por m2 (VR) e o período (Dia X Noite- VP), foram feitas medidas em 10 locais diferentes uma vez de dia e uma vez à noite. A Entidade (ou “Unidade Amostral” ou “Objeto”) é o local, o fator intra-objeto é período, a VMR1 é número de baratas de dia e a VMR2 é número de baratas à noite. Cada m2 é uma subunidade amostral. Para explicação da terminologia, lógica e aplicações ver seção 7.2 da apostila. Diferença entre valores quantitativos pareados com distribuição que pode ser considerada normal. teste t pareado (q) Graf: Seção VII Diferença entre dados ordinais pareados ou entre dados quantitativos pareados com distribuição das diferenças sem normalidade. Número de empates (“ties”) inferior a 25% do N. teste Wilkoxon Pareado (r) Graf: Seção VII Diferença entre dados binários (+, -) pareados ou diferença entre dados ordinais ou quantitativos pareados com número de empates superior a 25% do N. “Sign test” (s) Graf: Seção VII Unidades amostrais com mais que duas medidas repetidas (paramétrico). Anova de Medidas Repetidas(t) Graf: Seção VII Unidades amostrais com mais que duas medidas repetidas (não paramétrico). Friedman (u) Graf: Seção VII q) Lembre que os dados precisam entrar em uma planilha em que a entidade é o par e cada variável de medida repetida é um nível do fator intra-objeto (no exemplo acima VMR1 é o número de baratas de noite e VMR2 é o número de baratas de dia). Para saber se há normalidade na diferença entre estes dois valores é necessário se calcular esta diferença da seguinte forma: DATA/ Transform/ Let/ Dif=VMR1-VMR2. Este procedimento cria a coluna das diferenças. A análise da normalidade pode ser por premissa, qualitativa ou quantitativa. Não assuma a normalidade por premissa se não tiver certeza que as diferenças são normais em situações semelhantes. A qualitativa precisa de um número de pares (N) >10 e é por um histograma: Graph/ Histogram/ entra Dif em “X-variable”, que deve ter um padrão pelo menos grosseiramente normal. A quantitativa é feita com um teste, mas este tipo de teste só é confiável se N>30. Para verificar quantitativamente a normalidade da diferença use: Analyse/ Fitting distribution/ “Selected distribution”= Normal/ Entra variável Dif em “X-variable”. Se o teste de normalidade apresentar P<0,05, então não há normalidade, utilize o teste Wilkoxon. Finalmente, se aceitar a normalidade, o teste pareado é feito no Mystat12: Analyze/ Hip Test/ Mean/ Paired T test/escolher opção de uma ou duas caudas (se utilizar os dados das duas variáveis) ou em Analyze/ Hip test./ mean/ One sample T test/escolher opção de uma ou duas caudas (se utilizar as diferenças). O teste para duas caudas (opção “not equal”) verifica se as diferenças são significativamente diferentes de zero. O teste para uma cauda verifica se as diferenças são maiores que zero (opção “greater than”) ou se são menores que zero (opção “less than”). Os gráficos para esta situação estão representados na seção VII da apostila de gráficos. Tab3. Bioestatística Aplicada- Thierry R. Gasnier- Universidade Federal do Amazonas 2020 13 r) Se a análise de normalidade das diferenças (ver parágrafo anterior) levar à conclusão que elas não podem ser consideradas normais, utilizamos o teste não paramétrico Wilkoxon (desde que não haja excesso de empates- ver abaixo). O Wilcoxon no Mystat12 está em: Analyze/ Non Parametric tests/ Wilkoxon/escolha a opção de caudas. O teste ranqueia os valores preditoramente das colunas e verifica para duas caudas (opção “not equal”) se as diferenças das posições são significativamente diferentes de zero ou para uma cauda se são maiores que zero (opção “greater than”) ou se são menores que zero (opção “less than”). Este teste não é apropriado caso haja uma grande proporção de empates (>25%) entre os valores de cada entidade (unidade amostral, objeto), normalmente por excesso de valores nulos ou por número de níveis muito baixo na variável resposta implícita. Neste caso é melhor se utilizar o “sign test” (próximo teste). Os gráficos para esta situação estão representados na seção VII da apostila de gráficos. Tab3. s) Este teste é aplicável para desenhos pareados com variáveis binárias (presença/ausência; menor/maior) ou quando há excesso de empates entre os valores (ver parágrafo anterior). Lembre-se que a unidade é o par. Os valores das variáveis binárias devem ser 0 ou 1 que significam presença/ ausência ou maior/menor dentro de cada par. No caso de empate, coloque 0 e 0 para as duas variáveis da entidade. No caso de variáveis quantitativas, o próprio programa transformará os valores em 0 ou 1 para menor/maior. No Mystat: Analyze/ Non Param Test/ Sign. Se você ainda não tiver os dados entrados na planilha, o mais fácil é contar os sinais + e – das diferenças e ir para o teste Binomial (= teste de 1 proporção) Mystat12:Analyze/ Hyp Test./ Propor/ Simple Prop. e entrar opção “aggregate”; N em “number of trials”; o número de positivos em successes; Proportion=0.5; e a alternativa se será unicaudal ou bicaudal. Os gráficos para esta situação estão representados na seção III da apostila de gráficos, mas sem representação da relação pareada.). Tab3. t) A Análise de Variância de Medidas Repetidas (RM Anova) é semelhante ao teste t pareado, mas ao invés de duas medidas por entidade temos três ou mais. Por ser mais complexo, é importante uma consulta à seção 4.2 para entender bem a terminologia, lógica, premissas e aplicações. Lembre que os dados devem estar na forma “longitudinal”, isto é, cada entidade medida é uma linha e as diferentes medidas dela estão em colunas. No MYSTAT12 Analyse/ Analysis of Variance/ entrar todas as variáveis de medidas repetidas na variável resposta/ Na aba Repeated Measures marcar “Perform Repeated Measures analysis” e o número de níveis em Level. Os gráficos para esta situação estão representados na seção VII da apostila de gráficos. Tab3. u) Quando as premissas de testes paramétricos não permitem uma RM Anova (Anova de medidas repetidas), a opção não paramétrica é o teste Friedman. Há duas estruturas EPR que permitem o teste Friedman, na forma longitudinal (como para RM Anova) e em um formato com variáveis preditoras e respostas explícitas. No formato longitudinal, o caminho no MYSTAT12 é Analyse/ Non Parametric tests/ Friedman / entrar todas as variáveis de medidas repetidas em “Selected Variables”. Outra forma é utilizando-se colunas com a Variável Preditora, a Variável Resposta e uma variável identificando os blocos. No exemplo na legenda da tabela acima seriam Período, Número de Baratas e Local. Neste formato, entre em Analyse/ Non Parametric tests/ Friedman / variável resposta em “Selected variables”, variável preditora Grouping Variable e a variável dos blocos em Blocking Variable”). Uma alternativa ao Friedman é o teste “Quade” [Analyze, Non Parametric tests, Quade] veja o “Help” do Mystat12 para mais informações. Os gráficos para esta situação estão representados na seção VII da apostila de gráficos. Tab3. Bioestatística Aplicada- Thierry R. Gasnier- Universidade Federal do Amazonas 2020 14 Tabela 4: Testes com 1 Variável resposta e 2 variáveis preditoras Tabela 4. A inclusão de duas variáveis em um estudo experimental possibilita a avaliação de interações entre variáveis preditoras. Se o estudo não for experimental, então a inclusão de uma variável pode servir principalmente para um controle. Como vimos acima, a análise de uma única variável preditora já envolve diversas premissas. A situação se complica com a segunda variável resposta. Continua valendo a normalidade e a homogeneidade de variâncias. Adicionalmente, é necessário que haja independência entre as variáveis preditoras. É fácil realizar estes testes, e ai mora o perigo. Um treino nestas técnicas está além do escopo deste curso, por isto não discutiremos estes testes, apenas passamos as os caminhos no MYSTAT para quem quiser começar a aprender a usá-las. V) A tabela de contingência de três vias no Mystat12 está em “Analyze/ Tables/ Multiway” W) A regressão múltipla está em “Analyze/ Regression/ Logit/ Model” X) A ANOVA de duas vias está em “Analyze/ ANOVA/ com X1 e X2 em factor Y) A ANCOVA de duas vias está em “Analyze/ ANOVA/”com a X1 quantitativo em covariate e X2 categórico em factor. Z) A Regressão múltipla de duas vias está em “Analyze/ ANOVA/ com X1 e X2 em covariate. Var. Resposta V. pred. 1 V. Pred. 2 Teste Categórico Categórico Categórico Tabela de Contingência de 3 vias (v) Binário Quantitativo Quantitativo Regressão logística múltipla (w) Quantitativo Categórico Categórico Análise de Variância de 2+ Vias (x) Quantitativo Quantitativo Binário ANCOVA (y) Quantitativo Quantitativo Quantitativo Regressão Múltipla (z) Bioestatística Aplicada- Thierry R. Gasnier- Universidade Federal do Amazonas 2019 15 Gráficos Os gráficos prendem a atenção dos leitores e podem transmitir eficientemente ideias complexas. Entretanto, um número elevado de gráficos pode dispersar a atenção do leitor e o número permitido normalmente é limitado na hora de publicar, de forma que devem ser escolhidos só os mais relevantes e devem ser preparados com um cuidado especial. Gráficos mal feitos ou desnecessários desvalorizam muito uma publicação. Portanto, o domínio dos gráficos básicos é pré requisito para a autonomia na pesquisa e divulgação de suas descobertas. Seção I- Gráficos com uma variável única categórica Antes de fazer o gráfico, veja se seu arquivo tem uma coluna de frequência ou se cada linha é uma unidade amostral. Esta opção deve ser desmarcada para os gráficos [Data/ Case weighting/ by frequency/ marque turn off], pois a informação de frequência será colocada como variável Y. É possível se fazer os gráficos com a coluna de frequência ativada, mas o MYSTAT pode travar em gráficos se a frequência total for alta, o que não acontece se informarmos a frequência como uma variável Y. OBS: Quando se trabalha com frequências, deve-se apresentar o valor 0 (zero) no eixo Y do gráfico de barras. Estes dados também podem ser apresentados no formato de setores (“pizza”), mas este formato é considerado menos efetivo em geral. Tab1 Itacoatiara Manacapurú Manaus Parintins MYSTAT: opção 1- Se houver uma coluna de frequência. Primeiro desligue a atribuição de frequência (Data/ Case weighting/ by frequency/ marque turn off) a) Barras simples: Graph/ Bar Chart/ Variável→ Xvariable;/ Freqüência em Yvariable/ colocar 0 (zero) no Ymin na aba Yaxis. b) Setores (pizza): Graph/ Pie Chart /Variável → Xvariable;/ Freqüência em Yvariable/ colocar 0 (zero) no Ymin na aba Opção 2- Se não houver uma coluna de frequência (cada linha é uma unidade amostral) a) Barras simples Graph/ Bar Chart/ Variável→ Xvariable;/ colocar 0 (zero) no Ymin na aba Yaxis. b) Setores (pizza) Graph/ Pie Chart/ Variável→ Xvariable;/ colocar 0 (zero) no Ymin na aba Yaxis. Figura 2. Mesmos dados em em um Gráfico de Setores Itacoatiara Manacapurú Manaus Parintins Origem 0 10 20 30 40 50 60 70 Fr eq üê nc ia Figura 1- Gráfico de Barras Simples. Construído a partir de um arquivo com entidade= pessoa e propriedade= cidade, ou a partir de um arquivo Síntese de EPR com uma coluna com os nomes das cidades e outra coluna com os valores de freqüência. Bioestatística Aplicada- Thierry R. Gasnier- Universidade Federal do Amazonas 2019 16 Seção II- Gráficos com uma variável única quantitativa Quando a variável é quantitativa, os dados são divididos em intervalos iguais e a freqüência é calculada para cada intervalo. O número de intervalos é definido pelo usuário em função do total de casos, normalmente entre 12 e 20, evitando muitos intervalos com freqüência de 1 (um) caso e evitando intervalos com valores “quebrados” (e. g. 4,256). Se o tamanho amostral não for muito pequeno, geralmente o número de intervalos está entre 7 e 15. Tab1 Seção III- Gráficos com variáveis preditora nominais ou ordinais e respostas nominais ou ordinais Nas seções anteriores, havia uma única variável em análise. A partir desta seção estamos lidando com análises de relações entre uma variável preditora e uma resposta (ou duas dependentes de uma terceira). Esta é a única seção que lida com relações em que não utilizamos gráficos EPR, e vamos começar explicando o porquê. Os gráficos mais ricos em informação são os gráficos EPR nos quais os eixos X e Y são variáveis (colunas da planilha EPR) e cada ponto é uma entidade. Quando as “variáveis respostas” e “preditoras” são nominais (binárias, categóricas) ou ordinais (ou quantitativas tratadas como ordinais), o gráfico EPR seria na forma da figura 4. Tab2. Obviamente é uma representação ruim devido à sobreposição dos pontos. Ao invés das nuvens de pontos poderíamos ter o número de dados, e então o gráfico se transforma em uma tabela (figura 5a). Esta tabela pode ser interpretada mais facilmente se forem utilizados os valoresporcentuais por linha (se a “variável preditora” tiver os níveis em linhas) ou por coluna (se a “variável MYSTAT: Graph/ Histogram/ Variável→ Xvariable/ Options, Number of bars=7 (ou outro valor considerado apropriado.) Figura 4- O que seria um gráfico EPR para variáveis nominais. Ao invés deste gráfico, utilizamos tabelas ou outro tipo de gráfico. Figura 3- Histograma mostrando a quantidade de pessoas por intervalo de idade. O intervalo utilizado foi 2 anos, mas poderia ter sido outro. 8 10 12 14 16 18 20 22 Idade 0 50 100 150 C on ta ge m 0.0 0.02 0.04 0.06 0.08 0.10 0.12 0.14 0.16 0.18 Propor玢 o por barra Bioestatística Aplicada- Thierry R. Gasnier- Universidade Federal do Amazonas 2019 17 preditora” tiver os níveis como colunas) como na figura 5b. Estas tabelas podem ser construídas com a ferramenta tabela dinâmica do Excel ou com tabelas de contingência de 2 vias no MYSTAT. Se estiver com uma tabela síntese de EPR no MYSTAT, deve-se marcar a freqüência como frequency em [Data/ Case Weighting/ by frequency]. A principal alternativa gráfica para esta situação é o gráfico de Barras Composto (fig. 6). A variável resposta entra como “Grouping Variable” na forma das cores ou padrões diferentes das barras e não como eixo Y que é uma frequência. Nesta situação, este gráfico preserva toda a informação (permite a reconstrução da planilha) e permite a apreciação da relação pelo contraste das proporções de tamanhos de colunas. Em arquivos que possuem uma coluna de frequência (tabela síntese de EPR), esta coluna pode ser colocada como “Y-variable” na confecção do gráfico. Neste caso, cada linha é uma combinação diferente dos níveis das “Variáveis Respostas” e “Preditoras” e há uma freqüência para cada combinação (e.g. L1- homem, fuma, 30, L2 homem, não fuma, 20, L3- mulher, fuma, 12, L4- mulher, não fuma, 50). Este tipo de gráfico pode ficar confuso quando há mais que quatro níveis na variável resposta. Se esta variável for categórica, é recomendado fundir categorias, se for possível, para facilitar a interpretação. Quando a variável resposta for ordinal com mais que quatro níveis, é preferível apresenta-la como eixo y (ver seção IV). Tab2. Sexo\ Fuma? Não Sim Feminino 50 12 Masculino 20 30 Sexo\ Fuma? Não Sim Feminino 78% 22% Masculino 43% 57% Figura 5- Tabelas que apresentam os dados da figura 4. Na primeira são apresentados os valores absolutos das contagens e na segunda a porcentagem dos valores por linha, pois a variável sexo é preditora e está com seus níveis em linha Figura 6- Gráfico de Barras Composto Horizontalmente. a) b) Bioestatística Aplicada- Thierry R. Gasnier- Universidade Federal do Amazonas 2019 18 Outra opção é o gráfico de Barras Composto Vertical (BCV) no qual as barras em cada nível de X são sobrepostas. Para apresentar barras sobrepostas, é necessária a construção de uma planilha Síntese de EPR de outra forma. A primeira coluna tem em cada linha um nível da “variável preditora” e as outras colunas são os níveis da “variável resposta”. (e.g. Colunas= sexo/ fumam/ não fumam; L1- homem, mulher/ L2 30, 12/ L3 20, 50). O gráfico de Barras Composto Vertical é menos efetivo que o BCH quando as proporções de cada grupo totalizam 100%, mas pode ser superior quando os totais de cada grupo são diferentes, como na figura 7. OBS- É importante considerar se a apresentação de um gráfico ou uma tabela se justifica nesta situação. No exemplo do estudo sobre o fumo, bastaria se informar que “57% dos homens e 22% das mulheres eram fumantes (n=50 e 62 respectivamente)”. Normalmente não se justifica um gráfico ou uma tabela para uma informação que poderia ser apresentada em uma ou duas linhas, a menos que seja um dos resultados mais importantes de todo o estudo, para destacá-lo. Tab2. Cuidado com gráficos quando há uma coluna de frequência na base de dados e mais de duas variáveis. Por exemplo, se as variáveis forem apenas VP=sexo; VR= Fuma? com uma coluna de frequência, não há problema, pois haverá apenas uma frequência para cada combinação possível (homens que fumam, homens que não fumam, mulheres que fumam e mulheres que não fumam). Mas se houver variáveis adicionais, por exemplo, origem= urbana ou rural, a situação complica para os gráficos. Neste caso haverá uma frequência para homens que fumam na cidade e outra no campo, etc. O Mystat fará a média dos dois valores nos gráficos, que não necessariamente é o que você quer. Além disto, o gráfico pode sair defeituoso se usar a opção “Select cases”. Recomendamos que neste caso você monte um outro arquivo com os dados que irão no gráfico apenas com a variável preditora, a variável resposta e a frequência. MYSTAT: Gráfico de Barras Composto Horizontal (BCH): a) Quando cada linha é uma entidade: Graph/ Bar Chart / V.Preditora→ Xvariable/ V. Resposta Grouping Variable/ option Overlay Multiple Graphs; b) Quando há uma coluna de frequência, 1) leia a caixa de texto abaixo; 2) verifique que a opção frequência está desativada- (Data/ Case weighting/ By frequency), se estiver ativada, clique em “turn off”; 3) Faça o gráfico assim: Graph/ Bar Chart/ V.Preditora→ Xvariable/ V. Resposta→ Grouping Variable/ Coluna de frequência→ Y variable/ option: Overlay Multiple Graphs. Para Barras sobrepostas (BCV), ver como construir síntese de EPR no texto. Graph/ Bar Chart/ VP→ X variable/ Variáveis de cada nível 1 da VR → Y Variable/ Opção Stackbars. verifique que a opção frequência está desativada Figura 7- Gráfico de Barras Composto Verticalmente. Bioestatística Aplicada- Thierry R. Gasnier- Universidade Federal do Amazonas 2019 19 Seção IV- Gráficos com variável resposta quantitativa e preditora nominal O melhor gráfico nesta situação normalmente é o Gráfico de Dispersão Categórico Normal ou “Dot Density” normal, pois, como vemos na figura abaixo, é o único que mostra toda a informação. Com base neste gráfico podemos ver o número de entidades em cada nível da “Variável Preditora” (VP) (e se há ou não balanço), a média, a amplitude, a normalidade e se há homogeneidade de variâncias entre os níveis da VP, que são informações essenciais para uma avaliação estatística de dados. O gráfico de barras é mais comum em publicações talvez por desconhecimento, pois o “Dot density” está disponível em poucos programas aplicativos de estatística. Outra justificativa para os outros gráficos poderia ser “para se apresentar gráficos mais limpos”. Entretanto, esta “limpeza” nos impede de distinguir entre situações ideais e situações problemáticas, pois podem estar escondidos “outliers”, desbalanço, falta de normalidade, etc. Não se pode menosprezar a importância desta informação antes de optar por uma outra alternativa, e a justificativa deve ser pela qualidade da comunicação e não pela conveniência de se esconder uma situação fora do ideal. O gráfico de Barras Simples é preferível ao Dot Density se houver apenas um dado para cada nível de X, por exemplo, em um gráfico de precipitação mensal ao longo dos meses durante um ano, pois as barras são mais visíveis do que um ponto. Note que, diferente do que foi apresentado na seção I, o eixo Y representa uma “variável resposta”. Nos casos em que há mais de um valor por nível da “variável preditora”, é apresentado um valor médio e podemos utilizar uma barra de erro padrão ou de desvio padrão. O desvio padrão é uma medida de variação importante para caracterizar uma população com distribuição normal, mas não ajuda a ajuda a sabermos se a média da amostra está próxima da média real sem o dado do tamanho da amostra. A barra de erro padrão deve ser preferida de forma geral, pois é um índice do intervalo de confiança da média, o que é útil para termos uma idéia se há diferença estatística entre os níveis de X, mesmo para populações que não tem distribuição normal. c) 1 2 3 Distância do Igarapé (m) 0 1 2 3 4 5 6 7 8 9 10 Vo lu m e (l) 1 2 3 0 1 2 3 4 5 6 7 8 9 10 Vo lu m e (l) 1 2 3 Distância do Igarapé (m) 0 1 2 34 5 6 7 8 9 10 Vo lu m e da p oç a (l) 0.5 1.0 2.0 3.0 Dist ância do Igarapé (m) 0 1 2 3 4 5 6 7 8 9 10 Vo lu m e (l ) a) b) d) Distância do Igarapé (m) Figura 8- Quatro formas de se apresentar dados nominais (neste caso quantitativos tratados como categóricos): a) “Dot Density”; b) Barra simples; c) Dot; d) Line. As barras de erro representam o erro padrão. Tab2. Bioestatística Aplicada- Thierry R. Gasnier- Universidade Federal do Amazonas 2019 20 O gráfico de “pontos médios” (ou “Dot”) é semelhante ao gráfico de barra, mas ao invés da barra usa um ponto apenas e pode ter barras de erro. Em situações com muitos níveis da “variável preditora” e/ou subgrupos em cada nível que tornariam o gráfico muito complexo para um gráfico de barras ou um “Dot Density”, o gráfico “Dot” se justifica por reduzir a complexidade do conjunto para dar ênfase às diferenças entre determinados grupos. Tab2. O Gráfico de Linha tem uma linha que liga valores únicos ou médios de cada nível de X e é útil para destacar mudanças espaciais ou temporais. Deve-se evitar sua utilização para variáveis nominais em geral (binários, categóricos ou ordinais), pois não há continuidade entre categorias, mas em alguns casos isto se justifica (e.g. Seção VII). A princípio, é necessário que haja unidades equivalentes entre níveis de um X contínuo para usá-lo. Pode se ligar valores com de uma “variável preditora” como mês, entretanto, os níveis de mês devem estar distanciados de forma apropriada, não se pode colocar os meses de janeiro, fevereiro e outubro eqüidistantes e ligá-los com uma linha porque fevereiro está próximo de janeiro e distante de outubro. Em um caso destes, podemos usar valores de dias para a posição do mês (janeiro=15, fevereiro=45...) e em [Data/Value labels] informar que 15= Janeiro, etc. de forma que cada mês fique em sua posição correta. Esta regra não se aplica obrigatoriamente quando se usa os outros gráficos nesta situação, mas a mesma diretriz pode ser seguida para transmitir uma informação de forma mais clara (fig. 10). Tab2. MYSTAT: Dot Density: Graph/ Dot Density / V. Preditora→ X variable; V. Resposta→ Y variable/ em Type of Display costuma ficar melhor o “Symmetrical Dot Density”; No Barra Simples: Graph/ Bar Chart / V. Preditora→ Xvariable; V. Resposta → Y variable; No gráfico de Pontos Médios ou “DOT”: Graph/ Summary Charts/ Dot / V. Preditora→ X variable; V. Resposta→ Y variable; No gráfico de linha Graph/ Line Chart / V. Preditora→ X variable; V. Resposta→ Y variable. Nos três ultimos tipos de gráfico, pode-se incluir barras de erro padrão ou desvio padrão na aba “error bar”. A sobreposição dos gráficos de “Dot density” e de linha pode dar bons resultados. Para isto, faça um Box Plot (Graph/ Box Plot) com V. Preditora→ X variable; V. Resposta→ Y variable e com e marque na aba opção a caixinha “Combine with symmetrical dot density”. 0 5 10 15 20 25 MESES 0 10 20 30 C on ta ge m Figura 9- O gráfico de linha é uma boa opção para mostrar variações no tempo e no espaço, mas possui regras mais estritas que os anteriores. Bioestatística Aplicada- Thierry R. Gasnier- Universidade Federal do Amazonas 2019 21 Outra alternativa para esta situação é o Box Plot (fig. 11). Este gráfico é recomendado para situações em que as distribuições dentro de cada nível da “variável preditora” não seguem uma distribuição normal (em forma de sino). Neste gráfico a linha central em cada nível de X é a mediana e as outras linhas marcam os limites dos “quartis” (cada grupo de 25% dos dados mais próximos e mais distantes da mediana). É superior ao gráfico de Barras nesta situação, mas é inferior ao “Dot Density”, pois não mostra qual a distribuição dos dados. Portanto, não é um gráfico recomendável. Tab2. Phoneutria reidyi Jun u Ago Out Jan Abr Ago 0 5 10 15 20 25 Ta m an ho d a ar an ha (m m ) Figura 10. Variação nos tamanhos de aranhas ao longo de 14 meses. A inclusão de distâncias informativas entre níveis categóricos da variável Preditora (e.g. meses com distâncias proporcionais a diferenças de dias) é uma regra do gráfico de Linha (“Line”) que pode ser aplicada ao “Dot Density”, como neste exemplo, e aos outros gráficos desta seção. Para isto, os gráficos devem ser construídos com os valores em dias e depois os nomes dos meses podem ser ajustados em um processador de textos como o Word. Figura 11- Box Plot para os mesmos dados da figura 8. Bioestatística Aplicada- Thierry R. Gasnier- Universidade Federal do Amazonas 2019 22 Seção V- Gráficos com variáveis respostas e preditoras quantitativas O melhor gráfico nesta situação normalmente é o Gráfico de Dispersão Quantitativo ou “Scatterplot” (Fig. 10) que é um gráfico EPR. Apenas quando a sobreposição de pontos compromete a percepção da relação, o que normalmente ocorre quando o número de níveis da “variável preditora” e/ou da “variável resposta” são muito pequenos que é recomendável a utilização do “Dot Density” com as variáveis numéricas tratadas como categóricas (fig 11). Tab2. a) 9 10 11 12 13 14 15 AGE 0 1 2 3 4 5 6 7 N um be r o f B oo ks 9 10 11 12 13 14 15 AGE 0 1 2 3 4 5 6 7 N um be r o f B oo ks Figura 13- O “dot density” é melhor que o “scatterplot” se o número de níveis é baixo e a sobreposição de pontos comprometer a percepção da relação. b) MYSTAT: Diagrama de dispersão quantitativo: Graph/ Scatterplot/ V. Pred→ X variable/ V. Resp.→Y Variable. Linhas de regressão linear e outros tipos de linhas de tendências podem ser escolhidas na aba Smooth. Uma linha de regressão apenas pode ser representada se a relação tiver sido comprovada estatisticamente.. Diagrama de dispersão nominal Graph/ Dot Density/ V. Pred→ X variable/ V. Resp.→Y Variable; Type of display= symmetrical. Se houver necessidade de se representar uma linha, isto pode ser feito com sobreposição de gráficos. Figura 12- Diagrama de dispersão ou “Scatterplot” Bioestatística Aplicada- Thierry R. Gasnier- Universidade Federal do Amazonas 2019 23 Seção VI- Gráficos com Variável Preditora Quantitativa e Variável Resposta Nominal O gráfico EPR mais simples que representa esta situação é o Diagrama de Dispersão Nominal Transposto (DDNT ou “Dot density” transposto- Fig 14a). A apresentação de uma variável preditora quantitativa no eixo X e de uma variável resposta nominal no eixo Y é pouco incomum, mas esta é uma forma correta de se apresentar estes dados. Algumas pessoas sentem-se incomodadas e invertem os eixos para deixar a variável nominal em X, mas isto está errado, a variável preditora deve sempre ficar no eixo X. Uma alternativa para esta situação é se utilizar um gráfico de barras composto. Para isto, os dados da variável preditora precisam estar em intervalos (como nos histogramas) e os níveis do eixo Y são apresentados como cores ou tons de barras (figura 14b). Há alguma perda de informação quando agrupamos dados em intervalos, mas costuma ser uma alternativa razoável de apresentar relações. Entretanto, este gráfico pode ser difícil de se interpretar quando o número de dados por nível da variável preditora varia muito. Neste caso, pode ser melhor a apresentação da frequência como proporção do total por nível ou a utilização de uma sequência de barras compostas verticalmente (ver seção III). Tab2. 0 10 20 30 40 50 60 70 DISTANCIA N S V O LT O U $ a) S N VOLTOU$ 0 10 20 30 40 50 60 70 DISTANCIA 0 2 4 6 C ou nt b) MYSTAT: DDNT (“dot density transposto”) Graph/ Dot density/ V. Preditora → Y-Variable e V. Resposta → X variable (é invertido mesmo!)/ Display: Symmetrical/ Aba all axes: marcar transpose. (Ver alternativa mais complexa em “dicas avançadas” no final da apostila). Gráfico de barras a) Variável preditora fixa: Graph/ Bar Char/ VI→X variable/ Variável resposta → “grouping variable/ Overlay multiple graphs; b) Variável preditora “não fixa”: Primeiro deve-se dividir os dados da Var. Pred. em intervalosiguais em uma nova variável preditora (VPb) e depois: Graph/ Bar Char/ VPb→X variable/ Var. Resp. → “grouping variable/ Overlay multiple graphs. Figura 14- A distância a que formigas foram levadas de seu formigueiro e o sucesso de retorno. Duas formas de se apresentar dados com uma “variável preditora” quantitativa e uma “variável resposta binária para os mesmos dados. Bioestatística Aplicada- Thierry R. Gasnier- Universidade Federal do Amazonas 2019 24 Seção VII- Gráficos para representar resultados com desenhos em pares ou blocos para “variável resposta” quantitativa e “preditora” nominal ou quantitativa A apresentação gráficos de desenhos em pares ou blocos é um pouco complicada pois exige uma transposição da planilha original, ajustes antes da transposição e sobreposição de gráficos. Os passos são os seguintes: 1) Inicialmente temos uma planilha com entidades que são os blocos (ou pares), que é a planilha usadas na avaliação estatística destes dados. Esta planilha deve ser salva (e.g. Base_Original). 2) A variável que nomeia os blocos deve ser renomeada para LABEL$. 3) em seguida a planilha deve ser transposta [Data/ Reshape/ Transpose], selecionar as colunas que serão transpostas e marcar para salvar com outro nome (e.g. Base transposta). 4) Na planilha transposta a variável LABEL$ agora tem os nomes das antigas colunas. Estes nomes devem ser transformados para números na ordem que serão apresentados no eixo x, e em [View/ Variable/ Editor/ Value Labels] coloque a correspondência destes números para o que aparecerá no gráfico (e. g. 1=fraco; 2= médio e 3= forte). O resultado da planilha original para a transpota com a modificação está representado ao lado. 5) faça o gráfico de linha [Graph/ Line Chart] entre Label$ em X variable e as variáveis que nomeiam os blocos em Y-variable. 6) faça o gráfico de pontos em [Graph/ Summary Charts/ Dot] da mesma forma e escolha os símbolos na aba Symbol. 7) Sobreponha os dois gráficos com [Graph/ Begin Overlay Mode/ refaça o gráfico Line e o gráfico de pontos/ End Overlay Mode]. Se a variável representada em X for quantitativa, cria-se uma variável com os valores que serão utilizados em X que substituirá a variável LABEL$, e o processo é o mesmo que foi descrito anteriormente. Uma alternativa para este gráfico é um gráfico com símbolos ou números ao invés das linhas ligando os pontos que pode ser feito de uma forma mais simples. Monta-se uma planilha EPR com cada medida como entidade e as variáveis respostas e preditoras (no exemplo Var. Pred.= intensidade do ar condicionado e Var. Resp.= Nota na avaliação) e uma variável para os blocos. O gráfico pode ser montado por Dot density (seção IV) ou Diagrama de dispersão (seção V). O processo de construção do gráfico é bem mais simples e prático para uma avaliação preliminar, mas é menos recomendado para uma versão final por ser considerado menos efetivo para mostrar o efeito do tratamento. Tab3. RUFINO MARC JONAS JENIFER RITA ANA Fraco Médio Forte NOMES 8 10 12 14 16 18 20 22 V al ue RUFINO MARC JONAS JENIFER RITA ANA Fraco Médio Forte NOMES 8 10 12 14 16 18 20 22 V al ue Nível do ar condicionado Bioestatística Aplicada- Thierry R. Gasnier- Universidade Federal do Amazonas 2019 25 Apêndice: Uso do SYSTAT/ MYSTAT Instalação 1) O MYSTAT é a versão gratuita do programa SYSTAT e pode ser baixado em https://systatsoftware.com/downloads/download-mystat/. Entretanto, é necessário se preencher um cadastro, o que não é complicado, mas podemos fornecer uma cópia do programa para a instalação. 2) FALHAS APÓS A INSTALAÇÃO: Se instalar o programa da internet, ACEITE a opção de instalar com os manuais quando for perguntado. Você pode apagar os manuais depois, mas a exclusão da opção dos manuais pode causar problemas. Se o erro persistir, pegue uma cópia do programa conosco. Se aparecer a mensagem “This module is not activated” a qualquer momento durante o uso do programa, reinstale o Mystat (isto costuma resolver). 3) Instalação no Linux e no Mac. O Mystat não roda diretamente no Linux ou no Mac, mas é possível instalar um emulador do Windows no VirtualBox. Procure-nos para instruções. Uso inicial APARÊNCIA DO MYSTAT. No primeiro uso a tela inclui uma parte superior com menus, uma janela principal (onde há abas para dados, gráficos e “Outputs”), uma janela lateral estreita chamada Workspace (com atalhos para retornar a “outputs” da seção em uso e atalhos para exemplos) e uma janela abaixo destas duas chamada Commandspace (dedicada a programação, que não usaremos). A linha inferior do Mystat (onde está escrito “For help press f1”) também tem opções personalizáveis, para ajustá-las clique com o botão direito do mouse sobre ela. Os outpus são os produtos (principalmente testes e gráficos produzidos enquanto você vai trabalhando). No menu View você pode modificar as janelas visíveis. PERSONALIZE. Para maior conforto, é possível personalizar os menus e ícones de atalho com a tecla F4. A pressionar F4, aparecem as funções do Mystat para serem arrastadas para menus e os menus podem ser movidos e alterados até pressionar o botão close. Por exemplo, a disposição original ocupa muito espaço e apresenta opções desnecessárias; também é útil passar “Data...” e “Data” para menu de “File”. Commandspace Bioestatística Aplicada- Thierry R. Gasnier- Universidade Federal do Amazonas 2019 26 Dicas sobre o uso geral 1) COMO ENTRAR DADOS. Para abrir arquivos da base de dados, entre em “File/ Data...” e escolha um arquivo existente da base do Mystat ou em outro diretório. Os arquivos do Mystat ficam em "C:\Program Files (x86)\MYSTAT 12\Data\” ou em "C:\Program Files\MYSTAT12\ Data”. Para criar novos arquivos, selecione “File/ Data” e vá à planilha. Coloque o mouse sobre o nome da variável da primeira coluna e com o botão direito selecione “Variable Properties”. Os nomes das variáveis (“Variable Name”) com valores não numéricos precisam ter $ ao final (por exemplo sexo$) e ser categorizadas como “string”. As variáveis numéricas não podem ter $ ao final e podem ter casas decimais ajustadas. O nome das variáveis NÃO pode conter acentuações, espaços ou caracteres especiais (ç, ã, ó, ê, !, %, &), apenas “underline”(_) é aceito. Em variable properties você pode ajustar o número de casas decimais que você quer que apareçam nas variáveis numéricas (isto não afeta os cálculos, só o arredondamento final apresentado). Quando uma variável numérica for código sem propriedades numéricas (p. ex. Sexo 1=macho e 2=fêmea) marque numérical “Categorical” em Variabel Type. Abaixo do nome de “Variable Name” você pode colocar um nome da variável em “Variable label” da forma como quer que apareça nos gráficos, e ai você pode usar espaços, caracteres especiais, etc. 2) Para abrir um arquivo de dados do Mystat, vá para Fila/ Data... e escolha o arquivo. 3) Na parte inferior esquerda da planilha tem duas abas, Data e Variable. Na aba Data aparece a planilha com os dados, na aba Variable há uma lista das variáveis onde pode ser mais prático fazer ajustes nas propriedades de várias delas. 4) COMO REALIZAR OPERAÇÕES Bioestatística Aplicada- Thierry R. Gasnier- Universidade Federal do Amazonas 2019 27 MATEMÁTICAS. Para realizar operações simples como somar valores de duas colunas ou calcular o logaritmo de uma coluna, use DATA/TRANSFORM/LET. Digite o nome da nova variável que vai receber os valores e arraste as variáveis envolvidas na operação. Para operações com condicionais, use DATA/TRANSFORM/ IF THEN LET. Clique primeiro no espaço abaixo de EXPRESSION e digite a condição (ex. IF YIELD>30) e depois de “THEN LET” o que deve ser mudado nesta condição (ex. PROD$="alta") e dê enter; depois, entre novamente para colocar a segunda condição (e.g. IF YIELD<=30 THEN LET PROD$="baixa". Bioestatística Aplicada- Thierry R. Gasnier- Universidade Federal do Amazonas 2019 28 5) DIREÇÃO DE TESTES UNICAUDAIS. Quando se opta por um teste unicaudal, é necessário se definir a direção com as opções “greater than” ou “less than”,
Compartilhar