AP02_Testes e Graficos_MYSTAT

•

UFAM

Marcos Vinicius

06/04/2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 32 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 32 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 32 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Estatística I

56.931 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Bioestatística Aplicada- Thierry R. Gasnier- Universidade Federal do Amazonas 2020
1
Chave para testes e gráficos básicos
e guia de procedimentos no MYSTAT
Testes e gráficos são ferramentas de análise que se complementam no estabelecimento e descrição de
relações. Uma tendência pode parecer significativa em um gráfico, mas o teste mostra que na realidade
não é evidência suficiente para se afirmar algo. Um teste pode dar um resultado significativo, mas um
gráfico pode mostrar que as premissas não são válidas ou que a forma da relação não é bem o que
esperávamos. Além disto, há uma forte relação entre tipos de testes e tipos de gráficos, tanto que as
chaves para testes servem também como chaves para gráficos. Considerando que cada tipo de gráfico é
utilizado para diversos tipos de testes, separamos a parte dos testes (letras) e dos gráficos (seções) para
evitar a redundância das explicações de gráficos. Pelo mesmo motivo, apresentamos primeiro os testes,
entretanto, geralmente é melhor se fazer primeiro os gráficos, especialmente quando é importante se
escolher entre testes paramétricos e não paramétricos. Abaixo das tabelas há explicações e o caminho
para cada teste no Mystat12. Os gráficos associados aos testes estão ao final de cada comentário, e os
seus caminhos e explicações estão na Chave para Gráficos.
Testes com apenas uma variável (inclui pareamento) ........................................................Tabela 1
Testes com duas variáveis (sem pareamento ou blocos)................................................... Tabela 2
Testes com duas variáveis com pares ou blocos ............................................................ Tabela 3
Testes com duas ou mais variáveis preditoras e uma resposta ...................................... Tabela 4
Dúvidas conceituais recorrentes durante as aulas práticas. 1) O que significa a probabilidade calculada
nos testes? Um resultado favorável à hipótese de trabalho (evidência na direção do esperado) não prova
que ela está certa, pois um resultado favorável pode acontecer por acaso. Para uma análise apropriada,
temos de levar este risco conta. Para isto, assumimos temporariamente que a hipótese de trabalho está
errada, que o seu oposto, a hipótese nula, está certa. Fazemos isto porque a hipótese nula permite
calcularmos a chance de, por mero acaso, um determinado resultado ter se afastado tanto do valor de
referência da hipótese nula. Por exemplo, podemos calcular a chance de uma moeda cair 10 vezes cara
em 10 lances, considerando que o esperado é 50% de caras (valor de referência). O resultado deste
cálculo é P=0,002 (teste exato binomial), isto é, há uma chance de 2 em mil de isto acontecer por acaso.
Uma probabilidade baixa (normalmente abaixo de 0,05, ou de 0,01) indica que temos elementos para
rejeitar a ideia que a hipótese nula está correta e isto corrobora a hipótese de trabalho (e. g. que a moeda
é viciada). A fórmula usada para o cálculo depende de algumas características dos dados, e esta apostila
serve fazer a escolha do procedimento computacional apropriado ao caso. 2) O que são hipóteses
unicaudais? Hipótese unicaudal é a hipótese que leva a previsões unilaterais, por exemplo, na hipótese
que o tamanho de machos de uma população é significativamente superior ao tamanho de fêmeas. Na
hipótese bicaudal, as previsões são bilaterais, por exemplo, que o tamanho de machos é diferente do
número de fêmeas, isto é, significativamente maior OU significativamente menor. 3) O teste estatístico é
a parte mais importante de uma pesquisa? Antes de utilizar os procedimentos apresentados aqui em
problemas de pesquisa, lembre-se que o centro da pesquisa está nas questões biológicas relevantes. A
estatística não é o centro, mas uma ferramenta para ajudar a responder questões. Lembre-se ainda que o
teste é algo mais amplo do que um cálculo de probabilidade. Problemas de inflação de testes e na falta
de representatividade conceitual, universal e paralela podem invalidar um teste (ver cap. 3 e 4 da
apostila)
(Ao final há um Apêndice com dicas sobre a instalação e o uso do SYSTAT/ MYSTAT).
Bioestatística Aplicada- Thierry R. Gasnier- Universidade Federal do Amazonas 2020
2
Tabela 1: Testes com uma variável
Estes testes são chamados de testes de aderência (“goodness of fit”) porque servem para
verificar se os dados obtidos para uma variável se ajustam a um valor de referência da hipótese
nula. Exemplos: a razão sexual 8 em 10 está dentro do esperado de 50% por sexo? Com 4
acertos em 15 tentativas podemos dizer que atingimos o nível de 25% de acertos nos arremessos
ao cesto (ou pode ter sido sorte?). As frequências observadas das combinações de [verde/amarelo]
x [liso/rugoso] (40:10:10:2) estão dentro da razão esperada de alelos pela segunda a lei de
Mendel (9:3:3:1)? Este crânio fóssil único é significativamente maior que as medidas anteriores
de vários crânios de outra localidade? Estas medidas de mercúrio estão significativamente
maiores do que a média recomendada pelo governo? A distribuição de frequências de tamanhos
de peixes machos adultos é compatível com uma distribuição normal? Estes testes normalmente
não “pedem” gráficos, mas, se necessário, algumas destas situações podem ser representadas
conforme as seções I e II dos gráficos. Os testes mais importantes estão destacados com ***.
***Uma amostra com valores Binários tem frequência compatível
com frequência teórica esperada (valor de referência da hipótese
nula)? (Aderência de proporção).
Binomial exato;
Teste z aprox. ou
Intervalo de confiança
(a) Graf: Seção I
Uma amostra com valores Categóricos é compatível com
frequências teóricas categóricas esperadas? (Aderência de
proporções).
Teste ‘Qui2’ ou
teste G (b)
Graf: Seção I
Um valor quantitativo é compatível com uma população de valores
com distribuição normal com média e desvio padrão conhecidos?
(Aderência de valor a uma média de pop. com distribuição normal-
DN) ou: A média de uma amostra com valores quantitativos com
distribuição normal é compatível com uma média esperada
(Aderência a valor quantitativo com DN)
Teste z para um valor;
Teste z para uma
amostra; Teste t para
uma amostra (c)
Graf: Seção II
***Uma amostra com valores quantitativos (contagens ou
medidas) é compatível com um valor de referência da hipótese
nula? (Aderência a valor quantitativo) ou um valor de contagem é
compatível com uma média esperada?
Intervalo de confiança
por “boostrap” ou por
contagem simples (d)
Graf: Seção II
A distribuição observada de uma variável com medidas ordinais
ou quantitativas é compatível com frequências teóricas
esperadas? (Aderência a modelos de distribuição- Inclui teste de
normalidade)
Kolmogorov Smirnov
(KS) Shapiro-Wilk (e)
Graf: Seção II
Há duas formas válidas de se testar hipóteses que são muito semelhantes nos resultados, mas que
diferem na facilidade de compreensão e na flexibilidade conforme a situação (Wood 2014). A primeira
abordagem é a “P<α rejeita” e a segunda é a “IC exclui referência rejeita Ho”. “Rejeita” refere-se à
rejeição da hipótese nula e “IC” é Intervalo de Confiança da estimativa de parâmetro populacional (ver
cap. 3 da apostila conceitual para intervalo de confiança e cap. 4 para “P<α” e hipótese nula).
Usaremos a primeira na maior parte desta apostila, mas nas situações desta tabela marcadas com ***,
que são as mais comuns em testes de aderência, daremos prioridade à segunda. A abordagem com IC é
mais intuitiva e cada vez é mais recomendada para estas situações.
http://arxiv.org/pdf/0912.3878v5
Bioestatística Aplicada- Thierry R. Gasnier- Universidade Federal do Amazonas 2020
3
a) Teste de uma proporção (obtida x esperada- variável binária). Para este tipo de problema
recomendamos a abordagem “IC exclui valor referência rejeita” (ver pag. 2) e o cálculo do Intervalo
de Confiança pelo método Wald modificado*.
No site http://www.graphpad.com/quickcalcs/confInterval1, entre com o número de sucessos
(“numerator”) e o número total de observações (“denominator”) e veja se o valor de referência
(esperadopara Ho verdadeira) está dentro ou fora do intervalo de confiança escolhido (90%, 95% ou
99%). Em testes bicaudais a hipótese nula é rejeitada se o valor de referência estiver fora do intervalo
de confiança. Em testes unicaudais se o intervalo de confiança estiver acima ou abaixo do valor de
referência, conforme a direção prevista pela hipótese em análise.
Outra opção usando o RStudio: Instale o pacote "PropCIs" e rode as duas linha de script abaixo
trocando os valores do exemplo com valores que deseja testar.:
library(PropCIs)
conf.def<-0.95; numerador<-62; denominador<-73; addz2ci(x=numerador, n=denominador, conf.def)
Se preferir a abordagem “P<α rejeita” usando o Mystat: Analyse/ Hypothesis Testing/ Proportion/
Single proportion/ marcar opção aggregate, entre o total em Trials e os sucessos em Successes, e o
valor da proporção de referência da hipótese nula. Nos resultados utilize a primeira opção de
probabilidade apresentada nos resultados para N<1000. (Link para Tab1)
*Agresti, A., and Coull, B. A. (1998), Approximate is better than "exact" for interval estimation of binomial proportions,
The American Statistician, 52: 119-126.
b) Tabela de contingência de uma via (proporções obtidas x esperadas- variável categórica).
O teste de Qui2 de uma via com três
ou mais categorias no Mystat12 pode
ser feito apenas se a hipótese nula
tiver proporções homogêneas (e.g.
25% em cada uma de 4 categorias):
Analyze/ One way freq. tab. Se as
proporções não forem homogêneas
(e.g. a proporção 9:3:3:1 da 2ª lei de
Mendel), o mais prático é se fazer o
teste online disponível em alguns
sites*. Neste site entre proporções
esperadas em Expected proportions
assim: 9/16; 3/16, etc. e as
observadas em “Observed
Frequency” e depois pressione
“calculate”. Se não estiver online,
outra opção é usar a função
Teste.quiqua no Excel. O teste G é
uma alternativa ao Qui2
recomendada em alguns livros, mas
não é muito diferente, de forma que não a abordaremos. Estes testes não admitem hipóteses unicaudais.
(*e.g. http://vassarstats.net/csfit.html - Verificado em 30/08/2020). Tab1.
http://www.graphpad.com/quickcalcs/confInterval1/
http://vassarstats.net/csfit.html
Bioestatística Aplicada- Thierry R. Gasnier- Universidade Federal do Amazonas 2020
4
c) Teste de aderência para variáveis quantitativas com distribuição normal. Se a distribuição não
for normal ou for desconhecida, passe para a seção “d”. Estes testes dividem-se em: a) testes com um
valor comparado a um padrão esperado com média e desvio padrão conhecidos e b) testes com uma
amostra comparada a uma média e um desvio padrão conhecidos e c) testes com uma amostra
comparada com uma média conhecida, mas desvio padrão desconhecido.
Quando estamos querendo verificar se um valor está significativamente diferente do esperado para
uma média e um desvio padrão pré-determinados ou “conhecidos”, então utilizamos o teste Z. No
Mystat12 entre em Utilities/ Probability Calculator/ Continous/ entre a média em “Location or mean”,
o desvio padrão da população em “Scale or SD “e o valor que será testado em “Input Value” Por
exemplo, se a distribuição de número de enfartes por dia no Brasil é bem conhecida (média e desvio
padrão definidos), então você pode saber se o número de enfartes no dia que o Brasil perdeu da
Alemanha por 7 a 1 foi significativamente maior que a média utilizando o teste Z para um valor.
É questionável o que podemos chamar de “média e desvio padrão conhecidos”; quase sempre estes
valores foram determinados a partir de amostras. Alguns autores sugerem que quando o tamanho
amostral para estes valores for superior a 200, pode se usar o teste Z, do contrário é melhor utilizar um
sempre o teste t para comparar amostras com médias.
Quando estamos querendo comparar uma amostra com valores pré-determinados de média e desvio
padrão, utilizamos o teste Z para uma amostra no Mystat12 [Analyse/ Hip. Test./ Mean/ One Sample Z
test./ entrar a variável e os valores de média e desvio padrão pré determinados]. Por exemplo, se você
recebe um lote de ratos e quer saber se eles estão dentro da média e desvio padrão conhecidos para
ratos de laboratório, então você utiliza o teste Z para uma amostra.
Quando estamos querendo verificar se uma amostra está significativamente diferente de uma média
pré-definida, mas não temos um valor pré-definido para o desvio padrão ou quando queremos verificar
se um valor está significativamente diferente dos valores de uma amostra considerada referência
utilizamos o Teste t para uma amostra. Note que nestes dois casos o desvio padrão é estimado pela
amostra. No Mystat: Analyse/ Hip. Test./ Mean/ One Sample t test./ entrar a variável e o valor de
média a ser comparada]. Por exemplo, há padrões de valor máximo de mercúrio, mínimo de Oxigênio
e ideais de pH para lagos em uma legislação estadual. Entretanto, você fez medidas distribuídas em
uma área protegida (30 amostras) e percebeu que o valor das medidas era significativamente maior de
mercúrio, menor de Oxigênio e diferente do ideal de pH. Com base nisto, você contesta a norma para
cada variável, pois os valores de referência deveriam refletir os valores locais em ambientes protegidos.
Note que o teste será unicaudal para mercúrio e oxigênio e será bicaudal para pH. Tab1.
d) Teste de aderência de parâmetro em amostra vs valor de referência. Nesta seção são
apresentadas duas formas de se determinar intervalos de confiança de variáveis quantitativas sem a
premissa de normalidade na distribuição dos dados. A primeira é para amostras e tem uma ampla gama
de aplicações enquanto a segunda é para determinar o IC a partir de um único valor de contagem e tem
aplicação limitada.
Bootstrap. Partindo de uma amostra que represente* razoavelmente uma população, podemos simular
esta população a partir destes dados (por “clonagem de valores”) e obter múltiplas estimativas (e. g.
1000) de precisão similar por reamostragens de tamanho igual. Determinamos intervalos de confiança
da estimativa de parâmetro excluindo extremos, por exemplo, ao excluir 2,5% dos maiores valores e
2,5% dos menores determinamos um intervalo de confiança de 95%. Se a distribuição for
aproximadamente normal, um tamanho amostral de 10 já permite o uso da técnica. Se houver valores
extremos raros, a amostra deve ser maior e incluir alguns destes valores para uma determinação
apropriada do intervalo de confiança. Este método, denominado IC por percentil, foi aperfeiçoado com
Bioestatística Aplicada- Thierry R. Gasnier- Universidade Federal do Amazonas 2020
5
um pequeno ajuste de valores, e a técnica recomendada é o Bootstrap BCA. Inclua os valores
quantitativos em uma coluna do MYSTAT e vá em Analyse/ Basic Statistics, escolha a variável a ser
avaliada; na aba resampling, marque a caixinha “perform resampling”, mantenha a opção “Bootstrap”,
coloque o valor 1000 para “Number of Samples”, o mesmo tamanho amostral dos dados originais em
“Sample Size”, qualquer número em ramdom seed (e. g. 4), escolha a opção 95% ou 99% para a
amplitude do IC, escolha o parâmetro que deseja (Média, mediana, etc) e dê OK. O seu intervalo de
confiança está na tabela “X% Confidence Intervals for Means” abaixo de BCA Method. *ver
representação universal e numérica na apostila.
A segunda técnica é a determinação do intervalo de confiança a partir de uma única contagem de uma
unidade amostral padronizada. Imagine que você recebe uma fotografia de um campo tamanho padrão
de microscópio com uma amostra de sangue e percebe que há 10 células brancas em um campo padrão.
Você lembra que a média de células por campo é 3, mas não encontra informações sobre quanto este
valor costuma variar. Para uma abordagem preliminar, você usa um site para determinar o intervalo de
confiança de contagem (e. g. *1) para o valor 10 e verifica que o IC95% vai de 4,80 a 18,39, o que não
inclui 3, e conclui que precisa tomar providências com este paciente. Esta técnica é pouco utilizada
porque geralmente há formas bem melhores de calcular intervalos de confiança quando conhecemos
bem avariação (ver seção “c”), como ocorre em análises de células sanguíneas. O exemplo do sangue
foi utilizado porque ilustra muito bem uma das premissas para o uso desta técnica: situações de
“homogeneidade” na distribuição dos elementos nas unidades amostrais, como ocorre com células
sanguíneas em uma lâmina. A técnica poderia ser aplicada em outras situações, por exemplo, para
determinar intervalos de confiança de uma densidade populacional de organismos que se distribuem de
forma aproximadamente homogênea na paisagem ou para mostrar que o número de peixes mortos na
beira da lagoa está acima do normal (você sempre vê um ou outro em sua caminhada matinal, mas
hoje viu 10). Se for possível se obter mais leituras, é recomendável utilizar leituras múltiplas e um
método como o bootstrap. Entretanto, não deixa de ser uma técnica útil, pois há efetivamente situações
em que não se pode obter mais dados de contagem e faltam informações sobre a variação esperada, ou
simplesmente como uma primeira estimativa grosseira de intervalo de confiança para avaliações
preliminares. (*1 http://www.graphpad.com/quickcalcs/confInterval1/). Tab1.
e) Teste de Kolmogorov Smirnov (KS). Este teste serve para comparar a distribuição obtida com
uma distribuição teórica esperada. O Mystat12 oferece diversas distribuições teóricas para esta
comparação: Uniforme, Uniforme Discreta, Poison, Lognormal e Normal. Um dos usos mais comuns
do KS é como teste de normalidade [Analyse/ Fitting distributions/Continuous/ Selecione “normal”].
Quando esta opção é utilizada, também é apresentado outro teste de normalidade, o Shapiro-Wilk.
Quando “P<α” os dados são evidência significativa que a distribuição NÃO se ajusta à distribuição
teórica. No caso de um teste de normalidade, isto significa que não deveríamos utilizar um teste
paramétrico. Entretanto, se “P” for maior ou igual a α, isto não garante que existe normalidade. Na
prática, podemos assumir normalidade se o tamanho amostral for maior que 30 e “P>α”. Se o tamanho
amostral for de 10 a 30, uma avaliação gráfica é recomendável e para tamanhos amostrais menores
apenas se houver base teórica firme para assumí-la. Tab1.
http://www.graphpad.com/quickcalcs/confInterval1/
Bioestatística Aplicada- Thierry R. Gasnier- Universidade Federal do Amazonas 2020
6
Tabela 2: Testes com duas variáveis com unidades amostrais simples
São os testes mais utilizados, pois são os mais básicos para avaliar relações entre: a) uma
Variável Preditora (VP) e uma Variável Resposta (VR) ou b) duas dependentes (V1 e V2) de uma
terceira externa (correlação). Daremos ênfase à situação “a”, destacando diferenças de aplicações
entre as duas situações quando necessário. Nos testes desta tabela, em contraste com os testes da
tabela 3, as unidades amostrais são simples (i.e. não são pares ou blocos divididos em
subunidades).
*OBS- Variável resposta quantitativa em condição não paramétrica: a) número de níveis na
variável resposta entre 3 e 7, ou b) forte desvio da normalidade na distribuição da variável resposta
(VR) para algum nível da variável preditora (VP), ou c) forte desvio de homogeneidade de variâncias
de VR em cada nível de VP (exceto Teste T). Considere a possibilidade de transformar dados
quantitativos (seção 3.4) antes de utilizar a estatística não- paramétrica desta coluna. Variável
resposta quantitativa em condição paramétrica: a) número de níveis maior que 10 e b) normalidade
na distribuição da VR em todos os níveis da VP e c) Homogeneidade de Variâncias de VR entre os
níveis da VP (esta opção não é desnecessária em variável preditora binária). Condições
intermediárias: Em situações intermediárias, dependerá do pesquisador assumir uma postura mais
conservadora (escolhendo condição NP) ou ousada (escolhendo condição P).
Variável.
Resposta Binária
(Categ. de 2) Categórica
Ordinal ou
Quantitativa
Condição NP*
Quantitativa
Condição P*Variável
Preditora↓
Binária
(cat. de 2)
Test Exato de
Fisher ou Teste de
2 prop., (g)
Graf: Seção III
Tabela de
Contingência (h)
Graf: Seção III
Mann- Whitney;
Cochran’s LT (i)
Graf: Seção III
(ord) ou IV (qt.)
Teste t (de 2
grupos) (j)
Graf: Seção IV
Categórica
Tabela de
Contingência (h)
Graf: Seção III
Tabela de
Contingência (h)
Graf: Seção III
Kruskal-Wallis;
Tab. Cont. (k)
Graf: Seção III
(ord) ou IV (q.)
Análise de
Variância (l)
Graf: Seção IV
Ordinal
Mann- Whitney;
Cochran’s LT (i)
Graf: Seção VI
Dicotomizar VP ou
VR e usar teste
apropriado (Max.
Balanço) (m)
Correlação de
Postos/ RNL(n)
Graf: Seção V
Correlação de
Postos/ RNL(n)
Graf: Seção V
Quantitativa
Regressão
Logística (p)
Graf: Seção VI
Dicotomizar VP ou
VR (Max. Balanço)
(m)
Correlação de
Postos/ RNL(n)
Graf: Seção V
Pearson/
Regressão
Linear/ RNL (o)
Graf: Seção V
Bioestatística Aplicada- Thierry R. Gasnier- Universidade Federal do Amazonas 2020
7
g) Testes Binário x Binário (Teste de Fisher ou Teste de duas proporções). Obs: Antes de realizar
o teste, veja se seu arquivo tem uma coluna de frequência ou se cada linha é uma unidade amostral. Se
houver uma coluna de frequência, é necessário informar o programa em [Data/ Case Weighting/ By
frequency- informar qual é a coluna de frequência] para podermos realizar os testes.
Inicialmente usaremos o teste de Fisher que se aplica a qualquer situação de relação entre variáveis
binárias, mas leia ainda o próximo parágrafo para uma opção com maior poder. No Mystat12:
[Analyze/ Tables/ Two way/ Entre a variável preditora (se houver) em ”Row” (linha) e a variável
resposta (se houver) em “Column” (coluna)/ na aba measures: marque “Fisher Exact Test” (e
desmarque “Pearson”)]. Repare que foi construída uma tabela de duas vias (com linhas e colunas). O
programa calcula a Probabilidade do Teste Bicaudal (PTB). Opção unicaudal no teste de Fisher.
Para se obter a probabilidade do teste unicaudal (PTU), divide-se a PTB por 2 e: a) se a tendência for
em direção de rejeição de H0, o resultado é o valor da divisão; b) se a tendência for em direção de
rejeição de H0, o resultado é PTU= 1-(PTB/2). Tabelas de Contingência (TC) também poderiam ser
utilizadas para verificar relações entre duas variáveis binárias, mas são menos precisas, especialmente
para tamanhos amostrais pequenos.
Teste de duas proporções. No caso de relações consequentes, isto é, quando há uma variável
preditora e uma variável resposta, havendo dados suficientes, o teste de duas proporções é mais
recomendável, pois tem mais poder (menor chance de Erro Tipo II) que o teste de Fisher. Estamos
usando como critério de segurança para usar o teste de duas proporções que todas as quatro “caixinhas
centrais” (número de entidades para cada combinação de nível das duas variáveis) da tabela do teste de
Fisher tenham mais de 10 entidades (isto previne a ampliação da chance de Erro Tipo I). Neste teste,
cada nível da variável preditora será chamado de grupo (linha1 da tabela de Fisher= grupo 1 e linha2=
grupo 2) e um dos níveis da variável resposta será chamado de sucesso (“Success”- tanto faz qual). No
MYSTAT, [Analyze/ Hypotesis testing/ Proportions/ Equality of two proportions/ marque a opção
aggregate/ Entre os totais de cada grupo em “number of trials” e os números de “Sucessos” em
“number of Successes”, escolha “not equal” para bicaudal e “greater than” (maior que) ou “less than”
(menor que) para unicaudal conforme a hipótese.”]. Geralmente, mais de uma probabilidade é
apresentada, pois o Mystat12 usa abordagens alternativas (testes Binomiais Exatos ou testes de
aproximação normal). Com tamanhos amostrais pequenos (N<25), o Mystat12 fará o teste Binomial
Exato que é o melhor neste caso, e uma ou duas aproximações normais que podem ser desprezadas.
Em tamanhos amostrais maiores (N≥25), o Mystat12 mostra uma ou duas formas de aproximação
normal. Para simplificar, recomendo que você faça o teste conforme indicado acima e simplesmente
escolha o valor de P mais conservador (maior P) que for apresentado. Os gráficos para estes testes
estão representados na seção III da apostila de gráficos. Tab2.h) Tabela de Contingência. Antes de realizar o teste, veja se seu arquivo tem uma coluna de
frequência ou se cada linha é uma unidade amostral. Se houver uma coluna de frequência, é necessário
informar o programa em [Data/ Case Weighting/ By frequency- informar qual é a coluna de frequência]
para os testes. Para os gráficos, costuma se obter resultados melhores desativando a coluna de
frequência e utilizando-a no eixo y.
No Mystat12: [Analyze/ Tables/ Two way/ uma variável vai em “row variable” e a outra em “column
variable”/ Na aba measures marcar Pearson Chi Square]. Este teste também tem algumas limitações: a)
quanto mais células na Tabela de Contingência, mais fraco é o teste. b) Se a freqüência em alguma
célula for inferior a cinco, o teste é considerado suspeito pelo programa MYSTAT. Para obter mais
poder e para evitar freqüências baixas nas células é recomendada a redução no número de níveis ao
mínimo necessário por exclusão ou por fusão de categorias na Variável Preditora e/ou na Variável
Resposta (se chegar a 2x2 mudar para opção de testes “a” descritos acima). Os gráficos para esta
situação estão representados na seção III da apostila de gráficos.
Bioestatística Aplicada- Thierry R. Gasnier- Universidade Federal do Amazonas 2020
8
Caso esteja analisando uma relação consequente, ao preparar a tabela, escolha uma apresentação dos
dados em porcentagem de linha se a variável preditora estiver em linha ou em porcentagem de coluna
se a variável preditora estiver em coluna. [Analyze/ Tables/ Two way/ uma variável vai em “row
variable” e a outra em “column variable”- Marcar % de linha ou de coluna]. Caso tenha interesse de
realizar contraste entre níveis da variável preditora, compare cada combinação de par de nível. Por
exemplo, se os níveis forem A, B e C, compare AxB, AxC e BxC. Use “Select Case” para selecionar
os valores dos níveis a cada comparação. Tab2.
i) Teste não paramétrico com variável preditora binária e resposta ordinal ou quantitativa (ou vice
versa): Mann-Whitney (MW) ou Cochrans Test for Linear Trend (CLT). Considerações
preliminares: i1) antes de realizar o teste, veja se seu arquivo tem uma coluna de frequência ou se cada
linha é uma unidade amostral. Se houver uma coluna de frequência, é necessário informar o programa
em [Data/ Case Weighting/ By frequency- informar qual é a coluna de frequência] para os testes. Para
os gráficos, costuma se obter resultados melhores desativando a coluna de frequência e utilizando-a no
eixo y. i2) Se houver na análise uma variável ordinal não numérica, transforme-a para numérica (e. g.
qualidade$= ruim, regular, boa ou muito boa -> qualidade= 0, 1, 2, 3). Isto pode ser feito manualmente
ou pela função DATA/ Transform/ Recode. Nas propriedades desta variável é conveniente marcar
“Category” na entrada de dados ou depois em “Edit/ Category”, pois os gráficos costumam ficar
melhores. i3) Se a variável resposta for quantitativa, é melhor começar pela seção “j” (teste t), pois, ao
realizar o teste, o Mystat mostra um gráfico que ajuda a avaliar se há normalidade na distribuição da
variável resposta nos dois níveis da preditora. i4) Mann-Whitney (MW) e Cochrans Test for Linear
Trend (CLT) geralmente são utilizados quando temos uma variável preditora binária e a variável
resposta ordinal ou quantitativa, mas também podem ser utilizados quando a variável preditora é
ordinal e a resposta é binária. O teste Mann-Whitney é mais recomendado quando a variável ordinal
ou quantitativa tiver mais de 6 níveis e o Cochrans Test for Linear Trend se tiver entre 3 e 6 níveis.
Para mais de 6 níveis ordinais/ quantitativos use Mann-Whitney (MW) no MYSTAT12: [Analyse/
Non Parametric tests/ Kruskal/ entre a variável binária em “grouping variable” e a ordinal ou
quantitativa em “selected variable” ], (a opção é realmente chamada “Kruskal”, mas o programa
detectará automaticamente que a “grouping variable” é binária e realizará o teste MW). Embora o MW
seja mais robusto que um teste paramétrico, ele não é totalmente “distribution free”. A opção não
paramétrica mais poderosa é o teste de permuta que não estamos tratando aqui. Se você tiver um teste
importante nestas condições com poucos dados, é recomendável buscar a assistência de um estatístico.
Em especial, é necessário cuidado com comparações com excesso de valores zero. Se o número de
zeros for superior a 25% dos dados é melhor evitar o MW. A alternativa mais simples é transformar os
dados da variável resposta em binários (0/1; presença/ausência) e utilizar um teste de duas proporções
ou teste exato de Fisher (ver seção a).
Para 3 a 6 níveis ordinais/ quantitativos use o Cochrans Test for Linear Trend que no MYSTAT está
em Analyze/ Tables/ Two-Way/ entrar a variável preditora em linha e a variável resposta em coluna/
Marca aba Measures/ marca Cochrans Test for Linear Trend. Para variáveis ordinais, costuma ser
melhor se utilizar os gráficos da seção III e para variáveis quantitativas costuma ser melhor se utilizar
os gráficos da seção IV. Tab2.
Bioestatística Aplicada- Thierry R. Gasnier- Universidade Federal do Amazonas 2020
9
j) O Teste t no Mystat12 está em [Analyze, Hypothesis testing, mean, two sample t test, a variavel
Preditora vai em “grouping variable e a resposta vai em “Selected Variable”. Utilize sempre a
probabilidade da opção variâncias separadas]. Ao realizar o teste, um gráfico é mostrado, verifique se
o número de níveis e a normalidade são apropriados para um teste paramétrico. Se não houver
normalidade, considere a possibilidade de transformar os dados (seção 3.4) e repita o teste com a nova
variável antes de passar para um teste não paramétrico. O Teste t admite hipóteses unicaudais (opção
“alternative types”) No caso de hipóteses unicaudais, para escolher a cauda “greater than” ou “less
than” . Os gráficos para esta situação estão representados na seção IV da apostila de gráficos. Tab2.
k) Teste não paramétrico com variável preditora categórica e resposta ordinal ou quantitativa.
Considerações preliminares: k1) antes de realizar o teste, veja se seu arquivo tem uma coluna de
frequência ou se cada linha é uma unidade amostral. Se houver uma coluna de frequência, é necessário
informar o programa em [Data/ Case Weighting/ By frequency- informar qual é a coluna de frequência]
para os testes. Para os gráficos, costuma se obter resultados melhores desativando a coluna de
frequência e utilizando-a no eixo y. k2) Se houver na análise uma variável ordinal não numérica,
transforme-a para numérica (e. g. qualidade$= ruim, regular, boa ou muito boa -> qualidade= 0, 1, 2,
3). Isto pode ser feito manualmente ou pela função DATA/ Transform/ Recode. Nas propriedades
desta variável é conveniente marcar “Category” na entrada de dados ou depois em “Edit/ Category”,
pois os gráficos costumam ficar melhores. k3) O teste Kruskal Wallis é utilizado quando temos uma
variável preditora categórica e variável resposta ordinal com mais de 6 níveis. O teste também pode
ser utilizado com variável preditora categórica e variável resposta quantitativa como alternativa não
paramétrica à ANOVA, quando não foi possível se obter normalidade e homocedasticidade nem com
transformação dos dados da variável resposta e caso haja no mínimo 6 níveis na variável resposta
(neste caso ver alternativas ao final do próximo parágrafo).
Para o teste Kruskal Wallis (KW) no Mystat12: [Analyze/ Non Parametric tests/ Kruskal] informe a
variável resposta em “Selected variable”, a variável preditora em “grouping variable”.] Contraste em
Kruskal Wallis. Detectada uma diferença estatisticamente significativa, pode se utilizar múltiplos
testes Mann Whitney para o contraste (teste das diferenças entre níveis) de forma semelhante ao que se
faz com o Teste Tukey em ANOVA. Para isto, primeiro ordene as categorias da variável preditora
pelos valores da mediana. Se não souber ainda estes valores, use DATA/By Groups/ selecione a
variável resposta, depois em Analyse/ Basic Statistics/ selecione a variável resposta e desmarque todas
as opções menosa Median. Anote a sequência ordenada de níveis com base nos valores de mediana,
por exemplo C, D, A, B. Desmaque os grupo em DATA/By Groups/ e agora compare os níveis C x D;
D x A e A x B em pares. Use Data/ Select cases para cada par de níveis e Analyze/ Non Parametric
tests/ Kruskal e informe a variável resposta em “Selected variable”, a variável preditora em “grouping
variable” para o teste entre cada par de nível com Mann Whitney. Excesso de “Ties” (empates).
Embora o KW seja mais robusto que a ANOVA, ele não é totalmente “distribution free”. Em especial,
é necessário cuidado com comparações com excesso de valores zero, 1 ou 100% (comuns por exemplo
em variáveis de percentagens ou proporções). Se o número de empates for superior a 25% dos dados é
melhor evitar o KW. A alternativa mais simples é transformar os dados da variável resposta em
binários (0/1; presença/ausência) e utilizar uma tabela de contingência. Poucos níveis na variável
resposta. Também é necessária cautela quando o número de níveis na variável resposta for igual ou
inferior a 6. Neste caso, há diferentes alternativas em função do que você considerar mais apropriado.
A opção não paramétrica mais poderosa é o teste de permuta que não estamos tratando aqui. Vale a
pena procurar um estatístico para te ajudar neste tipo de teste se você tiver um problema importante
nestas condições. Outra opção é você eliminar ou fundir níveis da variável preditora, transformando-a
em binária e utilizar o Cochrans Test for Linear Trend (ver seção c). Caso não queira eliminar ou
fundir níveis das variáveis preditoras nem utilizar testes de permuta, uma alternativa pouco poderosa,
mas válida, é tratar os dados ordinais como categóricos e utilizar uma Tabela de Contingência (ver
seção h). Outra alternativa seria realizar múltiplos CLT e corrigir o α pelo número de testes. Tab2.
Bioestatística Aplicada- Thierry R. Gasnier- Universidade Federal do Amazonas 2020
10
Para interpretar os resultados, especialmente se a variável resposta for ordinal, costuma ser importante
se montar uma tabela com valores em porcentagens por total dentro de cada nível da variável preditora.
Ao preparar a tabela escolha uma apresentação dos dados em porcentagem de linha se a variável
preditora estiver em linha ou em porcentagem de coluna se a variável preditora estiver em coluna.
[Analyze/ Tables/ Two way/ uma variável vai em “row variable” e a outra em “column variable”-
Marcar % de linha ou de coluna]. Para variáveis respostas ordinais de 2 a 4 níveis, costuma ser melhor
se utilizar os gráficos da seção III e para variáveis respostas ordinais com mais que 4 níveis ou para
variáveis respostas quantitativas, costuma ser melhor se utilizar os gráficos da seção IV. Tab 2.
l) No Mystat12, a ANOVA está em: [Analyze, Analisys of Variance, Estimate Model]. A variável
preditora vai em “Factor” e a variável resposta vai em “Dependent” e na aba Options marque o teste os
testes de normalidade e o teste de homogeneidade de variância. Se o resultado da ANOVA for
significativo, verifique o contraste das média. O contraste indica quais níveis da variável preditora
diferem significativamente nos valores da variável resposta. Por ser uma versão gratuita do SYSTAT,
o MYSTAT não inclui contrastes.
Neste link http://priede.bf.lu.lv/ftp/pub/TIS/datu_analiize/PAST/2.17c/pastprogram.zip você pode
baixar o programa estatístico “Past*” para fazer o contraste pelo teste de Tukey. Depois de instalado,
copie os dados do Mystat (simplesmente blocando os dados do Mystat e colando na planilha do Past).
Clique na coluna da variável preditora, segure a tecla Shift e clique na coluna da variável resposta e
depois vá ao menu Statistics/ One Way Anova, confira o resultado com o obtido no Mystat (para ver
se não houve algum erro e veja em destaque (cor de rosa) as diferenças entre médias que foram
estatisticamente significativas pelo teste de Tukey. * O programa Past, apesar de ser mais simples,
contém várias aplicações úteis ao biólogo que o Mystat não tem. Outra opção é usar o RStudio: Salve
o arquivo do Mystat em txt com um nome como “nome.txt” usando “save as” na forma tipo ASCII text
na área de trabalho. Abra o RStudio e importe o arquivo nome.txt. Faça um [attach(nome)];
[names(nome)]; [model=aov(variavel resposta~ as.factor (variável.preditora))]; [summary.lm(model)];
[TukeyHSD(model)] (em itálico nomes de arquivos e variáveis do exemplo e entre colchetes os
comandos em R). Confira o resultado da ANOVA do Mystat e do R para certificar-se que não houve
algum erro no procedimento.
Os gráficos para esta situação estão representados na seção IV da apostila de gráficos. Tab2.
m) Existem técnicas avançadas que permitem realizar testes nestas condições, mas como estamos
nos restringindo às técnicas básicas, nossa opção é dicotomizar uma ou ambas variáveis e usar um
teste apropriado considerado as escalas das novas variáveis. A escolha depende do caso. Se a variável
resposta categórica puder ser reduzida a duas categorias, teríamos Mann Whitney para variável
preditora ordinal e Regressão Logística para variável preditora quantitativa. Se não puder, então a
variável preditora poderia ser dicotomizada, o que resultaria em Tabela de contingência. Dar
preferência à fusão que leve à menor diferença de número de casos entre os níveis da variável
preditora (melhor balanço). Tab2.
n) Se o objetivo for apenas testar a relação, pode se utilizar dois testes de Correlação de Postos:
Spearman ou Kendall, no Mystat12: Analyze/ Tables/ Two Way entre uma variável em Row Variable
a e outra em Colum variable. Caso haja uma variável preditora, marque a opção Row Percents se VP
estiver em “Row” e Colum percents de VP estiver em “Colum”. Na aba “measures” marque
Spearman e Kendall. São testes muito semelhantes, e recomendo que ambos sejam realizados e a
escolha do resultado seja pelo mais conservador dos dois (maior valor de P).
http://priede.bf.lu.lv/ftp/pub/TIS/datu_analiize/PAST/2.17c/pastprogram.zip
Bioestatística Aplicada- Thierry R. Gasnier- Universidade Federal do Amazonas 2020
11
Se for importante descrever a relação, então temos duas opções, um modelo a priori caso haja uma
expectativa sobre o formato da relação (e.g. um modelo logístico), ou a partir de um modelo a
posteriori, que pode se basear na forma dos dados com uma curva com “Smooth=LOWESS” no
gráfico Scatterplot. A partir de um modelo matemático (e.g. Y= a+b*X+c*X^2), pode se determinar
os coeficientes pela função NONLIN do Mystat12: Analyze/ Regression/ Nonlinear/ Loss e entra o
modelo trocando variável resposta e variável preditora pelos nomes das variáveis (a menos que tenha
muita segurança, é bom fazer isto junto a um estatístico nas primeiras vezes). Os gráficos para esta
situação estão representados na seção VI da apostila de gráficos. Tab2.
o) Regressões e “correlações” retilineares*. A regressão retilinear [Analyze, Regression, Least
Squares] e a correlação de Pearson [Analyze, Correlation, Simple, Pearson, Option Probabilities]
apresentam o mesmo resultado (P calculado), então por que dois nomes? O nome do teste para
verificar uma relação retilinear entre duas variáveis contínuas é uma questão que gera confusão.
Muitos livros dividem Correlação e Regressão em dois capítulos e os autores dizem que a primeira
refere-se a um estudo de associação e a segunda ao estudo de causalidade. Entretanto, a questão da
causalidade está na “jurisdição” do desenho amostral (validação interna), não da análise numérica de
dados (validação dados-> conclusão). Sokal & Rohlf (1988: pag. 564) explicam a questão mais
profundamente. A medida de Correlação de Pearson descreve o quanto é forte a associação entre duas
variáveis (seja devido a uma relação causal entre as duas ou devido a uma terceira). A regressão
retilinear é um calculo de coeficientes para passar uma reta. Este cálculo da reta pode ser de dois tipos:
1) se tivermos uma variável preditora com valores fixos e exatos, como normalmente ocorre em um
experimento, então verificamos se a Regressão Retilinear(reta) simples ou Modelo I calculada pelo
método dos mínimos quadrados é significativa e se os resíduos estão distribuídos de forma apropriada.
Se estiver, verificamos P e acabou (não represente uma reta em um gráfico se P>α). Se os resíduos não
estiverem apropriados (seção 3.3), conforme a situação, transformamos os dados (para obter
normalidade e homocedasticidade) ou utilizamos uma regressão não retilinear (curva). Uma regressão
curvilinear pode ser obtida da forma descrita no item g. Podemos comparar estatisticamente se a
relação curvilinear é significativa melhora significativamente o modelo em relação a uma regressão
retilinear simples. Para isto, crie a variável XQuad (XQuad=X^2) e entre ela em regressão retilinear de
mínimos quadrados com a fórmula do item g. 2). Se tivermos uma variável preditora com valores
aleatórios e/ou inexatos, então precisamos de uma Regressão Modelo II para determinar coeficientes
mais apropriados de uma relação retilinear (reta). Há diferentes modelos, conforme o caso (o assunto é
complexo e polêmico). Um modelo flexível é o “Reduced Major Axis Regression” que dá os
coeficientes em Loss com a fórmula (Y-(a+b*X))^2/ABS(b). Os gráficos para esta situação estão
representados na seção V da apostila de gráficos. *Considerando que uma curva é uma linha, seria
mais apropriado utilizar o termo “curvilinear” para as regressões chamadas “não lineares” e o termo
retilinear para as regressões chamadas de “lineares”. Tab2.
p) A regressão logística é um teste simples para quem usa um programa de estatístico. No Mystat:
[Analyze, Regression, Logit Regression, Estimate Model Variável preditora em Independent e variável
resposta em Dependent]. A probabilidade a ser comparada com alfa é o último valor “p-value”
apresentado. A variável binária pode ser numérica (0 ou 1) ou categórica, como “m” ou “f” para
macho e fêmea. Neste caso, tanto faz. Em alguns casos é melhor usar números para evitar confusão na
interpretação do modelo. Por exemplo, se você estiver estudando a probabilidade de morte de plantas
submetidas a diferentes concentrações de herbicida, então é melhor modelar com uma variável
numérica (0= sobreviveu e 1= morreu). A regressão logística raramente é ensinada em cursos básicos
de estatística com ênfase matemática porque a matemática do cálculo é muito complexa. Em função
disto, o gráfico da regressão logística é relativamente pouco conhecido (ver Seção VI). O gráfico
incluindo dados e modelo é um pouco mais complexo de ser feito. Tab2.
Bioestatística Aplicada- Thierry R. Gasnier- Universidade Federal do Amazonas 2020
12
Tabela 3: Testes pareados ou com blocos
Estes testes são utilizados para verificar indiretamente a relação entre duas variáveis. As
vantagens desta abordagem são discutidas no capítulo 7 da apostila. As variáveis preditoras (VP) e
as variáveis respostas (VR) da relação em estudo não são colunas na planilha EPR e por isto são
denominadas “implícitas”. Ao invés delas, utilizamos variáveis “medidas repetidas” (VMR) para
“fatores intra-objeto” na analise da relação implícita. Este formato é denominado estrutura EPR
longitudinal. Por exemplo, para analisar se há uma relação entre o número de baratas silvestres
de serapilheira por m2 (VR) e o período (Dia X Noite- VP), foram feitas medidas em 10 locais
diferentes uma vez de dia e uma vez à noite. A Entidade (ou “Unidade Amostral” ou “Objeto”) é o
local, o fator intra-objeto é período, a VMR1 é número de baratas de dia e a VMR2 é número de
baratas à noite. Cada m2 é uma subunidade amostral. Para explicação da terminologia, lógica e
aplicações ver seção 7.2 da apostila.
Diferença entre valores quantitativos pareados com distribuição que
pode ser considerada normal.
teste t pareado (q)
Graf: Seção VII
Diferença entre dados ordinais pareados ou entre dados quantitativos
pareados com distribuição das diferenças sem normalidade. Número de
empates (“ties”) inferior a 25% do N.
teste Wilkoxon
Pareado (r)
Graf: Seção VII
Diferença entre dados binários (+, -) pareados ou diferença entre
dados ordinais ou quantitativos pareados com número de empates
superior a 25% do N.
“Sign test” (s)
Graf: Seção VII
Unidades amostrais com mais que duas medidas repetidas
(paramétrico).
Anova de Medidas
Repetidas(t)
Graf: Seção VII
Unidades amostrais com mais que duas medidas repetidas
(não paramétrico).
Friedman (u)
Graf: Seção VII
q) Lembre que os dados precisam entrar em uma planilha em que a entidade é o par e cada variável
de medida repetida é um nível do fator intra-objeto (no exemplo acima VMR1 é o número de baratas
de noite e VMR2 é o número de baratas de dia). Para saber se há normalidade na diferença entre estes
dois valores é necessário se calcular esta diferença da seguinte forma: DATA/ Transform/ Let/
Dif=VMR1-VMR2. Este procedimento cria a coluna das diferenças. A análise da normalidade pode
ser por premissa, qualitativa ou quantitativa. Não assuma a normalidade por premissa se não tiver
certeza que as diferenças são normais em situações semelhantes. A qualitativa precisa de um número
de pares (N) >10 e é por um histograma: Graph/ Histogram/ entra Dif em “X-variable”, que deve ter
um padrão pelo menos grosseiramente normal. A quantitativa é feita com um teste, mas este tipo de
teste só é confiável se N>30. Para verificar quantitativamente a normalidade da diferença use:
Analyse/ Fitting distribution/ “Selected distribution”= Normal/ Entra variável Dif em “X-variable”. Se
o teste de normalidade apresentar P<0,05, então não há normalidade, utilize o teste Wilkoxon.
Finalmente, se aceitar a normalidade, o teste pareado é feito no Mystat12: Analyze/ Hip Test/ Mean/
Paired T test/escolher opção de uma ou duas caudas (se utilizar os dados das duas variáveis) ou em
Analyze/ Hip test./ mean/ One sample T test/escolher opção de uma ou duas caudas (se utilizar as
diferenças). O teste para duas caudas (opção “not equal”) verifica se as diferenças são
significativamente diferentes de zero. O teste para uma cauda verifica se as diferenças são maiores que
zero (opção “greater than”) ou se são menores que zero (opção “less than”). Os gráficos para esta
situação estão representados na seção VII da apostila de gráficos. Tab3.
Bioestatística Aplicada- Thierry R. Gasnier- Universidade Federal do Amazonas 2020
13
r) Se a análise de normalidade das diferenças (ver parágrafo anterior) levar à conclusão que elas não
podem ser consideradas normais, utilizamos o teste não paramétrico Wilkoxon (desde que não haja
excesso de empates- ver abaixo). O Wilcoxon no Mystat12 está em: Analyze/ Non Parametric tests/
Wilkoxon/escolha a opção de caudas. O teste ranqueia os valores preditoramente das colunas e verifica
para duas caudas (opção “not equal”) se as diferenças das posições são significativamente diferentes
de zero ou para uma cauda se são maiores que zero (opção “greater than”) ou se são menores que zero
(opção “less than”). Este teste não é apropriado caso haja uma grande proporção de empates (>25%)
entre os valores de cada entidade (unidade amostral, objeto), normalmente por excesso de valores
nulos ou por número de níveis muito baixo na variável resposta implícita. Neste caso é melhor se
utilizar o “sign test” (próximo teste). Os gráficos para esta situação estão representados na seção VII
da apostila de gráficos. Tab3.
s) Este teste é aplicável para desenhos pareados com variáveis binárias (presença/ausência;
menor/maior) ou quando há excesso de empates entre os valores (ver parágrafo anterior). Lembre-se
que a unidade é o par. Os valores das variáveis binárias devem ser 0 ou 1 que significam presença/
ausência ou maior/menor dentro de cada par. No caso de empate, coloque 0 e 0 para as duas variáveis
da entidade. No caso de variáveis quantitativas, o próprio programa transformará os valores em 0 ou 1
para menor/maior. No Mystat: Analyze/ Non Param Test/ Sign. Se você ainda não tiver os dados
entrados na planilha, o mais fácil é contar os sinais + e – das diferenças e ir para o teste Binomial (=
teste de 1 proporção) Mystat12:Analyze/ Hyp Test./ Propor/ Simple Prop. e entrar opção “aggregate”;
N em “number of trials”; o número de positivos em successes; Proportion=0.5; e a alternativa se será
unicaudal ou bicaudal. Os gráficos para esta situação estão representados na seção III da apostila de
gráficos, mas sem representação da relação pareada.). Tab3.
t) A Análise de Variância de Medidas Repetidas (RM Anova) é semelhante ao teste t pareado, mas ao
invés de duas medidas por entidade temos três ou mais. Por ser mais complexo, é importante uma
consulta à seção 4.2 para entender bem a terminologia, lógica, premissas e aplicações. Lembre que os
dados devem estar na forma “longitudinal”, isto é, cada entidade medida é uma linha e as diferentes
medidas dela estão em colunas. No MYSTAT12 Analyse/ Analysis of Variance/ entrar todas as
variáveis de medidas repetidas na variável resposta/ Na aba Repeated Measures marcar “Perform
Repeated Measures analysis” e o número de níveis em Level. Os gráficos para esta situação estão
representados na seção VII da apostila de gráficos. Tab3.
u) Quando as premissas de testes paramétricos não permitem uma RM Anova (Anova de medidas
repetidas), a opção não paramétrica é o teste Friedman. Há duas estruturas EPR que permitem o teste
Friedman, na forma longitudinal (como para RM Anova) e em um formato com variáveis preditoras e
respostas explícitas. No formato longitudinal, o caminho no MYSTAT12 é Analyse/ Non Parametric
tests/ Friedman / entrar todas as variáveis de medidas repetidas em “Selected Variables”. Outra forma
é utilizando-se colunas com a Variável Preditora, a Variável Resposta e uma variável identificando os
blocos. No exemplo na legenda da tabela acima seriam Período, Número de Baratas e Local. Neste
formato, entre em Analyse/ Non Parametric tests/ Friedman / variável resposta em “Selected
variables”, variável preditora Grouping Variable e a variável dos blocos em Blocking Variable”). Uma
alternativa ao Friedman é o teste “Quade” [Analyze, Non Parametric tests, Quade] veja o “Help” do
Mystat12 para mais informações. Os gráficos para esta situação estão representados na seção VII da
apostila de gráficos. Tab3.
Bioestatística Aplicada- Thierry R. Gasnier- Universidade Federal do Amazonas 2020
14
Tabela 4: Testes com 1 Variável resposta e 2 variáveis preditoras
Tabela 4. A inclusão de duas variáveis em um estudo experimental possibilita a avaliação de
interações entre variáveis preditoras. Se o estudo não for experimental, então a inclusão de uma
variável pode servir principalmente para um controle. Como vimos acima, a análise de uma
única variável preditora já envolve diversas premissas. A situação se complica com a segunda
variável resposta. Continua valendo a normalidade e a homogeneidade de variâncias.
Adicionalmente, é necessário que haja independência entre as variáveis preditoras. É fácil
realizar estes testes, e ai mora o perigo. Um treino nestas técnicas está além do escopo deste
curso, por isto não discutiremos estes testes, apenas passamos as os caminhos no MYSTAT para
quem quiser começar a aprender a usá-las.
V) A tabela de contingência de três vias no Mystat12 está em “Analyze/ Tables/ Multiway”
W) A regressão múltipla está em “Analyze/ Regression/ Logit/ Model”
X) A ANOVA de duas vias está em “Analyze/ ANOVA/ com X1 e X2 em factor
Y) A ANCOVA de duas vias está em “Analyze/ ANOVA/”com a X1 quantitativo em covariate e X2
categórico em factor.
Z) A Regressão múltipla de duas vias está em “Analyze/ ANOVA/ com X1 e X2 em covariate.
Var. Resposta V. pred. 1 V. Pred. 2 Teste
Categórico Categórico Categórico Tabela de Contingência de 3 vias (v)
Binário Quantitativo Quantitativo Regressão logística múltipla (w)
Quantitativo Categórico Categórico Análise de Variância de 2+ Vias (x)
Quantitativo Quantitativo Binário ANCOVA (y)
Quantitativo Quantitativo Quantitativo Regressão Múltipla (z)
Bioestatística Aplicada- Thierry R. Gasnier- Universidade Federal do Amazonas 2019
15
Gráficos
Os gráficos prendem a atenção dos leitores e podem transmitir eficientemente ideias complexas.
Entretanto, um número elevado de gráficos pode dispersar a atenção do leitor e o número permitido
normalmente é limitado na hora de publicar, de forma que devem ser escolhidos só os mais
relevantes e devem ser preparados com um cuidado especial. Gráficos mal feitos ou desnecessários
desvalorizam muito uma publicação. Portanto, o domínio dos gráficos básicos é pré requisito para a
autonomia na pesquisa e divulgação de suas descobertas.
Seção I- Gráficos com uma variável única categórica
Antes de fazer o gráfico, veja se seu arquivo tem uma
coluna de frequência ou se cada linha é uma unidade
amostral. Esta opção deve ser desmarcada para os
gráficos [Data/ Case weighting/ by frequency/ marque
turn off], pois a informação de frequência será
colocada como variável Y. É possível se fazer os
gráficos com a coluna de frequência ativada, mas o
MYSTAT pode travar em gráficos se a frequência total
for alta, o que não acontece se informarmos a
frequência como uma variável Y.
OBS: Quando se trabalha com frequências, deve-se
apresentar o valor 0 (zero) no eixo Y do gráfico de
barras. Estes dados também podem ser apresentados
no formato de setores (“pizza”), mas este formato é
considerado menos efetivo em geral. Tab1
Itacoatiara
Manacapurú
Manaus
Parintins
MYSTAT: opção 1- Se houver uma coluna de frequência. Primeiro
desligue a atribuição de frequência (Data/ Case weighting/ by
frequency/ marque turn off) a) Barras simples: Graph/ Bar Chart/
Variável→ Xvariable;/ Freqüência em Yvariable/ colocar 0 (zero) no
Ymin na aba Yaxis. b) Setores (pizza): Graph/ Pie Chart /Variável →
Xvariable;/ Freqüência em Yvariable/ colocar 0 (zero) no Ymin na aba
Opção 2- Se não houver uma coluna de frequência (cada linha é uma
unidade amostral) a) Barras simples Graph/ Bar Chart/ Variável→
Xvariable;/ colocar 0 (zero) no Ymin na aba Yaxis. b) Setores (pizza)
Graph/ Pie Chart/ Variável→ Xvariable;/ colocar 0 (zero) no Ymin na
aba Yaxis.
Figura 2. Mesmos dados em
em um Gráfico de Setores
Itacoatiara Manacapurú Manaus Parintins
Origem
0
10
20
30
40
50
60
70
Fr
eq
üê
nc
ia
Figura 1- Gráfico de Barras Simples.
Construído a partir de um arquivo com
entidade= pessoa e propriedade= cidade, ou
a partir de um arquivo Síntese de EPR com
uma coluna com os nomes das cidades e
outra coluna com os valores de freqüência.
Bioestatística Aplicada- Thierry R. Gasnier- Universidade Federal do Amazonas 2019
16
Seção II- Gráficos com uma variável única quantitativa
Quando a variável é quantitativa, os dados são
divididos em intervalos iguais e a freqüência é
calculada para cada intervalo. O número de
intervalos é definido pelo usuário em função do
total de casos, normalmente entre 12 e 20, evitando
muitos intervalos com freqüência de 1 (um) caso e
evitando intervalos com valores “quebrados” (e. g.
4,256). Se o tamanho amostral não for muito
pequeno, geralmente o número de intervalos está
entre 7 e 15. Tab1
Seção III- Gráficos com variáveis preditora nominais ou ordinais
e respostas nominais ou ordinais
Nas seções anteriores, havia uma única variável em análise. A
partir desta seção estamos lidando com análises de relações
entre uma variável preditora e uma resposta (ou duas
dependentes de uma terceira). Esta é a única seção que lida com
relações em que não utilizamos gráficos EPR, e vamos começar
explicando o porquê. Os gráficos mais ricos em informação são
os gráficos EPR nos quais os eixos X e Y são variáveis (colunas
da planilha EPR) e cada ponto é uma entidade. Quando as
“variáveis respostas” e “preditoras” são nominais (binárias,
categóricas) ou ordinais (ou quantitativas tratadas como
ordinais), o gráfico EPR seria na forma da figura 4. Tab2.
Obviamente é uma representação ruim devido à sobreposição dos
pontos. Ao invés das nuvens de pontos poderíamos ter o número
de dados, e então o gráfico se transforma em uma tabela (figura
5a). Esta tabela pode ser interpretada mais facilmente se forem
utilizados os valoresporcentuais por linha (se a “variável
preditora” tiver os níveis em linhas) ou por coluna (se a “variável
MYSTAT: Graph/ Histogram/
Variável→ Xvariable/ Options,
Number of bars=7 (ou outro
valor considerado apropriado.)
Figura 4- O que seria um
gráfico EPR para variáveis
nominais. Ao invés deste
gráfico, utilizamos tabelas ou
outro tipo de gráfico.
Figura 3- Histograma mostrando a
quantidade de pessoas por intervalo de
idade. O intervalo utilizado foi 2 anos, mas
poderia ter sido outro.

8 10 12 14 16 18 20 22
Idade
0
50
100
150
C
on
ta
ge
m

0.0
0.02
0.04
0.06
0.08
0.10
0.12
0.14
0.16
0.18
Propor玢
o por barra
Bioestatística Aplicada- Thierry R. Gasnier- Universidade Federal do Amazonas 2019
17
preditora” tiver os níveis como colunas) como na figura 5b. Estas tabelas podem ser construídas com
a ferramenta tabela dinâmica do Excel ou com tabelas de contingência de 2 vias no MYSTAT. Se
estiver com uma tabela síntese de EPR no MYSTAT, deve-se marcar a freqüência como frequency
em [Data/ Case Weighting/ by frequency].
A principal alternativa gráfica para esta situação é o
gráfico de Barras Composto (fig. 6). A variável
resposta entra como “Grouping Variable” na forma
das cores ou padrões diferentes das barras e não como
eixo Y que é uma frequência. Nesta situação, este
gráfico preserva toda a informação (permite a
reconstrução da planilha) e permite a apreciação da
relação pelo contraste das proporções de tamanhos de
colunas. Em arquivos que possuem uma coluna de
frequência (tabela síntese de EPR), esta coluna pode
ser colocada como “Y-variable” na confecção do
gráfico. Neste caso, cada linha é uma combinação
diferente dos níveis das “Variáveis Respostas” e
“Preditoras” e há uma freqüência para cada combinação
(e.g. L1- homem, fuma, 30, L2 homem, não fuma, 20,
L3- mulher, fuma, 12, L4- mulher, não fuma, 50).
Este tipo de gráfico pode ficar confuso quando há mais que quatro níveis na variável resposta. Se
esta variável for categórica, é recomendado fundir categorias, se for possível, para facilitar a
interpretação. Quando a variável resposta for ordinal com mais que quatro níveis, é preferível
apresenta-la como eixo y (ver seção IV). Tab2.
Sexo\ Fuma? Não Sim
Feminino 50 12
Masculino 20 30
Sexo\ Fuma? Não Sim
Feminino 78% 22%
Masculino 43% 57%
Figura 5- Tabelas que apresentam os dados da figura 4. Na primeira
são apresentados os valores absolutos das contagens e na segunda a
porcentagem dos valores por linha, pois a variável sexo é preditora e
está com seus níveis em linha
Figura 6- Gráfico de Barras
Composto Horizontalmente.
a) b)
Bioestatística Aplicada- Thierry R. Gasnier- Universidade Federal do Amazonas 2019
18
Outra opção é o gráfico de Barras Composto
Vertical (BCV) no qual as barras em cada
nível de X são sobrepostas. Para apresentar
barras sobrepostas, é necessária a construção
de uma planilha Síntese de EPR de outra
forma. A primeira coluna tem em cada linha
um nível da “variável preditora” e as outras
colunas são os níveis da “variável resposta”.
(e.g. Colunas= sexo/ fumam/ não fumam;
L1- homem, mulher/ L2 30, 12/ L3 20, 50).
O gráfico de Barras Composto Vertical é
menos efetivo que o BCH quando as
proporções de cada grupo totalizam 100%,
mas pode ser superior quando os totais de
cada grupo são diferentes, como na figura 7.
OBS- É importante considerar se a
apresentação de um gráfico ou uma tabela
se justifica nesta situação. No exemplo do
estudo sobre o fumo, bastaria se informar
que “57% dos homens e 22% das
mulheres eram fumantes (n=50 e 62
respectivamente)”. Normalmente não se
justifica um gráfico ou uma tabela para
uma informação que poderia ser
apresentada em uma ou duas linhas, a
menos que seja um dos resultados mais
importantes de todo o estudo, para
destacá-lo.
Tab2.
Cuidado com gráficos quando há uma coluna de frequência na base de dados e mais de duas
variáveis. Por exemplo, se as variáveis forem apenas VP=sexo; VR= Fuma? com uma coluna de
frequência, não há problema, pois haverá apenas uma frequência para cada combinação possível
(homens que fumam, homens que não fumam, mulheres que fumam e mulheres que não fumam).
Mas se houver variáveis adicionais, por exemplo, origem= urbana ou rural, a situação complica
para os gráficos. Neste caso haverá uma frequência para homens que fumam na cidade e outra no
campo, etc. O Mystat fará a média dos dois valores nos gráficos, que não necessariamente é o que
você quer. Além disto, o gráfico pode sair defeituoso se usar a opção “Select cases”.
Recomendamos que neste caso você monte um outro arquivo com os dados que irão no gráfico
apenas com a variável preditora, a variável resposta e a frequência.
MYSTAT: Gráfico de Barras Composto Horizontal
(BCH): a) Quando cada linha é uma entidade: Graph/
Bar Chart / V.Preditora→ Xvariable/ V. Resposta
Grouping Variable/ option Overlay Multiple Graphs;
b) Quando há uma coluna de frequência, 1) leia a
caixa de texto abaixo; 2) verifique que a opção
frequência está desativada- (Data/ Case weighting/ By
frequency), se estiver ativada, clique em “turn off”;
3) Faça o gráfico assim: Graph/ Bar Chart/
V.Preditora→ Xvariable/ V. Resposta→ Grouping
Variable/ Coluna de frequência→ Y variable/ option:
Overlay Multiple Graphs. Para Barras sobrepostas
(BCV), ver como construir síntese de EPR no texto.
Graph/ Bar Chart/ VP→ X variable/ Variáveis de cada
nível 1 da VR → Y Variable/ Opção Stackbars.
verifique que a opção frequência está desativada
Figura 7- Gráfico de Barras Composto Verticalmente.
Bioestatística Aplicada- Thierry R. Gasnier- Universidade Federal do Amazonas 2019
19
Seção IV- Gráficos com variável resposta quantitativa e preditora nominal
O melhor gráfico nesta situação
normalmente é o Gráfico de
Dispersão Categórico Normal
ou “Dot Density” normal, pois,
como vemos na figura abaixo, é
o único que mostra toda a
informação. Com base neste
gráfico podemos ver o número
de entidades em cada nível da
“Variável Preditora” (VP) (e se
há ou não balanço), a média, a
amplitude, a normalidade e se
há homogeneidade de variâncias
entre os níveis da VP, que são
informações essenciais para
uma avaliação estatística de
dados. O gráfico de barras é
mais comum em publicações
talvez por desconhecimento,
pois o “Dot density” está
disponível em poucos
programas aplicativos de
estatística. Outra justificativa
para os outros gráficos poderia
ser “para se apresentar gráficos
mais limpos”. Entretanto, esta “limpeza” nos impede de distinguir entre situações ideais e situações
problemáticas, pois podem estar escondidos “outliers”, desbalanço, falta de normalidade, etc. Não se
pode menosprezar a importância desta informação antes de optar por uma outra alternativa, e a
justificativa deve ser pela qualidade da comunicação e não pela conveniência de se esconder uma
situação fora do ideal.
O gráfico de Barras Simples é preferível ao Dot Density se houver apenas um dado para cada nível
de X, por exemplo, em um gráfico de precipitação mensal ao longo dos meses durante um ano, pois
as barras são mais visíveis do que um ponto. Note que, diferente do que foi apresentado na seção I, o
eixo Y representa uma “variável resposta”. Nos casos em que há mais de um valor por nível da
“variável preditora”, é apresentado um valor médio e podemos utilizar uma barra de erro padrão ou
de desvio padrão. O desvio padrão é uma medida de variação importante para caracterizar uma
população com distribuição normal, mas não ajuda a ajuda a sabermos se a média da amostra está
próxima da média real sem o dado do tamanho da amostra. A barra de erro padrão deve ser preferida
de forma geral, pois é um índice do intervalo de confiança da média, o que é útil para termos uma
idéia se há diferença estatística entre os níveis de X, mesmo para populações que não tem
distribuição normal.

1 2 3
Distância do Igarapé (m)

0
1
2
3
4
5
6
7
8
9
10
Vo
lu
m
e
(l)

1 2 3 0
1
2
3
4
5
6
7
8
9
10
Vo
lu
m
e
(l)

1 2 3
Distância do Igarapé (m)

0
1 2
34
5 6
7
8 9
10
Vo
lu
m
e
da
p
oç
a
(l)

0.5 1.0 2.0 3.0 Dist ância do Igarapé (m)
0
1
2
3
4
5
6
7
8
9
10
Vo
lu
m
e
(l
) a) b)
d)
Distância do Igarapé (m)
Figura 8- Quatro formas de se apresentar dados nominais (neste
caso quantitativos tratados como categóricos): a) “Dot Density”;
b) Barra simples; c) Dot; d) Line. As barras de erro representam
o erro padrão. Tab2.
Bioestatística Aplicada- Thierry R. Gasnier- Universidade Federal do Amazonas 2019
20
O gráfico de “pontos médios” (ou “Dot”) é semelhante ao gráfico de barra, mas ao invés da barra usa
um ponto apenas e pode ter barras de erro. Em situações com muitos níveis da “variável preditora”
e/ou subgrupos em cada nível que tornariam o gráfico muito complexo para um gráfico de barras ou
um “Dot Density”, o gráfico “Dot” se justifica por reduzir a complexidade do conjunto para dar
ênfase às diferenças entre determinados grupos. Tab2.
O Gráfico de Linha tem uma linha que liga valores únicos ou médios de cada nível de X e é útil para
destacar mudanças espaciais ou temporais. Deve-se evitar sua
utilização para variáveis nominais em geral (binários,
categóricos ou ordinais), pois não há continuidade entre
categorias, mas em alguns casos isto se justifica (e.g. Seção
VII). A princípio, é necessário que haja unidades equivalentes
entre níveis de um X contínuo para usá-lo. Pode se ligar
valores com de uma “variável preditora” como mês, entretanto,
os níveis de mês devem estar distanciados de forma apropriada,
não se pode colocar os meses de janeiro, fevereiro e outubro
eqüidistantes e ligá-los com uma linha porque fevereiro está
próximo de janeiro e distante de outubro. Em um caso destes,
podemos usar valores de dias para a posição do mês
(janeiro=15, fevereiro=45...) e em [Data/Value labels] informar
que 15= Janeiro, etc. de forma que cada mês fique em sua
posição correta. Esta regra não se aplica obrigatoriamente
quando se usa os outros gráficos nesta situação, mas a mesma
diretriz pode ser seguida para transmitir uma informação de
forma mais clara (fig. 10). Tab2.
MYSTAT: Dot Density: Graph/ Dot Density / V. Preditora→ X variable; V. Resposta→ Y
variable/ em Type of Display costuma ficar melhor o “Symmetrical Dot Density”; No Barra
Simples: Graph/ Bar Chart / V. Preditora→ Xvariable; V. Resposta → Y variable; No gráfico
de Pontos Médios ou “DOT”: Graph/ Summary Charts/ Dot / V. Preditora→ X variable; V.
Resposta→ Y variable; No gráfico de linha Graph/ Line Chart / V. Preditora→ X variable; V.
Resposta→ Y variable. Nos três ultimos tipos de gráfico, pode-se incluir barras de erro padrão
ou desvio padrão na aba “error bar”. A sobreposição dos gráficos de “Dot density” e de linha
pode dar bons resultados. Para isto, faça um Box Plot (Graph/ Box Plot) com V. Preditora→ X
variable; V. Resposta→ Y variable e com e marque na aba opção a caixinha “Combine with
symmetrical dot density”.

0 5 10 15 20 25
MESES
0
10
20
30
C
on
ta
ge
m

Figura 9- O gráfico de linha é uma
boa opção para mostrar variações
no tempo e no espaço, mas possui
regras mais estritas que os
anteriores.
Bioestatística Aplicada- Thierry R. Gasnier- Universidade Federal do Amazonas 2019
21
Outra alternativa para esta situação é o Box Plot (fig. 11). Este
gráfico é recomendado para situações em que as distribuições
dentro de cada nível da “variável preditora” não seguem uma
distribuição normal (em forma de sino). Neste gráfico a linha
central em cada nível de X é a mediana e as outras linhas
marcam os limites dos “quartis” (cada grupo de 25% dos dados
mais próximos e mais distantes da mediana). É superior ao
gráfico de Barras nesta situação, mas é inferior ao “Dot
Density”, pois não mostra qual a distribuição dos dados.
Portanto, não é um gráfico recomendável. Tab2.

Phoneutria reidyi
Jun
u
Ago Out Jan Abr Ago
0
5
10
15
20
25
Ta
m
an
ho
d
a
ar
an
ha
(m
m
)
Figura 10. Variação nos tamanhos de aranhas ao
longo de 14 meses. A inclusão de distâncias
informativas entre níveis categóricos da variável
Preditora (e.g. meses com distâncias proporcionais a
diferenças de dias) é uma regra do gráfico de Linha
(“Line”) que pode ser aplicada ao “Dot Density”,
como neste exemplo, e aos outros gráficos desta
seção. Para isto, os gráficos devem ser construídos
com os valores em dias e depois os nomes dos meses
podem ser ajustados em um processador de textos
como o Word.
Figura 11- Box Plot para os
mesmos dados da figura 8.
Bioestatística Aplicada- Thierry R. Gasnier- Universidade Federal do Amazonas 2019
22
Seção V- Gráficos com variáveis respostas e preditoras quantitativas
O melhor gráfico nesta situação normalmente é o
Gráfico de Dispersão Quantitativo ou “Scatterplot”
(Fig. 10) que é um gráfico EPR. Apenas quando a
sobreposição de pontos compromete a percepção da
relação, o que normalmente ocorre quando o número
de níveis da “variável preditora” e/ou da “variável
resposta” são muito pequenos que é recomendável a
utilização do “Dot Density” com as variáveis
numéricas tratadas como categóricas (fig 11). Tab2.
a)
9 10 11 12 13 14 15
AGE
0
1
2
3
4
5
6
7
N
um
be
r o
f B
oo
ks
9 10 11 12 13 14 15
AGE
0
1
2
3
4
5
6
7
N
um
be
r o
f B
oo
ks
Figura 13- O “dot density” é melhor que o “scatterplot” se o número de níveis é baixo
e a sobreposição de pontos comprometer a percepção da relação.
b)
MYSTAT: Diagrama de dispersão quantitativo: Graph/ Scatterplot/ V. Pred→ X variable/ V.
Resp.→Y Variable. Linhas de regressão linear e outros tipos de linhas de tendências podem ser
escolhidas na aba Smooth. Uma linha de regressão apenas pode ser representada se a relação tiver
sido comprovada estatisticamente.. Diagrama de dispersão nominal Graph/ Dot Density/ V. Pred→
X variable/ V. Resp.→Y Variable; Type of display= symmetrical. Se houver necessidade de se
representar uma linha, isto pode ser feito com sobreposição de gráficos.
Figura 12- Diagrama de dispersão ou “Scatterplot”
Bioestatística Aplicada- Thierry R. Gasnier- Universidade Federal do Amazonas 2019
23
Seção VI- Gráficos com Variável Preditora Quantitativa e Variável Resposta Nominal
O gráfico EPR mais simples que representa esta situação é o Diagrama de Dispersão Nominal
Transposto (DDNT ou “Dot density” transposto- Fig 14a). A apresentação de uma variável preditora
quantitativa no eixo X e de uma variável resposta nominal no eixo Y é pouco incomum, mas esta é
uma forma correta de se apresentar estes dados. Algumas pessoas sentem-se incomodadas e invertem
os eixos para deixar a variável nominal em X, mas isto está errado, a variável preditora deve sempre
ficar no eixo X.
Uma alternativa para esta situação é se utilizar um gráfico de barras composto. Para isto, os dados da
variável preditora precisam estar em intervalos (como nos histogramas) e os níveis do eixo Y são
apresentados como cores ou tons de barras (figura 14b). Há alguma perda de informação quando
agrupamos dados em intervalos, mas costuma ser uma alternativa razoável de apresentar relações.
Entretanto, este gráfico pode ser difícil de se interpretar quando o número de dados por nível da
variável preditora varia muito. Neste caso, pode ser melhor a apresentação da frequência como
proporção do total por nível ou a utilização de uma sequência de barras compostas verticalmente
(ver seção III). Tab2.
0 10 20 30 40 50 60 70
DISTANCIA
N
S
V
O
LT
O
U
$
a)
S
N
VOLTOU$
0 10 20 30 40 50 60 70
DISTANCIA
0
2
4
6
C
ou
nt
b)
MYSTAT: DDNT (“dot density transposto”) Graph/ Dot density/ V. Preditora → Y-Variable e
V. Resposta → X variable (é invertido mesmo!)/ Display: Symmetrical/ Aba all axes: marcar
transpose. (Ver alternativa mais complexa em “dicas avançadas” no final da apostila). Gráfico
de barras a) Variável preditora fixa: Graph/ Bar Char/ VI→X variable/ Variável resposta →
“grouping variable/ Overlay multiple graphs; b) Variável preditora “não fixa”: Primeiro deve-se
dividir os dados da Var. Pred. em intervalosiguais em uma nova variável preditora (VPb) e
depois: Graph/ Bar Char/ VPb→X variable/ Var. Resp. → “grouping variable/ Overlay multiple
graphs.
Figura 14- A distância a que formigas foram levadas de seu formigueiro e o sucesso de
retorno. Duas formas de se apresentar dados com uma “variável preditora” quantitativa
e uma “variável resposta binária para os mesmos dados.
Bioestatística Aplicada- Thierry R. Gasnier- Universidade Federal do Amazonas 2019
24
Seção VII- Gráficos para representar resultados com desenhos em pares ou blocos para
“variável resposta” quantitativa e “preditora” nominal ou quantitativa
A apresentação gráficos de desenhos em pares ou blocos é um pouco complicada pois exige uma
transposição da planilha original, ajustes antes da transposição e sobreposição de gráficos. Os passos
são os seguintes: 1) Inicialmente temos uma planilha com entidades que são os blocos (ou pares),
que é a planilha usadas na avaliação estatística destes dados. Esta planilha deve ser salva (e.g.
Base_Original). 2) A variável que nomeia os blocos deve ser renomeada para LABEL$. 3) em
seguida a planilha deve ser transposta [Data/ Reshape/
Transpose], selecionar as colunas que serão transpostas e
marcar para salvar com outro nome (e.g. Base transposta). 4) Na
planilha transposta a variável LABEL$ agora tem os nomes das
antigas colunas. Estes nomes devem ser transformados para
números na ordem que serão apresentados no eixo x, e em
[View/ Variable/ Editor/ Value Labels] coloque a
correspondência destes números para o
que aparecerá no gráfico (e. g. 1=fraco;
2= médio e 3= forte). O resultado da
planilha original para a transpota com a
modificação está representado ao lado.
5) faça o gráfico de linha [Graph/ Line Chart] entre Label$ em X variable e as variáveis que
nomeiam os blocos em Y-variable. 6) faça o gráfico de pontos em [Graph/ Summary Charts/ Dot] da
mesma forma e escolha os símbolos na aba Symbol. 7) Sobreponha os dois gráficos com [Graph/
Begin Overlay Mode/ refaça o gráfico Line e o gráfico de pontos/ End Overlay Mode].
Se a variável representada em X for quantitativa, cria-se uma variável com os valores que serão
utilizados em X que substituirá a variável LABEL$, e o processo é o mesmo que foi descrito
anteriormente.
Uma alternativa para este gráfico é um gráfico
com símbolos ou números ao invés das linhas
ligando os pontos que pode ser feito de uma
forma mais simples. Monta-se uma planilha
EPR com cada medida como entidade e as
variáveis respostas e preditoras (no exemplo
Var. Pred.= intensidade do ar condicionado e
Var. Resp.= Nota na avaliação) e uma variável
para os blocos. O gráfico pode ser montado por
Dot density (seção IV) ou Diagrama de
dispersão (seção V). O processo de construção
do gráfico é bem mais simples e prático para
uma avaliação preliminar, mas é menos
recomendado para uma versão final por ser
considerado menos efetivo para mostrar o efeito
do tratamento. Tab3.
RUFINO
MARC
JONAS
JENIFER
RITA
ANA
Fraco Médio Forte
NOMES
8
10
12
14
16
18
20
22
V
al
ue
RUFINO
MARC
JONAS
JENIFER
RITA
ANA
Fraco Médio Forte
NOMES
8
10
12
14
16
18
20
22
V
al
ue
Nível do ar condicionado
Bioestatística Aplicada- Thierry R. Gasnier- Universidade Federal do Amazonas 2019
25
Apêndice: Uso do SYSTAT/ MYSTAT
Instalação
1) O MYSTAT é a versão gratuita do programa SYSTAT e pode ser baixado em
https://systatsoftware.com/downloads/download-mystat/. Entretanto, é necessário se preencher um
cadastro, o que não é complicado, mas podemos fornecer uma cópia do programa para a instalação.
2) FALHAS APÓS A INSTALAÇÃO: Se instalar o programa da internet, ACEITE a opção de
instalar com os manuais quando for perguntado. Você pode apagar os manuais depois, mas a
exclusão da opção dos manuais pode causar problemas. Se o erro persistir, pegue uma cópia do
programa conosco. Se aparecer a mensagem “This module is not activated” a qualquer momento
durante o uso do programa, reinstale o Mystat (isto costuma resolver).
3) Instalação no Linux e no Mac. O Mystat não roda diretamente no Linux ou no Mac, mas é
possível instalar um emulador do Windows no VirtualBox. Procure-nos para instruções.
Uso inicial
APARÊNCIA DO MYSTAT. No primeiro uso a
tela inclui uma parte superior com menus, uma
janela principal (onde há abas para dados, gráficos
e “Outputs”), uma janela lateral estreita chamada
Workspace (com atalhos para retornar a “outputs”
da seção em uso e atalhos para exemplos) e uma
janela abaixo destas duas chamada Commandspace
(dedicada a programação, que não usaremos). A
linha inferior do Mystat (onde está escrito “For help
press f1”) também tem opções personalizáveis, para
ajustá-las clique com o botão direito do mouse
sobre ela. Os outpus são os produtos (principalmente testes e gráficos produzidos enquanto você vai
trabalhando). No menu View você pode modificar as janelas visíveis.
PERSONALIZE. Para maior conforto, é possível personalizar os
menus e ícones de atalho com a tecla F4. A pressionar F4, aparecem as
funções do Mystat para serem arrastadas para menus e os menus
podem ser movidos e alterados até pressionar o botão close. Por
exemplo, a disposição original ocupa muito espaço e apresenta opções
desnecessárias; também é útil passar “Data...” e “Data” para menu de
“File”.
Commandspace
Bioestatística Aplicada- Thierry R. Gasnier- Universidade Federal do Amazonas 2019
26
Dicas sobre o uso geral
1) COMO ENTRAR DADOS. Para
abrir arquivos da base de dados, entre
em “File/ Data...” e escolha um
arquivo existente da base do Mystat
ou em outro diretório. Os arquivos do
Mystat ficam em "C:\Program Files
(x86)\MYSTAT 12\Data\” ou em
"C:\Program Files\MYSTAT12\
Data”. Para criar novos arquivos,
selecione “File/ Data” e vá à
planilha. Coloque o mouse sobre o
nome da variável da primeira coluna
e com o botão direito selecione
“Variable Properties”. Os nomes das
variáveis (“Variable Name”) com
valores não numéricos precisam ter $
ao final (por exemplo sexo$) e ser
categorizadas como “string”. As
variáveis numéricas não podem ter $
ao final e podem ter casas decimais
ajustadas. O nome das variáveis
NÃO pode conter acentuações,
espaços ou caracteres especiais (ç, ã,
ó, ê, !, %, &), apenas “underline”(_)
é aceito. Em variable properties você
pode ajustar o número de casas
decimais que você quer que
apareçam nas variáveis numéricas (isto não afeta os cálculos, só o arredondamento final
apresentado). Quando uma variável numérica for código sem propriedades numéricas (p. ex. Sexo
1=macho e 2=fêmea) marque numérical “Categorical” em Variabel Type. Abaixo do nome de
“Variable Name” você pode colocar um nome da variável em “Variable label” da forma como quer
que apareça nos gráficos, e ai você pode usar espaços, caracteres especiais, etc.
2) Para abrir um arquivo de dados do Mystat, vá para
Fila/ Data... e escolha o arquivo.
3) Na parte inferior esquerda da planilha tem duas
abas, Data e Variable. Na aba Data aparece a planilha
com os dados, na aba Variable há uma lista das
variáveis onde pode ser mais prático fazer ajustes nas
propriedades de várias delas.
4) COMO REALIZAR OPERAÇÕES
Bioestatística Aplicada- Thierry R. Gasnier- Universidade Federal do Amazonas 2019
27
MATEMÁTICAS. Para realizar operações simples como somar valores de duas colunas ou calcular
o logaritmo de uma coluna, use DATA/TRANSFORM/LET. Digite o nome da nova variável que vai
receber os valores e arraste as variáveis envolvidas na operação. Para operações com condicionais,
use DATA/TRANSFORM/ IF THEN LET. Clique primeiro no espaço abaixo de EXPRESSION e
digite a condição (ex. IF YIELD>30) e depois de “THEN LET” o que deve ser mudado nesta
condição (ex. PROD$="alta") e dê enter; depois, entre novamente para colocar a segunda condição
(e.g. IF YIELD<=30 THEN LET PROD$="baixa".
Bioestatística Aplicada- Thierry R. Gasnier- Universidade Federal do Amazonas 2019
28
5) DIREÇÃO DE TESTES UNICAUDAIS. Quando se opta por um teste unicaudal, é necessário se
definir a direção com as opções “greater than” ou “less than”,