Buscar

E book Bocaina Estatítica

Prévia do material em texto

Introdução 
à Interpretação de 
Gráficos e Análises
 Estatísticas
Arleu Barbosa 
Viana Junior 
0%
50%
100%
01 02 03 04 05 06
100%
0%
100%
0%
100%
0%
100%
0%
100%
0%
www.biologiadaconservacao.com.br
PREFÁCIO
Os gráficos estão presentes na vida de todos, principal-
mente no cotidiano de estudantes de diversas áreas do conheci-
mento. É extremamente comum ver esses alunos de diversos 
níveis acadêmicos se deparando com gráficos - seja em sala de 
aula, artigos, apresentações de trabalhos em congressos, livros, ou 
até em meios cientificamente não convencionais como programas 
de televisão, embalagens de alimentos, revistas, entre outros – e 
tendo dificuldade na sua interpretação. Isso ocorre especialmente 
quando nos deparamos com os meios de comunicação acadêmica, 
onde a leitura dos gráficos pode se tornar uma tarefa conflituosa!
Nas ciências biológicas, em especial na ecologia, contamos 
diariamente com o avanço tecnológico da computação e as melho-
rias de modelos matemáticos. Aliado a isso, devemos ter a capaci-
dade de analisar grandes conjuntos de dados, como por exemplo, 
as diversas variáveis necessárias para tentar compreender as mu-
danças climáticas e suas consequências na biodiversidade. 
Temos que ter o cuidado de passar as informações da 
maneira mais clara e objetiva nos nossos trabalhos — 
Os gráficos são uma ótima ferramenta para isso! 
Página 2
Gráficos são representações visuais que contem infor-
mação numérica ou espacial. Um gráfico tem a função de facilitar 
a interpretação de resultados de testes estatísticos mais compli-
cados, ou sumarizar as informações gigantescas que uma tabela 
pode ter. Porém, a depender da informação que está sendo colo-
cada ali, ler e interpretar um gráfico pode ser uma frustração 
para o biólogo. 
Fazendo uma rápida pesquisa com alguns amigos de 
diversos lugares do Brasil – pessoas com distintas formações 
acadêmicas — sobre quais são seus maiores medos em relação 
ao domínio em estatística, alguns me responderam com a seguin-
te frase: “Uai, meu medo em não saber estatística é não saber 
interpretar meus próprios dados”... [dá pra perceber pelo pala-
vreado que foi um mineiro(a) que respondeu a essa pergunta ]. 
Outros disseram “Então, acho que as atribuições das variáveis. 
Receio de escolher elas de forma errada e, na maiorias das vezes, 
errar a interpretação dos gráficos”. E mais um chegou a dizer que 
“O meu maior medo é fazer uma interpretação incorreta dos 
dados”.
Você percebe que o verbo INTERPRETAR apa-
receu em todas as respostas? Parece que não só a 
forma de interpretar os resultados analíticos é um 
medo para os estudantes de biologia e de áreas afins de 
diversos graus acadêmicos. Interpretar os gráficos é também 
um fator limitante. Página 3
E tanto interpretar resultados analíticos quanto interpre-
tar gráficos são dois atributos bastante interligados em análises 
de dados biológicos. Realmente, se essas duas coisas não estiver-
em bem conectadas, sua capacidade em compreender uma 
informação estará prejudicada. 
Vamos pensar em um exemplo bem rápido! 
É muito comum você encontrar em um artigo científico 
essa sintaxe de linguagem estatística:
O que cada letra e número querem dizer? Quais infor-
mações podemos tirar disso? Podemos ter a capacidade de imagi-
nar quantas unidades amostrais independentes foram obtidas 
nesse trabalho? Será que podemos saber qual o possível tipo de 
gráfico que um resultado como esse pode gerar? 
Bem, a resposta da última pergunta é SIM! 
Novamente, se a sintaxe agora for essa 
será que podemos ter uma ideia de que gráfico pode sair? A res-
posta também é SIM! 
Agora vamos tentar fazer o inverso. Observando os gráfi-
cos abaixo, podemos ter uma ideia de que análise foi 
feita?
 (F3, 36 = 4.56; p < 0.05)
(F1, 58 = 5.1; p < 0.05),
Página 4
A B C D
85
90
95
100
105
110
115
Áreas de Coleta
A
bu
nd
ân
ci
a
20 30 40 50
2
4
6
8
10
12
14
Umidade (%)
Ri
qu
ez
a
●
●●
●●●●
●●●●●●●●
●●●●● ●
●●●●● ●●●●●●●
●●●●●●●●● ●●●●
●●●●●●●●
●
●
●●
●●
Você consegue saber quais possíveis análises foram 
feitas para gerar esses gráficos? Novamente a resposta é: SIM! 
Eu tenho certeza que olhando esses gráficos, com um 
pouco de prática em análise de dados e conhecimento biológico, 
você saberá facilmente interpretar esses gráficos e até dar 
um palpite certeiro de quais análises foram utilizadas para 
gerar esses gráficos. 
Respondendo...
Quem chutou uma ANOVA ou GLM para o gráfico da 
esquerda, acertou. 
Quem falou em REGRESSÃO e CORRELAÇÃO para o gráfi-
co da direita, acertou. Porém nem todo artigo tem gráficos tão 
intuitivos e simplificados como os desses exemplos. Veja as seguir 
gráficos que mostram várias informações:
Página 5
0.3
0.6
0.9
1.2
1.5
−1.0 −0.5 0.0 0.5
M
ea
nr
an
ge
 s
iz
e 
of
 b
ird
s 
HighLow
An
t 
sp
ec
ie
s 
ri
ch
ne
ss
 p
er
 t
an
se
ct
a
b
c
Land-use class
PFU PFL PFLB SEF REF PAS AGR
Solar et al. 2016
Barlow et al. 2016Petsch et al. 2015
Você saberia acertar que análise estatística foi feita para um 
gráfico como esses abaixo? OBS.: Esses gráficos foram tirados de 
artigos científicos, dos quais estão referenciados.
Acho que agora deve ter ficado um pouco mais complicado!
Sendo assim, criamos esse e-book com o objetivo de compi-
lar várias imagens gráficas, de diversos tipos e formas, para que 
você tenha o mínimo de condição de compreender algumas 
formas de representação gráfica e tenha capacidade e confiança 
na interpretação de análises estatísticas.
ENTÃO VAMOS LÁ!!!
NMDS
N
M
D
S
-1.0 -0.5 0.0 0.5
-0.5
0.0
0.5
1.0
1.0 1.5
RD
A2
RDA1
14
12
10
8
6
4
2
0
-2
-4
-6
-8
14121086420-2-4-6
Lentics
Lotics
O.M.
Mud
Depth
M.S.
pH
Gra.
Temp.
Cond.
P. americana C.S.
V.C.S.
N. bonettoi
A. pigweti
Página 6
introdução
Antes de olhar para um gráfico e compreender a infor-
mação que ele quer transmitir, é muito importante que você 
tenha a noção dos tipos de variáveis utilizadas a priori. A ideia 
do gráfico é perceber relações - ou a falta delas - ou ilustrar 
o tamanho do efeito de uma predição biológica. 
Em geral, em um gráfico sempre são plotadas infor-
mações de dados em dois eixos cartesianos: vertical/horizontal, 
ordenadas/abcissas, y/x, dependente/independente, resposta/-
explicativa. Então, para entender a forma do gráfico é preciso ter 
a capacidade de identificar qual tipo de variável está associada 
ao eixo Y (conhecido como eixo da variável resposta ou de-
pendente) e ao eixo X (conhecida como eixo da variável ex-
plicativa ou independente).
 
A
bc
is
sa
s
H
or
iz
on
ta
l
Ordenadas
Vertical
X
Independente
Explicativa
Y
Dependente
Resposta
Página 7
Existem dois tipos de variáveis: categórica/qualitativa e 
numérica/quantitativa. A natureza quanto ao tipo de dado não só 
influenciará na forma gráfica, como também na análise estatísti-
ca. Variáveis categóricas são aquelas que possuem qualidade, 
ou como o próprio nome já diz, categorias: macho/fêmea; juve-
nil/jovem/adulto; dia/noite; seco/chuvoso; inicial/intermediário/-
tardio. Essas categorias inclusive podem ser variadas, como cores 
por exemplo: vermelho, laranja, amarelo, verde, azul, anil, e viole-
ta. As cores do arco-íris podem ser consideradas classes de uma 
categoria.
As variáveis numéricas podem ser divididas em dois 
tipos: i) variável onde os números são contínuos (representado 
por casas decimais). Ex: peso, altura, volume, distância; ou ii) 
variável onde os números são discretos (representados por 
números naturais). Ex. número de indivíduos de uma população(não existe 1 indivíduo e meio: ou é 1 ou são 2).
Página 8
BOX PLOT
É um dos gráficos mais clássicos, porém não tão utilizado 
em artigos científicos. No entanto , nos dias de hoje, no meio 
acadêmico se sugere usar com mais frequência esse tipo de gráfi-
co, pois ele demonstra com maior fidelidade a dispersão das 
observações (Krzywinski and Altman, 2014). 
 
A B
0
10
20
30
{1
2
3
Tipo de Variável
Y – numérica
X - categórica
Tipo de Análises
Teste-t
Teste U de Mann-Whitney
Anova one-way
GLM
1 – O quadrado central representa 50% da cobertura central dos dados, também conhecida 
como IQR (InterQuartile Range). Seus limites inferiores e superiores representam 25º e 75º 
percentil, também podendo ser o 1º quartil e o 3º quartil. A faixa escura do meio é o 2º quartil 
ou a mediana. A mediana é o valor do meio, dentro de um conjunto de dados. Ex.: Se temos 
o conjunto de dados 1, 2, 3, 4, e 5, o valor 3 é a mediana. O 1º e 3º quartis, que nesse nosso 
exemplo são representados pelos valores 2 e 4 respectivamente, representam a mediana 
entre o valor mínimo e máximo e o 2º quartil. 
Página 9
1
2
3
4
5
3º quartil
2º quartil
ou mediana
1º quartil
}IQR
2 – As extremidades são conhecidas como bigodes (tradução literal do inglês Whiskers). Elas 
representam a extensão máxima de 1.5 x IQR além da caixa.
3 – Os pontos são representados pelos outliers, que são pontos mais isolados da maior con-
centração dos dados. 
Para se ter uma melhor ideia das distribuições dos 
pontos pelo gráfico de caixa, abaixo vai uma comparação de dois 
boxplots.
A B
0
10
20
30
●●
●
●
●
●
●
●
A B
0
10
20
30
●●●
●●● ●●●●
● ● ●●●●●
●●
●●
●●●
●● ●
● ●●●● ●
● ●
● ●
●●
●●
●
●●
●
●
●
●
●
●
Página 10
Perceba que na caixa que representa o lado B há uma 
maior concentração dos pontos próximo em zero, e essa frequên-
cia vai diminuindo com o aumento do eixo Y. Abaixo mais um 
exemplo de como os boxplots representam melhor a dispersão 
em relação a um outro gráfico que iremos falar na próxima 
sessão.
Página 11
Você saberia acertar que análise estatística foi feita para um 
gráfico como esses abaixo? OBS.: Esses gráficos foram tirados de 
artigos científicos, dos quais estão referenciados.
Acho que agora deve ter ficado um pouco mais complicado!
Sendo assim, criamos esse e-book com o objetivo de compi-
lar várias imagens gráficas, de diversos tipos e formas, para que 
você tenha o mínimo de condição de compreender algumas 
formas de representação gráfica e tenha capacidade e confiança 
na interpretação de análises estatísticas.
ENTÃO VAMOS LÁ!!!
Bar PLOT
É um tipo de gráfico muito utilizado para representar 
médias e desvios. Um dos tipos de gráfico mais comum em artigos 
científicos e de interpretação simples e intuitiva.
A B
0
10
20
30
*
2
}1
1 – Sempre quando trabalhamos com amostras, nossa intenção é coletar uma pequena 
parte de uma determinada população para que possamos fazer inferências sobre ela 
como todo. Uma das principais medidas de posição gerada para descrever a população 
através de uma amostragem é a média, representada pela parte superior da barra. Como 
a população varia dentro dessa média, existe uma medida da dispersão desses dados em 
relação a essa média, representada pelo numeral 1 no gráfico. Essas medidas de 
dispersão podem ser representadas pela amplitude máxima e mínima, variância, desvio 
padrão, erro padrão ou intervalo de confiança e o tipo de medida você está usando deve 
ser informada no rótulo do eixo Y. Para saber mais sobre barras de erro, sugiro ler o artigo 
do Cumming e colaboradores (2007).
Página 12
2 – O asterisco entre as barras é geralmente inserido no gráfico para representar a 
significância do teste estatístico utilizado. Como queremos comparar valores e saber se as 
médias diferem estatisticamente, quando o resultado analítico fica abaixo do nosso nível 
de significância (geralmente é α < 0.05), essa é a forma que representamos esse resultado 
no gráfico. Mas atenção, isso só é útil quando temos apenas duas barras ou “trata-
mentos”! Mais que duas, mostrarei para você como representamos da maneira corre-
ta.
Bem, ainda tá fácil, mas é o cientista que escolhe o gráfico 
para representar seus resultados da melhor forma possível. Veja 
abaixo uma prancha com diferentes formas gráficas que podemos 
escolher para representar o mesmo conjunto de dados.
A B
0
10
20
30
40
*
●
●
A B
0
5
10
15
20
25
30
35
*
A B
−60
−40
−20
0
20
40
60
*
A B
−60
−40
−20
0
20
40
60
*
Página 13
A B C
Áreas de Coleta
R
iq
ue
za
 d
e 
Av
es
 (M
éd
ia
 ±
 E
P)
0
5
10
15
20
25
a
a
b
1
A B
−60
−40
−20
0
20
40
60
*
A B
−60
−40
−20
0
20
40
60
t1
$y
●
●
*
Ainda na sessão de barplots podemos encontrar outras 
variações de gráfico. Nesse exemplo a seguir, a interpretação é a 
mesma. Mas mudaremos as análises estatísticas utilizadas, além 
de um detalhe na forma de representação.
Página 14
1 – As letras em cima de cada erro padrão no gráfico representam um teste de comparação 
múltipla de médias, denominado Teste de Tukey. Se todos os pressupostos para realizar 
uma análise de variância (ANOVA) forem aceitos, é preciso realizar um teste a posteriori, caso 
você tenha mais de 2 níveis para sua variável X categórica. Nesse nosso exemplo, temos 3 
níveis da variável Área. Caso a ANOVA gere um resultado abaixo do nível de significância esta-
belecido, a única interpretação que você pode fazer é que no mínimo um dos níveis é difer-
ente dos outros. Aí vem a seguinte pergunta: Quem é diferente de quem? Dessa forma, 
precisamos realizar um teste a posteriori, que nesse nosso caso foi o Teste de Tukey. Após 
interpretar o resultado, letras devem ser colocadas em cima de cada barra. Quando colo-
camos letras iguais, não existe diferença estatística entre as médias; letras diferentes indica a 
existência de diferença.
Página 15
scatter PLOT
Saindo dos gráficos de barras, os scatter plots ou gráficos 
de dispersão, são extremamente importantes quando queremos 
demonstrar a relação entre variáveis numéricas, seja ilustrando 
uma relação de causa e efeito ou uma relação de associação entre 
variáveis. Esses tipos de gráficos são importantes para verificar 
padrões ecológicos, diferente dos gráficos de barras que repre-
sentam tamanho de efeito. 
●
●
●●●
●
●
●
● ●
●
●
● ●
●
● ●
● ●
●
●
●
● ●
●
●
●
●
●
●
26 28 30 32 34 36 38 40
0
5
10
15
20
Temperatura (ºC)
Ab
un
dâ
nc
ia
 d
e 
M
or
ce
go
s
y = −17.4905 + 0.8156*x
R² = 0. 48
Tipo de Variável
Y - numérica
X - numérica
Tipo de Análises
Regressão
Correlação
GLM
Página 16
●
●
●
●
●
●
●
●
●
●
2 4 6 8 10
2
4
6
8
10
x
y
R² = 1
●
●
●
●
●
●
●
●
●
●
2 4 6 8 10
2
4
6
8
10
R² = 0.86
●
●
●
●
●
●
●
●
●
●
2 4 6 8 10
2
4
6
8
10
x
y
R² = 0.65
●
●
●
●
●
●
●
●
●
2 4 6 8 10
2
4
6
8
10
x
y
R² = 0.27
1 – Esses valores podem vir diretamente no texto ou na legenda do gráfico. Essa equação 
representa a fórmula na qual foi calculada a estimativa da linha reta (geralmente presente 
somente em resultados significativos). Lembrando lá do ensino médio, neste caso é apenas 
uma equação do primeiro grau Y = a + bx. Porém, vamos entender o que isso significa. O “a”,representado no gráfico pelo valor 27.8, representa o ponto que a reta começa em Y, levando 
em consideração que o X é zero. Perceba que no nosso gráfico o eixo X inicia em 10. Esse “a” é 
conhecido como o intercepto da reta. O “b” representa o coeficiente angular e ele demonstra 
a inclinação da reta e a relação que a variável Y tem com o X. Ou seja, o quanto cada unidade 
de X variando que vai influenciar na variável Y.
2 – Esse valor é conhecido como coeficiente de determinação. Esse valor varia entre 0 e 1 e 
geralmente é o valor do poder de explicação que a variável X tem em relação a variável Y. 
Quanto mais próximo de 1, mais próximos os pontos estão da reta; quanto mais distante, 
mais dispersos em relação a reta os pontos estão. Veja os exemplos abaixo.
x
y
Página 17
Até agora, acho que ainda continua tranquilo. 
Assim como nos gráficos de barras, que permite variadas 
maneiras de representação, no scatter plot você tem formas de 
melhorar a reta se ajustando ao padrão que é observado. Segue 
abaixo algumas variações das retas de regressão e suas formas de 
escrever as equações.
●
●
●
●
●
●
●
●
●
●
2 4 6 8 10
2
4
6
8
10
x
y
y = 0.3333 + 0.9394*x
●
● ●
●
● ● ● ●
● ●
0 2 4 6 8 10
0
1
2
3
4
5
x
y
y = 1.24 + 1.13*log(x)
● ●
●
●
● ●
●
●
●
●
2 4 6 8 10
2
4
6
8
10
x
y
y = exp(−064 + 0.27*x)
●
●
● ●
●
●
●
●
●
●
2 4 6 8 10
2
4
6
8
10
x
y
y = 4.75 + 1.71*x − 0.22*x²
Página 18
Depois de explicar para você um pouco sobre gráficos de 
barra, que são para variáveis categóricas, e gráficos de dis-
persão, que são para variáveis numéricas, será que temos uma 
maneira de, em um mesmo gráfico, colocar variáveis categóricas e 
numéricas? A resposta você já sabe! É claro que tem. 
Agora as coisas talvez comecem a complicar um pouco, mas 
não tem tanto segredo. Imagine em um caso hipotético que vamos 
coletar insetos em duas áreas, sitio A e sitio B. Só que vamos coletar 
todo mês durante dois longos anos. Além de coletar os insetos nas 
duas áreas, vamos lá medir também a temperatura. 
A depender do grupo taxonômico e do ambiente no qual 
estamos coletando, a temperatura influencia na quantidade de inse-
tos, e geralmente essa influência é positiva. Dessa forma, parece 
que temos duas variáveis: sitio de amostragem e temperatura. Uma 
categórica e outra contínua. E agora?! 
Como será um gráfico e uma análise quando temos uma 
variável qualitativa e uma quantitativa ao mesmo tempo?
Página 19
●
●
●●●
●
●
●
● ●
●
●
● ●
●
● ●
● ●
●
●
●
● ●
●
●
●
●
●
●
26 28 30 32 34 36 38 40
0
5
10
15
20
Temperatura (ºC)
Ab
un
dâ
nc
ia
 d
e 
M
or
ce
go
s
●
●
A
B
1 – O ponto de interseção entre as retas é representado pela interação entre os dois 
parâmetros analisados. Vamos pensar um pouco! [eu sei, foi plágio...]. Eu poderia analisar 
as duas variáveis de forma separada, fazendo um gráfico de barras para saber a diferença 
das medias entre as áreas, e outro gráfico de dispersão para verificar a relação entre quan-
tidade de morcegos e a temperatura. Mas eu iria gastar mais espaço na folha do meu artigo 
ou relatório e ainda iria perder uma informação preciosa que é a INTERAÇÃO. Sabemos 
que na natureza não um único fator não possui a capacidade de explicar todos os padrões 
que conseguimos enxergar. Na verdade são muitas as variáveis explicativas possíveis, às 
vezes variáveis que nem conseguimos medir ou observar. No entanto essas variáveis não 
agem sozinhas e isoladas, mas interagem entre si para gerar as maravilhas do nosso siste-
ma natural. Esse gráfico nos dá esse exemplo. Essa imagem é a mesma imagem do nosso 
primeiro exemplo de SCATTER PLOT, no entanto conseguimos colocar mais uma infor-
mação que foram as áreas de coleta (sítio A e sítio B). 
Tipo de Variável
Y – numérica
X - categórico + numérica
Tipo de Análises
ANCOVA
GLM
1
Página 20
Esquecendo a existência das duas cores, é evidente observar que os pontos da área B 
estão há uma maior media de indivíduos de morcegos que a área A (olhando a 
distribuição dos pontos em relação ao eixo Y) e que a temperatura influencia positiva-
mente nessa abundância. Porém, não é sempre que a área B tem mais morcegos que a 
área A. A temperatura age de maneira distinta nas duas áreas de estudo. Se pudéssemos 
coletar em uma maior amplitude de temperatura na área A, a quantidade de morcegos 
nessa área iria ser superior que na área B. Isso mostra que o efeito da temperatura na 
quantidade de indivíduos de morcegos é diferente a depender da área, e caso fizéssemos 
um gráfico de dispersão ou um gráfico de barras, essa informação não poderia ser capaz 
de visualizar. Então cabe a você como pesquisador ou profissional da conservação a tarefa 
de compreender e explicar quais são os processos e mecanismos que estão associados às 
áreas para explicar como o efeito da temperatura difere.
Ok, agora grande parte dos gráficos comumente apre-
sentados em artigos de ecologia e conservação foram explana-
dos. O que muda a partir daí é a abordagem, a criatividade, o rigor 
que o redator do trabalho dá à sua apresentação e análise. Como 
falei no início do e-book, compreender os tipos de variáveis asso-
ciadas aos eixos é fundamental para saber qual tipo de gráfico de-
vemos gerar e qual(ais) análise(s) devemos fazer. A partir de agora 
vamos falar de algumas variações gráficas referentes às análises 
estatísticas.
 
Página 21
●●
●● ●
●
●
●●●●●●●
●●
●
●●●
0 50 100 150
Rainfall (mm)
Li
ke
lih
oo
d 
of
 fl
ig
ht
 ev
en
t
0.0
0.5
1.0
jun.06
3
fev.07
3
may.07
2
mar.07
18
mar.06
4
jun.07
1
jul.07
2
Esse tipo de gráfico é gerado quando temos uma variável resposta binária. Mas como seria 
isso Arleu? Seria assim: Uma variável resposta binária é quando estamos verificando um 
evento de forma dual (p. ex. acontece ou não acontece, tem ou não tem, homem ou 
mulher...). Estritamente a variável explicativa tem que ser uma variável continua. Essa 
análise verifica a probabilidade de um determinado fator observacional, ou seja, nossa 
variável de interesse, acontecer ou não acontecer dado a mudança da variável explicativa. 
Vamos ao nosso exemplo! Eu estava verificando mensalmente durante o ano todo, vários 
ninhos de cupins para saber o período em que aconteceriam revoadas. Telei os ninhos com 
tecido e verificava se em cada vistoria havia buracos abertos, alados mortos ou presos, asas 
caídas, qualquer característica que pudesse diagnosticar o evento de revoada. Então minha 
variável resposta era a presença ou ausência de revoada em determinado mês. Depois 
de finalizar todas as campanhas de campo, eu tinha também dados de precipitação daquele 
mês. Esta seria minha variável explicativa. Então realizando modelos estatísticos com esses 
dados eu cheguei a esse gráfico. 
MSc. Arleu Barbosa Viana-Junior
Possuo graduação em Ciências Biológicas – Licenciatura 
Plena pela Universidade Tiradentes/SE (UNIT) e sou mestre em Eco-
logia e Conservação pela Universidade Federal de Sergipe (UFS). 
Atualmente sou doutorando do programa de Ecologia, Conservação 
e Manejo da Vida Silvestre pela Universidade Federal de Minas 
Gerais. Possuo experiência em entomologia, com ênfase em 
térmitas (cupins), e tenho um grande apreço por análises de dados 
ecológicos e uso do software R. Já ministrei mais de 10 cursos (for-
mais e informais) abordando temas como introdução ao método 
científico, bases para o delineamento experimental e analises de 
dados.
Página 22
0 1 2 3 4 5 67 8 9 10
0.0
0.2
0.4
0.6
0.8
1.0
Tempo (dias)
So
br
ev
ivê
nc
ia
 (%
)
●
● Somente Cupins
Controle
Fungo
Mas o que ele me diz Arleu!? Como falei anteriormente, ele nos informa a probabilidade 
do evento acontecer ou não acontecer. Se levarmos em consideração que no 50% (no eixo 
Y está com o numero 0.5) é o momento onde há a probabilidade do evento mudar de “não 
acontecer”, para “acontecer” (ou vice-versa, dependendo da sua variável), qual ponto do 
eixo X esse fenômeno ocorre? Olhando para o gráfico, mais ou menos quando atingimos 
50 mm de chuva ocorre essa probabilidade de revoada. É assim que interpretamos este 
gráfico baseado nesta análise. Assim, a partir daí, eu preciso explicar quais mecanismos 
estão por trás dessa influência da chuva na probabilidade de revoada por cupins.
Agora vamos falar de uma análise que é muito impor-
tante quando queremos verificar algumas questões, como fitness 
(valor adaptativo) por exemplo. 
Tipo de Variável
Y – tempo
X - categórica
Tipo de Análises
Analise de sobrevivência
Página 23
Temos agora um exemplo bastante peculiar de gráfico. Olhando o padrão da curva se 
assemelha bastante ao exemplo anterior, porém com uma relação invertida. Mesmo com 
toda essa semelhança, essa análise traz informações bem mais complexas e interessantes. 
Estamos falando da análise de sobrevivência. Essa análise é bem usada pelo pessoal da 
agronomia quando querem ver o tempo de germinação de uma espécie de planta em 
relação à diferentes tratamentos, como tipos de substrato. Mas sem delongas... Vamos 
interpretar esse gráfico! A análise de sobrevivência é uma análise vulgarmente conheci-
da como “análise de tempo até o evento”. Para entender o que isto significa, para realizar 
uma análise de sobrevivência é preciso, a priori, estabelecer um evento muito evidente, 
que não deixe dúvida do que seja. Esse evento tem que ser binário. Lembra muito a 
regressão logística, não é? No entanto essa analise verifica a probabilidade desse evento 
acontecer (ou não) no tempo. Como disse anteriormente na caixinha do gráfico, não foi 
colocado que a variável resposta pode ser contínua ou categórica. Disse que o TEMPO é a 
nossa variável de interesse. Um pouco confuso, não é? Mas vamos tentar trabalhar com o 
gráfico. Neste experimento, queria verificar o efeito de diferentes recursos na mortalidade 
de cupins [CUPINS DE NOVO, ARLEU! Foi mal, este é o grupo que eu trabalho ]. Então, 
inseri em uma placa de petri 25 indivíduos de uma mesma colônia em contato com difer-
entes recursos, separados em três tratamentos: i) papel filtro contaminado com fungos; ii) 
papel filtro umedecido; iii) apenas cupins na placa sem nenhum recurso. Todas foram 
alocadas em um ambiente controlado sob os mesmo efeitos externos. Diariamente veri-
ficávamos a taxa de sobrevivência dos indivíduos e anotávamos quanto tempo demorava 
desde o tempo zero (primeiro dia do experimento) até o dia em que todos os indivíduos 
morressem. Agora acho que ficou mais fácil de entender... Nosso evento era a morte de 
todos os indivíduos. É um evento claro, sem a mínima condição de dúvida. Neste caso, 
nossa variável resposta era o dia de morte e nossa variável explicativa eram os nossos 
tratamentos. Logo, fazendo modelos estatísticos para verificar o tempo de morte desses 
indivíduos frente a um determinado tipo de recurso, chegamos ao resultado apresentado 
neste gráfico. Percebam que a longevidade dos cupins aumenta quando estão em contato 
com um recurso contaminado com fungo se comparamos com a falta de recurso ou 
quando estão com um recurso úmido. O que isso quer dizer então Arleu? 
Página 24
É simples! Parece que fungos auxiliam na sobrevivência dessa espécie de cupim, 
aumentando seu tempo de vida. A partir daí cabe a nós explicar quais benefícios os cupins 
têm quando associados aos fungos. 
10 15 20 25 30
0
20
40
60
80
100
Days
Pe
rc
en
t g
er
m
in
at
ed
5
10
15
20
0 5
Então meu (minha) caro(a) amigo(a), este e-book que pre-
parei para você é só um passo inicial para que você tenha uma 
noção de como observar e interpretar algumas formas gráficas e a 
quais análises elas podem está associadas. Há muito ainda pela 
frente, não só na maneira de apresentar um resultado, como 
também de compreender algumas análises. A estatística multivari-
ada, as famosas análises de séries temporais, ou até estatísticas 
mais complexas - como modelos bayesianos ou modelagens espa-
ciais - podem ser exemplos do que almejar no mundo da estatísti-
ca.
5 10 15 20
0
1
2
3
4
)syad( t
–l
og
(–
lo
g(
S(
t))
)
Site 2 
Site 3 
Site 1 
Male–female
Male–male
Single male
Se
ar
ch
in
g 
ra
te
1
0.8
0.6
0.4
0.2
0 20 40 60 80 100 120
Time elapsed until nest establishment (h)
Página 25
 Este e-book pode ser o primeiro passo para você se 
tornar um pouco mais autônomo na sua forma de ver e interpre-
tar um gráfico em um artigo ou relatório. Em um segundo mo-
mento podemos trabalhar com você coisas sobre gráficos multi-
variados, erros mais comuns e sugestões de como elaborar um 
bom gráfico. Páginas do próximo capítulo... Por enquanto, espero 
que este conteúdo abordado lhe traga um bom desempenho!
Abaixo, deixo para você links relacionados à gráficos e 
alguns sites onde você pode brincar de estatística. Coisa simples, 
mas vale a pena dar uma olhada:
1. Esses dois sites são um compilado de exemplos de 
plots de diversas formas, com excelente qualidade para análise de 
dados, ciência, publicação, apresentações, entre outras coisas. 
Todos os exemplos gráficos destes sites utilizam uma linguagem 
baseada no software R, um dos melhores e mais completos pro-
gramas estatísticos da atualidade. O software é gratuito e pode 
ser baixado no link https://cran.r-project.org/. Nos sites, eles dis-
ponibilizam códigos de scripts (que são tipo receitas, verdadeiros 
passo-a-passo de como elaborar esses gráficos) para que você 
possa fazer sozinho(a).
R graph gallery:
http://rgraphgallery.blogspot.com.br/
R graph catalog:
http://shiny.stat.ubc.ca/r-graph-catalog/
Página 26
OBRIGADO
2. Os próximos dois links são uma forma divertida de você brin-
car dando palpites de coeficientes de correlação, conhecido em tra-
balhos como r (errezinho). O coeficiente de correlação é muito semel-
hante ao coeficiente de determinação (R²) da regressão. A diferença é 
que o r é uma medida de associação e ela varia entre -1 e 1. Utilizando a 
mesma lógica do R², quanto mais dispersos os pontos estão da reta, 
mais próximos de zero vão estar. A diferença é que como essa métrica 
varia de -1 a 1, ela informa a direção da associação realizada. Se encon-
trarmos valores entre -1 e 0, teremos uma associação negativa (reta de-
crescente). Se for entre 0 e 1, é uma associação positiva (reta ascenden-
te). 
http://guessthecorrelation.com/
http://www.istics.net/Correlations/
Então é isso! Divirta-se e dê um bom palpite. Até a próxima.
 
Página 27
MSc. Arleu Barbosa Viana-Junior
Possuo graduação em Ciências Biológicas – Licenciatura 
Plena pela Universidade Tiradentes/SE (UNIT) e sou mestre em Eco-
logia e Conservação pela Universidade Federal de Sergipe (UFS). 
Atualmente sou doutorando do programa de Ecologia, Conservação 
e Manejo da Vida Silvestre pela Universidade Federal de Minas 
Gerais. Possuo experiência em entomologia, com ênfase em 
térmitas (cupins), e tenho um grande apreço por análises de dados 
ecológicos e uso do software R. Já ministrei mais de 10 cursos (for-
mais e informais) abordando temas como introdução ao método 
científico, bases para o delineamento experimental e analises de 
dados.
Página 28
RECOMENDAÇÕES DE LEITURA
Cohen J. (1990).Thing I have learned (so far). American Psy-
chologist. 45: 1304-1312.
Cumming G. et al. (2007). Error bars in experiments biology. 
The Journal of Cell Biology. 177: 7-11.
Krzywinski M. and Altman N. (2013). Error bars. Nature Meth-
ods. 10: 921-922.
Krzywinski M. and Altman N. (2014). Visualizing sample with 
box plots. Nature Methods. 11: 119-120.
Streit M. and Gehlenborg N. (2014). Bar charts and box plots. 
Nature Methods. 11: 117.
Weissgerber T. L. et al. (2015). Beyond Bar and Line Graphs: 
Time for a New Data Presentation Paradigm. Plos One. 13: 1-10
Página 29
Temos agora um exemplo bastante peculiar de gráfico. Olhando o padrão da curva se 
assemelha bastante ao exemplo anterior, porém com uma relação invertida. Mesmo com 
toda essa semelhança, essa análise traz informações bem mais complexas e interessantes. 
Estamos falando da análise de sobrevivência. Essa análise é bem usada pelo pessoal da 
agronomia quando querem ver o tempo de germinação de uma espécie de planta em 
relação à diferentes tratamentos, como tipos de substrato. Mas sem delongas... Vamos 
interpretar esse gráfico! A análise de sobrevivência é uma análise vulgarmente conheci-
da como “análise de tempo até o evento”. Para entender o que isto significa, para realizar 
uma análise de sobrevivência é preciso, a priori, estabelecer um evento muito evidente, 
que não deixe dúvida do que seja. Esse evento tem que ser binário. Lembra muito a 
regressão logística, não é? No entanto essa analise verifica a probabilidade desse evento 
acontecer (ou não) no tempo. Como disse anteriormente na caixinha do gráfico, não foi 
colocado que a variável resposta pode ser contínua ou categórica. Disse que o TEMPO é a 
nossa variável de interesse. Um pouco confuso, não é? Mas vamos tentar trabalhar com o 
gráfico. Neste experimento, queria verificar o efeito de diferentes recursos na mortalidade 
de cupins [CUPINS DE NOVO, ARLEU! Foi mal, este é o grupo que eu trabalho ]. Então, 
inseri em uma placa de petri 25 indivíduos de uma mesma colônia em contato com difer-
entes recursos, separados em três tratamentos: i) papel filtro contaminado com fungos; ii) 
papel filtro umedecido; iii) apenas cupins na placa sem nenhum recurso. Todas foram 
alocadas em um ambiente controlado sob os mesmo efeitos externos. Diariamente veri-
ficávamos a taxa de sobrevivência dos indivíduos e anotávamos quanto tempo demorava 
desde o tempo zero (primeiro dia do experimento) até o dia em que todos os indivíduos 
morressem. Agora acho que ficou mais fácil de entender... Nosso evento era a morte de 
todos os indivíduos. É um evento claro, sem a mínima condição de dúvida. Neste caso, 
nossa variável resposta era o dia de morte e nossa variável explicativa eram os nossos 
tratamentos. Logo, fazendo modelos estatísticos para verificar o tempo de morte desses 
indivíduos frente a um determinado tipo de recurso, chegamos ao resultado apresentado 
neste gráfico. Percebam que a longevidade dos cupins aumenta quando estão em contato 
com um recurso contaminado com fungo se comparamos com a falta de recurso ou 
quando estão com um recurso úmido. O que isso quer dizer então Arleu? 
AGRADECIMENTO
Este E-BOOK foi elaborado em 2016 após anos de 
estudo dentro da minha jornada acadêmica em ciências biológi-
cas da qual gostaria de agradecer os professores doutores Lean-
dro Sousa-Souto (UFS), Frederico Neves (UFMG), Ricardo Solar 
(UFMG), Ronaldo Reis (Unimontes), Og de Souza (UFV) que até 
hoje são minhas referencias em analises de dados e estudo das 
técnicas com o software R. Não poderia deixar de agradecer 
também os amigos do Laboratório de Entomologia da UFS e da 
Vila Parentoni (UFMG) que enriquecem meus conhecimentos 
dentro da biologia e analises de dados. Agradeço a Renata 
Muylaert por todas as conversas e aprendizados sobre R e pela 
revisão realizada nesse e-book. Agradeço também a Bocaina – 
Biologia da Conservação pela oportunidade de parceria com os 
diretores (Lucas Perillo e Felipe Fonseca).
Design: Tiago Bruno - (31) 991776719 
tiago211287@gmail.com
Alguns desenhos foram projetados por Freepik
Página 30

Continue navegando