Buscar

analise de dados biologicos

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 58 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 58 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 58 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

PERÍODO
-6º
Luiz Alberto Dolabela Falcão 
Luiz Eduardo Macedo Reis
Magnel Lima de Oliveira 
Rodrigo Oliveira Pessoa
CIÊNCIAS BIOLÓGICAS
Análise de Dados 
Biológicos
Montes Claros/MG - 2011
Luiz Alberto Dolabela Falcão 
Luiz Eduardo Macedo Reis 
Magnel Lima de Oliveira 
Rodrigo Oliveira Pessoa
Análise de Dados 
Biológicos
2011
Proibida a reprodução total ou parcial.
Os infratores serão processados na forma da lei.
EDITORA UNIMONTES
Campus Universitário Professor Darcy Ribeiro
s/n - Vila Mauricéia - Montes Claros (MG)
Caixa Postal: 126 - CEP: 39.401-089
Correio eletrônico: editora@unimontes.br - Telefone: (38) 3229-8214
Catalogação: Biblioteca Central Professor Antônio Jorge - Unimontes
Ficha Catalográfica:
Copyright ©: Universidade Estadual de Montes Claros
UNIVERSIDADE ESTADUAL DE MONTES CLAROS - UNIMONTES
REITOR
João dos Reis Canela
VICE-REITORA
Maria Ivete Soares de Almeida
DIRETOR DE DOCUMENTAÇÃO E INFORMAÇÕES
Huagner Cardoso da Silva 
CONSELHO EDITORIAL
Maria Cleonice Souto de Freitas
Rosivaldo Antônio Gonçalves
Sílvio Fernando Guimarães de Carvalho
Wanderlino Arruda
REVISÃO DE LÍNGUA PORTUGUESA
Ângela Heloiza Buxton
Arlete Ribeiro Nepomuceno
Aurinete Barbosa Tiago
Carla Roselma Athayde Moraes
Luci Kikuchi Veloso
Maria Cristina Ruas de Abreu Maia
Maria Lêda Clementino Marques
Ubiratan da Silva Meireles
REVISÃO TÉCNICA
Admilson Eustáquio Prates
Cláudia de Jesus Maia
Josiane Santos Brant
Karen Tôrres Corrêa Lafetá de Almeida
Káthia Silva Gomes
Marcos Henrique de Oliveira
DESIGN EDITORIAL E CONTROLE DE PRODUÇÃO DE CONTEÚDO
Andréia Santos Dias
Camilla Maria Silva Rodrigues
Clésio Robert Almeida Caldeira
Fernando Guilherme Veloso Queiroz
Francielly Sousa e Silva
Hugo Daniel Duarte Silva
Marcos Aurélio de Almeida e Maia
Patrícia Fernanda Heliodoro dos Santos
Sanzio Mendonça Henriques
Tatiane Fernandes Pinheiro
Tátylla Ap. Pimenta Faria
Vinícius Antônio Alencar Batista
Wendell Brito Mineiro
Zilmar Santos Cardoso
Chefe do Departamento de Ciências Biológicas
Guilherme Victor Nippes Pereira
Chefe do Departamento de Ciências Sociais
Maria da Luz Alves Ferreira
Chefe do Departamento de Geociências
Guilherme Augusto Guimarães Oliveira
Chefe do Departamento de História
Donizette Lima do Nascimento
Chefe do Departamento de Comunicação e Letras
Ana Cristina Santos Peixoto
Chefe do Departamento de Educação
Andréa Lafetá de Melo Franco
Coordenadora do Curso a Distância de Artes Visuais
Maria Elvira Curty Romero Christoff
Coordenador do Curso a Distância de Ciências Biológicas
Afrânio Farias de Melo Junior
Coordenadora do Curso a Distância de Ciências Sociais
Cláudia Regina Santos de Almeida
Coordenadora do Curso a Distância de Geografia
Janete Aparecida Gomes Zuba
Coordenadora do Curso a Distância de História
Jonice dos Reis Procópio
Coordenadora do Curso a Distância de Letras/Espanhol
Orlanda Miranda Santos
Coordenadora do Curso a Distância de Letras/Inglês
Hejaine de Oliveira Fonseca
Coordenadora do Curso a Distância de Letras/Português
Ana Cristina Santos Peixoto
Coordenadora do Curso a Distância de Pedagogia
Maria Narduce da Silva
Ministro da Educação
Fernando Haddad
Presidente Geral da CAPES
Jorge Almeida Guimarães
Diretor de Educação a Distância da CAPES
João Carlos Teatini de Souza Clímaco
Governador do Estado de Minas Gerais
Antônio Augusto Junho Anastasia
Vice-Governador do Estado de Minas Gerais
Alberto Pinto Coelho Júnior
Secretário de Estado de Ciência, Tecnologia e Ensino Superior
Nárcio Rodrigues
Reitor da Universidade Estadual de Montes Claros - Unimontes
João dos Reis Canela
Vice-Reitora da Unimontes
Maria Ivete Soares de Almeida
Pró-Reitora de Ensino
Anete Marília Pereira
Diretor do Centro de Educação a Distância
Jânio Marques Dias
Coordenadora da UAB/Unimontes
Maria Ângela Lopes Dumont Macedo
Coordenadora Adjunta da UAB/Unimontes
Betânia Maria Araújo Passos
Diretor do Centro de Ciências Humanas - CCH
Antônio Wagner Veloso Rocha
Diretora do Centro de Ciências Biológicas da Saúde - CCBS
Maria das Mercês Borem Correa Machado
Diretor do Centro de Ciências Sociais Aplicadas - CCSA
Paulo Cesar Mendes Barbosa
Chefe do Departamento de Artes
Maristela Cardoso Freitas
Autores
Luiz Alberto Dolabela Falcão 
Bacharel em Ciências Biológicas pela Universidade Estadual de Montes Claros – Unimontes e mes-
tre em Ciências Biológicas pela mesma instituição. Atualmente é professor pesquisador da Univer-
sidade Aberta do Brasil – UAB
Luiz Eduardo Macedo Reis
Bacharel em Ciências Biológicas pelo Centro Universitário do Leste de Minas Gerais – UNILESTE-MG 
mestre em Ciências Biológicas pela Universidade Estadual de Montes Claros – Unimontes. Atual-
mente coordena um subprojeto do PIBID/UNIMONTES
Magnel Lima de Oliveira
Licenciado em Ciências Biológicas pela Universidade Estadual de Montes Claros – Unimontes e 
mestre em Ciências Biológicas pela mesma instituição
Rodrigo Oliveira Pessoa
Doutor em Biologia Genética pela Universidade de São Paulo (USP), mestrado em Zoologia pela 
Universidade Federal da Paraíba, graduado em biologia – licenciatura e bacharelado com ênfase 
em Zoologia – pela Universidade Federal de Minas Gerais (UFMG). Atualmente é professor da Uni-
versidade Estadual de Montes Claros (Unimontes).
 
Sumário
Apresentação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .9
Unidade 1
Delineamento experimental
 1.1 Por que delinear? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .11
 1.2 Custos de um desenho mal elaborado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .12
 1.3 Como delinear? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .12
 1.4 Pseudo-repetição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .15
 1.5 Como selecionar um número apropriado de réplicas. . . . . . . . . . . . . . . . . . . . . . . . . .17
Referências. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .19
Unidade 2
Probabilidade e variabilidade
 2.1 Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .21
 2.2 Probabilidade e amostragens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .21
 2.3 Variabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
Referências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .24
Unidade 3
Hipóteses Biológicas
 3.1 Métodos científicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
 3.2 Dedução e indução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
 3.3 Método hipotético-dedutivo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .26
 3.4 Testando hipóteses estatísticas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .27
 3.5 Hipótese nula x Hipótese alternativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .27
Referências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . 28
8
UAB/Unimontes - 6º Período
Unidade 4
Regressão linear e ANOVA
 4.1 Regressão linear simples: Um fator . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
 4.2 Regressão múltipla: múltiplos fatores. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .33
 4.3 Análise de variância (ANOVA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .35
Referências. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
Unidade 5
Modelos lineares generalizados
 5.1 A análise dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .39
 5.2 Modelos paramétricos e não paramétricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .39
 5.3 A construção dos modelos de análise de modo paramétrico . . . . . . . . . . . . . . . . . 40
 5.4 A escolha e o uso de uma curva teórica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
 5.5 As curvas teóricas encontradas na família GLM, de maior interesse para biólogos . .41
 5.6 Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .41
 5.7 Ajustamento no processo de padronização. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .41
 5.8 Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .42
 5.9 Como construir modelos de regressão coerentes com as predições testadas . . .42
 5.10 Método de construção e simplificação dos modelos construídos . . . . . . . . . . . . .43
 5.11 Método Backward de construção e/ou simplificação de modelos de regressão . .43
 5.12 Método Forward de construção e/ou simplificação de modelos de regressão. . . .45
 5.13 Método Stepwise de construção e/ou simplificação de modelos de regressão . . 46
 5.14 Métodos de crítica ao modelo construído . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .47
Referências. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .51
Referências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .53
Atividades de Aprendizagem – AA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .55
9
Ciências Biológicas - Análise de Dados Biológicos
Apresentação
Caro(a) acadêmico(a),
Iniciamos agora a disciplina Análise de Dados Biológicos. De maneira geral, nós, biólogos, 
temos certa aversão a números e modelos matemáticos. Entretanto, a estatística nos fornece a 
possibilidade de resumir aspectos gerais da natureza em padrões científicos através da mensu-
ração e análise de dados. Sem esta ferramenta, estaríamos todos desenvolvendo teorias e mais 
teorias sem nenhum sentido científico.
A análise de dados biológicos engloba um número infinito de possibilidades. Podemos 
“analisar” os dados amostrados utilizando desde uma simples comparação entre médias até 
complexos modelos multivariados de exploração. Entretanto, nesta disciplina, focamos em as-
pectos mais básicos da estatística que nos permitirão entender a linguagem científica de uma 
maneira geral.
Sendo assim, começamos agora nossa disciplina. Recomendamos a utilização de outros li-
vros-textos e outras fontes de informação parra compreensão mais aprofundada de alguns as-
suntos. Então, vamos nessa?!
Mãos à obra e bons estudos a todos! 
Os autores.
11
Ciências Biológicas - Análise de Dados Biológicos
UNIDADE 1 
Delineamento experimental 
O delineamento experimental é o pas-
so crucial durante a elaboração de trabalhos 
científicos para alcançar o objetivo da ciência 
de responder as perguntas formuladas nor-
malmente através das hipóteses. Portanto, um 
desenho amostral mal formulado terá conse-
quências diretas nos resultados, culminando 
em respostas equivocadas que nenhum teste 
estatístico será capaz de corrigir. 
O delineamento experimental é definido 
por Magnunsson e Mourão (2003) como uma 
maneira de “coletar os dados de forma que 
você tenha uma boa chance de tomar uma 
boa decisão”. Todavia os passos para alcançar 
esta “boa decisão”, durante a escrita de seu 
projeto, seguem as premissas de um méto-
do científico, em que primeiramente se deve 
pensar, formular perguntas e hipóteses que 
serão a base para tal delineamento, além de 
desenhar o experimento e realizar as análises 
estatísticas quando necessárias. Desta forma a 
estatística é apenas uma ferramenta de análi-
se de dados que permite a comunicação entre 
pesquisadores. 
1.1 Por que delinear?
Delinear é a arte do pesquisador (Mag-
nunsson e Mourão 2005) e é uma ótima ana-
logia a ser utilizada. Vamos citar como exem-
plo um bom compositor que, para deixar suas 
canções belas, agradáveis de ouvir, com os 
melhores arranjos nos instrumentos e vocal, 
dedica tempo e dinheiro, fazendo com que 
sua mensagem seja enviada de forma plena 
aos ouvidos de quem escuta. Este é o mesmo 
trabalho de um pesquisador ao elaborar uma 
pergunta e desenhar um experimento, gas-
tando tempo, preocupando-se com as pecu-
liaridades de cada pergunta para montar um 
esquema com o melhor aproveitamento do 
recurso, apresentando, assim, resultados claros 
e robustos ao escrever seus artigos científicos. 
Sendo capaz de repassar as descobertas para 
quem as vê. 
Pode parecer uma tarefa difícil ou qua-
se uma missão impossível, mas não é! Basica-
mente, conhecer o sistema a ser observado, 
que é o objeto do seu estudo, é o mais impor-
tante. Pois, na biologia nada é tão exato quan-
to parece ser, e normalmente diversos fatores 
influenciam no seu objeto de estudo. 
Comecem seu experimento com uma 
pergunta que seja “respondível”, pois ela dará 
origem a boas hipóteses, que são fatores im-
portantíssimos no processo do delineamento 
experimental. Fujam de perguntas difíceis de 
serem respondidas como “Existe vida após a 
morte?”, com certeza a resposta seria interes-
santíssima, mas desafia a mente humana a de-
rivar hipóteses refutáveis (Magnunsson e Mou-
rão 2005). 
Iniciar perguntas com “por que”, normal-
mente constitui um bom início para o desen-
rolar de um trabalho científico. Por exemplo, 
assistindo ao noticiário da sua cidade, você 
percebe que os casos de dengue aumentaram 
consideravelmente nos últimos meses, apenas 
nos bairros da zona leste da cidade. Você se in-
teressa em saber “por que existem mais casos 
de dengue nesta região”. Como conhece bem 
sua cidade e, sabe das prin cipais diferenças 
entre as regiões (norte, sul, leste e oeste), você 
será capaz, com algum conhecimento prévio, 
de formular novas perguntas que darão ori-
gens as suas hipóteses. Vamos citar algumas 
possibilidades:
•	 Será que o rio situado ao leste da cidade, funciona como um reservatório para o mosquito 
transmissor?
•	 O grande número de terrenos abandonados nesta região pode conter água e facilitar o pro-
cesso de reprodução do mosquito?
•	 Casas com grandes quintais, como é característica desta região, são reservatórios efetivos 
do mosquito transmissor?
PARA REFLETIR
Somos compositores 
de um bom conheci-
mento científico.
DICAS
Turkey (1980) enfatizou 
que “Encontrar a per-
gunta certa é frequen-
temente mais impor-
tante do que encontrar 
a resposta certa”.12
UAB/Unimontes - 6º Período
Veja que todas as perguntas partiram do conhecimento prévio da região a ser estudada, en-
tretanto muitas vezes o recurso financeiro que possui não permite que responda a todas elas. 
1.2 Custos de um desenho mal 
elaborado 
Os trabalhos que não apresentam um de-
senho experimental bem elaborado serão ca-
pazes, na melhor das hipóteses, de apresentar 
resultados limitados e, na pior das hipóteses, 
de não apresentarem resultado algum (RUX-
TON; COLEGRAVE, 2006). Pois, as análises serão 
feitas através de recursos estatísticos comple-
xos a fim de corrigirem possíveis erros amos-
trais, incapazes, na maioria dos casos, de res-
ponderem alguma questão. É neste momento 
que se percebe a perda de tempo e/ou dinhei-
ro. 
Ainda que o experimento consiga con-
templar as questões propostas, existem outras 
formas de um experimento mal delineado ser 
menos eficiente. Um erro comum é assumir 
que todo experimento deve ser feito com o 
maior número possível de coletas. Mas, se 
você coleta mais dados do que sua pergunta 
realmente necessita você perdeu tempo e di-
nheiro. Por outro lado, caso seu experimento 
trabalhe em uma escala maior e necessite de 
muitas coletas ou muitos materiais no labora-
tório, há a tentação de torná-lo o menor pos-
sível. Assim caso seu experimento seja muito 
pequeno, sem chance alguma de detectar os 
efeitos de interesse, haverá novamente perda 
de tempo e dinheiro, e provavelmente você 
terá que refazer suas coletas.
Além disso, existem casos em que se cole-
ta dados demasiadamente, sem que se pense 
no que está sendo feito, e no fim do processo 
vem a pergunta: Afinal, qual destes dados é 
realmente importante para minha pesquisa? 
Esta é uma ótima maneira de gastar seu pre-
cioso tempo: Coletando coisas desnecessárias, 
e correr o risco de não coletar os dados que 
realmente tenham sentido para sua pesquisa. 
Para evitar tais problemas, basta usar mais do 
seu tempo planejando o delineamento de sua 
pesquisa.
1.3 Como delinear?
Começaremos nossa discussão diferen-
ciando estatisticamente os termos “popula-
ção” e “amostra”. População é um conjunto de 
elementos que tem em comum determinada 
característica. Em uma população de peixes de 
um lago, os elementos seriam os peixes que a 
compõe. Assim uma amostra seria um subcon-
junto dessa população. 
As populações podem ser finitas como 
um conjunto de alunos de uma escola em de-
terminado ano ou infinitas como o número de 
vezes que se pode jogar um dado. Entretanto, 
a maioria das pesquisas biológicas apresenta 
populações com muitos elementos, inviabi-
lizando o levantamento completo e efetivo 
de suas unidades, chamado recenseamento 
(Censo). Por esta razão os pesquisadores traba-
lham com amostras (parte da população). Por 
exemplo, o número de tucanos existentes no 
mundo é matematicamente finito, mas as pes-
quisas realizadas com essas aves só podem ser 
feitas com amostras, porque nenhum pesqui-
sador dispõe de meios para coleta de todos os 
tucanos existentes no globo. 
Além disso, para alguns estudos espe-
cíficos, o uso de amostras tem maior valor 
científico do que o estudo sumário de toda 
população. Por exemplo, para estudar o efei-
to de uma toxina no controle de insetos-pra-
ga de Eucalipto, é melhor submeter amos-
tras destes insetos a exames minuciosos em 
laboratório, e determinar a viabilidade do 
uso para seu controle, do que utilizar esta 
toxina nas plantações, correndo o risco de 
causar danos ao ambiente sem comprova-
ção científica de sua atuação eficaz.
Então, como devemos delinear um ex-
perimento? É a pergunta que não quer calar! 
Independentemente do campo de pesquisa, 
a melhor forma de delinear um experimen-
to, será bem diferente da melhor maneira 
de delinear outro. Assim, o conhecimento 
biológico é parte crucial do delineamento 
experimental. 
PARA REFLETIR
É somente através do 
conhecimento prévio 
do objeto de estudo 
que se chega a um 
desenho bem estru-
turado, organizado e 
eficaz.
DICAS
Um delineamento ex-
perimental mal formu-
lado será penalizado 
com perda de tempo e 
recursos materiais. 
13
Ciências Biológicas - Análise de Dados Biológicos
Na Biologia, mais do que qualquer outra 
ciência, seja ela física ou matemática, a varia-
ção é regra e as causas destas variações são 
complexas e diversas. Existe variação em qual-
quer lugar ou estema de estudo, mesmo que 
sejam clones ou populações naturais. Assim, 
indivíduos de uma população de peixes va-
riam em tamanho corporal ou bactérias em 
um tubo de ensaio variam em taxas de cresci-
mento. 
Esta complexidade de variações faz com 
que os experimentos biológicos necessitem 
de amostragens que sejam capazes de revelar 
as situações reais daquele sistema. Vamos su-
por que um Biólogo tenha sido contratado por 
um piscicultor para verificar que fatores cau-
sam mortalidade em tilápias (peixes) criadas 
em sua piscicultura comercial. O dono do es-
tabelecimento reclama de perdas na produção 
em um dos seus três tanques de criação. 
O proprietário revela que não existe dis-
tinção de tratamento dos peixes entre os tan-
ques. Sabendo-se que a mortalidade causada 
por parasitas é um dos principais fatores res-
ponsáveis pela morte de peixes em piscicultu-
ras, o Biólogo vai ao estabelecimento e coleta 
um peixe em cada tanque aleatoriamente e, 
em laboratório, determina a taxa de parasitis-
mo de cada um deles. Encontrando o seguinte 
resultado (Fig. 1) 
 
Tanque 1 Tanque 2 Tanque 3
0
20
40
60
80
100
%
 de parasitism
o
Veja, parece que o peixe coletado no ter-
ceiro tanque possui uma carga parasitária um 
pouco maior do que os peixes dos tanques um 
e dois. Entretanto, o Biólogo não ficou con-
vencido desse resultado, pois um peixe com 
10% de parasitas a mais do que outros não é 
o suficiente para concluir que o parasitismo é 
a causa das mortes de todos os peixes nesse 
tanque. Outros fatores podem influenciar com 
maior força nas taxas de mortalidade do que o 
parasitismo. 
Para solucionar este problema, o Biólogo 
retorna ao estabelecimento e realiza mais uma 
coleta aleatória e, desta vez, coleta 20 peixes 
por tanque, encontrando o seguinte resultado 
(Fig. 2). 
 
Tanque 1 Tanque 2 Tanque 3
0
20
40
60
80
100
%
 de parasitism
o
Figura 1: Modelo 
representando a 
porcentagem de 
parasitismo de um 
peixe por tanque de 
criação de tilápias. 
Fonte: Acervo autores
►
PRA REFLETIR
Na Biologia, VARIAÇÃO 
é regra!
GLOSSáRIO: 
Aleatório: Adj. Que 
repousa sobre um 
acontecimento incerto, 
fortuito. Seriam dados 
sorteados. 
Figura 2: Modelo 
representando a 
porcentagem de 
parasitismo em 20 
peixes por tanque de 
criação de tilápias.
Fonte: Acervo autores
►
14
UAB/Unimontes - 6º Período
Há um aumento na confiança do Biólogo 
ao dizer que o tanque 3 apresenta maiores ta-
xas de mortalidade devido à presença de para-
sitas. A razão desta maior confiança não é obs-
cura. Através da amostra de um único peixe é 
bastante possível que as diferenças das taxas 
de parasitismo entre os tanques sejam mera 
obra do acaso, e é improvável que o mesmo 
acaso ocorra durante a seleção aleatória de 20 
peixes por tanque. O que o Biólogo fez foi re-
plicar sua observação. Se as diferenças foram 
casuais no primeiro momento, não é esperado 
que o mesmo ocorra em uma amostra maior 
da população. Todas as análises estatísticas 
são baseadas em réplicas, que são realmen-
te uma maneira de formalizar a ideia de que 
quanto mais vezes observamos um fenômeno, 
menores serão as chances dos resultados se-
rem casuais. 
Observem que o Biólogo possui 20 amos-
tras de peixes por tanque, como são três tan-
ques, logo o seu número amostral (N) é igual 
a 60. Estes 60 peixes foram coletadosde forma 
aleatória, que é uma das formas de se amos-
trar uma população, entretanto este tipo de 
amostragem permite apenas uma visão geral 
da realidade daquele sistema. Onde todo o 
elemento da população tem igual probabilida-
de de ser escolhido para a amostra. 
Assim, apesar de estar certo de que a ele-
vada taxa de mortalidade dos peixes do tan-
que três é causada por parasitas, nosso amigo 
Biólogo é incapaz de responder a seguinte 
pergunta através de seus resultados; por que 
os peixes do tanque três são mais parasitados?
Para responder a esta questão o Biólogo, 
com conhecimento prévio do sistema de pa-
rasitismo em peixes, sabe que peixes mais ve-
lhos e pesados geralmente apresentam maio-
res taxas de parasitismo, devido à depressão 
do seu sistema imune a partir de determinada 
idade. 
Com caráter investigativo, o pesquisador 
utiliza o mesmo desenho com os 20 peixes co-
letados aleatoriamente em cada tanque para 
estabelecer uma comparação do peso entre os 
tanques. E revela o seguinte resultado (Fig. 3): 
 
Tanque 1 Tanque 2 Tanque 3
0.2
0.4
0.6
0.8
1.0
1.2
1.4
1.6
Peso (kg)
Agora nosso Biólogo está convencido de 
que o tanque três possui peixes mais velhos e 
pesados quando comparado aos outros tan-
ques. Será que a hipótese de que peixes mais 
velhos são mais susceptíveis ao ataque de pa-
rasitas está correta?
Para sanar esta dúvida, o pesquisador re-
torna ao estabelecimento e realiza a coleta de 
outros 60 peixes apenas no tanque três, mas 
desta vez os separa em três categorias de ida-
de durante a coleta: Peixes com idade entre 
oito a dez meses, peixes de 12 a 14 meses e 
peixes com mais de 16 meses. Repare que des-
ta vez a coleta não é mais aleatória!
Desta forma nosso pesquisador possui 
uma amostra estratificada, com 20 peixes por 
estrado, onde os estrados são representados 
pela idade dos peixes. Após a coleta o Biólo-
go vai ao laboratório e determina as taxas de 
parasitismo em cada um deles, revelando o se-
guinte resultado (Fig. 4). 
PARA REFLETIR
Replicação é uma 
maneira de lidar com 
as variações entre 
indivíduos devido às 
variações aleatórias 
que estarão presentes 
em qualquer experi-
ência de ciências da 
vida. Quanto maior o 
número de réplicas 
maior será a confian-
ça que teremos em 
dizer que qualquer 
diferença encontrada 
entre os grupos de seu 
experimento é devida 
aos fatores em que 
estamos interessados e 
não ao acaso.
◄ Figura 3: Modelo 
representando o peso 
de 20 peixes por tanque 
de criação de tilápias. 
Fonte: Acervo autores
15
Ciências Biológicas - Análise de Dados Biológicos
 
8 a 10 meses 12 a 14 meses > 16 meses
0
10
20
30
40
50
60
70
80
90
%
 de parasitism
o
De fato o pesquisador através de sua es-
tratificação por idade evidenciou que os pei-
xes mais velhos são aqueles mais parasitados 
e, por conta da presença destes peixes com 
baixo sistema imune nesse tanque, há uma 
taxa de mortalidade maior no local. 
Assim, após sua pesquisa, o Biólogo é ca-
paz de programar um sistema eficaz de ma-
nejo da piscicultura de tilápias para o empre-
endedor, retirando aqueles peixes com idade 
entre 12 a 14 meses de vida. 
Aprendemos, portanto, que uma amostra 
é parte de uma população de elementos, e as 
réplicas são repetições independentes feitas a 
fim de descrever as variações dos elementos 
contidos nessa população. Veremos, a seguir, 
um dos principais problemas da estatística 
atualmente, a chamada pseudo-repetição.
1.4 Pseudo-repetição 
Toda replicação deve conter amostras 
independentes entre si. Vejamos o exemplo 
anterior! Cada peixe é uma unidade amostral 
independente, devido à taxa de parasitismo 
depender das características fisiológicas de 
cada um. Assim, caso o pesquisador dividisse 
os peixes pela metade e determinasse o para-
sitismo em cada parte, ele estaria aumentan-
do sua amostra em 100%. Mas, seria um erro 
considerá-las independentes, pois o sistema 
fisiológico funciona no peixe inteiro e não de 
forma independente entre suas metades, isso 
não é o real. Portanto, o que chamamos de 
pseudo-réplicas nada mais é do que réplicas 
de um experimento sem que haja indepen-
dência entre amostras, ou seja, há uma eleva-
ção do número de amostras sem descrição da 
realidade. 
Espera-se que a quantidade de informa-
ção disponível aumente o número de observa-
ções, mas nem sempre é assim. Quando uma 
nova observação fornece apenas a mesma 
informação que tínhamos de observações an-
teriores não aumentou a quantidade total de 
conhecimento disponível para nós, podendo 
confundir-nos, fazendo-nos acreditar que dis-
pomos de mais informações do que as que 
realmente temos. Assim, por esta observação 
não ser uma real repetição, Hurlbert denomi-
nou-a “pseudo-repetição”, que significa falsa 
repetição (MAGNUNSSON; MOURÃO, 2005).
As pseudo-repetições podem ser espa-
ciais, temporais, filogenéticas ou técnicas. As 
mais comuns em trabalhos científicos e mais 
difíceis de serem evitadas são as falsas repe-
tições espaciais e temporais. As pseudo-repe-
tições filogenéticas e técnicas normalmente 
ocorrem em estudos específicos ou que con-
tenham problemas técnicos durante o experi-
mento.
A pseudo-repetição filogenética ocorre 
onde as espécies são as unidades amostrais e 
os organismos usados no experimento têm es-
treito parentesco. Por exemplo, girinos de uma 
mesma desova podem apresentar respostas 
ecológicas muito similares, devido ao mate-
Figura 4: Modelo 
representando uma 
amostra estratificada 
de peixes por idade, em 
relação à porcentagem 
de parasitismo, em um 
tanque de criação de 
tilápias.
Fonte: Acervo autores
►
DICAS
Replicações devem ser 
independentes; caso 
contrário, será uma 
pseudo-replicação 
Em uma pseudo-réplica 
as unidades amostrais 
possuem dependência 
entre si. Ou seja, uma 
modificação em uma 
unidade amostral não 
pode afetar a outra. 
16
UAB/Unimontes - 6º Período
rial genético semelhante entre os elementos e 
normalmente não representam a situação real 
exibida por populações maiores. Na pseudo-
-repetição técnica, a “falsa réplica” ocorre 
quando diferentes observações ou instrumen-
tos são utilizados no experimento. Isso nor-
malmente não ocorre em experimentos bem 
planejados, mas eventualmente existem falhas 
nos equipamentos utilizados ou mudança da 
pessoa que está coletando os dados, o que 
pode alterar os resultados em decorrência da 
particularidade de cada um ao realizar sua ta-
refa. 
Para compreendermos o erro contido em 
uma pseudo-repetição espacial, vejamos o se-
guinte exemplo: Nosso amigo Biólogo foi con-
tratado novamente, mas desta vez, por uma 
empresa que cultiva eucaliptos, interessada 
em saber a influência das regiões de mata so-
bre a densidade de mariposas que consome 
os plantios. Portanto, a questão biológica é 
determinar se a complexidade deste ambiente 
próximo ao plantio influencia na densidade de 
mariposas que devora os plantios. 
O que aconteceria se nosso Biólogo 
amostrasse cinco seções de um plantio com 
uma floresta nativa adjacente e outras cinco 
seções de outro plantio sem floresta adja-
cente? Como demonstrado na Fig. 5, todas as 
seções do primeiro plantio poderiam ter me-
nos mariposas porque a floresta adjacente foi 
queimada em um passado recente ou é pou-
co produtiva ou qualquer um de um grande 
número de fatores possíveis que afetam as 
mariposas. Para esta questão, uma amostra 
da densidade de mariposas em um plantio 
obviamente não é independente de outras 
amostras do mesmo plantio. Portanto, as cinco 
amostragens não carregam mais informações 
do que uma única amostra.
De fato este erro simples é muito compli-
cado de ser observado e, por isso, nós pesqui-
sadores devemos preocupar-noscom a inde-
pendência entre amostras. Isto é uma tarefa 
difícil porque nenhuma observação é comple-
tamente válida ou inválida. Uma pseudo-repe-
tição espacial para uma questão pode ser uma 
repetição válida para outra. Por exemplo, se 
nosso amigo Biólogo estivesse interessado em 
diferenças nas densidades de mariposas entre 
plantios (sem levar em consideração a pre-
sença de florestas adjacentes) as cinco obser-
vações seriam réplicas perfeitamente válidas, 
cada uma trazendo mais informação a respeito 
das densidades de cada plantio. 
As pseudo-repetições temporais são ain-
da mais difíceis de serem detectadas. Ocorrem 
por exemplo quando os pesquisadores têm o 
interesse de descrever os efeitos da sazonali-
dade sobre os padrões de diversidade em um 
determinado sistema. Entretanto, o estado de 
um sistema natural não se altera instantanea-
mente. Assim, coletas mensais em um mesmo 
ponto não são independentes, porque as con-
dições climáticas da primeira coleta possuem 
influência nos padrões de diversidade encon-
trados na segunda e, da mesma forma, as con-
dições climáticas da segunda terão influência 
na terceira coleta, e assim sucessivamente nos 
próximos meses. 
Problemas similares ocorrerão em qual-
quer experimento que contenha múltiplas ob-
servações ao longo do tempo (RUXTON ;COLE-
GRAVE, 2006). Saber se estas observações são 
ou não independentes variará de acordo com 
as particularidades biológicas de cada sistema. 
Muitas vezes, como é o caso da sazona-
lidade citada acima, não é possível fugir da 
pseudo-repetição temporal, o jeito é conviver 
com isso, analisando seus dados, incluindo o 
◄ Figura 5: Esquema 
demonstrando as 
seções de coleta do 
pesquisador contratado 
pela empresa de 
eucalipto. Os pontos 
amarelos representam 
a disposição da amostra 
em um plantio coberto 
por área de mata em 
“A” e sem a presença de 
mata em “B”. 
Fonte: Acervo autores
17
Ciências Biológicas - Análise de Dados Biológicos
erro contido na amostragem (existem alguns 
pacotes estatísticos especializados neste tipo 
de erro) ou realizar coletas em um longo pe-
ríodo de tempo, talvez décadas. Mas se qui-
ser um bom conselho, fuja, como a caça foge 
do caçador, de experimentos que contenham 
qualquer tipo de pseudo-repetição. Isto com-
plicará seus estudos.
1.5 Como selecionar um número 
apropriado de réplicas
Como vimos até aqui, um delineamento 
adequado com réplicas verdadeiras é a base 
para realização de análises estatísticas corre-
tas e robustas. Assim, durante a elaboração 
do delineamento experimental normalmente 
surge a pergunta: Quantas replicações são ne-
cessárias? Como foi discutido anteriormente, 
quanto maior é o número de repetições, maior 
será a confiança ao dizer que as diferenças en-
tre grupos são reais e não simplesmente obra 
do acaso. Entretanto, o aumento no número 
de repetições significa aumento de custo para 
a realização do estudo. Este custo pode ser fi-
nanceiro; se o experimento envolve a compra 
de reagentes caros, multiplicar o número de 
réplicas implica no aumento considerável des-
ses custos ou, como normalmente é o caso, ex-
perimentos custam muito TEMPO. 
Portanto, temos que tentar equilibrar 
o ideal ao real, fazendo a pergunta: Quan-
tas replicações meu experimento deve ter? A 
melhor resposta seria, “O suficiente para ter 
CONFIANÇA ao dizer que qualquer efeito bio-
lógico encontrado existe sem a coleta de ob-
servações desnecessárias”. Vamos com calma, 
decidir qual o tamanho adequado de amostras 
não é tão complicado assim! 
Existem várias formas de auxílio nesta 
questão. Uma delas seria utilizar o material 
existente na literatura, buscando experimen-
tos que contenham características similares 
ao seu. Uma questão relativamente simples, 
mas este método somado à experiência que 
seu professor orientador possui é uma técni-
ca muito útil para determinar o tamanho da 
amostra. 
Outra maneira seria fazer exatamente 
o que está descrito no item “Como deline-
ar” descrito pelas figuras 1 e 2. Vá aumentan-
do o número de pontos no gráfico até que o 
padrão pareça convincente. Este processo é 
descrito por Dytham (1999) como “collecting 
dummy data” ou em português “coleta de da-
dos substitutivos” (MAGNUNSSON; MOURÃO, 
2005).
Em um experimento simples como, por 
exemplo, saber quanto tempo de coleta é ne-
cessário para determinar a riqueza de lagartos 
de um determinado local basta fazer uma cur-
va de acumulação de espécies, apesar de não 
se adequar a todos os casos ( SCHILLING; BA-
TISTA, 2008). Este método pode ser bastante 
útil se o objetivo for determinar o tempo ade-
quado e o número de armadilhas no local a 
ser estudado. Basta realizar um estudo piloto, 
colocando suas armadilhas e coletar seus da-
dos diariamente ou de hora em hora, mas isso 
vai depender da escala. Com seus resultados, 
vá acumulando o número de espécies encon-
trado na primeira coleta, com o encontrado na 
segunda e assim, sucessivamente, até que a li-
nha do seu gráfico estabilize-se. 
Por exemplo, na primeira coleta encontra-
mos as espécies A, B e C, portanto temos uma 
riqueza igual a três, na segunda coletamos as 
espécies D, E e F, portanto minha riqueza na 
segunda coleta é igualmente três. Logo, ao 
acumularmos as riquezas das duas coletas, 
partiremos de três espécies novas na primeira 
para seis espécies novas na segunda coleta. 
Continuando o experimento encontramos na 
terceira coleta as espécies A e G, portanto, a 
riqueza é igual a dois, mas nesta coleta pos-
suímos apenas uma nova espécie, a espécie 
“G”, assim, ao acumularmos a riqueza, teremos 
sete espécies coletadas no terceiro dia ou hora 
de coleta (vejam a Fig. 6 a seguir para maiores 
detalhes). 
PARA REFLETIR
Nunca se convença de 
que não existem, na 
literatura mundial, ex-
perimentos que sejam 
similares ao seu. Sem-
pre existem estudos 
capazes de auxiliar na 
construção do seu!
18
UAB/Unimontes - 6º Período
Analisando visualmente o gráfico acima, somos levados a crer que a partir de oito coletas 
não iremos acrescentar uma nova espécie em meus dados, portanto oito coletas é o número ide-
al para realização deste trabalho. Entretanto, na biologia, as coisas não são tão simples assim. 
Vejamos o exemplo prático a seguir. 
A curva do coletor deste artigo demons-
tra que seus dados apontam para um crescen-
te número de espécies encontrado ao longo 
das visitas. Demonstrando insuficiência amos-
tral para a realização de um inventário com-
pleto de anfíbios (Toledo et al., 2003). Os au-
tores realizam análises contendo índices como 
jackknife e bootstrapping por serem técnicas 
de reamostragem que fornecem um valor de 
riqueza de espécies e uma estimativa do inter-
valo de confiança, permitindo comparações 
estatísticas entre dois ou mais tratamentos. 
Não iremos ater-nos aos detalhes desta análi-
se, mas é preciso que compreendam suas fun-
ções válidas e para tanto recomendamos a lei-
tura de Trust (1974) para maiores detalhes. 
Além destas técnicas, que são “boas di-
cas”, existem inúmeros cálculos matemáticos 
elegantes para decidir quantas observações 
são necessárias para se detectar um efeito 
de boa magnitude (KREBS 1989), entretanto 
todos eles requerem amostras preliminares 
(KRAMER; THIEMAN, 1987) e a maioria é limi-
tada por situações triviais e simples (MAG-
NUNSSON; MOURÃO 2005). Na prática nós 
não precisamos recorrer a longos processos 
de simulações em computador para calcular 
o poder do teste, você precisa saber que eles 
existem. Decidir qual o tamanho ideal das 
amostras é uma tarefa que requer conheci-
mento e, mais importante, paciência. 
◄ Figura 6: Demonstração 
do acumulo de 
espécies de lagartos 
em relação ao número 
de coletas. Vejam que 
apenas as espécies 
“novas” são levadas 
em consideração para 
a construção de umacurva do coletor. 
Fonte: Acervo autores
◄ Figura 7: Curva do 
coletor calculada com 
o número de espécies 
de anfíbios entre visitas 
ao campo. Cada ponto 
expressa a média de 50 
pontos gerados pelo 
simulador EstimateS 
versão 6.0b1 e as barras 
indicam o desvio 
padrão calculado para 
cada ponto. 
FONTE: Toledo et al., 
(2003), disponível em:
http://www.ib.unicamp.
br/museu_zoologia/files/
lab_museu_zoologia/To-
ledo_et_al_2003_Comuni-
dade_FEENA.pdf
GLOSSáRIO 
Poder do teste: É a 
probabilidade que um 
experimento possui 
para detectar alguma 
diferença entre os 
tratamentos, assumin-
do que esta diferença 
existe para ser detec-
tada. Ou em outras 
palavras, “Se repetir 
o experimento várias 
vezes, quanto maior 
o número de vezes 
para que o seu teste 
descubra diferenças, 
mais adequado será o 
tamanho da amostra”. 
19
Ciências Biológicas - Análise de Dados Biológicos
Referências
Kraemer, H. C.; Thiemann, S. How Many subjects? Statistical power analysis in reseach. The 
international Professional publishers, London, 1987.
Krebs, C. J. Ecological Methodology. New York: Harper & Row,1989.
Magnusson, W.E. & Mourão, G. Estatística sem matemática. Londrina: Editora Planta, 2005.
Ruxton, G.D. & Colegrave, N. Experimental design for the life sciences. 2ªed. Oxford, 2006.
Schilling, A. N., & Ferreira, L. Curva de acumulação de espécies e suficiência amostral em florestas 
tropicais. Acta Amazonica, 179-187, 2008.
Toledo, L. F., Zina, J. & Haddad, C. F. Distribuição Espacial e Temporal de uma Comunidade de 
Anfíbios Anuros do Município de Rio Claro, São Paulo, Brasil. Holos Environment, 136-149, 2003.
21
Ciências Biológicas - Análise de Dados Biológicos
UNIDADE 2 
Probabilidade e variabilidade
Nesta unidade estudaremos dois concei-
tos básicos para o entendimento da estatística: 
Probabilidade e variabilidade. O primeiro, de 
uma maneira geral, é mais claramente utiliza-
do no nosso cotidiano, ao passo que o segun-
do é a base da maioria dos testes estatísticos 
de comparação de médias.
2.1 Probabilidade
Um exemplo clássico de probabilidade é 
a previsão do tempo. Quando lemos no jornal 
que existe 90% de chance de chover intuitiva-
mente sabemos o que isto significa, ou seja, 
que a chance de chover é extremamente alta. 
Sendo assim, é prudente sair com um guarda-
-chuva. Mas por que não podemos afirmar 
com certeza se irá ou não chover? Isto acon-
tece porque existe variação nas condições, 
e esta nem sempre é possível de ser previs-
ta. Entretanto, entraremos nesta questão um 
pouco adiante.
Vamos tomar um exemplo bem simples 
para entender como calculamos a probabi-
lidade de um evento real. Imaginemos um 
grupo de leões que se alimenta de antílopes. 
Para calcularmos a probabilidade de um leão 
capturar um antílope, basta que observemos 
criteriosamente o número de ataques de leões 
a antílopes e quantos destes são bem sucedi-
dos. O ataque é, então, o evento que estamos 
observando com dois resultados possíveis: 
Captura ou fuga. Um evento, estatisticamente 
falando, deve ser um processo simples com 
início e fim bem definidos.
Suponhamos que observamos, em um 
dia, 100 ataques de leões a antílopes. Destes, 
98 resultaram em captura, ao passo que nos 
outros dois ataques, os antílopes consegui-
ram escapar. Para calcularmos a probabilidade 
de que nosso evento ocorra (neste caso nosso 
evento é a captura) basta dividirmos o núme-
ro de capturas pelo número de observações. 
Neste caso temos:
Onde P: probabilidade; C quantidade de 
capturas observadas; O número total de ob-
servações.
Analisando a fórmula, podemos chegar a 
uma conclusão óbvia: Nunca pode haver mais 
resultados do que observação. Sendo assim, 
nossa probabilidade sempre estará entre 0 e 1.
Uma probabilidade (P), próxima a 1, indi-
ca que nosso evento tem grandes chances de 
acontecer. Por outro lado, um valor de P baixo 
indica que as chances de que nosso evento 
ocorra são raras.
Entretanto, mesmo o cálculo simples, 
como o de leões e antílopes, pode ser proble-
mático. Poderíamos ter observado nosso even-
to, por exemplo, em um dia muito quente, o 
que poderia ser uma vantagem para os leões, 
causando uma maior probabilidade de cap-
tura do que o habitual. Então, como definir o 
quanto de observações é necessário para esti-
marmos a probabilidade?
2.2 Probabilidade e amostragens
 Em nosso exemplo, observamos os 
leões e antílopes durante um dia e calculamos 
nossa probabilidade de captura P=0,98. Se to-
marmos este valor como real, observamos que 
é quase certa (98% de chance) a captura de 
um antílope pelos leões. Entretanto, conforme 
já dito, vários outros fatores poderiam estar 
atuando neste nosso dia de estudo em parti-
22
UAB/Unimontes - 6º Período
cular. Uma maneira de resolver isso seria rea-
lizar o experimento em todos os dias durante 
um ano. Entretanto, esta seria uma maneira 
extremamente custosa de solucionar o proble-
ma. Então como resolver esta questão?
Uma maneira eficaz de se estimar a pro-
babilidade é através do uso de amostras (GOT-
TELI; ELLISON, 2011). Uma amostra, nada mais 
é, do que uma parcela considerável do nosso 
objeto de estudo. No caso poderíamos obser-
var durante cinco dias por mês nosso evento 
(captura de antílopes por leões), em diferentes 
partes da área de estudo. Assim, assumiríamos 
que a maior parte das condições ambientais 
em que nosso evento está inserido foi englo-
bada. Após a realização desta nova metodolo-
gia, o pesquisador chegou aos seguintes nú-
meros:
Capturas Fugas Total
65 35 100
Note que, neste caso, nosso resultado foi 
bastante diferente do encontrado no primeiro 
momento. Esta probabilidade de P=0,65 prova-
velmente aproxima-se mais da realidade, uma 
vez que o experimento foi conduzido sob dife-
rentes condições ambientais. Sendo assim, em 
nosso exemplo, a chance de um leão capturar 
um antílope em condições naturais é de 65%. 
Estimativas de probabilidades também são 
possíveis com experimentos em laboratório. Um 
pesquisador interessado em estudar a germina-
ção de sementes de uma dada espécie vegetal 
pode, por exemplo, controlar algumas variáveis e 
realizar testes de germinação com estas semen-
tes para estimar a probabilidade de que as se-
mentes germinem sobre determinada condição. 
Imaginemos um pesquisador interessado 
em estudar os efeitos da seca sobre a germi-
nação de pequizeiro (Caryocar brasiliense) uma 
árvore típica do cerrado. O pesquisador coleta 
sementes desta planta e, em laboratório, acom-
panha sua germinação durante um período de 
30 dias com umidade controlada de 20% (estes 
números ficam a critério do pesquisador, depen-
dem de seu objetivo). Ao fim do experimento, 
ele pode calcular a probabilidade de germinação 
das sementes de pequizeiro em um ambiente de 
baixa umidade. Notem que experimentos labo-
ratoriais permitem o controle de outras variáveis. 
Se o mesmo experimento fosse conduzido no 
campo, além de ser quase impossível o contro-
le da variável principal (umidade) outros fatores 
como luminosidade, temperatura, etc., poderiam 
atuar em conjunto, mascarando os resultados.
A utilização de amostras em biologia é algo natural. Na maioria dos casos, é impossível, 
ou pelo menos inviável, a realização de um experimento ou observação de um evento com 
todos os indivíduos de uma população. Sendo assim, a utilização de amostras é importante 
ferramenta no desenvolvimento de trabalhos científicos. 
2.3 Variabilidade
A variabilidade é algo comum na biolo-
gia. (Magnusson; Mourão, 2003) Aliás, a va-
riação entre indivíduos é a base de uma das 
teorias mais revolucionárias na biologia: A 
teoria da seleção natural. A variabilidade se 
refere a diferenças encontradas em um pa-
drão específico. Por exemplo, em indivíduos 
de uma mesmaespécie, encontramos dife-
renças genotípicas, o que chamamos de va-
riabilidade genética. De fato, biologicamen-
te falando, não existem amostras retiradas 
de uma população (neste caso designando 
a totalidade) que não apresente variações, 
mesmo que diminutas. Vamos a mais um 
exemplo simples.
Um pesquisador está interessado em 
associar o ganho de peso ao tipo de dieta 
oferecida a uma espécie de peixes comer-
cial, a tilápia. Em dois tanques, ele coloca 
dez tilápias em cada e oferece dois tipos 
de ração: Uma rica em gordura e a outra 
em proteína. Após dois meses de experi-
mento, os peixes foram pesados e encon-
trados os seguintes resultados:
23
Ciências Biológicas - Análise de Dados Biológicos
Tabela 1: Peso de peixes em dois tanques de criação 
alimentados com diferentes rações (tratamentos) 
Indivíduo
Tanque 
I – Gordura 
(peso em kg)
Tanque II – 
Proteína (peso 
em kg)
1 3 1,5
2 2,7 2,0
3 4,5 2,1
4 1,9 1,7
5 2,0 1,8
6 2,4 2,0
7 2,8 2,,3
8 2,3 1,6
9 2,0 2,0
10 2,1 1,8
Note nos resultados que, mesmo em 
peixes com a mesma dieta, foi observada 
diferença no ganho de peso. Ou seja, existe 
uma variabilidade no seu parâmetro obser-
vado. Isto possivelmente pode estar relacio-
nado a características fisiológicas de cada 
indivíduo. Sendo assim, indivíduos com a 
mesma dieta, submetido às mesmas condi-
ções, apresentam diferenças no peso. Qual 
a importância desta variabilidade para o ex-
perimento do pesquisador?
O interesse inicial do pesquisador é rela-
cionar o tipo de dieta ao ganho de peso. De 
acordo com nossos dados, observamos uma 
tendência no aumento de peso nos peixes 
submetidos a uma dieta rica em gordura, en-
tretanto diferenças foram observadas mesmo 
em peixes com a mesma dieta. Se fizermos a 
média, observaremos que peixes com dieta 
gordurosa, pesam, em média, 2,57 kg. Enquan-
to peixes com dieta protéica pesam, em média 
1,88 kg. Uma simples análise destes dois nú-
meros não nos permite chegar a uma conclu-
são. Na verdade, o pesquisador deverá utilizar 
testes estatísticos que comparam a variabili-
dade entre indivíduos do mesmo grupo e a 
variabilidade entre grupos. Esta diferença será 
válida desde que a variabilidade entre grupos 
seja maior do que a variabilidade entre indiví-
duos do mesmo grupo. Caso isto seja verdade, 
o pesquisador poderá concluir que uma die-
ta rica em gordura causa um ganho de peso 
maior em tilápias do que uma dieta protéica. 
Vamos novamente a um exemplo de ex-
perimento laboratorial. Um pesquisador está 
interessado em determinar a eficácia de dife-
rentes concentrações de inseticidas no contro-
le de besouros. Ele monta um experimento de 
acordo com o esquema a seguir:
Concentração 100gr/L
Concentração 500gr/L
O pesquisador criou seis grupos com 
dez besouros da mesma espécie e aplicou, 
em cada um dos grupos, concentrações dife-
rentes de um determinado inseticida. Após 
30 dias, o pesquisador contou e comparou 
a quantidade de besouros mortos entre as 
diferentes amostras. Provavelmente ele te-
nha observado uma variação na quantidade 
de indivíduos entre os grupos devido a uma 
maior susceptibilidade à morte de alguns in-
divíduos. 
 A intenção do pesquisador é verificar 
se existe diferença entre os tratamentos (con-
centração de inseticida). Para isto ele utilizará 
um teste estatístico novamente baseado na 
média e variabilidade de indivíduos mortos 
entre suas amostras. Caso seja observada uma 
diferença significativa, ele poderá atribuir uma 
Figura 8: Esquema 
demonstrando o 
desenho experimental 
criado por um 
pesquisador a fim 
de testar o efeito 
da concentração de 
inseticidas sobre 
a mortalidade de 
besouros.
Fonte: Acervo autores
►
24
UAB/Unimontes - 6º Período
maior eficácia a uma concentração específica 
de inseticida. Caso não verifique esta diferen-
ça, ele assumirá que as duas concentrações 
testadas têm a mesma eficácia no controle 
desta espécie de besouro.
Não entraremos, neste momento, nos tes-
tes estatísticos citados. A ideia desta unidade 
é apresentar os conceitos de probabilidade 
e variabilidade. Entendendo-os plenamente 
poderemos então partir para as próximas uni-
dades. Caso ainda tenha dúvida, reveja estes 
conceitos, pois são conceitos-chave no desen-
volvimento de toda a disciplina.
Referências 
Magnusson, W.: Mourão, G. Estatística sem Matemática: A Ligação Entre as Questões e a 
Análise. Editora Planta, 2003.
Gotelli, N. J. & Ellison, A. M. Princípios de Estatística em Ecologia, Editora Artmed, 2011.
25
Ciências Biológicas - Análise de Dados Biológicos
UNIDADE 3 
Hipóteses Biológicas
Inicialmente podemos dizer que hipóte-
ses são explicações potenciais sobre um even-
to que estamos observando. No experimento 
da unidade anterior o evento é o ganho de 
peso das tilápias. Uma hipótese para explicar 
este evento é o tipo de dieta dos peixes. Outro 
exemplo é a quantidade de frutas produzidas 
por plantas cultivadas em solos sem adubação 
e com adubação. Meu evento é a produção di-
ferencial de frutos. Minha hipótese é a quanti-
dade de nutrientes disponíveis no solo. Sendo 
assim, a relação evento/hipótese pode ser de-
finida como uma relação de causa (hipótese) e 
efeito (observação).
Observações são os nossos dados, ou 
seja, os eventos que observamos no mundo 
real conhecidos como fatos. Se as observa-
ções são o “quê” da ciência, as hipóteses são 
o “como”. Portanto, as observações são cole-
tadas do nosso cotidiano, de eventos naturais, 
enfim, do mundo real. Já as hipóteses não ne-
cessariamente o são. As hipóteses podem vir 
da literatura já existente, de modelos teóricos 
e muitas vezes da intuição e conhecimento 
prévio do pesquisador. Entretanto, uma pre-
missa básica deve ser obedecida no desenvol-
vimento de hipóteses científicas: Ela deve ser 
testável. Assim, deve haver a possibilidade de 
desenvolvermos experimentos que nos permi-
tam aceitar, modificar ou rejeitar nossa hipóte-
se desenvolvida.
“Por que o céu é azul? Porque Deus quis 
assim.” Este é um exemplo de uma hipótese 
não científica. Não há meios de testarmos esta 
explicação para nosso evento. Hipóteses base-
adas na fé, em deuses onipresentes ou qual-
quer outra explicação não testável não devem 
fazer parte do arsenal de um cientista. Vale 
aqui relembrar o antagonismo entre ciência e 
religião já discutido na disciplina evolução. 
3.1 Métodos científicos
O método científico é a maneira que utilizamos para escolher entre hipóteses com base em 
nossas observações. Os cientistas utilizam vários métodos em seus trabalhos e, alguns destes, 
serão abordados daqui para frente.
3.2 Dedução e indução
Dedução e indução são dois importantes 
modos de raciocínio científico e ambos pro-
põem inferências baseadas nos dados co-
letados. A diferença básica é que enquanto a 
dedução vai do geral para o específico, a indu-
ção faz exatamente o contrário. Vamos utilizar 
exemplos simples para entender esta questão. 
1. Todos os homens têm coração;
2. Fernando é homem;
3. Fernando tem coração. 
Este exemplo, embora bastante simples, 
demonstra um caso de dedução clássica. Parti-
mos do geral para o mais específico. Vamos ago-
ra a um exemplo um pouco mais elaborado:
1. Todos os morcegos do Parque Estadual 
da Mata Seca (PEMS) pertencem à família 
Phyllostomidae;
2. Eu coletei este morcego no Parque Esta-
dual da Mata Seca;
3. Este morcego é da família Phyllostomi-
dae. 
Notem que novamente partimos de um 
caso geral (todos os morcegos) para um caso 
específico (o morcego em particular que foi 
coletado). A última afirmação é uma con-
clusão: Se todos os morcegos do PEMS são 
filostomídeos (1) e eu coletei este morcego 
no PEMS (2), logo este morcego é um filosto-
mídeo (3). Esta sequência de pensamentos é 
tambémchamada de silogismo. 
GLOSSáRIO: 
Inferência é uma 
conclusão tirada pelo 
pesquisador com base 
nos seus dados. 
26
UAB/Unimontes - 6º Período
Em contraste com o pensamento deduti-
vo, temos o indutivo:
1. Fernando tem coração;
2. Fernando é homem;
3. Todos os homens têm coração.
O modelo indutivo é então o oposto do 
dedutivo: Parte do específico para o geral. Va-
mos utilizar novamente um exemplo biológico 
para uma explicação mais detalhada:
1. Todos estes 20 morcegos são da família 
Phyllostomidae;
2. Todos estes 20 morcegos foram coletados 
no Parque Estadual da Mata Seca;
3. Todos os morcegos do Parque Estadu-
al da Mata Seca pertencem à família 
Phyllostomidae.
Os cientistas definem o modelo dedutivo 
como uma inferência certa e o indutivo como 
uma inferência provável. (GOTELLI; ELLISON, 
2011). De fato é isto o que ocorre. Se as duas 
premissas estão certas no primeiro exemplo 
(dedutivo) a conclusão obrigatoriamente tam-
bém será verdadeira. Já no modelo indutivo, 
embora a conclusão provavelmente seja ver-
dadeira, ela também pode ser falsa mesmo 
sendo as duas primeiras premissas verdadei-
ras. Como?
Pense em um trabalho com duas coletas 
no PEMS. Em cada uma foram capturados dez 
morcegos. Do total, todos eram filostomídeos, 
o que fez o pesquisador tirar a conclusão de 
que todos os morcegos do PEMS são filosto-
mídeos. Entretanto, nada impede que em uma 
terceira coleta indivíduos de outras famílias 
sejam amostrados no Parque. Caso isto ocorra, 
nossa conclusão deixa de ser verdadeira.
A ciência, de uma maneira geral, é indu-
tiva. Isto é verdade principalmente porque a 
estatística é, por natureza, indutiva. Frequen-
temente tentamos tirar conclusões gerais com 
base em amostras específicas e limitadas. Isto 
é comum na ciência, pois muitas vezes, como 
no exemplo citado, torna-se impossível a co-
leta de todo nosso campo de estudos. É im-
provável, e praticamente impossível, que eu 
amostre todos os morcegos do PEMS. Sendo 
assim, sempre haverá margem para que minha 
conclusão seja rejeitada. Quanto mais próximo 
da totalidade de morcegos eu amostrar (maior 
conjunto de dados coletados) mais forte tor-
na-se minha conclusão.
Podemos citar duas vantagens principais 
do método indutivo: Enfatiza a ligação entre 
dados e teoria; constrói e modifica hipóteses 
com base em conhecimento prévio. Sendo as-
sim, o método indutivo baseia-se na coleta de 
dados que suportem ou que modifiquem a hi-
pótese inicial.
Seguindo este raciocínio, podemos apon-
tar uma desvantagem no método indutivo 
clássico: Ele considera somente uma hipótese 
inicial. Sendo assim, outras hipóteses somente 
serão desenvolvidas em resposta a observa-
ções adicionais. Caso o pesquisador comece 
seu trabalho com uma hipótese equivocada, 
o caminho para chegar a uma resposta cor-
reta poderá tornar-se bastante longo. Além 
do mais, este método encoraja o pesquisador 
a confirmar sua hipótese inicial, mesmo que 
seus dados não a confirmem claramente.
Observação
Inicial
Novas 
Observações
As novas 
observações
comprovam a 
hipótese?
Sim Hipótese
confirmada
Hipótese
Predição
3.3 Método hipotético-dedutivo
Outro método utilizado na ciência é o 
hipotético-dedutivo. Ele se inicia através de 
uma observação que tentamos explicar, como 
no método indutivo. A diferença é que, neste 
caso, o pesquisador propõe múltiplas hipóte-
ses explicativas. Assim, o objetivo do pesqui-
sador não é confirmar, e sim falsear (rejeitar) 
hipóteses. A rejeição elimina algumas explica-
Figura 9: Esquema 
ilustrando o método 
indutivo.
Fonte: Adaptado de Gotte-
li e Elisson, 2011.
►
DICAS: 
A internet está cheia 
de silogismos interes-
santes como alguns do 
site http://interessante.
Rangesite.Com/index.
Php?Option=com_con
tent&view=article&id=
143:silogismo&catid=3
8:geral&itemid=54 pro-
cure mais a respeito. 
27
Ciências Biológicas - Análise de Dados Biológicos
ções e a lista é reduzida a um número menor 
de hipóteses competidoras. Sendo assim, uma 
explicação permanece válida até que novas 
observações sejam feitas e rejeitem aquela 
hipótese estabelecida anteriormente e uma 
nova seja aceita.
Nenhum método científico é mais correto 
que outro. Entretanto os métodos hipotético-
-dedutivo e indutivo caracterizam muito a ci-
ência no mundo real. Entender estes métodos 
é importante para nosso próximo passo, que é 
testar hipóteses.
3.4 Testando hipóteses estatísticas
A utilização da estatística para testar hi-
póteses é uma parte do método científico, e 
muitas vezes nos toma bastante tempo. De 
fato uma das explicações é a nossa aversão 
inicial a números. Entretanto, superando este 
“trauma inicial”, a estatística se torna uma fer-
ramenta simples e bastante útil no desenvolvi-
mento da ciência. Entender o conceito por trás 
da matemática é a melhor forma de entender 
a estatística.
3.5 Hipótese nula x Hipótese 
alternativa
Conforme já discutido, uma hipótese é 
desenvolvida para explicar uma observação. 
Estatisticamente falando, devemos testar esta 
hipótese a fim de descobrir se o resultado ob-
servado não está relacionado meramente ao 
acaso. Entra aí o nosso conceito de hipótese 
nula (também chamada de H0). A hipótese 
nula, nada mais é do que uma explicação mais 
simplificada possível do padrão observado. Na 
maioria das vezes atribui-se o resultado a uma 
aleatoriedade da variação ou ao erro de medi-
das. Vamos simplificar com exemplos.
Voltemos aos nossos exemplos da uni-
dade I. O objetivo do pesquisador é avaliar se 
dietas diferentes afetam o ganho de peso en-
tre as tilápias. Para tanto, o pesquisador sele-
cionou 20 peixes e os dividiu em dois grupos 
com dez indivíduos cada. Cada grupo foi sub-
metido às mesmas condições, com exceção 
da dieta. Sua hipótese nula (H0), neste caso, é a 
de que o aumento de peso é devido ao acaso. 
Ou seja, a dieta (que é o foco de seu estudo) 
não tem influencia sobre o ganho de peso dos 
peixes. Sua hipótese alternativa é que o au-
mento de peso é maior no grupo que recebe 
ração rica em gordura (a dieta tem influência 
no ganho de peso). Caso o pesquisador en-
contre diferença estatística no peso dos pei-
xes entre os grupos, ele aceitará sua hipótese 
alternativa e prosseguirá com seu estudo para 
explicar o porquê desta variação. Por outro 
lado, a ausência de diferença entre os grupos 
indicaria que sua hipótese nula é verdadeira, 
ou seja, a diferença de peso observada entre 
os grupos é devida, meramente, ao acaso. 
Vamos utilizar agora o exemplo das ba-
ratas. A hipótese alternativa do pesquisador 
poderia ser a de que uma maior concentração 
de inseticida tem uma maior eficiência no con-
trole de besouros. Já sua hipótese nula (H0) é a 
de que não existe relação entre concentração 
do inseticida e a mortalidade dos insetos. O 
pesquisador aceitaria sua hipótese alternativa, 
caso o grupo dos besouros submetidos ao tra-
tamento de 500mg/L apresentasse uma mor-
talidade significativamente maior do que a 
do outro grupo. Sua hipótese nula seria aceita 
caso isto não fosse observado.
A nossa hipótese nula é aceita geralmen-
te quando existe uma maior variabilidade en-
tre indivíduos do mesmo grupo do que entre 
grupos. Existem diversas formas de calcular a 
variabilidade, todas baseadas na distância dos 
pontos em relação à média, também chamada 
de desvio. Quanto maior o desvio, maior será 
a variabilidade dos dados. Vamos novamente 
utilizar o exemplo dos peixes para entender 
este conceito. 
28
UAB/Unimontes - 6º Período
 
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
5
1 2 3 4 5 6 7 8 9 10
Pe
so
 (k
g)
Indivíduos
Tanque I 
+1,93
-0.67
O gráfico acima é relativo ao tanque I, 
no eixo X temos os indivíduos e em Y seu 
respectivo peso.Cada ponto azul no gráfico 
representa um indivíduo e a linha tracejada 
vermelha é a média de peso para o tanque I. 
Assumiremos aqui que você já sabe como cal-
cular um valor de média. Caso ainda tenha dú-
vidas nesta questão, recorra a sua apostila de 
matemática.
A distância entre cada ponto para média 
(representada no gráfico pelos colchetes) é 
o desvio, como já dito, uma medida de varia-
bilidade. Note que caso o desvio esteja acima 
da média ele terá um valor positivo. Por outro 
lado, pontos abaixo da média apresentarão 
um desvio negativo. Um dos meios mais sim-
ples para calcular a variabilidade é utilizar o 
desvio médio absoluto, ou seja, a média das 
distâncias de cada ponto até a média. Para 
calcular este parâmetro, somamos os desvios 
médios absolutos (ou seja, o módulo dos 
desvios) e dividimos pela quantidade total de 
pontos. Utiliza-se o módulo do desvio, pois o 
somatório dos desvios é sempre zero quando 
o sinal é conservado.
O desvio médio nos permite dizer que no 
tanque um, os peixes pesam 2,57 ± 0,54 kg. 
Note que, neste caso, adicionamos a margem 
de erro relacionada à variabilidade. Isto signi-
fica dizer que a maioria dos dados se encontra 
neste intervalo. 
O desvio absoluto médio é apenas uma 
das várias medidas da variabilidade existen-
tes. Embora bastante simples e intuitiva esta 
não é a medida mais utilizada em trabalhos 
científicos. (MAGNUSSON; MOURÃO, 2003). Na 
maioria das vezes, utiliza-se o desvio padrão 
ou alguma derivação dele, que em alguns ca-
sos, torna-se um parâmetro mais refinado. En-
tretanto, não abordaremos as fórmulas para 
calcular o desvio padrão, já que a ideia por trás 
dos números é a mesma do desvio absoluto 
médio: Medir a variabilidade.
Após o entendimento destes cálculos 
simples, podemos passar para o estudo de al-
guns testes estatísticos.
Observem a tabela a seguir com os cálcu-
los dos parâmetros discutidos:
Tabela 2: Peso de peixes em um tanques de criação 
bem como os valores de desvio e o módulo de 
desvio para o peso de cada indivíduo.
Indivíduo Tanque I (kg) Desvio 
Módulo do 
desvio 
1 3 0.43 0.43
2 2.7 0.13 0.13
3 4.5 1.93 1.93
4 1.9 -0.67 0.67
5 2 -0.57 0.57
6 2.4 -0.17 0.17
7 2.8 0.23 0.23
8 2.3 -0.27 0.27
9 2 -0.57 0.57
10 2.1 -0.47 0.47
Média 2.57    
∑ |Desvios| 5.44
Desvio 
médio   0.544
Referências 
Magnusson, W.: Mourão, G. Estatística sem Matemática: A Ligação Entre as Questões e a 
Análise. Editora Planta, 2003.
Gotelli, N. J. & Ellison, A. M. Princípios de Estatística em Ecologia, Editora Artmed, 2011.
◄ Figura 10: Gráfico 
demonstrando o peso 
de cada indivíduo do 
Tanque I.
Fonte: Adaptado de Gotte-
li e Elisson, 2011.
DICAS: 
Faça uma tabela seme-
lhante para os peixes 
do tanque dois. isso 
ajudará a fixar o que foi 
explicado.
29
Ciências Biológicas - Análise de Dados Biológicos
UNIDADE 4 
Regressão linear e ANOVA
Antes de começarmos a estudar as aná-
lises estatísticas, vale lembrar que, conforme 
visto na Unidade I, p é a probabilidade de que 
meu evento de estudo aconteça. Na estatísti-
ca, o valor de p indica a significância do meu 
teste. Ou seja, na estatística, meu valor de p 
mede a probabilidade de que a diferença ob-
servada poderia ser encontrada caso minha 
hipótese nula H0 seja verdadeira. 
Vamos recorrer ao nosso exemplo base 
(ganho de peso em tilápias). Suponha que 
após utilizar um teste estatístico adequado, 
o pesquisador tenha encontrado um p=0,54. 
Isto quer dizer que existem 54% de chances 
de que a diferença de peso encontrada entre 
peixes submetidos a diferentes dietas este-
ja relacionada meramente ao acaso, e não à 
diferença da dieta. Sendo assim, quanto mais 
próximo o valor de p for de zero, menor será a 
probabilidade de que a variação seja explicada 
pelo acaso. Neste caso, o pesquisador aceitaria 
sua hipótese alternativa. Entretanto, quando 
considerar que um valor de p seja suficiente-
mente baixo para que se rejeite a H0?
Em biologia, rejeitamos nossa hipótese 
nula quando p<0,05. Ou seja, existem menos 
de 5% de chances de meus dados estarem re-
lacionados ao acaso. Podemos considerar este 
número bastante rigoroso. Em uma compara-
ção simples, isto significa dizer que somente 
sairíamos de casa com guarda chuva quando a 
previsão do tempo apostasse 95% de chances 
de chover. Caso adotássemos este costume, 
com certeza seríamos pegos de surpresa di-
versas vezes.
Entretanto, em biologia, a observação 
dos padrões científicos deve ser forte. Diversos 
autores trabalham baseados em teorias e hi-
póteses formuladas em outros trabalhos. Sen-
do assim, um ponto de corte mais alto (valor 
de p alto) significaria que muitos trabalhos se-
riam inferências fracas sobre a realidade. Estu-
dos realizados na área da saúde, como testes 
de fármacos, desenvolvimento de vacinas, etc., 
geralmente consideram significativos valores 
de p<0,01. Ou seja, estes trabalhos são ainda 
mais rigorosos quanto a aceitar sua hipótese 
testada, o que é bastante recomendável.
Aceitar ou rejeitar hipóteses está intima-
mente relacionado a dois erros em testes de 
hipóteses: Erro do tipo I e erro do tipo II. Erros 
do tipo I consistem em rejeitar uma hipótese 
nula quando esta é verdadeira. Ou seja, tere-
mos uma explicação falsa para nosso evento. 
Já no erro do tipo II, o contrário é observado, 
aceitamos nossa hipótese nula, mesmo esta 
sendo falsa. Ou seja, o pesquisador falha em 
detectar a diferença entre os grupos. Vamos a 
um exemplo:
Um pesquisador encontra-se interessado 
em verificar se o rendimento escolar de um 
aluno está relacionado à indisciplina. Neste 
caso, ele utiliza um teste comparando alunos 
indisciplinados com alunos sem problemas 
neste quesito. Caso o pesquisador tenha falha-
do no delineamento de seu experimento (veja 
Unidade I) ele poderá erroneamente atribuir 
um baixo rendimento à indisciplina (erro do 
tipo I) ou assumir que a indisciplina não tem 
relação com o rendimento do aluno (erro do 
tipo II). Notem então que a análise, ou mesmo 
a interpretação errada dos seus dados, pode 
gerar tanto erros do tipo I quanto do tipo II em 
um mesmo desenho experimental. 
De maneira geral o erro do tipo I pode ser 
considerado mais grave, já que atribui a um 
mecanismo mais complexo uma explicação 
que é simplesmente obra do acaso. Outros 
pesquisadores podem se basear na sua pes-
quisa e desenvolver trabalhos naquela ale-
gação falsa. Já o erro do tipo II possivelmente 
será rapidamente visualizado, já que outros 
pesquisadores com dados mais completos ou 
experimentos mais organizados poderão rejei-
tar aquela hipótese nula e a ciência prossegui-
rá daquele ponto.
Sabendo-se então o significado de p em 
um teste estatístico, vamos enfim aos nossos 
testes.
30
UAB/Unimontes - 6º Período
4.1 Regressão linear simples: Um fator
As regressões são usadas na comparação 
de dados numéricos onde uma variável é colo-
cada em função da outra. Dizemos, portanto, 
que a variável “Y” é dependente da variável 
“X”. Em outras palavras, X explica as variações 
de Y. Por este motivo é comum encontrar nos 
livros de estatística a variável “Y” chamada de 
“variável resposta” e a variável “X” de “variável 
explicativa”. 
Podemos traduzir a influência desta vari-
ável na variável resposta (Y) em uma equação 
matemática como: 
Nesta equação “a” é a elevação ou o valor 
da variável resposta (Y) quando a variável ex-
plicativa é zero, este parâmetro é chamado de 
intercepto. O parâmetro “b” é a inclinação ou a 
quantidade que a resposta aumenta para cada 
unidade de aumento da variável explicativa. 
Viu?! Por isso que, em uma regressão, dis-
semos que uma variável “varia” em função da 
outra. 
Até o momento vimos dados categóri-
cos, em que os níveis são comparados entre si. 
Agora iremos relacionarduas variáveis quanti-
tativas e verificar se existe relação entre elas. 
Veja a figura 11.
Neste gráfico parece existir uma rela-
ção positiva entre o número de participações 
em sala de aula (Eixo y, variável resposta), em 
função do aumento da frequência de alunos 
presentes em sala de aula (Eixo X, variável ex-
plicativa). Ou seja, à medida que existam mais 
alunos em sala de aula, as aulas obterão um 
maior número de participação a respeito da 
matéria. 
Este gráfico nada mais é do que a repre-
sentação de uma tabela. Veja que se cruzar-
mos os dados da tabela no gráfico, como o 
jogo “batalha naval”, encontraremos cada um 
daqueles pontos no gráfico. 
Tabela 3. Dados quantitativos demonstrando os 
valores da relação entre o número de participações 
e a quantidade de alunos em sala de aula. 
Eixo x Eixo y
27 15
31 10
20 11
26 11
26 21
23 9
13 1
22 8
18 6
18 3
17 2
16 1
15 1
DICAS
A regressão é uma 
análise que visa basi-
camente estimar estes 
parâmetros e verificar 
se são estatisticamente 
significativos. 
◄ Figura 11: Relação 
entre o número de 
participações dos 
alunos em aula, e o 
número de alunos 
presentes em sala.
Fonte: Acervo autores
PARA REFLETIR 
A habilidade para in-
terpretar as estatísticas 
não é tão importante 
quanto à habilidade de 
interpretar gráficos
31
Ciências Biológicas - Análise de Dados Biológicos
Sabendo-se o conceito de inferência, agora podemos montar as hipóteses:
•	 H0: As participações não aumentam com o aumento no número de alunos na sala de aula. 
•	 H1: As participações aumentam com o número de alunos na sala de aula. 
Nossa equação, colocando * para representar a multiplicação, fica: 
•	 y (Participação em sala de aula) = a + b * x (Frequência de alunos)
Para sabermos se existe uma relação 
entre estas duas variáveis é necessário esti-
mar os parâmetros a e b. Mas antes iremos 
verificar se o modelo construído é válido es-
tatisticamente. Para isso devemos calcular a 
Soma dos quadrados totais, criando o mo-
delo de análise de variância geral. Se a rela-
ção for linear, a probabilidade de se detec-
tar uma relação aumenta com o aumento da 
amplitude do intervalo (valores do eixo X). 
Observe as figuras abaixo contendo as varia-
ções em torno das Hipóteses. 
A figura três representa a soma dos 
quadrados dos erros (SQE) em relação aos 
valores estimados pelo modelo. Basica-
mente quando fazemos linhas retas em 
gráficos, buscamos minimizar a distância 
média da linha aos pontos. É exatamente 
isso que o modelo prediz, ou seja, quanto 
mais próximo minha reta está dos pontos 
amostrados, mais chances de acertar ao 
dizer que minhas variáveis se relacionam. 
Menor é o erro! 
Isso ocorre porque com o SQE obtemos a 
soma de quadrados da regressão (SQR), que é 
dada pela seguinte fórmula: 
Isso significa que quanto menor o erro 
DICAS
Quando nós, outras 
pessoas, ou programas 
de estatística colo-
cam linhas retas em 
gráficos, fazem isto 
minimizando a distân-
cia média da linha aos 
pontos (Magnusson e 
Mourão, 2005).
Figura 12: 
Representação da 
variância em torno da 
H0.
Fonte: Acervo autores
►
Figura 13: 
Representação da 
variância em torno da 
H1.
Fonte: Acervo autores
►
32
UAB/Unimontes - 6º Período
(SQE), maior será a SQR. Entretanto, para verifi-
car se esta relação é significativa devemos cal-
cular o valor de “F” obtido através da fórmula: 
Como podemos observar o valor de “F” 
leva em consideração os graus de liberdade 
utilizados no modelo (glregressão), agora é des-
cobrir qual a probabilidade associada a este F 
com os respectivos graus de liberdade. 
Não se preocupem, não precisamos 
fazer estes cálculos com uma calculadora, 
existe uma série de programas estatísticos 
que fazem isso com apenas um coman-
do. Aqui, no meu caso, estou utilizando o 
software R (disponível: http://cran.r-project.
org/), um programa gratuito, fácil de ser 
instalado em seu computador, mas de ope-
ração um pouco mais complicada, quando 
comparado a programas pagos, disponí-
veis no mercado. 
Portanto para verificar a probabilidade 
associada ao F e aos graus de liberdade, 
através de uma análise de variância, basta 
digitar: 
Anova (modelo).
Tabela 4: Tabela de análise de variância. Os graus de liberdade estão representados em “Df” (degrees of 
freedom), soma dos quadrados por “Sum Sq” e a média da soma dos quadrados por “Mean Sq”.
Tabela de variância 
Variável resposta (Y): Número de participações em sala 
Df Sum Sq Mean Sq F valor P valor 
N. alunos 1 289.282 289.282 19.668 0.001**
Residuals 11 161.795 14.709 
** Indica a significância do teste
Vejam que a probabilidade da relação 
entre as variáveis ser casual foi igual a 0,001 
(Tabela 2), ou seja, existe 1 chance em 1000 de 
mentir quando afirmamos que o número de 
alunos dentro da sala de aula afeta a participa-
ção durante as aulas. De fato ter muitos alunos 
em sala de aula é importante para o número 
de participações. 
Para completarmos nossa análise e nossa 
equação, devemos obter os valores dos parâ-
metros a e b. Para ambos as formulas são sim-
ples, veja: 
Onde “n” é o número de amostras, Ȳ e Ẋ 
são as médias dos valores dos eixos y e x res-
pectivamente. O único problema de refazer 
dados biológicos à mão, utilizando apenas 
uma calculadora, é de que normalmente nos-
sos dados giram em torno de dezenas de nú-
meros, que somados, utilizam várias casas 
decimais. Portanto, atualmente estes valores, 
para nossa sorte e prazer, podem ser adquiri-
dos em qualquer programa de estatística que 
existe, apenas devemos pedir o resumo (sum-
mary) da análise. 
Summary (modelo)
Tabela 5. Resumo da análise de variância. Demonstrando os coeficientes da análise de variância. O 
“Estimate” representa as estimativas dos valores utilizados na regressão, “a” o intercepto e “b” o coeficiente 
angular. 
Coefficients:
Estimate Std. Error t value Pr(>|t|) 
(Intercept) -11.3814 4.4137 -2.579 0.02565 * 
Nalunos 0.9079 0.2047 4.435 0.00100 **
Std. error (Erro padrão) T value (Valor do teste T, “Valor crítico” é a diferença entre as médias, divididas pelo desvio 
padrão, usadas no calculo da probabilidade da hipótese nula ser verdadeira.
33
Ciências Biológicas - Análise de Dados Biológicos
Nossa equação era: “Participação em sala 
de aula = a + b * Frequência de alunos”. Agora 
iremos substituir os valores para definirmos o 
gráfico. Na seção “Estimate” estão os valores 
estimados do intercepto “a” (-11.3814) e do co-
eficiente angular “b” (0.9079), substituindo a 
formula fica:
Participação em sala de aula = -11.3814+ 
0.9079*x
Resumindo a matemática dos nossos cál-
culos, na ausência de alunos na sala de aula, o 
número de participações é -11.3814 (a ou inter-
cepto) e o incremento de um aluno na sala de 
aula provoca o aumento de 0.9079 participa-
ções na aula (b ou inclinação da reta). 
4.2 Regressão múltipla: múltiplos 
fatores
A regressão múltipla segue as mesmas 
premissas da regressão simples. Entretanto a 
regressão múltipla envolve mais de um fator 
influenciando na sua variável resposta, ou seja, 
ainda que exista apenas uma variável respos-
ta, devem existir duas ou mais variáveis expli-
cativas. 
A proposta deste tipo de análise é reduzir 
o coeficiente do intercepto, o qual, em regres-
são, significa a parte da variável dependente 
explicada por outras variáveis, que não a con-
siderada no modelo. Em outras palavras, ao 
inserir mais de uma variável explicativa, a vari-
ância residual (ERRO PADRÃO DA ESTIMATIVA) 
diminui, e aumenta a força dos testes de signi-
ficância. Além disso, podemos eliminar a ten-
denciosidade que poderia resultar se simples-
mente ignorássemos uma variável

Continue navegando