Buscar

modelos lineares_FINAL1

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 86 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 86 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 86 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

1 
 
 
 
 
 
 
 
 
MODELOS LINEARES 
CONCEITOS E APLICAÇÕES BIOLÓGICAS 
Versão 1.0 
 
 
 
 
 
 
Mariane Bosholn 
 Pedro Aurélio Costa Lima Pequeno 
Tainara Venturini Sobroza 
 
 
 
 
 
Boa Vista, Roraima 
 Janeiro de 2020 
2 
 
Sumário 
SOBRE OS AUTORES 4 
SOBRE OS DADOS UTILIZADOS AO LONGO DA APOSTILA 5 
APRESENTAÇÃO 6 
1. VARIÁVEIS E RELAÇÕES 7 
Variabilidade 8 
Medindo a variância conjunta de duas variáveis 10 
2. INFERÊNCIA ESTATÍSTICA 15 
Medindo incertezas 15 
Estatísticas 19 
3. REGRESSÃO 21 
Método dos Mínimos Quadrados 21 
Estimando a dispersão dos pontos 24 
Por que “regressão”? Uma velha história sobre gigantes e anões 26 
Trabalhando com variáveis em diferentes escalas 29 
4. RELAÇÕES CURVILÍNEAS 30 
Alometria 30 
Relações não monotônicas 35 
5. REGRESSÃO MÚLTIPLA 38 
Quebrando relações entre preditores 38 
Interação entre preditores 42 
Preditores categóricos 44 
6. SIMULAÇÕES 46 
Criando modelos estocásticos 46 
7. MODELOS LINEARES GENERALIZADOS 50 
Desvios da normalidade 50 
3 
 
Distribuição de Poisson 50 
Máxima verossimilhança (Likelihood) 54 
Distribuição binomial negativa 60 
Distribuição Gama 62 
Distribuição de Bernoulli 64 
A família exponencial 66 
8. CRITÉRIOS DE INFORMAÇÃO 68 
Critério de Informação de Akaike (AIC) 68 
9. MODELOS LINEARES (GENERALIZADOS) DE EFEITOS MISTOS 69 
Autocorrelação 69 
Fator aleatório 71 
Hierarquias 76 
Comunidades ecológicas: um exemplo de Modelo Linear Generalizado Misto 
(GLMM) 76 
Máxima verossimilhança restrita (REML) 81 
Uma nota sobre fatores aleatórios 82 
10. CONSIDERAÇÕES FINAIS 83 
REFERÊNCIAS PRINCIPAIS 85 
 
 
4 
 
SOBRE OS AUTORES 
 
Esta apostila foi desenvolvida por uma discente e dois ex-discentes do Programa de 
Pós-graduação em Ecologia do Instituto Nacional de Pesquisas da Amazônia 
(INPA). Os três autores colaboraram igualmente na produção da obra. 
 
Mariane Bosholn 
Bacharela em Ciências Biológicas formada pela Universidade Federal de Santa 
Maria (UFSM), é Mestra e Doutora em Biologia (Ecologia) pelo Instituto Nacional de 
Pesquisas da Amazônia. Tem experiência em ecologia de vertebrados, fisiologia 
animal, estatística, e na linguagem computacional R. Lattes: 
http://lattes.cnpq.br/8102271563187887 
 
Pedro Aurélio Costa Lima Pequeno 
Bacharel em Ciências Biológicas formado pela Universidade Federal do Amazonas 
(UFAM), é Mestre e Doutor em Biologia (Ecologia) pelo Instituto Nacional de 
Pesquisas da Amazônia. Atualmente, é bolsista de pós-doutorado no Programa de 
Pós-graduação em Recursos Naturais (PRONAT) da Universidade Federal de 
Roraima (UFRR). Tem experiência em ecologia, biologia evolutiva, comunicação 
científica, estatística e delineamento amostral, e na linguagem computacional R. 
Lattes: http://lattes.cnpq.br/7013126109041225 
 
Tainara Venturini Sobroza 
Bacharela em Ciências Biólogicas formada pela Universidade Federal de Santa 
Maria (UFSM), e Mestra em Biologia (Ecologia) pelo Instituto Nacional de Pesquisas 
da Amazônia. Atualmente, é doutoranda em Biologia (Ecologia) no mesmo instituto. 
Tem experiência em ecologia de vertebrados, comportamento animal, com ênfase 
em bioacústica, estatística, e na linguagem computacional R. Lattes: 
http://lattes.cnpq.br/5061460882816513 
 
 
 
5 
 
SOBRE OS DADOS UTILIZADOS AO LONGO DA APOSTILA 
 
A fim de enfatizar o valor prático dos métodos discutidos nesta apostila, nós usamos 
dados reais para ilustrar vários conceitos. Em particular, três conjuntos de dados são 
usados: 
1) Biomassa de palmeiras em uma floresta na Amazônia. Estes dados 
compreendem estimativas de biomassa acima do solo de palmeiras em 30 parcelas 
de 1 hectare situadas na Reserva Ducke, Manaus, AM. Os dados estão disponíveis 
como apêndice em Castilho et al. (2006). Nós agradecemos à gentileza dos autores 
pelo compartilhamento dos dados. 
2) Abundâncias de palmeiras da tribo Euterpeae na Amazônia. Estes dados 
consistem em contagens de cinco espécies desta tribo em 30 parcelas de 250 x 4 m 
situadas na Reserva Ducke, Manaus, AM. Os dados já foram usados em 
publicações (p.ex. Costa et al. 2008, Schietti et al. 2013, de Freitas et al. 2014) e 
estão disponíveis no repositório de dados do Programa de Pesquisas em 
Biodiversidade (https://ppbio.inpa.gov.br/repositorio/dados), com o título: 
Jean Louis Guillaumet, Albertina Lima, and Flávia Costa. Composição da 
comunidade de palmeiras da Reserva Ducke. Programa de Pesquisa em 
Biodiversidade (PPBio). 
Nós agradecemos à gentileza dos autores pelo compartilhamento dos dados. 
3) Dados de altura de pais e filhos. Estes dados foram usados originalmente no 
trabalho clássico de Francis Galton (1886) sobre a herança da estatura em 
humanos, e compreendem as alturas de 889 pessoas e de seus respectivos pais. Os 
dados são de domínio público, e podem ser facilmente encontrados na internet. 
 
 
 
https://ppbio.inpa.gov.br/repositorio/dados
6 
 
APRESENTAÇÃO 
 
Esta apostila foi criada como material de apoio à disciplina de “Modelos Lineares: 
Conceitos e Aplicações”, oferecida através do Programa de Pós-graduação em 
Ecologia do Instituto Nacional de Pesquisas da Amazônia (INPA) a partir de 2018. O 
objetivo da disciplina é oferecer uma visão geral sobre os principais conceitos 
envolvidos no uso de modelos lineares para responder questões em ecologia e 
áreas afins. 
Enfatizamos que esta NÃO É uma apostila sobre delineamento amostral ou 
programação estatística; há outras apostilas gratuitas com uma destas finalidades 
(p.ex. Landeiro & Baccaro 2018). Portanto, o leitor não encontrará códigos de 
programação, e os resultados apresentados de programas estatísticos servem 
apenas para ilustrar os conceitos discutidos. Além disso, você poderá encontrar 
detalhes mais aprofundados dos tópicos abordados em livros e artigos específicos 
sobre estatística (p.ex. Zuur et al., 2009, 2010, Kéry 2010, Gotelli & Ellison 2010, 
Magnusson et al. 2015). 
Em sua versão atual, a apostila é um projeto em construção; ela (ainda) não é um 
texto plenamente autodidático. Porém, serve como texto introdutório, e como um 
guia “amigável” para conceitos normalmente abordados em linguagem mais técnica 
pela literatura primária (artigos, livros-texto). 
 
Em caso de dúvidas/sugestões, escreva para os autores: 
Mariane Bosholn: bosholn.m@gmail.com 
Tainara V. Sobroza: tv.sobroza@gmail.com 
Pedro A. C. L. Pequeno: pacolipe@gmail.com 
 
Bom estudo! 
 
7 
 
1. VARIÁVEIS E RELAÇÕES 
 
A ciência – da física e química à economia e sociologia, passando pela geologia, 
biologia e psicologia – avança através de um mesmo processo: fazemos uma 
pergunta, pensamos em uma ou mais possíveis respostas para esta pergunta 
(hipóteses), e coletamos dados para responder à pergunta. Se os dados apoiarem 
nossa(s) hipótese(s), isto sugere que nossas ideias fazem algum sentido. Caso 
contrário, estamos errados. Apesar de poderem ter motivações muito diferentes, 
quase todas as perguntas científicas envolvem o mesmo problema geral: a 
existência (ou não) de relações entre características que variam, seja no espaço, 
seja no tempo. 
Determinar relações é útil porque permite explicar, predizer e controlar fenômenos 
naturais. Por exemplo, sabemos que há uma relação entre a sobrevivência do 
mosquito da dengue (Aedes aegypti) e a velocidade da água: geralmente, o 
mosquito não se desenvolve em água corrente. Este conhecimento permite prever 
em que ambiente há maior risco do mosquito proliferar, e sugere como evitar que 
isso ocorra – basta evitar focos de água parada. Outro exemplo: sabemos que existe 
uma relação entre a concentração de gás carbônico e a quantidade de calor retida 
pelo ar. Por isso, podemos prever que se continuarmos queimando combustíveis 
fósseis (seja através de motores ou incêndios florestais), a temperatura do ar deverá 
aumentar – e, portanto, a forma mais simples de evitar issoseria parar de queimar 
combustíveis fósseis. Ao testar possíveis relações com dados, podemos discriminar 
entre quais relações fazem sentido e quais não fazem, usar as primeiras e descartar 
as últimas. 
Porém, para medirmos o quanto duas variáveis mudam juntas (i. e. quanta 
variabilidade é compartilhada entre variáveis), precisamos primeiro de uma forma de 
medir variabilidade propriamente dita, ou o quão diferentes os valores de uma 
variável são. 
 
8 
 
Variabilidade 
 
Em qual dos grupos a variável Y varia mais, A ou B (figura 1.1)? 
 
Figura 1.1. Variável Y com diferentes variabilidades entre dois grupos, A e B. Cada 
ponto representa uma observação; a linha horizontal representa a média. 
 
Podemos dizer que B é mais variável que A, porque os valores de Y são mais 
diferentes entre si. Uma simples forma de contabilizar a variabilidade desse gráfico 
seria através da soma das distâncias de cada ponto até a média (linha horizontal na 
figura 1.1). Assim, teremos um número que será maior quanto mais diferentes da 
média forem os valores (i. e. grupo B na figura 1.1). No entanto, se fizermos isto, 
valores acima da média serão positivos, e abaixo da média, negativos. Ao somar 
valores negativos e positivos, eles se anularão! Para eliminar os valores negativos e 
medir a variabilidade, usa-se a soma dos quadrados (Sum of the Squares-SS), que é 
a soma dos desvios de cada observação elevadas ao quadrado. Como qualquer 
número elevado ao quadrado é positivo, isto garante que só somaremos valores 
positivos (e que os desvios não se anularão). Se dividirmos a soma dos quadrados 
pelo número de observações, teremos o desvio quadrado médio, mais conhecido 
como variância. Uma desvantagem da soma dos quadrados ou variância para medir 
9 
 
variabilidade é que, como os desvios são elevados ao quadrado, a unidade de 
medida da nossa variável Y também é elevada ao quadrado. Normalmente, 
queremos falar da nossa variável na escala original, não na escala ao quadrado! 
Para voltar a escala original, precisamos tirar a raiz quadrada. A raiz quadrada da 
variância é denominada desvio padrão (Standart Deviation- SD) (Figura 1.2). 
 
 
Figura 1.2. Medidas de variabilidade (soma dos quadrados, variância e desvio 
padrão) baseadas no desvio de cada observação em relação à média, elevado ao 
quadrado (e2). 
 
A soma dos quadrados (SS), variância (var) e desvio padrão (SD) são diferentes 
maneiras de medir variação e de certa forma são análogas: quanto maior a soma 
das quadrados, maior a variância, e maior o desvio padrão. A diferença entre elas 
está na escala. Porém o SD é mais comumente usado, pois representa a escala 
original dos dados, enquanto a SS e a variância são potências (i.e. baseadas nos 
desvios elevados ao quadrado). 
 
10 
 
Medindo a variância conjunta de duas variáveis 
Geralmente queremos entender a relação entre variáveis diferentes e, portanto, a 
variância conjunta das variáveis, i.e. o quanto elas mudam juntas. Para isto, 
podemos usar um gráfico cujos eixos representam as variáveis (Y, eixo vertical; X, 
eixo horizontal), e cada observação é representada por um ponto. Em um gráfico 
como este, cada ponto amostral apresenta desvios tanto em relação à média do eixo 
X, quanto em relação à média do eixo Y. Uma forma de sumarizar a variação 
conjunta de duas variáveis é através do produto dos desvios de x e y, o que é 
chamado de produto cruzado (Figura 1.3). 
 
𝒆𝒙 = 𝒙 − 𝒙 
𝒆𝒚 = 𝒚 − 𝒚 
𝒎é𝒅𝒊𝒂 = 𝒆𝒙 ∗ 𝒆𝒚 (produto cruzado) 
Figura 1.3. Produto cruzado entre duas variáveis. Cada observação (ponto) tem um 
desvio em relação à média de X e de Y. Se multiplicarmos estes dois desvios, 
teremos um valor que reflete o quanto esta observação varia no mesmo sentido ao 
longo das duas variáveis: quanto maiores os dois desvios, maior será p produto. 
Agora, se um desvio for grande, mas o outro for pequeno, significa que as duas 
variáveis não estão mudando juntas, e o produto entre desvios será pequeno. 
 
11 
 
SS/nº de réplicas 
 
1 variável 2 variáveis 
 
Variância Covariância 
 
 
 
 
Podemos sumarizar os produtos cruzados entre duas variáveis calculando sua 
média, usualmente chamada de covariância. Quando duas variáveis variam 
conjuntamente (i.e. uma aumenta e a outra aumenta junto, ou uma aumenta e a 
outra diminui), o valor da covariância tende a ser grande. Por outro lado, quando as 
variáveis variam independentemente uma da outra, o valor tende a ser pequeno. 
 
 
 
 
 
 
 
Figura 1.4. Relação entre variância e covariância. Ambas são baseadas na 
multiplicação de desvios em relação à média. Porém, a variância mede a 
variabilidade de uma única variável (i.e. desvio de cada observação multiplicado por 
ele mesmo), enquanto que a covariância mede a variabilidade compartilhada entre 
duas variáveis (i.e. desvio de cada observação em relação a uma variável 
multiplicado pelo desvio da mesma observação em relação a outra variável). 
 
Uma limitação da covariância é que, muitas vezes, usamos variáveis em escalas 
diferentes. Por exemplo, em uma análise sobre a relação entre abundância de uma 
espécie (variável resposta) e a altitude (variável preditora), a unidade de uma das 
variáveis é indivíduo (i.e. uma contagem), enquanto a outra é metro. Logo, a unidade 
da covariância é... indivíduos × metro! Para a maioria das pessoas, isto não é muito 
intuitivo. Como resolver esse problema e colocar as variáveis medidas em escalas 
diferentes em uma mesma escala? Uma opção é dividir o desvio de cada ponto 
amostral pelo seu respectivo desvio padrão. Essa covariância padronizada pelos 
desvios padrões é conhecida como correlação (r). A vantagem é que, ao fazermos 
isso, a covariância passa a variar em uma escala padronizada de -1 a +1, e fica mais 
fácil falar o quanto duas variáveis mudam juntas, em termos relativos: quanto mais r 
se aproxima de 1 (positivo ou negativo), mais forte a relação entre as variáveis; 
quanto mais próximo de 0, mais fraca a relação. 
 
 
12 
 
 
 
Figura 1.5. Colocando variáveis medidas em escalas diferentes na mesma escala. 
Se dividirmos os desvios das observações pelo desvio padrão da variável, 
automaticamente os valores passam para a mesma escala: a escala dos desvios 
padrões. Isto ocorre porque dividimos a unidade original pela unidade do desvio 
padrão (que é a mesma unidade original da variável). Logo, as duas unidades se 
cancelam. Note que, após esta padronização, as variáveis passam a ter média 0; 
valores maiores que a média, passam a ser positivos, e menores, negativos. 
 
O coeficiente de correlação é útil como uma medida rápida do quão fortemente 
relacionadas duas variáveis estão (figura 1.6). 
13 
 
 
Figura 1.6. Relação entre biomassa de palmeiras e teor de fósforo do solo na 
Reserva Ducke, Manaus, AM. A correlação medida (r = 0.74) sugere uma relação 
positiva, moderada à forte. Isto está de acordo com o padrão que observamos no 
gráfico. 
Às vezes, medimos uma série de variáveis, e queremos saber quais variam mais e 
quais variam menos. Frequentemente, a variabilidade (i.e. soma dos quadrados, 
variância ou desvio padrão) aumenta conforme a média aumenta. Isto significa que, 
se medirmos uma mesma variável em escalas diferentes (e.g. temperatura em graus 
Celsius, Farenheit ou Kelvin), o simples fato de mudarmos a escala pode fazer com 
que nossas medidas variem mais ou menos! Normalmente, queremos uma medida 
de variabilidade que permita comparar variáveis entre si, independentemente da 
escala em que foram medidas. Nesse caso podemos dividir o desvio padrão pela 
média e obter o coeficiente de variação (CV), uma medida padronizada da variação 
de uma variável. Esse coeficiente é usado para diminuir o efeito da média sobre a 
variabilidade da variável. 
14 
 
 
Figura 1.7. Variáveis com maior média geralmente têm maior variabilidade (B).O 
coeficiente de variação usa essa relação para padronizar a variabilidade de variáveis 
com médias diferentes, permitindo comparações diretas entre elas. 
 
 
 
 
 
Sumarizando: 
Correlação é a covariância padronizada 
Covariância é a variância compartilhada entre duas variáveis 
Variância é a média da soma dos quadrados 
Desvio padrão é a raiz quadrada da variância 
15 
 
2. INFERÊNCIA ESTATÍSTICA 
Medindo incertezas 
Quase sempre, queremos usar nossos dados para fazer extrapolações sobre coisas 
mais gerais. Por exemplo, no caso das palmeiras (figura 1.6), observamos uma 
relação entre biomassa e fósforo nas 30 parcelas de 1 hectare na Reserva Ducke. 
Se quisermos saber qual a correlação entre essas variáveis apenas nessas 
parcelas, já vimos que ela é exatamente r = 0,74. Mas e se quisermos falar sobre 
essa relação na Reserva Ducke como um todo, que tem 10.000 hectares, e não 
apenas nas 30 parcelas que observamos? Intuitivamente, as 30 parcelas devem nos 
informar algo sobre a Reserva, mas o quanto? Há uma incerteza associada quando 
extrapolamos qualquer conclusão baseada nos dados observados para a Reserva 
inteira, cuja maior parte não foi observada. 
Neste exemplo, as parcelas observadas representam nossa amostra, e cada 
parcela é uma unidade amostral, i.e. aquilo em que medimos nossas variáveis. A 
Reserva Ducke representa a área maior sobre a qual queremos falar, ou nosso 
universo amostral. O valor da correlação observado na nossa amostra, que 
sabemos com certeza, é uma estimativa. Já o valor real da correlação na Reserva 
Ducke como um todo, que não sabemos com certeza, é um parâmetro. Assim, 
pode-se dizer que os pesquisadores estão quase sempre tentando estimar ou 
“chutar” um ou mais parâmetros, que permitem responder a questão científica de 
interesse. É esse “chute” que chamamos de inferência. 
Para que nossas inferências funcionem, precisamos de três coisas. Primeiro, nossas 
unidades amostrais devem ser independentes, i.e. cada unidade amostral deve 
fornecer informação adicional sobre o universo amostral de interesse, ao invés de 
repetir a mesmo informação. Por exemplo, no caso das palmeiras, podemos 
demarcar parcelas em lugares diferentes, ou no mesmo lugar (p.ex. parcelas 
coladas uma na outra, ou totalmente sobrepostas). Este é um exemplo extremo, mas 
obviamente, parcelas repetidas no mesmo lugar fornecem menos informação sobre 
uma área do que parcelas espalhadas pela mesma área. Segundo, nossa amostra 
deve ser representativa do universo amostral. Isto quer dizer que a variabilidade que 
existe no universo amostral também deve existir na amostra. No caso das palmeiras, 
as 30 parcelas espalhadas pela Reserva Ducke podem ser representativas da 
16 
 
Reserva, mas certamente não serão representativas de Manaus, da Amazônia, do 
Brasil, etc., já que não abrangem toda variabilidade possível nessas áreas. Terceiro, 
precisamos medir o tamanho da incerteza associada à nossa estimativa do 
parâmetro, de modo podermos julgar se nosso “chute” é razoável ou não, ou se 
temos evidência suficiente para concluir algo sobre o universo amostral ou não. Em 
geral, quanto maior o tamanho da amostra (i.e. mais unidades amostrais), menor a 
incerteza da nossa estimativa e, portanto, mais confiáveis nossas chutes sobre o 
universo amostral. Porém, há várias formas de medir o tamanho da nossa incerteza. 
A seguir, veremos algumas das mais amplamente usadas pelos cientistas. 
Uma forma de medir a incerteza associada a uma estimativa é simular estimativas 
que sabemos terem sido geradas por acaso. Por exemplo, no caso das palmeiras, 
podemos “embaralhar” os valores de biomassa e fósforo na nossa tabela, i.e. trocar 
a ordem dos valores entre parcelas, aleatoriamente. Ao fazermos isso, nós 
automaticamente quebramos qualquer relação real que possa existir nos dados, já 
que desfazemos o pareamento original entre os valores de biomassa e fósforo. 
Qualquer padrão que ocorrer após o embaralhamento surgiu, necessariamente, por 
acaso! Assim, podemos embaralhar os valores, calcular a correlação e anotar o 
valor, uma, duas, três vezes... Repetindo este processo centenas ou milhares de 
vezes, teremos uma série de correlações geradas ao acaso, com uma dada 
distribuição de frequências: por acaso, alguns valores podem ser mais comuns que 
outros. Uma distribuição de estimativas geradas ao acaso é conhecida como 
distribuição nula. A partir disso, podemos comparar nossa estimativa original com 
esta distribuição, e perguntar: qual a chance de ela ter sido gerada por acaso? Se o 
valor observado (r = 0.74) tiver for muito frequente na distribuição gerada ao acaso, 
então a chance é grande; caso contrário, é pequena! Quanto menor esta chance, 
mais confiantes de que nossa estimativa é extrapolável para o universo amostral de 
interesse, já que ela não surgiu por acaso na nossa amostra. A probabilidade de 
uma estimativa igual ou mais extrema que aquela a observada ser gerada ao acaso 
é conhecida como P. 
17 
 
 
Figura 2.1. Distribuição de frequências das correlações entre o teor de fósforo do 
solo e a biomassa de palmeiras, geradas ao acaso (distribuição nula). Os valores 
das variáveis usados na correlação foram aleatorizados 1000 vezes. A seta preta 
representa o valor da correlação observado com os dados reais. 
 
Como podemos perceber na figura 2.1, pouquíssimas correlações geradas através 
desse modelo nulo foram maiores que a correlação entre os dados originais 
(cor=0.74). Portanto, a probabilidade da associação observada originalmente ter sido 
gerada ao acaso é baixa (p<0.05). Já na figura 2.3, podemos ver que o valor da 
correlação original (cor= -0.02) é similar aos valores de correlação geradas ao 
acaso. Portanto, a probabilidade da associação entre os dados originais ter sido 
gerada ao acaso é alta (p>0.05). Assim, o P funciona como uma medida do tamanho 
da nossa incerteza em relação ao quanto podemos extrapolar nossa estimativa para 
o universo amostral: quanto maior o valor de P, maior a incerteza. 
Uma forma alternativa de medir a incerteza associada a uma estimativa é 
quantificar a variabilidade da estimativa propriamente dita: se pudéssemos coletar 
nossos dados novamente e calcular a estimativa de novo, o quão diferente ela 
seria? Se for muito diferente, então a incerteza associada à nossa estimativa é 
grande. Se for muito parecida, a incerteza é pequena. Na prática, porém, 
normalmente não coletamos nossos dados várias vezes; coletamos só uma. O que 
podemos fazer é simular várias coletas novas coletas com o mesmo número de 
observações da nossa amostra verdadeira, sorteando as linhas da nossa tabela de 
18 
 
dados (i.e. unidades amostrais) com reposição (i.e. cada linha pode ser amostrada 
mais de uma vez). A ideia é simples: se nossa amostra é representativa do universo 
amostral, então amostras representativas da nossa amostra necessariamente 
devem ser representativas do universo amostral (i.e. se A = B, e B = C, então A = 
C!). O procedimento de simular estas novas amostras também é conhecido como 
bootstrap. Uma vantagem dessa abordagem é que ela não exige uma hipótese nula 
específica inicial. 
O desvio padrão das estimativas calculadas a partir das amostras obtidas por 
bootstrap é chamado de erro padrão, e representa a variabilidade esperada da 
nossa estimativa, ou o quão imprecisa ela é. Quanto maior o erro padrão, maior a 
incerteza (ou menor a precisão). Já o intervalo que contém 95% das estimativas 
simuladas é chamado de intervalo de confiança de 95%. 
 
Figura 2.2. Distribuição de estimativas simuladas por bootstrap. O desvio padrão das 
estimativas é conhecido como erro padrão. 
 
19 
 
 
 
 
Figura 2.3. Comparação entre distribuição nula e distribuição de uma estimativa 
gerada por bootstrap. Em geral, quanto menor a precisão de uma estimativa, mais 
essas duas distribuições se sobrepõem. Logo, quanto mais evidência temos contraa 
hipótese nula (menor P), maior a precisão da nossa estimativa (mais estreito o 
intervalo de confiança). 
 
Interessantemente, podemos usar tanto o valor de P quanto do intervalo de 
confiança para testarmos as nossas hipóteses (figura 2.3). 
Estatísticas 
Simulações são úteis para obter medidas de incerteza, mas só são praticáveis 
porque temos computadores que fazem muitas repetições rapidamente. Durante a 
20 
 
maior parte da história da humanidade, não havia computadores eficientes ou 
disponíveis o suficiente para isso. Por isso, os estatísticos desenvolveram uma 
teoria matemática que permite aproximar o valor de P a partir de alguns 
pressupostos sobre os dados. A vantagem é que isto permite calcular o valor de P 
usando algumas fórmulas relativamente simples, sem a necessidade de inúmeras 
simulações. Por exemplo, para obter o valor de P associado a hipótese nula de que 
um coeficiente de correlação é igual a zero, podemos usar uma quantidade 
conhecida como estatística t: 
t= r √𝒏 − 𝟐/ 𝟏 − 𝒓² 
Dados certos pressupostos, a estatística t tem uma distribuição nula conhecida, e 
isso permite calcular o valor de P e intervalos de confiança rapidamente. Há muitas 
estatísticas, cada uma apropriada para certas situações (p.ex. estatística t, F, z, χ², 
razão de verossimilhanças, etc.). 
É importante destacar que todas elas seguem a mesma lógica: por si só, elas não 
significam muita coisa; sua utilidade está no fato de permitirem aproximar o valor de 
P rapidamente, usando apenas fórmulas. Logo, podemos pensar nas estatísticas 
como intermediários, ou “laranjas”. Hoje, com as facilidades dos computadores, fazer 
muitas simulações rapidamente não é mais um problema. Porém, por conveniência, 
as estatísticas continuam sendo usadas rotineiramente pelos programas estatísticos. 
 
21 
 
3. REGRESSÃO 
Método dos Mínimos Quadrados 
Coeficientes de correlação são medidas rápidas e úteis da força da relação entre 
duas variáveis. Porém, eles também são medidas grosseiras para responder a 
perguntas biológicas. Isto é ilustrado pela figura 3.1, onde três nuvens de pontos 
ocupando diferentes posições no gráfico têm exatamente a mesma correlação. 
 
 
Figura 3.1. Três relações diferentes entre duas variáveis, com a mesma correlação (r 
= 1). Ao olharmos apenas para o número, perdemos informação sobre as diferenças 
entre as três nuvens de pontos. 
 
Idealmente, gostaríamos de ter uma forma de representar estas três relações que 
salientasse suas diferenças. Ou seja, gostaríamos de representar não apenas a 
força da relação, mas também sua forma. Pensando nisso, qual a maneira mais 
simples de representar a forma da relação entre duas variáveis? Uma simples linha 
reta! Neste caso, usamos uma reta como representação de como a variável 
dependente (Y) tende a mudar em função da variável independente ou preditora (X). 
A medida mais simples de tendência (i.e. o que ocorre com a maioria) é a média. 
Portanto, usamos a reta para representar a média de Y ao longo de X. A vantagem 
de fazermos isso é que a reta pode ser descrita por uma simples equação, que 
sumariza a forma da relação entre Y e X: 
22 
 
𝒚 = 𝒂 + 𝒃𝒙 
Onde 𝒃 =
𝒄𝒐𝒗( 𝒙,𝒚)
𝒗𝒂𝒓(𝒙)
 e 𝒂 = 𝒚 − 𝒃𝒙 
 
A fórmula acima é conhecida como equação da reta, onde “Y” representa a variável 
resposta, “x” a variável preditora, e “a” e “b” são constantes ou coeficientes: “a” é 
conhecido como intercepto, e “b”, a inclinação da reta (slope). Em um gráfico, o “a” 
coincide com o local onde a reta corta o eixo vertical (ou seja, no Y) quando o X é 
igual à zero. Logo, sua unidade de medida é a mesma unidade de Y. Já o “b” 
representa o quanto “y” muda por unidade de “x”. Ou seja, tal medida é uma taxa e, 
portanto, sua unidade de medida é uma razão entre as unidades de Y e X. 
No exemplo abaixo (figura 3.2), temos uma relação hipotética entre a abundância 
(número de indivíduos) de jararacas-do-norte (Bothrops atrox) em um dado local e a 
distância (m) até o igarapé1 mais próximo. O gráfico é baseado na relação geral 
revelada pela pesquisa de biólogos: normalmente, há mais jararacas na beira dos 
igarapés; quanto mais distante, menos jararacas. A reta representa a abundância 
média de jararacas. Assim, a unidade do intercepto é número de indivíduos, 
enquanto a unidade da inclinação é número de indivíduos. Porém, note que, embora 
haja uma tendência, há variação em torno da tendência. Isto ocorre na maioria das 
relações observadas no mundo real: para um mesmo valor de X, Y pode desviar 
acima ou abaixo da média, porque há outros fatores que afetam Y. As setas em 
vermelho representam o valor dos desvios, também chamados de resíduos. O 
resíduo nada mais é que a distância entre o ponto amostral e o valor predito pela 
reta (i.e. a média de Y). 
 
 
1 “Igarapé” é o nome comum dado a córregos ou riachos na Amazônia. 
23 
 
 
 
Figura 3.2. Relação entre abundância de jararacas (Bothrops atrox) e distância até 
igarapé mais próximo (m). A reta representa como a abundância média muda me 
função da distância até o igarapé. As setas representam os resíduos, i.e. a distância 
entre cada observação e a média predita pela reta. “Y”, “X”, “a” e “b” são as variáveis 
dependente, independente, intercepto da reta, e a inclinação da reta, 
respectivamente. 
 
Para determinar o local exato da posição da reta, precisamos de um método para 
estimar o valor do intercepto e da inclinação. Poderíamos simplesmente usar o 
“olhômetro” e traçar a reta na posição que julgamos melhor representar a tendência. 
O problema é que, se diferentes pessoas fizerem isso, provavelmente traçam retas 
um pouco diferentes, mesmo que sejam os mesmos dados. Logo, precisamos de um 
critério objetivo, de modo que qualquer pessoa analisando os mesmos dados 
cheguem à mesma conclusão. O método mais popular para fazer isso é conhecido 
como Método dos Mínimos Quadrados (Mínimos Quadrados Ordinários (MQO) ou 
Ordinary Least Squares (OLS)). Esse método busca a melhor reta para um conjunto 
de dados minimizando a soma dos resíduos elevados ao quadrado. Isso faz sentido 
porque, intuitivamente, a reta que melhor representa a relação é aquela que paca no 
“meio” dos pontos, de modo que as distâncias entre os pontos e as retas sejam 
relativamente pequenas. Assim, fizermos duas retas – uma passando próxima aos 
pontos e outra longe –, calcularmos os resíduos e os somarmos, veremos que a reta 
que passa mais perto terá uma soma menor, porque os resíduos são menores. 
Porém, antes de somar, precisamos elevar cada resíduo ao quadrado, caso 
24 
 
contrário resíduos positivos (i.e. acima da média prevista pela reta) serão somados 
com resíduos negativos (i.e. abaixo da média prevista pela reta), cancelando uns 
aos outros! Daí o nome “mínimos quadrados”. No exemplo abaixo (figura 3.3.), a 
soma é menor no gráfico à esquerda. Note que, como esperado, essa reta 
representa melhor os dados se comparada à reta do gráfico à direita. 
 
 
Figura 3.3. Comparação da soma dos quadrados de duas retas usadas para 
representar a relação entre abundância de jararacas e distância do igarapé. Em 
cada caso, primeiro os resíduos são calculados (i.e. distância entre cada observação 
e a média predita pela reta) e, então, cada um é elevado ao quadrado. Isso, 
graficamente, é o mesmo que calcular a área de um quadrado cujo lado é igual ao 
valor do resíduo. Então, as áreas de todos esses quadrados (um para cada 
observação) são somadas, obtendo a “soma dos quadrados”. A reta com a menor 
soma dos quadrados é a que melhor representa a nuvem de pontos. Note que, se 
uma observação cair exatamente sobre a reta, seu resíduo será zero, assim como a 
área do seu quadrado. 
 
Estimando a dispersão dos pontos 
Para completar nossa descrição sobre as formas da relação, também é importante 
termos uma medida da dispersão dos pontos ao redor da reta: quanto maior a 
dispersão, mais fracaa relação. Uma forma relativamente simples e geral é 
determinar o quão fortemente os valores observados da nossa variável dependente 
25 
 
(Y) estão relacionados aos valores preditos pela reta; quanto mais forte essa 
relação, maior o poder preditivo da reta. Já vimos que podemos medir a dispersão 
dos pontos em um gráfico usando o coeficiente de correlação. O problema é que o 
coeficiente de correlação pode ser negativo, mas a correlação entre valores 
observados e preditos nunca pode ser negativa; necessariamente, valores maiores 
de Y tenderão a estar associados a valores maiores preditos pela reta. Por isso, 
podemos mudar a escala do coeficiente de correlação de modo que, ao invés de 
variar entre -1 e 1, ele varie apenas entre 0 e 1. Como? Elevando-o ao quadrado! 
Este é o coeficiente de determinação, mais popularmente conhecido como R². Por 
variar entre 0 e 1, o R² pode ser interpretado como uma proporção ou percentagem, 
i.e. que proporção da variação em Y é explicada por X.. Quanto maior o R², maior é 
o poder preditivo de X sobre Y. 
 
Figura 3.4. Relação entre abundância de jararacas e distância do igarapé, 
representada por uma reta estimada por mínimos quadrados, e a relação entre 
abundâncias observadas e preditas. Cada observação (pontos pretos) tem uma 
projeção sobre a reta (pontos vermelhos), que correspondem à média predita de 
abundância para cada valor de X (distância do igarapé). Se confrontarmos as 
abundâncias observadas contra as a abundâncias preditas, teremos o gráfico à 
direita; quanto mais forte a correlação entre ambos, maior o poder preditivo da reta. 
A correlação (r) elevada ao quadrado passa avariar de 0 a 1, e é conhecida como 
coeficiente de determinação. Quando combinamos a reta estimada por mínimos 
quadrados à medida de dispersão em torno dela, temos a regressão linear, ou 
simplesmente regressão. 
 
26 
 
Por que “regressão”? Uma velha história sobre gigantes e anões 
Este nome curioso se deve ao trabalho de um dos pioneiros a utilizar este método 
no século XIX: o inglês Francis Galton2. Uma questão importante em seu tempo era 
como se dava a herança de características de pais para filhos. Pense nisso: em 
geral, os filhos(as) tendem a ser mais parecidos com os pais do que com qualquer 
outra pessoa. Assim, por exemplo, casais mais altos tendem a ter filhos mais altos, e 
casais mais baixos, filhos mais baixos. Se esse processo simplesmente se repetir a 
cada geração, então a população poderia divergir indefinidamente entre um grupo 
de pessoas cada vez mais altas e outro de pessoas cada vez mais baixas. Em 
pouco tempo, todos seriam ou gigantes ou anões; algumas famílias simplesmente 
encolheriam até sumir! Por que isto não acontece? 
Galton coletou dados sobre a altura de centenas de ingleses e sobre as alturas 
médias de seus respectivos pais, e usou mínimos quadrados para estimar a relação 
entre ambos (figura 3.5). Como esperado, Galton observou que pais mais altos 
tendem a ter filhos mais altos. Se a transmissão da altura dos pais para os filhos 
fosse perfeita, então para cada um centímetro que a altura dos pais mudasse, a 
altura do filho deveria mudar também um centímetro, em média (i.e. a inclinação da 
reta deveria ser b = 1). Porém, Galton notou que a inclinação da sua reta estimada 
era menor que um! Assim, embora pais mais altos tendessem a ter filhos mais altos, 
seus filhos geralmente eram mais baixos que os próprios pais. Da mesma forma, 
pais mais baixos tendiam a ter filhos relativamente baixos, porém mais altos que 
eles próprios. Assim, Galton propôs que a transmissão hereditária da altura não é 
perfeita, de modo que a altura média da próxima geração (filhos) tendia a voltar a 
altura média da geração anterior (pais). Mais especificamente, Galton sugeriu que as 
características herdadas por uma pessoa eram provenientes não só dos pais, mas 
também um pouco dos avós, menos ainda dos bisavós, e assim sucessivamente 
através das gerações ancestrais. Em um artigo de 1886, Galton chamou este 
fenômeno de “regressão à mediocridade”, e propôs que isto explicaria por que a 
altura da população se mantém aproximadamente constante ao longo das gerações 
(figura 3.5). 
 
2 Francis Galton, que era primo de Charles Darwin, era muito interessado em 
ciências sócias e genética. Ele inventou muitas coisas que usamos até hoje, como o 
uso da impressão digital para identificar pessoas. 
27 
 
Hoje, sabemos que Galton estava errado: a razão pela qual a altura se mantém 
aproximadamente constante é a segregação aleatória dos genes responsáveis pela 
altura, o que quebra associações entre alelos “mais altos” e “mais baixos” geração 
após geração. Porém, na presença de forças evolutivas (e.g. seleção natural) ou de 
plasticidade fenotípica, sabemos que a altura média pode mudar. A inclinação de 
Galton foi menor que um porque esta é uma característica intrínseca dos mínimos 
quadrados: como ele considera apenas os resíduos de Y, a inclinação sempre é 
menor que a de uma reta diagonal perfeita. Isto pode ser facilmente demonstrado 
invertendo a ordem das variáveis na análise: se usarmos X como variável 
dependente e Y como preditor, a inclinação muda! Ou seja, Galton foi enganado por 
um artefato estatístico. Porém, a genética moderna só foi (re)descoberta no início do 
século XX. Logo, isso não diminui a importância da obra de Galton como um todo. 
Assim, hoje, quando falamos hoje sobre uma reta estimada por mínimos quadrados, 
continuamos associando ao seu trabalho e chamando de regressão. 
 
Figura 3.5. Relação entre altura do filho(a) e altura média dos pais entre ingleses. 
Dados de Galton (1886). Cada ponto representa um filho(a). A reta contínua indica a 
reta estimada por Galton usando mínimos quadrados. A reta pontilhada indica uma 
reta hipotética “perfeita”, cuja inclinação é b = 1. Galton notou que a inclinação de 
sua reta estimada era menor que um, sugerindo que a transmissão hereditária da 
altura não é perfeita. 
 
28 
 
Na figura 3.2 temos um gráfico ilustrando que a abundância de jararacas-do-norte 
varia de acordo com a distância do igarapé. Mas como saber se, de fato, se as 
variáveis são relacionadas? Para responder a esse questionamento, criamos um 
modelo no qual a abundância foi a variável resposta (y), e a distância foi a variável 
preditora (x), e estimamos a relçao entre as mesmas. 
abundância de jararacas = a + b* distância do igarapé 
 
Figura 3.6. Output (resultado) de um modelo de regressão rodado no programa 
estatístico R. A partir desse resultado, é possível observar que há uma relação 
significativa entre a abundância de jararacas-do-norte e distância do igarapé 
(p<0.05). Alguns dos itens mais importantes que aparecem no script acima são: lm = 
linear model (função que calcula a regressão e outros modelos lineares que serão 
abordados nos próximos capítulos); summary = sumariza os resultados gerados 
pela função “lm”; Residual = valores mínimos, máximos e médios dos resíduos; 
Error = Erro padrão e representa o desvio padrão da estimativa. Quanto maior o 
valor do erro, pior será a estimativa gerada pelo modelo; t value = valor da 
estatística t; Intercept.pr= testa a hipótese que o intercepto é igual a zero; Pr = valor 
29 
 
de P; e Df = representa os graus de liberdade. Os graus de liberdade nada mais são 
do que o “número de pontos amostrais” menos o número de parâmetros estimados. 
Os parâmetros em questão são apenas o intercepto e a inclinação da reta, portanto 
o df é igual a “n – 2”. Ou seja, o tamanho amostral menos 2 parâmetros (intercepto e 
inclinação). No entanto, modelos mais complexos calculam mais parâmetros. 
Nesses casos, o valor dos graus de liberdade será menor. 
 
Trabalhando com variáveis em diferentes escalas 
Quando as variáveis estão em unidades de medida diferentes, podemos padronizá-
las para uma mesma escala. Um método comumente utilizado é chamado de 
transformação Z, que coloca asvariáveis em uma mesma escala: a escala dos 
desvios padrões. Para fazer isso, subtraímos a média de uma variável de cada um 
dos valores dessa variável, e dividimos cada diferença pelo desvio padrão desta 
variável. 
Neste caso, note que a inclinação da reta passa a ser igual ao coeficiente de 
correlação entre as mesmas variáveis. Isto ocorre porque a regressão calcula a 
inclinação padronizando pela variação em X (i.e. quantas unidades Y muda por 
unidade de X). Já a correlação padroniza a análise tanto pelo eixo X, quanto pelo 
eixo Y (lembre-se que a correlação é a covariância entre as variáveis padronizadas 
para uma mesma escala). Ou seja, matematicamente, as análises de correlação e 
regressão são equivalentes; o que muda é a apresentação dos resultados e, assim, 
quais informações são enfatizadas em um ou outro caso. A decisão de qual das 
análises utilizar dependerá da sua pergunta. 
 
30 
 
4. RELAÇÕES CURVILÍNEAS 
Alometria 
Embora muitas relações possam ser razoavelmente representadas por linhas retas, 
nem sempre este é o caso. Alometria é a relação desproporcional de crescimento de 
uma característica com relação à outra. Um exemplo é a variação no tamanho das 
mandíbulas de machos em diferentes espécies de besouro. Na figura abaixo temos 
um gráfico que demonstra as relações entre os tamanhos das mandíbulas e dos 
élitros dos machos de besouro (figura 4.1). A partir de determinado momento 
(representado no gráfico pelas linhas verticais paralelas ao eixo “y”), a mandíbula 
passa a crescer mais rápido que o resto do corpo. 
 
 
Figura 4.1. Relação entre comprimento da mandíbula e comprimento do élitro (uma 
medida do tamanho corporal) em uma espécie de besouro, conforme Romiti et al. 
(2015). Os eixos estão em escala logarítmica. Cada ponto representa um indivíduo. 
Note a curvatura ou “dobra” da relação. 
 
31 
 
Como podemos observar, os autores tentaram descrever o padrão principal dos 
dados através de duas retas. No entanto, essa nem sempre é uma boa alternativa, 
uma vez que a cada reta, o número de parâmetros a serem estimados aumenta, o 
que exigiria um grande tamanho amostral. Uma forma mais simples de descrever 
esse crescimento poderia ser usar uma equação ou função matemática que 
descreve uma curva, ao invés de uma reta. Uma função comumente usada para 
descrever curvas é a função de potência: 
𝒚 = 𝒂 ∗ 𝑿𝒃 
Os coeficientes “a” (intercepto) e “b” (inclinação ou slope) exercem efeitos diferentes 
em linhas de tendência geradas para descrever padrões lineares e não lineares. Em 
linhas de tendência geradas a partir da equação da potência, o “a” posicionará a 
curva mais abaixo ou acima no eixo y (há mudança na escala do eixo y). Já o 
intercepto “b” irá controlar a curvatura/forma da curva. Quando o valor de b é maior 
que 1, é possível observar que a curvatura apresenta um crescimento acelerado 
(positivamente). Quando o valor do b é um número entre 0 e 1, nós observamos que 
a taxa de aumento é grande inicialmente, mas depois desacelera. Esse tipo de 
relação é conhecida como assintótica ou limitante. Quando o valor de b é menor que 
zero, surge uma curva de declínio, cuja taxa de mudança também diminui 
gradualmente. Todas essas relações são consideradas monotônicas, uma vez que 
as mudanças ocorrem em um mesmo sentido (figura 4.2). 
32 
 
 
Figura 4.2. Curvas criadas com a função de potência, Y = aXb. 
 
No capítulo anterior, falamos sobre como estimar parâmetros de relações retilíneas. 
Mas como estimar os parâmetros de relações curvilíneas, que não podem ser 
representadas pela equação da reta? A princípio, também podemos usar o método 
dos mínimos quadrados. O problema é que, historicamente, os computadores 
tinham programas capazes de estimar apenas os parâmetros da equação da reta, 
ou de alguma equação com estrutura similar, i.e. um somatório de vários termos. 
Este tipo de equação é conhecido como “equação linear”. Entretanto, a função de 
potência e muitas outras são equações não lineares, i.e. não representam um 
simples somatório, envolvendo também outras operações. Por isso, para usar a 
maquinaria teórica dos modelos lineares, era preciso reescrever a equação da 
potência na forma de uma equação linear, i.e. como uma soma. Isto pode ser feito 
usando logaritmos porque (1) o logaritmo de um produto é igual à soma dos 
logaritmos dos termos do produto, e (2) o logaritmo de uma potência é igual ao 
logaritmo da base vezes o expoente da potência. Logo: 
𝒍𝒐𝒈𝒀 = 𝒂𝑿𝒃 𝒍𝒐𝒈 
𝐥𝐨𝐠(𝒀) = 𝐥𝐨𝐠( 𝒂𝑿𝒃) 
33 
 
𝐥𝐨𝐠(𝒀) = 𝐥𝐨 𝐠( 𝒂) + 𝒍𝒐𝒈 (𝑿𝒃) 
𝐥𝐨𝐠(𝒀) = 𝐥𝐨𝐠( 𝒂) + 𝐛 𝐥𝐨𝐠 (𝑿) 
Podemos entender mais claramente a relação entre as duas formas da função de 
potência usando gráficos: em escala log, a curva da potência se torna uma reta. Isto 
ocorre porque, em escala log, um número muito grande não é tão grande assim. 
Assim, aqueles valores mais discrepantes da nuvem de pontos que são 
responsáveis pela curvatura que observamos na tendência são puxadas mais 
fortemente para baixo do que valores menores, “linearizando” a curva de potência 
(figura 4.3). 
 
Figura 4.3. Função de potência na escala original das variáveis (esquerda) e em 
escala log (direita). Note que, em escala log, uma curva de potência é uma reta; 
igualmente, uma reta em escala log equivale a uma curva de potência em escala 
antilog (também conhecida como exponencial). 
 
Vale salientar que a transformação logarítmica dos dados é apenas uma mudança 
de escala; a informação sobre a relação entre as variáveis permanece a mesma e, 
portanto, isso não representa nenhuma forma de “manipulação de dados” em um 
sentido pejorativo. Utilizando a operação inversa ao logaritmo, o exponencial, 
podemos voltar facilmente à escala anterior. Algumas pessoas têm dificuldade de 
interpretar dados em escala logarítmica, mas provavelmente você está muito 
familiarizado com pelo menos uma medida em escala log: o pH, ou potencial 
34 
 
hidrogeniônico. O pH nada mais é que a concentração de prótons em uma solução 
aquosa. Como essas concentrações são naturalmente muito baixas (e.g. 10-5, 10-7 
ou 10-9 mol/L), normalmente nós usamos o logaritmo na base 10 desses valores, 
multiplicado por -1. Assim, um pH de 5 equivale a uma concentração de prótons de 
10-5 mol/L. A mudança de escala simplesmente facilita a interpretação. 
No exemplo anterior (figura 4.3), tanto o eixo X quanto o eixo foram logaritmizados. 
As curvas geradas através desse método são chamadas de curvas de potência. No 
entanto, dependendo do comportamento dos nossos dados, é possível logaritmizar 
apenas uma das variáveis (ou X, ou Y). Quando logaritmizamos apenas o Y, tem-se 
o que chamamos de equação exponencial. Essa equação é inversa à equação 
logarítmica. 
𝒚 = 𝒆 𝒂+𝒃𝒙 
Ainda, é possível gerar curvas através da logaritmização da variável X: 
𝒚 = 𝒂 + 𝒃 ∗ 𝐥𝐨𝐠 𝒙 
Uma outra forma de gerar curvas assintóticas é usando o inverso de X, criando uma 
equação racional: 
𝒚 = 𝒂 + 𝒃 ∗ 
𝟏
𝒙
 
 
35 
 
 
Figura 4.4. Exemplos de curvas criadas usando diferentes equações lineares. 
Embora o nome “linear” possa sugerir que elas só descrevem retas, isto não poderia 
estar mais distante da realidade; uma grande variedade de curvas pode ser descrita 
com equações lineares, i.e. equações compostas por um somatório de dois ou mais 
termos. 
 
Relações não monotônicas 
As vezes, uma relação não será descrita adequadamente por nenhuma dessas 
funções. Nesses casos, essas relações são chamadas de não monotônicas. Este 
tipo de relação ocorre quando, primeiro, o Y aumento com X, e depois diminui (ou o 
contrário). Um exemplo de função simples que descreve este tipo de relação é a 
parábola. As linhas de tendência que possuem esse formato geralmente são 
oriundas de regressões quadráticas. Diferentemente das outras equações discutidas 
anteriormente, essa possui um parâmetro adicional, o parâmetro “c” (conhecidocomo termo quadrático). Quando o valor do parâmetro “c” é positivo, a curva tem 
concavidade para cima (i.e. em forma de “U”). Já quando o valor de “c” é negativo, a 
tem concavidade para baixo (i.e. em forma de “∩”). Os parâmetros “a” e “b” não tem 
mais a mesma interpretação simples que na reta, mas continuam servindo para 
especificar a posição exata da curva no gráfico. Um exemplo de relação na forma de 
parábola convexa pode ser observado no exemplo abaixo (figura 4.5). 
𝒀 = 𝒂 + 𝒃 ∗ 𝒙 − 𝒄 ∗ 𝒙𝟐 
36 
 
 
Figura 4.5. Parábola, uma função útil para descrever curvas unimodais, i.e. com um 
máximo em Y em algum valor intermediário de X. A parábola também serve para 
descrever o padrão oposto, i.e. valores maiores de Y nos extremos de X. 
 
Em alguns casos, a curvatura dos nossos dados não é bem representada por uma 
parábola perfeita, apresentando uma “cintura” (figura 4.6). Nesses casos, é 
necessário usar outras equações que apresentem um melhor ajuste. Nosso 
problema pode ser resolvido se logaritmizarmos o eixo y, criando uma curva 
gaussiana3: 
𝒚 = 𝐞 𝒂+𝒃𝒙−𝒄
𝟐
 
Lembre-se, equações onde apenas o eixo Y é logaritmizado são equivalentes a 
equações exponenciais. A diferença é que essa exponencial também considera o 
efeito do parâmetro “c”. Abaixo há um exemplo de curva ajustada utilizando esse 
tipo de equação linear (figura 4.6). 
 
3 Nome dado em homenagem à Friedrich Gauss, um famoso matemático alemão 
37 
 
 
Figura 4.6. Curva gaussiana e sua equação. Note que a curva gaussiana nada mais 
é que uma parábola transformada para a escala exponencial. 
 
Sumarizando... 
Nem sempre retas são as melhores formas de representar um padrão. Podemos utilizar 
modelos lineares para descrever alguns tipos de curvas, as quais podem assumir 
diferentes formas. Por exemplo, elas podem ser representadas através de equações 
exponenciais, logarítmicas, racionais, do segundo grau (parábola).... 
 
 
38 
 
5. REGRESSÃO MÚLTIPLA 
Quebrando relações entre preditores 
Muitas vezes, nossas variáveis de interesse podem estar associadas a outras, o que 
pode dificultar a detecção de relações de causalidade entre as variáveis. 
Consequentemente, regressões simples podem não ser tão úteis para responder 
nossas perguntas. Por exemplo, o patauá (Oenocarpus bataua) é uma palmeira 
comum na Amazônia. Em geral, há mais patauá próximo aos igarapés do que longe 
deles, sugerindo que o patauá precisa de muita água para crescer. Porém, plantas 
tropicais também precisam de nutrientes para crescer, sobretudo nutrientes 
escassos em solos tropicais, como o fósforo. Quando olhamos a relação entre o teor 
de fósforo do solo e a distância do igarapé, notamos que há mais fósforo justamente 
próximo aos igarapés (figura 5.1-a). Não por acaso, também parece haver uma 
relação forte entre a quantidade de patauá e o teor de fósforo do solo (figura 5.1-b). 
Assim, fica a pergunta: por que há mais patauá perto dos igarapés? É por causa da 
água ou do fósforo? Ou dos dois? 
 
 
 
39 
 
 
Figura 5.1. Relações entre abundância da palmeira patauá (Oenocarpus bataua) e 
(a) a distância até o igarapé mais próximo e (b) o teor de fósforo do solo em uma 
floresta nas cercanias de Manaus, AM. O gráfico (c) mostra a relação entre a 
distância até o igarapé mais próximo e o teor de fósforo do solo. 
 
Os estatísticos resolveram esse “problema” através de um experimento no qual 
variamos apenas o fator no qual temos interesse e controlamos todo o resto, e 
vemos o que acontece. Se houver algum efeito, então só pode ser do fator variado. 
Assim, por exemplo, poderíamos pensar em um experimento onde plantamos 
patauá em vários locais e, em cada local, mantemos todas as características 
ambientais constantes, exceto a disponibilidade de água. Após certo tempo, 
contamos quantos patauás cresceram. Se houver mais patauás onde houver mais 
água, então o efeito só pode ser da água. Poderíamos aplicar a mesma ideia ao 
fósforo para testar se este nutriente tem algum efeito, independentemente da água. 
O problema é que, em muitas situações, simplesmente não é possível fazer um 
experimento controlado como esse, ou por questões éticas (.e.g estudos envolvendo 
animais e pessoas), ou por limitações logísticas e/ou financeiras. Além disso, 
40 
 
quando fazemos um experimento, nós determinamos quais preditores são livres 
para variar e o quanto cada um varia. Dependendo de como fizermos isso, essas 
características não necessariamente refletirão o que ocorre na natureza. Assim, 
experimentos são ótimos para determinar causalidade, mas são limitados no quanto 
nos permitem falar sobre o que é mais ou menos importante sob condições naturais. 
E agora? 
Vejamos a relação entre a abundância de patauá e a distância do igarapé (figura 
5.2). A reta sumariza a relação entre as variáveis. Logo, a variação em torno da reta 
só pode refletir fatores que não tem a ver com distância do igarapé. Por exemplo, a 
uma distância de aproximadamente 50 m do igarapé, há em média 100 patauás, 
mas a abundância pode ser muito maior ou muito menor que isso. Se a distância é a 
mesma para todas essas abundâncias, então essa variação certamente não pode 
ser explicada pela distância. Assim, a reta é o que chamamos de componente 
determinístico do modelo. Os resíduos demonstram que nem toda a variação é 
explicada pela distância do igarapé, e representam o componente estocástico do 
modelo. Alguma outra variável pode estar explicando isso. Logo, podemos extrair os 
resíduos desse gráfico e criar uma nova variável dependente, “resíduos da 
abundância”. Esta nova variável representa a variação na abundância que não tem a 
ver com a distância do igarapé. Assim, podemos usá-la para perguntar: será que 
algum outro fator (e.g. o fósforo) tem relação com a abundância, depois que 
descontamos o efeito da distância do igarapé? 
 
 
41 
 
Figura 5.2. Relação entre abundância de patauá (Oenocarpus bataua) e distância do 
igarapé. A reta representa a abundância média, estimada por mínimos quadrados; 
as setas indicam os resíduos. Note que, para uma mesma distância (e.g. 50 m), a 
abundância pode ser muito maior ou muito menor que a média predita pela reta, 
sugerindo que outros fatores também afetam a abundância. Assim, podemos usar os 
resíduos para testar se algum outro fator explica a variação na abundância, depois 
que descontamos o efeito da distância do igarapé. 
 
Da mesma forma, podemos repetir este procedimento para o fósforo: depois que 
“tiramos” o efeito do fósforo, a distância do igarapé tem algum efeito? Deste modo, 
podemos isolar estatisticamente o efeito de um preditor dos possíveis efeitos de 
outros preditores. Combinando os efeitos isolados de dois ou mais preditores em 
uma mesma regressão, temos a famosa regressão múltipla. A regressão múltipla é 
um dos métodos de análise estatística mais usados em todas as ciências: ela 
quebra correlações entre preditores, isolando o efeito independente de cada um. 
Isso permite avaliar, isoladamente, quais variáveis afetam, ou não, a variável 
resposta, sem precisar fazer um experimento controlado. Ela pode ser representada 
pela equação abaixo: 
𝒚 = 𝒂 + 𝒃𝟏 ∗ 𝒙𝟏 + 𝒃𝟐 ∗ 𝒙𝟐 … 
Vale salientar que o intercepto (a) de uma regressão múltipla é a média dos 
interceptos de todos preditores que constam no modelo. As inclinações representam 
o quanto Y muda por unidade de cada um dos X, independentemente dos demais 
preditores incluídos na regressão. O coeficiente de determinação múltipla (R²) 
sumariza a variação explicada conjuntamente por todos os preditores cujos efeitos 
são estatisticamente significativos. Além disso, passamos a ter dois tipos de teste de 
teste de significância: (1) um global, baseado na estatística F, que determina se 
nosso modelo explica uma variação maior que o esperado ao acaso; e (2) testes 
para cada uma das inclinações, que indicam se um preditor em particular tem efeitodetectável ou não. Sempre devemos olhar primeiro a significância global, porque 
mesmo que incluamos preditores sem nenhum efeito sobre nossa variável 
dependente, a probabilidade de eles explicarem absolutamente nenhuma variação 
(i.e. R² exatamente igual a zero) é muito baixa. Mesmo variáveis aleatórias podem 
explicar uma pequena variação por acaso, mas não queremos basear nossas 
conclusões no acaso! 
42 
 
Interação entre preditores 
Em alguns casos, o efeito de um preditor sobre a variável resposta depende do valor 
de outro preditor. Nesses casos, nós temos uma interação entre preditores. Uma 
situação em que a teoria ecológica prevê interações estatísticas é quando há 
interações entre espécies ao longo de gradientes ambientais. Por exemplo, se duas 
espécies dependem de um mesmo recurso (p.ex. duas espécies fenotipicamente 
parecidas ou proximamente aparentadas), então a forma da relação entre suas 
abundâncias deveria mudar em função da disponibilidade deste recurso. Quando o 
recurso é escasso, as duas espécies são limitadas pelo recurso, e suas abundância 
deveriam aumentar juntas (i.e. quando as condições melhoram pra uma, também 
melhoram pra outra). Já quando o recurso é abundante, a competição seria mais 
importante, de modo que as espécies tenderiam a se excluir, criando uma relação 
negativa entre suas abundâncias. Interações são representadas como produtos 
entre dois ou mais preditores (p.ex. abundância de uma espécie competidora e 
disponibilidade de um recurso). Quanto maior o efeito da interação, maior será o 
coeficiente associado ao produto entre as duas variáveis (ver equação abaixo): 
𝒚 = 𝒂 + 𝒃𝟏 ∗ 𝒙𝟏 ∗ 𝒃𝟐 ∗ 𝒙𝟐 … 
Esta situação pode ser ilustrada pela distribuição de duas espécies de palmeiras, 
Oenocarpus bataua e O. bacaba, em florestas de terra firme nas redondezas de 
Manaus, AM (figura 5.3). 
43 
 
 
 
Figura 5.3. Resposta da abundância de patauá (Oenocarpus bataua) à interação 
entre abundância de bacaba (Oenocarpus bacaba) e teor de fósforo do solo. Os dois 
gráficos mostram exatamente os mesmos dados, mas de perspectivas 
complementares. À esquerda, a relação entre as abundâncias das espécies é 
enfatizada, discriminado locais com pouco fósforo (vermelho) de locais com muito 
fósforo (azul). Note que a relação entre espécies depende da concentração de 
fósforo, i.e. a abundância de patauá depende de uma interação entre a abundância 
de bacaba e a concentração de fósforo. À direita, a resposta do patauá ao fósforo é 
enfatizada, discriminando locais com baixa (vermelho) e alta densidade (azul) da 
espécie competidora, a bacaba. De forma complementar ao gráfico anterior, 
podemos dizer que a relação entre patauá e fósforo depende da abundância de 
bacaba. 
 
Importante: não confunda interação com correlação! Correlação entre preditores 
significa que um ou mais preditores tendem a mudar juntos. Isso não diz nada sobre 
o efeito deles sobre a variável resposta. Já uma interação significa que um preditor 
tem um efeito, mas este efeito muda conforme o outro preditor muda. Em casos 
extremos de interação, podemos ter um padrão “cruzado”, onde o efeito de um 
preditor muda de positivo para negativo (ou vice-versa) à medida em que o outro 
preditor muda. 
44 
 
Preditores categóricos 
Em alguns casos, temos preditores que não são numéricos, mas categóricos, i.e. 
identificam categorias ou grupos. Ainda assim, é possível utilizar modelos lineares 
para detectar diferença entre essas categorias, classes ou grupos. Isso porque as 
classes são codificadas através de números binários (0 e 1) para que essas 
operações possam ser realizadas. Esses falsos números atribuídos às categorias 
são chamados de dummy variables (figura 5.4). 
 
Figura 5.4. Tabela de código binário para cálculo das relações entre a abundância 
de três grupos categóricos (baixio, platô e vertente). 
 
Por razões históricas, quando usamos uma variável binária como um preditor em um 
modelo linear, chamamos tradicionalmente de teste t. Quando temos um preditor 
com três categorias ou mais, temos uma análise de variância (ANOVA). De qualquer 
forma, ambos são modelos lineares como a regressão e correlação. Similarmente, 
os testes de ANOVA dois ou mais fatores nada mais são do que regressões 
múltiplas com preditores categóricos, codificados com código binário. 
 
45 
 
 
Figura 5.4. A variável X (hábitat) foi codificada em zero e um para cálculo das 
relações entre a abundância de dois grupos categóricos. Neste caso, o intercepto 
passa a ser a média do primeiro grupo (i. e. a reta corta o eixo Y quando X vale 0), e 
a inclinação passa a ser a diferença entre as médias do primeiro e segundo grupos. 
Isto porque a inclinação indica quantas unidades Y muda por unidade de X; como X 
só tem duas unidades (dois grupos, 0 ou 1), ao andarmos uma unidade em X (de 0 
para 1), automaticamente estamos mudando de grupo (indo da média do grupo “0” 
para a média do grupo “1”). 
 
 
 
46 
 
6. SIMULAÇÕES 
Criando modelos estocásticos 
Muitas vezes temos apenas uma amostra de dados reais e não sabemos 
exatamente qual o padrão a realidade segue. Assim, a única forma de saber se 
nossos métodos funcionam é criar padrões conhecidos, aplicar os métodos, e então 
determinar o quanto as estimativas recuperam os valores reais dos parâmetros (que 
nós sabemos exatamente quais são, porque nós os criamos!). 
O primeiro passo é criar um modelo estocástico que nos permita representar 
variabilidade de forma que seja minimamente realista. Se criarmos preditores 
aleatórios (i.e. mesma chance de selecionarmos qualquer valor em um dado 
intervalo) e então gerarmos uma variável dependente desses preditores através da 
soma deles (como nos diz o modelo linear), veremos que a distribuição da nossa 
variável dependente tenderá a seguir uma forma de sino (figura 6.1). Da mesma 
forma, se fizermos regressões entre nossa variável dependente simulada e nossos 
preditores simulados, e averiguarmos os resíduos dessas regressões, verificaremos 
que eles também seguem uma distribuição em forma de sino. Friedrich Gauss 
chamou essa distribuição de frequências de normal (e hoje também conhecemos a 
distribuição como gaussiana). 
 
Figura 6.1. A distribuição normal ou gaussiana, uma forma de representar 
variabilidade. 
 
47 
 
A tendência de que a soma de vários efeitos gerem uma distribuição normal é 
chamada de Teorema do Limite Central. Gauss também verificou que, quando os 
resíduos de uma regressão têm distribuição aproximadamente normal (figura 6.1), o 
critério de mínimos quadrados garante que nossos chutes sobre o intercepto e a 
inclinação da reta em média estarão certos. Além disso, mesmo que a distribuição 
dos resíduos desvie um pouco da distribuição normal, os chutes obtidos mínimos 
quadrados ainda são bem próximos dos parâmetros reais. Por isso, dizemos que o 
modelo linear é razoavelmente robusto a “desvios de normalidade”. 
Um importante fator que influencia a precisão das estimativas de inclinação, 
intercepto e valor de P é o tamanho da amostra. Quanto menor o tamanho amostral, 
maior é a variabilidade das estimativas. A acuidade (ou “acurácia”, transliterado do 
inglês, accuracy) não muda muito, pois em média, o valor real é recuperado. No 
entanto, para uma amostra qualquer, não sabemos se nossas estimativas caíram na 
média ou não (isto é, se têm alta acuidade). Note que, quanto menor nossa amostra, 
mais variáveis nossos chutes de valores para o intercepto e da inclinação, e maior o 
valor de P (i.e. maior a chance de nosso resultado ter surgido por acaso) (figura 6.2). 
É intuitivo: se temos pouca informação, nossa incerteza sobre os resultados é maior. 
 
Figura 6.2. Diferença nas estimativas do intercepto “a”, inclinação “b” e valor de “p” 
com diferentes tamanhos amostrais. Na dúvida, aumente seu N amostral! 
 
A variação nas estimativas de “a” e “b”, porém, tende a estabilizar a partir de um 
certotamanho amostral e o valor de P, que é uma medida de incerteza, fica 
extremamente baixa. Em geral, se o efeito de uma variável sobre outra é grande, o 
48 
 
tamanho amostral não necessariamente precisa ser grande, pois ele provavelmente 
será detectado. No entanto, se o efeito é mais sutil, a chance detectá-lo em 
amostras menores é menor. Por outro lado, a variabilidade intrínseca dos dados (i.e. 
o tamanho da dispersão em torno da tendência) afeta inversamente as estimativas 
dos coeficientes: quanto maior a dispersão, maior a incerteza (figura 6.3). 
 
Figura 6.3. Diferença nas estimativas do intercepto “a”, inclinação “b” e valor de “p” 
com de acordo com o aumento do desvio padrão dos resíduos (i.e. tamanho da 
dispersão em torno da tendência). 
 
Quando realizamos regressões múltiplas, há uma quebra das correlações entre 
preditores, o que possibilita avaliar o efeito independente dessas variáveis. No 
entanto, isso só é possível quando as correlações são intermediárias, pois a alta 
correlação entre variáveis afeta as estimativas dos coeficientes. À medida que a 
correlação entre variáveis aumenta, a imprecisão das estimativas, em especial da 
inclinação, também aumenta (figura 6.4) e a partir de um determinado valor de 
correlação (e.g. cor~0.7), os valores de b dos preditores podem se confundir. Nesse 
caso, onde há muita imprecisão, a regressão tem dificuldade de recuperar se o 
efeito é dado por uma ou outra variável o que pode levar ao erro tipo 2 onde 
falaríamos que uma variável tem efeito quando na verdade não. Por outro lado, 
quando a correlação entre variáveis é igual a zero a estimativa de “b” obtida por 
regressão múltipla é similar a obtida por regressão simples. 
49 
 
 
Figura 6.4. Estimativas dos parâmetros de inclinação (b1 e b2) de uma regressão 
múltipla de acordo com diferentes graus de correlações entre os preditores. A partir 
de um determinado valor de correlação (cor~0.7), os valores de b dos preditores 
podem se confundir. 
 
 
50 
 
7. MODELOS LINEARES GENERALIZADOS (GLM) 
Desvios da normalidade 
Até agora, trabalhamos com modelos lineares básicos, que usavam a soma dos 
quadrados para determinar qual o melhor ajuste da linha de tendência. Esses 
modelos assumem implicitamente que os resíduos tenham distribuição normal. 
Lembre-se que Gauss mostrou que é quando os resíduos têm distribuição 
(aproximadamente) normal que o critério de mínimos quadrados recupera os valores 
reais dos parâmetros, em média! No entanto, nem sempre as variáveis apresentam 
resíduos distribuídos normalmente. É possível criar modelos lineares assumindo que 
os resíduos das relações possuem outras distribuições. Isto é útil porque, em várias 
situações, já esperamos de antemão que a distribuição normal não será uma 
representação razoável para a variabilidade da nossa variável dependente. Nesse 
caso, podemos usar Modelos Lineares Generalizados (GLM). 
Distribuição de Poisson 
A distribuição normal permite desde valores inteiros e positivos até não-inteiros e 
negativos. No entanto, variáveis como contagens só podem assumir valores iguais 
ou maiores que zero e inteiros. Além disso, em alguns casos, as contagens podem 
apresentar uma distribuição “espichada” (skewed), com muitos valores próximos a 
zero. Nesses casos, qual tipo de distribuição poderia representar melhor a dispersão 
dos dados em torno da linha de tendência? Se uma coisa (p.ex. um organismo) é 
distribuída aleatoriamente no espaço ou no tempo, e nós demarcarmos várias 
unidades amostrais de mesma área ou mesma duração para contar essa coisa, as 
contagens provavelmente seguirão uma distribuição de Poisson (figura 7.1). 
51 
 
 
Figura 7.1. A distribuição de Poisson, para dados de contagem, assume que a 
frequência de valores baixos próximos a zero é grande (Figura adaptada de Bolker 
2008). 
 
Na distribuição de Poisson, a média e variância das contagens são positivamente 
associadas (figura 7.2.). Isso significa que, quando você aumentar o valor da média, 
o valor da variância também aumentará (e vice-versa), com uma inclinação de 
aproximadamente igual a 1. Como média e variância têm informações redundantes, 
só precisamos de um parâmetro para representar a média e a variância ao mesmo 
tempo, ao qual chamamos de lambda (ƛ). 
 
ƛ = Média = Variância 
 
52 
 
Figura 7.2. Em dados que seguem a distribuição de Poisson, há uma correlação 
entre média e variância das contagens. Portanto, basta um parâmetro para 
descrever esta distribuição, ao qual chamamos de lambda. 
 
Quando temos muitas contagens baixas (próximas à zero) também temos um 
lambda baixo (ex. ƛ=0,8). Quando temos contagens com muitos valores altos, e 
poucos valores baixos, o valor do lambda é alto (ex. ƛ=12) (figura 7.3). 
 
Figura 7.3. O valor do lambda varia de acordo com a frequência dos valores de 
contagem sendo que quando maior o lambda a distribuição se assemelha mais a 
uma distribuição normal (Figura adaptada de Bolker 2008). 
 
Em distribuições normais, temos dois parâmetros (média e variância), e a maior 
parte dos resíduos da variável y ficam próximos da linha de tendência, podendo 
variar de “-∞” a “+∞”. Diferentemente da distribuição normal, a forma da distribuição 
de Poisson mudará conforme aumentamos o valor de lambda (i.e. a média). Se o 
valor da média for baixo, a dispersão dos resíduos será baixa (figura 7.4). Conforme 
a média vai aumentando, a dispersão dos resíduos fica cada vez maior. Quando a 
variância muda com a média, dizemos que há heterocedasticidade. Quando lambda 
≥ 30 praticamente não há diferença entre a forma das distribuições de Poisson e 
normal. 
 
53 
 
 
Figura 7.4. Comparação das distribuições dos resíduos em uma distribuição normal 
(A) e distribuição de Poisson (B). Nesta, conforme a média aumenta, a variância 
aumenta junto até se aproximar à de uma distribuição normal. 
 
Ocasionalmente, podemos ter valores de X que assumam valores negativos (e.g. 
temperatura e déficit hídrico) e com isso a média tenderia a assumir valores 
negativos. No entanto, a distribuição de Poisson só assume valores inteiros e iguais 
ou maiores a zero; como podemos evitar que nosso modelo prediga médias 
negativas? Como já discutido anteriormente, uma possível solução é usar 
logaritmos… 
𝒎é𝒅𝒊𝒂 = 𝒂 + 𝒃 ∗ 𝑿 
 𝐥𝐨𝐠(𝒎é𝒅𝒊𝒂) = 𝒂 + 𝒃 ∗ 𝑿 
 𝒎é𝒅𝒊𝒂 = 𝐞𝐱𝐩 (𝒂 + 𝒃 ∗ 𝑿) 
𝒎é𝒅𝒊𝒂 = 𝒆𝒂+𝒃𝒙 
Ao usar o log teremos uma curva exponencial. Esse procedimento de aplicar uma 
função matemática sobre a média para que os valores preditos fiquem em uma 
escala que faça sentido é conhecido como função de ligação (ou link function). A 
ideia das funções de ligação é importante dentro do contexto dos modelos lineares 
A B 
54 
 
generalizados, pois ligarão o preditor linear à média da variável resposta, que 
frequentemente está em uma escala que não admite qualquer tipo de valor (p.ex. 
valores negativos) (figura 7.5). 
 
Figura 7.5. Exemplo de atuação da função de ligação que garante que o modelo só 
prediga médias iguais ou maiores que zero em uma distribuição de Poisson. 
 
Máxima verossimilhança (Likelihood) 
Ok, mas como determinar o melhor ajuste da linha de tendência? Seria possível usar 
o método dos mínimos quadrados? Não, pois como vimos, ao usar esse método, 
assumimos implicitamente que a distribuição dos resíduos é normal! Como resolver 
esse problema? 
Uma possibilidade é “chutar” várias possíveis linhas de tendência (figura 7.6) para 
um conjunto de dados e calcular a probabilidade de que cada ponto amostral ocorra, 
dado que aquela linha seja verdadeira. 
𝑷(𝒀|𝒏𝒐𝒔𝒔𝒂 𝒄𝒖𝒓𝒗𝒂) 
55 
 
 
Figura 7.6. Para descobrir qual a melhor linha de tendência para um conjunto de 
dados, podemos “chutar” várias possíveis linhas de tendências e avaliar qual delas 
implicaria na maior probabilidade de observação do conjunto de pontos do gráfico. 
 
Como temos vários pontos em cada gráfico, é necessáriocalcular a probabilidade 
conjunta de que os dados ocorram dado que a linha de tendência “chutada” seja a 
verdadeira. Para fazer isso, utilizamos “a regra do E”: a probabilidade de um evento 
ocorrer E outro ocorrer também é igual ao produto entre as probabilidades de cada 
um. Logo, a probabilidade de observar o primeiro ponto E o segundo E o terceiro, 
etc. é igual ao produtório entre as probabilidades de todos eles! Assim: 
 
𝑷𝒓𝒐𝒃𝒂𝒃𝒊𝒍𝒊𝒅𝒂𝒅𝒆 𝒄𝒐𝒏𝒋𝒖𝒏𝒕𝒂 = 𝑷(𝒀𝟏|𝒏𝒐𝒔𝒔𝒂 𝒄𝒖𝒓𝒗𝒂) ∗ 𝑷(𝒀𝟐|𝒏𝒐𝒔𝒔𝒂 𝒄𝒖𝒓𝒗𝒂) … 
 
Esse processo envolverá n probabilidades, ou seja, o número de pontos que consta 
no gráfico. Então podemos repetir isso para muitas linhas de tendência diferentes. 
Após comparar a probabilidade conjunta de cada uma das linhas de tendência, 
decidimos que aquela com maior probabilidade é que melhor descreve os dados. 
Essa “probabilidade conjunta”, usada para estimar qual o melhor ajuste da linha de 
tendência, é chamada de likelihood. Esse método é mais abrangente que o método 
dos mínimos quadrados, pois funciona para qualquer distribuição que quisermos 
para representar variabilidade. De modo geral, o likelihood estima qual seria a 
56 
 
probabilidade de observar um conjunto de dados assumindo determinado parâmetro 
(ex. média e variância). O modelo com melhor ajuste é aquele com máxima 
verossimilhança (maximum likelihood). Ou seja, quanto maior o valor do likelihood, 
melhor o ajuste da linha de tendência (figura 7.7). 
 
Figura 7.7. Gráfico hipotético mostrando o funcionamento do likelihood, que indica a 
probabilidade dos dados para determinados valores dos parâmetros – neste caso, a 
inclinação (b). Chutamos vários valores de b e, para cada um, usamos a distribuição 
de Poisson para calcular a probabilidade de cada observação e, então, a 
probabilidade conjunta das observações (i.e. verossimilhança). Enfim, observamos 
como a verossimilhança muda com diferentes valores de b. No exemplo, o valor de b 
que maximiza a probabilidade dos dados é torno de três. Logo, é esta é a nossa 
estimativa de máxima verossimilhança (ou maximum likelihood). 
 
Na realidade, não sabemos qual é o valor exato de b. Porém, através do likelihood 
temos o valor de máxima verossimilhança (isto é, que maximiza a probabilidade dos 
dados). 
Como produtos de probabilidades são números muito, muito, muito baixos (i.e. 
0,000000000...), é mais usual usarmos o logaritmo natural do likelihood, chamado de 
log-likelihood (veja o eixo y no gráfico acima). Como computacionalmente é mais 
fácil encontrar valores mínimos do que os máximos, geralmente o log-likelihood é 
57 
 
multiplicado por -1. Com isso, minimiza-se o negativo do log da verossimilhança 
(figura 7.8). 
 
Figura 7.8. Gráfico hipotético mostrando o log-likelihood com uma região onde se 
minimiza o negativo do log da probabilidade conjunta dos dados, condicionada ao 
valor da inclinação (b). Note que, apesar da mudança de escala ter virado o gráfico 
de cabeça para baixo a estimativa de máxima verossimilhança (ou que minimiza o 
negativo do log da verossimilhança) é exatamente a mesma, em torno de três. 
 
Ao rodar um modelo linear generalizado (GLM) com distribuição de Poisson, alguns 
valores são gerados. Um desses valores é o Number of Fisher Scoring, que 
representa o número de vezes que o programa teve que “chutar” as curvas de 
tendência até obter aquela com a máxima verossimilhança. Outro valor obtido é a 
desviância (deviance) que avalia o quão bom é o ajuste que foi previsto pelo 
likelihood. A desviância é obtida através da comparação do nosso modelo com um 
modelo perfeito. Ou seja, um modelo hipotético que explique toda variação. Esse 
modelo perfeito é chamado de modelo saturado (figura 7.9). Quanto maior o valor da 
desviância, pior o nosso modelo em relação ao modelo perfeito. Assim, a desviância 
58 
 
é uma medida análoga à soma dos quadrados, que indica a discrepância entre os 
dados e o modelo, porém aplicável a modelos com qualquer distribuição (e não 
apenas a normal). 
 
Figura 7.9 O gráfico da esquerda representa o ajuste do modelo previsto pelo 
likelihood, enquanto o modelo da direita representa o ajuste do modelo perfeito, ou 
seja, saturado. 
 
Para comparar a desviância do nosso modelo em relação ao modelo perfeito, 
dividimos seus likelihoods. Como o valor obtido nessa divisão seria muito pequeno, 
e consequentemente difícil de ser interpretado, tiramos o log desse quociente. De 
acordo com as propriedades operatórias dos logaritmos, a divisão entre logaritmos 
de bases iguais equivale à diferença entre eles. Assim: 
𝑷(𝒀|𝒎𝒐𝒅𝒆𝒍𝒐)
𝑷(𝒀|𝒎𝒐𝒅𝒆𝒍𝒐 𝒔𝒂𝒕𝒖𝒓𝒂𝒅𝒐)
 
𝐥𝐨𝐠 (
𝑷(𝒀|𝒎𝒐𝒅𝒆𝒍𝒐
𝑷(𝒀|𝒎𝒐𝒅𝒆𝒍𝒐 𝒔𝒂𝒕𝒖𝒓𝒂𝒅𝒐
) 
𝐥𝐨𝐠 𝑷(𝒀|𝒎𝒐𝒅𝒆𝒍𝒐) − 𝐥𝐨𝐠 𝑷(𝒀|𝒎𝒐𝒅𝒆𝒍𝒐 𝒔𝒂𝒕𝒖𝒓𝒂𝒅𝒐) 
 
Ao final, multiplica-se a equação por dois. Mas por quê? Essa é uma convenção 
entre estatísticos para manter a equivalência com os valores obtidos via soma dos 
quadrados em modelos com distribuição normal: quando multiplicamos a desviância 
por dois, ela fica idêntica à soma dos quadrados. 
59 
 
-2* (𝐥𝐨𝐠 𝑷(𝒀|𝒎𝒐𝒅𝒆𝒍𝒐) − 𝐥𝐨𝐠 𝑷(𝒀|𝒎𝒐𝒅𝒆𝒍𝒐 𝒔𝒂𝒕𝒖𝒓𝒂𝒅𝒐)) 
 A desviância residual é a discrepância do nosso modelo em relação ao modelo 
saturado. Já a desviância nula é a discrepância de um modelo nulo (que seria o pior 
modelo possível, sem preditores, apenas representando a média da variável 
dependente) em relação ao modelo saturado. Assim, a desviância nula representa a 
variabilidade máxima a ser explicada. Já a desviância nula representa a 
variabilidade não explicada pelo nosso modelo. O quociente da desviância residual 
pela desviância nula representa o quanto do total a ser explicado não é explicado 
pelo nosso modelo (figura 7.10). Consequentemente, “1” menos esse valor equivale 
à variação que é explicada. Essa variação explicada pelo modelo é uma forma de 
calcular o R² para GLMs. Porém, por não ser originário da soma dos quadrados e 
porque em algumas poucas distribuições o total pode não ser exatamente igual a um 
(mas muito próximo), esse valor é chamado de pseudo-R². 
 
Figura 7.10. Diagrama representando total de variação explicada e não explicada 
por um modelo generalizado linear. 
 
𝐃𝐞𝐬𝐯𝐢â𝐧𝐜𝐢𝐚 𝐧𝐮𝐥𝐚 = −𝟐 ∗ (𝒍𝒐𝒈𝒍𝒊𝒌𝒆 (𝒑𝒊𝒐𝒓 𝒎𝒐𝒅𝒆𝒍𝒐) − 𝒍𝒐𝒈𝒍𝒊𝒌𝒆 (𝒎𝒐𝒅𝒆𝒍𝒐 𝒔𝒂𝒕𝒖𝒓𝒂𝒅𝒐)) 
𝐃𝐞𝐬𝐯𝐢â𝐧𝐜𝐢𝐚 𝐫𝐞𝐬𝐢𝐝𝐮𝐚𝐥 = −𝟐 ∗ (𝒍𝒐𝒈𝒍𝒊𝒌𝒆 (𝒎𝒆𝒖 𝒎𝒐𝒅𝒆𝒍𝒐) − 𝒍𝒐𝒈𝒍𝒊𝒌𝒆 (𝒎𝒐𝒅𝒆𝒍𝒐 𝒔𝒂𝒕𝒖𝒓𝒂𝒅𝒐)) 
60 
 
Pseudo R²=𝟏 −
𝑫𝒆𝒔𝒗𝒊â𝒏𝒄𝒊𝒂 𝒓𝒆𝒔𝒊𝒅𝒖𝒂𝒍
𝑫𝒆𝒔𝒗𝒊â𝒏𝒄𝒊𝒂 𝒏𝒖𝒍𝒂
 
 
Distribuição binomial negativa 
O GLM com distribuição de Poisson é o modelo linear mais simples possível para 
representar contagens. Lembre-se que, nele, média e variância são a mesma coisa 
(lambda); é um modelo “econômico”. Porém, isso só funciona bem quando os 
organismos estão aleatoriamente distribuídos no espaço e tempo. E, na realidade, 
muitos organismos vivem de modo agregado (figura 7.11). Em uma coleta de dados, 
muitos pontos de amostragem podem não conter nenhum indivíduo, enquanto em 
alguns outros a contagem pode ser muito alta (figura 7.11). Consequentemente, a 
distribuição das frequências tende a ser acentuada nos zeros, e mais assimétrica 
que o previsto pela distribuição de Poisson. Nesses casos, uma distribuição que 
considere a agregação dos dados pode ser mais interessante. 
 
Figura 7.11. Frequentemente os organismos são distribuídos de forma agregada na 
paisagem (imagem do lado esquerdo), o que leva a muitas contagens com zero e 
poucos valores muito diferentes de zero (histograma do lado direito) (Figura 
adaptada de Bolker 2008). 
 
Uma distribuição relativamente simples que representa este fenômeno é a 
distribuição binomial negativa. Esta distribuição tem dois parâmetros: a já bem 
conhecida média, e K, um parâmetro que determina o grau de agregação dos 
indivíduos no espaço.

Continue navegando