modelos lineares_FINAL1

•

UFSM

Mariane Bosholn

16/07/2020

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 86 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 86 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 86 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Estatística Aplicada

24.049 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

MODELOS LINEARES
CONCEITOS E APLICAÇÕES BIOLÓGICAS
Versão 1.0

Mariane Bosholn
Pedro Aurélio Costa Lima Pequeno
Tainara Venturini Sobroza

Boa Vista, Roraima
Janeiro de 2020
2

Sumário
SOBRE OS AUTORES 4
SOBRE OS DADOS UTILIZADOS AO LONGO DA APOSTILA 5
APRESENTAÇÃO 6
1. VARIÁVEIS E RELAÇÕES 7
Variabilidade 8
Medindo a variância conjunta de duas variáveis 10
2. INFERÊNCIA ESTATÍSTICA 15
Medindo incertezas 15
Estatísticas 19
3. REGRESSÃO 21
Método dos Mínimos Quadrados 21
Estimando a dispersão dos pontos 24
Por que “regressão”? Uma velha história sobre gigantes e anões 26
Trabalhando com variáveis em diferentes escalas 29
4. RELAÇÕES CURVILÍNEAS 30
Alometria 30
Relações não monotônicas 35
5. REGRESSÃO MÚLTIPLA 38
Quebrando relações entre preditores 38
Interação entre preditores 42
Preditores categóricos 44
6. SIMULAÇÕES 46
Criando modelos estocásticos 46
7. MODELOS LINEARES GENERALIZADOS 50
Desvios da normalidade 50
3

Distribuição de Poisson 50
Máxima verossimilhança (Likelihood) 54
Distribuição binomial negativa 60
Distribuição Gama 62
Distribuição de Bernoulli 64
A família exponencial 66
8. CRITÉRIOS DE INFORMAÇÃO 68
Critério de Informação de Akaike (AIC) 68
9. MODELOS LINEARES (GENERALIZADOS) DE EFEITOS MISTOS 69
Autocorrelação 69
Fator aleatório 71
Hierarquias 76
Comunidades ecológicas: um exemplo de Modelo Linear Generalizado Misto
(GLMM) 76
Máxima verossimilhança restrita (REML) 81
Uma nota sobre fatores aleatórios 82
10. CONSIDERAÇÕES FINAIS 83
REFERÊNCIAS PRINCIPAIS 85

SOBRE OS AUTORES

Esta apostila foi desenvolvida por uma discente e dois ex-discentes do Programa de
Pós-graduação em Ecologia do Instituto Nacional de Pesquisas da Amazônia
(INPA). Os três autores colaboraram igualmente na produção da obra.

Mariane Bosholn
Bacharela em Ciências Biológicas formada pela Universidade Federal de Santa
Maria (UFSM), é Mestra e Doutora em Biologia (Ecologia) pelo Instituto Nacional de
Pesquisas da Amazônia. Tem experiência em ecologia de vertebrados, fisiologia
animal, estatística, e na linguagem computacional R. Lattes:
http://lattes.cnpq.br/8102271563187887

Pedro Aurélio Costa Lima Pequeno
Bacharel em Ciências Biológicas formado pela Universidade Federal do Amazonas
(UFAM), é Mestre e Doutor em Biologia (Ecologia) pelo Instituto Nacional de
Pesquisas da Amazônia. Atualmente, é bolsista de pós-doutorado no Programa de
Pós-graduação em Recursos Naturais (PRONAT) da Universidade Federal de
Roraima (UFRR). Tem experiência em ecologia, biologia evolutiva, comunicação
científica, estatística e delineamento amostral, e na linguagem computacional R.
Lattes: http://lattes.cnpq.br/7013126109041225

Tainara Venturini Sobroza
Bacharela em Ciências Biólogicas formada pela Universidade Federal de Santa
Maria (UFSM), e Mestra em Biologia (Ecologia) pelo Instituto Nacional de Pesquisas
da Amazônia. Atualmente, é doutoranda em Biologia (Ecologia) no mesmo instituto.
Tem experiência em ecologia de vertebrados, comportamento animal, com ênfase
em bioacústica, estatística, e na linguagem computacional R. Lattes:
http://lattes.cnpq.br/5061460882816513

SOBRE OS DADOS UTILIZADOS AO LONGO DA APOSTILA

A fim de enfatizar o valor prático dos métodos discutidos nesta apostila, nós usamos
dados reais para ilustrar vários conceitos. Em particular, três conjuntos de dados são
usados:
1) Biomassa de palmeiras em uma floresta na Amazônia. Estes dados
compreendem estimativas de biomassa acima do solo de palmeiras em 30 parcelas
de 1 hectare situadas na Reserva Ducke, Manaus, AM. Os dados estão disponíveis
como apêndice em Castilho et al. (2006). Nós agradecemos à gentileza dos autores
pelo compartilhamento dos dados.
2) Abundâncias de palmeiras da tribo Euterpeae na Amazônia. Estes dados
consistem em contagens de cinco espécies desta tribo em 30 parcelas de 250 x 4 m
situadas na Reserva Ducke, Manaus, AM. Os dados já foram usados em
publicações (p.ex. Costa et al. 2008, Schietti et al. 2013, de Freitas et al. 2014) e
estão disponíveis no repositório de dados do Programa de Pesquisas em
Biodiversidade (https://ppbio.inpa.gov.br/repositorio/dados), com o título:
Jean Louis Guillaumet, Albertina Lima, and Flávia Costa. Composição da
comunidade de palmeiras da Reserva Ducke. Programa de Pesquisa em
Biodiversidade (PPBio).
Nós agradecemos à gentileza dos autores pelo compartilhamento dos dados.
3) Dados de altura de pais e filhos. Estes dados foram usados originalmente no
trabalho clássico de Francis Galton (1886) sobre a herança da estatura em
humanos, e compreendem as alturas de 889 pessoas e de seus respectivos pais. Os
dados são de domínio público, e podem ser facilmente encontrados na internet.

https://ppbio.inpa.gov.br/repositorio/dados
6

APRESENTAÇÃO

Esta apostila foi criada como material de apoio à disciplina de “Modelos Lineares:
Conceitos e Aplicações”, oferecida através do Programa de Pós-graduação em
Ecologia do Instituto Nacional de Pesquisas da Amazônia (INPA) a partir de 2018. O
objetivo da disciplina é oferecer uma visão geral sobre os principais conceitos
envolvidos no uso de modelos lineares para responder questões em ecologia e
áreas afins.
Enfatizamos que esta NÃO É uma apostila sobre delineamento amostral ou
programação estatística; há outras apostilas gratuitas com uma destas finalidades
(p.ex. Landeiro & Baccaro 2018). Portanto, o leitor não encontrará códigos de
programação, e os resultados apresentados de programas estatísticos servem
apenas para ilustrar os conceitos discutidos. Além disso, você poderá encontrar
detalhes mais aprofundados dos tópicos abordados em livros e artigos específicos
sobre estatística (p.ex. Zuur et al., 2009, 2010, Kéry 2010, Gotelli & Ellison 2010,
Magnusson et al. 2015).
Em sua versão atual, a apostila é um projeto em construção; ela (ainda) não é um
texto plenamente autodidático. Porém, serve como texto introdutório, e como um
guia “amigável” para conceitos normalmente abordados em linguagem mais técnica
pela literatura primária (artigos, livros-texto).

Em caso de dúvidas/sugestões, escreva para os autores:
Mariane Bosholn: bosholn.m@gmail.com
Tainara V. Sobroza: tv.sobroza@gmail.com
Pedro A. C. L. Pequeno: pacolipe@gmail.com

Bom estudo!

1. VARIÁVEIS E RELAÇÕES

A ciência – da física e química à economia e sociologia, passando pela geologia,
biologia e psicologia – avança através de um mesmo processo: fazemos uma
pergunta, pensamos em uma ou mais possíveis respostas para esta pergunta
(hipóteses), e coletamos dados para responder à pergunta. Se os dados apoiarem
nossa(s) hipótese(s), isto sugere que nossas ideias fazem algum sentido. Caso
contrário, estamos errados. Apesar de poderem ter motivações muito diferentes,
quase todas as perguntas científicas envolvem o mesmo problema geral: a
existência (ou não) de relações entre características que variam, seja no espaço,
seja no tempo.
Determinar relações é útil porque permite explicar, predizer e controlar fenômenos
naturais. Por exemplo, sabemos que há uma relação entre a sobrevivência do
mosquito da dengue (Aedes aegypti) e a velocidade da água: geralmente, o
mosquito não se desenvolve em água corrente. Este conhecimento permite prever
em que ambiente há maior risco do mosquito proliferar, e sugere como evitar que
isso ocorra – basta evitar focos de água parada. Outro exemplo: sabemos que existe
uma relação entre a concentração de gás carbônico e a quantidade de calor retida
pelo ar. Por isso, podemos prever que se continuarmos queimando combustíveis
fósseis (seja através de motores ou incêndios florestais), a temperatura do ar deverá
aumentar – e, portanto, a forma mais simples de evitar issoseria parar de queimar
combustíveis fósseis. Ao testar possíveis relações com dados, podemos discriminar
entre quais relações fazem sentido e quais não fazem, usar as primeiras e descartar
as últimas.
Porém, para medirmos o quanto duas variáveis mudam juntas (i. e. quanta
variabilidade é compartilhada entre variáveis), precisamos primeiro de uma forma de
medir variabilidade propriamente dita, ou o quão diferentes os valores de uma
variável são.

Variabilidade

Em qual dos grupos a variável Y varia mais, A ou B (figura 1.1)?

Figura 1.1. Variável Y com diferentes variabilidades entre dois grupos, A e B. Cada
ponto representa uma observação; a linha horizontal representa a média.

Podemos dizer que B é mais variável que A, porque os valores de Y são mais
diferentes entre si. Uma simples forma de contabilizar a variabilidade desse gráfico
seria através da soma das distâncias de cada ponto até a média (linha horizontal na
figura 1.1). Assim, teremos um número que será maior quanto mais diferentes da
média forem os valores (i. e. grupo B na figura 1.1). No entanto, se fizermos isto,
valores acima da média serão positivos, e abaixo da média, negativos. Ao somar
valores negativos e positivos, eles se anularão! Para eliminar os valores negativos e
medir a variabilidade, usa-se a soma dos quadrados (Sum of the Squares-SS), que é
a soma dos desvios de cada observação elevadas ao quadrado. Como qualquer
número elevado ao quadrado é positivo, isto garante que só somaremos valores
positivos (e que os desvios não se anularão). Se dividirmos a soma dos quadrados
pelo número de observações, teremos o desvio quadrado médio, mais conhecido
como variância. Uma desvantagem da soma dos quadrados ou variância para medir
9

variabilidade é que, como os desvios são elevados ao quadrado, a unidade de
medida da nossa variável Y também é elevada ao quadrado. Normalmente,
queremos falar da nossa variável na escala original, não na escala ao quadrado!
Para voltar a escala original, precisamos tirar a raiz quadrada. A raiz quadrada da
variância é denominada desvio padrão (Standart Deviation- SD) (Figura 1.2).

Figura 1.2. Medidas de variabilidade (soma dos quadrados, variância e desvio
padrão) baseadas no desvio de cada observação em relação à média, elevado ao
quadrado (e2).

A soma dos quadrados (SS), variância (var) e desvio padrão (SD) são diferentes
maneiras de medir variação e de certa forma são análogas: quanto maior a soma
das quadrados, maior a variância, e maior o desvio padrão. A diferença entre elas
está na escala. Porém o SD é mais comumente usado, pois representa a escala
original dos dados, enquanto a SS e a variância são potências (i.e. baseadas nos
desvios elevados ao quadrado).

Medindo a variância conjunta de duas variáveis
Geralmente queremos entender a relação entre variáveis diferentes e, portanto, a
variância conjunta das variáveis, i.e. o quanto elas mudam juntas. Para isto,
podemos usar um gráfico cujos eixos representam as variáveis (Y, eixo vertical; X,
eixo horizontal), e cada observação é representada por um ponto. Em um gráfico
como este, cada ponto amostral apresenta desvios tanto em relação à média do eixo
X, quanto em relação à média do eixo Y. Uma forma de sumarizar a variação
conjunta de duas variáveis é através do produto dos desvios de x e y, o que é
chamado de produto cruzado (Figura 1.3).

𝒆𝒙 = 𝒙 − 𝒙
𝒆𝒚 = 𝒚 − 𝒚
𝒎é𝒅𝒊𝒂 = 𝒆𝒙 ∗ 𝒆𝒚 (produto cruzado)
Figura 1.3. Produto cruzado entre duas variáveis. Cada observação (ponto) tem um
desvio em relação à média de X e de Y. Se multiplicarmos estes dois desvios,
teremos um valor que reflete o quanto esta observação varia no mesmo sentido ao
longo das duas variáveis: quanto maiores os dois desvios, maior será p produto.
Agora, se um desvio for grande, mas o outro for pequeno, significa que as duas
variáveis não estão mudando juntas, e o produto entre desvios será pequeno.

SS/nº de réplicas

1 variável 2 variáveis

Variância Covariância

Podemos sumarizar os produtos cruzados entre duas variáveis calculando sua
média, usualmente chamada de covariância. Quando duas variáveis variam
conjuntamente (i.e. uma aumenta e a outra aumenta junto, ou uma aumenta e a
outra diminui), o valor da covariância tende a ser grande. Por outro lado, quando as
variáveis variam independentemente uma da outra, o valor tende a ser pequeno.

Figura 1.4. Relação entre variância e covariância. Ambas são baseadas na
multiplicação de desvios em relação à média. Porém, a variância mede a
variabilidade de uma única variável (i.e. desvio de cada observação multiplicado por
ele mesmo), enquanto que a covariância mede a variabilidade compartilhada entre
duas variáveis (i.e. desvio de cada observação em relação a uma variável
multiplicado pelo desvio da mesma observação em relação a outra variável).

Uma limitação da covariância é que, muitas vezes, usamos variáveis em escalas
diferentes. Por exemplo, em uma análise sobre a relação entre abundância de uma
espécie (variável resposta) e a altitude (variável preditora), a unidade de uma das
variáveis é indivíduo (i.e. uma contagem), enquanto a outra é metro. Logo, a unidade
da covariância é... indivíduos × metro! Para a maioria das pessoas, isto não é muito
intuitivo. Como resolver esse problema e colocar as variáveis medidas em escalas
diferentes em uma mesma escala? Uma opção é dividir o desvio de cada ponto
amostral pelo seu respectivo desvio padrão. Essa covariância padronizada pelos
desvios padrões é conhecida como correlação (r). A vantagem é que, ao fazermos
isso, a covariância passa a variar em uma escala padronizada de -1 a +1, e fica mais
fácil falar o quanto duas variáveis mudam juntas, em termos relativos: quanto mais r
se aproxima de 1 (positivo ou negativo), mais forte a relação entre as variáveis;
quanto mais próximo de 0, mais fraca a relação.

Figura 1.5. Colocando variáveis medidas em escalas diferentes na mesma escala.
Se dividirmos os desvios das observações pelo desvio padrão da variável,
automaticamente os valores passam para a mesma escala: a escala dos desvios
padrões. Isto ocorre porque dividimos a unidade original pela unidade do desvio
padrão (que é a mesma unidade original da variável). Logo, as duas unidades se
cancelam. Note que, após esta padronização, as variáveis passam a ter média 0;
valores maiores que a média, passam a ser positivos, e menores, negativos.

O coeficiente de correlação é útil como uma medida rápida do quão fortemente
relacionadas duas variáveis estão (figura 1.6).
13

Figura 1.6. Relação entre biomassa de palmeiras e teor de fósforo do solo na
Reserva Ducke, Manaus, AM. A correlação medida (r = 0.74) sugere uma relação
positiva, moderada à forte. Isto está de acordo com o padrão que observamos no
gráfico.
Às vezes, medimos uma série de variáveis, e queremos saber quais variam mais e
quais variam menos. Frequentemente, a variabilidade (i.e. soma dos quadrados,
variância ou desvio padrão) aumenta conforme a média aumenta. Isto significa que,
se medirmos uma mesma variável em escalas diferentes (e.g. temperatura em graus
Celsius, Farenheit ou Kelvin), o simples fato de mudarmos a escala pode fazer com
que nossas medidas variem mais ou menos! Normalmente, queremos uma medida
de variabilidade que permita comparar variáveis entre si, independentemente da
escala em que foram medidas. Nesse caso podemos dividir o desvio padrão pela
média e obter o coeficiente de variação (CV), uma medida padronizada da variação
de uma variável. Esse coeficiente é usado para diminuir o efeito da média sobre a
variabilidade da variável.
14

Figura 1.7. Variáveis com maior média geralmente têm maior variabilidade (B).O
coeficiente de variação usa essa relação para padronizar a variabilidade de variáveis
com médias diferentes, permitindo comparações diretas entre elas.

Sumarizando:
Correlação é a covariância padronizada
Covariância é a variância compartilhada entre duas variáveis
Variância é a média da soma dos quadrados
Desvio padrão é a raiz quadrada da variância
15

2. INFERÊNCIA ESTATÍSTICA
Medindo incertezas
Quase sempre, queremos usar nossos dados para fazer extrapolações sobre coisas
mais gerais. Por exemplo, no caso das palmeiras (figura 1.6), observamos uma
relação entre biomassa e fósforo nas 30 parcelas de 1 hectare na Reserva Ducke.
Se quisermos saber qual a correlação entre essas variáveis apenas nessas
parcelas, já vimos que ela é exatamente r = 0,74. Mas e se quisermos falar sobre
essa relação na Reserva Ducke como um todo, que tem 10.000 hectares, e não
apenas nas 30 parcelas que observamos? Intuitivamente, as 30 parcelas devem nos
informar algo sobre a Reserva, mas o quanto? Há uma incerteza associada quando
extrapolamos qualquer conclusão baseada nos dados observados para a Reserva
inteira, cuja maior parte não foi observada.
Neste exemplo, as parcelas observadas representam nossa amostra, e cada
parcela é uma unidade amostral, i.e. aquilo em que medimos nossas variáveis. A
Reserva Ducke representa a área maior sobre a qual queremos falar, ou nosso
universo amostral. O valor da correlação observado na nossa amostra, que
sabemos com certeza, é uma estimativa. Já o valor real da correlação na Reserva
Ducke como um todo, que não sabemos com certeza, é um parâmetro. Assim,
pode-se dizer que os pesquisadores estão quase sempre tentando estimar ou
“chutar” um ou mais parâmetros, que permitem responder a questão científica de
interesse. É esse “chute” que chamamos de inferência.
Para que nossas inferências funcionem, precisamos de três coisas. Primeiro, nossas
unidades amostrais devem ser independentes, i.e. cada unidade amostral deve
fornecer informação adicional sobre o universo amostral de interesse, ao invés de
repetir a mesmo informação. Por exemplo, no caso das palmeiras, podemos
demarcar parcelas em lugares diferentes, ou no mesmo lugar (p.ex. parcelas
coladas uma na outra, ou totalmente sobrepostas). Este é um exemplo extremo, mas
obviamente, parcelas repetidas no mesmo lugar fornecem menos informação sobre
uma área do que parcelas espalhadas pela mesma área. Segundo, nossa amostra
deve ser representativa do universo amostral. Isto quer dizer que a variabilidade que
existe no universo amostral também deve existir na amostra. No caso das palmeiras,
as 30 parcelas espalhadas pela Reserva Ducke podem ser representativas da
16

Reserva, mas certamente não serão representativas de Manaus, da Amazônia, do
Brasil, etc., já que não abrangem toda variabilidade possível nessas áreas. Terceiro,
precisamos medir o tamanho da incerteza associada à nossa estimativa do
parâmetro, de modo podermos julgar se nosso “chute” é razoável ou não, ou se
temos evidência suficiente para concluir algo sobre o universo amostral ou não. Em
geral, quanto maior o tamanho da amostra (i.e. mais unidades amostrais), menor a
incerteza da nossa estimativa e, portanto, mais confiáveis nossas chutes sobre o
universo amostral. Porém, há várias formas de medir o tamanho da nossa incerteza.
A seguir, veremos algumas das mais amplamente usadas pelos cientistas.
Uma forma de medir a incerteza associada a uma estimativa é simular estimativas
que sabemos terem sido geradas por acaso. Por exemplo, no caso das palmeiras,
podemos “embaralhar” os valores de biomassa e fósforo na nossa tabela, i.e. trocar
a ordem dos valores entre parcelas, aleatoriamente. Ao fazermos isso, nós
automaticamente quebramos qualquer relação real que possa existir nos dados, já
que desfazemos o pareamento original entre os valores de biomassa e fósforo.
Qualquer padrão que ocorrer após o embaralhamento surgiu, necessariamente, por
acaso! Assim, podemos embaralhar os valores, calcular a correlação e anotar o
valor, uma, duas, três vezes... Repetindo este processo centenas ou milhares de
vezes, teremos uma série de correlações geradas ao acaso, com uma dada
distribuição de frequências: por acaso, alguns valores podem ser mais comuns que
outros. Uma distribuição de estimativas geradas ao acaso é conhecida como
distribuição nula. A partir disso, podemos comparar nossa estimativa original com
esta distribuição, e perguntar: qual a chance de ela ter sido gerada por acaso? Se o
valor observado (r = 0.74) tiver for muito frequente na distribuição gerada ao acaso,
então a chance é grande; caso contrário, é pequena! Quanto menor esta chance,
mais confiantes de que nossa estimativa é extrapolável para o universo amostral de
interesse, já que ela não surgiu por acaso na nossa amostra. A probabilidade de
uma estimativa igual ou mais extrema que aquela a observada ser gerada ao acaso
é conhecida como P.
17

Figura 2.1. Distribuição de frequências das correlações entre o teor de fósforo do
solo e a biomassa de palmeiras, geradas ao acaso (distribuição nula). Os valores
das variáveis usados na correlação foram aleatorizados 1000 vezes. A seta preta
representa o valor da correlação observado com os dados reais.

Como podemos perceber na figura 2.1, pouquíssimas correlações geradas através
desse modelo nulo foram maiores que a correlação entre os dados originais
(cor=0.74). Portanto, a probabilidade da associação observada originalmente ter sido
gerada ao acaso é baixa (p<0.05). Já na figura 2.3, podemos ver que o valor da
correlação original (cor= -0.02) é similar aos valores de correlação geradas ao
acaso. Portanto, a probabilidade da associação entre os dados originais ter sido
gerada ao acaso é alta (p>0.05). Assim, o P funciona como uma medida do tamanho
da nossa incerteza em relação ao quanto podemos extrapolar nossa estimativa para
o universo amostral: quanto maior o valor de P, maior a incerteza.
Uma forma alternativa de medir a incerteza associada a uma estimativa é
quantificar a variabilidade da estimativa propriamente dita: se pudéssemos coletar
nossos dados novamente e calcular a estimativa de novo, o quão diferente ela
seria? Se for muito diferente, então a incerteza associada à nossa estimativa é
grande. Se for muito parecida, a incerteza é pequena. Na prática, porém,
normalmente não coletamos nossos dados várias vezes; coletamos só uma. O que
podemos fazer é simular várias coletas novas coletas com o mesmo número de
observações da nossa amostra verdadeira, sorteando as linhas da nossa tabela de
18

dados (i.e. unidades amostrais) com reposição (i.e. cada linha pode ser amostrada
mais de uma vez). A ideia é simples: se nossa amostra é representativa do universo
amostral, então amostras representativas da nossa amostra necessariamente
devem ser representativas do universo amostral (i.e. se A = B, e B = C, então A =
C!). O procedimento de simular estas novas amostras também é conhecido como
bootstrap. Uma vantagem dessa abordagem é que ela não exige uma hipótese nula
específica inicial.
O desvio padrão das estimativas calculadas a partir das amostras obtidas por
bootstrap é chamado de erro padrão, e representa a variabilidade esperada da
nossa estimativa, ou o quão imprecisa ela é. Quanto maior o erro padrão, maior a
incerteza (ou menor a precisão). Já o intervalo que contém 95% das estimativas
simuladas é chamado de intervalo de confiança de 95%.

Figura 2.2. Distribuição de estimativas simuladas por bootstrap. O desvio padrão das
estimativas é conhecido como erro padrão.

Figura 2.3. Comparação entre distribuição nula e distribuição de uma estimativa
gerada por bootstrap. Em geral, quanto menor a precisão de uma estimativa, mais
essas duas distribuições se sobrepõem. Logo, quanto mais evidência temos contraa
hipótese nula (menor P), maior a precisão da nossa estimativa (mais estreito o
intervalo de confiança).

Interessantemente, podemos usar tanto o valor de P quanto do intervalo de
confiança para testarmos as nossas hipóteses (figura 2.3).
Estatísticas
Simulações são úteis para obter medidas de incerteza, mas só são praticáveis
porque temos computadores que fazem muitas repetições rapidamente. Durante a
20

maior parte da história da humanidade, não havia computadores eficientes ou
disponíveis o suficiente para isso. Por isso, os estatísticos desenvolveram uma
teoria matemática que permite aproximar o valor de P a partir de alguns
pressupostos sobre os dados. A vantagem é que isto permite calcular o valor de P
usando algumas fórmulas relativamente simples, sem a necessidade de inúmeras
simulações. Por exemplo, para obter o valor de P associado a hipótese nula de que
um coeficiente de correlação é igual a zero, podemos usar uma quantidade
conhecida como estatística t:
t= r √𝒏 − 𝟐/ 𝟏 − 𝒓²
Dados certos pressupostos, a estatística t tem uma distribuição nula conhecida, e
isso permite calcular o valor de P e intervalos de confiança rapidamente. Há muitas
estatísticas, cada uma apropriada para certas situações (p.ex. estatística t, F, z, χ²,
razão de verossimilhanças, etc.).
É importante destacar que todas elas seguem a mesma lógica: por si só, elas não
significam muita coisa; sua utilidade está no fato de permitirem aproximar o valor de
P rapidamente, usando apenas fórmulas. Logo, podemos pensar nas estatísticas
como intermediários, ou “laranjas”. Hoje, com as facilidades dos computadores, fazer
muitas simulações rapidamente não é mais um problema. Porém, por conveniência,
as estatísticas continuam sendo usadas rotineiramente pelos programas estatísticos.

3. REGRESSÃO
Método dos Mínimos Quadrados
Coeficientes de correlação são medidas rápidas e úteis da força da relação entre
duas variáveis. Porém, eles também são medidas grosseiras para responder a
perguntas biológicas. Isto é ilustrado pela figura 3.1, onde três nuvens de pontos
ocupando diferentes posições no gráfico têm exatamente a mesma correlação.

Figura 3.1. Três relações diferentes entre duas variáveis, com a mesma correlação (r
= 1). Ao olharmos apenas para o número, perdemos informação sobre as diferenças
entre as três nuvens de pontos.

Idealmente, gostaríamos de ter uma forma de representar estas três relações que
salientasse suas diferenças. Ou seja, gostaríamos de representar não apenas a
força da relação, mas também sua forma. Pensando nisso, qual a maneira mais
simples de representar a forma da relação entre duas variáveis? Uma simples linha
reta! Neste caso, usamos uma reta como representação de como a variável
dependente (Y) tende a mudar em função da variável independente ou preditora (X).
A medida mais simples de tendência (i.e. o que ocorre com a maioria) é a média.
Portanto, usamos a reta para representar a média de Y ao longo de X. A vantagem
de fazermos isso é que a reta pode ser descrita por uma simples equação, que
sumariza a forma da relação entre Y e X:
22

𝒚 = 𝒂 + 𝒃𝒙
Onde 𝒃 =
𝒄𝒐𝒗( 𝒙,𝒚)
𝒗𝒂𝒓(𝒙)
e 𝒂 = 𝒚 − 𝒃𝒙

A fórmula acima é conhecida como equação da reta, onde “Y” representa a variável
resposta, “x” a variável preditora, e “a” e “b” são constantes ou coeficientes: “a” é
conhecido como intercepto, e “b”, a inclinação da reta (slope). Em um gráfico, o “a”
coincide com o local onde a reta corta o eixo vertical (ou seja, no Y) quando o X é
igual à zero. Logo, sua unidade de medida é a mesma unidade de Y. Já o “b”
representa o quanto “y” muda por unidade de “x”. Ou seja, tal medida é uma taxa e,
portanto, sua unidade de medida é uma razão entre as unidades de Y e X.
No exemplo abaixo (figura 3.2), temos uma relação hipotética entre a abundância
(número de indivíduos) de jararacas-do-norte (Bothrops atrox) em um dado local e a
distância (m) até o igarapé1 mais próximo. O gráfico é baseado na relação geral
revelada pela pesquisa de biólogos: normalmente, há mais jararacas na beira dos
igarapés; quanto mais distante, menos jararacas. A reta representa a abundância
média de jararacas. Assim, a unidade do intercepto é número de indivíduos,
enquanto a unidade da inclinação é número de indivíduos. Porém, note que, embora
haja uma tendência, há variação em torno da tendência. Isto ocorre na maioria das
relações observadas no mundo real: para um mesmo valor de X, Y pode desviar
acima ou abaixo da média, porque há outros fatores que afetam Y. As setas em
vermelho representam o valor dos desvios, também chamados de resíduos. O
resíduo nada mais é que a distância entre o ponto amostral e o valor predito pela
reta (i.e. a média de Y).

1 “Igarapé” é o nome comum dado a córregos ou riachos na Amazônia.
23

Figura 3.2. Relação entre abundância de jararacas (Bothrops atrox) e distância até
igarapé mais próximo (m). A reta representa como a abundância média muda me
função da distância até o igarapé. As setas representam os resíduos, i.e. a distância
entre cada observação e a média predita pela reta. “Y”, “X”, “a” e “b” são as variáveis
dependente, independente, intercepto da reta, e a inclinação da reta,
respectivamente.

Para determinar o local exato da posição da reta, precisamos de um método para
estimar o valor do intercepto e da inclinação. Poderíamos simplesmente usar o
“olhômetro” e traçar a reta na posição que julgamos melhor representar a tendência.
O problema é que, se diferentes pessoas fizerem isso, provavelmente traçam retas
um pouco diferentes, mesmo que sejam os mesmos dados. Logo, precisamos de um
critério objetivo, de modo que qualquer pessoa analisando os mesmos dados
cheguem à mesma conclusão. O método mais popular para fazer isso é conhecido
como Método dos Mínimos Quadrados (Mínimos Quadrados Ordinários (MQO) ou
Ordinary Least Squares (OLS)). Esse método busca a melhor reta para um conjunto
de dados minimizando a soma dos resíduos elevados ao quadrado. Isso faz sentido
porque, intuitivamente, a reta que melhor representa a relação é aquela que paca no
“meio” dos pontos, de modo que as distâncias entre os pontos e as retas sejam
relativamente pequenas. Assim, fizermos duas retas – uma passando próxima aos
pontos e outra longe –, calcularmos os resíduos e os somarmos, veremos que a reta
que passa mais perto terá uma soma menor, porque os resíduos são menores.
Porém, antes de somar, precisamos elevar cada resíduo ao quadrado, caso
24

contrário resíduos positivos (i.e. acima da média prevista pela reta) serão somados
com resíduos negativos (i.e. abaixo da média prevista pela reta), cancelando uns
aos outros! Daí o nome “mínimos quadrados”. No exemplo abaixo (figura 3.3.), a
soma é menor no gráfico à esquerda. Note que, como esperado, essa reta
representa melhor os dados se comparada à reta do gráfico à direita.

Figura 3.3. Comparação da soma dos quadrados de duas retas usadas para
representar a relação entre abundância de jararacas e distância do igarapé. Em
cada caso, primeiro os resíduos são calculados (i.e. distância entre cada observação
e a média predita pela reta) e, então, cada um é elevado ao quadrado. Isso,
graficamente, é o mesmo que calcular a área de um quadrado cujo lado é igual ao
valor do resíduo. Então, as áreas de todos esses quadrados (um para cada
observação) são somadas, obtendo a “soma dos quadrados”. A reta com a menor
soma dos quadrados é a que melhor representa a nuvem de pontos. Note que, se
uma observação cair exatamente sobre a reta, seu resíduo será zero, assim como a
área do seu quadrado.

Estimando a dispersão dos pontos
Para completar nossa descrição sobre as formas da relação, também é importante
termos uma medida da dispersão dos pontos ao redor da reta: quanto maior a
dispersão, mais fracaa relação. Uma forma relativamente simples e geral é
determinar o quão fortemente os valores observados da nossa variável dependente
25

(Y) estão relacionados aos valores preditos pela reta; quanto mais forte essa
relação, maior o poder preditivo da reta. Já vimos que podemos medir a dispersão
dos pontos em um gráfico usando o coeficiente de correlação. O problema é que o
coeficiente de correlação pode ser negativo, mas a correlação entre valores
observados e preditos nunca pode ser negativa; necessariamente, valores maiores
de Y tenderão a estar associados a valores maiores preditos pela reta. Por isso,
podemos mudar a escala do coeficiente de correlação de modo que, ao invés de
variar entre -1 e 1, ele varie apenas entre 0 e 1. Como? Elevando-o ao quadrado!
Este é o coeficiente de determinação, mais popularmente conhecido como R². Por
variar entre 0 e 1, o R² pode ser interpretado como uma proporção ou percentagem,
i.e. que proporção da variação em Y é explicada por X.. Quanto maior o R², maior é
o poder preditivo de X sobre Y.

Figura 3.4. Relação entre abundância de jararacas e distância do igarapé,
representada por uma reta estimada por mínimos quadrados, e a relação entre
abundâncias observadas e preditas. Cada observação (pontos pretos) tem uma
projeção sobre a reta (pontos vermelhos), que correspondem à média predita de
abundância para cada valor de X (distância do igarapé). Se confrontarmos as
abundâncias observadas contra as a abundâncias preditas, teremos o gráfico à
direita; quanto mais forte a correlação entre ambos, maior o poder preditivo da reta.
A correlação (r) elevada ao quadrado passa avariar de 0 a 1, e é conhecida como
coeficiente de determinação. Quando combinamos a reta estimada por mínimos
quadrados à medida de dispersão em torno dela, temos a regressão linear, ou
simplesmente regressão.

Por que “regressão”? Uma velha história sobre gigantes e anões
Este nome curioso se deve ao trabalho de um dos pioneiros a utilizar este método
no século XIX: o inglês Francis Galton2. Uma questão importante em seu tempo era
como se dava a herança de características de pais para filhos. Pense nisso: em
geral, os filhos(as) tendem a ser mais parecidos com os pais do que com qualquer
outra pessoa. Assim, por exemplo, casais mais altos tendem a ter filhos mais altos, e
casais mais baixos, filhos mais baixos. Se esse processo simplesmente se repetir a
cada geração, então a população poderia divergir indefinidamente entre um grupo
de pessoas cada vez mais altas e outro de pessoas cada vez mais baixas. Em
pouco tempo, todos seriam ou gigantes ou anões; algumas famílias simplesmente
encolheriam até sumir! Por que isto não acontece?
Galton coletou dados sobre a altura de centenas de ingleses e sobre as alturas
médias de seus respectivos pais, e usou mínimos quadrados para estimar a relação
entre ambos (figura 3.5). Como esperado, Galton observou que pais mais altos
tendem a ter filhos mais altos. Se a transmissão da altura dos pais para os filhos
fosse perfeita, então para cada um centímetro que a altura dos pais mudasse, a
altura do filho deveria mudar também um centímetro, em média (i.e. a inclinação da
reta deveria ser b = 1). Porém, Galton notou que a inclinação da sua reta estimada
era menor que um! Assim, embora pais mais altos tendessem a ter filhos mais altos,
seus filhos geralmente eram mais baixos que os próprios pais. Da mesma forma,
pais mais baixos tendiam a ter filhos relativamente baixos, porém mais altos que
eles próprios. Assim, Galton propôs que a transmissão hereditária da altura não é
perfeita, de modo que a altura média da próxima geração (filhos) tendia a voltar a
altura média da geração anterior (pais). Mais especificamente, Galton sugeriu que as
características herdadas por uma pessoa eram provenientes não só dos pais, mas
também um pouco dos avós, menos ainda dos bisavós, e assim sucessivamente
através das gerações ancestrais. Em um artigo de 1886, Galton chamou este
fenômeno de “regressão à mediocridade”, e propôs que isto explicaria por que a
altura da população se mantém aproximadamente constante ao longo das gerações
(figura 3.5).

2 Francis Galton, que era primo de Charles Darwin, era muito interessado em
ciências sócias e genética. Ele inventou muitas coisas que usamos até hoje, como o
uso da impressão digital para identificar pessoas.
27

Hoje, sabemos que Galton estava errado: a razão pela qual a altura se mantém
aproximadamente constante é a segregação aleatória dos genes responsáveis pela
altura, o que quebra associações entre alelos “mais altos” e “mais baixos” geração
após geração. Porém, na presença de forças evolutivas (e.g. seleção natural) ou de
plasticidade fenotípica, sabemos que a altura média pode mudar. A inclinação de
Galton foi menor que um porque esta é uma característica intrínseca dos mínimos
quadrados: como ele considera apenas os resíduos de Y, a inclinação sempre é
menor que a de uma reta diagonal perfeita. Isto pode ser facilmente demonstrado
invertendo a ordem das variáveis na análise: se usarmos X como variável
dependente e Y como preditor, a inclinação muda! Ou seja, Galton foi enganado por
um artefato estatístico. Porém, a genética moderna só foi (re)descoberta no início do
século XX. Logo, isso não diminui a importância da obra de Galton como um todo.
Assim, hoje, quando falamos hoje sobre uma reta estimada por mínimos quadrados,
continuamos associando ao seu trabalho e chamando de regressão.

Figura 3.5. Relação entre altura do filho(a) e altura média dos pais entre ingleses.
Dados de Galton (1886). Cada ponto representa um filho(a). A reta contínua indica a
reta estimada por Galton usando mínimos quadrados. A reta pontilhada indica uma
reta hipotética “perfeita”, cuja inclinação é b = 1. Galton notou que a inclinação de
sua reta estimada era menor que um, sugerindo que a transmissão hereditária da
altura não é perfeita.

Na figura 3.2 temos um gráfico ilustrando que a abundância de jararacas-do-norte
varia de acordo com a distância do igarapé. Mas como saber se, de fato, se as
variáveis são relacionadas? Para responder a esse questionamento, criamos um
modelo no qual a abundância foi a variável resposta (y), e a distância foi a variável
preditora (x), e estimamos a relçao entre as mesmas.
abundância de jararacas = a + b* distância do igarapé

Figura 3.6. Output (resultado) de um modelo de regressão rodado no programa
estatístico R. A partir desse resultado, é possível observar que há uma relação
significativa entre a abundância de jararacas-do-norte e distância do igarapé
(p<0.05). Alguns dos itens mais importantes que aparecem no script acima são: lm =
linear model (função que calcula a regressão e outros modelos lineares que serão
abordados nos próximos capítulos); summary = sumariza os resultados gerados
pela função “lm”; Residual = valores mínimos, máximos e médios dos resíduos;
Error = Erro padrão e representa o desvio padrão da estimativa. Quanto maior o
valor do erro, pior será a estimativa gerada pelo modelo; t value = valor da
estatística t; Intercept.pr= testa a hipótese que o intercepto é igual a zero; Pr = valor
29

de P; e Df = representa os graus de liberdade. Os graus de liberdade nada mais são
do que o “número de pontos amostrais” menos o número de parâmetros estimados.
Os parâmetros em questão são apenas o intercepto e a inclinação da reta, portanto
o df é igual a “n – 2”. Ou seja, o tamanho amostral menos 2 parâmetros (intercepto e
inclinação). No entanto, modelos mais complexos calculam mais parâmetros.
Nesses casos, o valor dos graus de liberdade será menor.

Trabalhando com variáveis em diferentes escalas
Quando as variáveis estão em unidades de medida diferentes, podemos padronizá-
las para uma mesma escala. Um método comumente utilizado é chamado de
transformação Z, que coloca asvariáveis em uma mesma escala: a escala dos
desvios padrões. Para fazer isso, subtraímos a média de uma variável de cada um
dos valores dessa variável, e dividimos cada diferença pelo desvio padrão desta
variável.
Neste caso, note que a inclinação da reta passa a ser igual ao coeficiente de
correlação entre as mesmas variáveis. Isto ocorre porque a regressão calcula a
inclinação padronizando pela variação em X (i.e. quantas unidades Y muda por
unidade de X). Já a correlação padroniza a análise tanto pelo eixo X, quanto pelo
eixo Y (lembre-se que a correlação é a covariância entre as variáveis padronizadas
para uma mesma escala). Ou seja, matematicamente, as análises de correlação e
regressão são equivalentes; o que muda é a apresentação dos resultados e, assim,
quais informações são enfatizadas em um ou outro caso. A decisão de qual das
análises utilizar dependerá da sua pergunta.

4. RELAÇÕES CURVILÍNEAS
Alometria
Embora muitas relações possam ser razoavelmente representadas por linhas retas,
nem sempre este é o caso. Alometria é a relação desproporcional de crescimento de
uma característica com relação à outra. Um exemplo é a variação no tamanho das
mandíbulas de machos em diferentes espécies de besouro. Na figura abaixo temos
um gráfico que demonstra as relações entre os tamanhos das mandíbulas e dos
élitros dos machos de besouro (figura 4.1). A partir de determinado momento
(representado no gráfico pelas linhas verticais paralelas ao eixo “y”), a mandíbula
passa a crescer mais rápido que o resto do corpo.

Figura 4.1. Relação entre comprimento da mandíbula e comprimento do élitro (uma
medida do tamanho corporal) em uma espécie de besouro, conforme Romiti et al.
(2015). Os eixos estão em escala logarítmica. Cada ponto representa um indivíduo.
Note a curvatura ou “dobra” da relação.

Como podemos observar, os autores tentaram descrever o padrão principal dos
dados através de duas retas. No entanto, essa nem sempre é uma boa alternativa,
uma vez que a cada reta, o número de parâmetros a serem estimados aumenta, o
que exigiria um grande tamanho amostral. Uma forma mais simples de descrever
esse crescimento poderia ser usar uma equação ou função matemática que
descreve uma curva, ao invés de uma reta. Uma função comumente usada para
descrever curvas é a função de potência:
𝒚 = 𝒂 ∗ 𝑿𝒃
Os coeficientes “a” (intercepto) e “b” (inclinação ou slope) exercem efeitos diferentes
em linhas de tendência geradas para descrever padrões lineares e não lineares. Em
linhas de tendência geradas a partir da equação da potência, o “a” posicionará a
curva mais abaixo ou acima no eixo y (há mudança na escala do eixo y). Já o
intercepto “b” irá controlar a curvatura/forma da curva. Quando o valor de b é maior
que 1, é possível observar que a curvatura apresenta um crescimento acelerado
(positivamente). Quando o valor do b é um número entre 0 e 1, nós observamos que
a taxa de aumento é grande inicialmente, mas depois desacelera. Esse tipo de
relação é conhecida como assintótica ou limitante. Quando o valor de b é menor que
zero, surge uma curva de declínio, cuja taxa de mudança também diminui
gradualmente. Todas essas relações são consideradas monotônicas, uma vez que
as mudanças ocorrem em um mesmo sentido (figura 4.2).
32

Figura 4.2. Curvas criadas com a função de potência, Y = aXb.

No capítulo anterior, falamos sobre como estimar parâmetros de relações retilíneas.
Mas como estimar os parâmetros de relações curvilíneas, que não podem ser
representadas pela equação da reta? A princípio, também podemos usar o método
dos mínimos quadrados. O problema é que, historicamente, os computadores
tinham programas capazes de estimar apenas os parâmetros da equação da reta,
ou de alguma equação com estrutura similar, i.e. um somatório de vários termos.
Este tipo de equação é conhecido como “equação linear”. Entretanto, a função de
potência e muitas outras são equações não lineares, i.e. não representam um
simples somatório, envolvendo também outras operações. Por isso, para usar a
maquinaria teórica dos modelos lineares, era preciso reescrever a equação da
potência na forma de uma equação linear, i.e. como uma soma. Isto pode ser feito
usando logaritmos porque (1) o logaritmo de um produto é igual à soma dos
logaritmos dos termos do produto, e (2) o logaritmo de uma potência é igual ao
logaritmo da base vezes o expoente da potência. Logo:
𝒍𝒐𝒈𝒀 = 𝒂𝑿𝒃 𝒍𝒐𝒈
𝐥𝐨𝐠(𝒀) = 𝐥𝐨𝐠( 𝒂𝑿𝒃)
33

𝐥𝐨𝐠(𝒀) = 𝐥𝐨 𝐠( 𝒂) + 𝒍𝒐𝒈 (𝑿𝒃)
𝐥𝐨𝐠(𝒀) = 𝐥𝐨𝐠( 𝒂) + 𝐛 𝐥𝐨𝐠 (𝑿)
Podemos entender mais claramente a relação entre as duas formas da função de
potência usando gráficos: em escala log, a curva da potência se torna uma reta. Isto
ocorre porque, em escala log, um número muito grande não é tão grande assim.
Assim, aqueles valores mais discrepantes da nuvem de pontos que são
responsáveis pela curvatura que observamos na tendência são puxadas mais
fortemente para baixo do que valores menores, “linearizando” a curva de potência
(figura 4.3).

Figura 4.3. Função de potência na escala original das variáveis (esquerda) e em
escala log (direita). Note que, em escala log, uma curva de potência é uma reta;
igualmente, uma reta em escala log equivale a uma curva de potência em escala
antilog (também conhecida como exponencial).

Vale salientar que a transformação logarítmica dos dados é apenas uma mudança
de escala; a informação sobre a relação entre as variáveis permanece a mesma e,
portanto, isso não representa nenhuma forma de “manipulação de dados” em um
sentido pejorativo. Utilizando a operação inversa ao logaritmo, o exponencial,
podemos voltar facilmente à escala anterior. Algumas pessoas têm dificuldade de
interpretar dados em escala logarítmica, mas provavelmente você está muito
familiarizado com pelo menos uma medida em escala log: o pH, ou potencial
34

hidrogeniônico. O pH nada mais é que a concentração de prótons em uma solução
aquosa. Como essas concentrações são naturalmente muito baixas (e.g. 10-5, 10-7
ou 10-9 mol/L), normalmente nós usamos o logaritmo na base 10 desses valores,
multiplicado por -1. Assim, um pH de 5 equivale a uma concentração de prótons de
10-5 mol/L. A mudança de escala simplesmente facilita a interpretação.
No exemplo anterior (figura 4.3), tanto o eixo X quanto o eixo foram logaritmizados.
As curvas geradas através desse método são chamadas de curvas de potência. No
entanto, dependendo do comportamento dos nossos dados, é possível logaritmizar
apenas uma das variáveis (ou X, ou Y). Quando logaritmizamos apenas o Y, tem-se
o que chamamos de equação exponencial. Essa equação é inversa à equação
logarítmica.
𝒚 = 𝒆 𝒂+𝒃𝒙
Ainda, é possível gerar curvas através da logaritmização da variável X:
𝒚 = 𝒂 + 𝒃 ∗ 𝐥𝐨𝐠 𝒙
Uma outra forma de gerar curvas assintóticas é usando o inverso de X, criando uma
equação racional:
𝒚 = 𝒂 + 𝒃 ∗
𝟏
𝒙

Figura 4.4. Exemplos de curvas criadas usando diferentes equações lineares.
Embora o nome “linear” possa sugerir que elas só descrevem retas, isto não poderia
estar mais distante da realidade; uma grande variedade de curvas pode ser descrita
com equações lineares, i.e. equações compostas por um somatório de dois ou mais
termos.

Relações não monotônicas
As vezes, uma relação não será descrita adequadamente por nenhuma dessas
funções. Nesses casos, essas relações são chamadas de não monotônicas. Este
tipo de relação ocorre quando, primeiro, o Y aumento com X, e depois diminui (ou o
contrário). Um exemplo de função simples que descreve este tipo de relação é a
parábola. As linhas de tendência que possuem esse formato geralmente são
oriundas de regressões quadráticas. Diferentemente das outras equações discutidas
anteriormente, essa possui um parâmetro adicional, o parâmetro “c” (conhecidocomo termo quadrático). Quando o valor do parâmetro “c” é positivo, a curva tem
concavidade para cima (i.e. em forma de “U”). Já quando o valor de “c” é negativo, a
tem concavidade para baixo (i.e. em forma de “∩”). Os parâmetros “a” e “b” não tem
mais a mesma interpretação simples que na reta, mas continuam servindo para
especificar a posição exata da curva no gráfico. Um exemplo de relação na forma de
parábola convexa pode ser observado no exemplo abaixo (figura 4.5).
𝒀 = 𝒂 + 𝒃 ∗ 𝒙 − 𝒄 ∗ 𝒙𝟐
36

Figura 4.5. Parábola, uma função útil para descrever curvas unimodais, i.e. com um
máximo em Y em algum valor intermediário de X. A parábola também serve para
descrever o padrão oposto, i.e. valores maiores de Y nos extremos de X.

Em alguns casos, a curvatura dos nossos dados não é bem representada por uma
parábola perfeita, apresentando uma “cintura” (figura 4.6). Nesses casos, é
necessário usar outras equações que apresentem um melhor ajuste. Nosso
problema pode ser resolvido se logaritmizarmos o eixo y, criando uma curva
gaussiana3:
𝒚 = 𝐞 𝒂+𝒃𝒙−𝒄
𝟐

Lembre-se, equações onde apenas o eixo Y é logaritmizado são equivalentes a
equações exponenciais. A diferença é que essa exponencial também considera o
efeito do parâmetro “c”. Abaixo há um exemplo de curva ajustada utilizando esse
tipo de equação linear (figura 4.6).

3 Nome dado em homenagem à Friedrich Gauss, um famoso matemático alemão
37

Figura 4.6. Curva gaussiana e sua equação. Note que a curva gaussiana nada mais
é que uma parábola transformada para a escala exponencial.

Sumarizando...
Nem sempre retas são as melhores formas de representar um padrão. Podemos utilizar
modelos lineares para descrever alguns tipos de curvas, as quais podem assumir
diferentes formas. Por exemplo, elas podem ser representadas através de equações
exponenciais, logarítmicas, racionais, do segundo grau (parábola)....

5. REGRESSÃO MÚLTIPLA
Quebrando relações entre preditores
Muitas vezes, nossas variáveis de interesse podem estar associadas a outras, o que
pode dificultar a detecção de relações de causalidade entre as variáveis.
Consequentemente, regressões simples podem não ser tão úteis para responder
nossas perguntas. Por exemplo, o patauá (Oenocarpus bataua) é uma palmeira
comum na Amazônia. Em geral, há mais patauá próximo aos igarapés do que longe
deles, sugerindo que o patauá precisa de muita água para crescer. Porém, plantas
tropicais também precisam de nutrientes para crescer, sobretudo nutrientes
escassos em solos tropicais, como o fósforo. Quando olhamos a relação entre o teor
de fósforo do solo e a distância do igarapé, notamos que há mais fósforo justamente
próximo aos igarapés (figura 5.1-a). Não por acaso, também parece haver uma
relação forte entre a quantidade de patauá e o teor de fósforo do solo (figura 5.1-b).
Assim, fica a pergunta: por que há mais patauá perto dos igarapés? É por causa da
água ou do fósforo? Ou dos dois?

Figura 5.1. Relações entre abundância da palmeira patauá (Oenocarpus bataua) e
(a) a distância até o igarapé mais próximo e (b) o teor de fósforo do solo em uma
floresta nas cercanias de Manaus, AM. O gráfico (c) mostra a relação entre a
distância até o igarapé mais próximo e o teor de fósforo do solo.

Os estatísticos resolveram esse “problema” através de um experimento no qual
variamos apenas o fator no qual temos interesse e controlamos todo o resto, e
vemos o que acontece. Se houver algum efeito, então só pode ser do fator variado.
Assim, por exemplo, poderíamos pensar em um experimento onde plantamos
patauá em vários locais e, em cada local, mantemos todas as características
ambientais constantes, exceto a disponibilidade de água. Após certo tempo,
contamos quantos patauás cresceram. Se houver mais patauás onde houver mais
água, então o efeito só pode ser da água. Poderíamos aplicar a mesma ideia ao
fósforo para testar se este nutriente tem algum efeito, independentemente da água.
O problema é que, em muitas situações, simplesmente não é possível fazer um
experimento controlado como esse, ou por questões éticas (.e.g estudos envolvendo
animais e pessoas), ou por limitações logísticas e/ou financeiras. Além disso,
40

quando fazemos um experimento, nós determinamos quais preditores são livres
para variar e o quanto cada um varia. Dependendo de como fizermos isso, essas
características não necessariamente refletirão o que ocorre na natureza. Assim,
experimentos são ótimos para determinar causalidade, mas são limitados no quanto
nos permitem falar sobre o que é mais ou menos importante sob condições naturais.
E agora?
Vejamos a relação entre a abundância de patauá e a distância do igarapé (figura
5.2). A reta sumariza a relação entre as variáveis. Logo, a variação em torno da reta
só pode refletir fatores que não tem a ver com distância do igarapé. Por exemplo, a
uma distância de aproximadamente 50 m do igarapé, há em média 100 patauás,
mas a abundância pode ser muito maior ou muito menor que isso. Se a distância é a
mesma para todas essas abundâncias, então essa variação certamente não pode
ser explicada pela distância. Assim, a reta é o que chamamos de componente
determinístico do modelo. Os resíduos demonstram que nem toda a variação é
explicada pela distância do igarapé, e representam o componente estocástico do
modelo. Alguma outra variável pode estar explicando isso. Logo, podemos extrair os
resíduos desse gráfico e criar uma nova variável dependente, “resíduos da
abundância”. Esta nova variável representa a variação na abundância que não tem a
ver com a distância do igarapé. Assim, podemos usá-la para perguntar: será que
algum outro fator (e.g. o fósforo) tem relação com a abundância, depois que
descontamos o efeito da distância do igarapé?

Figura 5.2. Relação entre abundância de patauá (Oenocarpus bataua) e distância do
igarapé. A reta representa a abundância média, estimada por mínimos quadrados;
as setas indicam os resíduos. Note que, para uma mesma distância (e.g. 50 m), a
abundância pode ser muito maior ou muito menor que a média predita pela reta,
sugerindo que outros fatores também afetam a abundância. Assim, podemos usar os
resíduos para testar se algum outro fator explica a variação na abundância, depois
que descontamos o efeito da distância do igarapé.

Da mesma forma, podemos repetir este procedimento para o fósforo: depois que
“tiramos” o efeito do fósforo, a distância do igarapé tem algum efeito? Deste modo,
podemos isolar estatisticamente o efeito de um preditor dos possíveis efeitos de
outros preditores. Combinando os efeitos isolados de dois ou mais preditores em
uma mesma regressão, temos a famosa regressão múltipla. A regressão múltipla é
um dos métodos de análise estatística mais usados em todas as ciências: ela
quebra correlações entre preditores, isolando o efeito independente de cada um.
Isso permite avaliar, isoladamente, quais variáveis afetam, ou não, a variável
resposta, sem precisar fazer um experimento controlado. Ela pode ser representada
pela equação abaixo:
𝒚 = 𝒂 + 𝒃𝟏 ∗ 𝒙𝟏 + 𝒃𝟐 ∗ 𝒙𝟐 …
Vale salientar que o intercepto (a) de uma regressão múltipla é a média dos
interceptos de todos preditores que constam no modelo. As inclinações representam
o quanto Y muda por unidade de cada um dos X, independentemente dos demais
preditores incluídos na regressão. O coeficiente de determinação múltipla (R²)
sumariza a variação explicada conjuntamente por todos os preditores cujos efeitos
são estatisticamente significativos. Além disso, passamos a ter dois tipos de teste de
teste de significância: (1) um global, baseado na estatística F, que determina se
nosso modelo explica uma variação maior que o esperado ao acaso; e (2) testes
para cada uma das inclinações, que indicam se um preditor em particular tem efeitodetectável ou não. Sempre devemos olhar primeiro a significância global, porque
mesmo que incluamos preditores sem nenhum efeito sobre nossa variável
dependente, a probabilidade de eles explicarem absolutamente nenhuma variação
(i.e. R² exatamente igual a zero) é muito baixa. Mesmo variáveis aleatórias podem
explicar uma pequena variação por acaso, mas não queremos basear nossas
conclusões no acaso!
42

Interação entre preditores
Em alguns casos, o efeito de um preditor sobre a variável resposta depende do valor
de outro preditor. Nesses casos, nós temos uma interação entre preditores. Uma
situação em que a teoria ecológica prevê interações estatísticas é quando há
interações entre espécies ao longo de gradientes ambientais. Por exemplo, se duas
espécies dependem de um mesmo recurso (p.ex. duas espécies fenotipicamente
parecidas ou proximamente aparentadas), então a forma da relação entre suas
abundâncias deveria mudar em função da disponibilidade deste recurso. Quando o
recurso é escasso, as duas espécies são limitadas pelo recurso, e suas abundância
deveriam aumentar juntas (i.e. quando as condições melhoram pra uma, também
melhoram pra outra). Já quando o recurso é abundante, a competição seria mais
importante, de modo que as espécies tenderiam a se excluir, criando uma relação
negativa entre suas abundâncias. Interações são representadas como produtos
entre dois ou mais preditores (p.ex. abundância de uma espécie competidora e
disponibilidade de um recurso). Quanto maior o efeito da interação, maior será o
coeficiente associado ao produto entre as duas variáveis (ver equação abaixo):
𝒚 = 𝒂 + 𝒃𝟏 ∗ 𝒙𝟏 ∗ 𝒃𝟐 ∗ 𝒙𝟐 …
Esta situação pode ser ilustrada pela distribuição de duas espécies de palmeiras,
Oenocarpus bataua e O. bacaba, em florestas de terra firme nas redondezas de
Manaus, AM (figura 5.3).
43

Figura 5.3. Resposta da abundância de patauá (Oenocarpus bataua) à interação
entre abundância de bacaba (Oenocarpus bacaba) e teor de fósforo do solo. Os dois
gráficos mostram exatamente os mesmos dados, mas de perspectivas
complementares. À esquerda, a relação entre as abundâncias das espécies é
enfatizada, discriminado locais com pouco fósforo (vermelho) de locais com muito
fósforo (azul). Note que a relação entre espécies depende da concentração de
fósforo, i.e. a abundância de patauá depende de uma interação entre a abundância
de bacaba e a concentração de fósforo. À direita, a resposta do patauá ao fósforo é
enfatizada, discriminando locais com baixa (vermelho) e alta densidade (azul) da
espécie competidora, a bacaba. De forma complementar ao gráfico anterior,
podemos dizer que a relação entre patauá e fósforo depende da abundância de
bacaba.

Importante: não confunda interação com correlação! Correlação entre preditores
significa que um ou mais preditores tendem a mudar juntos. Isso não diz nada sobre
o efeito deles sobre a variável resposta. Já uma interação significa que um preditor
tem um efeito, mas este efeito muda conforme o outro preditor muda. Em casos
extremos de interação, podemos ter um padrão “cruzado”, onde o efeito de um
preditor muda de positivo para negativo (ou vice-versa) à medida em que o outro
preditor muda.
44

Preditores categóricos
Em alguns casos, temos preditores que não são numéricos, mas categóricos, i.e.
identificam categorias ou grupos. Ainda assim, é possível utilizar modelos lineares
para detectar diferença entre essas categorias, classes ou grupos. Isso porque as
classes são codificadas através de números binários (0 e 1) para que essas
operações possam ser realizadas. Esses falsos números atribuídos às categorias
são chamados de dummy variables (figura 5.4).

Figura 5.4. Tabela de código binário para cálculo das relações entre a abundância
de três grupos categóricos (baixio, platô e vertente).

Por razões históricas, quando usamos uma variável binária como um preditor em um
modelo linear, chamamos tradicionalmente de teste t. Quando temos um preditor
com três categorias ou mais, temos uma análise de variância (ANOVA). De qualquer
forma, ambos são modelos lineares como a regressão e correlação. Similarmente,
os testes de ANOVA dois ou mais fatores nada mais são do que regressões
múltiplas com preditores categóricos, codificados com código binário.

Figura 5.4. A variável X (hábitat) foi codificada em zero e um para cálculo das
relações entre a abundância de dois grupos categóricos. Neste caso, o intercepto
passa a ser a média do primeiro grupo (i. e. a reta corta o eixo Y quando X vale 0), e
a inclinação passa a ser a diferença entre as médias do primeiro e segundo grupos.
Isto porque a inclinação indica quantas unidades Y muda por unidade de X; como X
só tem duas unidades (dois grupos, 0 ou 1), ao andarmos uma unidade em X (de 0
para 1), automaticamente estamos mudando de grupo (indo da média do grupo “0”
para a média do grupo “1”).

6. SIMULAÇÕES
Criando modelos estocásticos
Muitas vezes temos apenas uma amostra de dados reais e não sabemos
exatamente qual o padrão a realidade segue. Assim, a única forma de saber se
nossos métodos funcionam é criar padrões conhecidos, aplicar os métodos, e então
determinar o quanto as estimativas recuperam os valores reais dos parâmetros (que
nós sabemos exatamente quais são, porque nós os criamos!).
O primeiro passo é criar um modelo estocástico que nos permita representar
variabilidade de forma que seja minimamente realista. Se criarmos preditores
aleatórios (i.e. mesma chance de selecionarmos qualquer valor em um dado
intervalo) e então gerarmos uma variável dependente desses preditores através da
soma deles (como nos diz o modelo linear), veremos que a distribuição da nossa
variável dependente tenderá a seguir uma forma de sino (figura 6.1). Da mesma
forma, se fizermos regressões entre nossa variável dependente simulada e nossos
preditores simulados, e averiguarmos os resíduos dessas regressões, verificaremos
que eles também seguem uma distribuição em forma de sino. Friedrich Gauss
chamou essa distribuição de frequências de normal (e hoje também conhecemos a
distribuição como gaussiana).

Figura 6.1. A distribuição normal ou gaussiana, uma forma de representar
variabilidade.

A tendência de que a soma de vários efeitos gerem uma distribuição normal é
chamada de Teorema do Limite Central. Gauss também verificou que, quando os
resíduos de uma regressão têm distribuição aproximadamente normal (figura 6.1), o
critério de mínimos quadrados garante que nossos chutes sobre o intercepto e a
inclinação da reta em média estarão certos. Além disso, mesmo que a distribuição
dos resíduos desvie um pouco da distribuição normal, os chutes obtidos mínimos
quadrados ainda são bem próximos dos parâmetros reais. Por isso, dizemos que o
modelo linear é razoavelmente robusto a “desvios de normalidade”.
Um importante fator que influencia a precisão das estimativas de inclinação,
intercepto e valor de P é o tamanho da amostra. Quanto menor o tamanho amostral,
maior é a variabilidade das estimativas. A acuidade (ou “acurácia”, transliterado do
inglês, accuracy) não muda muito, pois em média, o valor real é recuperado. No
entanto, para uma amostra qualquer, não sabemos se nossas estimativas caíram na
média ou não (isto é, se têm alta acuidade). Note que, quanto menor nossa amostra,
mais variáveis nossos chutes de valores para o intercepto e da inclinação, e maior o
valor de P (i.e. maior a chance de nosso resultado ter surgido por acaso) (figura 6.2).
É intuitivo: se temos pouca informação, nossa incerteza sobre os resultados é maior.

Figura 6.2. Diferença nas estimativas do intercepto “a”, inclinação “b” e valor de “p”
com diferentes tamanhos amostrais. Na dúvida, aumente seu N amostral!

A variação nas estimativas de “a” e “b”, porém, tende a estabilizar a partir de um
certotamanho amostral e o valor de P, que é uma medida de incerteza, fica
extremamente baixa. Em geral, se o efeito de uma variável sobre outra é grande, o
48

tamanho amostral não necessariamente precisa ser grande, pois ele provavelmente
será detectado. No entanto, se o efeito é mais sutil, a chance detectá-lo em
amostras menores é menor. Por outro lado, a variabilidade intrínseca dos dados (i.e.
o tamanho da dispersão em torno da tendência) afeta inversamente as estimativas
dos coeficientes: quanto maior a dispersão, maior a incerteza (figura 6.3).

Figura 6.3. Diferença nas estimativas do intercepto “a”, inclinação “b” e valor de “p”
com de acordo com o aumento do desvio padrão dos resíduos (i.e. tamanho da
dispersão em torno da tendência).

Quando realizamos regressões múltiplas, há uma quebra das correlações entre
preditores, o que possibilita avaliar o efeito independente dessas variáveis. No
entanto, isso só é possível quando as correlações são intermediárias, pois a alta
correlação entre variáveis afeta as estimativas dos coeficientes. À medida que a
correlação entre variáveis aumenta, a imprecisão das estimativas, em especial da
inclinação, também aumenta (figura 6.4) e a partir de um determinado valor de
correlação (e.g. cor~0.7), os valores de b dos preditores podem se confundir. Nesse
caso, onde há muita imprecisão, a regressão tem dificuldade de recuperar se o
efeito é dado por uma ou outra variável o que pode levar ao erro tipo 2 onde
falaríamos que uma variável tem efeito quando na verdade não. Por outro lado,
quando a correlação entre variáveis é igual a zero a estimativa de “b” obtida por
regressão múltipla é similar a obtida por regressão simples.
49

Figura 6.4. Estimativas dos parâmetros de inclinação (b1 e b2) de uma regressão
múltipla de acordo com diferentes graus de correlações entre os preditores. A partir
de um determinado valor de correlação (cor~0.7), os valores de b dos preditores
podem se confundir.

7. MODELOS LINEARES GENERALIZADOS (GLM)
Desvios da normalidade
Até agora, trabalhamos com modelos lineares básicos, que usavam a soma dos
quadrados para determinar qual o melhor ajuste da linha de tendência. Esses
modelos assumem implicitamente que os resíduos tenham distribuição normal.
Lembre-se que Gauss mostrou que é quando os resíduos têm distribuição
(aproximadamente) normal que o critério de mínimos quadrados recupera os valores
reais dos parâmetros, em média! No entanto, nem sempre as variáveis apresentam
resíduos distribuídos normalmente. É possível criar modelos lineares assumindo que
os resíduos das relações possuem outras distribuições. Isto é útil porque, em várias
situações, já esperamos de antemão que a distribuição normal não será uma
representação razoável para a variabilidade da nossa variável dependente. Nesse
caso, podemos usar Modelos Lineares Generalizados (GLM).
Distribuição de Poisson
A distribuição normal permite desde valores inteiros e positivos até não-inteiros e
negativos. No entanto, variáveis como contagens só podem assumir valores iguais
ou maiores que zero e inteiros. Além disso, em alguns casos, as contagens podem
apresentar uma distribuição “espichada” (skewed), com muitos valores próximos a
zero. Nesses casos, qual tipo de distribuição poderia representar melhor a dispersão
dos dados em torno da linha de tendência? Se uma coisa (p.ex. um organismo) é
distribuída aleatoriamente no espaço ou no tempo, e nós demarcarmos várias
unidades amostrais de mesma área ou mesma duração para contar essa coisa, as
contagens provavelmente seguirão uma distribuição de Poisson (figura 7.1).
51

Figura 7.1. A distribuição de Poisson, para dados de contagem, assume que a
frequência de valores baixos próximos a zero é grande (Figura adaptada de Bolker
2008).

Na distribuição de Poisson, a média e variância das contagens são positivamente
associadas (figura 7.2.). Isso significa que, quando você aumentar o valor da média,
o valor da variância também aumentará (e vice-versa), com uma inclinação de
aproximadamente igual a 1. Como média e variância têm informações redundantes,
só precisamos de um parâmetro para representar a média e a variância ao mesmo
tempo, ao qual chamamos de lambda (ƛ).

ƛ = Média = Variância

Figura 7.2. Em dados que seguem a distribuição de Poisson, há uma correlação
entre média e variância das contagens. Portanto, basta um parâmetro para
descrever esta distribuição, ao qual chamamos de lambda.

Quando temos muitas contagens baixas (próximas à zero) também temos um
lambda baixo (ex. ƛ=0,8). Quando temos contagens com muitos valores altos, e
poucos valores baixos, o valor do lambda é alto (ex. ƛ=12) (figura 7.3).

Figura 7.3. O valor do lambda varia de acordo com a frequência dos valores de
contagem sendo que quando maior o lambda a distribuição se assemelha mais a
uma distribuição normal (Figura adaptada de Bolker 2008).

Em distribuições normais, temos dois parâmetros (média e variância), e a maior
parte dos resíduos da variável y ficam próximos da linha de tendência, podendo
variar de “-∞” a “+∞”. Diferentemente da distribuição normal, a forma da distribuição
de Poisson mudará conforme aumentamos o valor de lambda (i.e. a média). Se o
valor da média for baixo, a dispersão dos resíduos será baixa (figura 7.4). Conforme
a média vai aumentando, a dispersão dos resíduos fica cada vez maior. Quando a
variância muda com a média, dizemos que há heterocedasticidade. Quando lambda
≥ 30 praticamente não há diferença entre a forma das distribuições de Poisson e
normal.

Figura 7.4. Comparação das distribuições dos resíduos em uma distribuição normal
(A) e distribuição de Poisson (B). Nesta, conforme a média aumenta, a variância
aumenta junto até se aproximar à de uma distribuição normal.

Ocasionalmente, podemos ter valores de X que assumam valores negativos (e.g.
temperatura e déficit hídrico) e com isso a média tenderia a assumir valores
negativos. No entanto, a distribuição de Poisson só assume valores inteiros e iguais
ou maiores a zero; como podemos evitar que nosso modelo prediga médias
negativas? Como já discutido anteriormente, uma possível solução é usar
logaritmos…
𝒎é𝒅𝒊𝒂 = 𝒂 + 𝒃 ∗ 𝑿
𝐥𝐨𝐠(𝒎é𝒅𝒊𝒂) = 𝒂 + 𝒃 ∗ 𝑿
𝒎é𝒅𝒊𝒂 = 𝐞𝐱𝐩 (𝒂 + 𝒃 ∗ 𝑿)
𝒎é𝒅𝒊𝒂 = 𝒆𝒂+𝒃𝒙
Ao usar o log teremos uma curva exponencial. Esse procedimento de aplicar uma
função matemática sobre a média para que os valores preditos fiquem em uma
escala que faça sentido é conhecido como função de ligação (ou link function). A
ideia das funções de ligação é importante dentro do contexto dos modelos lineares
A B
54

generalizados, pois ligarão o preditor linear à média da variável resposta, que
frequentemente está em uma escala que não admite qualquer tipo de valor (p.ex.
valores negativos) (figura 7.5).

Figura 7.5. Exemplo de atuação da função de ligação que garante que o modelo só
prediga médias iguais ou maiores que zero em uma distribuição de Poisson.

Máxima verossimilhança (Likelihood)
Ok, mas como determinar o melhor ajuste da linha de tendência? Seria possível usar
o método dos mínimos quadrados? Não, pois como vimos, ao usar esse método,
assumimos implicitamente que a distribuição dos resíduos é normal! Como resolver
esse problema?
Uma possibilidade é “chutar” várias possíveis linhas de tendência (figura 7.6) para
um conjunto de dados e calcular a probabilidade de que cada ponto amostral ocorra,
dado que aquela linha seja verdadeira.
𝑷(𝒀|𝒏𝒐𝒔𝒔𝒂 𝒄𝒖𝒓𝒗𝒂)
55

Figura 7.6. Para descobrir qual a melhor linha de tendência para um conjunto de
dados, podemos “chutar” várias possíveis linhas de tendências e avaliar qual delas
implicaria na maior probabilidade de observação do conjunto de pontos do gráfico.

Como temos vários pontos em cada gráfico, é necessáriocalcular a probabilidade
conjunta de que os dados ocorram dado que a linha de tendência “chutada” seja a
verdadeira. Para fazer isso, utilizamos “a regra do E”: a probabilidade de um evento
ocorrer E outro ocorrer também é igual ao produto entre as probabilidades de cada
um. Logo, a probabilidade de observar o primeiro ponto E o segundo E o terceiro,
etc. é igual ao produtório entre as probabilidades de todos eles! Assim:

𝑷𝒓𝒐𝒃𝒂𝒃𝒊𝒍𝒊𝒅𝒂𝒅𝒆 𝒄𝒐𝒏𝒋𝒖𝒏𝒕𝒂 = 𝑷(𝒀𝟏|𝒏𝒐𝒔𝒔𝒂 𝒄𝒖𝒓𝒗𝒂) ∗ 𝑷(𝒀𝟐|𝒏𝒐𝒔𝒔𝒂 𝒄𝒖𝒓𝒗𝒂) …

Esse processo envolverá n probabilidades, ou seja, o número de pontos que consta
no gráfico. Então podemos repetir isso para muitas linhas de tendência diferentes.
Após comparar a probabilidade conjunta de cada uma das linhas de tendência,
decidimos que aquela com maior probabilidade é que melhor descreve os dados.
Essa “probabilidade conjunta”, usada para estimar qual o melhor ajuste da linha de
tendência, é chamada de likelihood. Esse método é mais abrangente que o método
dos mínimos quadrados, pois funciona para qualquer distribuição que quisermos
para representar variabilidade. De modo geral, o likelihood estima qual seria a
56

probabilidade de observar um conjunto de dados assumindo determinado parâmetro
(ex. média e variância). O modelo com melhor ajuste é aquele com máxima
verossimilhança (maximum likelihood). Ou seja, quanto maior o valor do likelihood,
melhor o ajuste da linha de tendência (figura 7.7).

Figura 7.7. Gráfico hipotético mostrando o funcionamento do likelihood, que indica a
probabilidade dos dados para determinados valores dos parâmetros – neste caso, a
inclinação (b). Chutamos vários valores de b e, para cada um, usamos a distribuição
de Poisson para calcular a probabilidade de cada observação e, então, a
probabilidade conjunta das observações (i.e. verossimilhança). Enfim, observamos
como a verossimilhança muda com diferentes valores de b. No exemplo, o valor de b
que maximiza a probabilidade dos dados é torno de três. Logo, é esta é a nossa
estimativa de máxima verossimilhança (ou maximum likelihood).

Na realidade, não sabemos qual é o valor exato de b. Porém, através do likelihood
temos o valor de máxima verossimilhança (isto é, que maximiza a probabilidade dos
dados).
Como produtos de probabilidades são números muito, muito, muito baixos (i.e.
0,000000000...), é mais usual usarmos o logaritmo natural do likelihood, chamado de
log-likelihood (veja o eixo y no gráfico acima). Como computacionalmente é mais
fácil encontrar valores mínimos do que os máximos, geralmente o log-likelihood é
57

multiplicado por -1. Com isso, minimiza-se o negativo do log da verossimilhança
(figura 7.8).

Figura 7.8. Gráfico hipotético mostrando o log-likelihood com uma região onde se
minimiza o negativo do log da probabilidade conjunta dos dados, condicionada ao
valor da inclinação (b). Note que, apesar da mudança de escala ter virado o gráfico
de cabeça para baixo a estimativa de máxima verossimilhança (ou que minimiza o
negativo do log da verossimilhança) é exatamente a mesma, em torno de três.

Ao rodar um modelo linear generalizado (GLM) com distribuição de Poisson, alguns
valores são gerados. Um desses valores é o Number of Fisher Scoring, que
representa o número de vezes que o programa teve que “chutar” as curvas de
tendência até obter aquela com a máxima verossimilhança. Outro valor obtido é a
desviância (deviance) que avalia o quão bom é o ajuste que foi previsto pelo
likelihood. A desviância é obtida através da comparação do nosso modelo com um
modelo perfeito. Ou seja, um modelo hipotético que explique toda variação. Esse
modelo perfeito é chamado de modelo saturado (figura 7.9). Quanto maior o valor da
desviância, pior o nosso modelo em relação ao modelo perfeito. Assim, a desviância
58

é uma medida análoga à soma dos quadrados, que indica a discrepância entre os
dados e o modelo, porém aplicável a modelos com qualquer distribuição (e não
apenas a normal).

Figura 7.9 O gráfico da esquerda representa o ajuste do modelo previsto pelo
likelihood, enquanto o modelo da direita representa o ajuste do modelo perfeito, ou
seja, saturado.

Para comparar a desviância do nosso modelo em relação ao modelo perfeito,
dividimos seus likelihoods. Como o valor obtido nessa divisão seria muito pequeno,
e consequentemente difícil de ser interpretado, tiramos o log desse quociente. De
acordo com as propriedades operatórias dos logaritmos, a divisão entre logaritmos
de bases iguais equivale à diferença entre eles. Assim:
𝑷(𝒀|𝒎𝒐𝒅𝒆𝒍𝒐)
𝑷(𝒀|𝒎𝒐𝒅𝒆𝒍𝒐 𝒔𝒂𝒕𝒖𝒓𝒂𝒅𝒐)

𝐥𝐨𝐠 (
𝑷(𝒀|𝒎𝒐𝒅𝒆𝒍𝒐
𝑷(𝒀|𝒎𝒐𝒅𝒆𝒍𝒐 𝒔𝒂𝒕𝒖𝒓𝒂𝒅𝒐
)
𝐥𝐨𝐠 𝑷(𝒀|𝒎𝒐𝒅𝒆𝒍𝒐) − 𝐥𝐨𝐠 𝑷(𝒀|𝒎𝒐𝒅𝒆𝒍𝒐 𝒔𝒂𝒕𝒖𝒓𝒂𝒅𝒐)

Ao final, multiplica-se a equação por dois. Mas por quê? Essa é uma convenção
entre estatísticos para manter a equivalência com os valores obtidos via soma dos
quadrados em modelos com distribuição normal: quando multiplicamos a desviância
por dois, ela fica idêntica à soma dos quadrados.
59

-2* (𝐥𝐨𝐠 𝑷(𝒀|𝒎𝒐𝒅𝒆𝒍𝒐) − 𝐥𝐨𝐠 𝑷(𝒀|𝒎𝒐𝒅𝒆𝒍𝒐 𝒔𝒂𝒕𝒖𝒓𝒂𝒅𝒐))
A desviância residual é a discrepância do nosso modelo em relação ao modelo
saturado. Já a desviância nula é a discrepância de um modelo nulo (que seria o pior
modelo possível, sem preditores, apenas representando a média da variável
dependente) em relação ao modelo saturado. Assim, a desviância nula representa a
variabilidade máxima a ser explicada. Já a desviância nula representa a
variabilidade não explicada pelo nosso modelo. O quociente da desviância residual
pela desviância nula representa o quanto do total a ser explicado não é explicado
pelo nosso modelo (figura 7.10). Consequentemente, “1” menos esse valor equivale
à variação que é explicada. Essa variação explicada pelo modelo é uma forma de
calcular o R² para GLMs. Porém, por não ser originário da soma dos quadrados e
porque em algumas poucas distribuições o total pode não ser exatamente igual a um
(mas muito próximo), esse valor é chamado de pseudo-R².

Figura 7.10. Diagrama representando total de variação explicada e não explicada
por um modelo generalizado linear.

𝐃𝐞𝐬𝐯𝐢â𝐧𝐜𝐢𝐚 𝐧𝐮𝐥𝐚 = −𝟐 ∗ (𝒍𝒐𝒈𝒍𝒊𝒌𝒆 (𝒑𝒊𝒐𝒓 𝒎𝒐𝒅𝒆𝒍𝒐) − 𝒍𝒐𝒈𝒍𝒊𝒌𝒆 (𝒎𝒐𝒅𝒆𝒍𝒐 𝒔𝒂𝒕𝒖𝒓𝒂𝒅𝒐))
𝐃𝐞𝐬𝐯𝐢â𝐧𝐜𝐢𝐚 𝐫𝐞𝐬𝐢𝐝𝐮𝐚𝐥 = −𝟐 ∗ (𝒍𝒐𝒈𝒍𝒊𝒌𝒆 (𝒎𝒆𝒖 𝒎𝒐𝒅𝒆𝒍𝒐) − 𝒍𝒐𝒈𝒍𝒊𝒌𝒆 (𝒎𝒐𝒅𝒆𝒍𝒐 𝒔𝒂𝒕𝒖𝒓𝒂𝒅𝒐))
60

Pseudo R²=𝟏 −
𝑫𝒆𝒔𝒗𝒊â𝒏𝒄𝒊𝒂 𝒓𝒆𝒔𝒊𝒅𝒖𝒂𝒍
𝑫𝒆𝒔𝒗𝒊â𝒏𝒄𝒊𝒂 𝒏𝒖𝒍𝒂

Distribuição binomial negativa
O GLM com distribuição de Poisson é o modelo linear mais simples possível para
representar contagens. Lembre-se que, nele, média e variância são a mesma coisa
(lambda); é um modelo “econômico”. Porém, isso só funciona bem quando os
organismos estão aleatoriamente distribuídos no espaço e tempo. E, na realidade,
muitos organismos vivem de modo agregado (figura 7.11). Em uma coleta de dados,
muitos pontos de amostragem podem não conter nenhum indivíduo, enquanto em
alguns outros a contagem pode ser muito alta (figura 7.11). Consequentemente, a
distribuição das frequências tende a ser acentuada nos zeros, e mais assimétrica
que o previsto pela distribuição de Poisson. Nesses casos, uma distribuição que
considere a agregação dos dados pode ser mais interessante.

Figura 7.11. Frequentemente os organismos são distribuídos de forma agregada na
paisagem (imagem do lado esquerdo), o que leva a muitas contagens com zero e
poucos valores muito diferentes de zero (histograma do lado direito) (Figura
adaptada de Bolker 2008).

Uma distribuição relativamente simples que representa este fenômeno é a
distribuição binomial negativa. Esta distribuição tem dois parâmetros: a já bem
conhecida média, e K, um parâmetro que determina o grau de agregação dos
indivíduos no espaço.