Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 MODELOS LINEARES CONCEITOS E APLICAÇÕES BIOLÓGICAS Versão 1.0 Mariane Bosholn Pedro Aurélio Costa Lima Pequeno Tainara Venturini Sobroza Boa Vista, Roraima Janeiro de 2020 2 Sumário SOBRE OS AUTORES 4 SOBRE OS DADOS UTILIZADOS AO LONGO DA APOSTILA 5 APRESENTAÇÃO 6 1. VARIÁVEIS E RELAÇÕES 7 Variabilidade 8 Medindo a variância conjunta de duas variáveis 10 2. INFERÊNCIA ESTATÍSTICA 15 Medindo incertezas 15 Estatísticas 19 3. REGRESSÃO 21 Método dos Mínimos Quadrados 21 Estimando a dispersão dos pontos 24 Por que “regressão”? Uma velha história sobre gigantes e anões 26 Trabalhando com variáveis em diferentes escalas 29 4. RELAÇÕES CURVILÍNEAS 30 Alometria 30 Relações não monotônicas 35 5. REGRESSÃO MÚLTIPLA 38 Quebrando relações entre preditores 38 Interação entre preditores 42 Preditores categóricos 44 6. SIMULAÇÕES 46 Criando modelos estocásticos 46 7. MODELOS LINEARES GENERALIZADOS 50 Desvios da normalidade 50 3 Distribuição de Poisson 50 Máxima verossimilhança (Likelihood) 54 Distribuição binomial negativa 60 Distribuição Gama 62 Distribuição de Bernoulli 64 A família exponencial 66 8. CRITÉRIOS DE INFORMAÇÃO 68 Critério de Informação de Akaike (AIC) 68 9. MODELOS LINEARES (GENERALIZADOS) DE EFEITOS MISTOS 69 Autocorrelação 69 Fator aleatório 71 Hierarquias 76 Comunidades ecológicas: um exemplo de Modelo Linear Generalizado Misto (GLMM) 76 Máxima verossimilhança restrita (REML) 81 Uma nota sobre fatores aleatórios 82 10. CONSIDERAÇÕES FINAIS 83 REFERÊNCIAS PRINCIPAIS 85 4 SOBRE OS AUTORES Esta apostila foi desenvolvida por uma discente e dois ex-discentes do Programa de Pós-graduação em Ecologia do Instituto Nacional de Pesquisas da Amazônia (INPA). Os três autores colaboraram igualmente na produção da obra. Mariane Bosholn Bacharela em Ciências Biológicas formada pela Universidade Federal de Santa Maria (UFSM), é Mestra e Doutora em Biologia (Ecologia) pelo Instituto Nacional de Pesquisas da Amazônia. Tem experiência em ecologia de vertebrados, fisiologia animal, estatística, e na linguagem computacional R. Lattes: http://lattes.cnpq.br/8102271563187887 Pedro Aurélio Costa Lima Pequeno Bacharel em Ciências Biológicas formado pela Universidade Federal do Amazonas (UFAM), é Mestre e Doutor em Biologia (Ecologia) pelo Instituto Nacional de Pesquisas da Amazônia. Atualmente, é bolsista de pós-doutorado no Programa de Pós-graduação em Recursos Naturais (PRONAT) da Universidade Federal de Roraima (UFRR). Tem experiência em ecologia, biologia evolutiva, comunicação científica, estatística e delineamento amostral, e na linguagem computacional R. Lattes: http://lattes.cnpq.br/7013126109041225 Tainara Venturini Sobroza Bacharela em Ciências Biólogicas formada pela Universidade Federal de Santa Maria (UFSM), e Mestra em Biologia (Ecologia) pelo Instituto Nacional de Pesquisas da Amazônia. Atualmente, é doutoranda em Biologia (Ecologia) no mesmo instituto. Tem experiência em ecologia de vertebrados, comportamento animal, com ênfase em bioacústica, estatística, e na linguagem computacional R. Lattes: http://lattes.cnpq.br/5061460882816513 5 SOBRE OS DADOS UTILIZADOS AO LONGO DA APOSTILA A fim de enfatizar o valor prático dos métodos discutidos nesta apostila, nós usamos dados reais para ilustrar vários conceitos. Em particular, três conjuntos de dados são usados: 1) Biomassa de palmeiras em uma floresta na Amazônia. Estes dados compreendem estimativas de biomassa acima do solo de palmeiras em 30 parcelas de 1 hectare situadas na Reserva Ducke, Manaus, AM. Os dados estão disponíveis como apêndice em Castilho et al. (2006). Nós agradecemos à gentileza dos autores pelo compartilhamento dos dados. 2) Abundâncias de palmeiras da tribo Euterpeae na Amazônia. Estes dados consistem em contagens de cinco espécies desta tribo em 30 parcelas de 250 x 4 m situadas na Reserva Ducke, Manaus, AM. Os dados já foram usados em publicações (p.ex. Costa et al. 2008, Schietti et al. 2013, de Freitas et al. 2014) e estão disponíveis no repositório de dados do Programa de Pesquisas em Biodiversidade (https://ppbio.inpa.gov.br/repositorio/dados), com o título: Jean Louis Guillaumet, Albertina Lima, and Flávia Costa. Composição da comunidade de palmeiras da Reserva Ducke. Programa de Pesquisa em Biodiversidade (PPBio). Nós agradecemos à gentileza dos autores pelo compartilhamento dos dados. 3) Dados de altura de pais e filhos. Estes dados foram usados originalmente no trabalho clássico de Francis Galton (1886) sobre a herança da estatura em humanos, e compreendem as alturas de 889 pessoas e de seus respectivos pais. Os dados são de domínio público, e podem ser facilmente encontrados na internet. https://ppbio.inpa.gov.br/repositorio/dados 6 APRESENTAÇÃO Esta apostila foi criada como material de apoio à disciplina de “Modelos Lineares: Conceitos e Aplicações”, oferecida através do Programa de Pós-graduação em Ecologia do Instituto Nacional de Pesquisas da Amazônia (INPA) a partir de 2018. O objetivo da disciplina é oferecer uma visão geral sobre os principais conceitos envolvidos no uso de modelos lineares para responder questões em ecologia e áreas afins. Enfatizamos que esta NÃO É uma apostila sobre delineamento amostral ou programação estatística; há outras apostilas gratuitas com uma destas finalidades (p.ex. Landeiro & Baccaro 2018). Portanto, o leitor não encontrará códigos de programação, e os resultados apresentados de programas estatísticos servem apenas para ilustrar os conceitos discutidos. Além disso, você poderá encontrar detalhes mais aprofundados dos tópicos abordados em livros e artigos específicos sobre estatística (p.ex. Zuur et al., 2009, 2010, Kéry 2010, Gotelli & Ellison 2010, Magnusson et al. 2015). Em sua versão atual, a apostila é um projeto em construção; ela (ainda) não é um texto plenamente autodidático. Porém, serve como texto introdutório, e como um guia “amigável” para conceitos normalmente abordados em linguagem mais técnica pela literatura primária (artigos, livros-texto). Em caso de dúvidas/sugestões, escreva para os autores: Mariane Bosholn: bosholn.m@gmail.com Tainara V. Sobroza: tv.sobroza@gmail.com Pedro A. C. L. Pequeno: pacolipe@gmail.com Bom estudo! 7 1. VARIÁVEIS E RELAÇÕES A ciência – da física e química à economia e sociologia, passando pela geologia, biologia e psicologia – avança através de um mesmo processo: fazemos uma pergunta, pensamos em uma ou mais possíveis respostas para esta pergunta (hipóteses), e coletamos dados para responder à pergunta. Se os dados apoiarem nossa(s) hipótese(s), isto sugere que nossas ideias fazem algum sentido. Caso contrário, estamos errados. Apesar de poderem ter motivações muito diferentes, quase todas as perguntas científicas envolvem o mesmo problema geral: a existência (ou não) de relações entre características que variam, seja no espaço, seja no tempo. Determinar relações é útil porque permite explicar, predizer e controlar fenômenos naturais. Por exemplo, sabemos que há uma relação entre a sobrevivência do mosquito da dengue (Aedes aegypti) e a velocidade da água: geralmente, o mosquito não se desenvolve em água corrente. Este conhecimento permite prever em que ambiente há maior risco do mosquito proliferar, e sugere como evitar que isso ocorra – basta evitar focos de água parada. Outro exemplo: sabemos que existe uma relação entre a concentração de gás carbônico e a quantidade de calor retida pelo ar. Por isso, podemos prever que se continuarmos queimando combustíveis fósseis (seja através de motores ou incêndios florestais), a temperatura do ar deverá aumentar – e, portanto, a forma mais simples de evitar issoseria parar de queimar combustíveis fósseis. Ao testar possíveis relações com dados, podemos discriminar entre quais relações fazem sentido e quais não fazem, usar as primeiras e descartar as últimas. Porém, para medirmos o quanto duas variáveis mudam juntas (i. e. quanta variabilidade é compartilhada entre variáveis), precisamos primeiro de uma forma de medir variabilidade propriamente dita, ou o quão diferentes os valores de uma variável são. 8 Variabilidade Em qual dos grupos a variável Y varia mais, A ou B (figura 1.1)? Figura 1.1. Variável Y com diferentes variabilidades entre dois grupos, A e B. Cada ponto representa uma observação; a linha horizontal representa a média. Podemos dizer que B é mais variável que A, porque os valores de Y são mais diferentes entre si. Uma simples forma de contabilizar a variabilidade desse gráfico seria através da soma das distâncias de cada ponto até a média (linha horizontal na figura 1.1). Assim, teremos um número que será maior quanto mais diferentes da média forem os valores (i. e. grupo B na figura 1.1). No entanto, se fizermos isto, valores acima da média serão positivos, e abaixo da média, negativos. Ao somar valores negativos e positivos, eles se anularão! Para eliminar os valores negativos e medir a variabilidade, usa-se a soma dos quadrados (Sum of the Squares-SS), que é a soma dos desvios de cada observação elevadas ao quadrado. Como qualquer número elevado ao quadrado é positivo, isto garante que só somaremos valores positivos (e que os desvios não se anularão). Se dividirmos a soma dos quadrados pelo número de observações, teremos o desvio quadrado médio, mais conhecido como variância. Uma desvantagem da soma dos quadrados ou variância para medir 9 variabilidade é que, como os desvios são elevados ao quadrado, a unidade de medida da nossa variável Y também é elevada ao quadrado. Normalmente, queremos falar da nossa variável na escala original, não na escala ao quadrado! Para voltar a escala original, precisamos tirar a raiz quadrada. A raiz quadrada da variância é denominada desvio padrão (Standart Deviation- SD) (Figura 1.2). Figura 1.2. Medidas de variabilidade (soma dos quadrados, variância e desvio padrão) baseadas no desvio de cada observação em relação à média, elevado ao quadrado (e2). A soma dos quadrados (SS), variância (var) e desvio padrão (SD) são diferentes maneiras de medir variação e de certa forma são análogas: quanto maior a soma das quadrados, maior a variância, e maior o desvio padrão. A diferença entre elas está na escala. Porém o SD é mais comumente usado, pois representa a escala original dos dados, enquanto a SS e a variância são potências (i.e. baseadas nos desvios elevados ao quadrado). 10 Medindo a variância conjunta de duas variáveis Geralmente queremos entender a relação entre variáveis diferentes e, portanto, a variância conjunta das variáveis, i.e. o quanto elas mudam juntas. Para isto, podemos usar um gráfico cujos eixos representam as variáveis (Y, eixo vertical; X, eixo horizontal), e cada observação é representada por um ponto. Em um gráfico como este, cada ponto amostral apresenta desvios tanto em relação à média do eixo X, quanto em relação à média do eixo Y. Uma forma de sumarizar a variação conjunta de duas variáveis é através do produto dos desvios de x e y, o que é chamado de produto cruzado (Figura 1.3). 𝒆𝒙 = 𝒙 − 𝒙 𝒆𝒚 = 𝒚 − 𝒚 𝒎é𝒅𝒊𝒂 = 𝒆𝒙 ∗ 𝒆𝒚 (produto cruzado) Figura 1.3. Produto cruzado entre duas variáveis. Cada observação (ponto) tem um desvio em relação à média de X e de Y. Se multiplicarmos estes dois desvios, teremos um valor que reflete o quanto esta observação varia no mesmo sentido ao longo das duas variáveis: quanto maiores os dois desvios, maior será p produto. Agora, se um desvio for grande, mas o outro for pequeno, significa que as duas variáveis não estão mudando juntas, e o produto entre desvios será pequeno. 11 SS/nº de réplicas 1 variável 2 variáveis Variância Covariância Podemos sumarizar os produtos cruzados entre duas variáveis calculando sua média, usualmente chamada de covariância. Quando duas variáveis variam conjuntamente (i.e. uma aumenta e a outra aumenta junto, ou uma aumenta e a outra diminui), o valor da covariância tende a ser grande. Por outro lado, quando as variáveis variam independentemente uma da outra, o valor tende a ser pequeno. Figura 1.4. Relação entre variância e covariância. Ambas são baseadas na multiplicação de desvios em relação à média. Porém, a variância mede a variabilidade de uma única variável (i.e. desvio de cada observação multiplicado por ele mesmo), enquanto que a covariância mede a variabilidade compartilhada entre duas variáveis (i.e. desvio de cada observação em relação a uma variável multiplicado pelo desvio da mesma observação em relação a outra variável). Uma limitação da covariância é que, muitas vezes, usamos variáveis em escalas diferentes. Por exemplo, em uma análise sobre a relação entre abundância de uma espécie (variável resposta) e a altitude (variável preditora), a unidade de uma das variáveis é indivíduo (i.e. uma contagem), enquanto a outra é metro. Logo, a unidade da covariância é... indivíduos × metro! Para a maioria das pessoas, isto não é muito intuitivo. Como resolver esse problema e colocar as variáveis medidas em escalas diferentes em uma mesma escala? Uma opção é dividir o desvio de cada ponto amostral pelo seu respectivo desvio padrão. Essa covariância padronizada pelos desvios padrões é conhecida como correlação (r). A vantagem é que, ao fazermos isso, a covariância passa a variar em uma escala padronizada de -1 a +1, e fica mais fácil falar o quanto duas variáveis mudam juntas, em termos relativos: quanto mais r se aproxima de 1 (positivo ou negativo), mais forte a relação entre as variáveis; quanto mais próximo de 0, mais fraca a relação. 12 Figura 1.5. Colocando variáveis medidas em escalas diferentes na mesma escala. Se dividirmos os desvios das observações pelo desvio padrão da variável, automaticamente os valores passam para a mesma escala: a escala dos desvios padrões. Isto ocorre porque dividimos a unidade original pela unidade do desvio padrão (que é a mesma unidade original da variável). Logo, as duas unidades se cancelam. Note que, após esta padronização, as variáveis passam a ter média 0; valores maiores que a média, passam a ser positivos, e menores, negativos. O coeficiente de correlação é útil como uma medida rápida do quão fortemente relacionadas duas variáveis estão (figura 1.6). 13 Figura 1.6. Relação entre biomassa de palmeiras e teor de fósforo do solo na Reserva Ducke, Manaus, AM. A correlação medida (r = 0.74) sugere uma relação positiva, moderada à forte. Isto está de acordo com o padrão que observamos no gráfico. Às vezes, medimos uma série de variáveis, e queremos saber quais variam mais e quais variam menos. Frequentemente, a variabilidade (i.e. soma dos quadrados, variância ou desvio padrão) aumenta conforme a média aumenta. Isto significa que, se medirmos uma mesma variável em escalas diferentes (e.g. temperatura em graus Celsius, Farenheit ou Kelvin), o simples fato de mudarmos a escala pode fazer com que nossas medidas variem mais ou menos! Normalmente, queremos uma medida de variabilidade que permita comparar variáveis entre si, independentemente da escala em que foram medidas. Nesse caso podemos dividir o desvio padrão pela média e obter o coeficiente de variação (CV), uma medida padronizada da variação de uma variável. Esse coeficiente é usado para diminuir o efeito da média sobre a variabilidade da variável. 14 Figura 1.7. Variáveis com maior média geralmente têm maior variabilidade (B).O coeficiente de variação usa essa relação para padronizar a variabilidade de variáveis com médias diferentes, permitindo comparações diretas entre elas. Sumarizando: Correlação é a covariância padronizada Covariância é a variância compartilhada entre duas variáveis Variância é a média da soma dos quadrados Desvio padrão é a raiz quadrada da variância 15 2. INFERÊNCIA ESTATÍSTICA Medindo incertezas Quase sempre, queremos usar nossos dados para fazer extrapolações sobre coisas mais gerais. Por exemplo, no caso das palmeiras (figura 1.6), observamos uma relação entre biomassa e fósforo nas 30 parcelas de 1 hectare na Reserva Ducke. Se quisermos saber qual a correlação entre essas variáveis apenas nessas parcelas, já vimos que ela é exatamente r = 0,74. Mas e se quisermos falar sobre essa relação na Reserva Ducke como um todo, que tem 10.000 hectares, e não apenas nas 30 parcelas que observamos? Intuitivamente, as 30 parcelas devem nos informar algo sobre a Reserva, mas o quanto? Há uma incerteza associada quando extrapolamos qualquer conclusão baseada nos dados observados para a Reserva inteira, cuja maior parte não foi observada. Neste exemplo, as parcelas observadas representam nossa amostra, e cada parcela é uma unidade amostral, i.e. aquilo em que medimos nossas variáveis. A Reserva Ducke representa a área maior sobre a qual queremos falar, ou nosso universo amostral. O valor da correlação observado na nossa amostra, que sabemos com certeza, é uma estimativa. Já o valor real da correlação na Reserva Ducke como um todo, que não sabemos com certeza, é um parâmetro. Assim, pode-se dizer que os pesquisadores estão quase sempre tentando estimar ou “chutar” um ou mais parâmetros, que permitem responder a questão científica de interesse. É esse “chute” que chamamos de inferência. Para que nossas inferências funcionem, precisamos de três coisas. Primeiro, nossas unidades amostrais devem ser independentes, i.e. cada unidade amostral deve fornecer informação adicional sobre o universo amostral de interesse, ao invés de repetir a mesmo informação. Por exemplo, no caso das palmeiras, podemos demarcar parcelas em lugares diferentes, ou no mesmo lugar (p.ex. parcelas coladas uma na outra, ou totalmente sobrepostas). Este é um exemplo extremo, mas obviamente, parcelas repetidas no mesmo lugar fornecem menos informação sobre uma área do que parcelas espalhadas pela mesma área. Segundo, nossa amostra deve ser representativa do universo amostral. Isto quer dizer que a variabilidade que existe no universo amostral também deve existir na amostra. No caso das palmeiras, as 30 parcelas espalhadas pela Reserva Ducke podem ser representativas da 16 Reserva, mas certamente não serão representativas de Manaus, da Amazônia, do Brasil, etc., já que não abrangem toda variabilidade possível nessas áreas. Terceiro, precisamos medir o tamanho da incerteza associada à nossa estimativa do parâmetro, de modo podermos julgar se nosso “chute” é razoável ou não, ou se temos evidência suficiente para concluir algo sobre o universo amostral ou não. Em geral, quanto maior o tamanho da amostra (i.e. mais unidades amostrais), menor a incerteza da nossa estimativa e, portanto, mais confiáveis nossas chutes sobre o universo amostral. Porém, há várias formas de medir o tamanho da nossa incerteza. A seguir, veremos algumas das mais amplamente usadas pelos cientistas. Uma forma de medir a incerteza associada a uma estimativa é simular estimativas que sabemos terem sido geradas por acaso. Por exemplo, no caso das palmeiras, podemos “embaralhar” os valores de biomassa e fósforo na nossa tabela, i.e. trocar a ordem dos valores entre parcelas, aleatoriamente. Ao fazermos isso, nós automaticamente quebramos qualquer relação real que possa existir nos dados, já que desfazemos o pareamento original entre os valores de biomassa e fósforo. Qualquer padrão que ocorrer após o embaralhamento surgiu, necessariamente, por acaso! Assim, podemos embaralhar os valores, calcular a correlação e anotar o valor, uma, duas, três vezes... Repetindo este processo centenas ou milhares de vezes, teremos uma série de correlações geradas ao acaso, com uma dada distribuição de frequências: por acaso, alguns valores podem ser mais comuns que outros. Uma distribuição de estimativas geradas ao acaso é conhecida como distribuição nula. A partir disso, podemos comparar nossa estimativa original com esta distribuição, e perguntar: qual a chance de ela ter sido gerada por acaso? Se o valor observado (r = 0.74) tiver for muito frequente na distribuição gerada ao acaso, então a chance é grande; caso contrário, é pequena! Quanto menor esta chance, mais confiantes de que nossa estimativa é extrapolável para o universo amostral de interesse, já que ela não surgiu por acaso na nossa amostra. A probabilidade de uma estimativa igual ou mais extrema que aquela a observada ser gerada ao acaso é conhecida como P. 17 Figura 2.1. Distribuição de frequências das correlações entre o teor de fósforo do solo e a biomassa de palmeiras, geradas ao acaso (distribuição nula). Os valores das variáveis usados na correlação foram aleatorizados 1000 vezes. A seta preta representa o valor da correlação observado com os dados reais. Como podemos perceber na figura 2.1, pouquíssimas correlações geradas através desse modelo nulo foram maiores que a correlação entre os dados originais (cor=0.74). Portanto, a probabilidade da associação observada originalmente ter sido gerada ao acaso é baixa (p<0.05). Já na figura 2.3, podemos ver que o valor da correlação original (cor= -0.02) é similar aos valores de correlação geradas ao acaso. Portanto, a probabilidade da associação entre os dados originais ter sido gerada ao acaso é alta (p>0.05). Assim, o P funciona como uma medida do tamanho da nossa incerteza em relação ao quanto podemos extrapolar nossa estimativa para o universo amostral: quanto maior o valor de P, maior a incerteza. Uma forma alternativa de medir a incerteza associada a uma estimativa é quantificar a variabilidade da estimativa propriamente dita: se pudéssemos coletar nossos dados novamente e calcular a estimativa de novo, o quão diferente ela seria? Se for muito diferente, então a incerteza associada à nossa estimativa é grande. Se for muito parecida, a incerteza é pequena. Na prática, porém, normalmente não coletamos nossos dados várias vezes; coletamos só uma. O que podemos fazer é simular várias coletas novas coletas com o mesmo número de observações da nossa amostra verdadeira, sorteando as linhas da nossa tabela de 18 dados (i.e. unidades amostrais) com reposição (i.e. cada linha pode ser amostrada mais de uma vez). A ideia é simples: se nossa amostra é representativa do universo amostral, então amostras representativas da nossa amostra necessariamente devem ser representativas do universo amostral (i.e. se A = B, e B = C, então A = C!). O procedimento de simular estas novas amostras também é conhecido como bootstrap. Uma vantagem dessa abordagem é que ela não exige uma hipótese nula específica inicial. O desvio padrão das estimativas calculadas a partir das amostras obtidas por bootstrap é chamado de erro padrão, e representa a variabilidade esperada da nossa estimativa, ou o quão imprecisa ela é. Quanto maior o erro padrão, maior a incerteza (ou menor a precisão). Já o intervalo que contém 95% das estimativas simuladas é chamado de intervalo de confiança de 95%. Figura 2.2. Distribuição de estimativas simuladas por bootstrap. O desvio padrão das estimativas é conhecido como erro padrão. 19 Figura 2.3. Comparação entre distribuição nula e distribuição de uma estimativa gerada por bootstrap. Em geral, quanto menor a precisão de uma estimativa, mais essas duas distribuições se sobrepõem. Logo, quanto mais evidência temos contraa hipótese nula (menor P), maior a precisão da nossa estimativa (mais estreito o intervalo de confiança). Interessantemente, podemos usar tanto o valor de P quanto do intervalo de confiança para testarmos as nossas hipóteses (figura 2.3). Estatísticas Simulações são úteis para obter medidas de incerteza, mas só são praticáveis porque temos computadores que fazem muitas repetições rapidamente. Durante a 20 maior parte da história da humanidade, não havia computadores eficientes ou disponíveis o suficiente para isso. Por isso, os estatísticos desenvolveram uma teoria matemática que permite aproximar o valor de P a partir de alguns pressupostos sobre os dados. A vantagem é que isto permite calcular o valor de P usando algumas fórmulas relativamente simples, sem a necessidade de inúmeras simulações. Por exemplo, para obter o valor de P associado a hipótese nula de que um coeficiente de correlação é igual a zero, podemos usar uma quantidade conhecida como estatística t: t= r √𝒏 − 𝟐/ 𝟏 − 𝒓² Dados certos pressupostos, a estatística t tem uma distribuição nula conhecida, e isso permite calcular o valor de P e intervalos de confiança rapidamente. Há muitas estatísticas, cada uma apropriada para certas situações (p.ex. estatística t, F, z, χ², razão de verossimilhanças, etc.). É importante destacar que todas elas seguem a mesma lógica: por si só, elas não significam muita coisa; sua utilidade está no fato de permitirem aproximar o valor de P rapidamente, usando apenas fórmulas. Logo, podemos pensar nas estatísticas como intermediários, ou “laranjas”. Hoje, com as facilidades dos computadores, fazer muitas simulações rapidamente não é mais um problema. Porém, por conveniência, as estatísticas continuam sendo usadas rotineiramente pelos programas estatísticos. 21 3. REGRESSÃO Método dos Mínimos Quadrados Coeficientes de correlação são medidas rápidas e úteis da força da relação entre duas variáveis. Porém, eles também são medidas grosseiras para responder a perguntas biológicas. Isto é ilustrado pela figura 3.1, onde três nuvens de pontos ocupando diferentes posições no gráfico têm exatamente a mesma correlação. Figura 3.1. Três relações diferentes entre duas variáveis, com a mesma correlação (r = 1). Ao olharmos apenas para o número, perdemos informação sobre as diferenças entre as três nuvens de pontos. Idealmente, gostaríamos de ter uma forma de representar estas três relações que salientasse suas diferenças. Ou seja, gostaríamos de representar não apenas a força da relação, mas também sua forma. Pensando nisso, qual a maneira mais simples de representar a forma da relação entre duas variáveis? Uma simples linha reta! Neste caso, usamos uma reta como representação de como a variável dependente (Y) tende a mudar em função da variável independente ou preditora (X). A medida mais simples de tendência (i.e. o que ocorre com a maioria) é a média. Portanto, usamos a reta para representar a média de Y ao longo de X. A vantagem de fazermos isso é que a reta pode ser descrita por uma simples equação, que sumariza a forma da relação entre Y e X: 22 𝒚 = 𝒂 + 𝒃𝒙 Onde 𝒃 = 𝒄𝒐𝒗( 𝒙,𝒚) 𝒗𝒂𝒓(𝒙) e 𝒂 = 𝒚 − 𝒃𝒙 A fórmula acima é conhecida como equação da reta, onde “Y” representa a variável resposta, “x” a variável preditora, e “a” e “b” são constantes ou coeficientes: “a” é conhecido como intercepto, e “b”, a inclinação da reta (slope). Em um gráfico, o “a” coincide com o local onde a reta corta o eixo vertical (ou seja, no Y) quando o X é igual à zero. Logo, sua unidade de medida é a mesma unidade de Y. Já o “b” representa o quanto “y” muda por unidade de “x”. Ou seja, tal medida é uma taxa e, portanto, sua unidade de medida é uma razão entre as unidades de Y e X. No exemplo abaixo (figura 3.2), temos uma relação hipotética entre a abundância (número de indivíduos) de jararacas-do-norte (Bothrops atrox) em um dado local e a distância (m) até o igarapé1 mais próximo. O gráfico é baseado na relação geral revelada pela pesquisa de biólogos: normalmente, há mais jararacas na beira dos igarapés; quanto mais distante, menos jararacas. A reta representa a abundância média de jararacas. Assim, a unidade do intercepto é número de indivíduos, enquanto a unidade da inclinação é número de indivíduos. Porém, note que, embora haja uma tendência, há variação em torno da tendência. Isto ocorre na maioria das relações observadas no mundo real: para um mesmo valor de X, Y pode desviar acima ou abaixo da média, porque há outros fatores que afetam Y. As setas em vermelho representam o valor dos desvios, também chamados de resíduos. O resíduo nada mais é que a distância entre o ponto amostral e o valor predito pela reta (i.e. a média de Y). 1 “Igarapé” é o nome comum dado a córregos ou riachos na Amazônia. 23 Figura 3.2. Relação entre abundância de jararacas (Bothrops atrox) e distância até igarapé mais próximo (m). A reta representa como a abundância média muda me função da distância até o igarapé. As setas representam os resíduos, i.e. a distância entre cada observação e a média predita pela reta. “Y”, “X”, “a” e “b” são as variáveis dependente, independente, intercepto da reta, e a inclinação da reta, respectivamente. Para determinar o local exato da posição da reta, precisamos de um método para estimar o valor do intercepto e da inclinação. Poderíamos simplesmente usar o “olhômetro” e traçar a reta na posição que julgamos melhor representar a tendência. O problema é que, se diferentes pessoas fizerem isso, provavelmente traçam retas um pouco diferentes, mesmo que sejam os mesmos dados. Logo, precisamos de um critério objetivo, de modo que qualquer pessoa analisando os mesmos dados cheguem à mesma conclusão. O método mais popular para fazer isso é conhecido como Método dos Mínimos Quadrados (Mínimos Quadrados Ordinários (MQO) ou Ordinary Least Squares (OLS)). Esse método busca a melhor reta para um conjunto de dados minimizando a soma dos resíduos elevados ao quadrado. Isso faz sentido porque, intuitivamente, a reta que melhor representa a relação é aquela que paca no “meio” dos pontos, de modo que as distâncias entre os pontos e as retas sejam relativamente pequenas. Assim, fizermos duas retas – uma passando próxima aos pontos e outra longe –, calcularmos os resíduos e os somarmos, veremos que a reta que passa mais perto terá uma soma menor, porque os resíduos são menores. Porém, antes de somar, precisamos elevar cada resíduo ao quadrado, caso 24 contrário resíduos positivos (i.e. acima da média prevista pela reta) serão somados com resíduos negativos (i.e. abaixo da média prevista pela reta), cancelando uns aos outros! Daí o nome “mínimos quadrados”. No exemplo abaixo (figura 3.3.), a soma é menor no gráfico à esquerda. Note que, como esperado, essa reta representa melhor os dados se comparada à reta do gráfico à direita. Figura 3.3. Comparação da soma dos quadrados de duas retas usadas para representar a relação entre abundância de jararacas e distância do igarapé. Em cada caso, primeiro os resíduos são calculados (i.e. distância entre cada observação e a média predita pela reta) e, então, cada um é elevado ao quadrado. Isso, graficamente, é o mesmo que calcular a área de um quadrado cujo lado é igual ao valor do resíduo. Então, as áreas de todos esses quadrados (um para cada observação) são somadas, obtendo a “soma dos quadrados”. A reta com a menor soma dos quadrados é a que melhor representa a nuvem de pontos. Note que, se uma observação cair exatamente sobre a reta, seu resíduo será zero, assim como a área do seu quadrado. Estimando a dispersão dos pontos Para completar nossa descrição sobre as formas da relação, também é importante termos uma medida da dispersão dos pontos ao redor da reta: quanto maior a dispersão, mais fracaa relação. Uma forma relativamente simples e geral é determinar o quão fortemente os valores observados da nossa variável dependente 25 (Y) estão relacionados aos valores preditos pela reta; quanto mais forte essa relação, maior o poder preditivo da reta. Já vimos que podemos medir a dispersão dos pontos em um gráfico usando o coeficiente de correlação. O problema é que o coeficiente de correlação pode ser negativo, mas a correlação entre valores observados e preditos nunca pode ser negativa; necessariamente, valores maiores de Y tenderão a estar associados a valores maiores preditos pela reta. Por isso, podemos mudar a escala do coeficiente de correlação de modo que, ao invés de variar entre -1 e 1, ele varie apenas entre 0 e 1. Como? Elevando-o ao quadrado! Este é o coeficiente de determinação, mais popularmente conhecido como R². Por variar entre 0 e 1, o R² pode ser interpretado como uma proporção ou percentagem, i.e. que proporção da variação em Y é explicada por X.. Quanto maior o R², maior é o poder preditivo de X sobre Y. Figura 3.4. Relação entre abundância de jararacas e distância do igarapé, representada por uma reta estimada por mínimos quadrados, e a relação entre abundâncias observadas e preditas. Cada observação (pontos pretos) tem uma projeção sobre a reta (pontos vermelhos), que correspondem à média predita de abundância para cada valor de X (distância do igarapé). Se confrontarmos as abundâncias observadas contra as a abundâncias preditas, teremos o gráfico à direita; quanto mais forte a correlação entre ambos, maior o poder preditivo da reta. A correlação (r) elevada ao quadrado passa avariar de 0 a 1, e é conhecida como coeficiente de determinação. Quando combinamos a reta estimada por mínimos quadrados à medida de dispersão em torno dela, temos a regressão linear, ou simplesmente regressão. 26 Por que “regressão”? Uma velha história sobre gigantes e anões Este nome curioso se deve ao trabalho de um dos pioneiros a utilizar este método no século XIX: o inglês Francis Galton2. Uma questão importante em seu tempo era como se dava a herança de características de pais para filhos. Pense nisso: em geral, os filhos(as) tendem a ser mais parecidos com os pais do que com qualquer outra pessoa. Assim, por exemplo, casais mais altos tendem a ter filhos mais altos, e casais mais baixos, filhos mais baixos. Se esse processo simplesmente se repetir a cada geração, então a população poderia divergir indefinidamente entre um grupo de pessoas cada vez mais altas e outro de pessoas cada vez mais baixas. Em pouco tempo, todos seriam ou gigantes ou anões; algumas famílias simplesmente encolheriam até sumir! Por que isto não acontece? Galton coletou dados sobre a altura de centenas de ingleses e sobre as alturas médias de seus respectivos pais, e usou mínimos quadrados para estimar a relação entre ambos (figura 3.5). Como esperado, Galton observou que pais mais altos tendem a ter filhos mais altos. Se a transmissão da altura dos pais para os filhos fosse perfeita, então para cada um centímetro que a altura dos pais mudasse, a altura do filho deveria mudar também um centímetro, em média (i.e. a inclinação da reta deveria ser b = 1). Porém, Galton notou que a inclinação da sua reta estimada era menor que um! Assim, embora pais mais altos tendessem a ter filhos mais altos, seus filhos geralmente eram mais baixos que os próprios pais. Da mesma forma, pais mais baixos tendiam a ter filhos relativamente baixos, porém mais altos que eles próprios. Assim, Galton propôs que a transmissão hereditária da altura não é perfeita, de modo que a altura média da próxima geração (filhos) tendia a voltar a altura média da geração anterior (pais). Mais especificamente, Galton sugeriu que as características herdadas por uma pessoa eram provenientes não só dos pais, mas também um pouco dos avós, menos ainda dos bisavós, e assim sucessivamente através das gerações ancestrais. Em um artigo de 1886, Galton chamou este fenômeno de “regressão à mediocridade”, e propôs que isto explicaria por que a altura da população se mantém aproximadamente constante ao longo das gerações (figura 3.5). 2 Francis Galton, que era primo de Charles Darwin, era muito interessado em ciências sócias e genética. Ele inventou muitas coisas que usamos até hoje, como o uso da impressão digital para identificar pessoas. 27 Hoje, sabemos que Galton estava errado: a razão pela qual a altura se mantém aproximadamente constante é a segregação aleatória dos genes responsáveis pela altura, o que quebra associações entre alelos “mais altos” e “mais baixos” geração após geração. Porém, na presença de forças evolutivas (e.g. seleção natural) ou de plasticidade fenotípica, sabemos que a altura média pode mudar. A inclinação de Galton foi menor que um porque esta é uma característica intrínseca dos mínimos quadrados: como ele considera apenas os resíduos de Y, a inclinação sempre é menor que a de uma reta diagonal perfeita. Isto pode ser facilmente demonstrado invertendo a ordem das variáveis na análise: se usarmos X como variável dependente e Y como preditor, a inclinação muda! Ou seja, Galton foi enganado por um artefato estatístico. Porém, a genética moderna só foi (re)descoberta no início do século XX. Logo, isso não diminui a importância da obra de Galton como um todo. Assim, hoje, quando falamos hoje sobre uma reta estimada por mínimos quadrados, continuamos associando ao seu trabalho e chamando de regressão. Figura 3.5. Relação entre altura do filho(a) e altura média dos pais entre ingleses. Dados de Galton (1886). Cada ponto representa um filho(a). A reta contínua indica a reta estimada por Galton usando mínimos quadrados. A reta pontilhada indica uma reta hipotética “perfeita”, cuja inclinação é b = 1. Galton notou que a inclinação de sua reta estimada era menor que um, sugerindo que a transmissão hereditária da altura não é perfeita. 28 Na figura 3.2 temos um gráfico ilustrando que a abundância de jararacas-do-norte varia de acordo com a distância do igarapé. Mas como saber se, de fato, se as variáveis são relacionadas? Para responder a esse questionamento, criamos um modelo no qual a abundância foi a variável resposta (y), e a distância foi a variável preditora (x), e estimamos a relçao entre as mesmas. abundância de jararacas = a + b* distância do igarapé Figura 3.6. Output (resultado) de um modelo de regressão rodado no programa estatístico R. A partir desse resultado, é possível observar que há uma relação significativa entre a abundância de jararacas-do-norte e distância do igarapé (p<0.05). Alguns dos itens mais importantes que aparecem no script acima são: lm = linear model (função que calcula a regressão e outros modelos lineares que serão abordados nos próximos capítulos); summary = sumariza os resultados gerados pela função “lm”; Residual = valores mínimos, máximos e médios dos resíduos; Error = Erro padrão e representa o desvio padrão da estimativa. Quanto maior o valor do erro, pior será a estimativa gerada pelo modelo; t value = valor da estatística t; Intercept.pr= testa a hipótese que o intercepto é igual a zero; Pr = valor 29 de P; e Df = representa os graus de liberdade. Os graus de liberdade nada mais são do que o “número de pontos amostrais” menos o número de parâmetros estimados. Os parâmetros em questão são apenas o intercepto e a inclinação da reta, portanto o df é igual a “n – 2”. Ou seja, o tamanho amostral menos 2 parâmetros (intercepto e inclinação). No entanto, modelos mais complexos calculam mais parâmetros. Nesses casos, o valor dos graus de liberdade será menor. Trabalhando com variáveis em diferentes escalas Quando as variáveis estão em unidades de medida diferentes, podemos padronizá- las para uma mesma escala. Um método comumente utilizado é chamado de transformação Z, que coloca asvariáveis em uma mesma escala: a escala dos desvios padrões. Para fazer isso, subtraímos a média de uma variável de cada um dos valores dessa variável, e dividimos cada diferença pelo desvio padrão desta variável. Neste caso, note que a inclinação da reta passa a ser igual ao coeficiente de correlação entre as mesmas variáveis. Isto ocorre porque a regressão calcula a inclinação padronizando pela variação em X (i.e. quantas unidades Y muda por unidade de X). Já a correlação padroniza a análise tanto pelo eixo X, quanto pelo eixo Y (lembre-se que a correlação é a covariância entre as variáveis padronizadas para uma mesma escala). Ou seja, matematicamente, as análises de correlação e regressão são equivalentes; o que muda é a apresentação dos resultados e, assim, quais informações são enfatizadas em um ou outro caso. A decisão de qual das análises utilizar dependerá da sua pergunta. 30 4. RELAÇÕES CURVILÍNEAS Alometria Embora muitas relações possam ser razoavelmente representadas por linhas retas, nem sempre este é o caso. Alometria é a relação desproporcional de crescimento de uma característica com relação à outra. Um exemplo é a variação no tamanho das mandíbulas de machos em diferentes espécies de besouro. Na figura abaixo temos um gráfico que demonstra as relações entre os tamanhos das mandíbulas e dos élitros dos machos de besouro (figura 4.1). A partir de determinado momento (representado no gráfico pelas linhas verticais paralelas ao eixo “y”), a mandíbula passa a crescer mais rápido que o resto do corpo. Figura 4.1. Relação entre comprimento da mandíbula e comprimento do élitro (uma medida do tamanho corporal) em uma espécie de besouro, conforme Romiti et al. (2015). Os eixos estão em escala logarítmica. Cada ponto representa um indivíduo. Note a curvatura ou “dobra” da relação. 31 Como podemos observar, os autores tentaram descrever o padrão principal dos dados através de duas retas. No entanto, essa nem sempre é uma boa alternativa, uma vez que a cada reta, o número de parâmetros a serem estimados aumenta, o que exigiria um grande tamanho amostral. Uma forma mais simples de descrever esse crescimento poderia ser usar uma equação ou função matemática que descreve uma curva, ao invés de uma reta. Uma função comumente usada para descrever curvas é a função de potência: 𝒚 = 𝒂 ∗ 𝑿𝒃 Os coeficientes “a” (intercepto) e “b” (inclinação ou slope) exercem efeitos diferentes em linhas de tendência geradas para descrever padrões lineares e não lineares. Em linhas de tendência geradas a partir da equação da potência, o “a” posicionará a curva mais abaixo ou acima no eixo y (há mudança na escala do eixo y). Já o intercepto “b” irá controlar a curvatura/forma da curva. Quando o valor de b é maior que 1, é possível observar que a curvatura apresenta um crescimento acelerado (positivamente). Quando o valor do b é um número entre 0 e 1, nós observamos que a taxa de aumento é grande inicialmente, mas depois desacelera. Esse tipo de relação é conhecida como assintótica ou limitante. Quando o valor de b é menor que zero, surge uma curva de declínio, cuja taxa de mudança também diminui gradualmente. Todas essas relações são consideradas monotônicas, uma vez que as mudanças ocorrem em um mesmo sentido (figura 4.2). 32 Figura 4.2. Curvas criadas com a função de potência, Y = aXb. No capítulo anterior, falamos sobre como estimar parâmetros de relações retilíneas. Mas como estimar os parâmetros de relações curvilíneas, que não podem ser representadas pela equação da reta? A princípio, também podemos usar o método dos mínimos quadrados. O problema é que, historicamente, os computadores tinham programas capazes de estimar apenas os parâmetros da equação da reta, ou de alguma equação com estrutura similar, i.e. um somatório de vários termos. Este tipo de equação é conhecido como “equação linear”. Entretanto, a função de potência e muitas outras são equações não lineares, i.e. não representam um simples somatório, envolvendo também outras operações. Por isso, para usar a maquinaria teórica dos modelos lineares, era preciso reescrever a equação da potência na forma de uma equação linear, i.e. como uma soma. Isto pode ser feito usando logaritmos porque (1) o logaritmo de um produto é igual à soma dos logaritmos dos termos do produto, e (2) o logaritmo de uma potência é igual ao logaritmo da base vezes o expoente da potência. Logo: 𝒍𝒐𝒈𝒀 = 𝒂𝑿𝒃 𝒍𝒐𝒈 𝐥𝐨𝐠(𝒀) = 𝐥𝐨𝐠( 𝒂𝑿𝒃) 33 𝐥𝐨𝐠(𝒀) = 𝐥𝐨 𝐠( 𝒂) + 𝒍𝒐𝒈 (𝑿𝒃) 𝐥𝐨𝐠(𝒀) = 𝐥𝐨𝐠( 𝒂) + 𝐛 𝐥𝐨𝐠 (𝑿) Podemos entender mais claramente a relação entre as duas formas da função de potência usando gráficos: em escala log, a curva da potência se torna uma reta. Isto ocorre porque, em escala log, um número muito grande não é tão grande assim. Assim, aqueles valores mais discrepantes da nuvem de pontos que são responsáveis pela curvatura que observamos na tendência são puxadas mais fortemente para baixo do que valores menores, “linearizando” a curva de potência (figura 4.3). Figura 4.3. Função de potência na escala original das variáveis (esquerda) e em escala log (direita). Note que, em escala log, uma curva de potência é uma reta; igualmente, uma reta em escala log equivale a uma curva de potência em escala antilog (também conhecida como exponencial). Vale salientar que a transformação logarítmica dos dados é apenas uma mudança de escala; a informação sobre a relação entre as variáveis permanece a mesma e, portanto, isso não representa nenhuma forma de “manipulação de dados” em um sentido pejorativo. Utilizando a operação inversa ao logaritmo, o exponencial, podemos voltar facilmente à escala anterior. Algumas pessoas têm dificuldade de interpretar dados em escala logarítmica, mas provavelmente você está muito familiarizado com pelo menos uma medida em escala log: o pH, ou potencial 34 hidrogeniônico. O pH nada mais é que a concentração de prótons em uma solução aquosa. Como essas concentrações são naturalmente muito baixas (e.g. 10-5, 10-7 ou 10-9 mol/L), normalmente nós usamos o logaritmo na base 10 desses valores, multiplicado por -1. Assim, um pH de 5 equivale a uma concentração de prótons de 10-5 mol/L. A mudança de escala simplesmente facilita a interpretação. No exemplo anterior (figura 4.3), tanto o eixo X quanto o eixo foram logaritmizados. As curvas geradas através desse método são chamadas de curvas de potência. No entanto, dependendo do comportamento dos nossos dados, é possível logaritmizar apenas uma das variáveis (ou X, ou Y). Quando logaritmizamos apenas o Y, tem-se o que chamamos de equação exponencial. Essa equação é inversa à equação logarítmica. 𝒚 = 𝒆 𝒂+𝒃𝒙 Ainda, é possível gerar curvas através da logaritmização da variável X: 𝒚 = 𝒂 + 𝒃 ∗ 𝐥𝐨𝐠 𝒙 Uma outra forma de gerar curvas assintóticas é usando o inverso de X, criando uma equação racional: 𝒚 = 𝒂 + 𝒃 ∗ 𝟏 𝒙 35 Figura 4.4. Exemplos de curvas criadas usando diferentes equações lineares. Embora o nome “linear” possa sugerir que elas só descrevem retas, isto não poderia estar mais distante da realidade; uma grande variedade de curvas pode ser descrita com equações lineares, i.e. equações compostas por um somatório de dois ou mais termos. Relações não monotônicas As vezes, uma relação não será descrita adequadamente por nenhuma dessas funções. Nesses casos, essas relações são chamadas de não monotônicas. Este tipo de relação ocorre quando, primeiro, o Y aumento com X, e depois diminui (ou o contrário). Um exemplo de função simples que descreve este tipo de relação é a parábola. As linhas de tendência que possuem esse formato geralmente são oriundas de regressões quadráticas. Diferentemente das outras equações discutidas anteriormente, essa possui um parâmetro adicional, o parâmetro “c” (conhecidocomo termo quadrático). Quando o valor do parâmetro “c” é positivo, a curva tem concavidade para cima (i.e. em forma de “U”). Já quando o valor de “c” é negativo, a tem concavidade para baixo (i.e. em forma de “∩”). Os parâmetros “a” e “b” não tem mais a mesma interpretação simples que na reta, mas continuam servindo para especificar a posição exata da curva no gráfico. Um exemplo de relação na forma de parábola convexa pode ser observado no exemplo abaixo (figura 4.5). 𝒀 = 𝒂 + 𝒃 ∗ 𝒙 − 𝒄 ∗ 𝒙𝟐 36 Figura 4.5. Parábola, uma função útil para descrever curvas unimodais, i.e. com um máximo em Y em algum valor intermediário de X. A parábola também serve para descrever o padrão oposto, i.e. valores maiores de Y nos extremos de X. Em alguns casos, a curvatura dos nossos dados não é bem representada por uma parábola perfeita, apresentando uma “cintura” (figura 4.6). Nesses casos, é necessário usar outras equações que apresentem um melhor ajuste. Nosso problema pode ser resolvido se logaritmizarmos o eixo y, criando uma curva gaussiana3: 𝒚 = 𝐞 𝒂+𝒃𝒙−𝒄 𝟐 Lembre-se, equações onde apenas o eixo Y é logaritmizado são equivalentes a equações exponenciais. A diferença é que essa exponencial também considera o efeito do parâmetro “c”. Abaixo há um exemplo de curva ajustada utilizando esse tipo de equação linear (figura 4.6). 3 Nome dado em homenagem à Friedrich Gauss, um famoso matemático alemão 37 Figura 4.6. Curva gaussiana e sua equação. Note que a curva gaussiana nada mais é que uma parábola transformada para a escala exponencial. Sumarizando... Nem sempre retas são as melhores formas de representar um padrão. Podemos utilizar modelos lineares para descrever alguns tipos de curvas, as quais podem assumir diferentes formas. Por exemplo, elas podem ser representadas através de equações exponenciais, logarítmicas, racionais, do segundo grau (parábola).... 38 5. REGRESSÃO MÚLTIPLA Quebrando relações entre preditores Muitas vezes, nossas variáveis de interesse podem estar associadas a outras, o que pode dificultar a detecção de relações de causalidade entre as variáveis. Consequentemente, regressões simples podem não ser tão úteis para responder nossas perguntas. Por exemplo, o patauá (Oenocarpus bataua) é uma palmeira comum na Amazônia. Em geral, há mais patauá próximo aos igarapés do que longe deles, sugerindo que o patauá precisa de muita água para crescer. Porém, plantas tropicais também precisam de nutrientes para crescer, sobretudo nutrientes escassos em solos tropicais, como o fósforo. Quando olhamos a relação entre o teor de fósforo do solo e a distância do igarapé, notamos que há mais fósforo justamente próximo aos igarapés (figura 5.1-a). Não por acaso, também parece haver uma relação forte entre a quantidade de patauá e o teor de fósforo do solo (figura 5.1-b). Assim, fica a pergunta: por que há mais patauá perto dos igarapés? É por causa da água ou do fósforo? Ou dos dois? 39 Figura 5.1. Relações entre abundância da palmeira patauá (Oenocarpus bataua) e (a) a distância até o igarapé mais próximo e (b) o teor de fósforo do solo em uma floresta nas cercanias de Manaus, AM. O gráfico (c) mostra a relação entre a distância até o igarapé mais próximo e o teor de fósforo do solo. Os estatísticos resolveram esse “problema” através de um experimento no qual variamos apenas o fator no qual temos interesse e controlamos todo o resto, e vemos o que acontece. Se houver algum efeito, então só pode ser do fator variado. Assim, por exemplo, poderíamos pensar em um experimento onde plantamos patauá em vários locais e, em cada local, mantemos todas as características ambientais constantes, exceto a disponibilidade de água. Após certo tempo, contamos quantos patauás cresceram. Se houver mais patauás onde houver mais água, então o efeito só pode ser da água. Poderíamos aplicar a mesma ideia ao fósforo para testar se este nutriente tem algum efeito, independentemente da água. O problema é que, em muitas situações, simplesmente não é possível fazer um experimento controlado como esse, ou por questões éticas (.e.g estudos envolvendo animais e pessoas), ou por limitações logísticas e/ou financeiras. Além disso, 40 quando fazemos um experimento, nós determinamos quais preditores são livres para variar e o quanto cada um varia. Dependendo de como fizermos isso, essas características não necessariamente refletirão o que ocorre na natureza. Assim, experimentos são ótimos para determinar causalidade, mas são limitados no quanto nos permitem falar sobre o que é mais ou menos importante sob condições naturais. E agora? Vejamos a relação entre a abundância de patauá e a distância do igarapé (figura 5.2). A reta sumariza a relação entre as variáveis. Logo, a variação em torno da reta só pode refletir fatores que não tem a ver com distância do igarapé. Por exemplo, a uma distância de aproximadamente 50 m do igarapé, há em média 100 patauás, mas a abundância pode ser muito maior ou muito menor que isso. Se a distância é a mesma para todas essas abundâncias, então essa variação certamente não pode ser explicada pela distância. Assim, a reta é o que chamamos de componente determinístico do modelo. Os resíduos demonstram que nem toda a variação é explicada pela distância do igarapé, e representam o componente estocástico do modelo. Alguma outra variável pode estar explicando isso. Logo, podemos extrair os resíduos desse gráfico e criar uma nova variável dependente, “resíduos da abundância”. Esta nova variável representa a variação na abundância que não tem a ver com a distância do igarapé. Assim, podemos usá-la para perguntar: será que algum outro fator (e.g. o fósforo) tem relação com a abundância, depois que descontamos o efeito da distância do igarapé? 41 Figura 5.2. Relação entre abundância de patauá (Oenocarpus bataua) e distância do igarapé. A reta representa a abundância média, estimada por mínimos quadrados; as setas indicam os resíduos. Note que, para uma mesma distância (e.g. 50 m), a abundância pode ser muito maior ou muito menor que a média predita pela reta, sugerindo que outros fatores também afetam a abundância. Assim, podemos usar os resíduos para testar se algum outro fator explica a variação na abundância, depois que descontamos o efeito da distância do igarapé. Da mesma forma, podemos repetir este procedimento para o fósforo: depois que “tiramos” o efeito do fósforo, a distância do igarapé tem algum efeito? Deste modo, podemos isolar estatisticamente o efeito de um preditor dos possíveis efeitos de outros preditores. Combinando os efeitos isolados de dois ou mais preditores em uma mesma regressão, temos a famosa regressão múltipla. A regressão múltipla é um dos métodos de análise estatística mais usados em todas as ciências: ela quebra correlações entre preditores, isolando o efeito independente de cada um. Isso permite avaliar, isoladamente, quais variáveis afetam, ou não, a variável resposta, sem precisar fazer um experimento controlado. Ela pode ser representada pela equação abaixo: 𝒚 = 𝒂 + 𝒃𝟏 ∗ 𝒙𝟏 + 𝒃𝟐 ∗ 𝒙𝟐 … Vale salientar que o intercepto (a) de uma regressão múltipla é a média dos interceptos de todos preditores que constam no modelo. As inclinações representam o quanto Y muda por unidade de cada um dos X, independentemente dos demais preditores incluídos na regressão. O coeficiente de determinação múltipla (R²) sumariza a variação explicada conjuntamente por todos os preditores cujos efeitos são estatisticamente significativos. Além disso, passamos a ter dois tipos de teste de teste de significância: (1) um global, baseado na estatística F, que determina se nosso modelo explica uma variação maior que o esperado ao acaso; e (2) testes para cada uma das inclinações, que indicam se um preditor em particular tem efeitodetectável ou não. Sempre devemos olhar primeiro a significância global, porque mesmo que incluamos preditores sem nenhum efeito sobre nossa variável dependente, a probabilidade de eles explicarem absolutamente nenhuma variação (i.e. R² exatamente igual a zero) é muito baixa. Mesmo variáveis aleatórias podem explicar uma pequena variação por acaso, mas não queremos basear nossas conclusões no acaso! 42 Interação entre preditores Em alguns casos, o efeito de um preditor sobre a variável resposta depende do valor de outro preditor. Nesses casos, nós temos uma interação entre preditores. Uma situação em que a teoria ecológica prevê interações estatísticas é quando há interações entre espécies ao longo de gradientes ambientais. Por exemplo, se duas espécies dependem de um mesmo recurso (p.ex. duas espécies fenotipicamente parecidas ou proximamente aparentadas), então a forma da relação entre suas abundâncias deveria mudar em função da disponibilidade deste recurso. Quando o recurso é escasso, as duas espécies são limitadas pelo recurso, e suas abundância deveriam aumentar juntas (i.e. quando as condições melhoram pra uma, também melhoram pra outra). Já quando o recurso é abundante, a competição seria mais importante, de modo que as espécies tenderiam a se excluir, criando uma relação negativa entre suas abundâncias. Interações são representadas como produtos entre dois ou mais preditores (p.ex. abundância de uma espécie competidora e disponibilidade de um recurso). Quanto maior o efeito da interação, maior será o coeficiente associado ao produto entre as duas variáveis (ver equação abaixo): 𝒚 = 𝒂 + 𝒃𝟏 ∗ 𝒙𝟏 ∗ 𝒃𝟐 ∗ 𝒙𝟐 … Esta situação pode ser ilustrada pela distribuição de duas espécies de palmeiras, Oenocarpus bataua e O. bacaba, em florestas de terra firme nas redondezas de Manaus, AM (figura 5.3). 43 Figura 5.3. Resposta da abundância de patauá (Oenocarpus bataua) à interação entre abundância de bacaba (Oenocarpus bacaba) e teor de fósforo do solo. Os dois gráficos mostram exatamente os mesmos dados, mas de perspectivas complementares. À esquerda, a relação entre as abundâncias das espécies é enfatizada, discriminado locais com pouco fósforo (vermelho) de locais com muito fósforo (azul). Note que a relação entre espécies depende da concentração de fósforo, i.e. a abundância de patauá depende de uma interação entre a abundância de bacaba e a concentração de fósforo. À direita, a resposta do patauá ao fósforo é enfatizada, discriminando locais com baixa (vermelho) e alta densidade (azul) da espécie competidora, a bacaba. De forma complementar ao gráfico anterior, podemos dizer que a relação entre patauá e fósforo depende da abundância de bacaba. Importante: não confunda interação com correlação! Correlação entre preditores significa que um ou mais preditores tendem a mudar juntos. Isso não diz nada sobre o efeito deles sobre a variável resposta. Já uma interação significa que um preditor tem um efeito, mas este efeito muda conforme o outro preditor muda. Em casos extremos de interação, podemos ter um padrão “cruzado”, onde o efeito de um preditor muda de positivo para negativo (ou vice-versa) à medida em que o outro preditor muda. 44 Preditores categóricos Em alguns casos, temos preditores que não são numéricos, mas categóricos, i.e. identificam categorias ou grupos. Ainda assim, é possível utilizar modelos lineares para detectar diferença entre essas categorias, classes ou grupos. Isso porque as classes são codificadas através de números binários (0 e 1) para que essas operações possam ser realizadas. Esses falsos números atribuídos às categorias são chamados de dummy variables (figura 5.4). Figura 5.4. Tabela de código binário para cálculo das relações entre a abundância de três grupos categóricos (baixio, platô e vertente). Por razões históricas, quando usamos uma variável binária como um preditor em um modelo linear, chamamos tradicionalmente de teste t. Quando temos um preditor com três categorias ou mais, temos uma análise de variância (ANOVA). De qualquer forma, ambos são modelos lineares como a regressão e correlação. Similarmente, os testes de ANOVA dois ou mais fatores nada mais são do que regressões múltiplas com preditores categóricos, codificados com código binário. 45 Figura 5.4. A variável X (hábitat) foi codificada em zero e um para cálculo das relações entre a abundância de dois grupos categóricos. Neste caso, o intercepto passa a ser a média do primeiro grupo (i. e. a reta corta o eixo Y quando X vale 0), e a inclinação passa a ser a diferença entre as médias do primeiro e segundo grupos. Isto porque a inclinação indica quantas unidades Y muda por unidade de X; como X só tem duas unidades (dois grupos, 0 ou 1), ao andarmos uma unidade em X (de 0 para 1), automaticamente estamos mudando de grupo (indo da média do grupo “0” para a média do grupo “1”). 46 6. SIMULAÇÕES Criando modelos estocásticos Muitas vezes temos apenas uma amostra de dados reais e não sabemos exatamente qual o padrão a realidade segue. Assim, a única forma de saber se nossos métodos funcionam é criar padrões conhecidos, aplicar os métodos, e então determinar o quanto as estimativas recuperam os valores reais dos parâmetros (que nós sabemos exatamente quais são, porque nós os criamos!). O primeiro passo é criar um modelo estocástico que nos permita representar variabilidade de forma que seja minimamente realista. Se criarmos preditores aleatórios (i.e. mesma chance de selecionarmos qualquer valor em um dado intervalo) e então gerarmos uma variável dependente desses preditores através da soma deles (como nos diz o modelo linear), veremos que a distribuição da nossa variável dependente tenderá a seguir uma forma de sino (figura 6.1). Da mesma forma, se fizermos regressões entre nossa variável dependente simulada e nossos preditores simulados, e averiguarmos os resíduos dessas regressões, verificaremos que eles também seguem uma distribuição em forma de sino. Friedrich Gauss chamou essa distribuição de frequências de normal (e hoje também conhecemos a distribuição como gaussiana). Figura 6.1. A distribuição normal ou gaussiana, uma forma de representar variabilidade. 47 A tendência de que a soma de vários efeitos gerem uma distribuição normal é chamada de Teorema do Limite Central. Gauss também verificou que, quando os resíduos de uma regressão têm distribuição aproximadamente normal (figura 6.1), o critério de mínimos quadrados garante que nossos chutes sobre o intercepto e a inclinação da reta em média estarão certos. Além disso, mesmo que a distribuição dos resíduos desvie um pouco da distribuição normal, os chutes obtidos mínimos quadrados ainda são bem próximos dos parâmetros reais. Por isso, dizemos que o modelo linear é razoavelmente robusto a “desvios de normalidade”. Um importante fator que influencia a precisão das estimativas de inclinação, intercepto e valor de P é o tamanho da amostra. Quanto menor o tamanho amostral, maior é a variabilidade das estimativas. A acuidade (ou “acurácia”, transliterado do inglês, accuracy) não muda muito, pois em média, o valor real é recuperado. No entanto, para uma amostra qualquer, não sabemos se nossas estimativas caíram na média ou não (isto é, se têm alta acuidade). Note que, quanto menor nossa amostra, mais variáveis nossos chutes de valores para o intercepto e da inclinação, e maior o valor de P (i.e. maior a chance de nosso resultado ter surgido por acaso) (figura 6.2). É intuitivo: se temos pouca informação, nossa incerteza sobre os resultados é maior. Figura 6.2. Diferença nas estimativas do intercepto “a”, inclinação “b” e valor de “p” com diferentes tamanhos amostrais. Na dúvida, aumente seu N amostral! A variação nas estimativas de “a” e “b”, porém, tende a estabilizar a partir de um certotamanho amostral e o valor de P, que é uma medida de incerteza, fica extremamente baixa. Em geral, se o efeito de uma variável sobre outra é grande, o 48 tamanho amostral não necessariamente precisa ser grande, pois ele provavelmente será detectado. No entanto, se o efeito é mais sutil, a chance detectá-lo em amostras menores é menor. Por outro lado, a variabilidade intrínseca dos dados (i.e. o tamanho da dispersão em torno da tendência) afeta inversamente as estimativas dos coeficientes: quanto maior a dispersão, maior a incerteza (figura 6.3). Figura 6.3. Diferença nas estimativas do intercepto “a”, inclinação “b” e valor de “p” com de acordo com o aumento do desvio padrão dos resíduos (i.e. tamanho da dispersão em torno da tendência). Quando realizamos regressões múltiplas, há uma quebra das correlações entre preditores, o que possibilita avaliar o efeito independente dessas variáveis. No entanto, isso só é possível quando as correlações são intermediárias, pois a alta correlação entre variáveis afeta as estimativas dos coeficientes. À medida que a correlação entre variáveis aumenta, a imprecisão das estimativas, em especial da inclinação, também aumenta (figura 6.4) e a partir de um determinado valor de correlação (e.g. cor~0.7), os valores de b dos preditores podem se confundir. Nesse caso, onde há muita imprecisão, a regressão tem dificuldade de recuperar se o efeito é dado por uma ou outra variável o que pode levar ao erro tipo 2 onde falaríamos que uma variável tem efeito quando na verdade não. Por outro lado, quando a correlação entre variáveis é igual a zero a estimativa de “b” obtida por regressão múltipla é similar a obtida por regressão simples. 49 Figura 6.4. Estimativas dos parâmetros de inclinação (b1 e b2) de uma regressão múltipla de acordo com diferentes graus de correlações entre os preditores. A partir de um determinado valor de correlação (cor~0.7), os valores de b dos preditores podem se confundir. 50 7. MODELOS LINEARES GENERALIZADOS (GLM) Desvios da normalidade Até agora, trabalhamos com modelos lineares básicos, que usavam a soma dos quadrados para determinar qual o melhor ajuste da linha de tendência. Esses modelos assumem implicitamente que os resíduos tenham distribuição normal. Lembre-se que Gauss mostrou que é quando os resíduos têm distribuição (aproximadamente) normal que o critério de mínimos quadrados recupera os valores reais dos parâmetros, em média! No entanto, nem sempre as variáveis apresentam resíduos distribuídos normalmente. É possível criar modelos lineares assumindo que os resíduos das relações possuem outras distribuições. Isto é útil porque, em várias situações, já esperamos de antemão que a distribuição normal não será uma representação razoável para a variabilidade da nossa variável dependente. Nesse caso, podemos usar Modelos Lineares Generalizados (GLM). Distribuição de Poisson A distribuição normal permite desde valores inteiros e positivos até não-inteiros e negativos. No entanto, variáveis como contagens só podem assumir valores iguais ou maiores que zero e inteiros. Além disso, em alguns casos, as contagens podem apresentar uma distribuição “espichada” (skewed), com muitos valores próximos a zero. Nesses casos, qual tipo de distribuição poderia representar melhor a dispersão dos dados em torno da linha de tendência? Se uma coisa (p.ex. um organismo) é distribuída aleatoriamente no espaço ou no tempo, e nós demarcarmos várias unidades amostrais de mesma área ou mesma duração para contar essa coisa, as contagens provavelmente seguirão uma distribuição de Poisson (figura 7.1). 51 Figura 7.1. A distribuição de Poisson, para dados de contagem, assume que a frequência de valores baixos próximos a zero é grande (Figura adaptada de Bolker 2008). Na distribuição de Poisson, a média e variância das contagens são positivamente associadas (figura 7.2.). Isso significa que, quando você aumentar o valor da média, o valor da variância também aumentará (e vice-versa), com uma inclinação de aproximadamente igual a 1. Como média e variância têm informações redundantes, só precisamos de um parâmetro para representar a média e a variância ao mesmo tempo, ao qual chamamos de lambda (ƛ). ƛ = Média = Variância 52 Figura 7.2. Em dados que seguem a distribuição de Poisson, há uma correlação entre média e variância das contagens. Portanto, basta um parâmetro para descrever esta distribuição, ao qual chamamos de lambda. Quando temos muitas contagens baixas (próximas à zero) também temos um lambda baixo (ex. ƛ=0,8). Quando temos contagens com muitos valores altos, e poucos valores baixos, o valor do lambda é alto (ex. ƛ=12) (figura 7.3). Figura 7.3. O valor do lambda varia de acordo com a frequência dos valores de contagem sendo que quando maior o lambda a distribuição se assemelha mais a uma distribuição normal (Figura adaptada de Bolker 2008). Em distribuições normais, temos dois parâmetros (média e variância), e a maior parte dos resíduos da variável y ficam próximos da linha de tendência, podendo variar de “-∞” a “+∞”. Diferentemente da distribuição normal, a forma da distribuição de Poisson mudará conforme aumentamos o valor de lambda (i.e. a média). Se o valor da média for baixo, a dispersão dos resíduos será baixa (figura 7.4). Conforme a média vai aumentando, a dispersão dos resíduos fica cada vez maior. Quando a variância muda com a média, dizemos que há heterocedasticidade. Quando lambda ≥ 30 praticamente não há diferença entre a forma das distribuições de Poisson e normal. 53 Figura 7.4. Comparação das distribuições dos resíduos em uma distribuição normal (A) e distribuição de Poisson (B). Nesta, conforme a média aumenta, a variância aumenta junto até se aproximar à de uma distribuição normal. Ocasionalmente, podemos ter valores de X que assumam valores negativos (e.g. temperatura e déficit hídrico) e com isso a média tenderia a assumir valores negativos. No entanto, a distribuição de Poisson só assume valores inteiros e iguais ou maiores a zero; como podemos evitar que nosso modelo prediga médias negativas? Como já discutido anteriormente, uma possível solução é usar logaritmos… 𝒎é𝒅𝒊𝒂 = 𝒂 + 𝒃 ∗ 𝑿 𝐥𝐨𝐠(𝒎é𝒅𝒊𝒂) = 𝒂 + 𝒃 ∗ 𝑿 𝒎é𝒅𝒊𝒂 = 𝐞𝐱𝐩 (𝒂 + 𝒃 ∗ 𝑿) 𝒎é𝒅𝒊𝒂 = 𝒆𝒂+𝒃𝒙 Ao usar o log teremos uma curva exponencial. Esse procedimento de aplicar uma função matemática sobre a média para que os valores preditos fiquem em uma escala que faça sentido é conhecido como função de ligação (ou link function). A ideia das funções de ligação é importante dentro do contexto dos modelos lineares A B 54 generalizados, pois ligarão o preditor linear à média da variável resposta, que frequentemente está em uma escala que não admite qualquer tipo de valor (p.ex. valores negativos) (figura 7.5). Figura 7.5. Exemplo de atuação da função de ligação que garante que o modelo só prediga médias iguais ou maiores que zero em uma distribuição de Poisson. Máxima verossimilhança (Likelihood) Ok, mas como determinar o melhor ajuste da linha de tendência? Seria possível usar o método dos mínimos quadrados? Não, pois como vimos, ao usar esse método, assumimos implicitamente que a distribuição dos resíduos é normal! Como resolver esse problema? Uma possibilidade é “chutar” várias possíveis linhas de tendência (figura 7.6) para um conjunto de dados e calcular a probabilidade de que cada ponto amostral ocorra, dado que aquela linha seja verdadeira. 𝑷(𝒀|𝒏𝒐𝒔𝒔𝒂 𝒄𝒖𝒓𝒗𝒂) 55 Figura 7.6. Para descobrir qual a melhor linha de tendência para um conjunto de dados, podemos “chutar” várias possíveis linhas de tendências e avaliar qual delas implicaria na maior probabilidade de observação do conjunto de pontos do gráfico. Como temos vários pontos em cada gráfico, é necessáriocalcular a probabilidade conjunta de que os dados ocorram dado que a linha de tendência “chutada” seja a verdadeira. Para fazer isso, utilizamos “a regra do E”: a probabilidade de um evento ocorrer E outro ocorrer também é igual ao produto entre as probabilidades de cada um. Logo, a probabilidade de observar o primeiro ponto E o segundo E o terceiro, etc. é igual ao produtório entre as probabilidades de todos eles! Assim: 𝑷𝒓𝒐𝒃𝒂𝒃𝒊𝒍𝒊𝒅𝒂𝒅𝒆 𝒄𝒐𝒏𝒋𝒖𝒏𝒕𝒂 = 𝑷(𝒀𝟏|𝒏𝒐𝒔𝒔𝒂 𝒄𝒖𝒓𝒗𝒂) ∗ 𝑷(𝒀𝟐|𝒏𝒐𝒔𝒔𝒂 𝒄𝒖𝒓𝒗𝒂) … Esse processo envolverá n probabilidades, ou seja, o número de pontos que consta no gráfico. Então podemos repetir isso para muitas linhas de tendência diferentes. Após comparar a probabilidade conjunta de cada uma das linhas de tendência, decidimos que aquela com maior probabilidade é que melhor descreve os dados. Essa “probabilidade conjunta”, usada para estimar qual o melhor ajuste da linha de tendência, é chamada de likelihood. Esse método é mais abrangente que o método dos mínimos quadrados, pois funciona para qualquer distribuição que quisermos para representar variabilidade. De modo geral, o likelihood estima qual seria a 56 probabilidade de observar um conjunto de dados assumindo determinado parâmetro (ex. média e variância). O modelo com melhor ajuste é aquele com máxima verossimilhança (maximum likelihood). Ou seja, quanto maior o valor do likelihood, melhor o ajuste da linha de tendência (figura 7.7). Figura 7.7. Gráfico hipotético mostrando o funcionamento do likelihood, que indica a probabilidade dos dados para determinados valores dos parâmetros – neste caso, a inclinação (b). Chutamos vários valores de b e, para cada um, usamos a distribuição de Poisson para calcular a probabilidade de cada observação e, então, a probabilidade conjunta das observações (i.e. verossimilhança). Enfim, observamos como a verossimilhança muda com diferentes valores de b. No exemplo, o valor de b que maximiza a probabilidade dos dados é torno de três. Logo, é esta é a nossa estimativa de máxima verossimilhança (ou maximum likelihood). Na realidade, não sabemos qual é o valor exato de b. Porém, através do likelihood temos o valor de máxima verossimilhança (isto é, que maximiza a probabilidade dos dados). Como produtos de probabilidades são números muito, muito, muito baixos (i.e. 0,000000000...), é mais usual usarmos o logaritmo natural do likelihood, chamado de log-likelihood (veja o eixo y no gráfico acima). Como computacionalmente é mais fácil encontrar valores mínimos do que os máximos, geralmente o log-likelihood é 57 multiplicado por -1. Com isso, minimiza-se o negativo do log da verossimilhança (figura 7.8). Figura 7.8. Gráfico hipotético mostrando o log-likelihood com uma região onde se minimiza o negativo do log da probabilidade conjunta dos dados, condicionada ao valor da inclinação (b). Note que, apesar da mudança de escala ter virado o gráfico de cabeça para baixo a estimativa de máxima verossimilhança (ou que minimiza o negativo do log da verossimilhança) é exatamente a mesma, em torno de três. Ao rodar um modelo linear generalizado (GLM) com distribuição de Poisson, alguns valores são gerados. Um desses valores é o Number of Fisher Scoring, que representa o número de vezes que o programa teve que “chutar” as curvas de tendência até obter aquela com a máxima verossimilhança. Outro valor obtido é a desviância (deviance) que avalia o quão bom é o ajuste que foi previsto pelo likelihood. A desviância é obtida através da comparação do nosso modelo com um modelo perfeito. Ou seja, um modelo hipotético que explique toda variação. Esse modelo perfeito é chamado de modelo saturado (figura 7.9). Quanto maior o valor da desviância, pior o nosso modelo em relação ao modelo perfeito. Assim, a desviância 58 é uma medida análoga à soma dos quadrados, que indica a discrepância entre os dados e o modelo, porém aplicável a modelos com qualquer distribuição (e não apenas a normal). Figura 7.9 O gráfico da esquerda representa o ajuste do modelo previsto pelo likelihood, enquanto o modelo da direita representa o ajuste do modelo perfeito, ou seja, saturado. Para comparar a desviância do nosso modelo em relação ao modelo perfeito, dividimos seus likelihoods. Como o valor obtido nessa divisão seria muito pequeno, e consequentemente difícil de ser interpretado, tiramos o log desse quociente. De acordo com as propriedades operatórias dos logaritmos, a divisão entre logaritmos de bases iguais equivale à diferença entre eles. Assim: 𝑷(𝒀|𝒎𝒐𝒅𝒆𝒍𝒐) 𝑷(𝒀|𝒎𝒐𝒅𝒆𝒍𝒐 𝒔𝒂𝒕𝒖𝒓𝒂𝒅𝒐) 𝐥𝐨𝐠 ( 𝑷(𝒀|𝒎𝒐𝒅𝒆𝒍𝒐 𝑷(𝒀|𝒎𝒐𝒅𝒆𝒍𝒐 𝒔𝒂𝒕𝒖𝒓𝒂𝒅𝒐 ) 𝐥𝐨𝐠 𝑷(𝒀|𝒎𝒐𝒅𝒆𝒍𝒐) − 𝐥𝐨𝐠 𝑷(𝒀|𝒎𝒐𝒅𝒆𝒍𝒐 𝒔𝒂𝒕𝒖𝒓𝒂𝒅𝒐) Ao final, multiplica-se a equação por dois. Mas por quê? Essa é uma convenção entre estatísticos para manter a equivalência com os valores obtidos via soma dos quadrados em modelos com distribuição normal: quando multiplicamos a desviância por dois, ela fica idêntica à soma dos quadrados. 59 -2* (𝐥𝐨𝐠 𝑷(𝒀|𝒎𝒐𝒅𝒆𝒍𝒐) − 𝐥𝐨𝐠 𝑷(𝒀|𝒎𝒐𝒅𝒆𝒍𝒐 𝒔𝒂𝒕𝒖𝒓𝒂𝒅𝒐)) A desviância residual é a discrepância do nosso modelo em relação ao modelo saturado. Já a desviância nula é a discrepância de um modelo nulo (que seria o pior modelo possível, sem preditores, apenas representando a média da variável dependente) em relação ao modelo saturado. Assim, a desviância nula representa a variabilidade máxima a ser explicada. Já a desviância nula representa a variabilidade não explicada pelo nosso modelo. O quociente da desviância residual pela desviância nula representa o quanto do total a ser explicado não é explicado pelo nosso modelo (figura 7.10). Consequentemente, “1” menos esse valor equivale à variação que é explicada. Essa variação explicada pelo modelo é uma forma de calcular o R² para GLMs. Porém, por não ser originário da soma dos quadrados e porque em algumas poucas distribuições o total pode não ser exatamente igual a um (mas muito próximo), esse valor é chamado de pseudo-R². Figura 7.10. Diagrama representando total de variação explicada e não explicada por um modelo generalizado linear. 𝐃𝐞𝐬𝐯𝐢â𝐧𝐜𝐢𝐚 𝐧𝐮𝐥𝐚 = −𝟐 ∗ (𝒍𝒐𝒈𝒍𝒊𝒌𝒆 (𝒑𝒊𝒐𝒓 𝒎𝒐𝒅𝒆𝒍𝒐) − 𝒍𝒐𝒈𝒍𝒊𝒌𝒆 (𝒎𝒐𝒅𝒆𝒍𝒐 𝒔𝒂𝒕𝒖𝒓𝒂𝒅𝒐)) 𝐃𝐞𝐬𝐯𝐢â𝐧𝐜𝐢𝐚 𝐫𝐞𝐬𝐢𝐝𝐮𝐚𝐥 = −𝟐 ∗ (𝒍𝒐𝒈𝒍𝒊𝒌𝒆 (𝒎𝒆𝒖 𝒎𝒐𝒅𝒆𝒍𝒐) − 𝒍𝒐𝒈𝒍𝒊𝒌𝒆 (𝒎𝒐𝒅𝒆𝒍𝒐 𝒔𝒂𝒕𝒖𝒓𝒂𝒅𝒐)) 60 Pseudo R²=𝟏 − 𝑫𝒆𝒔𝒗𝒊â𝒏𝒄𝒊𝒂 𝒓𝒆𝒔𝒊𝒅𝒖𝒂𝒍 𝑫𝒆𝒔𝒗𝒊â𝒏𝒄𝒊𝒂 𝒏𝒖𝒍𝒂 Distribuição binomial negativa O GLM com distribuição de Poisson é o modelo linear mais simples possível para representar contagens. Lembre-se que, nele, média e variância são a mesma coisa (lambda); é um modelo “econômico”. Porém, isso só funciona bem quando os organismos estão aleatoriamente distribuídos no espaço e tempo. E, na realidade, muitos organismos vivem de modo agregado (figura 7.11). Em uma coleta de dados, muitos pontos de amostragem podem não conter nenhum indivíduo, enquanto em alguns outros a contagem pode ser muito alta (figura 7.11). Consequentemente, a distribuição das frequências tende a ser acentuada nos zeros, e mais assimétrica que o previsto pela distribuição de Poisson. Nesses casos, uma distribuição que considere a agregação dos dados pode ser mais interessante. Figura 7.11. Frequentemente os organismos são distribuídos de forma agregada na paisagem (imagem do lado esquerdo), o que leva a muitas contagens com zero e poucos valores muito diferentes de zero (histograma do lado direito) (Figura adaptada de Bolker 2008). Uma distribuição relativamente simples que representa este fenômeno é a distribuição binomial negativa. Esta distribuição tem dois parâmetros: a já bem conhecida média, e K, um parâmetro que determina o grau de agregação dos indivíduos no espaço.
Compartilhar