Prévia do material em texto
;aJEAN LOUIS VALENTIN ECOLOGIA NUMERICA Uma introdu^ao a analise multivariada de dados ecologicos JEAN LOUIS VALENTIN ECOLOGIA NUMERICA Uma introducao a analise multivariada de dados ecologicos EDITORA INTERCIENCIA Rio de Janeiro 2000 i Coptvright Cc© 2000, by Jean Louis Valentin Dircitos rescr%ados cm 2000 por Editora Intercicncia Ltda. ('apa Cleber I , [ditoracao Vera Barros CIP-Brasil. Catalogar 5o-na-fonts Sindicalo Nacional dos Editores de I,ivros, R.I. V252c Valentin, lean Louis, 1942- Leologia num&ica : uma introdu4ao a analise multivariada de dados ecologicos / Jean Louis Valentin. - Rio de Janeiro : Intcrcicncia, 2000 Anexos Inclui hihliografia IS13N 85-7193-032-5 1. Lcologia - Mctodos cstatisticos. 2. Analisc nmltivariada. I. Iitulo. 00-0702. ('1)1) 574.5018 CD[J 502:519.237 E proihida a reprodu4ao total on parcial, por yuaisyucr meios. scm autoriracao por escrito da cditora. EDITORA INTERCIEN(' IA LT'DA. Av. Pres. Vargas , 435/I8" andar - Rio do Janeiro - RJ - 20077-900 Tel.: (21)242-28(,1 /242-9095 - Fax: (21 )242-7787 e-mail: editora (a intercicncia . com.br /1 miuba esposa. /l o.r meu .r /7lbo s. /1 gnem /ii (lei mitba rvda um oceano de I'a„ Amor e I'elicidade. Impresso no Brasil - 1'rinled in Brazil flos alunos, colega.r e a lodas as pessoa.r que, de a/guma forma, contribuiram coin suas criticas ou sugestoes Para o enriquecimento desta obra, agora publicada. PREFACIO No Brasil, poucas sao as Areas do ConhCCinacnto due tcm aprescntado indi- ces tau clevados do creseimento Como a I{cnlugia, por cstar esta area da ciencia diretamcntc associada cum a gestao raciunal dos rccursos naturais. Van<>s sao IS naotiv<S yuc podcna ser apontadus Kara o inters I crescirncntu (lit I col<gia hrasi- Icira. I?ntrc cstcs, it 1<>rniacao tic pessoal especializado ms difcrentcs arras da eco- I<>kia c certamcnte una dos mais incisivos. A fonnac:io da massa critica do cc(' )Iogos hrasilciros tcm proporcionado varias inscrcoes no descnvolvimento da 1=.colo- gia no nosso pals. () a>nsidcravcl aumento do numcro do publicacocs geradas na area nos ultimos anus no Brasil c a manifcstacao mais evidentc dcste d sen- volvinaento, Kara 0 yual essay puhlicacoes te•na tido um papel central. A publica4ao da ohra l:ro/o is 1Nrnnrrird rcprescnta unia t rands cuntribui- cao ao dcsenvulvinacnto da I.cologia quanutativa, uma das areas mais impurtan- tCS da kcologia due sc encontra cm fasc do constants cvolur ao no Brasil. Os scis capitulos clue comp ism a ohra proporcionarao ao lcitor uma ampla c modcrna visto das possibilidadcs do aplica4ao da analisc nwltivariada a pcsyuisa ccologica. Na pratica, csta ohra representa uma fcrr:unenta do grandc iniportancia, vista yuc possihilitara ao cc<Slogo uma mancira eticicntc c ohjetiva do orianizacao, desc64:io c interpretacao Cie Sens dados. Outrn aspccto relevante dcsta obra c 0 tau> yuc, cm todos OS capitulos, os exemplos tratados Sao dc amhientes tropi- Cais, o yuc cm muito contrihuira Para a aplic:ahilidadc nos ccossistcmas brasi- Iciros. Parahenizo o Profess( > r lean V alentin por nos to proporeionacio csta ohra, a yual c fruto do una lont;o e c11id :ados>1 procCSS<< do clahorm;iio. com grande prazcr yuc a euniunidadc cicntitica hrasileira rccchc 1 ir-oh>,ia .\`umrrir<r c, ao nacsnio tempo, agradece a cste grandc pesquisador por fornccer a c<nnunidadc do cc<ilogos brasilciros subsidies indispcnsaveis a analisc c intcrpretacao do sells dados. Pro/. i'iaorisr-a de /l.r.ri.r i1--sieves I PROLOGO I" com o objctivo de colocar a disposicao dos estudantes e dos profissio- nais das areas dc eicncias ambientais e ecologia as bases nccessarias Para iniciar-se na pratica da analise dc dados multivariados, yue resolvi transformar em manual a apostila do mcu curso de Ecologia Numcrica , dispensado durante esses ulti- mos anon corno disciplina de pus-graduacao eni diversas universidades do pail. Nao pretendo, ncste livro basico, ter esgotado o assunto. Longc disso, pois etc visa apcnas a um publico de principiantes, nao familiarizado com os metodos de tratamcnto de dados em ecologic. Procurei rcalizar urn compromisso entre uma excessiva simplificacao c urea abordagem matcmatica completa. Trata-se, do certo modo, de uma obra de "vulgarizacao", no sentido de divulgar as principals tccnicas de tratamcnto dc dados, clue os manuals existentes, todos em lingua inglesa ou francesa, descrevem geralmente dentro do um contexto matematico complexo, dc dificil compreensao Para o leigo. l;ssa complcxidade, aliada a crescente disponibilidade do prograrnas de com- putador, leva o usuario nao avisado ao carninho pcrigoso do use indiscriminado dessas tccnicas c conscquentemcnte, no melhor dos casos, a inutilidade do trata- mcnto c, na pior das hipotcscs, na formula4ao de conclusocs erroneas. O livro c subdividido cm capitulos distintos. No (::ehitulo 1, o Icitor fara uma revisao das stets bases matematicas minimas Para cntendcr o rncctnisnw das tccnicas apresentadas. Trata -se de nocctes do algebra linear (e:ilculo vetorial c matricial), cujo mcrito sera de mostrar de yue mancira uma matriz de dados ccolcigicos pole ser gralica c matcntatieamente representada. () conccito de Ala- dos multivariados" sera explicitado no Capitulo 2. No Capitulo 3 scrio apresen- taclos alguns dos cocficientcs mail utilirados Para a claboracao da matriz do intcr- rcla5 cs. I-ssa matriz constitui o panto de partida dc todas as tccnicas de analiscs multivariadas descritas nos capitulos seguintes: o nxrdelo nutltilincar (regressao multipla) (Capitulo 4), as analiscs de agrupaniento (Capita!,) 5) c do ordonacao (analiscs fatoriats) (Capitulo 6). No final, scrao oferecidos exercit-ius a ,crem desenvolvidos "na mao" ou pelo contputador, e uma lista, nao cxaustiva, de progra- mas (IC coniputador disponivcis ii comcrcio sera apresentada. SUMARIO INTRODUQAO ................................................................................. XVII Capitulo 1 - NOQOES DE ALGEBRA LINEAR ............................. 1 1. RI.Plu.SI.N 'I'A(,AO V'1:'1'ORIAI . DI: [\( PRO131.1:A1;1 I?COI.OG ICO ................................................................................................ 2. OPFRA(r(I;S NOS VI 1'ORI?S ............................................................... 2.1 Multiplicacio do um \'ctor por um lEscalar ................................... 2 2.2 Adicio dc dais Vetores ......................................................................... 2 2.3 Produto Escalar do dois Vctores ........................................................ .i 2.4 Comprimcnto de urn Vctor ................................................................ 4 2.5 Normalizacio do urn \ 'ctor ................................................................ 4 2.6 Ortogonalidade do dois Vctores ......................................................... 5 3. NO(,AO DE DISTANCIA ........................................................................ 6 4. (:AI,CULO MATRICIAI ............................................................................ 7 4.1 Dcfini4<ics ............................................................................................... 4.2 Opcraq cs Matriciais .............. ............................................................. 9 5. RI?SOI .U(,AO DI'. UM SISI'RMA 1)1 n l:QUA(,OES CO,AI „ INCOGNITAS .......................................................................................... 14 6. AUTOVALORES I; A11'I'O\'GTORI:S DI: UMMA i\IATRI ............. 16 Capitulo 2 - OS DADOS MULTIDIMENSIONAIS ........................ 19 1. A NO(,AO DE VARIA\'EI. DIi DIMF.NSAO m ............................... 19 2. OS DIVERSOS TIPOS DL DADOS ....................................................... 21 2.1 Os Dados Quantitativos ....................................................................21 2.2 Os Dados Semiquantitativos .............................................................. 21 2.3 Os Dados Qualitativos ........................................................................ 22 2.4 Codificacio do uma Tabela de Dados Uctcrogcricos ......................22 I XIV ECOL(X;IA Nt mM RICA St INIARIO xv Capitulo3 - A MEDIDA DE SEMELHAN(;A .................................. 25 1. PARA OS ESTUDOS EM MODO Q ..................................................... 25 1.1 Coeficientes de Similaridade .............................................................. 25 1.1.1 Coeficicntc binarios, incluindo as duplas-ausencias ....... 27 1.1.2 Coeficientcs binarios, cxcluindo a dupla- ausencia .......... 27 1.1.3 Coeficientcs yuantitativos, incluindo a dupla-ausencia . 28 1.1.4 Coeficientes quantitativos, cxcluindo a dupla-ausencia . 28 1.2 Os Coeficientcs de Distancia ............................................................. 28 1.2.1 A distancia euclidiana ............................................................. 29 1.2.2 A distancia do Bray-Curtis .................................................... 29 2. PARA OS ESTUDOS EM MODO R ..................................................... 30 2.1 Os Coeficientes de Dependencia ....................................................... 30 2.1.1 Para descritores metricos ....................................................... 30 2.1.2 Para descritores ordenados nao-metricos ........................... 35 2.2 As Associacocs de Especies ................................................................ 38 Capitulo 4 - A REGRESSAO MULTIPLA .................................... 41 1. CALCULO DO MODELO MULTILINEAR I DOS COEFICIENTES DE CORRELA4AO ................................................. 42 1.1 Caso de Tres Variaveis ......................................................................... 42 1.1. i Calculos intermediarios ......................................................... 42 1.1.2 Calculo de a e b ........................................................................ 43 1.1.3 Calculo do erro medio da estimativa ................................. 44 1.1.4 Calculo do coeficiente de corrclacao e de determinacao mtiltipla . .................................................................................................. 44 i.1.5 Calculo dos eoeficientes de correlacao parcial ........... ...... 45 1.2 Caso Gera] pelos Metodos Matriciais .............................................. 46 2. SELECAO DL VARIAVEIS E,XPLICATIVAS- MITODO DA REGRESSAO MULTIPLA "PASSO A PASSO.. ......................... 48 Capitulo 5 - A ANALISE DE AGRUPAMENTO ............................. 53 1. AGRUPAMENTOS SL.QUENCIAIS AGLOMLRATIVOS ............ 55 1.1 Metodo por Ligacao Simples ............................................................. 55 1.2 Metodo por Ligacocs Completas ...................................................... 56 1.3 Metodo pela Associacao Media ............................................................. 58 1.4 Metodo dos Pesos Proporcionais .......................................................... 58 c1.5 Metodo pela Variancia Minima ............................................................. 5) 1.6 Modelo Geral de Agrupamcnto ............................................................ 59 1.7 Qual Metodo I:scolhcr? .......................................................................... 60 1.8 A Intcrprctacao do Dcndrograma ........................................................ 61 2. AGRUPAMIENTOS DIVISIVOS - PROGRAMA TWINSPAN (I11"0 WAY INDICATOR .ti'1'1?C11?S /INAI.PSIS) .................................. 61 Capitulo 6 - OS METODOS DE ORDENACAO ............................ 67 1. OS DIVERSOS M1TODOS DL ORDENA(SAO ................................. 69 2. A ANALISE EM COMPONLNTES PRINCIPALS .............................. 75 2.1 A Prcparacao dos Dados ......................................................................... -5 2.2 Os Calculos de uma ACP ...................................................................... 75 2.2.1 Calculo dos cixos fatoriais .......................................................... 75 2.2.2 Calculo das coordenadas das amostras e das variavcis ........ 76 2.2.3 Calculo das contribuicbcs das amostras c das variavcis ...... 76 2.3 Exemplo Numerico (adaptado de I,egcndtc & Legendre, 1998) ... 78 2.3.1 Calculos prcliminares .................................................................. 78 2.3.2 Cilculo dos autovalores (k) ........................................................ 79 2.3.3 Calculo dos autovalores (U) 80 2.3.4 Calculo das coordenadas dos pontos-amostra ....................... 81 =.3.5 Calculo das coordcnadas dos pontos-cspecic ......................... 82 2.3.6 Calculo das contribuicc cs das espccics ................................... 83 2.3.7 Calculo das contribuicocs das amostras .......+ ......................... 84 1 4 A lnterprctacao dos Resultados ............ .............................................. 85 2. 5 A Validadc dos Rcsultados ..................................................................... 86 2.6 Aprescntacao dos Resultados ................................................................. 88 2.7 Intcrprctacao do uma Ordenacao com Base em Dados Externos. 89 2.7.1 Analises indiretas .......................................................................... 89 2.7.2 Analises diretas - a ordcnacao canonica ................................. 90 2.8 Apresentacao Gri ica dos Pianos Fatoriais ........................................ 91 3. A ANAI.ISE FATORIAi. DI? CORR1.SPONDLNCIA ...................... 94 3.1 Transformacao dos Dados ...................................................................... 94 3.2 Calculo da Matrix dc Variincias-Covariancias .................................. 94 Xv I ECOLtx;IA Nuntr',R[(.A 3.3 3 4 Calculo dos Autovctores c Autovalore ................................................Cal l 95. 3.5 cu o das Coordenadas das Linhas (F) ............................................ Calculo this Coordenad d ' 95 3.6 as as Colunas (I ) ............. Calculo das Contribuic6es ......................... 95 4. A ANALISF. DISCRIMINANTE ...... ............................................ 4.1 An1lise Discriminants Simples (ADS) ................. ..............................4 2 A a i INTRODUcAO 97. . n l sc Discriminants Mfultipla (ADM) .............. Anexo I - ALGUNS PROGRAMAS DE COMPUTADOR ............. 105 Anexo II -EXERCICIOS ............ .........................................................107 REFERENCIAS BIBLIOGRAFICAS ............. ...................... .......115 A pr6pria natureza c do caracteristica multifatorial. Numerosos processor bi6ticos c abi6ticos interagem, c mtribuindo Para a formacao de padr6es estrutu- rais, espaciais c temporais nas comunid,tdcs bioiugicas. Detcetar e descrever esses padr6es, bent coma formular hipt>tcscs sabre as possivcis causas que os regent, constituent os principals objetivos das tecnicas de analiscs multivariadas. Fssas tecnicas, de aplicacao gcneralizada a todos os conjuntos de dados multidimen- sionais, sao conhecidas no clominio da Ecologia pelo name de Ecologia Numeri- ca, ramo da Ecologia Quantitativa, clue refine tambcnt a Bioestatistiea e a Modc- lagem Ecologica. A Ecologia Numeriat tcm par objetivo a analise de grander tabclas de dados, visando descrever sua cstrutura, quantiticando o grau de associacao entrc variaveis e objetos, detinindo, assim, comunidades biol6gicas e areas ou periodus de mesmas caracteristicas ecol igicas. As tecnicas oferecidas pela Ecologia Numc- rica permitem, alem disso, evidcnciar c hicrarquizar os fatores responsavcis pcla variabilidadc dos dados c da cstrurura do sistema estudado. Dc mancira geral, sao tecnicas esscncialmente dcscritivas. HasIcvam o pesquisador a fornuda4ao de hipotcses, mas nao testant Issas hip6tcses, o que e uma atribui4ao da estatistica infercncial. As faeilidades oferecidas polo desenvolvintento acelcrado dos nicios compu- taeionais c dos pacotes estatisticos estao provocando urn use crescente das tecni- cas de analise multivariada. 1 semprc bom insistir sobre algumas prccaucC)es basicas. A Matematica e apcnas um instrumcnto a scrvico da I?culogia. Existcm duas atitudcs contradiu'rrias c igualmentc erruncas do pesquisador cm rclacao as tecnicas matetnaticas. A primcira c pensar que a Matematica c semprc capaz, cortto por magia, do iu,rneccr resultados dctinitiros c inatacaveis cum base cm qualqucr tabcla de dados. A segunda stria rejciti-la, considcrando clue apcnas confrma evidcncias. Na rcalidade, devemos scr conscientes dos Iimitcs intrinsc- cos de um tratamento. A Matematica nao cria inforniacao uncle nao exists, e nao 1 XVIII Ecot.ocIA NUMI RICA dove, em nenhum caso, substituir-se a reflexao ecologica. 0 grande merito dcssas tecnicas e o de colocar cm evidencia fatos novos, hierarquizar esses fatos, desta- cando o essential do anedotico, permitindo, enfim, a transposicao dos resultados ecologicos numa forma facilitando a comunica4ao objetiva. E urn aspecto essen- cial, pois o pesquisador nao dove satisfazer-se apenas pela aquisiSao do conheci- menro, rnas procurar transmiti-lo da maneira mais clara possive]. Tres pontos devem set perfeitamente definidos antes de iniciar o trata- mento dos dados. Embora pareccndo obvios, eles nao sio sempre seguidos polo pesquisador: (a) ter sempre cm mcnte o objetivo do trabalho, pcrguntando-sc tom que finalidade sera aplicado tal ou tal tipo de tratamento. Do objetivo de- pende a escolha da tecnica; (b) definir a unidade da amostra, no espaco e no tempo, scus descritores (e.g. organismos, variivcis ambientais) e a natureza dos dados (qualita- tivos, quantitativos...); (c) estabelecer claramente a tabela de dados, suas dimensoes (n linhas, m colunas), quais os objetos e quaffs os dcscritores. Urn peixe, por exem- plo, sera considcrado "dcscritor" da area onde ele foi coletado, mas tor- na-se "objeto" quando forem realizadas mediSoes ncle (e.g. biometria, pesagem, composicao quimica). Essa distinSao e importante, ja que existem mctodos exclusivos para analise comparativa dos objetos (ana- lise ern modo Q), outros para analise comparativa dos descritores (analise em modo R). ( api(U O k'k oOes d[e '. lltAl' 9r t l_iIlIIltaii' -- 1. REPRESENTA00 VETORIAL PE UM PROBLEMA ECOLOGICO Imaginamos os resultados obtidos por urn pesquisador fazendo um cstu- do quantitativo de tres espccies de organismos, charnadas Sp1, .Sp2 c .Sp3, em dual estaS6cs de coleta, indicadas 1i1 c E2 (I'abcla 1). Seja x o numcro de individuos encontrados dc cada espccic em cada cstaSao: .t, corresponde ao numcro dc individuos da primeira espccic, na primeira esta4ao, xi, ao numcro de individuos da primcira espccic na :cgunda esracao, c assinn por diante. Pot couven(;ao, o primciro indite indica o numcro da linha c o segundo o numcro da coluna. Tabela 1 . f_xemplo de 7alela de Dado.r .Sfu/tidimensionais 1:1 Si .S2 53 X1. N" Gcncralizando para tabclas do n linhas c p colunas, o numcro .v do indivi- duos sera posicionado na tabela pelos indices i e/ sendo i E { 1,n; c l E i 1 p Podemos rcprescntar grtficamente csses dados de dual manciras ditcren- tes, de acordo Conn o espa4o considcrado: a) no cspaco das cstaS cs (l igura 1a), plotando os pontos rcprescntativos de cada espccic a partir dos valores de v num sistema de dots Cixos- csta4ao ortogonais V1 c 1:2; b) no espa4o das cspccics (Figura 1b), plotando os pontos represcntativo^ de cada estacao a partir dos valores de x num sistema de tres eixos- cspccie ortoi;onais SI, S2 c .53. 10 I 2 ♦ EcoLO(;iA NtJ t ERICA NWcOES DR AI.GERRA LINEAR • 3 E2 S2' ------ Z, S2 1., ura 2 - Nultip!icatao do tun victor por urn cscalar. 1i ura ! - Representacao vctorial das cspecics no espaco das cstag6cs (A) c das csta46cs no cspaco das especics (B). A cada panto assim posicionado , no cspaco bi ou tridimensional , associa- sc um vctor. I'cmos os vetores-especic 51, S2 e S3 formados do dots clemcntos (= as suns respcctivas abundancias nas dual cstac <) cs) c os vetores-cstaSao 1; I c 1;2 formados de tres clcmentos (= as suas respcctivas abundancias nas tres cspccics). 2.OPERAcOES NOS VETORES 2.1 Multiplicac ao de um Vetor por um Escalar Seja urn vctor-especic A sua multiplicacatr pcio cscalar 3, por cxcm- plo, rcsulta num out to vctor cujos clcmentos foram multiplicados polo cscalar (Figura 2). 2.2 Adicao do dois Vetores Sc adicionarmos as aLund :incras tlc dual cspccics rcprc :;cntadas pclos vetores c 32, o resultado sera urn vetor S3, cujos clcmentos scrag iiu::is a soma dos clemcntos correspondcntcs dos dois vetores: (x,i+ x,, „) (Figura 3). ► j^urr 3 - Adis io do dais vetores. 2.3 Produto Escalar do dois Vetores 52..1,,,_: OScjam duns cspccics represrntadas p.l vetores c produto cscalar dcsscs dois vctores c o numcro (x,tx„ + xt,x), obtido fazendo - sc a soma dos produtos dos clemcntos respcctivos. t 4 • ECOL(K;IA NUMI`iRICA 2.4 Comprimento de um Vetor () produto cscalar de urn vctor por ele mesmo correspondc ao seu com- primento, tamhcrn charnado de norma, representada por IIS2II = X;, , sc- gundo o tcorcrna d o PiLigoras. (In) caso particular c quando o compri men to do vetor e igual a 1. Diz -sc yue elc tern norma 1. Nesse caso, os scus clcmentos respcitam a igualdadc cos' a + Sen a = 1 (Figura 4). Fsscs clcmentos S ao cha- mados de cossenos dirctores do vetor. X2 A X, -0 u ,X/ 1 •{Glanj 4 - \'ctor h do norma 1. 2.5 Normaliza^ao de um Vetor lint ecologia nwncriea, a represcntacao vctorial simultinea dc diversas variaveis ecol<",gicas cxigc yuc todos os vetores rcprescntativos &ssas var.ivcis tenham norma 1. A normalizacao a l de urn vctor faz-se dividindo cada elemento do vetor pcla sua norma. N(x;OEs DE ALGEBRA LINEAR 4 5 1 12+42 +82 4 J,2+42+82 8 12+422+82 0,111 = 0,444 0,888 O vctor 1 . 1 tern agora norma 1, pois 0,111` + 0,444' + 0,888' = 1 2.6 Ortogonalidade de dois Vetores Sejam dois vetores-especic Si c .S2 difcrentes de zero, fazendo urn angulo a cntrc Iles. Existc a seguinte rcla4io: ,S 1.52 ms a I1 111.II S'211 () cosseno do ingulo entre dois vetores e igual a razao entre o produto cscalar e o produto das suas normas. Essa rclacao ofcrece uma importante aplica- cao cstatistica: scjam as duas cspecies S1 e S2, contadas cm n amostras, e de media nip c m,. Supomos os efetivos x centrados. Cada especic tern a seguinte represen- tacao vctorial Si corr. clemcntos (.v-, - mi , .1', - mi ) c S2 corn clemcntos (v-,, - nf„ .v„ - m, ). Calculamos a norma de cada vetor: I[vIII I (N/I -n/1) 2 +(x,2 --l N ,,, l l `iron ,-•_ 2 ^ =Vl (x: -n^2 )' = ^Srl!),IN211= [(x 7 -nr2 ) +(.v2,-nt ?) l Vcrificamos yuc, para dados ccntrados , a norms de urn vctor cxpressa a Sonia dos Quadrados dos Desvios (SQD), i.e., a dispersio dosses dados cm rela- cio a media. Calculamos o produto escalar desses dois vetores: lxll-m1^(x21 -nr1)T\x,2-111 1 X-\:22-n' :)=^(.v, -in1 Jlv-2,-m2)=5PU12 6 ♦ Ec:ot.0(;IA NUAMI RICA c constatamos que cle e igual a Soma dos Produtos dos Desvios (SPD), i.e., a codispersao entre a : duas espccics. Logo, cos a = .SPI) 1.2 ..SQl) r I 9 O cosseno do angina cntre os vetores rcpresentativos de dugs vari avcis c igual ao cocficiente de correlacao linear dc Pearson entre essas duas variavcis. No caso de vetores com norma 1, a equacao ( 1.1) se simplifica em cos a = 51.52. O cocficiente de corrclacao linear entre duas cspccies r igual ao produto escalar dos vetores rcpresentativos donnas dual espccics. Conscgucntementc , duas variavcis independentcs , i.e.,corn coca cientc r do Pearson il'ual a 0, sao representadas por Bois vetores ortogonais (a = 90" c cos (X = 0). 3. IrOCAO DE DISTANCIA A nocao dc scmelhan4a entre objetos ou atributos sempre preocupa os ectilogos. Vimos , c podemos sentir intuitivamente , que a scmelhan4a entre, por exempla, duas amostras caracterizadas por dois vetores A e B, no espa4o das variavcis Xl c X2, pode scr expressa polo cosseno do angulo a entrc esses doffs vetores. 0 cosseno varia entre 0 e 1 c e chamado de distancia angular entre as duas amostras . Uma outra medida de semclhanca pode ser expressa pela distan- cia 1) entre as extrcmidadcs dos dois vetores (Figura 5). X2 XA2 xAI XBI Xl Eigura 5 - Distancia cuclidiana D,,, entre dois vetores A c B. NoGOrs ur AIA; EBRA LINEAR ♦ 7 L.sta distancia, chamada Distancia l uclidiana, e calculada com base no teorcma de Pitagoras: 1) 113=V^.^.u xrir/ +(X a, ou seja, gencralizando para dual amostras contendo ni espccics, a dist.incia cuclicliana expressa-se pur: .yrs.,) (1.2) rr Outran mcdidas do scmelhan4a scrao apresentadas no Capitulo 2. 4. CALCULO trIATRICIAL Lxiste uma grande atinidadc entre o calculo matricial c a ecologia. Os dados cook')gicos apresentam-se gcralmentc sob forma de tabela cle a linhas c p colunas. 4.1 Dcfinir,ocs Seja a tabela de dados de ahundancia de 3 espccics, cm 2 estaS3es, apresen- tada no paragrafo I dcstc eapituio (l'abcla I). I.sta tabela pode ser apresentada sob forma matricial: [.\: 1=x =[.x.,1= -xrr .xr l'nia matriz c uma tabela retangular de numcros .x;, dispostos cm n linhas c p co- lunas, tondo i E (1 ,n} c j E Uma matriz tormada de uma tinica coluna ou tinica linha c chamada de vetor-coluna ou vetor-linha. Os n elementos de um vetor constituem uma sucessao ordcnada dc ntinteros que s:io as coordcnadas dc um ponto no cspaco a n dimcnsocs. lima represcnta4ao grafica c possivel Para n = 2 (piano, Iigura 1) c n = 3 (volume, Figura 2). Para n > 3, a rcpresenta4.io pode scr imaginada coma urn hipcrespaco a n dimcnsitcs. Lxistem diversos tipos dc matrix.: • I $ E(.o[AO[A Nt)M(RR:A - Matriz retangular : quando r p. L o caso de urna matriz de dimensao (= ordcm) 3x2. - Matriz quadrada (A): quando n = p art a17 att] a, ll, a,3 aid 1132 a3ij A c uma matriz quadrada dc ordcm 3. Os clcmcntos ,1„ , a„ c ,a,, formam a diagonal principal da matriz. A soma dos clemcntos da diagonal principal cha- nia-sc traco. Matriz simetrica : c uma matriz quadrada ondc os clcmcntos acima da diagonal principal sag iguais aos elcmcntos abaixo, i.e., u = ,l - Matriz triangular (B): e uma matriz quadrada ondc todos os clcmcntos do um lado da diagonal principal siio nulos 3 0 0 3 0 0 B=4 1 0 C=0 5 0 5 3 2 0 0 8 - Matriz diagonal (C): e uma matriz quadrada ondc todos os clcmcntos silo nulos, cxccto os da diagonal principal. - Matriz cscalar (D): c uma matrix diagonal ondc todos os tcrmos da diagonal principal silo iguais. - Matriz unidadc (1): e uma matrix cscalar onde todos os tcrmos da diagonal principal sac) igUais a 1. D= 3 0 0 1 0 0 0 3 0 1=0 1 0 0 0 3 0 0 1 No(ORs m., ALGEBRA LINEAR ♦ 9 4.2 Operag6es Matriciais • Transposiciio . A transposicao dc uma matriz consiste em inverter as linhas c as colunas. A matriz transposta (Ie A e a matriz A . Consequcntcmente, a transposta de uma matriz quadrada simetrica e igual a ela mesma, c a transposta de um victor-linha c urn vctor-coluna. Por convcncao cscrcvc-sc A' transposta de A. I } ' 1 4 6 A3^)= 4 2 A 3 ,=A>3 -[3 2 -2J 6 -2 • Adicao c subtra45o . As opcracclcs de adi4:w c subtra4ao dc duns nt:urixcs silo somcntc possiveis para matrixes de mcsma or.{em. A matrix resultante c obtida somando-se (ou subtraindo-se) os el' entos correspondcntcs das duns matrixes. 54+1 1+55 6 2 1) +[3 1]-[2+3 0+1] -[5 1] 1-- --r A B C Adicao c subtracao de ntatrizes silo operacues comutativas c associativas. Assim temos: A + B = B + A c A+ (B+C) _ (A+B) + C • Multiplicacao pot escalar . i\lultiplica-se calla clcmcnto da matrix pelo cscalar 3.[2 3 11 ]-[6 9 33 ] • Multiplicacao do duas matrizes. A nutltiplicacao de duns matrizcs e somentc possivel se o numero do colunas da primcira for igual an numero dc linhas da segunda. 0 resultado sera uma matriz com o numero de linhas da primcira c o numero de colunas da segunda. A,,.p.Bp.,,, =Cn., Os clcmcntos dc C scrag obtidos somando-se os produtos dos elcmcntos do cads linha dc A pclos elcmcntos do cada coluna de B. Por exemplo: 10 • ECOLOGIA NtIM(:RICA sejam A, , = all a,, a,, a„ a,2 1 eB2.1- -[bit 612 b,l b„ b,2 b 2, ] O resultado da multiplicacao de A par B sera: all b„+a,,b,, aI I b,,+a,,b„ allbr,+ a,zbz3 a,,bi, +a;,b,, a,,b,,+a„b„ n,,b,, +a7762, a1,b,1+a ;,b,, anb,,+a;,b,, a1,b,1+ 01262, A nnlltiplicacao de duas matrizes e associative , mas nao e comutativa. A (B p,,,, C,,,,,,) _ (A n,j, . B p,m) ' C -,v A,, 1,Bp,n # Bi.n A'p • Inversao de urna matriz . Uma matriz B e invcrs, a de A sc A.B = B.A = I (matriz unldadc). Escreve-se, por conven4ao, A' inversa de A. Uma matriz so c invcrsivcl se for quadrada, mas nem todas as matrizes quadradas podem scr invcr- tidas. Unia matriz quc nao admite inversao e chamada de matriz singular. Uma matriz quc admite inversao c chamada do matriz regular (ou normal). Veremos, a seguir, como calcular os clcmcntos de uma matriz invcrsa . Para isso, dcvcrnos introduzir o conccito de determinante do uma matriz. • Dctcrminante de uma matriz . Para cada matrix existc um numcro real dennnlinado detcrminantc da matriz, unico para cada matriz . Por convencao, escrcve-se detcrminantc de A = det . A = JAI. 0 scu calculo dcpende das di- niens< es da matriz: a) Para matriz de ordem 1. O determinante c o proprio esealar: de t[5J= 151 =5. h) Para matriz de ordem 2 . 0 detcrminantc a calculado fazendo-se o produto dos clcmcntos da diagonal principal mcnos o produto dos clc- mcntos da outra diagonal. de( M = a2, all a,2 =a,,a27- a.,a12 L Noc,-)Fs DE Al.GEI;RA LINEAR ♦ 11 c) Para matriz de ordem 3 . 0 determinante e calculado pela regra de Sarrus, exemplifcada a seguir. Scia a matriz quadrada M. [a,, M= a12 a,1 a21 a22 La,, (12; a12 ail As etapas do calculo do determinante pela rcgra de Sarrus sao: - repent do lado dircito da matriz as dugs primciras colunas , obtendo-se, assim, uma matriz N de ordem 3,5; multiplicar os clcmcntos das tres diagonais principals e sonar estcs tres produtos; - nultipliear os clcmcntos das tres diagonais secundarias c sonar estcs tres produtos; fazcr a difcrcn4a entrc as duas somas. O result-ado e o detcrminantc da matriz M. all a3, Alf all N= 1121 d12 a13 a,, a„ L a,, a12 a,, ail a321 IM I= (a 11a22 a 33+a12a2.3a3,+a11a21ai2/ (a ,a„a,+a52a2;a11+a, a21a uma matriz cujo detcrminantc c igual a zero e singular (nao admite in- versao). (1) Para matriz do qualquer ordem.Aplica-se a rcgra dc Laplace, quc necessita do algurnas deftni5ibes e calculus intermediarios: - Menor confllemenlar M., do um elemento a do unma m:uriz A: c u detcrminantc da matriz clue se obtem clinlinando-se a linha e a colu- na quc contcm a. I?xcmplo: scja a matriz A. Calcular o Mcnor Conlplenlcntar ;V, do elcmcnto a,,: A= 1 2 -3 0 -1 5 = M,,= 3 4 7 2 -3 4 7 =26 1 12 • L(:oLOGIA NusII:RICA - Cofator C. . do elemento a : e o Menor Complementar do elemento11 1/ multiplicado polo termo (-1)" . Assirn, Cij = (-1)", M. 0 cofator de urn elemento correcponde an seu complemento algebrico: se (i+j) for par M,, = C11 c se (i+j) for impar, entao M = -C. No cxcmplo ante- rior, ondc M, = 26, o cofator deste elemento e CI, _ (1)'" .26 = -26. - Matri.Z adjunla: e a matriz transposta da matriz dos cofatores: Adj. A = C. A partir dessas definicoes, podemoscalcular o determinante de A pcla rcgra de Laplace, segundo a qua] o determinante do qualquer matriz quadrada dc ordcm t1 e igual a soma dos produtos dos elementos de uma linha i (ou de urns coluna /) pelos sous respectivos cofatores: det.A =Ian C1 Para uma coluna j ou Para uma linha i. Exemplo: calcular o determinante da matriz A A= 3 4 1 5 6 0 0 7 8 0 2 1 0 3 1 2 Para facilitar os calculos, escolhemos a linha (ou a coluna) corn inaior nurttcro de zeros, por exemplo a coluna 2. - A/gunlas propriedade .r do determinante: a) o determinante de uma matriz triangular ou diagonal e igual ao produto dos elementos da diagonal principal; b) o determinante e igual a zero quando todos os elementos de uma linha (ou coluna ) sao iguais a zero ou quando duas linhas (ou colu- nas) sao identicas ou em rclacao linear (uma mtiltipla da outra); c) o determinante muda de sinal quando intcreambiam -se duas linhas ou duas colunas. NocOEs DE ALGEBRA LINEAR Adj. A Exempla: calcular a matriz inversa de A= ♦ 13 (1.3) 1 2 -1 3 2 0 4 5 2 Detcrminantc dc A = 6 -6 -6 12 Matriz dos menores M = -4 -4 6 5 2 -9 Matriz dos cofatores Matriz adjunta Matriz invcrsa -6 6 12 C= 4 -4 -6 5 -2 -9 -6 4 5 C'= 6 -4 -2 12 -6 -9 6 Podcmos vcrificar quc A ' • A = I - Propriedades da matriz inversa -1 0,66 0,83 1 -0,66 -0,33 2 -1 -1,5 - Inversao de uma matriz do ordem rc A matriz invcrsa de uma matriz [A']_'=[A`]' quadrada A, caso cla exists (determinante diferente dc zero), a igual a razao cntrc sua matriz adjunta c seu determinante: [A. BI-/ =[I 11B-''A-' 1 14 • ECOLOGIA NIIMI?RICA NocOFs DE ALGEBRA LINEAR 0 15 5. RESOLUCAO DE UA SISTEMA PE n EQUAcOES COA1 n INCOGNITAS Esses sistemas sao a base dos modelos de regressao multipla. Scja um siste- ma de n equacoes com n incdgnitas, no qual o determinants c diferente de zero (sistema normal due admits uma tiniea solucao). Quais os valorcs de x yuc Sao solucoes do sistema? a,,x-,+a,,.v,+...+a,„x„ = br a,, +a„x,+...+a1„x„ = 11 = 1,+a ,.x,+...+a„ x Este sistema pode ser escrito sob forma matricial: a„ a,, ... a 1,, x1 Este exemplo pods ser tambcm resolvido polo metodo dc Cramer. Se- gundo a regra de Cramer, calla inccignita x pole ser calculada dividindo-se sucessivamente, pelo determinants de A, os dcterminantes auxiliares da matrix A, obtidos apds se substituir a /coluna pcla coluna dos tsrmos independentes (B): Determinants dc A = 15 Calculi) de Ai , substituindo-se a printcira coluna do A polo vetor B: 3 4 1 4 1 4 Calculo de 0, , substituindo - se a segunda coluna de A pelo vetor B: mod,=-1,1' no seia: X = A` • B. a,,, an 2 Iixemplo nuntcricu: achar as snluSocs do sistema nu seja, sob forma especial A Y X B h, 2y+Z. = S 2x+4p+,. = 3 3.v4- +4;Z. = 4 1 -2 1 x iZ.1 1 2 4 = 3 43 1 4 As snluciies, obtidas pelt cyuacao matricial X - A - B cnm A = 9 d/' AAl san: .x = 5,2 ,) = -1,2 e Z. = -2,6 Calculo do Di , substituindo-se a tcrceira coluna do A pelo vctor B: A,- mod;=-39 :\s solu4ncs do sistema san: 16 ♦ ECOLOGIA NUAMERICA 6. AUTOVALORES E AUTOVETORES VE UMA MATRIZ Urn dos objetivos comuns aos trabalhos de ecologia c evidenciar os prin- cipais fatores ambientais yuc regem a estrutura de um ecossistcma. 0 ecrilogo procura descrevcr essa estrutura pot um grande numcro de variaveis bibticas e abioticas clue servirao de base do dados Para a extracao desscs fatores pclas tccni- cas de analise multivariada. Fsses fatores deverao explicar aspcctos diferettes do ecossistema, c Para isso deverao set independentes, i.e., rcprescntados or cixos ortogonais (produto escalar igual a zero). A solucao deste problema, yue esta na base dos analiscs ditas "fatoriais", consists em se passar do uma matriz A do coeficientes de dependcncia (correla45o ou covariancia) entre dcscritores Para urna matriz diagonal A, onde todos os coeficicntes sat nulos, exceto os da diagonal principal (X). a,1 a12 =44= rAl 0 .. 0 0 A, 0 A= a21 a22 a2m La,,,, 0 0 .. A,,. I Fsta operacao e chamada diagonalizasao da matriz A. ()s tei mos I da diagonal sao os autovalores (= raizes latentes) da matriz A, calculados pela eyua- cao matricial: A•UI=X .U ou JA-AI1 U,=0 (1.4) onde U, sao os autovetores (=vctores latcntes) da matriz A. A calla autovalor X corresponds urn autovetor U , (sen(lo j E { 1, m}). Exemplo numcrico: Scja urna matriz A= de associacao entre duas vari:iveis. Qucrc- NocOr:s ot: AIx;rmtA LINEAR ♦ 17 [ 3 2 ] _ [ ,,: 2 -2 J L 3x+2y = A.x (3-A).v+2y = U {2x-2y = ^y 12x-(2+R)r = 0 I?stc sistema cm x ey admits unrt solucao cinica x =j = 0 clue nao satil:rz. Para obter outrts solucocs, devcmos fazcr o determinants da matriz dos coe- ticientes igual a 0: (3-k) 2 2 -(2+X = 0, ou seja, k - a. - 10 =0 eyua4ao do segundo grau cujas raizes sao X , = 3,7 e X, _ -2,7. ()bservanuts que ?i + ?, = 1 (= tra4o de A) e Xi ^z = -10 (= determinants dc A). 3,7 0 A matriz A=[ 0 -2,7 c eyuivalente a matriz A, com mesmo tra4o c mesmo determinante. Apos calcular os autovalores de A, vamos calcular os autovetores 1. I.xistc um autovetor Para cada autovalor: - Para V. Substituimos os valor de X no sistema de eduacocs acinta: ((3-3,7).-,-+2y = 0 -0,7_v+2y = 0 2x-(2+3,7)y = 0 2x-5,7), = (1 O sistema c indetcrminado , com a solucao trivial = - )' = 0, indicando yue o vetor passa pela origem. Para obter um segundo ponto do vctor, atribui- mos urn valor yualyucr a x, pot exempla, x• = 1, e calculamos o valor correspon- dente y = 0,35. <) nossri primciro autovetor c mos transforr.. a-la nun-, .t matriz diagonal A, cujos termos da diagonal sao us 111 -[ 1 1 autovalores k, e X, de A, c calcular, para cada , o autovetor U de elementosx c 3 y , ou seja, resolver a equacao matricial: 1R • ECOLOCIA NUMf RICA - Para a,,= -2,7, realizamos o mesmo procedimento, obtendo o Segundo autovetor: 1 UZ -[-285 A matrix dos autovctores c U= [0,35 -2,85 allnulanb) 2 Os ][ aILDs MUII d i mmm aIIISiOun,tus ------------------- A N0cA0 DE VARIAVEL PE DIMENSA0 m Nos estudos de ecossistemas, o ecology' cntrenta uma multi picid"Ide dc variavcis bi6ticas c abiciticas, ligadas por uma complexa retie de inter-relacocs clue rcgc o funcionamento desse ecossistema. t'ma seric de n amostras (objetos) descritas por apcnas uma variavel (c.g. abundincia numa determinada especie) constitui uma variavel alcat6ria unidimensional, em clue calla valor representa urea rcaliza4ao dessa variavel. Considerando-se dois descritores dcssas amostras (contagem do duas especics distintas por cxemplo), tcremos duas variaveis aleat6- rias simultancas (bivariavei ou variavel bidimensional). No caso mais geral, o ccologo utilizara m descritores (contagem de m especics distintas cm cada amos- tra) 'Icremos entao um conjunto de m variavcis aleat6rias simultancas , ou seja, uma multivariavcl a m dimens5cs . No cxcmplo a seguir (Figura 6, Tabcla 2), urn individuo de uma determinada espccic de peixe constitui uma rcalizaSau da multivariavcl a tres din1cnsoes (os valores (as bionictrias B l, B2 e U3). As colctas de cinco individuos constitucrn cinco rcaliza5 cs fiesta multivariavcl, cujos valo- res podem set ordenados cm tabcla do cinco linhas (pcixes = objetos) c tres colunas (biomctria = descritor), ou representados graticamente, num espaco do tris dimensoes, once calla pcixc se posiciona do acordo com os scus valores cm l;l, B2 c 133. (;ada peixe X pods assim ser represcntado por urn vetor de tres clcmentos X,,., . No caso geral de n pcixes caracterizados por in descri- tores (sendo in > 3), a represcntacao grifica c impossibilitada, mas no e dificil isuaginar o conceito de um "vetor peixe" posicionado num hipcrespa4o de di- mensao in. 20 ♦ EcouxuIA NtINI ICA L 113Os DADOS MULTIDIMENSIONAIS 4 21 lise cm modo Q) ou entre os descritores (analise em modo R), dependendo do objetivo do trabalho. A escolha deste coeficiente constitui uma etapa importante da analise c dove ser feita de maneira critcriosa. 2. 05 DIVERSOS TIIPOS DE DADOS B 11, 1-igura 6 - Rcprescntacao vctorial do ulna variavel multidimensional. Cada pcixc posiciona-sc no cspaco a tres dimensocs, do acordo cam seas valores cm 131, B2 c 113. Um objeto pode ser descrito por caract, res de diversos tipos: quantitati- vos, semiquantitativos ou qualitativos. 2.1 Os Dados Quantitativos Os dados quantitativus podcm ser discrctos, coma por cxcmplo, as conta- 1;,:ns de individuos do detcrnlinados organismos, on continuos, coma as medidas do variavcis fisicas c quimicas. 2.2 Os Dados Semiquantitativos Sao dados oriurdos de variavcis quantitativas codificadas por mein de valores intciros crescentcs. I .ssa coditicacao i util quando, por razao nlctodologica, ha inlpossibilldadc de Sc medir cons precisao a variavel quantitativa. A segruir sao apresentados tres exemplos simples: Tabela 2. 1ixeml/o de zrnma I 'ariave/ roui 1 Trr.c D infeusocs Exemplo 1: numcro de cclulas do fitoplancton T I iJiometrias BI B2 B3 Cr lulas/ml Codigos (1-1(1 1 Nixes 11-10(1 2 X1 -`11 12 \'n -^ 31(11-111(1(1 X2 X22 ! .\'` 1 1001- l O0t (( I -^ 4 X3 .\ -"' '\ 33 alii d X4 .11 32 .102 .\i3 .\01 -o v sumaExemplo 2: recobrinlcnto do substrata por vegetacao, cst X5 -"s1 xs2 ts3 InCntc Recobrimcnto (%) Codigos As an :iliscs nntltivariadas (agrupamcnto c ordcna4an ) visam ao cstudo des- tc tipo de ,.ahcla, c da distribui4ao dos pontos -objetos no espaco dos ru descritores. Istc cstudo recorrc ao c:ilculo matrieial , no qual o primciro passo r scmprc a claboracao dc unlit nlatriz de coeficicntcs de semelhansa entrc as amostras (ana- L < 1 0 -- 1 1(1-25 --^ 2 26-50 -4 3 51-75 -4 4 76-1(1(1 --> 5 22 ♦ 15COLOGIA Nt rRICA Exemplo 3: batimento das ondas no litoral marinho Modo Codigos - Calmo - ^ 1 Agirulo -4 2 Batido -9 3 2.3 Os Dados Qualitativos Sao atributos. Para calla obj^to s6 ha uma alternativa, possuir ou nao pos- suir um (Icterminado caracter. F. um., resposta em Simi ou No, cm Tudo ou Nada, cm 1 ou 0 (dados binarios). Una caso de dados qualitativos frc 1ucntemente usado cm ecologia e a presenria ou ausencia do uma especte na amostra. Por convcflcao, se atribui 1 a presenca, 0 a ausencia, embora qualqucr outro c6digo possa ser utilizado. No excmplo a seguir (Tabcla 3), uni c6digo binario foi utili- zado para definir os tipos de substrato em esta45es de colcta de organismos bentemicos. Os DAnos Mt PI.TtniMMENSEONAIS ♦ 23 Exemplo: num estudo sobre a ecologic da alga macrosc6pica Pteroc/adia foram consideradas as seguintes variaveis , medidas em quatro csta4cics de coleta: a percentagern de recobrimento de Pteroc/adia, a ocorrencia de uma alga parasita Gelidiocola\^, o hidrodinamismo e a tmperatura media da agua . O s dados cons- tam da Tabela 4: Tabela 4. Dados Brulos de urn f 'xerplo de I' ludo I.(() / 'c( Estacoes ( 1) (2) (3) (4) Plerorladia 25 60 75 1(1 Gelidinrola.\: Ausente Prescntc Prescntc Auscnte Ilidrodinamismo Fracas MIcdio Forte I'raco Tempcratura ("C) 21,0 17,5 15,0 24,0 Uma analise integrada dcsta tabcla exige a sua homogencizacao, que deve scr fcita pela codificacao hiniria dos dados, comp proposta na Tabela 5: Tabela 5. Codi/ieacdo Bin ,iria da 7a,be/a 4 Tabcla 3. h.venplo de Codi/icacdo Bindria 4 )Estacocs (1) (2) (3) ( Tipos de substratos 0 lPterocladia (<50°') 1 0 Estacbes Calcario Cascalho Areia Lama Pterocladia (>50°,,) (1 1 1 (1 A Gelidiocolax prescnte (1 1 1 (1 B (;elidiorola.t- auscntc 1 (1 (l. 1 C 1 (1 0 0 Ilidrodinamismo fraco 1 0 (I 1 I) 0 0 (1 1 Ilidrodinamisim media (I I (1 (I 0 l (1 0 Hidrodinamismo forte (1 (1 1 (1 Tempcratura < 18"C O 1 1 I1 'I'emperatura > I8"C 1 (1 (1 1 2.4 Codifcacao do uma Tabela de Dados Heterogeneos Nos c.,tudos eccl6gicos , necessita - se de u:ma grandc divcrs^dade do descritores , com diferentcs tipos de dados. A comparacao de objetos a partir dcssas variiveis hctcrogcncas nao podc ser rcalizada scm uma prcvia homogc- ncizacao dos dados. suhdivisao cm classes dc variaveis quantitativas deve respcitar uma cer- ta equipondcracao das classes , a tim de atribuir pesos Iguais as diversas classes. Em outras palavras, devem set dctinidos os limites de classes de tal mancira clue a frec1ucncia dos dados scja aproximadamcnte igual em calla classe. I 24 ♦ EcOLOGIA NUA1t:RICA A transformadao dos dados e, as vezes , necessaria para outras finalidades, tais como diminuir o espaco - memoria pars armazenamento no computador. Por exemplo , dados de densidades de fitoplancton , que ocupam ate mais de sete digitos quando expressos em numero de celulas por litro, podem ser expressos em apenas tres digitos, quando transformados em logaritmos (Tabcla 6). Tabela 6. Densidades de Fitoplancton (1 alores brutos e apds a trans/w-mucuo /cq aritniica) Cel./litro 100.1og (cel./litro) 300 248 10500 402 1200000 608 520000 572 1500 318 Em certos casos, a transformadao logaritmica proporciona, alcm disso, uota normalizacaao da distribui4ao de frequcncias dos dados, possibilitando a aplicacao dc testes estatisticos parametricos. As transformaccies normalizantes sao um aspecto importante da estatistica inferential e podem ser consultadas nos manuais especializados (Sokal & Rohlf, 1969). Capafun1o i) A .ediithi di ------------------- As mcdidas de scmclhanca s,io grandezas numericas quc quantificam o grau de associacao entre um par de objetos ou de descritores. l of tom o indice floral de jaccard (1908) quc assistimos ao surgimento de um numero cada vez maior de mcdidas de semclhan(a relacionadas a aplicarr es biol6gicas e ecolcigi- cas. Elas podem ser consultadas numa abundance bibliografia, dentro da qual podcmos citar algumas das rcfcrcncias mais rccentes quc apresentam uma sintesc sobre o assunto: Sneath & Sokal (1973), Wolda (1981), Piclou (1984), Ludwig & Reynolds (1988), Legendre & Legcndre (1998). Qual indice cscolhcr? A respusta a cssa pcrgunta depcnde da resposta a unia writ do outran perguntas: - o estudo comparativo sera entrc amostras (modo (2, segundo a termino- logia de Sokal & Sneath, 1973) ou entre descritores (modo R)? - os dados sao qualitativos bin :rips (prescn4a-ausencia), quantitativos meristicos (contagem de organismos), quantitativos continuos (variavel ambiental) ou scmicluantitativos (ccidigos de abundaancia)? - a tabela c homogcnca (= contingcncia) ou heterogenea (descritores cone unidadcs diferentes)? Daremos allmns exemplos de indices frequentemente usados em ecologia. 1. PARA 05 ESIUDOS EM MODO Q 1.1 Cocficicntes do Similaridadc Os coefieicntes dc sill, ilarid Ic foram desenvolv idos iniciaimentc par.L medidas binirias ( presen4a - ausencia ), obedecendo a seguintc convcnsao: 1 = cspceic prescnte , 0 = espccic ausentc. 26 ♦ I3coisxan Nt^ntfaucA 1 Objetr, 13 onde: A MEDIDA DE SI:MMGLUTANGA ♦ 27 Ohjeto A 1 a 0 h a+h c d c+d a+c h+d p a = nincr(, do especies COmuns aos dois objctos (1-1); b = numero de presen4a-auscncia (1-0); c = numero de auscncia-presenca (0-1); d = numero de dupla-auscncia (0-0); p = numero total de especies (= a + b + c + d). Os diversos cocftcicntes difercm-se pcla inclusio ou cxclusao da dupla- ausencia (d). A escolha dcpcndc do significado ecolcigico do dado nulo: a auscn- cia de urna especie na amostia indica realmente que esta especie nao existe no ambiente, ou e simplesmente devida a urna dcfieiencia metodologica (seletividade do arnostrador, amostra pequcna demais...)? 1", evidentc quc a auscncia de "balcias" nas amostras de plincton nao pock ser levada cm conta para compararIssas amostras! 0 problema torna-se mail serio para as comunidades do elcvada riquc- za especifica. As amostras dificilmente possuem todas as especies e o numero do pares de dados nubs aumenta, provocando uma falsa semelhanca entre amostras. Assim, nos estudos de comunidades e geralmente desaconselhado o use do coefi- cientes quc incluem a duh!a-auscncia. 1.1.1 Cocficientes binarios , incluindo as duplas-ausencias Tabela 7. Alitnrs C:oe/icienles de Similaridade Para Dados Iiindrios, Inc/rriudo a 1)upla-AusMcia (Raseado em Romesburq, 1984) Nome Expressao Intervalo de variacao a + d (1-1Coincidcncia simples a+b+c+d 2a+2d () 1 Sokal & Sncath a+2b+2c+d 0 0- 1 Russel & Rao a+b+c+d ad - be 11 0 (phi) de Pearson I(a+b)(a+c)(b +d)(1- +d)105 - - till Ochiai ((a+b)(a +c) (b+d)(r +d)lo.s u-1 1.1.2 Coeficientes binarios , excluindo a dupla-auscncia Tabela 8. Os Corfcienles de .timilaridade nnais 17sados para Dados Rindrios, Hxcluindo a Dupla Aasrncia (Raseado em Romesbmg, 1984) Nome Expressao Intervalo de variacao a 0-1l.iccard a+b +c 2a ()-1Sorensen 2a+b +c Sorensen teria prefcrcncia sobre laccard quando se pretende valorizar a ocorrencia simuhanca do dual cspccies. 28 ♦ Ecoi .OGIA Nu I RICA 1.1.3 Coeficientes quantitativos , incluindo a dupla -ausencia Gower (1971) claborou urn coeficiente geral de similaridade permitindo combinar diferentes tipos de descritores apps ter tratado cada um de acordo com seu tipo matematico. Urn outro cocficiente, com as mcsmas caracteristicas, foi proposto por Istabrook & Rogers (1966). Estes coetieientes, de calculo mmple- xo, sio cxplicitac!,Is cm I.cgcndre & I.cgcndre (1998). 1.1.4 Coeficientes quantitativos , excluindo a dupla-ausencia () indice do antropologo Czekanowski (1913, in I,egendre & I.egendre 199$), atribuido tambcm ao matematico Stcinhaus, compara, para cada cspccic, a menor abundancia (\x/) entre as duas amostras e a soma (/I c 13) nas duas antos- tras : .S'3 21,17 . Este indicc, que varia entre 0 e 1, c dcrivado dos indices hinarios, A+B pois quando aplicado a dados de prescnca-ausencia, etc e igual ao indice dc Sorensen. Etc foi muito utilizado nos estudos fitossociologicos, baseados nas ta- xas de recobrimento vegetal. Morisita (1959) elaborou um indice, atualmente muito usado, para mcdir a similaridade cntrc duas comunidades. Etc varia de 0 ate um valor maximo proximo de 1. Inicialmentc formulado para contagem de organismos, elc foi em seguida sirnplificado, tornando-o mais apropriado Para percentagens e valores de biomassa, recobrimento, produtividade... A literatura considera o indice do Morisita urn dos melhores pars estudos ecologicos. Sua formula, relativamente complexa, e exemplificada em Krebs (1989). 1.2 Os Coeficientes de Distancia FIcs sio prefcrencialrnentc aplicados quando se pretends visualisar grafi- carncntc a pr:rximidade cntre duas amostras, cm fun4io da composicao cspccifica ou do qualyucr outro descritor dessas amostras. Quanto mais prciximas forem as amostras, i.e. mcnor a distancia metrica cntrc os pontos representativos dessas duas arnostras, major sera a similaridade cntre clas. Urn indict do distancia co,respoudc entio a uma dissimilaridadc. Logo, c possivcl passar de uma simila- ridade S para uma, distancia 1) fazendo, por exemplo, D = 1 - S Entretanto, para scr realmcnte uma distancia, no sentido metrico do termo, este coeficiente dove respeitar os seguintcs axiomas de "metricidade": A MuoUJA i)1S SIiMGLHANC.a ♦ 29 (1) I).i n = D, 1, (2) sc A = B, entao 1)_i 0, (3) se is ve 13, entio I) it > (), e (4) 1) n + 1) n >_ 1) , c (regra do triangulo). 1.2.1 A distancia Euclidiana Esta disuincia, unia das mais conliecidas, c perfeitamente mctrica. Sua for- mula, ja dcscrita no CapituIo 2 (cqua4:ur 1.2), c bascada no teorema do Pit: Boras sobre a hipotenusa do triangulo retangulo: 1) 1 -13 = J(.. u-..v1i 1 ) +^.^ - .x-1i z ) D _H e a distancia cuclidiana entre as amostras .-I e 13, cm fun4io da abundancia .^ de duns cspecies I c 2. A distancia cuclidiana nio tern limite superior . Isla aumenta a medida que aurnenta o nurncro de descritores. Alern disso, eta depends da escala de valores de cada descritor. Este incomcniente pode set corrigido pela padroniza(;io dos da- l) dos (dados ccntrados e reduzidos) e pclo use da distancia cuclidiana media - 11 onde n c o numero do descritores. Dc mancira geral, a distancia cuclidiana dove set cvitada para comparar amostras cm termo dc abundancia de cspecies, prinei- palmente quando ocorrer um grandc numero de duplas-auscncias. 1.2.2 A distancia de Bray-Curtis A distancia de bray-Curtis (1957) c do use fregiicnte, parr set disponivcl na maioria dos pacotes estatisticos. Fla varia entrc (1 (similaridade) 1 (dissimilaridadc). Este indice n:io considera as duplas-auscncias e c f trtemente influenciado pclas espccics dominantcs. As espccies rams acresccntam muito pouco ao seu valor. Stu calculo c bascado nits diferencas absolutas c nas somas das abun- dancias de cada especic (1) nas duas amostras: ll t-fl- x + \'arios autores prefercm detinir esta tncdida comp "Sir. ilartdade", fazendo (1-D). Ncsse caso, o indice dc 13rav-Curtis equivale ao coeficiente de similaridade de Czckanowski. 30 ♦ Ecot.otaA NuA1tiRIcA Outras medidas dc distancia podem ser encontradas na literatura, com formulacao parecida i de Bray-Curtis, tail como as distincias de Manhattan c dc (:amhcrra. 2. PARA OS ESIUDOS Ell\ MODO R O estudo Cm modo R do unla rnatriz do dodos ecolcigicos tem por tinali- dadc detinir as rclacocs cntrc dcscritores. 2.1 Os Coeficientes de Dependencia lies Sao utilizados Para dctcrminar as rcla<ocs cnrrc (Icscritores (variavcis, cspccics), i.e., para OS estudos cm modo It. O's coctkicntcs gue modem a depen- dencia podem ser, na sua ntaioria, submetidos a testes estatisticos de signiticancia, devendo, para isso, respeitar certas exigencias, conut a normalidadc dos dodos no caso do coehciente de corrclacao linear r de Pearson. A MtiDInA 1)E SFMMELHANcA ♦ 31 ondc v c o grail do libcrdadc igual a //-1. A matrix. S escreve-sc: .r1, .. Sr r Sp.,= S,t S>2 .. S - 1, LSp, Sp2 .. I Isla c sinutrica. Os clcmentos da diagonal principal s:io as variincias c os outros clentcttos as cova ri:incias. S podc ser ohtida inultiplicando-se a matrix dos dodos centrados Y _ It ///J pcla sua transpo<ta Y'. S= Y'-Y Exemplo: cal. .,•. tr a matrix de variancias covxriancias entre guatro es- pecics (p = 4) contadas cm n = 5 cstac<ics do eoleta. Dados brutos 2.1.1 Para descritores mctticos Os dcscritores mctricos sao csscs nos guais e possivcl aplicar medidas de dcpcndencia parametricas, i.e., gue depcndem dos paratnctros (media c desvio padrao) da sua distribui4ao do frcc1 icncia. Matriz de %,ari$ncias - covariancias Ao nivel popul:tcional, no scntido cstatistico do tcrmo , a covari : incia, e a n edida de dispcrsao conjunta dc dual variavcis ) c ) em tornu das Silas nudias n/F C /// : Considerando -se a amostras ondc foram medidas p variavcis )', on sc ja, o ve(tr I)',. ) ) obSCrVado n vexes, podc set construida a matrix de covariancia 1 para as p variavcis tornados duos a duns . A formula geral da covari:incia cnrrc As variavcis Y c )- Lie nudias respcctivas mk c m e: 17 t. Yl)^i' wi:m Amostras Espccies Y l (1) 1 2 6 (2) 2 2 1 8 (3) 3 3 4 (4) 4 5 (1 (5) 5 4 2 \tedias 3 3 3 . 4 Dados centrados Espccies Yt-3 Y' -.A Yt-3 Y,-4 (1) -2 2 -1 2 (2) -1 -1 -2 4 (3) 0 -2 (1 (1 (4) 1 ? 2 -4 (5) 2 2 1 -2 Medias 0 (1 (1 32 ♦ EcoL(x;IA NUNIl RICA A Mrntn, DE, SIMBLHAN(:A ♦ 33 0 grau de liberdade e v = n - I = 4. R= L .Z'.Z v 2 2 -1 2 -2 -1 0 1 2 1 0 0,8 -o,Bl -1 -1 -2 4 1 2 -1 -2 -1 2 0 1 0 0 S= 0 -2 0 0 R= 4 -1 -2 0 2 1 0,8 0 1 -1 1 -1 2 -4 2 4 0 -4 -2 -0,8 0 -1 1 2 1 -2 12,5 02 -4 S= 3,5 0 01 2 0 2,5 -5 -4 0 -5 10 0 Matriz de correlacao f', a matriz R do dispcrsao conjunta cntrc variaveis centradas c reduzidas y-M „ . 0 cocficiente calculado corn base nesses dados padronizados c o coetieiente de correlacao linear r de Pearson. A matriz R e calculada da mesma forma quc a matriz S, multiplicando a matriz do dados centrados c rcduzidos Z pela sua transposta Z'. titilizando o excmplo anterior, dividirnos cada elemento da matriz de dados centrados polo desvio padrao .r da respectiva variivel. Os valores de s cncontram-se na diagonal do S. Dados centrados c rcduzidos Rspccics ZI Z2 Z3 Z4 (1) -2/ 2,5 -2/ 3,5 -1/ 2,5 -2/ 1(J (2) -1/ 2,5 -0,53 -1,27 1,27 Arnostras (3) (1 -1,07 0 0 (4) -1/ 2,5 -0,53 1,27 -1,27 (5) -2/ J5 1,07 0,63 -063 Media 0 0 0 0 Variancia 1 1 1 1 O cocficiente de eorrelacio linear r de Pearson c um dos mail utilizado. Para yuantificar a dependcncia linear entre duns variaveis heterogcneas. Seu Us') adeyuado exige, entretanto, certos cuidados: • elc expressa exclusivaniente a intcnsidade da rclacao linear entre duos va- riaveis. He varia, cm valor absoluto, entre O (nenhuma relapur linear) c I (rclacao linear pcrfcina, seja direta Para r = +1, spa inversa Para r = -1); • elc pode ser submeudo a urn testc estatistico Para verificar se scu valor e signiticativamentc diferente do zero, i.e., se podemos afirmar, dentro de uma determinada probabilidade, yuc existe uma rela4ao linear cntre as variaveis; • a auscncia de significincia (baixo valor de ,) revcla somente a auscncia do relacao linear cntre duas variaveis, podendo set cla nao-linear. 1? scm- pre born tracar o diagrama de dispersao dos pantos , e assim visualizer a existencia de unia possivel relacao nao-linear. Nesse caso, o calculo de r necessita de unia transtormacao linearizante dos dados. Por excmplo, log(x) part uma rela4ao logaritmica, + A, + c pare tuna rcla(;ito yuadritica, ou entao utilizar um coetieiente nao-paranctrico, coma ve- remos a seguir; • o teste do significancia de r nao pode set aplicado se as distribuiritics des variaveis nao forcm normais, i.e, seguindo a Ici de Gauss (distribuicao simetrica em rclaSao a media). Nessc caso, novamente, c possivel, seja aplicar uma transformacao normalizante nos dados, seja utilizar uni coeti- eiente nao-paramctrico; • o cocficiente r sri pods ser aplicado em nurdo R (associacao entre descritores), exceto Para tabelas homogincas, do tipo contingencia (da- dos de contagem ou do frcyiicncia), yuando c entao possivel calcular r entrc objctos (modo Q. 34 ♦ Lr:ot.cxan Nuntt tttcn A MHDIDA 1)1; SFMtit.t1ANc,:A ♦ 35 Na Figura 7 ilustramos diversas situacoes do dependcncia entrc duas variavcis: a) indcpcndcncia (r = 0); b) relacsto linear positiva (r > 0); c) rclae io linear negativa (r < 0); d) rclacao nao-linear necessitando de uma transformacio cm (luc r tendc para 1; c) variavcis biniodais (nao-normais), onde os dados dcvem ser subdividi- dos em dual populacoes, e o teste do linearidade aplicado a calla uma dclas separadatnente. F o caso quando as amostras sao representativas do dual situacoes ccologieas distintas. Nocao do Distribuicao Multinormal A estatistica paramctrica unidimensional exige, para aplicacao dos testes de hipcitcscs, clue a distribuicao de frcgiiencia dos dados siga a Lei Normal. No cspa4o bidimensional de duas variavcis Y, e Y2 , sao exigidas as normalidades de Y, e Y,Y, , representadas, no cbagrama dc dispersao, pcla distribuicao dos pontos dentro de clipses de mesmas probabilidades (distribuicao hinormal) (Fi- gura 8). 1?sta clipsc possui dois cixos pcrpcndiculares, cujas coordenadas sao (>s autovetores I e 11 da matrix do dispersao S ou de corrclacao R. Os clcmentos desses vctores defincm rta posicao, i.e., o ingulo quc Iles fazem corn os cixos originais Y c Y, . () coml,rimento desses vctores s:io os autovalores ct>rrespon- dentes X dcssa matrix quc representam a variincia dos novas cixos. Autovalores e autovctores sao calculados pela cquacao IS - XII U = 0, ji descrita no Capitulo I (cquacio 1.4). Ida mcsma maneira, no cspa4o tridimensional, os pontos sao distrihuidos dcntro de um elipsciide (distribui4 io multinormal), corn tres cixos perpendicula- res, de dircyao c comprimcnto detinidos pclos autovetores c autovalores da ma- trix de dispersao (Figura 9). l{sscs conccitos podern ser estendidos da mesma maneira an cspat;o do (i mens6cs m (hipcrespaco). 'I'cremos entio um hiperelipsoidc corn m cixos pcr- pendiculares, do dirc4ao c comprimcnto definidos pelos nm autoveto res e autovalores da matri x do dispersao do ordem ni. Y Y r--0 r 0 A x 13 I) a X 1 riura 7 - l?xemplos de relactics lineares c n:ao-lincrares entre duns variavcis. 2.1.2 Para descritores ordenados nao-mctricos 0 coeficiente de correla4ao p (rhi)) de Spearman e chamado "nao- parametrico" par ser aplicavcl em dcscritores nao-mctricos, cujas medidas sao r-0 36 ♦ Fcot.oXIA NuuI RICA Y, Yi Y, Y, Y, f i ,mi S - Rcprescntacao gr5fica da hinormalidadc. Y, ordinals (postos) c, conscyucntcmcntc, a distrihui4ao de frcg6 ncia nao dcpcndc do media nem do dcsvio padri;o. Y., A MEnInA 1)h. SEMEL11AN(,A ♦ 37 F,K,ira 9 - l?lipsoidc rcprescntati,o da distribui4 :io dos pantos num cspaco a tres dimcnsoes . Os cixos I, II c III sao os autovetores da matriz de corrclacao entrc as variivcis Y,, Y, c Y,. Este eoeficicnte pode scr tambem aplicado a descritores metricos, apps a transformacao dos dados cm "postos ", nias cons ncenos cficiencia yuc o r de Pearson . Fntrctanto , no caso de descritores metricos cm rclacao nao - linear, o de Spearman stria mais eticiente (a "eficicncia" de urn eoeficicnte e a sua capaci- dade de detectar mais facilmcnte uma rela4ao entre descritores , i.e., rejeitar a hips tese nula do independcneia). Da mesma mancira clue o r do Pearson , o p de Spearman varia tambem entre -1 e + 1, sendo o valor U a auscncia de relacao monotona. 0 caleulo de r e bastante simples, podcndo sua significancia ser testada da mesma mancira clue o r de Pearson . Para comparar dais descritores corn pcyueno numero dc aniostras (< 10), existe urna tabela de significancia de p. A formula do cocticientc de correlacao p de Spearman escreve-se: 61d . ; =' P-l 11 ' -„ 38 ♦ Gcot.cx;IA Numtfaitc,^ onde d c a difcrcn4a entre os postos de calla arnostra nos dois descritores c n o nunlcro de amostras. No caso, bastantc frequents, tic amostras ann o mesmo posto, atribui-sc a calla urn o valor mcdio dos postos. Sc a quantidadc do empatcs for muito clcvado, dcvc ser aplicado um fator de corrccao no calculo tie r. Como para o r do Pearson, c desaconsclhado utilizar r cm ntudo O, pois nests nwdo a no4ao tic posto nio faz scritido quando os descritores sao variavcis anihientais corn unidades c escalas diferentes. I?m tabclas tic contagem tie organisntos ocorre fi-co-i6em CnicniC unl grandc numcro tic espccics raras. O valor real do post() do cada uma delay nog ecossistcma c hastantc incerto c inlprcciso c, conscg6tentcmente, calculo do p entrc dual amostras scria fortcmcntc influenciado pelts espccics nlcnos abundantcs, geral- mcntc mal amos:,alas. O coefieicnte T (tau) de Kendall c um outro coelicientc tic corrclacao do pasta com aplicacao identica ao p do Spearman. Elc c dcscrito cm todos os ma- nuais tic estatistica nao-pararnctrica. 2.2 As Associacoes do Especies As comunidades biolt gicas sao geralniente compostas dc um pequeno numcro do espccics dominantes e do urn grandc numcro dc especics raras, o quc proporciona um grande numcro tic valores nulos. Esscs valores nulos sao prcju- diciais para cstahclecer associacoes biologicas coal base no calculo do cocfrcien- tes do dcpcndcncia paramctricos quc cute a nornlalidade dos dados (corrcla4io). As unicassolu4ocs, cnlbora nao totalmcntc satisfat6rias para o ccologista, sao: - climinar as espccics raras; - climinar os zeros coma se fosscm dados faltando; - climinar os duplos zeros. Alesmo o use do cocticientes nao-paramctricos nao c aconsclhado nests caso, pelo motivo aprescntado anteriormcntc. Ar. associacocs biologicas podcnl scr, cntretan.o, dcfinhias a partir do co- ocorccncias entre espccics, em vez do correlacbes entre abund$ncias, utitizando-se a seguintc convcncao para o calculo dos cocficicntcs: A MonrDA no SEMMEI.IIANc`.A ♦ 39 Fspccie Xl prescntc ausentc (1) (0) I?spCcic X2 prescntc (1) a b a+b anSCme (I1) C d c+d a+c b+d on tie: a = nunlcro tie amostras possuindo as dots espccics (1 - 1); b = nunlcro do amostras onde \ I c prescntc c \2 c ausentc (1 - 0); c = numcro do amostras onde \1 c ausentc c \2 c presente (Il - 1); d = numcro do amostras onde nao ocorrem is duas espccics (0 - 0). A soma n=a+b+c+d corresponds ao total tie amostras. Assim, o indicc binario de Sorensen foi aplicado por Dice, sob o nonic dc coehcicntc do coincidcncia, para rclacionar especics (calculo cm modo R). Por outro lado, urn teste do qui 2 podc scr aplicado para vcriticar sc existe urea dependencia entre as distribuio; es de duas espccics. A formula cscre ve-se: ad -bC YP[l 9 x = -(a+G)((-+d)(a+c)(b+d) tcstada com (2 - 1) (2 - 1) = 1 gran do libcrdadc . I?sta f^'>rmula do qui 2 correspondc ao indicc 0 (phi) tic Pearson (conforms a Tabela 1 ), Pais X = p Para pequcnas amostras , aplica-se a corrc4ao do Yates (-p/2). i ( .tihitta1ly 4 A Ra^g"n°rsstl,ct -'^^i`tl A rcgressao do uma vari:ivel )' (dcpendcntc nu explicada) a partir do uma vari:ivcl .A' (indcpcndcntc ou cxplicativa) pods scr traduzida sob a forma da equa- Gao linear )' = aX + b, sendo a () coehcientc do regressao do Y em .A' c G o enehci- cnte linear (= constantc)- A introducao do um detcrminado valor do AT na cqua- 4ao resulta num valor, cstimativa de )-. Assim temps u.\+b+F, onde £ constitui o residuo (= ecru) da estimativa, pois £ _ )- - (a,A-+b), i.c, £ _ )" - Y (, uanto mcnor E, melhor sera o modclo para estimar I a partir dc X. I:m ccologia, os modelos lincares bivariaveis sao geralmente insatisfat6rios para cxplicar os fcn6mcnos, os quaffs depcndcm frequentemente de duns on mais vari- avcis explicativas c da claboracao de urn modclo ntultilinear que visa a diminui- Gao do residuo para uma melhor estimativa do Y . } =ar,Xr +a ,-\ ,+...+a X, +h,V +£ Uma anahse em rcgressao nuiltipla consists em claborar um modclo que possa explicar a maior parts possivel ci., variancia de V, i.e., diminuir ao m:ixirno o crro da cstimativa. A scguir, scrap aprescntados os calculos para a claboracao do modclo c para testar a sua validade. Vcrcmos o caso de tres variaveis (duas indcpcndcntcs e uma dependents), cujos calculus podern scr facilmentc desenvolvidos manual- mcntc, c o ease mail gcral a III variavcis que cxigc a aplicae ao dos inctodos matrieiais c o use do rccursos computacionais. Na ultima partc dcste capitulo, sera aprescntado, por mcio dc urn cxcmplo nutnerico, o tr. -todo do analise de regressao multipla chamado "passer a passo" (Stepwise Multiple Regression), o mais rccomcndado para uma cscolha objctiva das variaveis cxplicativas. 42 ♦ I;UOUX;IA Nt1Dtfatt(A 1. CALCULO DO A1OPELO MULTILINEAR E DOS COEFICIENTES DE CORRELAcAO 1.1 Caso de Tres Variavcis Sejam tres variaveis X, , X, c X,. Descjamos elaborar um modelo multilincar ligando .V, a V, C X ,, ou seja, numtar a cquacao: Para isso, dcvcnlos calcular os cocttcicntes de rcgressao parcial a,, c a,, , e a constante b . I?m seguida, calcularcmos os cocticicntes de correlacao mtiltipla KI „ c parcial re, e III-- expiicando o significadn destes cocticicntes. 1.1.1 Calculos interrnediarios Organizar os dados cnl tabela, da scguintc mancira (Tabcla 9): Tabela 9. Ca/ca/os Preliminary r Para ama rI na/i.re em Regressao MJi/life/a eu/re Tres I arilireis X, , .V, e X, Obs. XIX, XIX, X,X, A Rrc:atssAo M(,i.Tirt.A ♦ 43 1.1.2 Calculo de a e b O calculo dos coeftcientes do modelo podc ser feito de diversas maneiras: pela equat;ao gcral r,,- +'l;r,- X ,4J, - , _ 1-ra S2 rri -r,, r,, .S_, + •(X,-mi) 1-rr S, quc cquiv:dc a scguintc cquacao: V 1 12J a1, 1 JN, - a, r , m, - pclo sistema de Ire's CgUaCOCS a,,, + IJI i..' Y-.\, + bI ,, Y-.\7, x - , = a,2., 'A, +a,,,E V"eV1 +/'1.2+ L\, EX,X, , + a,1 , Fps + Eb, ,, A, As solucocs dcstc sistema podem ser obtidas pelo mctodo matricial, apli- cando a regra de Cramer (cf. (;apitulo 1). Para dados padronizados , i.e., centrados c reduzidos pela transforma4ao, o sistema sinlplitica-se cm duns equa4ocs corn duas incognitas, ja quc temos EN2: =Ex,= 11, e, ctlnsequentementc , a constante b, ,, e igual a zero. Scndo r,, = eSte SiStema egtitvale aO sistema: oil B ela, na forma ma trici al: r,,=a1,,r„+a1i._1r1i r,i=a,,,r,,+a,i ,rii J',1 r,i rJ r,, ri,j [a,,'J -[rl t Os cocticicntes a,. , c a,, 2 , calculados pcla rcgra dc Cramer, sao: XI X, X, XI, X X. .v,,1",, N if X; r XI ; A, E\, E,A2 L\ , y.\2 E,A ; Y .\72 E,A,X, EX,XJ L\,X, Xi' X; 12 -1; X'11X1, X11X1, .\1!1I1 Conl isso, podenios calcttlar as medias n1,, m, e ill, c Os lk:;vios padnccs .c,, Jl c s, das tres variaveis, bcrn conlo os cocticicntes de corrclacao simples entre clan, r,,, r„ c r„. I R 1= r22 r2 1 j 1,12 r,, r,, rii 02= r„ r12 r,, r,, 44 ♦ Ecot,oc aA Nt )IERICA sendo : a12.3 = IRJ a 1;. 2 - I--1 Neste caso , o modelo apresenta-se sob a forma simpliftcada X, = a,,, X, + a,,. X; I uni modelo padronizado onde os coeficientes dc rcgressao rcprescntam a conrribuic o de calla variavel independente A:, c X, a variancia dc X,. Ian ou- tros termos , cste modelo , claborado a partir de dados eentraclos c reduzidos, permitc comparar a importancia respcctiva de calla variavel independente na cxplicacao da variavel dependcntc , mas nao pode set utilizado para cstimar V', a partir de X, c X, , ja yuc o efcito das unidadcs tin eliminado. 1.1.3 Calculo do erro mcdio da estimativa A difcrcnca cntrc o ^,alor do X, observado e o valor do X, cstimado polo modelo constitui o erro mcdio da cstimativa .1', de X, a parer do \, c .A lilc c calculado pela formula: Sr.:3= ou, utilizando-se os coeficientes de correlacao linear re o desvio padrao s, de A-,, pcla formula: 1-r, -r13 - r;^+2rr,r33r23 1 n 1.1.4 Calculo do cocficicntc de corrclacao a de determina55o multipla ( ) cocficicntc do corrclaSao multipla eorrespondc a corrcla4ao cntre os valores obscrvados c cstimados do A', . Calcula-se pelas formulas: r'23K,,3= si on Rr.23 = r+L,L2 ' r,-; - 2 rte rr3 r23 1 - rz3 I A REoRI ssAO MUI.TIPL:\ ♦ 45 0 cocficicntc de dctcrrninacao multiple , Rj ,, (multiplicado por 10(1), informa sobre a percentagem de cxplicacao d.i varianeia dc N, pelo modelo multilincar. 1.1.5 Calculo dos coeficientes de correlacao parcial A corrcla4ao parcial entre dual variavcis corresponde a corrclacao simples cxcluindo o efeito das clemais. Assinr, r,,, e o coeticiente do corrclacao parcial entrc \', c X,, mantcndo .\', constantc. IPlc i c.tlculaclo pcla lihrnuila: r/2 Para calcular r,, _, , a feirmula c a mesma , iltcrnando somentc ,IS indices 2 c 3. A significancia destcs coeficientes e tcstada a partir da tabela dc r para 11-3 trans do liberdade. O c dculo dos cocficicntcs do corrclaGao parcial c muito importantc cm ecologia, onde as variavcis sao frecliicntcmentc inrerligadas c a correlacao simples podendo induzir a erros do intcrprctacao . Duas variavcis podem parcccr corrclatas pelo unico motivo de screm correlatas a uma terccira , coma verenios no exem- pla a scguir: l`,xcntplo : scja uma matriz do correlacoes simples R cnirc duas cspceics N. c .\'_,e uma variavel ambicntal I ', indicandu a existrncia de uma corrclac:io posi- tiva entre as espccies c a variavel anthicntc (respccuvamentc 0,P+ c 0,5), hem coma entre as duas cspceics (0,4). R= X, .\ Porem, se calcularmos os cocficicntcs de corrclacao parcial (matriz R )A si},^viiic:incia destc cocficicntc pods set testada por um tcstc F. 0 valor entre essas tres variavcis , vertticaremos que existe rcalmente uma corrcla4ao line-(n-3)R ar positiva cntre X, c I ', hem como entre X, c I i mbora menos intensa , mas qucdo 1 = - -- - c comparado ao valor F da tabela pars 2 c n 3 grans do liberdade. 2 (1-R-) nao cxistc nenhuma eorrclasao linear cntre as duas cspceics. 46 ♦ EcoLo ;IA NUAMI;RICA 1.2 Caso Geral pelos Metodos Matriciais Os mctodos matriciais permitcm gencralizar o calculo do urn modelo multilinear com m variavcis. Para simplificar a denlonstracao, vamos descnvol- vcr os calculus do urn modelo para somente tres variavcis: V = a, A• + a, Z + b, mcdidas cm it amostras. Os cocficicntcs a, e b sao solucocs do seguintc sistcma dc cyua46cs: bn+a b1."'+a 1 1., -2 +a, ^^'%= ^,^7• cuja rcprescntaciw matricial podc ser escrita da scguintc mancir:c b tit a, o c uc c. uivalc, para n = 3 amostras, por cxcmplu, a: I 1 1 1 1 .%-I , It 1 I 1I F x- A•, ' I a Z o, _ .x, x , ^1.1 1. _' 1 i l .A"i 1 i a, 11 : 1.i iL )1 X' X A X' Y ou srja, A = (X' X)-' X' Y. Cutn os dados ccntrados c rcduzidos, podemos utilizar a matrix do corrc- laSao: (1) (2) \/. Y (1) ;\ IZI{(;R -'SSA() M t , \ ♦ 47 ondc: R c a matrix do corrclaCao cntrc as variavcis indepcndcntcs .\ C. /.: R r :t nt:urii dr cr>t-17•I:IC:U7 do ) cum cl:t ntcsma (oU iCja, igual a 1): R c IZ sao its cit trcc (1as c. in clac ics do ) (1)1)1 .\ c Z. \ p.iri i drstcs 1u:111-1) conjuotos do coCt1CICI1tCS, pudcmus calcular: • a ntatriz Jai dos cocficicntc, :c regress,.-to, pcla formula: Ia1 =IR n 1 ' •IR, I I • o cocficicntc dc corrclacao mirltipla R c de dctcrminacao R', pcla ttunnd:t: R',-= IR,,1.IaI .\ signific:incia do 1( c vcrificada com l)I?-' unt ICSIC I.. Compar:utdo I - ao I' da tahcla par; p c n-I'-l gr 1iS do lihcrdadc, ondc ,, r o niunen, do ohscrv:trrocs c ft a niimcro de variavcis indcpcndcntcs. • a matriz It' .•1 (le cocficicntcs de corrcla^ao parcial, pcla it"trmul ondc R ' i a matrix inversa da matriz do cochcicntcs do rorrcLt^ao R cnur ((), ! .IS variavcis, e D ti 11111:1 ntatriz diagonal, ondc i t diagonal e ti>rmada pclu invcrso da raiz yu: tdrada dos icrmos da diagonal tic R . .\ signiticancia dos coctici, itcs do currclacao parcial e vcrtticada pelf ta- hcla de r com ii-k-2 graus dc lihcrdadc , ondc it c o nitmcro dc obscrva4ocs c k a ntintcro do variavcis tixadas. 48 ♦ ECOLOGIA NUMIRICA 2. SELECAO PE VARIAVEIS EKPLICATIVAS - MtTOVO PA REGRESSAO MOLTIPLA "PASSO A PASSO" Uma selecao criteriosa das variaveis explicativas constitui uma decisao importante no estabelecimento de um modelo niultilincar. Cot-no selecionar as variaveis e cm funcao de yuc criterios? A regressao multipla "passo a passo" (Stepwise Multiple Regression - SW MR) e o metodo mais recomcndado para cste fim. A variavel explicative mais fortentente correlata corn a variiivel depen- dente e selecionada cnm primeiro lugar. Em seguida, sao incorporadas as variaveis com maior cocficiente de correla4ao parcial com it dependentc. Porem, antes do cada nova introducao de vari:i.vcl explicativa, it corrclacao parcial da variavel de- pcndcntc corn as variavcis antcriormcntc introduzidas e vcriticada. As v:tri;ivcis eujo cocficiente dcixou do scr significativo sao rctiradas do model). O exemplo numerico a seguir ilustrara os passos sucessivos do calculo. Exemplo numerico : Coro objetivo de conhecer a ecolo;,ia do um fora ni- nifero bentcinico, foram realizadas 22 amostragens. I:m each amostra foram me- didas as variavcis scguintcs: X 1 = Salinidadc da agua intcrsticial X2 = Numero dc predadores X3 = Profundidade do local X4 = Clorofila do sedimenro X5 = Tempcratura do sedimento X6 = Pracao mineral inferior a 50mm X7 = Carbono organico total X8 = Numero dc parasitos X9 = Recobrimento do scdimento por fanerogamas marinhas X10 = Numero de foraminiferos vivos 1 At A R FGRESSAO MOLTIPLA ♦ 49 X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 1 0,295 0,520 (1,107 0,075 0,149 0,632 0,068 0,068 -0,782 X1 1 -0,177 -0,703 0,516 0,670-0,071-0,744-0,632 -0,614 X2 1 (1,761 0,169 -0,465 0,909 0,484 (1,769 -0,319 X3 1 -0,109-0,744 (1,620 0,842 0,928 0,123 X4 1 0,232 0,163 -0,260 -0,031 -0,398 X5 R 1 -(1,225 -(1,658 -0,832 -0,425 X6 I (1,375 0,551 -0,545 X7 1 0,798 (1,146 X g 1 0,090 X9 I Noma erapa prclintinar , a tiro de simplificar os c5lculos , sclccionamos as variaveis explicativas, cuja corrclacao corn a variavel XI() c significativa, i.c, r superior ou igual ao valor da tabela de r para 11-2 = 2(1 grans do liberdadc (r > 0,423 para p = 0.05). De acordo com os valores da matriz R, selecionamos apenas as variavcis Xl, X2, NO e X7 conic suscetiveis de entrar no modelo explicativo da variiIncia dc X10. A matriz R c entio reduzida: N 1 X2 NO X7 X10 1 ((,295 (1,149 0 ,632 -0,782 Xl 1 0,670 -0,071 -0,614 X2 1 -0,225 -0,425 X6 1 -0,545 X7 I X1() Agora conurram os calculos da regressao passo a passo. PASSO I Queremns estabelecer o modelo de regressao multipla, unindo a variavel X10 as demais. Os coeficientes de correlacao simples entre as dez variaveis sao apresenta- dos na matriz R a segui;: A variavel X1 c a primeira selecionada para entrar no modelo por ter a e -0,782maior correlacao corn X10 (r = -0,782). 0 coeficiente dc determina4ao 2 (1,612. Ou seja, a variiivel XI explica 61,2% da variancia de X10. 0 residuo e de I - 0,612 = 0,388, i.e., resta a expliear ainda 38,8'Yo da variancia de X10. 50 ♦ I:caL x;Ia Nt NII RICA PASSO 2 CaIculanuts us cocficicntcs do currclacao parcial entre \10 c as uutr:ts vari:iveis, ntantcndu A 1 const:rntc. Tcnu,s canto resultados: ern. r =-0,644 A 12r:ctuss;u) Mtn.Ttrt..4 ♦ 51 Os dais cocficicntcs permanecem significativos . A variavel X7 pode ser intruduzida ao modclo. Scu coeheicnte do detcrminacao c 0,4592 = 0,2107. I3la c.\plica 21,07/, do residua anterior, Ott scja , una facao dc variancia do N10 igual a (1,2107 x 11,227 = 11,0478 . O nova residua c agora 11,227 - 0,0478 = 11,179. O not-(t modclo , ncstc passes, c N111 = 3,X1 + a,X, + a-N,+ h. 1'.1e cxpli- ca 11.773 + (1,048 = 11,821, uU scja , 82,1'%• da vari.incja de X10. rlu_'rl^=-f1,50(1-- PASSO 4 Iih d= d ;\inda falta inU-uduzir A6 as nu,dclo.^V'antes ver Sc a p:j rticipacao do N6 a er a-19 gratis oOs cocticicntes, tcstados na tabela de r para r; - 2 -- 1 de, sao si-nilicativus para r > 0,433, (p = 0.05). A prosiuta variavel :t ser nuts antes tlcvcnx)S testae a a,cticicntc do currrla4:inntity N2i id id explicacao do unit parts des residuo 6 signiticativ;t. Para isso, calcul:unns a cocti- cicntc do corrcla4itu parcial dc N6 cant \10, mantendo oinst:uucs as vari:ivcis j:i ,ntru a str a euz ltarcial do XI para vcriticar sc, corn a incorporacao do X2, clc continua significa- intraduzidas Xl, N2 e NT. 'l'cnuos: tive. '1'cmos: -0,296". err._.', r = - 0,797*** 0 cocticicntc nau c signitwativo, pois para n - 2 - 3 = 17 graus de liberda- Ingo, X2 pods ser introduzida ao ntodelo, tom cocticicntc do deterntinacaa dc -0,6642 = 0,4147, i.e., cxplicando 41,47% du residua anterior, ou scja, 0,388 x de, o B=ite de signihcancia a p = (I.05 c r = 0,456. A variavel X6 nao sera incorporada ao modclo. 0,4147 = 0,161. 0 nova residua c 0,388 - 0,161 = 0,227. 0 nuxlclo XII) = a,N' + a X, + b explica uma fra4 io do 0,612 + 0,161 = PASSO 5 - Calculo dos cocficicntcs do modelo.multilincar (),773, uu scja, 77,3'%o do variancia total do X10. Os cocficicntcs tie rcgressai) a do modclo