Buscar

Filogenética e Biologia Evolutiva

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 10 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 10 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 10 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Filogenética e Biologia Evolutiva
Marcadores moleculares em estudos filogenéticos - uma revisão
Anand Patwardhan1 #, Samit Ray2 e Amit Roy1 # *
O presente trabalho teve como objetivo avaliar os efeitos da aplicação de biocombustíveis na produção de biocombustíveis e na produção de biocombustíveis.
#Equally contribuiu para o manuscrito
Abstrato
O uso de marcadores moleculares nos estudos filogenéticos de vários organismos tornou-se cada vez mais importante nos últimos tempos. Esta revisão fornece uma visão geral dos diferentes marcadores moleculares empregados pelos pesquisadores para fins de estudos filogenéticos. A disponibilidade de técnicas rápidas de sequenciamento de DNA, juntamente com o desenvolvimento de métodos robustos de análise estatística, proporcionaram um novo impulso a esse campo. Nesse contexto, discutem-se a utilidade de diferentes genes codificados nucleares (como 16S rRNA, 5S rRNA, 28S rRNA) mitocondrial (citocromo oxidase, 12S mitocondrial, citocromo b, região de controle) e poucos genes codificados por cloroplasto (como rbcL, matK, rpl16). . Critérios para a escolha de marcadores moleculares adequados e etapas que levam à construção de árvores filogenéticas foram discutidas. Embora amplamente praticado até agora, os sistemas tradicionais de classificação de organismos baseados em morfologia têm algumas limitações. Por outro lado, parece que o uso de marcadores moleculares, embora relativamente recente em popularidade e não esteja totalmente livre de falhas, pode complementar o método tradicional baseado em morfologia para estudos filogenéticos.
Palavras-chave: Filogenia molecular; Árvore filogenética; Marcador molecular; Relógio molecular; Código de barras da vida
 Introdução 
Filogenia é a história de descendência de um grupo de táxons, como espécies de seus ancestrais comuns, incluindo a ordem de ramificação e, às vezes, os tempos de divergência. O termo "Filogenia" é derivado de uma combinação de palavras gregas. Phylon significa "tribo" ou "clã" ou "raça" e gênese significa "origem" ou "fonte". O termo também pode ser aplicado à genealogia de genes derivados de um gene ancestral comum. Na filogenia molecular, as relações entre organismos ou genes são estudadas comparando homólogos de seqüências de DNA ou proteínas. Dissimilaridades entre as seqüências indicam divergência genética como resultado da evolução molecular ao longo do tempo. Em resumo, embora a abordagem filogenética clássica se baseie nas características morfológicas de um organismo, as abordagens moleculares dependem de sequências nucleotídicas de RNA e DNA e sequências de aminoácidos de uma proteína que são determinadas usando técnicas modernas. Ao comparar moléculas homólogas de diferentes organismos, é possível estabelecer seu grau de similaridade, estabelecendo ou revelando uma hierarquia de relacionamento com uma árvore filogenética. Tanto os métodos clássicos baseados em morfologia quanto os métodos baseados em análise molecular são importantes, pois a estrutura biomolecular básica de todos os organismos é semelhante e a morfologia de um organismo é realmente as manifestações de seus perfis de genoma, proteoma e transcriptoma. Uma combinação dos métodos baseados em morfologia e métodos baseados em análise molecular fortalece, assim, o exercício da determinação das relações filogenéticas dos organismos, em grande medida.
O trabalho de determinação da relação filogenética de vários organismos é difícil, pois o mundo vivo exibe uma diversidade inimaginável em relação ao conteúdo de sua espécie. Essa diversidade não se reflete apenas em caracteres fenotípicos, mas também em características ultraestruturais, bioquímicas e moleculares. Organismos fenotipicamente semelhantes podem ter características bioquímicas e moleculares contrastantes. Uma estimativa aproximada do número de espécies descritas é de 1,4 a 1,8 milhão [1,2], dos quais artrópodes (principalmente insetos), moluscos e plantas vasculares representam mais de 80%. Ainda existem milhões de espécies desconhecidas e não classificadas. O campo da taxonomia trata da classificação, nomenclatura e identificação de organismos desconhecidos, ou seja, o processo de determinar se um organismo pertence a uma das unidades definidas anteriormente e se não pertence a nenhuma das unidades taxonômicas estabelecidas, depois categorize-o como um novo táxon. A tarefa de descrever, nomear e classificar o organismo faz parte da sistemática. Algumas terminologias relacionadas à filogenia molecular são apresentadas na Caixa 1.
Como todo organismo é o resultado de um processo evolutivo, é preciso conhecer sua história evolutiva para entendê-la e expressá-la em termos biológicos. Para fins de determinação da história evolutiva, são necessários três tipos de informações. O primeiro é fenotípico, isto é, as informações obtidas a partir de características expressas, incluindo morfologia interna e externa, proteínas e marcadores bioquímicos. O segundo é genotípico, ou seja, o conhecimento obtido a partir da genética material dentro da célula. Por fim, quando as homologias entre DNA e proteínas são comparadas, obtemos informações sobre a filogenia desse organismo e o conhecimento adquirido pode ser representado na forma gráfica de uma árvore filogenética. Deve-se notar, no entanto, que as árvores filogenéticas também foram construídas nos primeiros dias, muito antes do advento de técnicas empregando marcadores moleculares, a partir de estudos sobre morfologia externa de organismos por notáveis ​​biólogos evolutivos.
Cladograma: Árvore filogenética na qual os comprimentos dos ramos não são proporcionais ao número de alterações evolutivas e, portanto, não têm significado filogenético
 Homoplasia: similaridade de sequência observada resultante de convergência ou evolução paralela, mas não evolução direta
 Espaçadores internos transcritos (ITS): os genes de rRNA são transcritos como um único transcrito separado por ITS, que são posteriormente unidos e não servem a nenhum outro propósito
 Monofilético: Os taxa na árvore filogenética que descendem de um único ancestral comum Parafilético: inclui taxa que não são descendentes de um ancestral comum
 Filogenia: estudo das relações evolutivas entre organismos usando diagramas semelhantes a árvores como representações
 Polifilético: inclui grupos que se assemelham a alguns membros fora de seus grupos 
Filograma: uma árvore filogenética na qual os comprimentos dos ramos representam a quantidade de divergência evolutiva
 Grupo externo: táxon ou grupo de táxons em uma árvore filogenética conhecida por divergir antes do restante dos táxons da árvore e usado para determinar a posição da raiz 
Substituição sinônima: Alterações de nucleotídeos em uma sequência de codificação de proteínas que não resultam em alterações na sequência de aminoácidos, para a proteína codificada devido à redundância no código genético.
Um dos desenvolvimentos mais empolgantes da década passada foi a aplicação de técnicas poderosas e ultra rápidas de sequenciamento de ácidos nucleicos aos problemas dos estudos filogenéticos. A rápida disponibilidade de grandes quantidades de dados de sequência exigia o desenvolvimento de ferramentas robustas de análise matemática e estatística para explicar o processo de evolução e essa necessidade aguda, em última análise, deu origem à ciência da sistemática molecular. Embora a filogenia molecular, de uma maneira realmente ampla, possa ser um domínio da biologia, a sistemática molecular pode ser vista como mais uma ciência estatística em que poderosos experimentos de simulação baseados em computação são usados ​​para inferir árvores filogenéticas a partir desses dados biológicos obtidos de um estudo de marcadores moleculares. A idéia desta revisão é focar principalmente nos marcadores moleculares atualmente em uso hoje e é dividida em três seções; 1) a primeira seção lida com a história e informações gerais sobre filogenia molecular, seguida por 2) uma seção sobre marcadores moleculares típicos (por exemplo, 16S e 18S rRNA, matKetc.) usados ​​para esses tipos de estudos e 3) uma seção muito breve sobre evolução métodos de construção de árvores sem os quais a revisão permanecerá incompleta. Um fluxograma geral de várias etapas envolvidas no estudo da filogenia molecular usando marcadores moleculares é mostrado na Figura 1.
Selection of organisms or a gene family
Choosing appropriate molecular markers
Amplification, sequencing, assembly
Alignment
Evolutionary model
Phylogenetic analysis
Tree construction
Evaluation of phylogenetic tree
Figure 1: 
General steps in studying molecular phylogeny.
Informações gerais sobre filogenia molecular
Métodos clássicos e modernos de estudos filogenéticos
Há muito tempo, Aristóteles (384-322 a.C.) fez extensos estudos morfológicos e embriológicos para classificar os organismos marinhos. Depois disso, no século XVIII, Linnaeus desenvolveu um sistema binomial de nomenclatura. Ele não apenas deu à luz o campo da taxonomia, mas foi o primeiro a desenhar uma árvore filogenética. Mais tarde, Charles Darwin acrescentou a ocorrência de dois processos importantes na filogenia, principalmente a ramificação e subsequente divergência. Os primeiros defensores da filogenia molecular alegaram que os dados moleculares eram mais propensos a refletir a verdadeira filogenia do que os dados morfológicos, principalmente porque refletiam alterações no nível dos genes, que se pensava serem menos sujeitos à convergência e ao paralelismo do que às características morfológicas. Essa teoria inicial agora parece imprecisa e os dados moleculares estão de fato sujeitos a dezenas dos mesmos problemas que os dados morfológicos. Além disso, no caso de organismos unicelulares, como morfologia de bactérias, fisiologia e muitas outras propriedades, não são informativos o suficiente para serem utilizados como marcadores filogenéticos. Assim, a classificação bacteriana permaneceu determinante, apesar dos esforços dos microbiologistas para descobrir uma classificação bacteriana natural. Além disso, existem muitas bactérias que não podem ser cultivadas em laboratório e sua identificação depende apenas de dados moleculares. A adoção recente de abordagens polifásicas (discutidas em breve mais adiante) parece ter resolvido essas dificuldades.
Nos últimos anos, a filogenia molecular entrou em uma área em rápida expansão, com grandes melhorias nas técnicas e análises de sequenciamento de ácidos nucleicos e proteínas. Pesquisas iniciais usando o rRNA envolveram o seqüenciamento mediado por transcriptase reversa direta da porção das subunidades pequenas e grandes do ribossomo [3,4]. Como o rRNA é a maior parte dos RNAs celulares totais, foi relativamente fácil obter RNA suficiente para o seqüenciamento. Deve-se notar, no entanto, que as seqüências geradas a partir do seqüenciamento direto do rRNA pela transcriptase reversa são muito mais propensas a erros do que as seqüências de DNA geradas diretamente a partir dos genes nucleares que codificam o DNA ribossômico (rDNA) [5]. Em geral, os métodos que utilizam isolamento de DNA, PCR, sequenciamento automatizado e, em seguida, comparando essas sequências de DNA ou proteína são mais preferidos atualmente. Em resumo, os estudos filogenéticos moleculares foram e continuam sendo orientados pela técnica e, como corolário, dominam os estudos taxonômicos modernos. Relógio molecular e filogenética
Zuckerkandl e Pauling [6] foram os primeiros a estudar seqüências de aminoácidos da hemoglobina entre diferentes espécies e seus resultados foram notáveis. Eles descobriram que as moléculas de hemoglobina de cavalo e humano diferiam em apenas 18 aminoácidos; as hemoglobinas de camundongo e humano diferiram em 16 aminoácidos, enquanto as hemoglobinas de camundongo e cavalo diferiram apenas em 22 resíduos; mas entre humanos e tubarões houve diferenças em 79 aminoácidos nessa molécula. Essas observações importantes pareciam sugerir que há uma taxa constante de substituição de aminoácidos ao longo do tempo. Para explicar esses resultados Zuckerkandl 
e Pauling [6] propuseram a chamada hipótese do relógio molecular. O conceito é baseado em uma taxa constante de mudança nas seqüências de DNA ao longo do tempo e fornece uma base para datar o tempo de divergência de linhagens. Isso sugere que essas diferenças de aminoácidos se correlacionam com a escala de tempo evolutiva. Como explicado acima, as diferenças de aminoácidos entre mamíferos são menos comparadas às diferenças entre mamíferos e tubarão. Assim, uma biomolécula estava agindo como um relógio molecular. Além disso, eles estão distanciados um do outro na escala de tempo evolutiva, maiores seriam as diferenças em suas seqüências moleculares e vice-versa. Da mesma forma, a hipótese do relógio molecular foi usada para propor que humanos e macacos divergissem aproximadamente 5 milhões de anos atrás [7]. Embora informativa, a hipótese foi questionada muitas vezes porque as biomoléculas estão sujeitas a alterações em taxas diferentes.
A filogenia concluída a partir de um único gene marcador ou sequência de proteínas reflete apenas a evolução desse gene em particular. Mas o uso de um único marcador pode levar a problemas de interpretação, porque outros genes no organismo podem mostrar taxas diferentes de evolução ou até mostrar história evolutiva diferente se a transferência horizontal de genes tiver ocorrido. A transferência vertical de genes é a passagem normal dos genes do pai para a prole. A transferência horizontal ou lateral de genes ocorre quando os genes são transferidos entre organismos não relacionados, um fenômeno comum em bactérias, p. adquiriu resistência a antibióticos levando a espécies bacterianas multirresistentes. Também houve casos bem conhecidos de transferências horizontais de genes entre eucariotos. A transferência horizontal de genes complicou a determinação de filogenias de organismos. Inconsistências na filogenia foram relatadas entre grupos específicos de organismos, dependendo dos genes marcadores usados ​​para construir árvores evolutivas. A única maneira de determinar quais genes foram adquiridos verticalmente e qual horizontalmente é assumir que o maior conjunto de genes que foram herdados juntos foi herdado verticalmente. Isso requer a análise de um grande número de genes, em vez de estudar um único gene marcador. Portanto, somente quando se considera a evolução de múltiplos genes em um genoma, é possível obter conclusões mais convincentes sobre o status evolutivo de um organismo.
Marcadores moleculares são favorecidos sobre dados morfológicos
O fato subjacente útil para a sistemática molecular é que genes diferentes acumulam mutações em taxas diferentes. Essa diferença depende de quanta mudança um gene pode tolerar sem perder sua função. Por exemplo, as moléculas de histona podem se tornar não funcionais se alguns de seus aminoácidos forem substituídos por diferentes. Por outro lado, os espaçadores internos transcritos (ITS) do RNA ribossômico ainda podem dobrar adequadamente se muitos de seus nucleotídeos forem alterados. Assim, o ITS pode acumular mutações mais rapidamente que as histonas, refletindo as diferentes restrições funcionais em seu produto genético. As vantagens do uso de dados moleculares são óbvias - os dados moleculares são mais numerosos que os registros fósseis e mais fáceis de obter. Não há viés de amostragem envolvido, o que ajuda a corrigir as lacunas nos registros fósseis reais. Uma árvore filogenética mais clara e robusta pode ser construída com os dados moleculares. Por outro lado, os parâmetros para dados morfológicos em muitas ocasiões são limitados em número e tornam-se insuficientes para distinguir dois organismos nos filos, classe, ordem e níveis familiares. Quando a variação nos dados morfológicos se torna insuficiente para distinguir dois organismos - nos níveis de classe, ordem, família, etc., a análise das biomoléculas é considerada, que é grande em número e ocorre de várias formas nos organismos. Portanto, os marcadores biomoleculares se tornaram os favoritos e, às vezes, a única informaçãodisponível para os pesquisadores reconstruírem a história evolutiva. A grande diferença é que existem simplesmente muito mais caracteres moleculares disponíveis e 
sua interpretação é geralmente mais fácil. Outra vantagem dos dados moleculares é que todas as formas de vida conhecidas são baseadas em ácidos nucléicos e, cada posição nucleotídica, em teoria, pode ser considerada como um personagem e assumida como independente. As adaptações morfológicas de um organismo, em qualquer caso, são espelhadas em suas biomoléculas e vice-versa.
Potencial de um gene na resolução de relações filogenéticas 
A reconstrução baseada em biomoléculas da história filogenética antiga requer primeiro a descoberta e a análise de sequências nucleotídicas ou de aminoácidos em evolução lenta. Nem todos os genes ou macromoléculas são marcadores filogenéticos adequados e nem todas as moléculas marcadoras são úteis para a análise de um determinado grupo de organismos. O método de triagem de seqüências moleculares para a capacidade de resolver relacionamentos dentro de um grupo específico inclui estudos que avaliam a capacidade de um gene de recuperar relações filogenéticas bem estabelecidas em clades de idade semelhante e a construção de curvas de diferença por pares baseadas em fósseis, que estimar a taxa de alterações de caráter potencialmente informativas durante o intervalo geológico quando um clado sofreu divergência filogenética [8,9]. Por exemplo, para estabelecer a utilidade dos genes mitocondriais COI e COII (citocromo oxidase I e II) para fins de estudos de filogenia, Caterino e Sperling usaram esses genes para estudar a filogenia de Papilio sp. e depois examinaram as colocações filogenéticas de várias linhagens que se mostraram difíceis em estudos anteriores [10]. Esses genes servem como fósseis moleculares e, por meio da análise comparativa dos fósseis moleculares de vários organismos relacionados, a história evolutiva dos genes e até mesmo os organismos pode ser revelada.
Propriedades dos genes marcadores ideais 
As propriedades que devem ser possuídas por um marcador ideal são as seguintes [11]: (a) um gene de cópia única pode ser mais útil que o gene de cópia múltipla; essa condição é satisfeita pelos genes mitocondrial e nuclear; (b) Como as seqüências dos genes marcadores são alinhadas antes da análise filogenética, seu alinhamento deve ser fácil. O comprimento do mesmo gene pode variar entre diferentes membros dos táxons devido a inserções ou deleções, pelo que o alinhamento de suas seqüências pode ser difícil. No entanto, regiões com alinhamentos ambíguos podem ser evitadas especificamente ou informações secundárias sobre a estrutura podem ser aplicadas [12]; (c) A taxa de substituição deve ser ótima para fornecer sites informativos suficientes. Um gene que evolui muito rápido pode atingir um estado de saturação devido a múltiplas substituições. Esse problema pode ser aprimorado pelo viés da composição de base, pois isso torna mais provável que a segunda mutação em um local específico seja uma reversão para o estado original. Para os genes codificadores de proteínas, pode ser que a taxa de substituição sinônima seja muito alta, mesmo que tenham ocorrido poucas substituições; (d). Devem estar disponíveis iniciadores para amplificar seletivamente o gene marcador. No entanto, o primer não deve ser muito universal, pois, nesse caso, levaria à amplificação de genes inespecíficos presentes como contaminantes ou contribuídos por simbiontes [13]; (e) não é preferível uma variação muito grande entre os táxons, que pode não refletir a verdadeira ancestralidade [14]. A inovação no estudo da filogenia dos procariontes foi alcançada por Carl Woese e colaboradores nos anos setenta [15,16]. Eles introduziram métodos rápidos de análise comparativa da sequência 16S rRNA e reconstrução de árvores filogenéticas. Os resultados desses esforços forneceram, pela primeira vez, informações sobre a filogenia dos procariontes e também estabeleceram os três domínios da vida, popularmente conhecidos como - “A Árvore Universal da Vida” - Archaea (anteriormente archaebacteria), Bactérias (anteriormente eubacteria) e Eukarya (eucariotos) [16,17]. Até agora, esses estudos moleculares de divergência se basearam em dados de seqüência de DNA ou aminoácidos para genes altamente conservados, particularmente os genes ribossômicos estruturais 18S / 16S / 5S / 28S, o fator de alongamento-1a do gene codificador de proteína nuclear (1a-EF) e o gene mitocondrial de evolução lenta citocromo c oxidase I (COI), histona H3, U2 snRNA e muitos outros genes amplamente distribuídos. Alguns dos marcadores muito populares amplamente utilizados em estudos filogenéticos são descritos abaixo com alguns detalhes.
Marcadores moleculares 
Genes ribossômicos nucleares 
O RNA ribossômico é considerado o melhor alvo para o estudo da relação filogenética, pois é universal e é composto por domínios altamente conservados e variáveis ​​[16,18]. Os ribossomos consistem em rRNA e proteínas. Em todos os organismos, o ribossomo consiste em duas subunidades, a pequena subunidade ribossômica (SSU) contém uma única espécie de RNA (o 18S rRNA nos eucariotos e o 16S rRNA em outras). Em Bactérias e Archaea, a subunidade grande (LSU) contém duas espécies de rRNA (os rRNAs 5S e 23S); na maioria dos eucariotos, a subunidade grande contém três espécies de RNA (os rRNAs 5S, 5.8S e 25S / 28S). As estruturas principais dos rRNAs da SSU e da LSU contêm 10 e 18 dessas regiões variáveis, respectivamente. Além disso, os genes de rRNA estão evoluindo mais lentamente que os genes que codificam proteínas e são particularmente importantes para a análise filogenética de espécies relacionadas à distância [19]. Em particular, modelos de estrutura secundária de moléculas de RNA foram baseados quase exclusivamente em análises comparativas de sequências [20].
16S rRNA: Foi na década de 1960 que Dubnau et al. observaram a conservação na sequência do gene 16S rRNA entre as espécies de Bacillus [21]. Porém, foi somente após o trabalho clássico de Woese que essas seqüências genéticas foram usadas para taxonomia bacteriana [16]. O gene 16S rRNA é conservado, o que não significa que ele evolua na mesma taxa em todos os organismos. Essa propriedade importante ajuda os pesquisadores a distinguir entre diferentes grupos bacterianos [16,20,22]. O gene 16S rRNA tem cerca de 1550 pb de comprimento e contém regiões variáveis ​​e conservadas com sequências características de assinatura de oligonucleotídeos (exclusivas para um grupo filogenético específico). Utilizando iniciadores das regiões conservadas, a região variável intermediária pode ser amplificada. Isso é suficiente para diferenciar organismos usando medidas estatisticamente válidas [23,24]. Como o gene 16S está presente em todas as bactérias, é possível medir as relações entre todas as espécies bacterianas. Comparar sequências 16S de bactérias desconhecidas com a sequência já depositada ajudará a marcar essas bactérias em um grupo específico [22]. O estudo do rRNA 16S e 23S é a espinha dorsal da taxonomia bacteriana, especialmente para a identificação de bactérias não cultiváveis.
RRNA 5S: O RNA ribossômico 5S, um RNA com aproximadamente 120 nucleotídeos, é encontrado em praticamente todos os ribossomos, com exceção das mitocôndrias de alguns fungos, animais superiores e a maioria dos protistas [25]. A sequência nucleotídica do rRNA 5S é altamente conservada ao longo da natureza e a análise filogenética sozinha forneceu um modelo inicial para sua estrutura secundária [15,18]. A estrutura primária dessas moléculas de rRNA é suficientemente restrita que, no geral, elas não mudaram rapidamente com o tempo [18]. Alguns dos primeiros dados de sequência molecular disponíveis para algas verdes vieram do RNA ribossômico 5S nuclear. Troitskii et al. [26] derivaram sequências nucleotídicas completas ou parciais de cinco rRNAs diferentes de várias plantas de sementes e discutiram as origens de angiospermas e estágios iniciais da evolução das plantas terrestrescom base em dendrogramas filogenéticos usando os métodos de compatibilidade [27] e parcimônia do pacote PHYLIP [28]. ] No entanto, a confiabilidade das hipóteses baseadas nessa molécula foi questionada porque a molécula de 5R rRNA tem apenas 120 bases de comprimento com poucos locais informativos que podem ser usados ​​na análise de parentes próximos. É uma molécula em rápida evolução, de modo que, nas posições que variam, há tantas substituições que o número de locais potencialmente informativos é muito pequeno para permitir análises confiáveis ​​para o estudo de divergências antigas. De fato, há relatos de que os dados da sequência do 5S rRNA não têm poder de resolução suficiente para contribuir significativamente para o nosso entendimento das relações filogenéticas em qualquer nível taxonômico [29].
28S rRNA: As análises filogenéticas baseadas em sequências moleculares devem ser provenientes de genes que codificam moléculas maiores que o rRNA 5S de 120 bp [29]. O gene 28S rRNA tem cerca de 811 pb de comprimento. As seqüências do gene rRNA 28S para muitos grupos principais de metazoários tornaram-se disponíveis nos últimos anos. Além disso, os esforços para alinhar sequências de acordo com o modelo de estrutura secundária para o rRNA 28S desses organismos tornaram-se comuns para fins de análises filogenéticas. Por exemplo, Encarsia, que é um grande gênero de pequenas vespas parasitas, apenas alguns grupos de espécies são definidos sem ambiguidade apenas com base em caracteres morfológicos. As relações filogenéticas dentro desse gênero ainda não foram resolvidas; apenas recentemente foram feitas tentativas de usar dados moleculares para sustentar a taxonomia baseada em caracteres morfológicos e resolver relações filogenéticas. Todos os estudos moleculares realizados até agora utilizaram a região de expansão D2 do RNA ribossômico 28S; comparativamente, existem poucas informações sobre a adequação de outras regiões gênicas para inferir relações filogenéticas ou para definir limites de espécies nesse grupo [30,31].
Genes mitocondriais (mtDNA)
Os dados do DNA mitocondrial podem ser muito poderosos na resolução de filogenias em nível de espécie. A ordem dos genes na mitocôndria é variável e eles são separados por grandes regiões do DNA não codificante. O genoma mitocondrial se rearranja frequentemente, de modo que muitas formas rearranjadas podem ocorrer na mesma célula. O uso do mtDNA tornou-se cada vez mais popular em estudos filogenéticos e genéticos populacionais devido a i) desenvolvimentos na metodologia de isolamento do mtDNA, ii) uso de enzimas de restrição para detectar diferenças de nucleotídeos, iii) desenvolvimentos de metodologias de PCR e iv) aplicabilidade de primers universais para amplificação de DNA [32].
Citocromo oxidase I / II 
(COI / II): A enzima citocromo c oxidase é uma proteína muito conhecida da cadeia de transporte de elétrons e é encontrada em bactérias e mitocôndrias. Os genes COI e COII codificam duas das sete subunidades polipeptídicas no complexo do citocromo c oxidase. O gene COI consiste em aproximadamente 894 pb. Sequências COI e / ou COII foram aplicadas a problemas filogenéticos em uma ampla gama de níveis hierárquicos em insetos, desde espécies intimamente relacionadas a gêneros e subfamílias, famílias e até ordens. O gene COI está evoluindo lentamente em comparação com outros genes mitocondriais codificadores de proteínas e é amplamente utilizado para estimar filogenias moleculares [33] e é um bom executor na recuperação de uma árvore esperada [34]. Portanto, o sequenciamento de ambos os genes representa um dos maiores conjuntos de dados de sequência gerados para o estudo filogenético de qualquer grupo e também cumpre a suposta precisão filogenética. A combinação de COI e 12S rRNA é apropriada para distinguir a taxa de interesse em diferentes níveis taxonômicos. O COI e o COII foram usados ​​para análises de espécies e populações de parasitóides e o COI foi recentemente sugerido como um potencial 'código de barras' para identificação de insetos em geral. Zhang e Sota relatara que a sequência COI dos dados mitocondriais apresentou divergência sequencial mais alta do que quatro outros genes nucleares, nos besouros [35].
12S mitocondrial: A análise da sequência do gene 12R mitocondrial é amplamente utilizada em taxonomia molecular e filogenia. Anteriormente, a sequência do gene 12S rRNA mitocondrial foi usada para determinação de espécies em biologia forense de vida selvagem. Foi postulado anteriormente que as seqüências do gene 12S são úteis para a determinação de tempos de divergência moderados a longos. O comprimento deste gene é de cerca de 450 pb e pode ser amplificado por iniciadores universais. A sequência de 355 pb desse gene foi usada para identificação, relações filogenéticas e cálculo do tempo de divergência dos leopardos indianos [36]. Chaolun et al. usaram o gene 12S para inferir a história evolutiva de 28 espécies de certos grupos de corais [37]. Eles descobriram que as análises filogenéticas usando os dados do gene 12S rRNA mitocondrial não apoiaram a visão atual da filogenia para este grupo de corais com base na morfologia esquelética e registros fósseis. Allard e Honeycutt relataram que o gene 12S rRNA não está evoluindo a uma taxa mais alta em certas linhagens de roedores [38].
Citocromo-b: o gene do citocromo-b (~ 1.143 bp) é relatado como o marcador mais útil na recuperação de relações filogenéticas entre taxa intimamente relacionados, mas pode perder a resolução em nós mais profundos. Embora o gene do citocromo-b tenha se mostrado útil na recuperação de informações filogeneticamente úteis em vários níveis taxonômicos, a força de sua utilidade pode depender da linhagem e diminuir com a profundidade evolutiva. Bradley et al. [39] concluíram que, embora os dados do citocromo-b contenham sinal filogenético considerável, a definição do conteúdo e a resolução da filogenia do gênero Peromyscus (camundongos) precisam de outras informações adicionais [39]. Os padrões de especiação e evolução de características em Tragopan, um gênero de cinco espécies de aves Indo-Himalaias, foram examinados usando sequências do gene do citocromo b mitocondrial (CYB) e sua região de controle (CR) [40]. 
Região de controle para replicação do DNA mitocondrial: A única área principal não codificante do mtDNA é a região de controle, tipicamente 1 kb, envolvida na regulação e início da replicação e transcrição do mtDNA e é responsável pela regulação de pesados ​​(H) e transcrição da fita leve (L) e replicação da fita H. A taxa de mutação aproximada no mtDNA é de 10-8 / local / ano em comparação com 10-9 / local / ano em genes nucleares. A maioria das diferenças entre as seqüências do mtDNA são mutações pontuais, com um forte viés para transições nas transversões [32]. Rogaev et al. relataram a presença de número variável de repetições em tandem (VNTR) na região de controle, que são caracterizadas por alta hipervariabilidade somática em alguns mamutes [41]. A evolução da região controle do mtDNA de mamíferos mostra algumas características como forte heterogeneidade de taxa entre locais, presença de elementos repetidos em tandem, alta frequência de inserção / exclusão de nucleotídeos e especificidade de linhagem [42].
Genes de cloroplastos
Muitos estudos filogenéticos de plantas são baseados no DNA do cloroplasto (cpDNA). Nas plantas, o cpDNA é menor quando comparado às mitocôndrias e genoma nuclear. Supõe-se que seja conservado em sua evolução em termos de substituição de nucleotídeos com muito poucos rearranjos, o que permite que a molécula seja usada na resolução de relações filogenéticas, especialmente em níveis profundos de evolução [43]. No entanto, a seleção de um gene de comprimento suficiente e taxa de substituição apropriada é uma etapa crucial. Os genes cpDNA usados ​​atualmente incluem rbcL, ndhF, rpl16, matK, atpB e muitos mais (alguns deles são descritos abaixo).
rbcL: A ribulose 1, 5-bifosfato carboxilase / oxigenase (rubisco) é a primeira enzima do cicloC3 nas plantas. É a proteína mais abundante e mais importante do planeta e central para o ciclo global do carbono [44]. O gene rbcL está localizado no genoma cp como um gene de cópia única e possui uma enorme utilidade filogenética. O gene rbcL tem ~ 1428 pb de comprimento e é universal para todas as plantas (exceto em alguns parasitas). É muito conveniente estudar, fácil de alinhar e sua estrutura secundária é conhecida e está presente em muitas cópias com menos inserções e exclusões. O gene rbcL codifica a subunidade grande de rubisco, enquanto a subunidade pequena é codificada pelo gene rbcS no núcleo. O gene rbcL foi um dos primeiros genes de plantas a serem sequenciados [45] e ainda está entre os segmentos seqüenciados com mais freqüência de DNA de plantas. Este gene tem sido amplamente utilizado em estudos sistemáticos de plantas terrestres, em particular as angiospermas [44]. Cerca de 500 sequências de rbcL foram usadas para tratar das relações filogenéticas dentro das angiospermas e, secundariamente, entre as plantas de sementes existentes [44]. Embora exista variação de comprimento entre plantas e genes de algas, seu alinhamento é fácil. No entanto, muitos pesquisadores preferem o 18S rDNA para amostragem do que a sequência rbcL, devido à taxa de evolução mais rápida na última molécula. Embora o rbcL seja conservado e facilmente alinhado por táxons divergentes, essa molécula exibe uma taxa de substituição mais alta que o rADN 18S. Mc Court et al. Concluímos provisoriamente que, embora as seqüências de rbcL possam ser inadequadas em estudos filogenéticos de eventos antigos de ramificação (a menos e até que seja possível uma amostragem mais completa dos táxons), o uso desse gene dentro de grupos de algas verdes parece ser apropriado [46]. Por exemplo, rbcL não contém informações suficientes para resolver relacionamentos entre gêneros intimamente relacionados, por exemplo Hordeum, Triticum e Aegilops. Nesses casos, também são analisadas as regiões não codificantes do DNA do cloroplasto, que devem evoluir mais rapidamente do que as regiões codificantes. Palmer et al. mostraram que o gene 16S rRNA como o mais conservado dos genes de cloroplasto seguido de 23S rRNA [47]. Portanto, eles são mais úteis filogeneticamente nos níveis hierárquicos mais altos que o gene rbcL, que codifica uma proteína.
matK: O gene matK (maturase) é de aproximadamente 1500 pares de bases (bp), localizado no íntron do gene do cloroplasto trnK (tRNA da lisina) e codifica uma maturase envolvida nos introns do tipo II de splicing a partir dos transcritos de RNA [48,49]. Estudos recentes demonstraram a utilidade desse gene na resolução de relações intergenéricas ou interespecíficas entre plantas com flores. Sabe-se que o gene matK possui taxas de substituição relativamente altas em comparação com outros genes usados ​​na sistemática de gramíneas, possui altas proporções de mutações transversais e a seção 3 de sua região codificadora tem se mostrado bastante útil para a construção de filogenias no nível subfamiliar no Poaceae [47]. Sequências de regiões não codificantes do genoma do cloroplasto são frequentemente usadas na sistemática porque essas regiões tendem a evoluir relativamente rapidamente.
ndhF: Esse gene codifica a subunidade F da NADP desidrogenase e tem cerca de 1100 pb de comprimento e está presente na pequena região de cópia única. Givnish et al. usou variação da sequência de ndhF para reconstruir relações entre 282 táxons representando 78 famílias de monocotiledôneas [49]. Além disso, eles mostraram que os relacionamentos dentro das ordens são consistentes com os baseados em rbcL, isoladamente ou em combinação com o atpB e o 18S rDNA, e geralmente com melhor suporte e o ndhF contribui com mais que o dobro de caracteres informativos que o rbcL e quase o mesmo que rbcL, atpB e 18S rDNA combinados. Kim e Jansen fizeram uma comparação extensiva de seqüências do gene cloroplasto ndhF de todos os principais clados da maior família de plantas com flores (Asteraceae) e mostraram que esse gene fornece ~ 3 vezes mais informações filogenéticas do que rbcL [50]. Isso ocorre porque é substancialmente mais longo e evolui duas vezes mais rápido. Os 5 ' A região (1380 pb) de ndhF é muito diferente da região 3 '(855 pb) e é semelhante ao rbcL na taxa e no padrão de mudança de sequência.
rpl16: Zhang usou sequências de intrão rpl16 não codificadoras de cloroplasto (1059 pb) para reconstruir a filogenia da família das gramíneas [51]. Ele relatou que os dados da sequência do intron rpl16 confirmaram três tribos tradicionais de bambu herbáceo, Streptochaeteae, Anomochloeae e Phareae, como as linhagens mais basais nas gramíneas existentes. Zhang também mostrou que as comparações da divergência nucleotídica e a distância genética entre o intron rpl16 não codificante do cloroplasto e o gene ndhF entre os principais grupos da família das gramíneas mostraram que as seqüências do intron rpl16 apresentaram menor razão de transição / transversão, mas maior divergência nucleotídica e distância genética [51]. Estudos anteriores indicaram que as seqüências não codificantes tinham um padrão de evolução muito mais complicado e eventos de inserção e exclusão mais frequentes do que nas regiões codificantes [44]. As sequências de intrão rpl16 mostram resultados semelhantes em muitos relatórios. A comparação entre o gene ndhF e as seqüências de intron rpl16 realizadas por Zhang indicou que a divergência de sequência no intron rpl16 era 1,40 vezes maior que no gene ndhF [51]. Alguns outros genes marcadores adicionais são mencionados na Tabela 1.
Métodos de construção de árvores filogenéticas
O resultado de uma análise filogenética molecular pode ser representado em um diagrama na forma de uma árvore filogenética. A filogenia é um fenômeno abstrato e não pode ser observado diretamente. É algo que aconteceu no passado e deve ser reconstruído usando as evidências disponíveis. Ao estudar uma árvore filogenética, é possível obter uma idéia geral rápida sobre as espécies especificadas e sua relação com outras espécies filogeneticamente próximas a ela. Como é possível um grande número de árvores em potencial, é muito difícil descobrir uma árvore que reflita perfeitamente a história evolutiva. Uma árvore também pode ser enraizada ou não enraizada. Existe uma relação exponencial entre o número possível de árvores para 'n' taxa, dado por, para árvore enraizada N = (2n-3)! 2n-2 (n-s)! e para árvore não enraizada, 
N = (2n-5)! / 2n-3 (n-3) !. 
Referência da descrição do gene 
· EF-1α
 Fator de alongamento-1α,
· Papel na síntese de proteínas. [52] 
· Gene rpoA que codifica a subunidade alfa da RNA polimerase [53] 
· atpB codifica a subunidade beta da ATP sintase [54] 
· dnaA envolvido na iniciação da síntese de DNA [55] 
· Função ftsZ na divisão celular [56] 
· Códigos gapA para gliceraldeído fosfato desidrogenase [57] 
· groEL codifica a proteína de choque térmico bacteriano. [58]
· gltA codificando citrato sintase [59]
· ITS Pedaço de RNA não funcional situado entre estrutural [60]
· Transcrito precursor de RNAs ribossômicos. O gene lux codifica proteínas envolvidas na luminescência [61] 
· Códigos PEPCK para fosfoenolpiruvato carboxiquinase [62] 
· Códigos pyrH para códigos de monofosfato de uridina (UMP) quinases [63] 
· Papel recA na recombinação [64] 
· U2 snRNA Componente do spliceossoma [65] 
· Gene Wsp codifica uma proteína principal do revestimento da superfície celular [66]
Assim, mesmo para dez táxons em estudo, existem milhões de possíveis topologias de árvores disponíveis. Portanto, existem vários métodos para selecionar uma árvore ideal. As árvores podem ser desenhadas de diferentes maneiras, como cladograma ou filograma. Como representado na Figura 1, uma construção filogenética de árvore passa por essencialmente cinco etapas: a) Seleção de marcadores moleculares; b) Realizando vários alinhamentos de sequência; c) Escolha de um modelo evolutivo; d) Determinando um método de construção de árvores e, finalmente, e) Avaliando a confiabilidadedas árvores [52-70].
Seleção de marcadores moleculares
Os dados moleculares podem ser obtidos a partir de dados de sequência de nucleotídeos ou proteínas. Isso geralmente depende da proximidade dos organismos em estudo. A sequência nucleotídica é preferida ao estudar organismos intimamente relacionados; genes em evolução lenta são usados ​​para grupos amplamente divergentes, enquanto o DNA mitocondrial não codificante é uma opção ao estudar indivíduos de uma população. As sequências de proteínas são mais conservadas devido à degeneração do códon, enquanto a terceira posição de um códon na sequência de nucleotídeos pode mostrar variação. Alguns dos marcadores moleculares amplamente utilizados, preferidos pelos pesquisadores envolvidos em pesquisas filogenéticas moleculares, já foram descritos na seção 2.
Assim, mesmo para dez táxons em estudo, existem milhões de possíveis topologias de árvores disponíveis. Portanto, existem vários métodos para selecionar uma árvore ideal. As árvores podem ser desenhadas de diferentes maneiras, como cladograma ou filograma. Como representado na Figura 1, uma construção filogenética de árvore passa por essencialmente cinco etapas: a) Seleção de marcadores moleculares; b) Realizando vários alinhamentos de sequência; c) Escolha de um modelo evolutivo; d) Determinando um método de construção de árvores e, finalmente, e) Avaliando a confiabilidade das árvores [52-70].
Seleção de marcadores moleculares
Os dados moleculares podem ser obtidos a partir de dados de sequência de nucleotídeos ou proteínas. Isso geralmente depende da proximidade dos organismos em estudo. A sequência nucleotídica é preferida ao estudar organismos intimamente relacionados; genes em evolução lenta são usados ​​para grupos amplamente divergentes, enquanto o DNA mitocondrial não codificante é uma opção ao estudar indivíduos de uma população. As sequências de proteínas são mais conservadas devido à degeneração do códon, enquanto a terceira posição de um códon na sequência de nucleotídeos pode mostrar variação. Alguns dos marcadores moleculares amplamente utilizados, preferidos pelos pesquisadores envolvidos em pesquisas filogenéticas moleculares, já foram descritos na seção 2.
Alinhamento de várias seqüências
Uma vez determinados os marcadores a serem estudados, a sequência de DNA dos genes marcadores selecionados do organismo alvo precisa ser determinada experimentalmente. Para isso, o DNA total é isolado do tecido apropriado do organismo. Na maioria dos casos, o DNA celular total pode ser isolado usando muitos dos protocolos de isolamento de DNA bem estabelecidos. Os marcadores escolhidos são então amplificados usando o DNA isolado como molde e oligonucleotídeos específicos para marcadores como iniciadores pelo método de PCR. Para muitos dos marcadores discutidos neste artigo, iniciadores universais bem conhecidos já estão descritos na literatura. Como alternativa, o primer pode ser projetado dependendo da necessidade específica do projeto. Os produtos de PCR amplificados são então sequenciados. À medida que a sequência de DNA dos genes marcadores é obtida, total ou parcialmente, o próximo passo é alinhar a sequência com a sequência de DNA dos mesmos marcadores de espécies intimamente conhecidas. O alinhamento múltiplo é possivelmente o passo mais crítico no procedimento, pois estabelece correspondência posicional na evolução [70]. Somente um alinhamento de sequência bem-sucedido produz uma árvore relacionada à genealogia. Vários alinhamentos podem ser feitos usando vários programas de alinhamento muito conhecidos, como ClustalW, T-coffee, Multialin etc., para mencionar alguns. Informações de estrutura secundária também podem ajudar no alinhamento. O Praline é um desses programas que extrai as informações da estrutura secundária para fins de alinhamento. Alguns programas (Rascal, NorMD e Gblocks) podem melhorar o alinhamento, corrigindo os erros ou removendo posições mal alinhadas.
Escolhendo um modelo evolutivo 
O próximo passo é selecionar um modelo de substituição adequado que forneça ao pesquisador idéias do processo evolutivo, levando em consideração vários eventos de substituição. No entanto, o número observado de substituições pode não representar o verdadeiro processo evolutivo que realmente ocorreu no local de interesse. Quando uma mutação é detectada como G substituído por T, os nucleotídeos podem realmente ter passado por várias etapas de transição para se tornar T na sequência G → A → C → T. Da mesma forma, uma mutação reversa também poderia ocorrer quando um nucleotídeo mutado voltava ao nucleotídeo original tal que A → T → A. Além disso, um nucleotídeo idêntico observado no alinhamento pode ser devido a mutações paralelas; tais múltiplas substituições e convergências em posições individuais obscurecem a estimativa das verdadeiras distâncias evolutivas entre as seqüências. Esse efeito é conhecido como homoplasia, que precisa ser corrigida para a geração de uma verdadeira árvore evolutiva. Para corrigir a homoplasia, são necessários modelos estatísticos conhecidos como modelos de substituição ou modelos evolutivos para inferir as verdadeiras distâncias evolutivas entre as seqüências. A seguir estão os dois importantes modelos de substituição [70].
Modelo Jukes-Cantor: 
O modelo Jukes-Cantor assume que as purinas e as pirimidinas são substituídas com igual probabilidade. Este modelo pode apenas analisar sequências razoavelmente estreitamente relacionadas.
 Modelo de Kimura: 
Em contraste, o modelo de dois parâmetros de Kimura [71] pressupõe que mutações de transição devam ocorrer com mais freqüência que a transversão. Este é um modelo que leva em consideração as taxas de mutação diferencial de transições e transversões e é mais realista. Para sequências de proteínas, as distâncias evolutivas de um alinhamento podem ser corrigidas usando uma matriz de subestação de aminoácidos PAM ou JTT. Alternativamente, equivalentes de proteínas do modelo Jukes-Cantor e Kimura podem ser usados ​​para corrigir distâncias evolutivas. 
Método de construção de árvores:
 O próximo passo é a construção de árvores evolucionárias. Existem vários métodos disponíveis [71] e geralmente é recomendado realizar experimentos exaustivos usando um ou mais   modelo. No entanto, pode ser uma tarefa demorada quando o número de táxons aumenta drasticamente. A Figura 2 mostra o resumo dos diferentes métodos que são usados ​​rotineiramente. Aqui iremos discuti-los em breve, pois a explicação detalhada de cada método está fora do escopo desta revisão. 
Métodos baseados em caracteres: 
Esses métodos levam em consideração os eventos mutacionais acumulados nas seqüências e, assim, evitam a perda de informações. Facilmente fornece informações sobre homoplasia e estados ancestrais. Produz árvores mais precisas do que os métodos baseados em distância. Os dois métodos mais populares baseados em caracteres são a parcimônia máxima e a probabilidade máxima. 
Métodos baseados na distância:
 Uma verdadeira distância evolutiva entre seqüências pode ser calculada a partir da distância observada após a correção usando modelos diferentes. Eles são subdivididos em algoritmos baseados em otimização e em cluster.
Método de avaliação das árvores 
filogenéticas 
Tendo construído a árvore, sua validade precisa ser verificada. Diferentes testes estatísticos são usados ​​para avaliar a confiabilidade da árvore construída. Bootstrapping e Jackknifing são empregados para verificar a confiabilidade da árvore, enquanto o teste de Kishino-Hasegawa, a análise bayesiana e o teste de Shimodaira-Hasegawa são usados ​​para confirmar se a árvore é melhor do que qualquer outra árvore. Na técnica de bootstrapping, amostras de tamanho e posição aleatoriamente formados da mesma parte da molécula são amostrados aleatoriamente e uma nova análise filogenética é realizada para produzir uma árvore. Para determinar a robustez da árvore, geralmente é recomendável que uma árvore filogenética seja inicializada 500-1000 vezes, tornando o processo demorado. Os resultadosda inicialização são comparados com a árvore aproximada original. Pontuações em pontos de ramificação em torno de 90% sugerem que a árvore prevista é precisa. No entanto, controvérsias ainda podem surgir. Em Jackknifing, metade do conjunto de dados é submetida à construção de árvores filogenéticas usando o mesmo método do original. O teste de simulação bayesiana utiliza o procedimento MonteCarlo da cadeia de Markov (MCMC), que é muito rápido e envolve milhares de etapas de reamostragem. O teste de Kishino-Hasegawa é usado especialmente para árvores de parcimônia máxima, é calculado um valor t, que é usado para avaliação em relação à distribuição t para ver se os valores estão dentro da faixa significativa (por exemplo, <0,05), t = Pa-Pt / SD / √n onde n é o número de sites informativos, o grau de liberdade é n-1, t é o valor estatístico do teste, Pa é a diferença média de site para site entre as duas árvores, SD é o desvio padrão e Pt é a diferença total do comprimento dos galhos das duas árvores. O teste Shimodaira-Hasegawa (SH) é freqüentemente usado para árvores com máxima verossimilhança; ele testa a qualidade do ajuste usando o teste do χ2 [70].
Código de barras do DNA em animais e plantas 
Embora no caso da maioria das espécies animais, a citocromo oxidase (COI) tenha sido descrita como um sistema relativamente preciso para fins de identificação econômica de espécies, mesmo no passado recente, não havia um padrão de código de barras de DNA geralmente aceito para o reino vegetal como desempenho de combinações diferentes de loci permanecem inadequadas entre diferentes famílias de plantas. O código de barras do DNA, um termo relativamente novo, é definido como um método para identificar espécies usando sequências curtas de DNA, conhecidas como códigos de barras do DNA, para facilitar os estudos de biodiversidade e aprimorar as análises forenses etc. Assim, os pesquisadores projetaram iniciadores específicos da família e se aproximaram da filogenia aceita. Usando essa abordagem. Em 2009, um grande consórcio de pesquisadores, o “Grupo de Trabalho das Plantas do Consórcio para o Código de Barras da Vida (CBOL) ”, propôs partes de duas regiões codificadoras do genoma do plastídeo (cloroplasto) - marcadores moleculares rbcL e matK - como um código de barras básico para plantas, a ser complementado com regiões adicionais, conforme necessário. Esta recomendação foi aceita pelo Consórcio Internacional para o Código de Barras da Vida, mas com o piloto que mais seqüências de marcadores adicionais devem ser realizadas. Isso foi motivado por preocupações de que o uso rotineiro de um terceiro (ou mesmo um quarto) marcador possa ser necessário para obter poder discriminatório adequado e para evitar falhas no seqüenciamento de um dos marcadores [69,72].
Abordagem polifásica para taxonomia bacteriana
Nos últimos 25 anos, uma gama muito mais ampla de estudos taxonômicos de bactérias substituiu gradualmente a antiga dependência de caracterização morfológica, fisiológica e bioquímica [73]. A taxonomia polifásica inclui todas as informações fenotípicas e genotípicos e os integra a um sistema de classificação, derivado da análise de sequência 16S rRNA. É conjecturado que, à medida que mais e mais parâmetros se tornarem disponíveis no futuro, a classificação polifásica ganhará maior estabilidade. Os taxonomistas bacterianos não possuíam um conjunto claramente definido de regras para a definição de espécies, principalmente porque em organismos unicelulares como morfologia, fisiologia e muitas outras propriedades não são informativas o suficiente para serem usadas como marcadores filogenéticos. Isso tem um efeito revelador nos problemas de taxonomia bacteriana. Esse problema é enfrentado na taxonomia polifásica, que não depende de uma teoria, hipótese ou conjunto de regras e apresenta uma abordagem pragmática a um tipo de taxonomia de consenso, integrando todos os dados disponíveis ao máximo. No futuro, a taxonomia polifásica terá que lidar com (i) enormes quantidades de dados, (ii) grande número de cepas e (iii) fusão de dados (agregação de dados), que exigirão armazenamento de dados eficiente e centralizado. Assim, estudos taxonômicos exigirão esforços colaborativos de laboratórios especializados ainda mais do que agora é o caso [73,74].
Discussão 
Embora haja um grande número de marcadores filogenéticos disponíveis, o pesquisador não deve se limitar apenas a esses genes. De fato, é necessário o desenvolvimento de marcadores adicionais para análise filogenética. O número de genes utilizados para a análise filogenética em plantas, animais e microorganismos deve ser aumentado por meio de projetos de sequenciamento de genoma nuclear e EST (tag de sequência expressa). Além disso, a necessidade de marcadores em um grande grupo de organismos é muito crucial. Esforços futuros devem ser direcionados para a melhoria dos algoritmos de vários softwares de análise. O poder dos genes envolvidos com a fisiologia de organismos como os genes da divisão celular (cdc), genes de tolerância ao sal, genes de choque térmico, genes homeóticos, genes receptores etc., para citar alguns, também deve ser explorado, pois mostra grande homologia sobre uma grande variedade de organismos. Ao mesmo tempo, devem ser incentivados os esforços dos biólogos clássicos que basearam suas análises de filogenia em estudos morfológicos de características externas e internas de um organismo. Em combinação com estudos usando marcadores genéticos moleculares e morfologia, sistemas de prova relativamente completos podem ser criados para os estudos filogenéticos dos grupos Archaea e Eukarya, muito alinhados com as abordagens polifásicas descritas para bactérias. Com o passar do tempo, mais dados serão disponibilizados, mais novos organismos serão detectados e o desenvolvimento de software precisará levar em consideração a combinação e a vinculação dos diferentes bancos de dados. Também teremos acesso crescente ao genoma e as seqüências de DNA de muitos organismos estarão disponíveis devido aos avanços pagos nas tecnologias de sequenciamento. A tarefa mais desafiadora será definitivamente processar essa massa de informações em um conceito de classificação útil. A descoberta de marcadores moleculares mais novos para fins de estudos filogenéticos terá que acompanhar o progresso das técnicas e procedimentos de análise a jusante, pois eles geram os dados brutos com base nos quais as análises são realizadas.
 Reconhecimentos 
Este trabalho foi apoiado em parte por doações de CSIR (Índia), UGC (Índia) para AR e DBT-HRD (Índia) concedidas ao Departamento de Biotecnologia da Universidade Visva-Bharati, Índia.

Continue navegando