Prévia do material em texto
Briefings em Bioinformática,22(1), 2021, 178–193 doi: 10.1093/bib/bbz155 Data de publicação com acesso antecipado: 18 de dezembro de 2019 Artigo de revisão Desafios atuais e protocolos de melhores práticas para análise de microbioma Richa Bharti e Dominik G. Grimm Autor correspondente: Dominik G. Grimm, Universidade de Ciências Aplicadas e Universidade Técnica de Weihenstephan-Triesdorf de Munique, TUM Campus Straubing para Biotecnologia e Sustentabilidade, Schulgassse 22, 94315 Straubing, Alemanha. Tel.: +49 (0)9421-187230; Fax: +49 (0)9421-187285; E-mail: dominik.grimm@hswt.de Abstrato A análise do microbioma de diversas espécies e ambientes usando técnicas de sequenciamento de última geração melhorou significativamente nossa compreensão sobre os papéis metabólicos, fisiológicos e ecológicos dos microrganismos ambientais. No entanto, a análise do microbioma é afetada por condições experimentais (por exemplo, erros de sequenciação e repetições genómicas) e análises a jusante computacionalmente intensivas e complicadas (por exemplo, controlo de qualidade, montagem, armazenamento e análises estatísticas). Além disso, a introdução de novas tecnologias e protocolos de sequenciação levou a uma enxurrada de novas metodologias, que também têm um efeito imediato nos resultados das análises. O objetivo deste trabalho é revisar os fluxos de trabalho mais importantes para sequenciamento de 16S rRNA e metagenômica shotgun e de leitura longa, bem como fornecer protocolos de melhores práticas em design experimental, processamento de amostras, sequenciamento, montagem, binning, anotação e visualização. . Para simplificar e padronizar a análise computacional, fornecemos um conjunto de fluxos de trabalho de melhores práticas para 16S rRNA e dados de sequenciamento metagenômico (disponíveis emhttps://github.com/ grimmlab/MicrobiomeBestPracticeReview). Palavras-chave:microbioma; sequenciamento de amplicons; Sequenciamento de RNAr 16S; metagenômica; conjunto; classificação funcional e taxonômica Introdução ajudaram a redefinir a ideia anteriormente conceituada de 'holobionte', que incorpora associações simbióticas específicas entre hospedeiro e micróbio em um 'hologenoma' mais generalizado e inclusivo [5–7]. O hologenoma descreve a totalidade genética de genes hospedeiros e genes microbianos simbióticos/mutualistas que são afetados simultaneamente sob estresse ambiental.8]. Os estudos sobre a compreensão dos papéis do hologenoma foram impulsionados com os avanços no sequenciamento de próxima geração (NGS) que ajudaram a identificar com precisão as espécies microbianas e as vias metabólicas associadas [5,9,10]. Nos últimos 15 anos, o Projeto Microbioma Humano e o Projeto Microbioma Terrestre, juntamente com o NGS, melhoraram imensamente as áreas de novas previsões do genoma, associações genéticas, identificações de patógenos e análises clínicas. Os recentes avanços no sequenciamento de alto rendimento ajudaram a desdobrar o material vivo mais abundante, o 'microbioma', e suas associações em diferentes ambientes. O microbioma existe como um componente essencial de diversos habitats, incluindo ar, solo, água e intestino de organismos simples e complexos.1,2]. Desempenha papéis cruciais nos processos metabólicos dos sistemas abióticos e bióticos, incluindo reciclagem e degradação mineral, fixação de nitrogênio, bem como modulação das respostas imunes do hospedeiro e produção de vitaminas e metabólitos secundários.3,4]. Eventualmente, o reconhecimento dos diversos papéis dos micróbios em numerosos sistemas bióticos e abióticos expandiu o escopo da microbiologia para além das culturas cultivadas em laboratório. Poderia Richa Bharti é pesquisadora de pós-doutorado na TUM Campus Straubing for Biotechnology and Sustainability e na Weihenstephan-Triesdorf University of Applied Sciences. Sua pesquisa está focada na análise de dados metagenômicos e RNA-Seq e no desenvolvimento de ferramentas e pipelines de bioinformática para dados microbianos. Dominik Grimm é professor de bioinformática na TUM Campus Straubing para Biotecnologia e Sustentabilidade e na Universidade de Ciências Aplicadas Weihenstephan-Triesdorf. Sua pesquisa está focada no desenvolvimento de ferramentas de bioinformática e aprendizado de máquina para análise de dados bio(médicos). Submetido:24 de setembro de 2019;Recebido (na forma revisada):23 de outubro de 2019 © O(s) Autor(es) 2019. Publicado pela Oxford University Press. Este é um artigo de Acesso Aberto distribuído sob os termos da Licença Creative Commons Attribution (http://creativecommons.org/licenses/by/4.0/), que permite reutilização, distribuição e reprodução irrestritas em qualquer meio, desde que a obra original seja devidamente citada. 178 Baixado de https://academ ic.oup.com /bib/article/22/1/178/5678919 pelo usuário da U niversidade Estadual Paulista Júlio de M esquita Filho em 06 de agosto de 2021 Traduzido do Inglês para o Português - www.onlinedoctranslator.com http://creativecommons.org/licenses/by/4.0/ http://www.oxfordjournals.org/ http://orcid.org/0000-0003-2085-4591 https://github.com/grimmlab/MicrobiomeBestPracticeReview https://www.onlinedoctranslator.com/pt/?utm_source=onlinedoctranslator&utm_medium=pdf&utm_campaign=attribution Protocolos de melhores práticas em análise de microbioma 179 figura 1. Uma ilustração de abordagens de amplicon direcionado e sequenciamento metagenômico. Uma visão geral esquemática que demonstra diversos tipos de amostras, juntamente com plataformas de sequenciamento comumente utilizadas, bem como etapas sistemáticas e graduais de processamento de dados. diagnóstico [11,12]. No entanto, tem havido preocupações sobre a reprodutibilidade dos dados publicados de sequenciamento microbiano que consistem em grandes quantidades de sequências desconhecidas, também referidas como 'matéria escura' [11,13]. O manuseio incorreto das amostras, a variação no tamanho da amostra, a escolha dos métodos de extração de DNA, bem como as análises computacionais (por exemplo, ferramentas de filtragem de qualidade e montadores) podem levar a resultados inconsistentes. Além disso, a falta de padronização dos protocolos laboratoriais e computacionais introduz vários vieses, que podem levar a resultados não comparáveis. Esta revisão discute os desafios experimentais e computacionais na aquisição e análise de 16S rRNA e dados metagenômicos, ao mesmo tempo em que foca nas vantagens, limitações e melhores práticas para manipulação e análise de dados. O artigo começa com uma revisão dos métodos de amplicon genético e de sequenciamento metagenômico e seus desafios experimentais, seguida de um fluxo de trabalho de análise de bioinformática de melhores práticas para padronizar a análise, bem como para alcançar robustez e reprodutibilidade. são funcionalmente conservados através de distâncias filogenéticas e, portanto, também servem como um relógio molecular para estudar transições e mudanças evolutivas. O gene alvo mais comumente usado para identificação bacteriana é o 16S rRNA (ou 16S rDNA), que é o padrão ouro na tipagem microbiana.15,16]. O gene 16S rRNA codifica a pequena subunidade 30S procariótica do complexo ribossômico 70S na maioria das bactérias e arquéias. Curiosamente, o gene 16S rRNA procariótico é distinto de seu homólogo eucariótico, o gene 18S rRNA que codifica a pequena subunidade ribossômica eucariótica (40S). O gene 16S rRNA altamente conservado implica o seu papel crucial na função e sobrevivência celular e, assim, constitui a base para a obtenção de uma classificação genómica precisa de táxons microbianos conhecidos e desconhecidos. Além disso, é mais fácil sequenciar genes 16S rRNA mesmo para amostras excessivamente grandes, devido ao seu tamanho relativamente curto.∼1542 pb). A sequência do gene consiste em locais de ligação de primers altamente conservados juntamente com nove regiões variáveis (V1 – V9). A maioria dos protocolos de genotipagem baseados em 16S rRNA usaregiões hipervariáveis V5-V6, V3- V4 ou V4 para identificar e catalogar perfis microbianos [17,18]. Alternativamente, a região V3 é uma melhor escolha para o perfil comunitário deArqueiapor reação em cadeia da polimerase (PCR) – eletroforese em gel com gradiente desnaturante. Outras regiões variáveis, incluindo V1 – V2 e V3 – V4, têm sido utilizadas para genotipagem de espécies de arqueas em comunidades microbianas complexas [19]. Ao contrário das bactérias, a identificação de alvos genéticos em leveduras e fungos patologicamente importantes ainda não está bem determinada. O rDNA fúngico é composto por regiões espaçadoras codificantes e não codificantes [20,21]. A região codificante consiste em unidades 18S, 5,8S e 28S, juntamente com várias regiões não codificantes que consistem principalmente em espaçadores transcritos internos (ITSs) e sequências intergênicas. As regiões variáveis ITS têm sido o alvo genético mais comumente utilizado para genotipagem de fungos. No entanto, comprimentos desiguais desses ITSs induzem erros e vieses, como amplificação e sequenciamento preferencial, muitas vezes levando a uma estimativa incorreta de abundância [21]. Genotipagem microbiana baseada em NGS As duas metodologias mais comumente usadas para identificação microbiana e genotipagem são baseadas em genes amplicon/marcadores (por exemplo, 16S rRNA) e metagenômica shotgun (figura 1). Sequenciamento de amplicon genético Nos últimos 25 anos, o sequenciamento de amplicons genéticos tem sido a principal técnica para estudar a filogenia e a taxonomia de microbiomas complexos que anteriormente eram considerados difíceis de caracterizar.14 ]. Para bactérias, arquéias, fungos e micobactérias, são identificados vários genes marcadores/alvo específicos que são amplamente utilizados para sequenciação de amplicons. A maioria dos genes marcadores Baixado de https://academ ic.oup.com /bib/article/22/1/178/5678919 pelo usuário da U niversidade Estadual Paulista Júlio de M esquita Filho em 06 de agosto de 2021 180 Bharti e Grimm No entanto, o NGS baseado em 16S rRNA tem sido utilizado com sucesso na caracterização de comunidades microbianas associadas a vários ambientes, incluindo solo, fontes de água e intestino humano. figura 1). Mais recentemente, a análise NGS baseada em 16S rRNA ajudou a identificar mudanças nas estruturas da comunidade microbiana, juntamente com as alterações associadas nas funções da comunidade. Ajudou notavelmente na estimativa da contaminação do solo e da água, bem como na obtenção de uma compreensão mais profunda de várias doenças associadas ao intestino, incluindo a doença de Crohn, colite ulcerosa, diabetes e cancros gastrointestinais [ 22–27]. usado para configurações clínicas e interpretações. Foi relatado que a carga microbiana varia entre réplicas biológicas existentes em condições semelhantes [36]. Esta variabilidade entre amostras semelhantes torna difícil identificar sinais biológicos fracos, especialmente quando o tamanho efetivo é desconhecido ou pequeno. Na maioria dos casos, os resultados com amostras pequenas não representam com precisão os resultados baseados na população geral. É importante ressaltar que os tamanhos das amostras devem ser sempre mantidos fixos e não devem ser alterados durante o estudo [37]. Assim, a escolha de tamanhos de amostra apropriados com base em princípios estatísticos pode certamente ajudar a evitar preconceitos e interpretações espúrias. • Controles: Os controles são necessários para identificar se um sinal é real e não apenas um resultado estocástico ou espúrio. Um experimento adequadamente controlado consiste em dois ou mais cenários: um produz observações sem interferências, enquanto os outros permanecem manipulações direcionadas [38,39]. Infelizmente, ainda é uma tarefa difícil obter controlos adequados em muitos casos, especialmente em ensaios clínicos onde a composição microbiana é afetada pela idade, sexo, etnia, dieta, genótipo e vários outros fatores de estilo de vida. Em estudos com animais, factores adicionais, tais como estirpes animais, instalações, condições de alojamento, manuseamento e reprodução, também podem afectar o perfil microbiano.40]. Vários estudos mostraram que animais co-alojados podem atuar como fatores de confusão ocultos devido à coprofagia.41,42]. Assim, é essencial replicar um estudo de co-alojamento, certificando-se de não co-alojar animais de genótipos diferentes, que podem ter aparências fenotípicas diferentes. Por outro lado, também foi descoberto que camundongos geneticamente idênticos em instalações diferentes exibem perfis bacterianos diferentes.42]. No entanto, deve-se tentar controlar e documentar o maior número possível de fatores para criar um arquivo de metadados detalhado (Tabela Suplementar S1). Esses fatores poderiam mais tarde ser usados em análises estatísticas posteriores para explicar fatores de confusão [43,44]. • Estudos transversais e longitudinais: Um estudo transversal incorpora análises comparativas de dois grupos, por exemplo, saudável versus doença ou tratamento versus placebo. Esses estudos são menos complexos de projetar e realizar e não requerem essencialmente longos acompanhamentos. No entanto, uma desvantagem significativa de tais estudos é que as diferenças observadas não são diretamente atribuídas a um único efeito/tratamento e podem ser devidas a vários efeitos aditivos ou multiplicativos.45]. É bem sabido que um microbioma pode ser alterado com base em muitos fatores ambientais que incluem estilo de vida e dieta. Portanto, do ponto de vista estatístico, é melhor realizar estudos longitudinais, onde a mesma amostra é estudada sob diferentes condições controladas [46]. No entanto, é igualmente importante planear cuidadosamente tempos de colheita de amostras idênticos para cada réplica, para evitar distorções. Apesar das vantagens associadas aos estudos longitudinais, apenas alguns métodos confiáveis estão disponíveis para análises posteriores [47]. • Metadados: Metadados são um catálogo de informações que contém detalhes de todas as amostras usadas em um experimento. A geração de metadados é uma das etapas mais críticas antes que qualquer análise posterior possa ser realizada. Além de servir como uma folha de referência de amostra, também ajuda a evitar falsas interpretações dos resultados e destaca o tamanho efetivo dos fatores individuais. O uso de metadados é necessário em diversas ferramentas modernas de comparação estatística [48]. Um exemplo de folha de metadados é fornecido como Tabela Suplementar S1 para referência. Metagenômica Metagenômica refere-se à análise genética direta de genomas obtidos em diferentes ambientes [28]. O termo metagenômica é frequentemente usado de forma imprecisa em conjunto com o sequenciamento do gene 16S rRNA. Embora o sequenciamento de 16S rRNA utilize uma abordagem de gene marcador e não atinja todo o genoma, a metagenômica, pelo contrário, é uma análise genômica independente da cultura de micróbios retirados diretamente do ambiente usando uma abordagem de sequenciamento shotgun em todo o genoma [29,30]. A metagenômica cataloga de forma abrangente todos os microrganismos presentes (não cultiváveis e cultiváveis, conhecidos e desconhecidos) em amostras ambientais complexas (figura 1). Em contraste com a análise filogenética unimodal baseada na diversidade de um único gene, por exemplo, o gene 16S rRNA, a metagenômica sistematiza a composição genética multimodal das comunidades microbianas e, portanto, fornece uma melhor resolução taxonômica e informação genômica [31,32]. A metagenômica auxilia na associação da função à filogenia além de criar perfis evolutivos da estrutura da comunidade microbiana. É importante ressaltar que também ajuda a identificar vírus que, de outra forma, seriam difíceis de detectar através de uma abordagem de direcionamento de um único gene, devido à sua alta diversidade genética e à sua incapacidadede discernir ligações genéticas comuns [33]. Nos últimos anos, o NGS moderno substituiu lentamente o sequenciamento clássico de Sanger como uma ferramenta preferida para o sequenciamento shotgun metagenômico. Os sistemas 454/Roche e Illumina/ Solexa foram amplamente utilizados para analisar amostras metagenômicas de uma infinidade de ambientes [34]. Apesar dos recentes avanços nas tecnologias de sequenciamento e nas ferramentas de análise computacional, muitos fatores podem levar a preconceitos e erros. Esses erros e vieses podem ser amplamente classificados em desafios experimentais e computacionais.Figura 2 mostra uma visão geral dos desafios experimentais e computacionais comuns que são discutidos em detalhes nas seções a seguir. Desafios e soluções experimentais Desenho do estudo/desenho experimental Um bom desenho de estudo ajuda a limitar tendências errôneas e obscuras frequentemente observadas em vários estudos baseados em microbiomas. Em geral, qualquer hipótese deve ser apoiada principalmente por evidências meticulosas baseadas na literatura e testes preliminares utilizando estudos piloto/em pequena escala para evitar incerteza nos sinais biológicos, ensaios e falhas. Um desenho de estudo racionalizado certamente ajudará a melhorar o processamento de dados e a eliminar efeitos de confusão [35]: • Número de amostras: Selecionar um tamanho de amostra significativo continua a ser um passo fundamental, especialmente quando os resultados finais são Baixado de https://academ ic.oup.com /bib/article/22/1/178/5678919 pelo usuário da U niversidade Estadual Paulista Júlio de M esquita Filho em 06 de agosto de 2021 Protocolos de melhores práticas em análise de microbioma 181 Figura 2. Uma visão geral esquemática que descreve vários desafios experimentais e computacionais associados ao sequenciamento metagenômico baseado em 16S rRNA e shotgun. Coleta e manuseio de amostras amostras microbianas. Comparando os perfis de rRNA 16S, foi demonstrado que a temperatura de armazenamento de curto prazo (14 dias) tem um efeito insignificante na estrutura do microbioma e na diversidade das amostras [54]. Outro estudo sobre a microbiota fecal humana mostrou que a refrigeração rápida a -80◦C conserva a diversidade da microbiota que é significativamente alterada pelo armazenamento seco a 4◦C [53]. Assim, é igualmente importante manter condições de armazenamento consistentes para obter rendimentos óptimos de ácidos nucleicos antes da sequenciação. O manuseio de amostras ambientais após a coleta é um aspecto crucial nos métodos de sequenciamento baseados em ácidos nucleicos para comparar a composição e a diversidade das comunidades microbianas. Na verdade, a coleta de amostras pode ser um fator de confusão significativo que pode afetar os resultados e interpretações de um estudo [49]. O problema mais comum é a variabilidade na quantidade de DNA microbiano presente em diferentes amostras ambientais. Por exemplo, as amostras de pele contêm comparativamente menos biomassa microbiana do que as amostras de intestino e, portanto, a recolha de amostras suficientes continua a ser um factor crucial para os resultados finais da sequenciação. A seguir listamos alguns parâmetros que devem ser considerados durante a coleta e manuseio da amostra: Extração de ácido nucleico A escolha dos métodos de isolamento de DNA/RNA pode causar vieses durante o sequenciamento, o que por sua vez afeta a análise a jusante. É importante ressaltar que o método de extração deve capturar efetivamente todos os tipos de micróbios. Por exemplo, o isolamento de DNA de bactérias gram-positivas é mais difícil, devido às suas espessas paredes celulares de peptidoglicano [55]. Existem duas metodologias principais de extração: (i) lise mecânica/batedor de esferas e (ii) lise química [56]. Considera-se que os métodos de beadbeating produzem rendimentos superiores se forem feitos de maneira otimizada. Assim, para amostras bacterianas complexas, uma etapa de 'beadbeating' poderia ser realizada antes da extração padrão de ácido nucleico. No entanto, a batida vigorosa das esferas deve ser evitada, uma vez que pode cortar os ácidos nucleicos e, eventualmente, afetar as etapas posteriores de preparação da biblioteca. • Contaminação: Manter um ambiente de amostra adequado durante a coleta de amostras é importante, uma vez que mudanças na temperatura, umidade ou outros fatores podem alterar ou contaminar as amostras [49]. Além disso, a proximidade de amostras diferentes poderia levar à contaminação cruzada, o que poderia posteriormente gerar resultados espúrios. Além disso, minimizar o tempo de coleta de amostras e usar recursos laboratoriais assépticos, incluindo luvas, máscaras e protetores de cabeça, ajudam a reduzir a contaminação [50]. • Transporte: As condições e a duração do trânsito podem influenciar a qualidade e a quantidade dos ácidos nucleicos extraídos. A composição microbiana é instável desde o ponto de coleta da amostra e, portanto, o congelamento imediato é considerado obrigatório. Foi demonstrado que o período intermediário entre a coleta e o armazenamento da amostra pode levar a vários problemas nas fases posteriores da análise [51]. Assim, é crucial manter condições de armazenamento constantes durante o transporte de todas as amostras para evitar ciclos inconsistentes de congelamento e descongelamento. Além disso, vários métodos de preservação química são amplamente aceitos para coleta de amostras em locais remotos [52,53]. • Armazenamento e segurança: Vários estudos avaliaram o efeito das condições de armazenamento nas mudanças de composição em Preparação de ácido nucleico Para abordagens NGS de marcador único/gene alvo, a amplificação usando pares de iniciadores de código de barras, purificação e preparação de bibliotecas de DNA purificadas são feitas antes do sequenciamento. Illumina MiSeq fornece uma saída limitada (15 Gb) e é usado principalmente para sequenciamento de amplicon, pois fornece leituras mais longas (2×300 pb) com um custo de sequenciamento muito menor em comparação com outros sequenciadores de alto rendimento [57]. Curiosamente, a Illumina também oferece sequenciamento shotgun que gera leituras curtas de até 1,5 Tb por execução. Várias metodologias de isolamento de DNA estão disponíveis que Baixado de https://academ ic.oup.com /bib/article/22/1/178/5678919 pelo usuário da U niversidade Estadual Paulista Júlio de M esquita Filho em 06 de agosto de 2021 182 Bharti e Grimm diferem com base em métodos de fragmentação e geram bibliotecas de sequenciamento com eficiência. Os kits de isolamento de DNA amplamente utilizados para a plataforma Illumina incluem Nextera DNA Flex, Nextera XT e TruSeq DNA PCR-Free [58]. Nextera DNA Flex suporta genomas grandes e pequenos com quantidades de DNA de entrada de 100–500 ng e 1–500 ng, respectivamente. Ele utiliza transpossomas ligados a esferas que geram simultaneamente tamanhos de fragmentos consistentes e marcam o DNA de entrada. Até 96 amostras metagenômicas multiplexadas podem ser sequenciadas usando indexação dupla exclusiva durante a preparação da biblioteca. Outro kit popular, Nextera XT, utiliza uma metodologia de fragmentação mediada por enzimas e requer apenas 1 ng de amostras de DNA de entrada. Usando este método, até 384 amostras indexadas exclusivamente podem ser agrupadas e sequenciadas. Por outro lado, TruSeq DNA PCR-Free, como o nome sugere, é um fluxo de trabalho livre de PCR e utiliza fragmentação mecânica de DNA e ligação de adaptador. Este método também requer pequenas quantidades de DNA de entrada (∼1ng). Infelizmente, as técnicas NGS baseadas em leituras curtas têm aplicações limitadas na análise de genomas poliplóides devido à pura aplicabilidade do seu algoritmo a dados metagenómicos. Neste contexto, plataformas de sequenciamento de terceira geração, como as tecnologias de sequenciamento Pacific Biosciences RS II/Sequel e Oxford Nanopore MinION, provamser mais eficientes devido a tamanhos de leitura mais longos, resolução em nível de espécie e ausência de vieses baseados em amplificação de DNA [59,60]. Pacific Biosciences RS II/Sequel aprimorou os procedimentos de extração que incorporam a lise enzimática do DNA com um coquetel de enzimas que resulta na extração de fragmentos de DNA mais longos. Além disso, em comparação com o PacBio RS II, o PacBio Sequel aumentou a produção de DNA de∼0,5–1 Gb para∼5–10 GB [61]. No entanto, falhas convencionais como coleta, preservação e transferência ainda podem retroceder a qualidade da amostra e têm causado uma série de problemas na exploração de amostras clínicas e de ambientes extremos. Posteriormente, outra tecnologia de sequenciamento de terceira geração, o Oxford Nanopore MinION, aborda essas questões de forma confiável [62,63 ]. Lançado em 2014, é portátil (tamanho de um pendrive) e oferece agilidade para sequenciar amostras em condições extremas. No entanto, os comprimentos de leitura produzidos pelo sequenciador de nanoporos MinION dependem principalmente de comprimentos de fragmentos de entrada que novamente requerem procedimentos meticulosos de extração e purificação. desafios na análise de amplicon e sequenciamento metagenômico seguido por um fluxo de trabalho de melhores práticas sobre como conduzir tais análises de maneira ideal. Desafios para análise de sequenciamento de amplicon Uma das principais dificuldades para a análise baseada em marcadores genéticos é distinguir erros de sequenciamento de nucleotídeos reais. Para este propósito, existem duas categorias principais de ferramentas: (i) baseadas em unidades taxonômicas operacionais (OTU) (QIIME e Mothur)[ 159–160] e (ii) baseada em variante de sequência de amplicon (ASV) (DADA2, Deblur, MED e UNOISE) [158,177–179] ferramentas (figura 1). Os métodos baseados em OTU resolvem erros de sequenciamento agrupando as leituras com base em um limite de identidade predefinido (geralmente 97%) em OTUs [71]. Por outro lado, as ferramentas baseadas em ASV utilizam uma abordagem de eliminação de ruído em sequências biológicas antes da introdução de erros de amplificação e sequenciamento [72]. Vários estudos comparativos entre esses dois métodos sugeriram que as OTUs fornecem menor resolução taxonômica em comparação com ASVs e uma escolha entre esses dois pode impactar amplamente as estimativas de diversidade alfa [73, 74–78]. Nesta revisão, descrevemos um fluxo de trabalho sistemático passo a passo para 16S rRNA usando métodos baseados em OTU e ASV, na próxima seção. Desafios da análise de sequenciamento metagenômico Um número crescente de ferramentas e algoritmos disponíveis para análises metagenômicas tornou a escolha dos métodos mais apropriados altamente desafiadora. As principais etapas envolvidas nas análises típicas de dados metagenômicos são montagem e binning, seguidas de perfil taxonômico e funcional (figura 1). Nas subseções seguintes, essas etapas são discutidas de forma abrangente, seguidas por uma descrição de um fluxo de trabalho sistemático contendo ferramentas e algoritmos ideais. Controle de qualidade O controle de qualidade é um pré-requisito essencial que envolve corte de qualidade e remoção de contaminação de leituras brutas. Enquanto o corte de qualidade filtra leituras brutas para sequências adaptadoras e de baixa qualidade, a remoção de contaminação detecta e remove com eficiência contaminações de sequências associadas ao host das leituras. Ambas as etapas são cruciais para produzir uma montagem ideal. Trimomático,foice, BBToolseDeconSeqsão ferramentas amplamente utilizadas que utilizam gravata borboletaeBWApara corte de qualidade e remoção de contaminação [74–77]. Em seguida, uma variedade de comprimentos de leitura gerados a partir de uma amostra ambiental são processados através deleitura curta ouanálises metagenômicas de leitura longadependendo do desenho do estudo. Sequenciamento e desafios computacionais Desenvolvimentos recentes em tecnologias de sequenciamento resultaram em um aumento exponencial em novos métodos, algoritmos e ferramentas computacionais para anotações e análises funcionais [64]. No entanto, vários desafios computacionais ainda existem devido à complexidade dos dados biológicos subjacentes, à falta de informações adequadas de metadados e à escassez de formatos de dados padrão e recursos computacionais para dados de alto volume.Figura 2) [65,66]. Como a maior parte da interpretação biológica dos dados de sequenciamento depende dessas ferramentas, o benchmarking adequado, a disponibilidade de código aberto, a simplificação do processo de instalação e uma interface de usuário adequada devem ajudar a garantir a reprodutibilidade e a interpretabilidade dos resultados. Isto é importante, uma vez que a utilização de ferramentas diferentes para análises semelhantes resulta frequentemente em resultados, interpretações e preconceitos diferentes e não comparáveis. Portanto, é crucial que os projetos de pesquisa que dependem fortemente de ferramentas de bioinformática acessem e utilizem essas ferramentas de forma consciente. Existem várias ferramentas computacionais para dados de sequenciamento de rRNA 16S [67,68], bem como para dados metagenômicos de leitura curta (por exemplo Avaliação Crítica da Interpretação Metagenômica(CAMI)) [69, 70]. Nas seções a seguir, fornecemos uma visão geral do atual Desafios na metagenômica de leitura curta A principal vantagem do sequenciamento de leitura curta é sua capacidade de gerar bilhões de leituras de maneira massivamente paralela em uma única execução. A plataforma de sequenciamento Illumina é uma tecnologia de leitura curta que produz altas contagens de leitura a custos comparativamente mais baixos. No sequenciamento Illumina, uma biblioteca de DNA ligada ao adaptador é capturada usando oligonucleotídeos complementares ligados à superfície e posteriormente amplificada em clusters clonais distintos por amplificação de ponte.Figura 3A). O sequenciamento é feito em múltiplos ciclos por meio da geração de imagens de um terminador reversível marcado com fluorescência após cada adição de dNTP, que é então clivado para permitir a incorporação da próxima base. Este processo minimiza erros devido a um protocolo de sequenciamento base por base que permite Baixado de https://academ ic.oup.com /bib/article/22/1/178/5678919 pelo usuário da U niversidade Estadual Paulista Júlio de M esquita Filho em 06 de agosto de 2021 Protocolos de melhores práticas em análise de microbioma 183 Figura 3. Principais tecnologias de sequenciamento de leitura curta e de leitura longa. (A) O sequenciamento da Illumina envolve corte inicial, adenilação das extremidades rombas e ligação de adaptadores específicos às moléculas de DNA. Seguindo esta biblioteca, os fragmentos são amplificadosno localem superfícies celulares de fluxo através de amplificação de ponte e produz clusters de sequenciamento. Finalmente, a etapa de sequenciamento reversível do terminador de corante é implementada onde reações de adição de nucleotídeo único e presença de grupo bloqueador no 3'-OH (da porção ribose) ajuda a identificar clusters de sequenciamento através de um sinal fluorescente repórter. (B) O sequenciamento PacBio envolve uma técnica SMRTbell de sequenciamento de consenso circular (CCS). Aqui, a ligação de adaptadores em gancho a cada extremidade de uma molécula de DNA duplex forma um circuito fechado, que é sequenciado em um guia de ondas de modo zero (ZMW), leitura baseada em fluorescência da incorporação de nucleotídeos. Cada fita do DNA duplex é sequenciada em múltiplas passagens e as sequências de consenso de ambas as fitas são incorporadas. (C) O sequenciamento de nanoporos envolve a ligação de adaptadores em gancho em uma extremidade da molécula de DNA duplex antes de iniciar o sequenciamento de nanoporos das fitas de DNA originais ligadas. Os bloqueios na corrente iônica através do nanoporo são quantificadosde maneira ideal como sequências de bases de DNA. aquisição de dados precisa. A seguir, um fluxo de trabalho de processamento metagenômico passo a passo é discutido juntamente com sugestões de ferramentas e algoritmos ideais. archaea) incluem erros de sequenciamento, presença de repetições intergenômicas e intragenômicas e cobertura irregular de sequenciamento. 78,79]. A etapa de montagem subjuga razoavelmente essas questões, costurando leituras em fragmentos mais longos, chamados de contigs, seguido pela reconstrução dos genes e espécies individuais. As leituras podem ser leituras de extremidade emparelhada, pares de posicionamento ou leituras de extremidade única com base na escolha da ligação do adaptador [80]. Além disso, as complexidades e desafios da metagenômica Conjunto Desafios significativos na análise de amostras ambientais complexas compreendendo múltiplos genomas (bactérias, fungos, vírus, Baixado de https://academ ic.oup.com /bib/article/22/1/178/5678919 pelo usuário da U niversidade Estadual Paulista Júlio de M esquita Filho em 06 de agosto de 2021 184 Bharti e Grimm a montagem é elevada por uma abundância desigual de múltiplos genomas em amostras originárias das mesmas condições. Conseqüentemente, a escolha do algoritmo de montagem permanece crítica para uma análise downstream ideal. Para uma montagem metagenômica típica, os montadores comumente usados incluem MegaHit, metaSPAdes, RayMeta, MetaVelvet, IDBA-UD, SOAPdenovo2e Ômega [81–87]. Curiosamente, a maioria desses algoritmos de montagem foram inicialmente desenvolvidos para montagens de genoma único, mas foram estendidos para um uso muito mais amplo. Aparentemente, a escolha do algoritmo certo para um determinado conjunto de dados tornou-se difícil devido a numerosos relatórios comparativos sobre esses diferentes montadores [88,89]. Vários esforços foram feitos para melhorar as estatísticas de montagem e a identificação de montadores metagenômicos dedicados. Os quatro montadores mais utilizados são MegaHit, metaSPAdes, RayMetaeBIDA-UD.Todos os quatro algoritmos são montadores de metagenoma de código aberto baseados em Gráficos de De Bruijn [90]. Uma grande vantagemGráficos de De Bruijn é que as leituras montadas contêm menos erros e os erros podem ser facilmente corrigidos antes da montagem. Por outro lado, oBID assembler itera aumentandok-mer tamanhos, cortando o gráfico e integrando bolhas/loops ao longo do caminho.Ele utiliza vários dados relativos à profundidadek-mer limites para eliminar errosk- mers em regiões de baixa e alta profundidade.Da mesma forma, enquanto RayMetaé um únicok-mer montador, ambosmetaSPAdese MegaHit analisar iterativamentek-mer comprimentos para encontrar o valor ideal. EnquantometaSPAdesincorpora cobertura de leitura durante a montagem,MegaHittem uma implementação comparativamente rápida e com uso eficiente de memória. Ambos os montadores são preferidos para tarefas complexas de perfil de microbioma [91]. o espaço de busca e, portanto, alinhamento mais lento ou métodos filogenéticos podem ser executados. Neste contexto, a ferramenta amplamente utilizada Tributário-tkutiliza a ferramenta básica de pesquisa de alinhamento local (EXPLOSÃO) ePhyloSiftpara identificar semelhanças com genes marcadores (como 16S rRNA) usando os perfis do modelo Hidden Markov [100]. Da mesma forma, outras ferramentas, incluindoHMMERe FiloPítiaS(þ) atribuir leituras a bins utilizando um modelo de máquina de vetores de suporte treinado em um banco de dados de referência [101,102]. Por outro lado, o binning não supervisionado depende principalmente de características de sequência sem informações a priori sobre conjuntos de genoma presentes em uma amostra. Por exemplo,MetaClusterbins lê por um algoritmo de agrupamento duplo, onde primeiro agrupa leituras usando long uniquek-mers (k >36) seguido pela fusão de grupos com base em distribuições semelhantes de tetranucleotídeos ou pentanucleotídeos [103]. Na próxima rodada, frequências de 16 mer são utilizadas para agrupar contigs de espécies de baixa abundância. Além desses, três outros algoritmos metagenômicos de contig binning incluemMaxBin, CONCOCTe MetaBAT. MaxBin considera a composição de nucleotídeos e informações de abundância de contig para binning por meio de um algoritmo de maximização de expectativa (EM) que agrupa com precisão contigs metagenômicos em compartimentos que consistem em contigs de uma única espécie [104]. Pelo contrário,INVENTARusa modelos de mistura gaussiana para agrupar contigs, combinando frequências de tetranucleotídeos e abundâncias diferenciais cobrindo múltiplas amostras para binning [105]. Assim, ele reúne informações da composição e cobertura da sequência, em múltiplas amostras ambientais. De forma similar,MetaBATutiliza agrupamento pareado de contigs calculando distâncias probabilísticas com base em frequências de tetranucleotídeos. O binning de contigs é então feito por umk algoritmo de agrupamento -medoid e modelado em distâncias interespécies e intraespécies nos genomas sequenciados [106].Previsão genética Vários métodos para prever genes a partir de fragmentos de DNA metagenômico estão disponíveis e são amplamente utilizados. Esses algoritmos de predição são amplamente categorizados em métodos baseados em homologia, baseados em modelo e baseados em aprendizado de máquina [92]. Atualmente, ferramentas de predição genética, como GeneMarkS, Glimmer3e Pródigoexibem precisão significativamente alta (> 97%) na detecção de ORFs codificadores de proteínas validados [93–95]. No entanto, a sua precisão na identificação dos locais de início da ORF ainda pode ser melhorada (∼90%) [93]. Isto ocorre principalmente porque os genes que escapam à detecção são genes com padrões de sequência que não correspondem a nenhum modelo específico da espécie.96]. Além disso, outra medida crítica de precisão, a taxa de falsos positivos (FPR), requer uma avaliação bastante difícil para descartar genes previstos incorretamente. Foi recentemente proposta uma maneira robusta de detectar falsos positivos com base em uma avaliação de dois fatores que envolve (i) identificar grandes sobreposições com genes conhecidos localizados na fita oposta e (ii) comparar com genes previstos em sequências aleatórias [97]. Classificação taxonômica Para identificar o táxon de cada sequência, a maioria das ferramentas de classificação metagenômica combinam sequências (leituras ou contigs) com bancos de dados de genoma microbiano conhecidos. Devido ao tamanho rapidamente crescente dos conjuntos de dados de sequenciamento, o alinhamento canônico de sequências baseado no BLAST ao GenBank tornou-se impraticável [89]. Vários classificadores metagenômicos estão disponíveis e fornecem análises mais rápidas em detrimento da sensibilidade. Esses classificadores utilizam uma variedade de abordagens, incluindo alinhamentos de leitura simples,k- mapeamento mer em leituras de sequenciamento do genoma completo, alinhamento apenas de genes marcadores ou geração de sequências de proteínas traduzidas e seu alinhamento com bancos de dados de proteínas [107]. Talvez, as abordagens de genes marcadores permitam atribuições taxonômicas mais rápidas, devido aos seus dados de sequenciamento comparativamente menores que podem ser alinhados com bancos de dados que incorporam genomas completos do máximo de espécies. Eventualmente, vários alinhadores rápidos comoGravata-borboleta2 [108] e HMMER [109] são utilizados por diversas outras ferramentas, comoMetaPhlAn [110],Filosift [111] emOTU [112]. Outra ferramenta,PEGUEI, emprega 24 fragmentos exclusivos de pares de bases indexados com BWA (alinhamento de Burrows-Wheeler) –mem (correspondências exatas máximas) que ajudam a gerar uma classificação binária baseada em presença/ausência ou perfis taxonômicos completos [113]. Pelo contrário, para dados metagenómicos,Krakenfoi o primeiro algoritmo que forneceu identificação rápida de todas as leituras e contou comdados exatosk-mer corresponde entre o ancestral comum mais baixo (LCA) de cada táxon [114]. Outra ferramentaCLAROutiliza uma abordagem modificada de manter apenas espécies ou níveis de gênerok-mers e descartando o resto dok-mers que mapeiam para classificações taxonômicas superiores [115]. Além dessas, poucas outras ferramentas, como Compartimentação contig Para reconstruir genomas usando dados de sequenciamento heterogêneo, é feito o agrupamento contig baseado em um genoma individual de origem ou binning metagenômico. Tradicionalmente, o binning é realizado alinhando contigs com conjuntos de dados de referência, mas recentemente mais esforços foram direcionados para clustering não supervisionado [98]. Conseqüentemente, os algoritmos de binning podem ser categorizados como binning dependente de taxonomia ou binning supervisionado que utiliza informações taxonômicas de um banco de dados de referência ou binning não supervisionado onde o agrupamento de sequências é realizado usando propriedades estatísticas e/ou cobertura contig [99]. No binning supervisionado ou dependente de taxonomia, a classificação contig reduz Baixado de https://academ ic.oup.com /bib/article/22/1/178/5678919 pelo usuário da U niversidade Estadual Paulista Júlio de M esquita Filho em 06 de agosto de 2021 Protocolos de melhores práticas em análise de microbioma 185 Centrífuga [116],MÉGAN6 [117],tributário-tk [100],Caras [118] eTaxonômero [119], também existem para classificações taxonômicas de dados metagenômicos. EnquantoCentrífugaé um classificador metagenômico compacto que utiliza a transformada de Burrows-Wheeler com índice FM para indexar um banco de dados de genoma, ambosMEGAN6e taxador-tk usar extensivamente as saídas de algoritmos de sequenciamento local, incluindoEXPLOSÃO [120],DIAMANTE [121], ouDURAR [122]. Por outro lado, Carasé um classificador inequívoco que utiliza a saída de alinhadores de leitura, comoBWA–mempara interpretar abundâncias taxonômicas em amostras [118]. De forma similar,Taxonômero é um classificador rápido e ultrassensível que primeiro lê em amplas faixas, seguido por sua separação em perfis transcritos de RNA mensageiro (mRNA) em nível de espécie [119]. Torrent, gera comprimentos de leitura efetivamente mais longos (∼700–1000 pb), eles geralmente não são preferidos, devido aos altos custos de sequenciamento e à geração de homopolímeros. As plataformas Illumina fornecem maior precisão e são mais econômicas; no entanto, eles fornecem apenas comprimento de leitura limitado (∼2×300 pb). Atualmente, as plataformas de sequenciamento de molécula única em tempo real (SMRT) da Pacific Biosciences e da Oxford Nanopore Technologies são preferidas devido aos seus tamanhos de leitura mais longos de 15–100 e∼1000 quilobases, respectivamente [60,139]. Sequenciamento PacBio PacBio é uma plataforma de sequenciamento de terceira geração que utiliza sequenciamento por fluxo de trabalho de síntese como Illumina, exceto que é uma tecnologia de sequenciamento em tempo real de molécula única (SMRT). (Figura 3B). A tecnologia SMRT produzida pela PacBio emprega (a) uma célula SMRT na forma de guia de onda de modo zero que permite a observação de fluoróforos individuais e mantém uma alta relação sinal- ruído, (b) reação de síntese rápida e precisa por fosfo- nucleotídeos ligados e (c) detecção de sinal baseada em pulso de luz contínuo e em tempo real. Isso resulta em um sequenciamento de DNA preciso e de alto rendimento a um baixo custo. Outra grande vantagem do PacBio é a sua capacidade de produzir leituras muito mais longas, variando entre 10 e 50 kbp, com uma precisão média de leitura de∼85% [140]. Atualmente, em comparação com o PacBio RS II, o novo sistema PacBio Sequel mostra um aumento significativo nos comprimentos de leitura (∼0,5–10 GBP). A recente incorporação de um método híbrido de correção de erros (leituras corrigidas PBcR – PacBio) levou a uma precisão de leitura aprimorada de 80% para 99,9% [61,141]. Além disso, o processo hierárquico de montagem do genoma (HGAP) acabou com a exigência de leituras de alta qualidade para reconstruir o genoma [142]. Neste método, a leitura mais longa entre os conjuntos de dados é selecionada como uma 'semente' e todas as outras leituras são mapeadas em relação a ela. Posteriormente, uma pré-montagem é feita para converter as leituras iniciais em leituras pré-montadas precisas que podem ser usadas para uma montagem do genoma. Finalmente, um refinamento da montagem é feito usando as leituras iniciais que geram uma sequência de leitura de consenso. Embora a montagem de leituras SMRT com HGAP produza uma montagem precisa de regiões de alta cobertura, subsequentemente falha na reconstrução de regiões de baixa cobertura de comunidades complexas. Mais recentemente, uma etapa de pós- processamento usando BIG MAC (quebrando genomas imprecisos e mesclando contigs montados) foi introduzido, onde ambos os contigs e leituras originais foram usados simultaneamente para melhorarde novo conjunto [143]. No geral, a plataforma PacBio é altamente vantajosa para estudarde novogenomas, transcriptomas e caracterizações epigenéticas diretas. Além disso, para populações microbianas complexas, o PacBio oferece perfis genéticos completos de regiões ITS ou 16S rRNA. Ele também pode realizar com eficácia o perfil do transcriptoma completo de amostras eucarióticas consecutivas de uma só vez [144,145]. Curiosamente, um estudo comparativo combinando leituras curtas da Illumina e leituras longas do PacBio de esponjas marinhas mostrou que a abordagem híbrida e caixas específicas do filotipo ajudaram a melhorar a qualidade da montagem e as estatísticas e poderiam ser usadas como uma técnica complementar para chamada de variantes em SMRT [146]. Além disso, dados SMRT de baixa profundidade também podem reconstruir com precisão perfis taxonômicos de comunidades complexas e também gerar genomas fechados altamente precisos, como demonstrado em um estudo sobre metagenomas da pele humana.147]. Além disso, alguns outros relatórios recentes mostraram que a metagenômica shotgun do PacBio poderia identificar com precisão espécies dominantes de comunidades microbianas de baixa diversidade e também pode recuperar efetivamente genomas raros em comparação com outras plataformas de leitura curta [148,149]. Classificação funcional A classificação funcional dos dados metagenómicos é vital para investigar os papéis funcionais e metabólicos das espécies membros do microbioma, bem como as suas variações sob diferentes condições/tratamentos. No geral, as ferramentas para classificação funcional compartilham características comuns com ferramentas usadas para análises de genoma completo (Figura 3). Essas ferramentas e abordagens podem ser classificadas em quatro categorias principais,viz., baseadas em homologia, baseadas em motivos ou padrões, baseadas em contexto e outras previsões funcionais: (i) Ferramentas baseadas em homologia: Esta é uma das primeiras abordagens para a qual as sequências de proteínas previstas são combinadas com sequências de proteínas de referência, comoSeq de referência do NCBI[123], UniProt [124] eINTELIGENTE[125]. AmbosIMG/M [126]eMG-RAST [127] servidores permitem a correspondência de consultas com outros bancos de dados, incluindo clusters de grupos ortólogos (COGs) [128],Pfam [129] e TIGRFAM[130]. Desvantagens significativas desta abordagem são longos tempos de computação e altas taxas de erro. (∼15%), devido à propagação do banco de dados. (ii) Ferramentas baseadas em motivos ou padrões: Esta abordagem é adequada para leituras curtas e amostras complexas que não puderam ser combinadas usando abordagens baseadas em homologia. Bancos de dados como PRÓSITO [131],IMPRESSÕES[132], ouInterProsão utilizados para rastrear motivos comuns em sequências metagenômicas.IMG/Mfaz a maioria das anotações baseadas em motivos/padrões, mas com baixa significância estatística e altas taxas de falsos positivos.(iii) Ferramentas baseadas em contexto: Novas sequências metagenômicas que não compartilham nenhuma homologia, nem padrão ou motivo das duas abordagens anteriores são processadas usando uma anotação baseada em contexto. Esta abordagem utiliza principalmente vizinhanças genômicas para triagem de sequências metagenômicas. Ambos IMG/MeComunidade Smash são algoritmos de mapeamento baseados em contexto comumente usados [133]. (iv) Outras previsões funcionais: Anotações putativas de novas sequências metagenômicas são geralmente realizadas usando ferramentas específicas para prever propriedades funcionais, como enzimas ativas em carboidratos (CAZy),localizações de proteínas (PSORT, VIoloncelo),lipoproteínas (DOLLOP, Lipo, SignalP), sequências de inserção (ISsaga)e fatores de virulência ( VFDB, MvirDB) [134–137]. Desafios da metagenômica com leituras longas Leituras longas são cruciais para decifrar regiões genômicas que permanecem inacessíveis ao sequenciamento de leitura curta, devido à presença de sequências repetidas. Aparentemente, também ajuda no sequenciamento de transcrições completas de RNA e fornece informações precisas sobre a existência de isoformas específicas [138]. Embora tecnologias de sequenciamento de segunda geração, como Roche 454 e Ion Baixado de https://academ ic.oup.com /bib/article/22/1/178/5678919 pelo usuário da U niversidade Estadual Paulista Júlio de M esquita Filho em 06 de agosto de 2021 186 Bharti e Grimm Sequenciamento de nanoporos MinION (i) Taxonomia: A tabela OTU gerada a partir das leituras processadas é usada para traçar o perfil da abundância microbiana presente nos dados de sequenciamento. As comunidades microbianas são identificadas através de um protocolo rigoroso que resulta em múltiplos alinhamentos de pangenoma usando bancos de dados personalizados, como SILVA, Greengenes.ePDRde várias famílias de genes. (ii) Anotação funcional: Usando a saída demãeou DADA2,o perfil funcional das comunidades microbianas identificadas pode ser previsto usando Tax4FunouPICRUSt [161,162]. EnquantoTax4Funé umR-algoritmo baseado utilizandoSILVAcomo referência,PICRUSté um pipeline de bioinformática que agrupa sequências de proteínas com base nas famílias de genes KEGG ou COG e nos números de cópias do gene 16S rRNA. Ambos fornecem aproximação de perfis funcionais em um determinado conjunto de dados. (iii) Visualização de dados: As OTUs resultantes e os índices de dissimilaridade podem ser então utilizados para avaliar diferenças dentro e entre amostras e visualizados usandoR Biocondutor pacotefiloseq [163]. Várias questões convencionais como coleta, preservação e transferência podem diminuir a qualidade de amostras valiosas. Isso criou um obstáculo na exploração de amostras clínicas e de ambientes extremos. Este problema foi resolvido até certo ponto por outra plataforma de sequenciamento de terceira geração, o sequenciador de DNA Oxford Nanopore MinION™ [150]. O sistema MinION incorpora um nanoporo de proteína incorporado em uma membrana de polímero eletricamente resistente, onde uma corrente iônica passa através do nanoporo, definindo uma voltagem através desta membrana.(Figura 3C). Uma interrupção característica na corrente quando fitas de DNA ou RNA ou nucleotídeos únicos são conduzidos através do nanoporo permite que as sequências sejam lidas em tempo real, resultando em comprimentos de leitura mais longos. É importante ressaltar que o sistema MinION é um sistema portátil que oferece agilidade para sequenciar amostras em condições extremas. Muitos estudos recentes comprovam a aplicabilidade ágil do sequenciamento MinION, incluindo a caracterização de amostras do vírus Ebola em seu recente surto na África Ocidental, o estudo do vírus Zika no nordeste do Brasil ou a genotipagem de tipagem de sequência multilocus de resistentes à vancomicina.Enterococos[63,151]. Atualmente, MinION fornece>Rendimento de 10 Gbp por célula de fluxo com >Cobertura de leitura 10 vezes mais longa, mesmo de genomas pouco abundantes (<1%) [151,152]. Notavelmente, taxas de erro mais altas (∼30%) observados para os primeiros sistemas MinION foram reduzidos para uma faixa moderada entre 2 e 13%. Mas as aplicações em larga escala do MinION ainda são limitadas devido às taxas de erro mais altas em comparação com o sequenciamento shotgun, baixa cobertura e alto nível de variabilidade entre execuções. No entanto, artigos recentes sugeriram uma abordagem híbrida para aplicações metagenômicas MinION. Esses estudos mostraram que os desafios da metagenômica não podem ser resolvidos apenas com leituras mais longas, mas que são necessárias leituras mais precisas para uma melhor resolução. Recentemente abordagens híbridas foram frequentemente aplicadas para conjuntos de genomas completos de peixes- palhaço eSaccharomyces cerevisiaegenomas [153,154]. Além disso, investigações sobre metagenomas intestinais de pacientes submetidos a tratamento com antibióticos e estudos sobre a identificação de formas nativas de múltiplos vírus de RNA também utilizaram uma abordagem híbrida para obter dados de microbioma [155,156]. Eventualmente, a tecnologia emergente de sequenciamento e a necessidade de metodologias híbridas levaram ao desenvolvimento deAbelha atarefada,uma ferramenta da Web de binning independente de referência que aceita contigs montados pela Illumina e leituras longas do PacBio e MinION [157]. Abordagem metagenômica shotgun Esta abordagem cataloga de forma abrangente todos os genes de um conjunto diversificado de genomas microbianos presentes em uma amostra. As plataformas de sequenciamento atuais são amplamente classificadas como tecnologias de leitura curta (250–300 pb; Illumina) que oferecem maiores profundidades de sequenciamento ou tecnologias de leitura longa (500–4000 pb; PacBio e Oxford Nanopore) que oferecem melhor montagem contig. Eventualmente, qualquer um deles ainda depende do processamento de sequência ideal, incluindo a montagem adequada: (i) Filtragem de qualidade: o sequenciamento metagenômico abriga grande heterogeneidade nas leituras em comparação com a abordagem do gene alvo. A heterogeneidade nas leituras metagenômicas refere-se principalmente à má qualidade ou às sequências auxiliares do adaptador/gancho que são removidas durante as etapas de filtragem de qualidade. Para plataformas de sequenciamento de leitura curta, como Illumina e Solexa, as leituras de extremidade emparelhada e de extremidade única podem ser aparadas de maneira ideal usando Trimomático, FoiceeBBTools. Além de módulos dedicados para cortar sequências de leitura curta, ele também pode ser utilizado para sequências de leitura longa. As leituras processadas com filtragem de qualidade são posteriormente passadas pelobaseado em montageme análise baseada em referência(painel direito,Figura 4). (ii) Análise baseada em referências: Esta análise envolve principalmente o alinhamento com bases de dados (NCBI ou um repositório customizado como SILVA) para gerar catálogo taxonômico das comunidades: Protocolo computacional de melhores práticas para aquisição de microbioma (a) Taxonomia: O perfil composicional de comunidades a partir de dados de sequenciamento metagenômico pode ser feito de maneira ideal usando genes marcadores específicos de clado únicos identificados a partir de 3.000 genomas de referência (MetaPhlAn)ou por alinhamentos exatos dek-mers junto com um algoritmo de classificação (Kraken). (b) Anotação funcional: O perfil funcional de comunidades metagenômicas pode ser realizado de forma otimizada usando HUMANN2ouMeganoleodutos.HUMANN2implementa uma tela de alinhamento bifásico comMetaPhlAn, seguido por pangenomas funcionalmente anotados das espécies identificadas.Meganfaz anotações usando classificações de sementes através da ortologia KEGG e classificações COG/ NOG. Por muito tempo lê oDIAMANTEO alinhador de sequência pode ser usado sozinho ou comMeganpara realizar alinhamentos de pares e frameshift. Parasimplificar o processo de condução de tais estudos, implementamos um fluxo de trabalho de melhores práticas. Esses protocolos padronizados ajudarão a obter análises mais robustas e reprodutíveis para dados de sequenciamento metagenômico do gene alvo e shotgun. Uma visão geral sobre as etapas individuais do fluxo de trabalho é apresentada emFigura 4. Todos os scripts e uma documentação detalhada estão disponíveis no GitHub no seguinte link (https://github.com/grimmlab/ MicrobiomeBestPracticeReview). Abordagem do gene alvo As leituras brutas são filtradas com qualidade e processadas porOTU- baseado (mãe) [159] ouASV-baseado (DADA2) [158] métodos que utilizam um limite de dissimilaridade (painel esquerdo,Figura 4) são usados para processamento e análise de dados baseados em OTU na seção abaixo: Baixado de https://academ ic.oup.com /bib/article/22/1/178/5678919 pelo usuário da U niversidade Estadual Paulista Júlio de M esquita Filho em 06 de agosto de 2021 https://github.com/grimmlab/MicrobiomeBestPracticeReview https://github.com/grimmlab/MicrobiomeBestPracticeReview Protocolos de melhores práticas em análise de microbioma 187 Figura 4. Protocolo de melhores práticas para aquisição e análise de amplicons direcionados e dados metagenômicos shotgun, desde o sequenciamento até a anotação funcional. O fluxo básico das etapas experimentais seguidas pelas etapas de pré-processamento e análise downstream é mostrado. Em cada etapa, também são mostradas as ferramentas ideais utilizadas durante o processo. Todos os scripts estão disponíveis emhttps://github.com/grimmlab/MicrobiomeBestPracticeReview. (iii) Análise baseada em montagem: Esta é uma análise mais abrangente utilizandode novomontadores para dados de sequenciamento metagenômico. Os três algoritmos de montagem mais ideais são MegaHit, MetaSPadeseMetaIDBAdescrito nas seções anteriores (painel direito,Figura 4). (b)Estatísticas de montagem: Esta etapa é um pré-requisito para cálculos de remapeamento/cobertura e análise comparativa.SAM As ferramentas (Mapa de Alinhamento de Sequência) executam de maneira ideal a classificação e a indexação junto com a geração de alinhamento. Da mesma forma, para genomas muito grandes,BBMapapoderia ser preferido que pudesse lidar igualmente com sequências de leitura curta e longa da Illumina, PacBio ou MinION. (c)Análise comparativa: A análise comparativa incorpora previsões genéticas baseadas em algoritmos e vias metabólicas (a)Montagem contig: As leituras montadas são agrupadas em contigs e avaliadas porMetaQUAST [164] que os compara com montagens de metagenoma com base em alinhamentos para fechar referências. Baixado de https://academ ic.oup.com /bib/article/22/1/178/5678919 pelo usuário da U niversidade Estadual Paulista Júlio de M esquita Filho em 06 de agosto de 2021 https://github.com/grimmlab/MicrobiomeBestPracticeReview 188 Bharti e Grimm identificações.Prokkaanota os dados prevendo genes usando Pródigoe então realiza anotação funcional nesses genes [165]. Para pesquisa de homologia Prokkausa bancos de dados CDD, PFAM e TIGRFAM sobre produção pródiga de proteínas traduzidas. Além disso, oMinPath algoritmo [166] poderia ser implementado para reconstruções de vias biológicas com base em previsões de famílias de proteínas. (d)Armazenamento: Após os cálculos de remapeamento e cobertura, o agrupamento ou agrupamento dos contigs gerados é feito antes de uma análise posterior posterior. QualquerMetaBATcom um algoritmo de binning adaptativo ouMaxBinque utiliza um algoritmo EM pode ser usado para binning metagenômico de contig. (e)Refinamento: As etapas de remapeamento e refinamento pós- binning são utilizadas para gerar perfis taxonômicos e anotação de quaisquer novos genomas presentes nas amostras. Ambos VerificaçãoM [167] ebin-refinador [168] são usados de maneira ideal para estimar a integridade e contaminação do genoma. Perfis taxonômicos e identificação de novo genoma podem ser realizados de forma otimizada usando o descrito acimaKraken [ 114] eDiamantealgoritmos [121] com ou sem oMegan pipeline [ 117]. traçando o perfil de transcritos de mRNA gerados sob diferentes condições ambientais. Para auxiliar na análise de alta resolução, uma maior cobertura de informações genômicas das condições ambientais pela metagenômica shotgun poderia ser fundida com a metatranscriptômica. A metaproteômica, por outro lado, envolve a análise de perfis proteicos associados ao microbioma, fornecendo informações sobre a função diretamente sob diferentes condições ambientais. No entanto, o perfil de proteínas comunitárias depende mais fortemente da precisão dos dados metagenómicos. A análise espectrométrica de massa de diferentes peptídeos gerados a partir de uma amostra ambiental pode ser combinada com as proteínas previstas na análise metagenômica. No geral, o futuro dos projetos de genes-alvo e metagenômica não depende apenas de recursos computacionais emergentes, mas também de metodologias de sequenciamento mais aprofundadas e complementares. Isto acabará por ajudar a reafirmar a confiabilidade dos dados de sequenciamento e a estabelecer abordagens mais abrangentes para delinear os perfis funcionais de amostras ambientais. Conclusões Tanto o gene alvo quanto as abordagens de sequenciamento metagenômico são fundamentais para decifrar uma infinidade de papéis que são desempenhados por microrganismos ambientais. No entanto, tanto o sequenciamento quanto os métodos computacionais ainda sofrem de muitos vieses devido a erros no manuseio de amostras, erros experimentais e análise de bioinformática a jusante. Assim, as melhorias nas tecnologias de sequenciação e o desenvolvimento de novas ferramentas e algoritmos computacionais devem sempre basear-se em conhecimentos prévios, por exemplo, advertências conhecidas em cada etapa de processamento da amostra. Os fatores que potencialmente influenciam o pré-processamento, bem como a análise posterior de dados de leitura curta e longa, incluindo preparação de amostras, sequenciamento, armazenamento, montagem e anotações funcionais, devem ser catalogados com precisão. Aqui, tentamos listar os desafios e os protocolos de melhores práticas utilizados durante a aquisição do microbioma usando 16S rRNA e sequenciamento metagenômico. Isto é importante devido aos grandes e crescentes paradigmas de ferramentas computacionais que foram desenvolvidos nos últimos anos para analisar dados de sequenciamento de leitura longa e curta. Aqui, fornecemos um fluxo de trabalho de ferramentas testadas de maneira otimizada, disponíveis para processar amostras de sequenciamento, estimar abundâncias microbianas e classificação, montagem e anotações funcionais. Além disso, também discutimos os desafios experimentais com uma revisão sistemática das etapas envolvidas no 16S rRNA e na metagenômica shotgun. Os desafios experimentais são responsáveis principalmente por fatores responsáveis pela contaminação em genomas microbianos isolados e variações resultantes nos perfis microbianos. Embora a improvisação gradual desses fatores tenha sido implementada, dados de sequenciamento extensos e multicamadas permanecem sujeitos a erros em vários níveis. Portanto, acreditamos que a utilização e a conscientização dos métodos integrados descritos aqui não apenas ajudarão a melhorar a confiabilidade dos resultados do sequenciamento, mas também reduziriam a variabilidade nas etapas de geração e processamento de dados. Análise downstream e estatística A análise de dados microbianos é um desafio devido à sua estrutura de dados grande e multivariada. Em geral, é difícil fornecer um pipeline de melhores práticas para uma análise estatística simples porque depende muito dos objetivos centrais do estudo e da hipótese subjacente. No entanto, houve enormes esforços para desenvolver ferramentas que facilitassem essas análises. Duas ferramentas amplamente utilizadas para análise estatística downstream de dados microbianossãoCalipso [169] eAnalista de Microbioma [170].Calipso pode ser usado para realizar análises composicionais de grandes conjuntos de dados metagenômicos com testes estatísticos univariados e multivariados e representações de dados.Analista de Microbioma fornece várias opções para perfil comunitário, perfil funcional e visualização de rede metabólica para dados metagenômicos de amplicon e shotgun. Além dessas, existem ferramentas adicionais de análise estatística e visualização, incluindo MetavizePUMA [171,172]. Além disso, uma visão geral detalhada sobre análise estatística de dados microbianos é descrita em resenhas recentes e capítulos de livros [173,174,175,176]. Desafios futuros Espera-se que os atuais desenvolvimentos computacionais produzam soluções eficientes e escaláveis. No entanto, ainda é vital implementar múltiplas estratégias de alto rendimento para reafirmar a precisão das descobertas genômicas. Para descrever corretamente os genomas com suas respectivas funções ambientais, os vieses na saturação da amostragem devem ser abordados melhorando a resolução da análise genômica. Isto requer necessariamente uma análise mais profunda das comunidades de baixa complexidade através de tecnologias metatranscriptómicas e metaproteómicas comparativamente mais modernas. Isto ajudará a abordar informações biológicas anteriormente não obtidas de microbiomas que eventualmente ajudariam na criação de melhores aplicações terapêuticas e biotecnológicas. Metatranscriptômica é a análise de transcrições comunitárias isoladas diretamente de múltiplos ambientes, mostrando variabilidade nas composições do microbioma. Os dados metatranscriptómicos correlacionam-se diretamente com a assinatura taxonómica das comunidades e a sua função Pontos chave • A NGS revolucionou a escalabilidade, a velocidade e a relação custo-benefício para realizar uma ampla gama de estudos, incluindo a análise de comunidades microbianas associadas ao hospedeiro e ao ambiente. Baixado de https://academ ic.oup.com /bib/article/22/1/178/5678919 pelo usuário da U niversidade Estadual Paulista Júlio de M esquita Filho em 06 de agosto de 2021 Protocolos de melhores práticas em análise de microbioma 189 11.Qin J, Li R, Raes J,e outros.Um catálogo de genes microbianos do intestino humano estabelecido por sequenciamento metagenômico.Natureza 2010; 464:59–65. 12. Thompson LR, Sanders JG, McDonald D,e outros.Um catálogo comunitário revela a diversidade microbiana multiescala da Terra. Natureza2017;551:457–63. 13. van Bakel H, Nislow C, Blencowe BJ,e outros.A maioria das transcrições de “matéria escura” estão associadas a genes conhecidos.PLoS Biol 2010;8:e1000371. 14. Weisburg WG, Barns SM, Pelletier DA,e outros.Amplificação de DNA ribossômico 16S para estudo filogenético.J Bacteriol 1991; 173:697–703. 15. Pel J, Leung A, Choi WWY,e outros.Geração rápida e altamente específica de bibliotecas de sequenciamento de DNA direcionadas, possibilitadas pela ligação de sondas de captura com primers universais.PLoS Um 2018;13 :e0208283. 16. Baker GC, Smith JJ, Cowan DA. Revisão e reanálise de primers 16S específicos de domínio.Métodos J Microbiol 2003;55:541–55. 17. Woo PC, Lau SK, Teng JL,e outros.Antes e agora: uso do sequenciamento do gene 16S rDNA para identificação bacteriana e descoberta de novas bactérias em laboratórios de microbiologia clínica.Clin Microbiol Infectar2008;14:908–34. 18. Janda JM, Abbott SL. Sequenciamento do gene 16S rRNA para identificação bacteriana no laboratório de diagnóstico: vantagens, perigos e armadilhas.J Clin Microbiol2007;45:2761–4. 19. Yu Z, Garcia-Gonzalez R, Schanbacher FL,e outros.Avaliações de diferentes regiões hipervariáveis de genes 16S rRNA de archaeal no perfil de metanógenos por PCR específico para Archaea e eletroforese em gel de gradiente desnaturante.Appl Ambiente Microbiol2008;74:889–93. 20. Raja HA, Miller AN, Pearce CJ,e outros.Identificação de fungos utilizando ferramentas moleculares: uma cartilha para a comunidade de pesquisa de produtos naturais.J Nat Prod2017;80:756–70. 21. De Filippis F, Laiola M, Blaiotta G,e outros.Diferentes alvos de amplicon para estudos de diversidade fúngica baseados em sequenciamento. Appl Ambiente Microbiol2017;83:e00905-17. 22. Ferreira RM, Pereira-Marques J, Pinto-Ribeiro I,e outros.O perfil da comunidade microbiana gástrica revela uma microbiota disbiótica associada ao câncer.Intestino2018;67:226–36. 23. Qin J, Li Y, Cai Z,e outros.Um estudo de associação de todo o metagenoma da microbiota intestinal no diabetes tipo 2. Natureza 2012;490:55–60. 24. Ott SJ, Waetzig GH, Rehman A,e outros.Eficácia da transferência de filtrado fecal estéril no tratamento de pacientes com infecção por Clostridium difficile.Gastroenterologia2017;152: 799–811 e797. 25. Adolph TE, Tomczak MF, Niederreiter L,e outros.Células de Paneth como local de origem da inflamação intestinal.Natureza 2013;503 :272–6. 26. Arlt A, Bharti R, Ilves I,e outros.Mudanças características na composição da comunidade microbiana e expressão de genes da imunidade inata na apendicite aguda.Imunidade Inata 2015;21 :30–41. 27. Tschurtschenthaler M, Adolph TE, Ashcroft JW,e outros. A remoção defeituosa de IRE1alfa mediada por ATG16L1 leva à ileíte semelhante à doença de Crohn.J Exp Med2017;214:401–22. 28. Handelsman J. Metagenômica: aplicação da genômica a microrganismos não cultivados.Microbiol Mol Biol Rev. 2004;68 :669–85. 29. Gilbert JA, Dupont CL. Metagenômica microbiana: além do genoma.Ann Rev Mar Sci2011;3:347–71. 30. Escobar-Zepeda A, Vera-Ponce de León A, Sanchez-Flores A. O caminho para a metagenómica: da microbiologia ao ADN • Para estudar a composição microbiana, o gene alvo e o sequenciamento metagenômico são métodos comumente usados para investigar a composição de genes e novos genomas em vários ambientes. • A configuração experimental e a análise de dados são tarefas propensas a erros, o que pode levar a uma alta variabilidade no sequenciamento de leitura curta e longa e na análise de dados. • A padronização da aquisição e análise de dados de sequenciamento é crucial para a obtenção de resultados comparáveis e reprodutíveis. Este artigo fornece uma visão geral sobre desafios experimentais e computacionais, incluindo protocolos de melhores práticas para análise de dados de amplicon e metagenômica. Dados suplementares Dados complementares estão disponíveis online emhttps://acadêmico. oup.com/bib Reconhecimentos Não aplicável. Financiamento Não aplicável. Referências 1. Reese AT, Dunn RR. Impulsionadores da biodiversidade do microbioma: uma revisão das regras gerais, fezes e ignorância. MBio 2018;9:e01294-18. 2. Turnbaugh PJ, Ley RE, Hamady M,e outros.O projeto do microbioma humano.Natureza2007;449:804–10. 3. Kamada N, Seo SU, Chen GY,e outros.Papel da microbiota intestinal na imunidade e nas doenças inflamatórias.Nat Rev Immunol 2013;13:321–35. 4. Philippot L, Raaijmakers JM, Lemanceau P,e outros.Voltando às raízes: a ecologia microbiana da rizosfera.Nat Rev Microbiol2013; 11:789–99. 5. Zilber-Rosenberg I, Rosenberg E. Papel dos microrganismos na evolução de animais e plantas: a teoria da evolução do hologenoma.FEMS Microbiol Rev.2008;32: 723–35. 6. Simon JC, Marchesi JR, Mougel C,e outros.Interações hospedeiro- microbiota: da teoria holobiont à análise.Microbioma 2019;7:5. 7. Alivisatos AP, Blaser MJ, Brodie EL,e outros.MICROBIOME. Uma iniciativa unificada para aproveitar os microbiomas da Terra.Ciência 2015;350:507–8. 8. Moran NA, Sloan DB. O conceito de hologenoma: útil ou vazio? PLoS Biol2015;13:e1002311. 9. Rosenberg E, Koren O, Reshef L,e outros.O papel dos microrganismos na saúde, doença e evolução dos corais.Nat Rev Microbiol2007;5:355–62. 10. Rosenberg E, Sharon G, Zilber-Rosenberg I. A teoria hologenômica da evolução contém aspectos Lamarckianos dentro de uma estrutura darwiniana.Microbiol Ambiental2009;11: 2959–62. Baixado de https://academ ic.oup.com /bib/article/22/1/178/5678919pelo usuário da U niversidade Estadual Paulista Júlio de M esquita Filho em 06 de agosto de 2021 https://academic.oup.com/bib https://academic.oup.com/bib 190 Bharti e Grimm tecnologias de sequenciamento e Bioinformática.Geneta Frontal 2015; 6:348. 31. Quince C, Walker AW, Simpson JT,e outros.Metagenômica shotgun, da amostragem à análise.Nat Biotecnologia 2017;35 :833–44. 32. Riesenfeld CS, Schloss PD, Handelsman J. Metagenômica: análise genômica de comunidades microbianas.Annu Rev Genet 2004;38 :525–52. 33. Kristensen DM, Mushegian AR, Dolja VV,e outros.Novas dimensões do mundo dos vírus descobertas através da metagenômica. Tendências Microbiol2010;18:11–9. 34. Luo C, Tsementzi D, Kyrpides N,e outros.Comparações diretas das tecnologias de sequenciamento Illumina vs. Roche 454 na mesma amostra de DNA da comunidade microbiana.PLoS Um 2012;7:e30087. 35. Honaas LA, Altman NS, Krzywinski M. Desenho de estudo para estudos de sequenciamento.Métodos Mol Biol2016;1418:39–66. 36. Vandeputte D, Kathagen G, D'Hoe K,e outros.O perfil quantitativo do microbioma liga a variação da comunidade intestinal à carga microbiana.Natureza2017;551:507–11. 37. Kadam P, Bhalerao S. Cálculo do tamanho da amostra.Int J Ayurveda Res.2010;1:55–7. 38. Martin TC, Visconti A, Spector TD,e outros.Realização de estudos metagenômicos em microbiologia e pesquisa clínica.Appl Microbiol Biotecnologia2018;102:8629–46. 39. Goodrich JK, Di Rienzi SC, Poole AC,e outros.Conduzindo um estudo de microbioma.Célula2014;158:250–62. 40. Laukens D, Brinkman BM, Raes J,e outros.Heterogeneidade do microbioma intestinal em camundongos: diretrizes para otimizar o desenho experimental.FEMS Microbiol Rev.2016;40:117–32. 41. Lundberg R, Bahl MI, Licht TR,e outros.Composição da microbiota de camundongos colonizados simultaneamente alojados sob um isolador gnotobiótico ou em regime de gaiola ventilada individualmente. Representante Científico2017;7: 42245. 42. Robertson SJ, Lemire P, Maughan H,e outros.Comparação de métodos de cohousing e de ninhada para padronização da microbiota em modelos de camundongos.Representante de célula2019;27:1910–1919 e1912. 43. Dugan VG, Emrich SJ, Giraldo-Calderon GI,e outros.Metadados padronizados para sequências genômicas de patógenos/vetores humanos.PLoS Um2014;9:e99979. 44. Moore RJ, Stanley D. Considerações de design experimental em estudos de microbiota/inflamação.Clin Transl Imunologia 2016;5 :e92. 45. Fritz JV, Desai MS, Shah P,e outros.Da metaômica à causalidade: modelos experimentais para pesquisa do microbioma humano. Microbioma2013;1:14. 46. Caruana EJ, Roman M, Hernandez-Sanchez J,e outros.Estudos longitudinais.J Thorac Dis2015;7:E537–40. 47. Gilbert JA, Lynch SV. Ecologia comunitária como estrutura para pesquisa do microbioma humano.Nat Med2019;25: 884–9. 48. Elevar os padrões na investigação do microbioma.Nat Microbiol 2016;1:16112. 49. Thomas T, Gilbert J, Meyer F. Metagenômica - um guia da amostragem à análise de dados.Exp de informação microbiana2012;2:3. 50. Salter SJ, Cox MJ, Turek EM,e outros.A contaminação de reagentes e laboratórios pode impactar criticamente as análises de microbiomas baseadas em sequências.BMC Biol2014;12:87. 51. Cuthbertson L, Rogers GB, Walker AW,e outros.O tempo entre a coleta e o armazenamento influencia significativamente a composição da sequência bacteriana em amostras de escarro de infecções respiratórias por fibrose cística.J Clin Microbiol 2014;52 :3011–6. 52. Dominianni C, Wu J, Hayes RB,e outros.Comparação de métodos de coleta de bioespécimes do microbioma fecal.Microbiol BMC 2014;14:103. 53. Choo JM, Leong LE, Rogers GB. As condições de armazenamento das amostras influenciam significativamente os perfis do microbioma fecal.Representante Científico 2015;5: 16350. 54. Toque J, Cools-Portier S, Pavan S,e outros.Efeitos do armazenamento a longo prazo de amostras de microbiota fecal humana coletadas em RNAlater. Representante Científico2019;9:601. 55. Lu Y, Hugenholtz P, Batstone DJ. Avaliação de métodos de extração de DNA para o perfil comunitário da comunidade microbiana do intestino posterior de suínos.PLoS Um2015;10:e0142720. 56. Psifidi A, Dovas CI, Bramis G,e outros.Comparação de onze métodos para extração de DNA genômico adequados para genotipagem de todo o genoma em larga escala e banco de DNA de longo prazo usando amostras de sangue.PLoS Um2015;10:e0115960. 57. Wen C, Wu L, Qin Y,e outros.Avaliação da reprodutibilidade do sequenciamento de amplicons com a plataforma Illumina MiSeq.PLoS Um2017;12:e0176716. 58. Jones MB, Highlander SK, Anderson EL,e outros.A metodologia de preparação de bibliotecas pode influenciar as previsões genômicas e funcionais na pesquisa do microbioma humano.Proc Natl Acad Sci EUA2015;112:14024–9. 59. Koren S, Phillippy AM. Um cromossomo, um contig: genomas microbianos completos a partir de sequenciamento e montagem de leitura longa.Curr Opin Microbiol2015;23:110–20. 60. Nakano K, Shiroma A, Shimoji M,e outros.Vantagens do sequenciamento do genoma por sequenciador de longa leitura utilizando tecnologia SMRT na área médica.Célula zumbida2017;30:149–61. 61. Ardui S, Ameur A, Vermeesch JR,e outros.O sequenciamento de molécula única em tempo real (SMRT) atinge a maioridade: aplicações e utilidades para diagnósticos médicos.Res de ácidos nucleicos2018; 46: 2159–68. 62. Tyler AD, Mataseje L, Urfano CJ,e outros.Avaliação do dispositivo de sequenciamento MinION da Oxford Nanopore para aplicações de sequenciamento do genoma microbiano.Representante Científico2018;8: 10931. 63. Jain M, Olsen HE, Paten B,e outros.The Oxford Nanopore MinION: entrega de sequenciamento de nanoporos à comunidade genômica.Genoma Biol2016;17:239. 64. Levy SE, Myers RM. Avanços no sequenciamento de próxima geração.Annu Rev Genômica Hum Genet2016;17:95–115. 65. Treangen TJ, Salzberg SL. DNA repetitivo e sequenciamento de próxima geração: desafios e soluções computacionais.Nat Rev Genet2011;13:36–46. 66. Fricke WF, Rasko DA. Sequenciamento do genoma bacteriano na clínica: desafios e soluções da bioinformática.Nat Rev Genet2014; 15:49–55. 67. Cole JR, Wang Q, Peixe JA,e outros.Projeto de banco de dados ribossômico: dados e ferramentas para análise de rRNA de alto rendimento.Res de ácidos nucleicos2014;42:D633–42. 68. Kuczynski J, Lauber CL, Walters WA,e outros.Ferramentas experimentais e analíticas para estudar o microbioma humano. Nat Rev Genet2011;13:47–58. 69. McIntyre ABR, Ounit R, Afshinnekoo E,e outros.Benchmarking abrangente e abordagens de conjunto para classificadores metagenômicos.Genoma Biol2017;18:182. 70. Sczyrba A, Hofmann P, Belmann P,e outros.Avaliação crítica da interpretação do metagenoma - uma referência de software metagenômico.Métodos Nat2017;14:1063–71. 71. Westcott SL, Schloss PD. Os métodos de agrupamento de novo superam os métodos baseados em referência para atribuir sequências do gene 16S rRNA a unidades taxonômicas operacionais. PeerJ 2015;3:e1487. Baixado de https://academ ic.oup.com /bib/article/22/1/178/5678919 pelo usuário da U niversidade Estadual Paulista Júlio de M esquita Filho em 06 de agosto de 2021 Protocolos de melhores práticas em análise de microbioma 191 72. Tikhonov M, Leach RW, Wingreen NS. Interpretação de dados metagenômicos 16S sem agrupamento para obter resolução sub-OTU.ISME J2015;9:68–80. 73. Callahan BJ, McMurdie PJ, Holmes SP. Variantes de sequência exata devem substituir unidades taxonômicas operacionais na análise de dados de genes marcadores.ISME J2017;11:2639–43. 74. Bolger AM, Lohse M, Usadel B. Trimmomatic: um aparador flexível para dados de sequência Illumina.Bioinformática 2014;30:2114– 20. 75. Bowtie LBA ssrw, Bioinformática CP.Capítulo 11: Unidade 2010;11 :17. 76. Li H, Durbin R. Alinhamento de leitura curta rápido e preciso com transformação de tocas-rodas.Bioinformática2009;25:1754–60. 77. Schmieder R, Edwards R. Rápida identificação e remoção de contaminação de sequências de