Buscar

Current challenges and best-practice protocols for microbiome analysis, Bharti e Grimm, 2021 en pt

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 16 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 16 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 16 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Briefings em Bioinformática,22(1), 2021, 178–193
doi: 10.1093/bib/bbz155
Data de publicação com acesso antecipado: 18 de dezembro de 2019 
Artigo de revisão
Desafios atuais e protocolos de melhores práticas para 
análise de microbioma
Richa Bharti e Dominik G. Grimm
Autor correspondente: Dominik G. Grimm, Universidade de Ciências Aplicadas e Universidade Técnica de Weihenstephan-Triesdorf de Munique, TUM Campus Straubing 
para Biotecnologia e Sustentabilidade, Schulgassse 22, 94315 Straubing, Alemanha. Tel.: +49 (0)9421-187230; Fax: +49 (0)9421-187285;
E-mail: dominik.grimm@hswt.de
Abstrato
A análise do microbioma de diversas espécies e ambientes usando técnicas de sequenciamento de última geração melhorou significativamente 
nossa compreensão sobre os papéis metabólicos, fisiológicos e ecológicos dos microrganismos ambientais. No entanto, a análise do microbioma é 
afetada por condições experimentais (por exemplo, erros de sequenciação e repetições genómicas) e análises a jusante computacionalmente 
intensivas e complicadas (por exemplo, controlo de qualidade, montagem, armazenamento e análises estatísticas). Além disso, a introdução de 
novas tecnologias e protocolos de sequenciação levou a uma enxurrada de novas metodologias, que também têm um efeito imediato nos 
resultados das análises. O objetivo deste trabalho é revisar os fluxos de trabalho mais importantes para sequenciamento de 16S rRNA e 
metagenômica shotgun e de leitura longa, bem como fornecer protocolos de melhores práticas em design experimental, processamento de 
amostras, sequenciamento, montagem, binning, anotação e visualização. . Para simplificar e padronizar a análise computacional, fornecemos um 
conjunto de fluxos de trabalho de melhores práticas para 16S rRNA e dados de sequenciamento metagenômico (disponíveis emhttps://github.com/
grimmlab/MicrobiomeBestPracticeReview).
Palavras-chave:microbioma; sequenciamento de amplicons; Sequenciamento de RNAr 16S; metagenômica; conjunto; classificação funcional e 
taxonômica
Introdução ajudaram a redefinir a ideia anteriormente conceituada de 'holobionte', que 
incorpora associações simbióticas específicas entre hospedeiro e micróbio 
em um 'hologenoma' mais generalizado e inclusivo [5–7]. O hologenoma 
descreve a totalidade genética de genes hospedeiros e genes microbianos 
simbióticos/mutualistas que são afetados simultaneamente sob estresse 
ambiental.8]. Os estudos sobre a compreensão dos papéis do hologenoma 
foram impulsionados com os avanços no sequenciamento de próxima 
geração (NGS) que ajudaram a identificar com precisão as espécies 
microbianas e as vias metabólicas associadas [5,9,10]. Nos últimos 15 anos, 
o Projeto Microbioma Humano e o Projeto Microbioma Terrestre, 
juntamente com o NGS, melhoraram imensamente as áreas de novas 
previsões do genoma, associações genéticas, identificações de patógenos e 
análises clínicas.
Os recentes avanços no sequenciamento de alto rendimento ajudaram 
a desdobrar o material vivo mais abundante, o 'microbioma', e suas 
associações em diferentes ambientes. O microbioma existe como um 
componente essencial de diversos habitats, incluindo ar, solo, água e 
intestino de organismos simples e complexos.1,2]. Desempenha papéis 
cruciais nos processos metabólicos dos sistemas abióticos e bióticos, 
incluindo reciclagem e degradação mineral, fixação de nitrogênio, bem 
como modulação das respostas imunes do hospedeiro e produção de 
vitaminas e metabólitos secundários.3,4]. Eventualmente, o 
reconhecimento dos diversos papéis dos micróbios em numerosos 
sistemas bióticos e abióticos expandiu o escopo da microbiologia para 
além das culturas cultivadas em laboratório. Poderia
Richa Bharti é pesquisadora de pós-doutorado na TUM Campus Straubing for Biotechnology and Sustainability e na Weihenstephan-Triesdorf University of Applied Sciences. 
Sua pesquisa está focada na análise de dados metagenômicos e RNA-Seq e no desenvolvimento de ferramentas e pipelines de bioinformática para dados microbianos.
Dominik Grimm é professor de bioinformática na TUM Campus Straubing para Biotecnologia e Sustentabilidade e na Universidade de Ciências Aplicadas Weihenstephan-Triesdorf. Sua 
pesquisa está focada no desenvolvimento de ferramentas de bioinformática e aprendizado de máquina para análise de dados bio(médicos).
Submetido:24 de setembro de 2019;Recebido (na forma revisada):23 de outubro de 2019
© O(s) Autor(es) 2019. Publicado pela Oxford University Press.
Este é um artigo de Acesso Aberto distribuído sob os termos da Licença Creative Commons Attribution (http://creativecommons.org/licenses/by/4.0/), que permite 
reutilização, distribuição e reprodução irrestritas em qualquer meio, desde que a obra original seja devidamente citada.
178
Baixado de https://academ
ic.oup.com
/bib/article/22/1/178/5678919 pelo usuário da U
niversidade Estadual Paulista Júlio de M
esquita Filho em
 06 de agosto de 2021
Traduzido do Inglês para o Português - www.onlinedoctranslator.com
http://creativecommons.org/licenses/by/4.0/
http://www.oxfordjournals.org/
http://orcid.org/0000-0003-2085-4591
https://github.com/grimmlab/MicrobiomeBestPracticeReview
https://www.onlinedoctranslator.com/pt/?utm_source=onlinedoctranslator&utm_medium=pdf&utm_campaign=attribution
Protocolos de melhores práticas em análise de microbioma 179
figura 1. Uma ilustração de abordagens de amplicon direcionado e sequenciamento metagenômico. Uma visão geral esquemática que demonstra diversos tipos de amostras, juntamente com plataformas 
de sequenciamento comumente utilizadas, bem como etapas sistemáticas e graduais de processamento de dados.
diagnóstico [11,12]. No entanto, tem havido preocupações sobre a 
reprodutibilidade dos dados publicados de sequenciamento microbiano que 
consistem em grandes quantidades de sequências desconhecidas, também 
referidas como 'matéria escura' [11,13]. O manuseio incorreto das amostras, 
a variação no tamanho da amostra, a escolha dos métodos de extração de 
DNA, bem como as análises computacionais (por exemplo, ferramentas de 
filtragem de qualidade e montadores) podem levar a resultados 
inconsistentes. Além disso, a falta de padronização dos protocolos 
laboratoriais e computacionais introduz vários vieses, que podem levar a 
resultados não comparáveis.
Esta revisão discute os desafios experimentais e computacionais na 
aquisição e análise de 16S rRNA e dados metagenômicos, ao mesmo 
tempo em que foca nas vantagens, limitações e melhores práticas para 
manipulação e análise de dados. O artigo começa com uma revisão dos 
métodos de amplicon genético e de sequenciamento metagenômico e 
seus desafios experimentais, seguida de um fluxo de trabalho de 
análise de bioinformática de melhores práticas para padronizar a 
análise, bem como para alcançar robustez e reprodutibilidade.
são funcionalmente conservados através de distâncias filogenéticas e, 
portanto, também servem como um relógio molecular para estudar 
transições e mudanças evolutivas. O gene alvo mais comumente usado para 
identificação bacteriana é o 16S rRNA (ou 16S rDNA), que é o padrão ouro na 
tipagem microbiana.15,16]. O gene 16S rRNA codifica a pequena subunidade 
30S procariótica do complexo ribossômico 70S na maioria das bactérias e 
arquéias. Curiosamente, o gene 16S rRNA procariótico é distinto de seu 
homólogo eucariótico, o gene 18S rRNA que codifica a pequena subunidade 
ribossômica eucariótica (40S). O gene 16S rRNA altamente conservado 
implica o seu papel crucial na função e sobrevivência celular e, assim, 
constitui a base para a obtenção de uma classificação genómica precisa de 
táxons microbianos conhecidos e desconhecidos. Além disso, é mais fácil 
sequenciar genes 16S rRNA mesmo para amostras excessivamente grandes, 
devido ao seu tamanho relativamente curto.∼1542 pb). A sequência do gene 
consiste em locais de ligação de primers altamente conservados juntamente 
com nove regiões variáveis (V1 – V9). A maioria dos protocolos de 
genotipagem baseados em 16S rRNA usaregiões hipervariáveis V5-V6, V3-
V4 ou V4 para identificar e catalogar perfis microbianos [17,18]. 
Alternativamente, a região V3 é uma melhor escolha para o perfil 
comunitário deArqueiapor reação em cadeia da polimerase (PCR) – 
eletroforese em gel com gradiente desnaturante. Outras regiões variáveis, 
incluindo V1 – V2 e V3 – V4, têm sido utilizadas para genotipagem de 
espécies de arqueas em comunidades microbianas complexas [19]. Ao 
contrário das bactérias, a identificação de alvos genéticos em leveduras e 
fungos patologicamente importantes ainda não está bem determinada. O 
rDNA fúngico é composto por regiões espaçadoras codificantes e não 
codificantes [20,21]. A região codificante consiste em unidades 18S, 5,8S e 
28S, juntamente com várias regiões não codificantes que consistem 
principalmente em espaçadores transcritos internos (ITSs) e sequências 
intergênicas. As regiões variáveis ITS têm sido o alvo genético mais 
comumente utilizado para genotipagem de fungos. No entanto, 
comprimentos desiguais desses ITSs induzem erros e vieses, como 
amplificação e sequenciamento preferencial, muitas vezes levando a uma 
estimativa incorreta de abundância [21].
Genotipagem microbiana baseada em NGS
As duas metodologias mais comumente usadas para identificação 
microbiana e genotipagem são baseadas em genes amplicon/marcadores 
(por exemplo, 16S rRNA) e metagenômica shotgun (figura 1).
Sequenciamento de amplicon genético
Nos últimos 25 anos, o sequenciamento de amplicons genéticos tem sido a 
principal técnica para estudar a filogenia e a taxonomia de microbiomas 
complexos que anteriormente eram considerados difíceis de caracterizar.14
]. Para bactérias, arquéias, fungos e micobactérias, são identificados vários 
genes marcadores/alvo específicos que são amplamente utilizados para 
sequenciação de amplicons. A maioria dos genes marcadores
Baixado de https://academ
ic.oup.com
/bib/article/22/1/178/5678919 pelo usuário da U
niversidade Estadual Paulista Júlio de M
esquita Filho em
 06 de agosto de 2021
180 Bharti e Grimm
No entanto, o NGS baseado em 16S rRNA tem sido utilizado com 
sucesso na caracterização de comunidades microbianas associadas a 
vários ambientes, incluindo solo, fontes de água e intestino humano.
figura 1). Mais recentemente, a análise NGS baseada em 16S rRNA 
ajudou a identificar mudanças nas estruturas da comunidade 
microbiana, juntamente com as alterações associadas nas funções da 
comunidade. Ajudou notavelmente na estimativa da contaminação do 
solo e da água, bem como na obtenção de uma compreensão mais 
profunda de várias doenças associadas ao intestino, incluindo a 
doença de Crohn, colite ulcerosa, diabetes e cancros gastrointestinais [
22–27].
usado para configurações clínicas e interpretações. Foi relatado que a 
carga microbiana varia entre réplicas biológicas existentes em condições 
semelhantes [36]. Esta variabilidade entre amostras semelhantes torna 
difícil identificar sinais biológicos fracos, especialmente quando o 
tamanho efetivo é desconhecido ou pequeno. Na maioria dos casos, os 
resultados com amostras pequenas não representam com precisão os 
resultados baseados na população geral. É importante ressaltar que os 
tamanhos das amostras devem ser sempre mantidos fixos e não devem 
ser alterados durante o estudo [37]. Assim, a escolha de tamanhos de 
amostra apropriados com base em princípios estatísticos pode 
certamente ajudar a evitar preconceitos e interpretações espúrias.
• Controles: Os controles são necessários para identificar se um sinal 
é real e não apenas um resultado estocástico ou espúrio. Um 
experimento adequadamente controlado consiste em dois ou mais 
cenários: um produz observações sem interferências, enquanto os 
outros permanecem manipulações direcionadas [38,39]. 
Infelizmente, ainda é uma tarefa difícil obter controlos adequados 
em muitos casos, especialmente em ensaios clínicos onde a 
composição microbiana é afetada pela idade, sexo, etnia, dieta, 
genótipo e vários outros fatores de estilo de vida. Em estudos com 
animais, factores adicionais, tais como estirpes animais, 
instalações, condições de alojamento, manuseamento e 
reprodução, também podem afectar o perfil microbiano.40]. Vários 
estudos mostraram que animais co-alojados podem atuar como 
fatores de confusão ocultos devido à coprofagia.41,42]. Assim, é 
essencial replicar um estudo de co-alojamento, certificando-se de 
não co-alojar animais de genótipos diferentes, que podem ter 
aparências fenotípicas diferentes. Por outro lado, também foi 
descoberto que camundongos geneticamente idênticos em 
instalações diferentes exibem perfis bacterianos diferentes.42]. No 
entanto, deve-se tentar controlar e documentar o maior número 
possível de fatores para criar um arquivo de metadados detalhado 
(Tabela Suplementar S1). Esses fatores poderiam mais tarde ser 
usados em análises estatísticas posteriores para explicar fatores 
de confusão [43,44].
• Estudos transversais e longitudinais: Um estudo transversal incorpora 
análises comparativas de dois grupos, por exemplo, saudável versus 
doença ou tratamento versus placebo. Esses estudos são menos 
complexos de projetar e realizar e não requerem essencialmente longos 
acompanhamentos. No entanto, uma desvantagem significativa de tais 
estudos é que as diferenças observadas não são diretamente atribuídas 
a um único efeito/tratamento e podem ser devidas a vários efeitos 
aditivos ou multiplicativos.45]. É bem sabido que um microbioma pode 
ser alterado com base em muitos fatores ambientais que incluem estilo 
de vida e dieta. Portanto, do ponto de vista estatístico, é melhor realizar 
estudos longitudinais, onde a mesma amostra é estudada sob diferentes 
condições controladas [46]. No entanto, é igualmente importante 
planear cuidadosamente tempos de colheita de amostras idênticos para 
cada réplica, para evitar distorções. Apesar das vantagens associadas 
aos estudos longitudinais, apenas alguns métodos confiáveis estão 
disponíveis para análises posteriores [47].
• Metadados: Metadados são um catálogo de informações que contém 
detalhes de todas as amostras usadas em um experimento. A geração 
de metadados é uma das etapas mais críticas antes que qualquer análise 
posterior possa ser realizada. Além de servir como uma folha de 
referência de amostra, também ajuda a evitar falsas interpretações dos 
resultados e destaca o tamanho efetivo dos fatores individuais. O uso de 
metadados é necessário em diversas ferramentas modernas de 
comparação estatística [48]. Um exemplo de folha de metadados é 
fornecido como Tabela Suplementar S1 para referência.
Metagenômica
Metagenômica refere-se à análise genética direta de genomas obtidos em 
diferentes ambientes [28]. O termo metagenômica é frequentemente usado 
de forma imprecisa em conjunto com o sequenciamento do gene 16S rRNA. 
Embora o sequenciamento de 16S rRNA utilize uma abordagem de gene 
marcador e não atinja todo o genoma, a metagenômica, pelo contrário, é 
uma análise genômica independente da cultura de micróbios retirados 
diretamente do ambiente usando uma abordagem de sequenciamento 
shotgun em todo o genoma [29,30]. A metagenômica cataloga de forma 
abrangente todos os microrganismos presentes (não cultiváveis e 
cultiváveis, conhecidos e desconhecidos) em amostras ambientais 
complexas (figura 1). Em contraste com a análise filogenética unimodal 
baseada na diversidade de um único gene, por exemplo, o gene 16S rRNA, a 
metagenômica sistematiza a composição genética multimodal das 
comunidades microbianas e, portanto, fornece uma melhor resolução 
taxonômica e informação genômica [31,32]. A metagenômica auxilia na 
associação da função à filogenia além de criar perfis evolutivos da estrutura 
da comunidade microbiana. É importante ressaltar que também ajuda a 
identificar vírus que, de outra forma, seriam difíceis de detectar através de 
uma abordagem de direcionamento de um único gene, devido à sua alta 
diversidade genética e à sua incapacidadede discernir ligações genéticas 
comuns [33]. Nos últimos anos, o NGS moderno substituiu lentamente o 
sequenciamento clássico de Sanger como uma ferramenta preferida para o 
sequenciamento shotgun metagenômico. Os sistemas 454/Roche e Illumina/
Solexa foram amplamente utilizados para analisar amostras metagenômicas 
de uma infinidade de ambientes [34].
Apesar dos recentes avanços nas tecnologias de sequenciamento e 
nas ferramentas de análise computacional, muitos fatores podem levar 
a preconceitos e erros. Esses erros e vieses podem ser amplamente 
classificados em desafios experimentais e computacionais.Figura 2 
mostra uma visão geral dos desafios experimentais e computacionais 
comuns que são discutidos em detalhes nas seções a seguir.
Desafios e soluções experimentais
Desenho do estudo/desenho experimental
Um bom desenho de estudo ajuda a limitar tendências errôneas e obscuras 
frequentemente observadas em vários estudos baseados em microbiomas. 
Em geral, qualquer hipótese deve ser apoiada principalmente por evidências 
meticulosas baseadas na literatura e testes preliminares utilizando estudos 
piloto/em pequena escala para evitar incerteza nos sinais biológicos, ensaios 
e falhas. Um desenho de estudo racionalizado certamente ajudará a 
melhorar o processamento de dados e a eliminar efeitos de confusão [35]:
• Número de amostras: Selecionar um tamanho de amostra significativo continua a ser 
um passo fundamental, especialmente quando os resultados finais são
Baixado de https://academ
ic.oup.com
/bib/article/22/1/178/5678919 pelo usuário da U
niversidade Estadual Paulista Júlio de M
esquita Filho em
 06 de agosto de 2021
Protocolos de melhores práticas em análise de microbioma 181
Figura 2. Uma visão geral esquemática que descreve vários desafios experimentais e computacionais associados ao sequenciamento metagenômico baseado em 16S rRNA e shotgun.
Coleta e manuseio de amostras amostras microbianas. Comparando os perfis de rRNA 16S, foi 
demonstrado que a temperatura de armazenamento de curto prazo (14 
dias) tem um efeito insignificante na estrutura do microbioma e na 
diversidade das amostras [54]. Outro estudo sobre a microbiota fecal 
humana mostrou que a refrigeração rápida a -80◦C conserva a 
diversidade da microbiota que é significativamente alterada pelo 
armazenamento seco a 4◦C [53]. Assim, é igualmente importante manter 
condições de armazenamento consistentes para obter rendimentos 
óptimos de ácidos nucleicos antes da sequenciação.
O manuseio de amostras ambientais após a coleta é um aspecto crucial nos 
métodos de sequenciamento baseados em ácidos nucleicos para comparar a 
composição e a diversidade das comunidades microbianas. Na verdade, a 
coleta de amostras pode ser um fator de confusão significativo que pode 
afetar os resultados e interpretações de um estudo [49]. O problema mais 
comum é a variabilidade na quantidade de DNA microbiano presente em 
diferentes amostras ambientais. Por exemplo, as amostras de pele contêm 
comparativamente menos biomassa microbiana do que as amostras de 
intestino e, portanto, a recolha de amostras suficientes continua a ser um 
factor crucial para os resultados finais da sequenciação. A seguir listamos 
alguns parâmetros que devem ser considerados durante a coleta e 
manuseio da amostra:
Extração de ácido nucleico
A escolha dos métodos de isolamento de DNA/RNA pode causar vieses durante o 
sequenciamento, o que por sua vez afeta a análise a jusante. É importante 
ressaltar que o método de extração deve capturar efetivamente todos os tipos de 
micróbios. Por exemplo, o isolamento de DNA de bactérias gram-positivas é mais 
difícil, devido às suas espessas paredes celulares de peptidoglicano [55]. Existem 
duas metodologias principais de extração: (i) lise mecânica/batedor de esferas e (ii) 
lise química [56]. Considera-se que os métodos de beadbeating produzem 
rendimentos superiores se forem feitos de maneira otimizada. Assim, para 
amostras bacterianas complexas, uma etapa de 'beadbeating' poderia ser 
realizada antes da extração padrão de ácido nucleico. No entanto, a batida 
vigorosa das esferas deve ser evitada, uma vez que pode cortar os ácidos nucleicos 
e, eventualmente, afetar as etapas posteriores de preparação da biblioteca.
• Contaminação: Manter um ambiente de amostra adequado 
durante a coleta de amostras é importante, uma vez que mudanças 
na temperatura, umidade ou outros fatores podem alterar ou 
contaminar as amostras [49]. Além disso, a proximidade de 
amostras diferentes poderia levar à contaminação cruzada, o que 
poderia posteriormente gerar resultados espúrios. Além disso, 
minimizar o tempo de coleta de amostras e usar recursos 
laboratoriais assépticos, incluindo luvas, máscaras e protetores de 
cabeça, ajudam a reduzir a contaminação [50].
• Transporte: As condições e a duração do trânsito podem influenciar 
a qualidade e a quantidade dos ácidos nucleicos extraídos. A 
composição microbiana é instável desde o ponto de coleta da 
amostra e, portanto, o congelamento imediato é considerado 
obrigatório. Foi demonstrado que o período intermediário entre a 
coleta e o armazenamento da amostra pode levar a vários 
problemas nas fases posteriores da análise [51]. Assim, é crucial 
manter condições de armazenamento constantes durante o 
transporte de todas as amostras para evitar ciclos inconsistentes 
de congelamento e descongelamento. Além disso, vários métodos 
de preservação química são amplamente aceitos para coleta de 
amostras em locais remotos [52,53].
• Armazenamento e segurança: Vários estudos avaliaram o efeito das 
condições de armazenamento nas mudanças de composição em
Preparação de ácido nucleico
Para abordagens NGS de marcador único/gene alvo, a amplificação usando 
pares de iniciadores de código de barras, purificação e preparação de 
bibliotecas de DNA purificadas são feitas antes do sequenciamento. Illumina 
MiSeq fornece uma saída limitada (15 Gb) e é usado principalmente para 
sequenciamento de amplicon, pois fornece leituras mais longas (2×300 pb) 
com um custo de sequenciamento muito menor em comparação com outros 
sequenciadores de alto rendimento [57]. Curiosamente, a Illumina também 
oferece sequenciamento shotgun que gera leituras curtas de até 1,5 Tb por 
execução. Várias metodologias de isolamento de DNA estão disponíveis que
Baixado de https://academ
ic.oup.com
/bib/article/22/1/178/5678919 pelo usuário da U
niversidade Estadual Paulista Júlio de M
esquita Filho em
 06 de agosto de 2021
182 Bharti e Grimm
diferem com base em métodos de fragmentação e geram bibliotecas de 
sequenciamento com eficiência. Os kits de isolamento de DNA amplamente 
utilizados para a plataforma Illumina incluem Nextera DNA Flex, Nextera XT 
e TruSeq DNA PCR-Free [58]. Nextera DNA Flex suporta genomas grandes e 
pequenos com quantidades de DNA de entrada de 100–500 ng e 1–500 ng, 
respectivamente. Ele utiliza transpossomas ligados a esferas que geram 
simultaneamente tamanhos de fragmentos consistentes e marcam o DNA 
de entrada. Até 96 amostras metagenômicas multiplexadas podem ser 
sequenciadas usando indexação dupla exclusiva durante a preparação da 
biblioteca. Outro kit popular, Nextera XT, utiliza uma metodologia de 
fragmentação mediada por enzimas e requer apenas 1 ng de amostras de 
DNA de entrada. Usando este método, até 384 amostras indexadas 
exclusivamente podem ser agrupadas e sequenciadas. Por outro lado, 
TruSeq DNA PCR-Free, como o nome sugere, é um fluxo de trabalho livre de 
PCR e utiliza fragmentação mecânica de DNA e ligação de adaptador. Este 
método também requer pequenas quantidades de DNA de entrada (∼1ng).
Infelizmente, as técnicas NGS baseadas em leituras curtas têm 
aplicações limitadas na análise de genomas poliplóides devido à pura 
aplicabilidade do seu algoritmo a dados metagenómicos. Neste contexto, 
plataformas de sequenciamento de terceira geração, como as tecnologias de 
sequenciamento Pacific Biosciences RS II/Sequel e Oxford Nanopore 
MinION, provamser mais eficientes devido a tamanhos de leitura mais 
longos, resolução em nível de espécie e ausência de vieses baseados em 
amplificação de DNA [59,60]. Pacific Biosciences RS II/Sequel aprimorou os 
procedimentos de extração que incorporam a lise enzimática do DNA com 
um coquetel de enzimas que resulta na extração de fragmentos de DNA 
mais longos. Além disso, em comparação com o PacBio RS II, o PacBio 
Sequel aumentou a produção de DNA de∼0,5–1 Gb para∼5–10 GB [61]. No 
entanto, falhas convencionais como coleta, preservação e transferência 
ainda podem retroceder a qualidade da amostra e têm causado uma série 
de problemas na exploração de amostras clínicas e de ambientes extremos. 
Posteriormente, outra tecnologia de sequenciamento de terceira geração, o 
Oxford Nanopore MinION, aborda essas questões de forma confiável [62,63
]. Lançado em 2014, é portátil (tamanho de um pendrive) e oferece agilidade 
para sequenciar amostras em condições extremas. No entanto, os 
comprimentos de leitura produzidos pelo sequenciador de nanoporos 
MinION dependem principalmente de comprimentos de fragmentos de 
entrada que novamente requerem procedimentos meticulosos de extração e 
purificação.
desafios na análise de amplicon e sequenciamento metagenômico seguido por um 
fluxo de trabalho de melhores práticas sobre como conduzir tais análises de 
maneira ideal.
Desafios para análise de sequenciamento de amplicon
Uma das principais dificuldades para a análise baseada em marcadores 
genéticos é distinguir erros de sequenciamento de nucleotídeos reais. Para 
este propósito, existem duas categorias principais de ferramentas: (i) 
baseadas em unidades taxonômicas operacionais (OTU) (QIIME e Mothur)[
159–160] e (ii) baseada em variante de sequência de amplicon (ASV) (DADA2, 
Deblur, MED e UNOISE) [158,177–179] ferramentas (figura 1). Os métodos 
baseados em OTU resolvem erros de sequenciamento agrupando as leituras 
com base em um limite de identidade predefinido (geralmente 97%) em 
OTUs [71]. Por outro lado, as ferramentas baseadas em ASV utilizam uma 
abordagem de eliminação de ruído em sequências biológicas antes da 
introdução de erros de amplificação e sequenciamento [72]. Vários estudos 
comparativos entre esses dois métodos sugeriram que as OTUs fornecem 
menor resolução taxonômica em comparação com ASVs e uma escolha 
entre esses dois pode impactar amplamente as estimativas de diversidade 
alfa [73, 74–78]. Nesta revisão, descrevemos um fluxo de trabalho 
sistemático passo a passo para 16S rRNA usando métodos baseados em 
OTU e ASV, na próxima seção.
Desafios da análise de sequenciamento metagenômico
Um número crescente de ferramentas e algoritmos disponíveis para 
análises metagenômicas tornou a escolha dos métodos mais 
apropriados altamente desafiadora. As principais etapas envolvidas 
nas análises típicas de dados metagenômicos são montagem e 
binning, seguidas de perfil taxonômico e funcional (figura 1). Nas 
subseções seguintes, essas etapas são discutidas de forma 
abrangente, seguidas por uma descrição de um fluxo de trabalho 
sistemático contendo ferramentas e algoritmos ideais.
Controle de qualidade
O controle de qualidade é um pré-requisito essencial que envolve corte de 
qualidade e remoção de contaminação de leituras brutas. Enquanto o corte 
de qualidade filtra leituras brutas para sequências adaptadoras e de baixa 
qualidade, a remoção de contaminação detecta e remove com eficiência 
contaminações de sequências associadas ao host das leituras. Ambas as 
etapas são cruciais para produzir uma montagem ideal. Trimomático,foice,
BBToolseDeconSeqsão ferramentas amplamente utilizadas que utilizam
gravata borboletaeBWApara corte de qualidade e remoção de contaminação 
[74–77]. Em seguida, uma variedade de comprimentos de leitura gerados a 
partir de uma amostra ambiental são processados através deleitura curta
ouanálises metagenômicas de leitura longadependendo do desenho do 
estudo.
Sequenciamento e desafios computacionais
Desenvolvimentos recentes em tecnologias de sequenciamento resultaram 
em um aumento exponencial em novos métodos, algoritmos e ferramentas 
computacionais para anotações e análises funcionais [64]. No entanto, vários 
desafios computacionais ainda existem devido à complexidade dos dados 
biológicos subjacentes, à falta de informações adequadas de metadados e à 
escassez de formatos de dados padrão e recursos computacionais para 
dados de alto volume.Figura 2) [65,66]. Como a maior parte da interpretação 
biológica dos dados de sequenciamento depende dessas ferramentas, o 
benchmarking adequado, a disponibilidade de código aberto, a simplificação 
do processo de instalação e uma interface de usuário adequada devem 
ajudar a garantir a reprodutibilidade e a interpretabilidade dos resultados. 
Isto é importante, uma vez que a utilização de ferramentas diferentes para 
análises semelhantes resulta frequentemente em resultados, interpretações 
e preconceitos diferentes e não comparáveis. Portanto, é crucial que os 
projetos de pesquisa que dependem fortemente de ferramentas de 
bioinformática acessem e utilizem essas ferramentas de forma consciente. 
Existem várias ferramentas computacionais para dados de sequenciamento 
de rRNA 16S [67,68], bem como para dados metagenômicos de leitura curta 
(por exemplo Avaliação Crítica da Interpretação Metagenômica(CAMI)) [69,
70]. Nas seções a seguir, fornecemos uma visão geral do atual
Desafios na metagenômica de leitura curta
A principal vantagem do sequenciamento de leitura curta é sua capacidade de 
gerar bilhões de leituras de maneira massivamente paralela em uma única 
execução. A plataforma de sequenciamento Illumina é uma tecnologia de leitura 
curta que produz altas contagens de leitura a custos comparativamente mais 
baixos. No sequenciamento Illumina, uma biblioteca de DNA ligada ao adaptador é 
capturada usando oligonucleotídeos complementares ligados à superfície e 
posteriormente amplificada em clusters clonais distintos por amplificação de 
ponte.Figura 3A). O sequenciamento é feito em múltiplos ciclos por meio da 
geração de imagens de um terminador reversível marcado com fluorescência após 
cada adição de dNTP, que é então clivado para permitir a incorporação da próxima 
base. Este processo minimiza erros devido a um protocolo de sequenciamento 
base por base que permite
Baixado de https://academ
ic.oup.com
/bib/article/22/1/178/5678919 pelo usuário da U
niversidade Estadual Paulista Júlio de M
esquita Filho em
 06 de agosto de 2021
Protocolos de melhores práticas em análise de microbioma 183
Figura 3. Principais tecnologias de sequenciamento de leitura curta e de leitura longa. (A) O sequenciamento da Illumina envolve corte inicial, adenilação das extremidades rombas e ligação de adaptadores 
específicos às moléculas de DNA. Seguindo esta biblioteca, os fragmentos são amplificadosno localem superfícies celulares de fluxo através de amplificação de ponte e produz clusters de sequenciamento. 
Finalmente, a etapa de sequenciamento reversível do terminador de corante é implementada onde reações de adição de nucleotídeo único e presença de grupo bloqueador no 3'-OH (da porção ribose) ajuda 
a identificar clusters de sequenciamento através de um sinal fluorescente repórter. (B) O sequenciamento PacBio envolve uma técnica SMRTbell de sequenciamento de consenso circular (CCS). Aqui, a ligação 
de adaptadores em gancho a cada extremidade de uma molécula de DNA duplex forma um circuito fechado, que é sequenciado em um guia de ondas de modo zero (ZMW), leitura baseada em fluorescência 
da incorporação de nucleotídeos. Cada fita do DNA duplex é sequenciada em múltiplas passagens e as sequências de consenso de ambas as fitas são incorporadas. (C) O sequenciamento de nanoporos 
envolve a ligação de adaptadores em gancho em uma extremidade da molécula de DNA duplex antes de iniciar o sequenciamento de nanoporos das fitas de DNA originais ligadas. Os bloqueios na corrente 
iônica através do nanoporo são quantificadosde maneira ideal como sequências de bases de DNA.
aquisição de dados precisa. A seguir, um fluxo de trabalho de 
processamento metagenômico passo a passo é discutido juntamente com 
sugestões de ferramentas e algoritmos ideais.
archaea) incluem erros de sequenciamento, presença de repetições 
intergenômicas e intragenômicas e cobertura irregular de sequenciamento.
78,79]. A etapa de montagem subjuga razoavelmente essas questões, 
costurando leituras em fragmentos mais longos, chamados de contigs, 
seguido pela reconstrução dos genes e espécies individuais. As leituras 
podem ser leituras de extremidade emparelhada, pares de posicionamento 
ou leituras de extremidade única com base na escolha da ligação do 
adaptador [80]. Além disso, as complexidades e desafios da metagenômica
Conjunto
Desafios significativos na análise de amostras ambientais complexas 
compreendendo múltiplos genomas (bactérias, fungos, vírus,
Baixado de https://academ
ic.oup.com
/bib/article/22/1/178/5678919 pelo usuário da U
niversidade Estadual Paulista Júlio de M
esquita Filho em
 06 de agosto de 2021
184 Bharti e Grimm
a montagem é elevada por uma abundância desigual de múltiplos 
genomas em amostras originárias das mesmas condições. 
Conseqüentemente, a escolha do algoritmo de montagem permanece 
crítica para uma análise downstream ideal. Para uma montagem 
metagenômica típica, os montadores comumente usados incluem
MegaHit, metaSPAdes, RayMeta, MetaVelvet, IDBA-UD, SOAPdenovo2e 
Ômega [81–87].
Curiosamente, a maioria desses algoritmos de montagem foram 
inicialmente desenvolvidos para montagens de genoma único, mas 
foram estendidos para um uso muito mais amplo. Aparentemente, a 
escolha do algoritmo certo para um determinado conjunto de dados 
tornou-se difícil devido a numerosos relatórios comparativos sobre 
esses diferentes montadores [88,89]. Vários esforços foram feitos para 
melhorar as estatísticas de montagem e a identificação de montadores 
metagenômicos dedicados. Os quatro montadores mais utilizados são
MegaHit, metaSPAdes, RayMetaeBIDA-UD.Todos os quatro algoritmos 
são montadores de metagenoma de código aberto baseados em
Gráficos de De Bruijn [90]. Uma grande vantagemGráficos de De Bruijn
é que as leituras montadas contêm menos erros e os erros podem ser 
facilmente corrigidos antes da montagem. Por outro lado, oBID
assembler itera aumentandok-mer tamanhos, cortando o gráfico e 
integrando bolhas/loops ao longo do caminho.Ele utiliza vários dados 
relativos à profundidadek-mer limites para eliminar errosk- mers em 
regiões de baixa e alta profundidade.Da mesma forma, enquanto 
RayMetaé um únicok-mer montador, ambosmetaSPAdese MegaHit
analisar iterativamentek-mer comprimentos para encontrar o valor 
ideal. EnquantometaSPAdesincorpora cobertura de leitura durante a 
montagem,MegaHittem uma implementação comparativamente 
rápida e com uso eficiente de memória. Ambos os montadores são 
preferidos para tarefas complexas de perfil de microbioma [91].
o espaço de busca e, portanto, alinhamento mais lento ou métodos 
filogenéticos podem ser executados. Neste contexto, a ferramenta 
amplamente utilizada Tributário-tkutiliza a ferramenta básica de pesquisa de 
alinhamento local (EXPLOSÃO) ePhyloSiftpara identificar semelhanças com 
genes marcadores (como 16S rRNA) usando os perfis do modelo Hidden 
Markov [100]. Da mesma forma, outras ferramentas, incluindoHMMERe
FiloPítiaS(þ) atribuir leituras a bins utilizando um modelo de máquina de 
vetores de suporte treinado em um banco de dados de referência [101,102].
Por outro lado, o binning não supervisionado depende 
principalmente de características de sequência sem informações a 
priori sobre conjuntos de genoma presentes em uma amostra. Por 
exemplo,MetaClusterbins lê por um algoritmo de agrupamento duplo, 
onde primeiro agrupa leituras usando long uniquek-mers (k >36) 
seguido pela fusão de grupos com base em distribuições semelhantes 
de tetranucleotídeos ou pentanucleotídeos [103]. Na próxima rodada, 
frequências de 16 mer são utilizadas para agrupar contigs de espécies 
de baixa abundância. Além desses, três outros algoritmos 
metagenômicos de contig binning incluemMaxBin, CONCOCTe
MetaBAT. MaxBin considera a composição de nucleotídeos e 
informações de abundância de contig para binning por meio de um 
algoritmo de maximização de expectativa (EM) que agrupa com 
precisão contigs metagenômicos em compartimentos que consistem 
em contigs de uma única espécie [104]. Pelo contrário,INVENTARusa 
modelos de mistura gaussiana para agrupar contigs, combinando 
frequências de tetranucleotídeos e abundâncias diferenciais cobrindo 
múltiplas amostras para binning [105]. Assim, ele reúne informações 
da composição e cobertura da sequência, em múltiplas amostras 
ambientais. De forma similar,MetaBATutiliza agrupamento pareado de 
contigs calculando distâncias probabilísticas com base em frequências 
de tetranucleotídeos. O binning de contigs é então feito por umk
algoritmo de agrupamento -medoid e modelado em distâncias 
interespécies e intraespécies nos genomas sequenciados [106].Previsão genética
Vários métodos para prever genes a partir de fragmentos de DNA 
metagenômico estão disponíveis e são amplamente utilizados. Esses 
algoritmos de predição são amplamente categorizados em métodos 
baseados em homologia, baseados em modelo e baseados em aprendizado 
de máquina [92]. Atualmente, ferramentas de predição genética, como
GeneMarkS, Glimmer3e Pródigoexibem precisão significativamente alta (>
97%) na detecção de ORFs codificadores de proteínas validados [93–95]. No 
entanto, a sua precisão na identificação dos locais de início da ORF ainda 
pode ser melhorada (∼90%) [93]. Isto ocorre principalmente porque os genes 
que escapam à detecção são genes com padrões de sequência que não 
correspondem a nenhum modelo específico da espécie.96]. Além disso, 
outra medida crítica de precisão, a taxa de falsos positivos (FPR), requer uma 
avaliação bastante difícil para descartar genes previstos incorretamente. Foi 
recentemente proposta uma maneira robusta de detectar falsos positivos 
com base em uma avaliação de dois fatores que envolve (i) identificar 
grandes sobreposições com genes conhecidos localizados na fita oposta e (ii) 
comparar com genes previstos em sequências aleatórias [97].
Classificação taxonômica
Para identificar o táxon de cada sequência, a maioria das ferramentas de 
classificação metagenômica combinam sequências (leituras ou contigs) com 
bancos de dados de genoma microbiano conhecidos. Devido ao tamanho 
rapidamente crescente dos conjuntos de dados de sequenciamento, o 
alinhamento canônico de sequências baseado no BLAST ao GenBank tornou-se 
impraticável [89]. Vários classificadores metagenômicos estão disponíveis e 
fornecem análises mais rápidas em detrimento da sensibilidade. Esses 
classificadores utilizam uma variedade de abordagens, incluindo alinhamentos de 
leitura simples,k- mapeamento mer em leituras de sequenciamento do genoma 
completo, alinhamento apenas de genes marcadores ou geração de sequências de 
proteínas traduzidas e seu alinhamento com bancos de dados de proteínas [107]. 
Talvez, as abordagens de genes marcadores permitam atribuições taxonômicas 
mais rápidas, devido aos seus dados de sequenciamento comparativamente 
menores que podem ser alinhados com bancos de dados que incorporam 
genomas completos do máximo de espécies. Eventualmente, vários alinhadores 
rápidos comoGravata-borboleta2 [108] e HMMER [109] são utilizados por diversas 
outras ferramentas, comoMetaPhlAn [110],Filosift [111] emOTU [112]. Outra 
ferramenta,PEGUEI, emprega 24 fragmentos exclusivos de pares de bases 
indexados com BWA (alinhamento de Burrows-Wheeler) –mem (correspondências 
exatas máximas) que ajudam a gerar uma classificação binária baseada em 
presença/ausência ou perfis taxonômicos completos [113].
Pelo contrário, para dados metagenómicos,Krakenfoi o primeiro 
algoritmo que forneceu identificação rápida de todas as leituras e contou 
comdados exatosk-mer corresponde entre o ancestral comum mais baixo 
(LCA) de cada táxon [114]. Outra ferramentaCLAROutiliza uma abordagem 
modificada de manter apenas espécies ou níveis de gênerok-mers e 
descartando o resto dok-mers que mapeiam para classificações taxonômicas 
superiores [115]. Além dessas, poucas outras ferramentas, como
Compartimentação contig
Para reconstruir genomas usando dados de sequenciamento heterogêneo, 
é feito o agrupamento contig baseado em um genoma individual de origem 
ou binning metagenômico. Tradicionalmente, o binning é realizado 
alinhando contigs com conjuntos de dados de referência, mas recentemente 
mais esforços foram direcionados para clustering não supervisionado [98]. 
Conseqüentemente, os algoritmos de binning podem ser categorizados 
como binning dependente de taxonomia ou binning supervisionado que 
utiliza informações taxonômicas de um banco de dados de referência ou 
binning não supervisionado onde o agrupamento de sequências é realizado 
usando propriedades estatísticas e/ou cobertura contig [99]. No binning 
supervisionado ou dependente de taxonomia, a classificação contig reduz
Baixado de https://academ
ic.oup.com
/bib/article/22/1/178/5678919 pelo usuário da U
niversidade Estadual Paulista Júlio de M
esquita Filho em
 06 de agosto de 2021
Protocolos de melhores práticas em análise de microbioma 185
Centrífuga [116],MÉGAN6 [117],tributário-tk [100],Caras [118] eTaxonômero 
[119], também existem para classificações taxonômicas de dados 
metagenômicos. EnquantoCentrífugaé um classificador metagenômico 
compacto que utiliza a transformada de Burrows-Wheeler com índice FM 
para indexar um banco de dados de genoma, ambosMEGAN6e taxador-tk
usar extensivamente as saídas de algoritmos de sequenciamento local, 
incluindoEXPLOSÃO [120],DIAMANTE [121], ouDURAR [122]. Por outro lado,
Carasé um classificador inequívoco que utiliza a saída de alinhadores de 
leitura, comoBWA–mempara interpretar abundâncias taxonômicas em 
amostras [118]. De forma similar,Taxonômero é um classificador rápido e 
ultrassensível que primeiro lê em amplas faixas, seguido por sua separação 
em perfis transcritos de RNA mensageiro (mRNA) em nível de espécie [119].
Torrent, gera comprimentos de leitura efetivamente mais longos (∼700–1000 
pb), eles geralmente não são preferidos, devido aos altos custos de 
sequenciamento e à geração de homopolímeros. As plataformas Illumina 
fornecem maior precisão e são mais econômicas; no entanto, eles fornecem 
apenas comprimento de leitura limitado (∼2×300 pb). Atualmente, as 
plataformas de sequenciamento de molécula única em tempo real (SMRT) da 
Pacific Biosciences e da Oxford Nanopore Technologies são preferidas 
devido aos seus tamanhos de leitura mais longos de 15–100 e∼1000 
quilobases, respectivamente [60,139].
Sequenciamento PacBio
PacBio é uma plataforma de sequenciamento de terceira geração que utiliza 
sequenciamento por fluxo de trabalho de síntese como Illumina, exceto que 
é uma tecnologia de sequenciamento em tempo real de molécula única 
(SMRT). (Figura 3B). A tecnologia SMRT produzida pela PacBio emprega (a) 
uma célula SMRT na forma de guia de onda de modo zero que permite a 
observação de fluoróforos individuais e mantém uma alta relação sinal-
ruído, (b) reação de síntese rápida e precisa por fosfo- nucleotídeos ligados e 
(c) detecção de sinal baseada em pulso de luz contínuo e em tempo real. Isso 
resulta em um sequenciamento de DNA preciso e de alto rendimento a um 
baixo custo. Outra grande vantagem do PacBio é a sua capacidade de 
produzir leituras muito mais longas, variando entre 10 e 50 kbp, com uma 
precisão média de leitura de∼85% [140]. Atualmente, em comparação com o 
PacBio RS II, o novo sistema PacBio Sequel mostra um aumento significativo 
nos comprimentos de leitura (∼0,5–10 GBP). A recente incorporação de um 
método híbrido de correção de erros (leituras corrigidas PBcR – PacBio) 
levou a uma precisão de leitura aprimorada de 80% para 99,9% [61,141]. 
Além disso, o processo hierárquico de montagem do genoma (HGAP) 
acabou com a exigência de leituras de alta qualidade para reconstruir o 
genoma [142]. Neste método, a leitura mais longa entre os conjuntos de 
dados é selecionada como uma 'semente' e todas as outras leituras são 
mapeadas em relação a ela. Posteriormente, uma pré-montagem é feita 
para converter as leituras iniciais em leituras pré-montadas precisas que 
podem ser usadas para uma montagem do genoma. Finalmente, um 
refinamento da montagem é feito usando as leituras iniciais que geram uma 
sequência de leitura de consenso. Embora a montagem de leituras SMRT 
com HGAP produza uma montagem precisa de regiões de alta cobertura, 
subsequentemente falha na reconstrução de regiões de baixa cobertura de 
comunidades complexas. Mais recentemente, uma etapa de pós-
processamento usando BIG MAC (quebrando genomas imprecisos e 
mesclando contigs montados) foi introduzido, onde ambos os contigs e 
leituras originais foram usados simultaneamente para melhorarde novo
conjunto [143]. No geral, a plataforma PacBio é altamente vantajosa para 
estudarde novogenomas, transcriptomas e caracterizações epigenéticas 
diretas.
Além disso, para populações microbianas complexas, o PacBio oferece 
perfis genéticos completos de regiões ITS ou 16S rRNA. Ele também pode 
realizar com eficácia o perfil do transcriptoma completo de amostras 
eucarióticas consecutivas de uma só vez [144,145]. Curiosamente, um 
estudo comparativo combinando leituras curtas da Illumina e leituras longas 
do PacBio de esponjas marinhas mostrou que a abordagem híbrida e caixas 
específicas do filotipo ajudaram a melhorar a qualidade da montagem e as 
estatísticas e poderiam ser usadas como uma técnica complementar para 
chamada de variantes em SMRT [146]. Além disso, dados SMRT de baixa 
profundidade também podem reconstruir com precisão perfis taxonômicos 
de comunidades complexas e também gerar genomas fechados altamente 
precisos, como demonstrado em um estudo sobre metagenomas da pele 
humana.147]. Além disso, alguns outros relatórios recentes mostraram que 
a metagenômica shotgun do PacBio poderia identificar com precisão 
espécies dominantes de comunidades microbianas de baixa diversidade e 
também pode recuperar efetivamente genomas raros em comparação com 
outras plataformas de leitura curta [148,149].
Classificação funcional
A classificação funcional dos dados metagenómicos é vital para investigar os 
papéis funcionais e metabólicos das espécies membros do microbioma, bem como 
as suas variações sob diferentes condições/tratamentos. No geral, as ferramentas 
para classificação funcional compartilham características comuns com ferramentas 
usadas para análises de genoma completo (Figura 3). Essas ferramentas e 
abordagens podem ser classificadas em quatro categorias principais,viz., baseadas 
em homologia, baseadas em motivos ou padrões, baseadas em contexto e outras 
previsões funcionais:
(i) Ferramentas baseadas em homologia: Esta é uma das primeiras abordagens 
para a qual as sequências de proteínas previstas são combinadas com 
sequências de proteínas de referência, comoSeq de referência do NCBI[123],
UniProt [124] eINTELIGENTE[125]. AmbosIMG/M [126]eMG-RAST [127] 
servidores permitem a correspondência de consultas com outros bancos de 
dados, incluindo clusters de grupos ortólogos (COGs) [128],Pfam [129] e
TIGRFAM[130]. Desvantagens significativas desta abordagem são longos 
tempos de computação e altas taxas de erro. (∼15%), devido à propagação do 
banco de dados.
(ii) Ferramentas baseadas em motivos ou padrões: Esta abordagem é adequada 
para leituras curtas e amostras complexas que não puderam ser combinadas 
usando abordagens baseadas em homologia. Bancos de dados como
PRÓSITO [131],IMPRESSÕES[132], ouInterProsão utilizados para rastrear 
motivos comuns em sequências metagenômicas.IMG/Mfaz a maioria das 
anotações baseadas em motivos/padrões, mas com baixa significância 
estatística e altas taxas de falsos positivos.(iii) Ferramentas baseadas em contexto: Novas sequências metagenômicas que 
não compartilham nenhuma homologia, nem padrão ou motivo das duas 
abordagens anteriores são processadas usando uma anotação baseada em 
contexto. Esta abordagem utiliza principalmente vizinhanças genômicas para 
triagem de sequências metagenômicas. Ambos IMG/MeComunidade Smash
são algoritmos de mapeamento baseados em contexto comumente usados 
[133].
(iv) Outras previsões funcionais: Anotações putativas de novas 
sequências metagenômicas são geralmente realizadas usando 
ferramentas específicas para prever propriedades funcionais, 
como enzimas ativas em carboidratos (CAZy),localizações de 
proteínas (PSORT, VIoloncelo),lipoproteínas (DOLLOP, Lipo, 
SignalP), sequências de inserção (ISsaga)e fatores de virulência (
VFDB, MvirDB) [134–137].
Desafios da metagenômica com leituras longas
Leituras longas são cruciais para decifrar regiões genômicas que 
permanecem inacessíveis ao sequenciamento de leitura curta, devido à 
presença de sequências repetidas. Aparentemente, também ajuda no 
sequenciamento de transcrições completas de RNA e fornece informações 
precisas sobre a existência de isoformas específicas [138]. Embora 
tecnologias de sequenciamento de segunda geração, como Roche 454 e Ion
Baixado de https://academ
ic.oup.com
/bib/article/22/1/178/5678919 pelo usuário da U
niversidade Estadual Paulista Júlio de M
esquita Filho em
 06 de agosto de 2021
186 Bharti e Grimm
Sequenciamento de nanoporos MinION (i) Taxonomia: A tabela OTU gerada a partir das leituras processadas é usada 
para traçar o perfil da abundância microbiana presente nos dados de 
sequenciamento. As comunidades microbianas são identificadas através 
de um protocolo rigoroso que resulta em múltiplos alinhamentos de 
pangenoma usando bancos de dados personalizados, como SILVA, 
Greengenes.ePDRde várias famílias de genes.
(ii) Anotação funcional: Usando a saída demãeou DADA2,o perfil funcional das 
comunidades microbianas identificadas pode ser previsto usando
Tax4FunouPICRUSt [161,162]. EnquantoTax4Funé umR-algoritmo 
baseado utilizandoSILVAcomo referência,PICRUSté um pipeline de 
bioinformática que agrupa sequências de proteínas com base nas 
famílias de genes KEGG ou COG e nos números de cópias do gene 16S 
rRNA. Ambos fornecem aproximação de perfis funcionais em um 
determinado conjunto de dados.
(iii) Visualização de dados: As OTUs resultantes e os índices de 
dissimilaridade podem ser então utilizados para avaliar diferenças 
dentro e entre amostras e visualizados usandoR Biocondutor 
pacotefiloseq [163].
Várias questões convencionais como coleta, preservação e transferência 
podem diminuir a qualidade de amostras valiosas. Isso criou um obstáculo 
na exploração de amostras clínicas e de ambientes extremos. Este problema 
foi resolvido até certo ponto por outra plataforma de sequenciamento de 
terceira geração, o sequenciador de DNA Oxford Nanopore MinION™ [150]. 
O sistema MinION incorpora um nanoporo de proteína incorporado em uma 
membrana de polímero eletricamente resistente, onde uma corrente iônica 
passa através do nanoporo, definindo uma voltagem através desta 
membrana.(Figura 3C). Uma interrupção característica na corrente quando 
fitas de DNA ou RNA ou nucleotídeos únicos são conduzidos através do 
nanoporo permite que as sequências sejam lidas em tempo real, resultando 
em comprimentos de leitura mais longos. É importante ressaltar que o 
sistema MinION é um sistema portátil que oferece agilidade para sequenciar 
amostras em condições extremas. Muitos estudos recentes comprovam a 
aplicabilidade ágil do sequenciamento MinION, incluindo a caracterização de 
amostras do vírus Ebola em seu recente surto na África Ocidental, o estudo 
do vírus Zika no nordeste do Brasil ou a genotipagem de tipagem de 
sequência multilocus de resistentes à vancomicina.Enterococos[63,151]. 
Atualmente, MinION fornece>Rendimento de 10 Gbp por célula de fluxo com
>Cobertura de leitura 10 vezes mais longa, mesmo de genomas pouco 
abundantes (<1%) [151,152]. Notavelmente, taxas de erro mais altas (∼30%) 
observados para os primeiros sistemas MinION foram reduzidos para uma 
faixa moderada entre 2 e 13%. Mas as aplicações em larga escala do MinION 
ainda são limitadas devido às taxas de erro mais altas em comparação com 
o sequenciamento shotgun, baixa cobertura e alto nível de variabilidade 
entre execuções.
No entanto, artigos recentes sugeriram uma abordagem híbrida para 
aplicações metagenômicas MinION. Esses estudos mostraram que os 
desafios da metagenômica não podem ser resolvidos apenas com leituras 
mais longas, mas que são necessárias leituras mais precisas para uma 
melhor resolução. Recentemente abordagens híbridas foram 
frequentemente aplicadas para conjuntos de genomas completos de peixes-
palhaço eSaccharomyces cerevisiaegenomas [153,154]. Além disso, 
investigações sobre metagenomas intestinais de pacientes submetidos a 
tratamento com antibióticos e estudos sobre a identificação de formas 
nativas de múltiplos vírus de RNA também utilizaram uma abordagem 
híbrida para obter dados de microbioma [155,156]. Eventualmente, a 
tecnologia emergente de sequenciamento e a necessidade de metodologias 
híbridas levaram ao desenvolvimento deAbelha atarefada,uma ferramenta 
da Web de binning independente de referência que aceita contigs montados 
pela Illumina e leituras longas do PacBio e MinION [157].
Abordagem metagenômica shotgun
Esta abordagem cataloga de forma abrangente todos os genes de um conjunto 
diversificado de genomas microbianos presentes em uma amostra. As plataformas 
de sequenciamento atuais são amplamente classificadas como tecnologias de 
leitura curta (250–300 pb; Illumina) que oferecem maiores profundidades de 
sequenciamento ou tecnologias de leitura longa (500–4000 pb; PacBio e Oxford 
Nanopore) que oferecem melhor montagem contig. Eventualmente, qualquer um 
deles ainda depende do processamento de sequência ideal, incluindo a montagem 
adequada:
(i) Filtragem de qualidade: o sequenciamento metagenômico abriga grande 
heterogeneidade nas leituras em comparação com a abordagem do 
gene alvo. A heterogeneidade nas leituras metagenômicas refere-se 
principalmente à má qualidade ou às sequências auxiliares do 
adaptador/gancho que são removidas durante as etapas de filtragem de 
qualidade. Para plataformas de sequenciamento de leitura curta, como 
Illumina e Solexa, as leituras de extremidade emparelhada e de 
extremidade única podem ser aparadas de maneira ideal usando
Trimomático, FoiceeBBTools. Além de módulos dedicados para cortar 
sequências de leitura curta, ele também pode ser utilizado para 
sequências de leitura longa. As leituras processadas com filtragem de 
qualidade são posteriormente passadas pelobaseado em montageme
análise baseada em referência(painel direito,Figura 4).
(ii) Análise baseada em referências: Esta análise envolve principalmente o 
alinhamento com bases de dados (NCBI ou um repositório customizado 
como SILVA) para gerar catálogo taxonômico das comunidades:
Protocolo computacional de melhores práticas para aquisição de 
microbioma
(a) Taxonomia: O perfil composicional de comunidades a partir de dados 
de sequenciamento metagenômico pode ser feito de maneira ideal 
usando genes marcadores específicos de clado únicos identificados 
a partir de 3.000 genomas de referência (MetaPhlAn)ou por 
alinhamentos exatos dek-mers junto com um algoritmo de 
classificação (Kraken).
(b) Anotação funcional: O perfil funcional de comunidades 
metagenômicas pode ser realizado de forma otimizada usando
HUMANN2ouMeganoleodutos.HUMANN2implementa uma tela 
de alinhamento bifásico comMetaPhlAn, seguido por 
pangenomas funcionalmente anotados das espécies 
identificadas.Meganfaz anotações usando classificações de 
sementes através da ortologia KEGG e classificações COG/
NOG. Por muito tempo lê oDIAMANTEO alinhador de 
sequência pode ser usado sozinho ou comMeganpara realizar 
alinhamentos de pares e frameshift.
Parasimplificar o processo de condução de tais estudos, implementamos 
um fluxo de trabalho de melhores práticas. Esses protocolos padronizados 
ajudarão a obter análises mais robustas e reprodutíveis para dados de 
sequenciamento metagenômico do gene alvo e shotgun. Uma visão geral 
sobre as etapas individuais do fluxo de trabalho é apresentada emFigura 4.
Todos os scripts e uma documentação detalhada estão disponíveis 
no GitHub no seguinte link (https://github.com/grimmlab/ 
MicrobiomeBestPracticeReview).
Abordagem do gene alvo
As leituras brutas são filtradas com qualidade e processadas porOTU-
baseado (mãe) [159] ouASV-baseado (DADA2) [158] métodos que utilizam 
um limite de dissimilaridade (painel esquerdo,Figura 4) são usados para 
processamento e análise de dados baseados em OTU na seção abaixo:
Baixado de https://academ
ic.oup.com
/bib/article/22/1/178/5678919 pelo usuário da U
niversidade Estadual Paulista Júlio de M
esquita Filho em
 06 de agosto de 2021
https://github.com/grimmlab/MicrobiomeBestPracticeReview
https://github.com/grimmlab/MicrobiomeBestPracticeReview
Protocolos de melhores práticas em análise de microbioma 187
Figura 4. Protocolo de melhores práticas para aquisição e análise de amplicons direcionados e dados metagenômicos shotgun, desde o sequenciamento até a anotação funcional. O fluxo básico das etapas 
experimentais seguidas pelas etapas de pré-processamento e análise downstream é mostrado. Em cada etapa, também são mostradas as ferramentas ideais utilizadas durante o processo. Todos os scripts 
estão disponíveis emhttps://github.com/grimmlab/MicrobiomeBestPracticeReview.
(iii) Análise baseada em montagem: Esta é uma análise mais abrangente 
utilizandode novomontadores para dados de sequenciamento 
metagenômico. Os três algoritmos de montagem mais ideais são
MegaHit, MetaSPadeseMetaIDBAdescrito nas seções anteriores 
(painel direito,Figura 4).
(b)Estatísticas de montagem: Esta etapa é um pré-requisito para cálculos de 
remapeamento/cobertura e análise comparativa.SAM As ferramentas (Mapa 
de Alinhamento de Sequência) executam de maneira ideal a classificação e a 
indexação junto com a geração de alinhamento. Da mesma forma, para 
genomas muito grandes,BBMapapoderia ser preferido que pudesse lidar 
igualmente com sequências de leitura curta e longa da Illumina, PacBio ou 
MinION.
(c)Análise comparativa: A análise comparativa incorpora previsões 
genéticas baseadas em algoritmos e vias metabólicas
(a)Montagem contig: As leituras montadas são agrupadas em contigs 
e avaliadas porMetaQUAST [164] que os compara com montagens 
de metagenoma com base em alinhamentos para fechar 
referências.
Baixado de https://academ
ic.oup.com
/bib/article/22/1/178/5678919 pelo usuário da U
niversidade Estadual Paulista Júlio de M
esquita Filho em
 06 de agosto de 2021
https://github.com/grimmlab/MicrobiomeBestPracticeReview
188 Bharti e Grimm
identificações.Prokkaanota os dados prevendo genes usando
Pródigoe então realiza anotação funcional nesses genes [165]. 
Para pesquisa de homologia Prokkausa bancos de dados CDD, 
PFAM e TIGRFAM sobre produção pródiga de proteínas 
traduzidas. Além disso, oMinPath algoritmo [166] poderia ser 
implementado para reconstruções de vias biológicas com base 
em previsões de famílias de proteínas.
(d)Armazenamento: Após os cálculos de remapeamento e cobertura, o 
agrupamento ou agrupamento dos contigs gerados é feito antes de 
uma análise posterior posterior. QualquerMetaBATcom um algoritmo 
de binning adaptativo ouMaxBinque utiliza um algoritmo EM pode ser 
usado para binning metagenômico de contig.
(e)Refinamento: As etapas de remapeamento e refinamento pós-
binning são utilizadas para gerar perfis taxonômicos e anotação 
de quaisquer novos genomas presentes nas amostras. Ambos
VerificaçãoM [167] ebin-refinador [168] são usados de maneira 
ideal para estimar a integridade e contaminação do genoma. 
Perfis taxonômicos e identificação de novo genoma podem ser 
realizados de forma otimizada usando o descrito acimaKraken [
114] eDiamantealgoritmos [121] com ou sem oMegan pipeline [
117].
traçando o perfil de transcritos de mRNA gerados sob diferentes 
condições ambientais. Para auxiliar na análise de alta resolução, uma 
maior cobertura de informações genômicas das condições ambientais 
pela metagenômica shotgun poderia ser fundida com a 
metatranscriptômica. A metaproteômica, por outro lado, envolve a 
análise de perfis proteicos associados ao microbioma, fornecendo 
informações sobre a função diretamente sob diferentes condições 
ambientais. No entanto, o perfil de proteínas comunitárias depende 
mais fortemente da precisão dos dados metagenómicos. A análise 
espectrométrica de massa de diferentes peptídeos gerados a partir de 
uma amostra ambiental pode ser combinada com as proteínas 
previstas na análise metagenômica. No geral, o futuro dos projetos de 
genes-alvo e metagenômica não depende apenas de recursos 
computacionais emergentes, mas também de metodologias de 
sequenciamento mais aprofundadas e complementares. Isto acabará 
por ajudar a reafirmar a confiabilidade dos dados de sequenciamento 
e a estabelecer abordagens mais abrangentes para delinear os perfis 
funcionais de amostras ambientais.
Conclusões
Tanto o gene alvo quanto as abordagens de sequenciamento metagenômico 
são fundamentais para decifrar uma infinidade de papéis que são 
desempenhados por microrganismos ambientais. No entanto, tanto o 
sequenciamento quanto os métodos computacionais ainda sofrem de 
muitos vieses devido a erros no manuseio de amostras, erros experimentais 
e análise de bioinformática a jusante. Assim, as melhorias nas tecnologias de 
sequenciação e o desenvolvimento de novas ferramentas e algoritmos 
computacionais devem sempre basear-se em conhecimentos prévios, por 
exemplo, advertências conhecidas em cada etapa de processamento da 
amostra. Os fatores que potencialmente influenciam o pré-processamento, 
bem como a análise posterior de dados de leitura curta e longa, incluindo 
preparação de amostras, sequenciamento, armazenamento, montagem e 
anotações funcionais, devem ser catalogados com precisão. Aqui, tentamos 
listar os desafios e os protocolos de melhores práticas utilizados durante a 
aquisição do microbioma usando 16S rRNA e sequenciamento 
metagenômico. Isto é importante devido aos grandes e crescentes 
paradigmas de ferramentas computacionais que foram desenvolvidos nos 
últimos anos para analisar dados de sequenciamento de leitura longa e 
curta. Aqui, fornecemos um fluxo de trabalho de ferramentas testadas de 
maneira otimizada, disponíveis para processar amostras de 
sequenciamento, estimar abundâncias microbianas e classificação, 
montagem e anotações funcionais. Além disso, também discutimos os 
desafios experimentais com uma revisão sistemática das etapas envolvidas 
no 16S rRNA e na metagenômica shotgun. Os desafios experimentais são 
responsáveis principalmente por fatores responsáveis pela contaminação 
em genomas microbianos isolados e variações resultantes nos perfis 
microbianos. Embora a improvisação gradual desses fatores tenha sido 
implementada, dados de sequenciamento extensos e multicamadas 
permanecem sujeitos a erros em vários níveis. Portanto, acreditamos que a 
utilização e a conscientização dos métodos integrados descritos aqui não 
apenas ajudarão a melhorar a confiabilidade dos resultados do 
sequenciamento, mas também reduziriam a variabilidade nas etapas de 
geração e processamento de dados.
Análise downstream e estatística
A análise de dados microbianos é um desafio devido à sua estrutura de 
dados grande e multivariada. Em geral, é difícil fornecer um pipeline de 
melhores práticas para uma análise estatística simples porque 
depende muito dos objetivos centrais do estudo e da hipótese 
subjacente. No entanto, houve enormes esforços para desenvolver 
ferramentas que facilitassem essas análises. Duas ferramentas 
amplamente utilizadas para análise estatística downstream de dados 
microbianossãoCalipso [169] eAnalista de Microbioma [170].Calipso
pode ser usado para realizar análises composicionais de grandes 
conjuntos de dados metagenômicos com testes estatísticos 
univariados e multivariados e representações de dados.Analista de 
Microbioma fornece várias opções para perfil comunitário, perfil 
funcional e visualização de rede metabólica para dados 
metagenômicos de amplicon e shotgun. Além dessas, existem 
ferramentas adicionais de análise estatística e visualização, incluindo 
MetavizePUMA [171,172]. Além disso, uma visão geral detalhada sobre 
análise estatística de dados microbianos é descrita em resenhas 
recentes e capítulos de livros [173,174,175,176].
Desafios futuros
Espera-se que os atuais desenvolvimentos computacionais produzam 
soluções eficientes e escaláveis. No entanto, ainda é vital implementar 
múltiplas estratégias de alto rendimento para reafirmar a precisão das 
descobertas genômicas. Para descrever corretamente os genomas 
com suas respectivas funções ambientais, os vieses na saturação da 
amostragem devem ser abordados melhorando a resolução da análise 
genômica. Isto requer necessariamente uma análise mais profunda 
das comunidades de baixa complexidade através de tecnologias 
metatranscriptómicas e metaproteómicas comparativamente mais 
modernas. Isto ajudará a abordar informações biológicas 
anteriormente não obtidas de microbiomas que eventualmente 
ajudariam na criação de melhores aplicações terapêuticas e 
biotecnológicas. Metatranscriptômica é a análise de transcrições 
comunitárias isoladas diretamente de múltiplos ambientes, mostrando 
variabilidade nas composições do microbioma. Os dados 
metatranscriptómicos correlacionam-se diretamente com a assinatura 
taxonómica das comunidades e a sua função
Pontos chave
• A NGS revolucionou a escalabilidade, a velocidade e a relação 
custo-benefício para realizar uma ampla gama de estudos, 
incluindo a análise de comunidades microbianas associadas 
ao hospedeiro e ao ambiente.
Baixado de https://academ
ic.oup.com
/bib/article/22/1/178/5678919 pelo usuário da U
niversidade Estadual Paulista Júlio de M
esquita Filho em
 06 de agosto de 2021
Protocolos de melhores práticas em análise de microbioma 189
11.Qin J, Li R, Raes J,e outros.Um catálogo de genes microbianos do intestino 
humano estabelecido por sequenciamento metagenômico.Natureza 2010;
464:59–65.
12. Thompson LR, Sanders JG, McDonald D,e outros.Um catálogo 
comunitário revela a diversidade microbiana multiescala da 
Terra. Natureza2017;551:457–63.
13. van Bakel H, Nislow C, Blencowe BJ,e outros.A maioria das transcrições 
de “matéria escura” estão associadas a genes conhecidos.PLoS Biol 
2010;8:e1000371.
14. Weisburg WG, Barns SM, Pelletier DA,e outros.Amplificação de 
DNA ribossômico 16S para estudo filogenético.J Bacteriol 1991;
173:697–703.
15. Pel J, Leung A, Choi WWY,e outros.Geração rápida e altamente específica de 
bibliotecas de sequenciamento de DNA direcionadas, possibilitadas pela 
ligação de sondas de captura com primers universais.PLoS Um 2018;13
:e0208283.
16. Baker GC, Smith JJ, Cowan DA. Revisão e reanálise de primers 16S 
específicos de domínio.Métodos J Microbiol 2003;55:541–55.
17. Woo PC, Lau SK, Teng JL,e outros.Antes e agora: uso do 
sequenciamento do gene 16S rDNA para identificação bacteriana 
e descoberta de novas bactérias em laboratórios de 
microbiologia clínica.Clin Microbiol Infectar2008;14:908–34.
18. Janda JM, Abbott SL. Sequenciamento do gene 16S rRNA para 
identificação bacteriana no laboratório de diagnóstico: vantagens, 
perigos e armadilhas.J Clin Microbiol2007;45:2761–4.
19. Yu Z, Garcia-Gonzalez R, Schanbacher FL,e outros.Avaliações de 
diferentes regiões hipervariáveis de genes 16S rRNA de 
archaeal no perfil de metanógenos por PCR específico para 
Archaea e eletroforese em gel de gradiente desnaturante.Appl 
Ambiente Microbiol2008;74:889–93.
20. Raja HA, Miller AN, Pearce CJ,e outros.Identificação de fungos utilizando 
ferramentas moleculares: uma cartilha para a comunidade de 
pesquisa de produtos naturais.J Nat Prod2017;80:756–70.
21. De Filippis F, Laiola M, Blaiotta G,e outros.Diferentes alvos de amplicon 
para estudos de diversidade fúngica baseados em sequenciamento. 
Appl Ambiente Microbiol2017;83:e00905-17.
22. Ferreira RM, Pereira-Marques J, Pinto-Ribeiro I,e outros.O perfil da 
comunidade microbiana gástrica revela uma microbiota disbiótica 
associada ao câncer.Intestino2018;67:226–36.
23. Qin J, Li Y, Cai Z,e outros.Um estudo de associação de todo o 
metagenoma da microbiota intestinal no diabetes tipo 2.
Natureza 2012;490:55–60.
24. Ott SJ, Waetzig GH, Rehman A,e outros.Eficácia da transferência de 
filtrado fecal estéril no tratamento de pacientes com infecção por 
Clostridium difficile.Gastroenterologia2017;152: 799–811 e797.
25. Adolph TE, Tomczak MF, Niederreiter L,e outros.Células de Paneth 
como local de origem da inflamação intestinal.Natureza 2013;503
:272–6.
26. Arlt A, Bharti R, Ilves I,e outros.Mudanças características na 
composição da comunidade microbiana e expressão de genes da 
imunidade inata na apendicite aguda.Imunidade Inata 2015;21
:30–41.
27. Tschurtschenthaler M, Adolph TE, Ashcroft JW,e outros. A remoção 
defeituosa de IRE1alfa mediada por ATG16L1 leva à ileíte 
semelhante à doença de Crohn.J Exp Med2017;214:401–22.
28. Handelsman J. Metagenômica: aplicação da genômica a 
microrganismos não cultivados.Microbiol Mol Biol Rev. 2004;68
:669–85.
29. Gilbert JA, Dupont CL. Metagenômica microbiana: além do 
genoma.Ann Rev Mar Sci2011;3:347–71.
30. Escobar-Zepeda A, Vera-Ponce de León A, Sanchez-Flores
A. O caminho para a metagenómica: da microbiologia ao ADN
• Para estudar a composição microbiana, o gene alvo e o 
sequenciamento metagenômico são métodos comumente 
usados para investigar a composição de genes e novos 
genomas em vários ambientes.
• A configuração experimental e a análise de dados são tarefas 
propensas a erros, o que pode levar a uma alta variabilidade no 
sequenciamento de leitura curta e longa e na análise de dados.
• A padronização da aquisição e análise de dados de 
sequenciamento é crucial para a obtenção de resultados 
comparáveis e reprodutíveis. Este artigo fornece uma visão geral 
sobre desafios experimentais e computacionais, incluindo 
protocolos de melhores práticas para análise de dados de 
amplicon e metagenômica.
Dados suplementares
Dados complementares estão disponíveis online emhttps://acadêmico. 
oup.com/bib
Reconhecimentos
Não aplicável.
Financiamento
Não aplicável.
Referências
1. Reese AT, Dunn RR. Impulsionadores da biodiversidade do 
microbioma: uma revisão das regras gerais, fezes e ignorância.
MBio 2018;9:e01294-18.
2. Turnbaugh PJ, Ley RE, Hamady M,e outros.O projeto do 
microbioma humano.Natureza2007;449:804–10.
3. Kamada N, Seo SU, Chen GY,e outros.Papel da microbiota 
intestinal na imunidade e nas doenças inflamatórias.Nat Rev 
Immunol 2013;13:321–35.
4. Philippot L, Raaijmakers JM, Lemanceau P,e outros.Voltando às 
raízes: a ecologia microbiana da rizosfera.Nat Rev Microbiol2013;
11:789–99.
5. Zilber-Rosenberg I, Rosenberg E. Papel dos microrganismos na 
evolução de animais e plantas: a teoria da evolução do 
hologenoma.FEMS Microbiol Rev.2008;32: 723–35.
6. Simon JC, Marchesi JR, Mougel C,e outros.Interações hospedeiro-
microbiota: da teoria holobiont à análise.Microbioma 2019;7:5.
7. Alivisatos AP, Blaser MJ, Brodie EL,e outros.MICROBIOME. Uma 
iniciativa unificada para aproveitar os microbiomas da Terra.Ciência 
2015;350:507–8.
8. Moran NA, Sloan DB. O conceito de hologenoma: útil ou vazio?
PLoS Biol2015;13:e1002311.
9. Rosenberg E, Koren O, Reshef L,e outros.O papel dos 
microrganismos na saúde, doença e evolução dos corais.Nat Rev 
Microbiol2007;5:355–62.
10. Rosenberg E, Sharon G, Zilber-Rosenberg I. A teoria hologenômica 
da evolução contém aspectos Lamarckianos dentro de uma 
estrutura darwiniana.Microbiol Ambiental2009;11: 2959–62.
Baixado de https://academ
ic.oup.com
/bib/article/22/1/178/5678919pelo usuário da U
niversidade Estadual Paulista Júlio de M
esquita Filho em
 06 de agosto de 2021
https://academic.oup.com/bib
https://academic.oup.com/bib
190 Bharti e Grimm
tecnologias de sequenciamento e Bioinformática.Geneta Frontal 2015;
6:348.
31. Quince C, Walker AW, Simpson JT,e outros.Metagenômica 
shotgun, da amostragem à análise.Nat Biotecnologia 2017;35
:833–44.
32. Riesenfeld CS, Schloss PD, Handelsman J. Metagenômica: análise 
genômica de comunidades microbianas.Annu Rev Genet 2004;38
:525–52.
33. Kristensen DM, Mushegian AR, Dolja VV,e outros.Novas dimensões do 
mundo dos vírus descobertas através da metagenômica. Tendências 
Microbiol2010;18:11–9.
34. Luo C, Tsementzi D, Kyrpides N,e outros.Comparações diretas das 
tecnologias de sequenciamento Illumina vs. Roche 454 na 
mesma amostra de DNA da comunidade microbiana.PLoS Um 
2012;7:e30087.
35. Honaas LA, Altman NS, Krzywinski M. Desenho de estudo para estudos 
de sequenciamento.Métodos Mol Biol2016;1418:39–66.
36. Vandeputte D, Kathagen G, D'Hoe K,e outros.O perfil quantitativo 
do microbioma liga a variação da comunidade intestinal à carga 
microbiana.Natureza2017;551:507–11.
37. Kadam P, Bhalerao S. Cálculo do tamanho da amostra.Int J Ayurveda 
Res.2010;1:55–7.
38. Martin TC, Visconti A, Spector TD,e outros.Realização de estudos 
metagenômicos em microbiologia e pesquisa clínica.Appl 
Microbiol Biotecnologia2018;102:8629–46.
39. Goodrich JK, Di Rienzi SC, Poole AC,e outros.Conduzindo um 
estudo de microbioma.Célula2014;158:250–62.
40. Laukens D, Brinkman BM, Raes J,e outros.Heterogeneidade do 
microbioma intestinal em camundongos: diretrizes para otimizar o 
desenho experimental.FEMS Microbiol Rev.2016;40:117–32.
41. Lundberg R, Bahl MI, Licht TR,e outros.Composição da microbiota de 
camundongos colonizados simultaneamente alojados sob um isolador 
gnotobiótico ou em regime de gaiola ventilada individualmente.
Representante Científico2017;7: 42245.
42. Robertson SJ, Lemire P, Maughan H,e outros.Comparação de métodos de 
cohousing e de ninhada para padronização da microbiota em modelos de 
camundongos.Representante de célula2019;27:1910–1919 e1912.
43. Dugan VG, Emrich SJ, Giraldo-Calderon GI,e outros.Metadados 
padronizados para sequências genômicas de patógenos/vetores 
humanos.PLoS Um2014;9:e99979.
44. Moore RJ, Stanley D. Considerações de design experimental em 
estudos de microbiota/inflamação.Clin Transl Imunologia 2016;5
:e92.
45. Fritz JV, Desai MS, Shah P,e outros.Da metaômica à causalidade: 
modelos experimentais para pesquisa do microbioma humano. 
Microbioma2013;1:14.
46. Caruana EJ, Roman M, Hernandez-Sanchez J,e outros.Estudos 
longitudinais.J Thorac Dis2015;7:E537–40.
47. Gilbert JA, Lynch SV. Ecologia comunitária como estrutura para 
pesquisa do microbioma humano.Nat Med2019;25: 884–9.
48. Elevar os padrões na investigação do microbioma.Nat Microbiol 
2016;1:16112.
49. Thomas T, Gilbert J, Meyer F. Metagenômica - um guia da amostragem 
à análise de dados.Exp de informação microbiana2012;2:3.
50. Salter SJ, Cox MJ, Turek EM,e outros.A contaminação de reagentes e 
laboratórios pode impactar criticamente as análises de microbiomas 
baseadas em sequências.BMC Biol2014;12:87.
51. Cuthbertson L, Rogers GB, Walker AW,e outros.O tempo entre a 
coleta e o armazenamento influencia significativamente a 
composição da sequência bacteriana em amostras de escarro de 
infecções respiratórias por fibrose cística.J Clin Microbiol 2014;52
:3011–6.
52. Dominianni C, Wu J, Hayes RB,e outros.Comparação de métodos 
de coleta de bioespécimes do microbioma fecal.Microbiol BMC 
2014;14:103.
53. Choo JM, Leong LE, Rogers GB. As condições de armazenamento das amostras 
influenciam significativamente os perfis do microbioma fecal.Representante 
Científico 2015;5: 16350.
54. Toque J, Cools-Portier S, Pavan S,e outros.Efeitos do armazenamento a longo 
prazo de amostras de microbiota fecal humana coletadas em RNAlater.
Representante Científico2019;9:601.
55. Lu Y, Hugenholtz P, Batstone DJ. Avaliação de métodos de extração de DNA 
para o perfil comunitário da comunidade microbiana do intestino posterior 
de suínos.PLoS Um2015;10:e0142720.
56. Psifidi A, Dovas CI, Bramis G,e outros.Comparação de onze métodos 
para extração de DNA genômico adequados para genotipagem de 
todo o genoma em larga escala e banco de DNA de longo prazo 
usando amostras de sangue.PLoS Um2015;10:e0115960.
57. Wen C, Wu L, Qin Y,e outros.Avaliação da reprodutibilidade do 
sequenciamento de amplicons com a plataforma Illumina MiSeq.PLoS 
Um2017;12:e0176716.
58. Jones MB, Highlander SK, Anderson EL,e outros.A metodologia de 
preparação de bibliotecas pode influenciar as previsões genômicas e 
funcionais na pesquisa do microbioma humano.Proc Natl Acad Sci 
EUA2015;112:14024–9.
59. Koren S, Phillippy AM. Um cromossomo, um contig: genomas 
microbianos completos a partir de sequenciamento e montagem de 
leitura longa.Curr Opin Microbiol2015;23:110–20.
60. Nakano K, Shiroma A, Shimoji M,e outros.Vantagens do sequenciamento do 
genoma por sequenciador de longa leitura utilizando tecnologia SMRT na 
área médica.Célula zumbida2017;30:149–61.
61. Ardui S, Ameur A, Vermeesch JR,e outros.O sequenciamento de 
molécula única em tempo real (SMRT) atinge a maioridade: aplicações 
e utilidades para diagnósticos médicos.Res de ácidos nucleicos2018;
46: 2159–68.
62. Tyler AD, Mataseje L, Urfano CJ,e outros.Avaliação do dispositivo de sequenciamento 
MinION da Oxford Nanopore para aplicações de sequenciamento do genoma 
microbiano.Representante Científico2018;8: 10931.
63. Jain M, Olsen HE, Paten B,e outros.The Oxford Nanopore MinION: 
entrega de sequenciamento de nanoporos à comunidade 
genômica.Genoma Biol2016;17:239.
64. Levy SE, Myers RM. Avanços no sequenciamento de próxima 
geração.Annu Rev Genômica Hum Genet2016;17:95–115.
65. Treangen TJ, Salzberg SL. DNA repetitivo e sequenciamento de 
próxima geração: desafios e soluções computacionais.Nat Rev 
Genet2011;13:36–46.
66. Fricke WF, Rasko DA. Sequenciamento do genoma bacteriano na 
clínica: desafios e soluções da bioinformática.Nat Rev Genet2014;
15:49–55.
67. Cole JR, Wang Q, Peixe JA,e outros.Projeto de banco de dados ribossômico: 
dados e ferramentas para análise de rRNA de alto rendimento.Res de ácidos 
nucleicos2014;42:D633–42.
68. Kuczynski J, Lauber CL, Walters WA,e outros.Ferramentas 
experimentais e analíticas para estudar o microbioma humano.
Nat Rev Genet2011;13:47–58.
69. McIntyre ABR, Ounit R, Afshinnekoo E,e outros.Benchmarking 
abrangente e abordagens de conjunto para classificadores 
metagenômicos.Genoma Biol2017;18:182.
70. Sczyrba A, Hofmann P, Belmann P,e outros.Avaliação crítica da 
interpretação do metagenoma - uma referência de software 
metagenômico.Métodos Nat2017;14:1063–71.
71. Westcott SL, Schloss PD. Os métodos de agrupamento de novo 
superam os métodos baseados em referência para atribuir 
sequências do gene 16S rRNA a unidades taxonômicas operacionais.
PeerJ 2015;3:e1487.
Baixado de https://academ
ic.oup.com
/bib/article/22/1/178/5678919 pelo usuário da U
niversidade Estadual Paulista Júlio de M
esquita Filho em
 06 de agosto de 2021
Protocolos de melhores práticas em análise de microbioma 191
72. Tikhonov M, Leach RW, Wingreen NS. Interpretação de dados 
metagenômicos 16S sem agrupamento para obter resolução 
sub-OTU.ISME J2015;9:68–80.
73. Callahan BJ, McMurdie PJ, Holmes SP. Variantes de sequência exata 
devem substituir unidades taxonômicas operacionais na análise de 
dados de genes marcadores.ISME J2017;11:2639–43.
74. Bolger AM, Lohse M, Usadel B. Trimmomatic: um aparador flexível 
para dados de sequência Illumina.Bioinformática 2014;30:2114–
20.
75. Bowtie LBA ssrw, Bioinformática CP.Capítulo 11: Unidade 2010;11
:17.
76. Li H, Durbin R. Alinhamento de leitura curta rápido e preciso com 
transformação de tocas-rodas.Bioinformática2009;25:1754–60.
77. Schmieder R, Edwards R. Rápida identificação e remoção de 
contaminação de sequências de

Mais conteúdos dessa disciplina