Baixe o app para aproveitar ainda mais
Prévia do material em texto
SUMÁRIO 1. Introdução_______________________________________________________2 2. Objetivos________________________________________________________3 3. Base de Dados___________________________________________________4 3.1. Base de Dados Primárias _______________________________________4 3.1.1 GenBank___________________________________________________ 4 3.2. Base de Dados Secundárias____________________________________10 3.2.1 RefSeq____________________________________________________10 3.3 GenBank vs. RefSeq __________________________________________17 3.4 Bases de Proteínas ___________________________________________17 3.5 Bancos de NGS______________________________________________ 23 4. Literatura científica______________________________________________ 23 4.1 Exercícos___________________________________________________ 26 5. Referências ____________________________________________________31 1 1. Introdução Desde o início dos mapeamentos e sequenciamentos dos conteúdos celulares, muitos dados foram sendo coletados, dando origem a uma enorme biblioteca de informações biológicas. A era das “ômicas” - sufixo que denota um conjunto completo de algo - marca a reunião desses dados até o Big Data, o qual é o auge dos sequenciamentos, iniciado com o do genoma humano. Devido aos avanços tecnológicos, o sequenciamento de DNA tornou-se mais barato e com uma maior qualidade, além da redução do tempo para a obtenção dos dados. Atualmente, a quantidade de dados gerados é reunida nos bancos de dados e espera-se que, com estas informações, possa-se entender mais sobre as células e a integração do organismo. Na plataforma Python, há uma variedade de módulos aplicáveis à bioinformática, os quais permitem desde organizar alfabetos para proteínas e DNAs a encontrar sítios de restrição nas sequências e procurar informações nos bancos de dados, o que faz deste programa um importante aliado à bioinformática. 2 2. Objetivos Neste relatório, objetivou-se conhecer os bancos de dados biológicos, assim como os diversos formatos de sequenciamento de dados, de forma a notar as semelhanças e diferenças entre eles, além de explorar os sites de literatura científica, tornando perceptível, na prática, a importância e utilidade dessas bases de dados. Na parte de programação com o Python, testou-se comandos condicionais, utilizando os diversos operadores e executando os códigos no Terminal. 3 3. Base de Dados As bases de dados reúnem conteúdo bruto a partir do qual é possível gerar informação e aplicá-la em determinado interesse. 3.1. Base de Dados Primárias As bases de dados primárias armazenam os resultados experimentais, os quais podem conter alguma informação mais concreta, porém sem estarem organizados em uma determinada coleção. Existem três bancos de dados primários que contêm todos os sequenciamentos gerados até agora. São esses: GenBank, EMBL e DDBJ. O GenBank é o banco de dados de sequência genética do Instituto Nacional de Saúde dos Estados Unidos (NIH). O EMBL é o banco de dados moleculares do Instituto Europeu de Bioinformática (EBI). Já o DDBJ, DNA Data Bank of Japan, banco de dados de sequencia de nucleotideos. Todos esses três são atualmente parte do INSDC (International Nucleotide Sequence Database Collaboration), cuja função é reunir os dados brutos e trocar informações. 3.1.1. GenBank Em aula, exploramos os recursos do GenBank primeiramente procurando, na ferramenta de busca, pelo arquivo de referência ‘AF213260’. O arquivo, nomeado “Mus musculus kidney-specific organic anion transporting polypeptide 5 mRNA, complete cds”, se trata de um mRNA do camundongo com 2.798 pares de bases. Diversos recursos estão disponíveis no GenBank; é possível mudar o formato em que é apresentado o dado, de GenBank para FASTA, observar gráficos, acessar o 4 artigo e, ao clicar em CDS, o arquivo é redirecionado a uma parte destacada, a qual é sequência da parte codificante. Figura 1.: Homepage do GenBank. 5 Figura 2.: Informações a respeito do GenBank na página oficial. Figura 3.: Arquivo AF213260. 6 Figura 4.: Sequência mostrada em formato FASTA. 7 Figura 5.: Região codificante (CDS). 8 Figura 7.: Artigo. Para a submissão no GenBank, o formato FASTA deve ser a configuração da sequência, este formato é o universalmente aceito para ser processado. Para a conversão, existe uma ferramenta chamada EMBOSS Seqret, a qual, entre outras funções, ajusta sequências de DNA, RNA e proteína para o formato desejado. 9 Figura 6.: Ferramenta EMBOSS Seqret. 3.2. Base de Dados Secundárias As bases de dados secundárias contêm os dados curados, ou seja, armazenados em coleções, sem redundância e derivados das bases de dados primárias. 3.2.1. RefSeq Em aula, exploramos os recursos do RefSeq primeiramente procurando, na ferramenta de busca, pelo arquivo de referência ‘AF213260’, o mesmo utilizado no GenBank. 10 No Reference Sequence Database, também parte do NCBI (National Center for Biotechnology Information) assim como o GenBank, os dados estão curados e as sequências anotadas. Todas as biomoléculas possuem apenas um registro para os determinados organismos, em sua maioria. Em outras palavras, o RefSeq é a sumarização de todas as informações obtidas e integradas de múltiplas fontes. (CHOUDHURI, 2014). Figura 7.: Homepage do RefSeq. 11 Figura 8.: Arquivo ‘AF213260’. 12 Figura 9.: Visualização no RefSeq. 13 Figura 10.: Visualização no RefSeq. 14 Figura 11.: Visualização no RefSeq. 15 Figura 12.: Visualização no RefSeq com formato FASTA. Entre os recursos no RefSeq, temos o ‘STS’ - Sequence-Tagged Site - uma sequência relativamente curta, interessante alvo para PCR (200 a 500pb), que pode ser detectada na presença de todas as outras sequências gênicas e cuja a localização no genoma é mapeada - possui uma única ocorrência no genoma. 16 Figura 13.: STS em destaque no RefSeq. 3.3. GenBank vs. RefSeq Em suma, as bases de dados primárias armazenam dados brutos e redundantes, enquanto que, as secundárias, informações não redundantes, derivadas das primárias, em que várias entradas da mesma sequência lá são mescladas, a fim de criar uma única sequência na base de dados secundária com anotações extensas derivadas de todas as informações disponíveis na sequência. Como já dito anteriormente, o GenBank é uma base de dados primária e o RefSeq, secundária. No GenBank é disponibilizada a sequência anotada de nucleotídeos e suas traduções em proteínas. O RefSeq é um banco de dados de sequências de DNA, RNA e suas proteínas, com grandes sequências de diversas espécies, apresentando registros únicos para cada biomolécula para cada organismo, de genomas às transcrições e produtos de tradução. 3.4. Bases de Proteínas 3.4.1 UniProt 17 O UniProt é uma base dados de sequências e anotações de proteínas. Possui as bases de dados UniProt Knowledgebase (UniProtKB), UniProt Reference Clusters (UniRef) e UniProt Archive (UniParc). O UniProtKB consiste em duas partes: UniProtKB/Swiss-Prot e UniProtKB/TrEMBL. O primeiro é revisado e com sequências manualmente anotadas, enquanto o segundo não possui revisão e é anotado automaticamente. Figura 14.: Arquivo ‘P17763’. Em aula, buscamos pela referencia ‘P17763’ no UniProtKB. Na página, temos informações sobre a que tipo de organismo pertence a proteína, qual a cepa, função desta proteína, etc. Neste arquivo, se trata de uma poliproteína de virus da dengue tipo 1. 18 Figura 15.: Função molecular e processos biológicos envolvidos com a proteína pesquisada. 19 Figura 16.: Recurso de visualização da proteína disponível. Figura 17.: Também está disponível para visualização no formato FASTA. 20 Figura 18.: Resumo UniProt. 3.4.2 PDB No PDB (Protein Data Bank), buscamos por ‘3J6T’, que determina o arquivo para a estrutura do vírus da dengue tipo 3. Vários recursos estão disponíveis no site PDB; em aula, exploramos as estruturas da proteína, sobre as quais o site oferecevisualização da estrutura secundária e terciária, de forma interativa, na qual pode-se escolher como visualizá-la, o que visualizar e com que cores, etc. 21 Figura 19.: Arquivo 3J6T no PDB. Figura 20.: Feature view. 22 Figura 21.: 3D view. 3.5 Bancos de NGS O SRA (Sequence Read Archive), parte do INSDC, arquiva dados de sequenciamento bruto e informações de plataformas de sequenciamento de alto rendimento. Pode ser utilizado para comparar conjunto de dados e inclui dados sobre como uma amostra biológica foi sequenciada. 23 Figura 22.: Homepage do SRA. 4. Literatura Científica Foram apresentados, em aula, o Google Acadêmico e o PubMed. Ambos são ferramentas de busca em base de dados, que auxiliam em pesquisas, trabalhos, etc. Quando buscas são realizadas, o Google Scholar retorna mais resultados que o Pubmed, porém, este retorna um conjunto bem definido de periódicos, enquanto a ferramenta do Google não é tão específica quanto a isso. 24 Figura 23.: Resultados retornados pela pesquisa no PubMed. 25 Figura 24.: Resultados retornados da pesquisa no Google Acadêmico. 4.1 Exercícios a) Trabalhos científicos relacionados à infecção por zika vírus em mulheres grávidas. 26 Figura 25.: https://www.ncbi.nlm.nih.gov/pubmed/26889662 Figura 26.: https://www.ncbi.nlm.nih.gov/pubmed/29959761 27 https://www.ncbi.nlm.nih.gov/pubmed/26889662 https://www.ncbi.nlm.nih.gov/pubmed/29959761 Figura 27.: https://www.ncbi.nlm.nih.gov/pubmed/27479770 b) Como a informação disponível em bancos de dados públicos pode auxiliar na sua pesquisa? Os bancos de dados, como visto em aula, são úteis tanto na hora de auxiliar a pesquisa, coletando informações para serem utilizadas ou verificando se o que está sendo pesquisado já foi feito. A quantidade de informações que se pode ter acesso através desses bancos e os diversos recursos que se pode explorar nestes, fazem deles um importante aliado à ciência e une laboratórios do mundo todo. 28 https://www.ncbi.nlm.nih.gov/pubmed/27479770 c) Exercícios no Python 29 30 5. Referências CHOUDHURI, Supratim. Bioinformatics for Beginners: Genes, genomes, molecular evolution, databases and analytical toys. Elsevier, 2014. 78-97 p. 31
Compartilhar