Bioinformática 1 e 2 - Introdução aos Bancos de Dados Biológicos e Comandos Condicionais do Python

•

UFSCAR

1

0

1

0

Julia Bolli

20/09/2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 31 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 31 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 31 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Bioinformática

2.065 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

SUMÁRIO
1. Introdução_______________________________________________________2
2. Objetivos________________________________________________________3
3. Base de Dados___________________________________________________4
3.1. Base de Dados Primárias _______________________________________4
3.1.1 GenBank___________________________________________________ 4
3.2. Base de Dados Secundárias____________________________________10
3.2.1 RefSeq____________________________________________________10
3.3 GenBank vs. RefSeq __________________________________________17
3.4 Bases de Proteínas ___________________________________________17
3.5 Bancos de NGS______________________________________________ 23
4. Literatura científica______________________________________________ 23
4.1 Exercícos___________________________________________________ 26
5. Referências ____________________________________________________31
1
1. Introdução
Desde o início dos mapeamentos e sequenciamentos dos conteúdos celulares,
muitos dados foram sendo coletados, dando origem a uma enorme biblioteca de
informações biológicas. A era das “ômicas” - sufixo que denota um conjunto completo
de algo - marca a reunião desses dados até o Big Data, o qual é o auge dos
sequenciamentos, iniciado com o do genoma humano.
Devido aos avanços tecnológicos, o sequenciamento de DNA tornou-se mais
barato e com uma maior qualidade, além da redução do tempo para a obtenção dos
dados.
Atualmente, a quantidade de dados gerados é reunida nos bancos de dados e
espera-se que, com estas informações, possa-se entender mais sobre as células e a
integração do organismo.
Na plataforma Python, há uma variedade de módulos aplicáveis à bioinformática,
os quais permitem desde organizar alfabetos para proteínas e DNAs a encontrar sítios
de restrição nas sequências e procurar informações nos bancos de dados, o que faz
deste programa um importante aliado à bioinformática.
2
2. Objetivos
Neste relatório, objetivou-se conhecer os bancos de dados biológicos, assim
como os diversos formatos de sequenciamento de dados, de forma a notar as
semelhanças e diferenças entre eles, além de explorar os sites de literatura científica,
tornando perceptível, na prática, a importância e utilidade dessas bases de dados.
Na parte de programação com o Python, testou-se comandos condicionais,
utilizando os diversos operadores e executando os códigos no Terminal.
3
3. Base de Dados
As bases de dados reúnem conteúdo bruto a partir do qual é possível gerar
informação e aplicá-la em determinado interesse.
3.1. Base de Dados Primárias
As bases de dados primárias armazenam os resultados experimentais, os quais
podem conter alguma informação mais concreta, porém sem estarem organizados em
uma determinada coleção.
Existem três bancos de dados primários que contêm todos os sequenciamentos
gerados até agora. São esses: GenBank, EMBL e DDBJ.
O GenBank é o banco de dados de sequência genética do Instituto Nacional de
Saúde dos Estados Unidos (NIH). O EMBL é o banco de dados moleculares do Instituto
Europeu de Bioinformática (EBI). Já o DDBJ, DNA Data Bank of Japan, banco de
dados de sequencia de nucleotideos.
Todos esses três são atualmente parte do INSDC (International Nucleotide
Sequence Database Collaboration), cuja função é reunir os dados brutos e trocar
informações.
3.1.1. GenBank
Em aula, exploramos os recursos do GenBank primeiramente procurando, na
ferramenta de busca, pelo arquivo de referência ‘AF213260’. O arquivo, nomeado “Mus
musculus kidney-specific organic anion transporting polypeptide 5 mRNA, complete
cds”, se trata de um mRNA do camundongo com 2.798 pares de bases.
Diversos recursos estão disponíveis no GenBank; é possível mudar o formato
em que é apresentado o dado, de GenBank para FASTA, observar gráficos, acessar o
4
artigo e, ao clicar em CDS, o arquivo é redirecionado a uma parte destacada, a qual é
sequência da parte codificante.
Figura 1.: Homepage do GenBank.
5
Figura 2.: Informações a respeito do GenBank na página oficial.
Figura 3.: Arquivo AF213260.
6
Figura 4.: Sequência mostrada em formato FASTA.
7
Figura 5.: Região codificante (CDS).
8
Figura 7.: Artigo.
Para a submissão no GenBank, o formato FASTA deve ser a configuração da
sequência, este formato é o universalmente aceito para ser processado. Para a
conversão, existe uma ferramenta chamada EMBOSS Seqret, a qual, entre outras
funções, ajusta sequências de DNA, RNA e proteína para o formato desejado.
9
Figura 6.: Ferramenta EMBOSS Seqret.
3.2. Base de Dados Secundárias
As bases de dados secundárias contêm os dados curados, ou seja,
armazenados em coleções, sem redundância e derivados das bases de dados
primárias.
3.2.1. RefSeq
Em aula, exploramos os recursos do RefSeq primeiramente procurando, na
ferramenta de busca, pelo arquivo de referência ‘AF213260’, o mesmo utilizado no
GenBank.
10
No Reference Sequence Database, também parte do NCBI (National Center for
Biotechnology Information) assim como o GenBank, os dados estão curados e as
sequências anotadas. Todas as biomoléculas possuem apenas um registro para os
determinados organismos, em sua maioria.
Em outras palavras, o RefSeq é a sumarização de todas as informações obtidas
e integradas de múltiplas fontes. (CHOUDHURI, 2014).
Figura 7.: Homepage do RefSeq.
11
Figura 8.: Arquivo ‘AF213260’.
12
Figura 9.: Visualização no RefSeq.
13
Figura 10.: Visualização no RefSeq.
14
Figura 11.: Visualização no RefSeq.
15
Figura 12.: Visualização no RefSeq com formato FASTA.
Entre os recursos no RefSeq, temos o ‘STS’ - Sequence-Tagged Site - uma
sequência relativamente curta, interessante alvo para PCR (200 a 500pb), que pode
ser detectada na presença de todas as outras sequências gênicas e cuja a localização
no genoma é mapeada - possui uma única ocorrência no genoma.
16
Figura 13.: STS em destaque no RefSeq.
3.3. GenBank vs. RefSeq
Em suma, as bases de dados primárias armazenam dados brutos e
redundantes, enquanto que, as secundárias, informações não redundantes, derivadas
das primárias, em que várias entradas da mesma sequência lá são mescladas, a fim de
criar uma única sequência na base de dados secundária com anotações extensas
derivadas de todas as informações disponíveis na sequência. Como já dito
anteriormente, o GenBank é uma base de dados primária e o RefSeq, secundária.
No GenBank é disponibilizada a sequência anotada de nucleotídeos e suas
traduções em proteínas. O RefSeq é um banco de dados de sequências de DNA, RNA
e suas proteínas, com grandes sequências de diversas espécies, apresentando
registros únicos para cada biomolécula para cada organismo, de genomas às
transcrições e produtos de tradução.
3.4. Bases de Proteínas
3.4.1 UniProt
17
O UniProt é uma base dados de sequências e anotações de proteínas. Possui
as bases de dados UniProt Knowledgebase (UniProtKB), UniProt Reference Clusters
(UniRef) e UniProt Archive (UniParc).
O UniProtKB consiste em duas partes: UniProtKB/Swiss-Prot e
UniProtKB/TrEMBL. O primeiro é revisado e com sequências manualmente anotadas,
enquanto o segundo não possui revisão e é anotado automaticamente.
Figura 14.: Arquivo ‘P17763’.
Em aula, buscamos pela referencia ‘P17763’ no UniProtKB. Na página, temos
informações sobre a que tipo de organismo pertence a proteína, qual a cepa, função
desta proteína, etc. Neste arquivo, se trata de uma poliproteína de virus da dengue tipo
1.
18
Figura 15.: Função molecular e processos biológicos envolvidos com a proteína pesquisada.
19
Figura 16.: Recurso de visualização da proteína disponível.
Figura 17.: Também está disponível para visualização no formato FASTA.
20
Figura 18.: Resumo UniProt.
3.4.2 PDB
No PDB (Protein Data Bank), buscamos por ‘3J6T’, que determina o arquivo
para a estrutura do vírus da dengue tipo 3.
Vários recursos estão disponíveis no site PDB; em aula, exploramos as
estruturas da proteína, sobre as quais o site oferecevisualização da estrutura
secundária e terciária, de forma interativa, na qual pode-se escolher como visualizá-la,
o que visualizar e com que cores, etc.
21
Figura 19.: Arquivo 3J6T no PDB.
Figura 20.: Feature view.
22
Figura 21.: 3D view.
3.5 Bancos de NGS
O SRA (Sequence Read Archive), parte do INSDC, arquiva dados de
sequenciamento bruto e informações de plataformas de sequenciamento de alto
rendimento. Pode ser utilizado para comparar conjunto de dados e inclui dados sobre
como uma amostra biológica foi sequenciada.
23
Figura 22.: Homepage do SRA.
4. Literatura Científica
Foram apresentados, em aula, o Google Acadêmico e o PubMed. Ambos são
ferramentas de busca em base de dados, que auxiliam em pesquisas, trabalhos, etc.
Quando buscas são realizadas, o Google Scholar retorna mais resultados que o
Pubmed, porém, este retorna um conjunto bem definido de periódicos, enquanto a
ferramenta do Google não é tão específica quanto a isso.
24
Figura 23.: Resultados retornados pela pesquisa no PubMed.
25
Figura 24.: Resultados retornados da pesquisa no Google Acadêmico.
4.1 Exercícios
a) Trabalhos científicos relacionados à infecção por zika vírus em mulheres
grávidas.
26
Figura 25.: https://www.ncbi.nlm.nih.gov/pubmed/26889662
Figura 26.: https://www.ncbi.nlm.nih.gov/pubmed/29959761
27
https://www.ncbi.nlm.nih.gov/pubmed/26889662
https://www.ncbi.nlm.nih.gov/pubmed/29959761
Figura 27.: https://www.ncbi.nlm.nih.gov/pubmed/27479770
b) Como a informação disponível em bancos de dados públicos pode auxiliar na sua
pesquisa?
Os bancos de dados, como visto em aula, são úteis tanto na hora de auxiliar a
pesquisa, coletando informações para serem utilizadas ou verificando se o que está
sendo pesquisado já foi feito.
A quantidade de informações que se pode ter acesso através desses bancos e
os diversos recursos que se pode explorar nestes, fazem deles um importante aliado à
ciência e une laboratórios do mundo todo.
28
https://www.ncbi.nlm.nih.gov/pubmed/27479770
c) Exercícios no Python
29
30
5. Referências
CHOUDHURI, Supratim. Bioinformatics for Beginners: Genes,
genomes, molecular evolution, databases and analytical toys.
Elsevier, 2014. 78-97 p.
31