Buscar

Apostila - Introdução à Bioinformática

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 39 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 39 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 39 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Curitiba, PR
Copyright © 2019
1ª Edição, Dezembro de 2020
UNIVERSIDADE FEDERAL DO PARANÁ – UFPR
Setor de Educação Profissional e Tecnológica, SEPT
Realização
PROGRAMA DE PÓS-GRADUAÇÃO EM BIOINFORMÁTICA – UFPR
Parceria
PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIAS (BIOQUÍMICA) – UFPR
Edição Gráfica e Imagens
Camila Pereira Perico
Guilherme Taborda Ribas
Monique Schreiner
PPG Bioinformática UFPR
Site oficial: http://www.bioinfo.ufpr.br
Site dos alunos: https://www.bioinfodiscentes.com.br.
Licença: CC BY-NC-SA 4.0
Licenciado sob a Creative Commons Attribution-NonCommercial 4.0 Unported License.
http://creativecommons.org/licenses/by-nc/4.0.
Este documento é livre para uso, distribuição, adaptação e criação para fins não comerciais, desde
que seja atribuído devido crédito e que a licença do que fôr produzido a partir deste material possua
licença sob termos idênticos.
O modelo deste documento foi modificado de “The Legrand Orange Book”.
Obtido em overleaf.com, criado por Mathias Legrand (legrand.mathias@gmail.com).
Licença: CC BY-NC-SA 3.0 (creativecommons.org/licenses/by-nc-sa/3.0/)
http://www.bioinfo.ufpr.br
https://www.bioinfodiscentes.com.br
http://creativecommons.org/licenses/by-nc/4.0
creativecommons.org/licenses/by-nc-sa/3.0/
Sumário
1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2 Linux e Shell para Bioinformática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.1 Comandos básicos de shell 10
2.2 Criando scripts 14
2.2.1 Outros comandos úteis para a criação de scripts: . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2.2 Obtenção de dados de bancos de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3 Bancos de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.1 Teoria 19
3.1.1 Estrutura e Formatos de Arquivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.1.2 Principais Bancos de Dados Biológicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.2 Prática 24
4 Montagem Genômica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.1 Teoria 27
4.2 Prática 28
5 Anotação de Genomas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
5.1 Teoria 29
5.2 Prática 30
6 Filogenia Molecular . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
6.1 Teoria 33
6.2 Prática – Filogenia Molecular bacteriana 33
7 Genômica Comparativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
7.1 Teoria 35
7.2 Prática 36
5
APRESENTAÇÃO DO CURSO:
No final do século passado, as ciências biológicas foram revolucionadas pela expansão
da biologia molecular e da genética, de tal modo que hoje é muito difícil discutir qualquer
assunto dentro da biologia, e até mesmo sobre a natureza humana, sem recorrer ao respaldo
delas. Ao mesmo tempo em que explicam aspectos fascinantes da natureza, ainda que
deparem cada vez mais nos seus próprios desafios e questionamentos, elas proliferam
para os aspectos humanos e sociais, tornando-se assim um novo tipo de conhecimento
indispensável: DNA e gene passaram a ser palavras corriqueiras na nossa vida, ouvidas nos
filmes e na televisão, lidas nos livros e nos portais de notícias da internet.
No entanto, a biologia molecular e a genética não teriam subido ao topo das discussões
sem o auxílio de outra ciência que também deu passos largos no final do último século: a
ciência da informação. O grande avanço da biologia molecular e da genética foi, sobretudo,
acompanhado de um avanço na produção, análise e armazenamento da informação. O DNA
passou a ser sequenciado com certa facilidade, as análises passaram a ser automatizadas
por programas de computador e as informações passaram a ser armazenadas e cruzadas em
bases de dados.
Se hoje é difícil trabalhar com biologia sem fazer uso da biologia molecular, é muito
mais difícil trabalhar com biologia molecular sem o auxílio, por menor que seja, da informá-
tica. Surgiu assim a Bioinformática, que se ocupa de estudar as informações biológicas ao
nível de DNA, RNA e proteínas e também de como organizar e armazenar essas informações
Dessa forma, os alunos do programa de Pós-graduação em Bioinformática, em parceria
com o programa de Pós-graduação em Ciências-Bioquímica, oferecem o curso de Introdução
à Bioinformática com o intuito de auxiliar alunos e pesquisadores a dar os primeiros passos
nessa mescla de conhecimentos e, com isso, conseguirem se aprofundar ainda mais dentro
da genética e da biologia molecular.
Os autores
6
AUTORES
BRUNO THIAGO DE LIMA NICHIO Bacharel em Biomedicina (2010-
2013) pela Universidade Estadual de Londrina (UEL). Mestre em Bioin-
formática pelo programa de Pós-Graduação em Bioinformática (2014-
2016) pela Universidade Federal do Paraná (UFPR). Atualmente douto-
rando do programa em Pós Graduação em Ciências - Bioquímica pela
Universidade Federal do Paraná (UFPR)..
Contato: brnichio@gmail.com
CAMILA PEREIRA PERICO Doutoranda em Bioinformática na UFPR,
Mestre em Bioinformática (2020), Bacharel (2016) e licenciada (2018)
em Ciências Biológicas pela Universidade Federal do Paraná (UFPR).
Membro do Grupo de pesquisa Inteligência Artificial Aplicada à Bioin-
formática do PPG Bioinformática da Universidade Federal do Paraná.
Atualmente graduanda no curso de física pela UFPR. .
Contato: camilapp94@gmail.com
CAMILLA REGINATTO DE PIERRI Graduada em Biomedicina pelo
Centro Universitário Campo Real (2014). Especialista em Imuno-
hematologia em Banco de Sangue pela UNIPAR (2015). Especialista em
Docência e Gestão do Ensino Superior pela UNIPAR (2019). Mestra em
Bioinformática pela Universidade Federal do Paraná (2017). Doutoranda
pelo Programa de Pós-graduação em Ciências - Bioquímica na Universi-
dade Federal de Paraná..
Contato: camillareginatto.p@gmail.com
JOSUÉ OLIVEIRA CAMARGO Licenciado em Ciências Biológicas
pela Pontifícia Universidade Católica do Paraná (PUC-PR), Tecnólogo
em Análise e Desenvolvimento de Sistemas pela Universidade Federal
do Paraná (UFPR), mestre em Bioinformática pela UFPR (CAPES 3),
atualmente é doutorando do Programa de Pós-Graduação em Ciências
(Bioquímica) (CAPES 7), também pela UFPR..
Contato: josu.joc@gmail.com
MONIQUE SCHREINER Bacharel e Licenciada em Ciências Biológicas
na Universidade Federal do Paraná (2018) com graduação-sanduíche na
University of Western Australia (2016), Técnica em Informática pelo Ins-
tituto Federal do Paraná (2012). Atualmente, mestranda em Bioinformá-
tica no Laboratório de Inteligência Artificial Aplicada à Bioinformática
da UFPR. .
Contato: nique.mo94@gmail.com
1. Introdução
CAMILLA REGINATTO DE PIERRI
É fácil perceber que quando falamos a palavra Bioinformática estamos nos referindo à junção
de duas “coisas”, ou melhor, duas ciências: Biologia e Informática. Podemos dizer que isso é uma
meia verdade, uma vez que a parte “Bio” se refere apenas à biologia molecular, e não à biologia
como um todo. Embora isso não seja consenso, se você deseja trabalhar com bioinformática, há
uma enorme probabilidade de você trabalhar em auxílio à biologia molecular, e não com zoologia
ou botânica (pelo menos não diretamente).
Depois dessa consideração, podemos dizer que duas ciências se unem quando elas esbarram
em um objeto de estudo em comum. Qual objeto de estudo seria tão intrigante a ponto de conectar
biologia molecular e informática? Esse ponto de união gira em torno da molécula de DNA, visto
que ela é responsável por armazenar e transmitir a informação sobre os processos que ocorrem na
célula. Além disso, a biologia molecular paira sobre uma estrutura de fluxo de informação chamada
de dogma central da biologia molecular.
O “dogma central” diz que a informação contida na molécula de DNA, constituída por um
alfabeto de 4 letras (cada um dos nucleotídeos pode conter as bases A, C, T ou G), pode se
replicarem outra molécula de DNA, propagando a informação (replicação), mas também pode ser
transcrito em outra molécula, o RNA (transcrição). Essa molécula de RNA também é constituída
por nucleotídeos (que podem conter as bases A, C, G ou U) e, por sua vez, pode ser convertida
em DNA (transcrição reversa, embora seja realizada apenas por vírus), pode ser funcional (tRNA,
rRNA), ou ainda pode dar continuidade ao fluxo e ser traduzido para uma proteína (tradução), cuja
informação é formada por um alfabeto de 20 letras (os aminoácidos). A tradução da informação do
RNA para uma proteína é realizada por um código, no qual cada trinca de bases do RNA (códon)
corresponde a um aminoácido da proteína. Esse código é chamado de código genético, e é comum
à maioria dos seres vivos (por esse motivo, o código genético não deve ser confundido com a
informação contida no DNA).
Dessa forma, a informática foi incorporada como uma ferramenta para auxiliar a biologia
molecular a analisar e compreender os processos celulares ao nível molecular através desse fluxo de
8 Capítulo 1. Introdução
informação. Porém, em pouco tempo ela já contava com seus próprios desafios e estudos. É possível
dividir os estudos dentro da bioinformática em dois tipos: análise dos dados gerados à medida que
as técnicas de biologia molecular vão surgindo, ou seja, basicamente análise de sequências de DNA,
RNA ou proteínas; desenvolvimento de ferramentas para que as análises possam ser realizadas cada
vez com maior número de sequências e para que sejam cada vez mais refinadas, além da criação de
bancos de dados para armazenamento e cruzamento das informações produzidas.
Dentro desse contexto surgiu também o novo cientista, o bioinformata, capaz de transitar entre
as duas áreas do conhecimento. Welch e colaboradores (2014) [1] dividem os bioinformatas em 3
tipos: usuário, aquele que utiliza as ferramentas de bioinformática para analisar seus dados, embora
seja incapaz de criar programas e soluções para seus problemas; engenheiro ou programador,
aquele que é dedicado a resolver os problemas da biologia molecular utilizando conhecimentos
computacionais e matemáticos que um biólogo não possui, embora tenha dificuldade em interpretar
o significado biológico dos seus resultados; cientista (pesquisador), aquele que trabalha com um
grande volume de informação, domina os programas e automatiza tarefas, embora ainda seja
incapaz de desenvolver técnicas mais elaboradas computacionalmente.
As análises bioinformáticas e os campos de desenvolvimento são vários. Aqui, vamos dividi-las
em: Bancos de dados, Análise de sequência, Análise filogenética, Análise estrutural e Análise
funcional (ômicas). Os bancos de dados são responsáveis por armazenar as informações biológicas,
resgatar e cruzar essas informações. Muitos estão disponíveis na internet e em geral contam com
uma interface web amigável, ferramentas de busca, recuperação e compartilhamento da informação,
além de ferramentas para análises específicas.
A análise de sequência consiste basicamente em identificar a função de uma sequência de
DNA ou proteína, geralmente através da comparação com sequências já presentes em bancos
de dados. Essa comparação é realizada pelo alinhamento das sequências, onde são comparados
padrões de bases ou aminoácidos. As sequências com padrões muito parecidos são parecidas
porque descendem de uma sequência ancestral, ou seja, são homólogas.
Esses alinhamentos de sequências são também utilizados para a realização de análises filoge-
néticas, que consistem no estudo da história evolutiva dos seres vivos ou, nesse caso, na história
evolutiva dos genes e proteínas. Uma vez alinhadas, as sequências são agrupadas em ordem de
semelhança, representadas em diagramas (árvores) que demonstram o possível parentesco entre elas.
Além disso, genes, RNAs e proteínas podem ser estudados em conjunto, constituindo as ômicas.
Dessa forma, temos a genômica como o conjunto de genes, a transcriptômica como o conjunto de
transcritos (RNAs) em determinada condição, e o proteoma como o conjunto de proteínas de um
organismo.
Por outro lado, uma vez bem estabelecida a função de uma molécula (RNA ou proteína), é pos-
sível analisá-la para desvendar sua estrutura tridimensional, estabelecendo com isso a relação entre
forma e função. A estrutura de uma molécula é determinada pela interação dos seus componentes
(pareamento de bases, interações de carga e hidrofobicidade dos aminoácidos, entre outras).
Referências
[1] Lonnie Welch et al. “Bioinformatics curriculum guidelines: toward a definition of core
competencies”. Em: PLOS computational biology 10.3 (2014), e1003496 (ver página 8).
2. Linux e Shell para Bioinformática
CAMILA PEREIRA PERICO
Os sistemas operacionais (SO) são programas de computador (ou um conjunto deles) que tem
como principal função gerenciar os recursos de um sistema - memória, processador, sistema de
arquivos. O Linux é um sistema operacional que surgiu no início da década de 1990 como um
trabalho acadêmico de seu criador Linus Torvalds que queria experimentar os novos recursos de
hardware dos recém lançados processadores 80386. À época, Torvalds fez uma postagem num
grupo de entusiastas de Minix (sistema operacional criado por Tannenbaum) para pedir feedbacks
sobre o Minix. O objetivo era saber o que as pessoas gostavam ou não nesse SO, no mesmo post
anunciou a criação do seu sistema e disse que esse também seria livre. Os dois primeiros programas
que Linus Torvalds trouxe para seu sistema operacional foram o bash (um terminal de shell) e
o gcc, um compilador de C. A razão para a escolha desses dois itens é simples: o primeiro traz
o necessário para que o usuário possa interagir com o sistema de arquivos e outros recursos do
computador; enquanto o segundo possibilita o desenvolvimento de softwares e novos programas.
Historicamente o Linux é livre (tem o código aberto e pode ser alterado) e possui muitas
versões gratuitas. Por essa razão e pela cultura disseminada por Linus de desenvolver o senso
de comunidade em torno no Linux, ele é, até hoje, um sistema operacional bastante utilizado em
projetos acadêmicos e comerciais que não querem (ou não podem) arcar com os custos de licença
de software ou que desejam desenvolver suas próprias soluções de maneira livre.
A frequente comparação entre Linux e Windows, do ponto de vista da Ciência da Computação
faz pouco, ou nenhum, sentido, já que possuem públicos-alvo distintos. Se por um lado a liberdade
pregada pelo Linux é um forte atrativo, a falta de compatibilidade e a quantidade limitada de
aplicações disponíveis pode se tornar um empecilho. Da mesma maneira, apesar dos custos de
licença associados ao Windows podem parecer impeditivos, a facilidade de implementação e
o ganho de produtividade podem compensá-los. Por essa razão, a escolha do melhor sistema
operacional precisa ser baseada nas características e qualidades que se deseja no projeto que serão
empregadas e não em propriedades isoladamente.
10 Capítulo 2. Linux e Shell para Bioinformática
shell
O shell é uma interface que permite ao usuário acessar, em forma de linhas de comando, seu sistema
operacional. Diz-se shell (concha ou casca em inglês) pois é a camada que expõe o núcleo (kernel)
de um sistema operacional .O shell é onde se insere e executa comandos, também conhecido como
prompt, terminal, console, tela preta. O shell é equivalente ao prompt de comando e ao Powershell
do Windows.
No shell é possível executar comandos simples como navegar nos diretórios de seu computador,
executar programas, manipular arquivos. Além de tudo isso, possui uma estrutura que permite
criação de scripts e o desenvolvimento de software [2]. Por isso, como qualquer linguagem de
programação, o shell permite criar funções, além das tradicionais FOR, IF, WHILE, etc.
shell script
Os scripts são um arquivo que contém uma sequência de comandos que poderiam ser digitados em
sequência no prompt. Mas qual seria a função dos scripts, se eles podem ser digitados diretamente?
a automatização.Como em muitos a quantidade de comandos é muito grande ou muito repetitiva,
então opta-se por automatizar.
Os scripts shell utilizam o bash, um interpretador de comandos compatível com o .sh (Bourne
Shell). O bash permite a montagem de scripts em shell (shell scripts) de execução fácil e eficiente.
O shell permite a manipulação e obtenção de dados de arquivos de texto com grande faci-
lidade, rapidez, sendo uma poderosa ferramenta para a bioinformática. Isso se torna evidente
principalmente quando se precisa lidar com grande volume de dados.
2.1 Comandos básicos de shell
Inicialmente, para se acostumar e conhecer melhor o terminal linux, vamos usar alguns comandos
simples que permitirão navegar pelo terminal, como listado na Tabela 2.1. Mais comandos e
exemplos podem ser encontrados no Guia Foca, listado nas referências [3].
Se você não possui acesso a uma máquina linux, pode experimentar utilizar um terminal online
para aprender os comandos básicos e a ganhar noção no espaço do terminal. Experimente utilizar o
terminal online do site https://bellard.org.
Tabela 2.1: Alguns exemplos de comandos simples de terminal [1].
Comando Função
ls Informa o que há na pasta
ls -lh Informações sobre os arquivos da pasta
pwd Em que pasta estou
file Dá informações sobre o arquivo
df Quais unidades estão montadas (HD, pendrive...)
cp Copiar
Quero copiar o arquivo “Hb.fasta” para a pasta “Documentos/FASTA/”
> cp Hb.fasta Documentos/FASTA/
Quero copiar a pasta “MeusFasta” para a pasta “Documentos/FASTA/”
> cp -r MeusFasta/ Documentos/FASTA/
mv Mover arquivo
rm Apagar arquivo (definitivamente, não moverá para a lixeira)
diff Comparar arquivos
https://bellard.org/jslinux/vm.html?url=https://bellard.org/jslinux/buildroot-x86.cfg
2.1 Comandos básicos de shell 11
Quero saber o que difere os arquivos “A.txt” e “B.txt”
> diff A.txt B.txt
< indica o que saiu e > o que entrou em do arquivo A para o B
./ Executa um programa que não é do sistema, como um script .sh
tail Imprime as últimas linhas do arquivo na tela
Quero ver as 25 últimas linhas do arquivo “nomes.dat”
> tail -25 nomes.dat
head Imprime as primeiras linhas do arquivo na tela
Quero ver as 25 primeiras linhas do arquivo “nomes.dat”
> head -25 nomes.dat
tar Extrair arquivos tipo tar.gz
Extrair “arquivo.tar.gz” (-x = extrair, -v = verbose, -z= formato tar.gz, -f = o nome do arquivo
está em seguida).
> tar -xvzf arquivo.tar.gz
unzip Extrair arquivos tipo .zip
Extrair "arquivo.zip"(-v= verbose)
> unzip -v arquivo.zip
wc Word count – conta número de linhas, palavras e caracteres, nessa ordem.
> wc -l file.txt
-l: retornar só o número de linhas
-w: retornar só o número de palavras
-m: retornar só o número de caracteres (incluindo espaços)
man Manual para os comandos
-h fornece informações sobre o comando (opções, exemplo, uso, etc)
Quero informações sobre os comandos wc e wget
wget -h
wget - -help
wc - -h
há variação de formato dependendo do comando (-h, - -h, -help)
locate Localiza um arquivo na máquina pelo seu nome
find Localiza arquivo na pasta e subpastas onde estou
Listar todos os arquivos da pasta e subpastas
> find .
Encontrar os pdfs que comecem com Hb de uma pasta e subpastas
> find /pasta/subpasta -name Hb*.pdf
# comentário
> cat file.dat # aqui escrevo o que quiser, muito útil em
scripts
& Libera o terminal durante a execução
Abre a janela do programa gedit e libera o terminal para novas execuções
> gedit arquivo.txt &
12 Capítulo 2. Linux e Shell para Bioinformática
less Ver o que há no arquivo tipo texto
Ver no terminal o “arquivo.txt”(-S não quebra linha)
> less -S arquivo.txt
more Similar ao less, com variação na forma de visualização
> Armazena a saída do terminal em um arquivo
>> Armazena a saída do terminal em um arquivo a partir da última linha
Quero salvar as 5 primeiras linhas do File.dat em “titulo.dat”.
> head -5 File.dat > titulo.dat
Quero acrescentar ao arquivo “titulo.dat” uma linha escrito “fim do arquivo”
> echo “fim do arquivo” >> titulo.dat
cat Coloca o arquivo todo na tela
Para entender melhor os comandos, existe online a www.explainshell.com. Ele funciona
bem para uma grande gama de comandos shell, contendo uma explicação didática do comando
inserido.
Agora que vimos os comandos mais simples, vamos para o grep. O grep possui grande utilidade
quando se visa analisar textos, como as sequências biológicas. Ele permite encontrar padrões
utilizando as chamadas expressões regulares ou REGEX. As expressões regulares são bastante
simples e poderosas para a busca de padrões. Vamos aos exemplos.
Para acessar o material deste curso, entre no link abaixo e faça download do arquivo Pra-
tica_Shell.zip:
Todo o material necessário para desenvolver a prática será disponibilizado no link acima,
contudo será dadas instruções de como esse material foi obtido nos exemplos a seguir.
Exemplo 1: Thermus thermophilus
Primeiramente, baixe a sequência fasta no NCBI, contendo o genoma completo da espécie Thermus
thermophilus.
Entre no site https://www.ncbi.nlm.nih.gov/
Selecione na aba genome
escreva Thermus thermophilus e entre
ou entre no link abaixo e selecione o FASTA genome.
O arquivo estará compactado no formato .gz. Basta dar o comando
> gunzip GCF_000091545.1_ASM9154v1_genomic.fna.gz
Tenho o genoma completo do Thermus thermophilus no arquivo:
GCF_000091545.1_ASM9154v1_genomic.fna.
Vamos mudar o arquivo de nome, pois é muito longo:
> cp GCF_000091545.1_ASM9154v1_genomic.fna Tt.fasta
Assim, estarei copiando o arquivo como Tt.fasta.
Primeiramente quero ver se nesse arquivo tem a sequência “AATGCGC”:
> grep 'AATGCGC' Tt.fasta A impressão será das linhas em que foi encontrada a sequên-
cia (e serão muitas) com ela destacada em vermelho, por exemplo as 3 primeiras linhas:
GGATACGCTCAGGCTAGACGGTGGGAGAGGGTGGTGGAATTCCCGGAGTAGCGGTGAAATGCGCAGATACCGGGAGGAAC
GTGGCGTATAACAAAATGCGCCGCGCCCTGGAGGAGCGCTTGGGCCTCCTCCGCCGCCTCGGGGGAATGGACCTCCGCTT
AAGGGGTGCGGAGCCTGCTCAAGGAGGGGTGAATGCGCCGCGCCTTCCTCCTCGCCTTCCTGGGCCTCGCCCTGGCCCAG
Caso queira saber em quais linhas em que o padrão foi encontrado, basta acrescentar -n:
www.explainshell.com
https://www.bioinfodiscentes.com.br/cursos-ministrados
https://www.ncbi.nlm.nih.gov/
https://www.ncbi.nlm.nih.gov/genome/?term=Thermus+thermophilus
2.1 Comandos básicos de shell 13
> grep -n 'AATGCGC' Tt.fasta
1651:GGATACGCTCAGGCTAGACGGTGGGAGAGGGTGGTGGAATTCCCGGAGTAGCGGTGAAATGCGCAGATACCGGGAGGAAC
2491:GTGGCGTATAACAAAATGCGCCGCGCCCTGGAGGAGCGCTTGGGCCTCCTCCGCCGCCTCGGGGGAATGGACCTCCGCTT
3170:AAGGGGTGCGGAGCCTGCTCAAGGAGGGGTGAATGCGCCGCGCCTTCCTCCTCGCCTTCCTGGGCCTCGCCCTGGCCCAG
Muitas vezes não temos um padrão bem definido. Pode ser algo como A ou T, seguido de GCAGCC
e terminando com A ou G
> grep -n '[AT]GCAGCC[AG]' Tt.fasta Posso salvar a(s) linha(s) com o padrão em
um arquivo próprio, por ex., saida.dat. > grep -n '[AT]GCAGCC[AG]' Tt.fasta > saida.dat
Exemplo 2: Multifasta
Baixe o arquivo GCF_000091545.1_ASM9154v1_cds_from_genomic.fna.gz no en-
dereço ftp neste link. Descompacte:
> gunzip -k GCF_000091545.1_ASM9154v1_cds_from_genomic.fna.gz
O -k evita que delete o .gz após a extração.
Renomeie como MultiTt.fasta:
> cp GCF_000091545.1_ASM9154v1_genomic.fna MultiTt.fasta
Esse arquivo contém os fasta de todos as regiões codificantes de Thermus thermophilus.
Digamos que eu queria criar um arquivo apenas com os cabeçalhos dessas sequências. Sei que
os fasta têm um cabeçalho que começa com “>”, logo:
> grep "^[>]" MultiTt.fasta > cabeçalhos.dat
Opções do grep:
-n: imprime número da linha
-i: ignora a distinção maiúscula e minúscula
-E: usa padrão regex
Na Tabela 2.2 fornecemos alguns exemplos de expressões regulares (regex). Existem ferra-
mentas online que permitem usar o padrão regex e inserir um texto de busca como o https:
//regex101.com/ e o https://regexr.com/.
Estamos dando exemplos apenas de bases nucleotídicas, mas o mesmo se aplica a aminoácidos,
assim como a textos de maneira geral. O grep pode ser usado para encontrar informações variadas,
incluindo números, variados caracteres, etc.
Exemplo3: encontrar informação em múltiplos arquivos
Também é possível encontrar informações em vários arquivos em uma pasta. Tenho, por exemplo,
uma série de documentos Genbank com nomes codificados (pasta genbank de Exemplos), e quero
apenas aqueles com sequências de Mus musculus. Para isso:
> grep 'Mus musculus' *.genbank
E ele irá retornar quais arquivos possuem esse texto.
Agora, digamos que deseja-se extrair desse arquivo genbank apenas a sequência nucleotídica
do restante das informações. Sabemos que as sequências nos arquivos genbank são iniciadas pelo
identificador ORIGIN, logo
> grep -n 'ORIGIN' file.genbank
Conhecendo a linha em que começa minha sequência (a seguinte onde aparece ORIGIN).
Posso usar wc para determinar quantas linhas tem o arquivo
> wc -l file.genbank
digamos que eu encontrei ORIGIN na linha 95 e que há 127 linhas no total. Obtenho a sequência
ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/091/545/GCF_000091545.1_ASM9154v1/
https://regex101.com/
https://regex101.com/
https://regexr.com/
14 Capítulo 2. Linux e Shell para Bioinformática
com sed:
> sed -n '96,126p' file.genbank > sequencia.txt
e salvo minha sequência no arquivo sequencia.txt.
Removo a linha 95 pois é a que contém a palavra ORIGIN, e a última que contém \\.
Mas e os demais arquivos genbank, a que organismos pertencem? Pode-se obter uma lista
facilmente buscando a tag “ORGANISM”:
> grep 'ORGANISM' *.genbank
E ele irá retornar a listagem de espécies, uma para cada arquivo.
Exemplo 4: conteúdo GC
Tenho uma sequência fasta e quero descobrir o conteúdo GC dela. Naturalmente existem várias
ferramentas que fazem isso por nós, mas digamos que não existam (ou que queremos algo específico
para a qual não existem ferramentas disponíveis).
Primeiramente não quero que ele conte os caracteres do meu cabeçalho. Como ele começa com
>, digo para o grep pegar todas as linhas, menos a que começa com >
> grep '^[^>]' Tt.fasta
Então uso essa saída como entrada de outro grep que vai encontrar os Gs e os Cs, mas peço para
ele imprimir apenas os padrões, isto é, ele imprime só os G e C, e não os A e T:
> grep '^[^>]' Tt.fasta | grep -o '[GC]'
agora para encontrar quantas foram as ocorrências de G e C uso wc, e conto o número de linha
> grep '^[^>]' Tt.fasta | grep -o '[GC]' | wc -l
Assim você terá quantos G e C há na sequência. Mas como queremos o percentual, temos
de saber qual o tamanho total da sequência, logo pegamos toda a sequência (sem cabeçalho) e
contamos o número de caracteres com -m:
> grep '^[^>]' Tt.fasta | wc -m
É preciso tomar cuidado nesse ponto com espaços e linhas em branco, que serão contados
também. Alternativamente, como segurança, pode-se contar o número de GC e depois o número de
AT, o que dá maior segurança na análise.
> grep '^[^>]' Tt.fasta | grep -o '[GC]' | wc -l
> grep '^[^>]' Tt.fasta | grep -o '[AT]' | wc -l
Para obter o percentual GC teríamos que calcular manualmente a partir da contagem. Agora
podemos criar um script para automatizar esse cálculo.
2.2 Criando scripts
A primeira linha de todo script deve ser #!/bin/bash. E a extensão para scripts shell geralmente
é .sh. Podemos agora automatizar o cálculo do percentual GC de uma sequência num arquivo
.fasta.
#!/bin/bash
# Comentários:
# Este script fornece o % do conteúdo GC de uma sequência fasta.
# Para utilizar este script, use o formato a seguir:
# ./conteudoGC meuarquivo.fasta
# obter o número de G e C na sequência
GC=$(grep '^[^>]' $1 | grep -o '[GC]' | wc -l)
2.2 Criando scripts 15
# obter o número de A e T na sequência
AT=$(grep '^[^>]' $1 | grep -o '[AT]' | wc -l)
# soma AT com GC, dando o número de bases total
tot=$(calc $GC+$AT)
# dá o percentual
calc $GC/$tot*100
Vamos salvar como conteudoGC.sh. Para executar o script é preciso alterar as permissões
do arquivo, tornando-o executável:
> chmod +x conteudoGC.sh
Para executar use:
> ./conteudoGC.sh file.fasta
Vamos entender o que foi feito. #!/bin/bash é chamada do interpretador bash para os comandos
dados no script. $1 tem a função de chamar o primeiro parâmetro inserido na linha de chamada do
script, que nesse caso é o nome do arquivo fasta file.fasta.
O comando X=$(...) permite salvar a saída de um comando dado na variável X. Para
posteriormente usar o valor dessa variável, usa-se $X.
calc é uma calculadora de terminal que permite realizar operações básicas com números tipo
float (com vírgula). As operações são dadas pelos sinais +, -, / e *.
2.2.1 Outros comandos úteis para a criação de scripts:
Posso, em scripts, solicitar ao usuário digitar algo na tela, e assim salvar essa informação em uma
variável, utilizando read:
> read -p 'digite algo' var
Caso queira realizar troca de trechos de texto de um arquivo, posso usar o sed:
> sed -i 's/esse texto vai sair/e esse vai entrar/g' file.txt
substitui o trecho ‘esse texto vai sair’ pelo texto ’e esse vai entrar’.
2.2.2 Obtenção de dados de bancos de dados
O download automático de uma série de arquivos é muito útil. Isso também pode ser facilmente
realizado pelo terminal utilizando wget. O NCBI tem seus banco de dados abertos para download
no endereço ftp://ftp.ncbi.nlm.nih.gov. Assim, se desejo obter um certo conjunto de
sequências, basta usar o endereço de armazenamento desses dados. Por exemplo, obtive o genoma
de Thermus thermophilus acessando o link. Se que quiser, entretanto, baixar os demais arquivos,
contendo as sequências proteicas, o formato genbank, etc. acesso o diretório pai desse arquivo,
como abaixo:
ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/091/545/GCF_000091545.1_ASM9154v1/
ftp://ftp.ncbi.nlm.nih.gov
ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/091/545/GCF_000091545.1_ASM9154v1/
16 Capítulo 2. Linux e Shell para Bioinformática
Se desejo baixar apenas os arquivos .gz, posso utilizar o seguinte comando:
> wget -r -c -np -nd --accept=gz ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/
000/091/545/GCF_000091545.1_ASM9154v1/
onde -r é o modo recursivo, -c permite que o download continue de onde parou caso haja alguma
instabilidade na rede, -np impede o wget baixar arquivos do diretório pai, o -nd permite que
ele apenas baixe os arquivos, sem copiar a estrutura do site, -accept=gz significa que ele só irá
baixar os arquivos no formato .gz.
Nesta lista de itens baixados haverá o arquivo ...genomic.gbff, que é o arquivo gen-
bank, isto é, contém a listagem completa de genes do genoma do organismo. O arquivo com
...cds_from_genomic.fna é a sequência multifasta com todas as regiões codificantes (cds)
conhecidas do genoma. Essas sequências foram utilizadas nos exemplos anteriores nomeadas como
Tt.fasta, MultiTt.fasta.
Alternativamente existe o aria2c. Ele também possui execução via terminal, mas com a
vantagem de permitir vários acessos simultâneos a um mesmo arquivo para download, tornando-o
mais rápido. Vamos a um exemplo em que faço 5 acessos simultâneos:
> aria2c -x5 ftp://ftp.ncbi.nlm.nih.gov/genomes...
onde o -x número dá o número de conexões.
Exemplo 5: Script prático
Podemos criar scripts que facilitam nosso trabalho, não apenas para análise de dados, mas também
utilizando quaisquer comandos visto, inclusive chamando outros scripts. Tomemos um exemplo:
quero baixar uma série de arquivos de certo diretório na nuvem, armazená-lo em um diretório ainda
não criado, que estes arquivos sejam analisados e então o resultado seja dado na tela.
Chamemos o script de simples.sh. Forneço ao script o nome do diretório a ser criado
(parâmetro 1) e a url (parâmetro 2) - use como exemplo a seguinte url:
> chmod +x simples.sh
> ./simples.sh pasta ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/091/545/
GCF_000091545.1_ASM9154v1/GCF_000091545.1_ASM9154v1_genomic.fna.gz
REFERÊNCIAS 17
#!/bin/bash
# $1 - nome pasta, $2 - url
mkdir $1 # crio pasta
cd $1 # entro na pasta
echo 'Iniciando Download .. '
wget -r -c -np -nd $2
gunzip *.gz
cd .. # saio da pasta
echo 'Iniciando Análise.. '
ls $1 > $1/Analise.dat # coloco o nome do arquivo
./conteudoGC.sh $1/* >> $1/Analise.dat #salvo resultado da análise
O que está sendofeito:
1. crio uma pasta com um nome de minha escolha (parâmetro 1)
2. entro na pasta
3. imprimo na tela informando que vou iniciar o download
4. faço o download do arquivo tipo .gz pela url fornecida (parâmetro 2)
5. descompacto (e por default apago o .gz)
6. saio da pasta
7. imprimo na tela que vou começar a análise
8. copio o nome do arquivo que baixei para o arquivo Analise.dat
9. faço a analise com o conteudoGC.sh e salvo em Analise.dat numa nova linha
10. Agora posso acessar o resultado no arquivo Analise.dat na pasta que criei.
Sugestão de sites:
www.explainshell.com – comandos shell
https://regex101.com/ – padrões REGEX (expressão regular)
https://regexr.com/ – padrões REGEX (expressão regular)
https://bellard.org – terminal online
Referências
[1] Manual Bash do GNU. (acessível em qualquer usuário linux ao digitar “man bash”. URL:
https://linux.die.net/man/1/bash (acesso em 01/08/2019) (ver página 10).
[2] Aurélio Marinho Jargas. Introdução ao Shell Script. 2004. URL: http://aurelio.net
(ver página 10).
[3] Gleydson Mazioli da Silva. Guia Foca GNU/Linux - Versão 4.22. 2010. URL: http://www.
guiafoca.org/ (ver página 10).
www.explainshell.com
https://regex101.com/
https://regexr.com/
https://bellard.org/jslinux/vm.html?url=https://bellard.org/jslinux/buildroot-x86.cfg
https://linux.die.net/man/1/bash
http://aurelio.net
http://www.guiafoca.org/
http://www.guiafoca.org/
18 Capítulo 2. Linux e Shell para Bioinformática
Tabela 2.2: Exemplos de expressões regulares: prefira usar sempre entre aspas.
Expressão resultado
ABC busca o padrão ABC
[ABCD] A ou B ou C ou D
(ABCD) conjunto ABCD
C{5} padrão que repete 5 vezes o C
CCAGT{3,5} somente a letra T se repetindo de 3 a 5 vezes
(CCAGT){3,5} o padrão todo em tandem, se repetindo de 3 a 5 vezes
^[>] as linhas que começam com >
^[^>] as linhas que não começam com > (negação)
[^(AT)] mostra todas as sequências, exceto o padrão AT
ATC?A C é facultativo na sequência (exige -E de padrão regex)
ATC[^AG] começa com ATC e não termina nem com A nem com G
^[CA]GG linha começa com A ou C, seguido de GG
\[ \( \* use \ para inserir buscar caracteres especiais
3. Bancos de Dados
MONIQUE SCHREINER
LEONARDO CRUZ LEONARDO MAGALHÃES CRUZ
3.1 Teoria
A biologia é uma ciência rica em informações, que acumula uma grande quantidade de dados
gerados em experimentos. Desta forma, há necessidade de armazenar esses dados de forma
organizada e fácil de se encontrar, otimizando o tempo de execução das análises. Uma forma de
lidar com este grande número de dados é utilizando bancos de dados. Neles é possível unir os
dados e relacionar partes da informação de forma consistente, facilitando o acesso aos dados e a
extração de informações. Os bancos de dados atendem a diversas áreas, e podem arquivar todo tipo
de dado (texto, imagens e áudios, por exemplo).
O primeiro banco de dados biológico foi proposto em 1965 pela físico-química Margaret
Dayhoff e era composto de todas as sequências de proteínas conhecidas até a época, reunidas no
livro Atlas de Estruturas e Sequências de Proteínas [1]. Atualmente, os bancos de dados biológicos
são compostos principalmente por sequências de ácidos nucleicos, incluindo genomas completos,
sequências de aminoácidos, estruturas e funções de moléculas, padrões de expressão de genes,
vias metabólicas, redes de interações e literatura. Além disso, são de responsabilidade de projetos
específicos nacionais e internacionais [2]
De forma geral, os bancos de dados biológicos podem ser classificados em três categorias a
partir do tipo e do conteúdo dos dados armazenados: primários, secundários e especializados.
Os Primários consistem em bancos de dados que armazenam resultados experimentais, ou seja,
informações biológicas originais como sequências de nucleotídeos ou de proteínas. Geralmente os
dados são armazenados em arquivos do tipo texto simples (Subseção 3.1.1). Alguns exemplos de
bancos de dados biológicos primários são: GenBank, PDB e UniProtKB.
Os Bancos de Dados Secundários armazenam resultado de análises feitas a partir de dados
primários como, por exemplo, anotações de funcionalidades, motivos e famílias de proteínas e
literatura associada. PROSITE, Pfam, SCOPE e CATH são exemplos.
20 Capítulo 3. Bancos de Dados
Bancos de dados que atendem a um interesse particular, como um determinado organismo, gene
ou proteína, são denominados Especializados. Por exemplo, WormBase (dados de nematódeos),
HIV Sequence Database, RDP (banco de dados ribossomais), STRING (interações entre proteínas)
e Registry of Standard Biological Parts (biologia sintética).
3.1.1 Estrutura e Formatos de Arquivos
Bancos de dados podem ser estruturados de duas maneiras: em forma de arquivos de texto simples
(Flat Text Files) ou em forma de bancos de dados relacionais [3]. Arquivos de Texto Simples
são arquivos de texto sem formatação em que a informação se encontra estruturada em uma única
tabela. Esse tipo de arquivo tem fácil legibilidade (tanto para humanos quanto para máquinas) e
facilita o acesso automático. Alguns formatos de arquivos de texto simples em bancos de dados
biológicos são o FASTA, FASTQ, o GenBank e o PDB. O formato FASTA (.fasta, .fas, .fna, .ffn,
.faa, .frn) pode ser usado para armazenar tanto sequências de nucleotídeos quanto de aminoácidos.
É caracterizado como FASTA o arquivo em que a tabela possui uma única coluna e a primeira
linha se inicia com o símbolo > seguido de um cabeçalho. O padrão do cabeçalho é variável,
mas uma boa prática é adicionar um identificador único para a sequência, como um ID, nome da
proteína/gene e do nome do organismo. As linhas seguintes representam a sequência de aminoácido
ou nucleotídeos (Figura 3.1).
Figura 3.1: Exemplo de arquivo no formato FASTA.
Outro formato para armazenar sequências biológicas é o FASTQ. Com ele é possível associar
a sequência biológica com seus escores de qualidade. Do mesmo modo que o formato FASTA,
o formato FASTQ é estruturado na forma de uma tabela com uma única coluna (Figura 3.2). A
primeira linha se inicia com o símbolo @ e corresponde ao identificador da sequência. A segunda
linha representa a sequência de nucleotídeos. A terceira linha é um separador e se inicia com
o símbolo +. Após esse símbolo, pode-se adicionar o identificador ou qualquer descrição, mas
isso é opcional. Por fim, a quarta linha representa o escore de qualidade em que cada caractere
corresponde a um símbolo da tabela ASCII.
3.1 Teoria 21
Figura 3.2: Exemplo de arquivo no formato FASTQ.
O formato GenBank (.gbk, .gb), também pode ser usado para sequências de aminoácidos e
nucleotídeos e, além da sequência, fornece informações acerca da anotação como artigo de origem,
autores, características da sequência, região codificadora, entre outras. O arquivo é dividido em três
partes (header, features e origin). As partes header e features são compostas por duas colunas: uma
com a característica chave e outra com a localização e/ou o qualificador (informações auxiliares
sobre a característica chave). A header é o cabeçalho e mostra detalhes da sequência como
definições, literatura associada e autores (Figura 3.3). As features se iniciam na linha FEATURES
e descrevem características importantes da sequência como presença de regiões codificadores e
proteínas (Figura 3.4). A sequência em si se inicia na linha ORIGIN e é finalizada com os símbolos
//, marcando o final do arquivo 3.5.
Figura 3.3: Primeira parte do arquivo no formato GenBank.
22 Capítulo 3. Bancos de Dados
Figura 3.4: Segunda parte do arquivo no formato GenBank.
Figura 3.5: Terceira parte do arquivo no formato GenBank.
3.1 Teoria 23
O formato PDB (.pdb, .ent, .brk) contém informações acerca da forma tridimensional de
macromoléculas. O arquivo é composto por inúmeras seções (Figura 3.6). A seção SEQRES
descreve as cadeias polipeptídicas da proteína. A seção ATOM descreve a coordenadas no espaço
de cada átomo em cada aminoácido de cada cadeia polipeptídica. A seção HETATM descreve a
posição dos hetero-átomos, ou seja, átomos que nãofazem parte da proteína.
Figura 3.6: Exemplo de arquivo no formato PDB.
Os bancos de dados relacionais são compostos por inúmeras tabelas relacionadas por meio de
códigos únicos para cada registro. Este tipo de banco permite uma pesquisa mais eficiente, menor
redundância e maior segurança e consistência dos dados. Porém, este tipo de banco não tem fácil
legibilidade e precisa de linguagem e programas específicos para serem lidos como, por exemplo, a
linguagem SQL.
3.1.2 Principais Bancos de Dados Biológicos
O INSDC (International Nucleotide Sequence Database Collection) consiste numa iniciativa de
coletar, disseminar e manter bancos de dados sincronizados. Esta iniciativa envolve três bancos
de dados: DDBJ (DNA Data Bank of Japan) do Japão, NCBI (National Center for Biotechnology
Information) dos Estados Unidos e EMBL (European Molecular Biology Laboratory) da Europa.
O NCBI (https://www.ncbi.nlm.nih.gov/) é dividido em quase 40 bancos de da-
dos. Por exemplo, as sequências de nucleotídeos anotadas de forma automática são armaze-
nadas no banco de dados não-redundante GenBank (https://www.ncbi.nlm.nih.gov/
genbank/). Sequências de nucleotídeos e proteínas revisadas manualmente são armazenadas
no banco de dado não-redundante RefSeq (https://www.ncbi.nlm.nih.gov/refseq/).
Artigos, periódicos e livros online ficam armazenados no banco PubMed (https://www.ncbi.
nlm.nih.gov/pubmed/). Nomes de organismos e linhagens filogenéticas se encontram no
banco Taxonomy (https://www.ncbi.nlm.nih.gov/taxonomy). Genomas, incluindo
sequências, anotações, mapas e cromossomos, são armazenadas no banco Genome (https:
//www.ncbi.nlm.nih.gov/genome).
https://www.ncbi.nlm.nih.gov/
https://www.ncbi.nlm.nih.gov/genbank/
https://www.ncbi.nlm.nih.gov/genbank/
https://www.ncbi.nlm.nih.gov/refseq/
https://www.ncbi.nlm.nih.gov/pubmed/
https://www.ncbi.nlm.nih.gov/pubmed/
https://www.ncbi.nlm.nih.gov/taxonomy
https://www.ncbi.nlm.nih.gov/genome
https://www.ncbi.nlm.nih.gov/genome
24 Capítulo 3. Bancos de Dados
Dentre vários bancos de dados e ferramentas, o EMBL (https://www.embl.org/) man-
tém o banco de dados de proteínas Uniprot (https://www.uniprot.org/). Este, por sua
vez, também possui divisões: UniParc, UniProtKB e UniRef.
A divisão UniParc consiste num banco de sequências de proteínas não-redundantes procedentes
das principais bases de dados públicas. O UniParc armazena cada sequência uma única vez,
fusionando sequências idênticas, mesmo que procedam de espécies de diferentes organismos.
A divisão UniProtKB pode ser dividida em duas seções: Swiss-Prot e TrEMBL. Swiss-
Prot contém sequências não-redundantes de proteínas, anotadas e revisadas manualmente, com
resultados experimentais. TrEMBL contém sequências de proteínas associadas com anotações
geradas automaticamente por ferramentas computacionais. Apesar de possuir maior qualidade de
dados que o TrEMBL, o Swiss-Prot possui consideravelmente menos sequências (cerca de 560 mil
sequências no Swiss-Prot e mais de 158 milhões no TrEMBL).
A divisão UniRef é formada por agrupamento de sequências de proteínas derivadas do Uni-
ProtKB e UniParc. As sequências são agrupadas de acordo com seus níveis de similaridade -
UniRef100 (100% de similaridade), UniRef90 (90% de similaridade) e UniRef50 (50% de similari-
dade) -, reduzindo o tamanho dos bancos de dados e permitindo a busca mais rápida.
O PDB (Protein Data Bank) (https://www.rcsb.org/) é mantido pela National Science
Foundation (https://www.nsf.gov/) e armazena dados de estruturas tridimensionais de pro-
teínas. Os dados armazenados são provenientes de cristalografia de raio-X, ressonância magnética
nuclear e microscopia crio-eletrônica. A partir destes métodos, é possível conseguir as coordenadas
atômicas da molécula que serão armazenadas no formato de arquivo texto simples PDB e utilizadas
para criar modelos tridimensionais das moléculas.
O Pfam (https://pfam.xfam.org/) é um banco de dados secundário também mantido
pelo EMBL que armazena informações acerca de dados de domínios, famílias e sítios funcionais de
proteínas. As análises são feitas através de alinhamento múltiplo de sequências e Modelos Ocultos
de Markov. O PROSITE (https://prosite.expasy.org/) também é um banco de dados
secundário que armazena dados de domínios conservados em famílias de proteínas. Os domínios
são representados, qualitativamente, através dos padrões e, quantitativamente, através dos perfis
PSSM.
3.2 Prática
Bancos de dados no NCBI
1. Acessar a página inicial do portal do NCBI no endereço https://www.ncbi.nlm.nih.
gov
2. No campo de busca digitar o termo hemoglobin
3. Na seção Genome clique em Nucleotide
Q. Quantos registros foram encontrados?
4. Verificando resultados para humanos
Na coluna da direita, em Results by taxon, clique no resultado para Homo sapiens
Q. Quantos registros foram encontrados?
Q. Por que a diferença em relação à busca anterior?
Clique no link para o primeiro resultado mostrado (Accession: DQ659148.1)
Q. A sequência de nucleotídeos do gene está completa?
Na parte superior, clique no link FASTA
Q. Compare o formato apresentado com o anterior
5. Na seção CDS clique em protein_id
https://www.embl.org/
https://www.uniprot.org/
https://www.rcsb.org/
https://www.nsf.gov/
https://pfam.xfam.org/
https://prosite.expasy.org/
https://www.ncbi.nlm.nih.gov
https://www.ncbi.nlm.nih.gov
3.2 Prática 25
Banco de dados UniProtKB
1. Acessar a página inicial do UniProt ( www.uniprot.org )
2. No campo de busca textual, certifique-se de que o banco de dados UniProtKB está selecio-
nado
Incluir o texto para busca hemoglobin
Iniciar a busca clicando no botão Search
Q. Quantos registros foram encontrados?
Q. O UniprotKB é composto por duas subdivisões (dois outros bancos de dados). Quais
são elas e qual o número de sequências obtidas como resultado em cada uma?
Q. Como é possível identificar a qual subdivisão do UniProtKB cada sequência listada
no resultado da busca pertence?
3. No campo de busca textual, pesquise a chave ABG47031.1 (novamente certifique-se de
que o banco de dados UniProtKB está selecionado)
Q. Quantos registros foram encontrados?
Q. Por que a diferença em relação à busca anterior?
Q. A qual subdivisão esta sequência pertence?
Banco de dados PDB
1. Acessar a página inicial do PDB no endereço www.rcsb.org
2. No campo para busca digite 1HHO
Q. A qual organismo pertence a proteína?
Q. Qual método foi utilizado para resolver a estrutura da proteína?
Q. Qual a resolução da estrutura?
Q. Quantas cadeias polipeptídicas possui a proteína?
Q. Existe algum ligante? Qual(is)?
3. Clique na aba 3D View
Aguarde até que a estrutura da proteína seja carregada
É possível interagir com a estrutura tridimensional com os comandos básicos abaixo
GIRAR: segurar o botão esquerdo do mouse e arrastar
AUMENTAR: girar o botão central do mouse para trás
DIMINUIR: girar o botão central do mouse para frente
DESLOCAR: segurar o botão esquerdo do mouse e arrastar
4. Identificação de cadeias de aminoácidos na estrutura quaternária da proteína
Color By Chain
OBS.: Cada cadeia (chain) de aminoácido independente será mostrada em uma cor
Q. Quantas cadeias de aminoácidos compõem a estrutura da hemoglobina humana?
5. Identificação de heteroátomos na estrutura da proteína
Ligand Spacefill
6. Clique na aba Sequence
Clique em Display files > FASTA sequence
Banco de Dados Pfam
1. Acesse a página inicial do Pfam (https://pfam.xfam.org/)
Clique na aba SEARCH
2. Procurando domínios na sequência
Clique na aba Sequence
Cole a sequência no campo correspondente e clique em Submit
3. Para o domínio encontrado, clique no botão Show, na última coluna da tabela de resultados
Interprete o resultado mostrado
4. Na primeira coluna da tabela de resultados, Family, clique no link para o primeiro domínio
www.uniprot.org
www.rcsb.org
https://pfam.xfam.org/
26 Capítulo 3. Bancos de Dados
encontrado
A que família de proteínas este domínio ocorre?
Nesta família, quais outros domínios estão associados?
Identifique a arquitetura encontrada para a proteínapesquisada
Referências
[1] RV Eck e MO Dayhoff. “Atlas of protein sequence and structure, National Biomedical
Research Foundation”. Em: Maryland: Silver Springs (1966) (ver página 19).
[2] Arthur M Lesk. Introdução à Bioinformática. Artmed, 2008 (ver página 19).
[3] LM Moreira. “Ciências genômicas: fundamentos e aplicações”. Em: Moreira, LM & Varani,
AM Plasticidade e fluxo genômico. Ribeirão Preto: Sociedade Brasileira de Genética 1 (2015),
páginas 101–116 (ver página 20).
4. Montagem Genômica
JOSUÉ OLIVEIRA CAMARGO
4.1 Teoria
Um genoma pode ser entendido como toda a informação genética de um organismo, ou seja, todo o
seu DNA. Uma definição alternativa para genoma é o conjunto de todos os genes de um organismo,
reduzindo a informação para a parte funcional. A genômica enquanto ciência, consiste no estudo
dos genomas e é a base para as ciências ômicas que a sucedem (transcriptômica proteômica,
metabolômica, etc...). Foi impulsionada pelas tecnologias de sequenciamento genômico, que nos
permite saber o conteúdo e a ordem exata dos nucleotídeos que compõe o DNA de um ser vivo,
identificados por cada uma das bases nitrogenadas que os compõe (ACTG).
A história do sequenciamento genômico iniciou com os métodos de Maxam-Gilbert e Sanger,
sendo esse último o mais utilizado até o início dos anos 2000, quando foi substituído (para fins
genômicos) pelos métodos de segunda (Roche 454, Illumina, SOLiD) terceira (Ion Torrent, PacBio)
e quarta geração (MinION), cada um com suas particularidades. No entanto, essas tecnologias
ainda são incapazes de sequenciar por completo exemplo grandes moléculas como os cromossomos
bacterianos, que possuem de 0,5 a 10 milhões de bases.
Para sequenciar um DNA grande como esse é utilizada uma estratégia chamada shotgun, ou
fragmentação aleatória. Para bactérias, o DNA é fragmentado aleatoriamente em pedaços de alguns
milhares de bases, condizentes com a capacidade das técnicas de sequenciamento. Para eucariotos,
os cromossomos são mapeados, divididos em pedaços menores e só então fragmentados em um
processo chamado shotgun hierárquico. Os genomas de várias células (idênticas) são fragmentados,
de modo que cada molécula se fragmenta aleatoriamente em pontos diferentes. Posteriormente,
esses fragmentos são sequenciados. O número estimado de genomas idênticos sequenciados é
chamado de cobertura genômica.
Uma vez sequenciados, os fragmentos são confrontados entre si para que as sobreposições
sejam encontradas e permitam unir os fragmentos para a reconstrução da sequência genômica
original. Esse processo é chamado de montagem genômica e, portanto, depende da cobertura.
28 Capítulo 4. Montagem Genômica
Um genoma para ser montado necessita de uma cobertura média que varia entre 20 e 30 vezes,
ou seja, se um cromossomo tem 1 milhão de bases, o conjunto de fragmentos sequenciados e
utilizados para montá-lo deve ter pelo menos 20 milhões de bases. Esse excedente é responsável
pelas sobreposições e correções de eventuais erros de sequenciamento.
4.2 Prática
Para esta prática, utilize o programa BioEdit:
i. Dentro do programa, abra o arquivo
“BIO018_2019.1-AbrasilenseTrimmed.fasta.screen” em File > Open.
ii. Verifique que este arquivo contém sequências de DNA obtidas de um sequenciamento
genômico. Para montar o genoma, clique em AcessoryAplication > CAP contig assembly
program > Run aplication
iii. A montagem estará pronta quando aparecer SHOW na tela de mensagens.
Você pode fechá-la apertando ENTER.
iv. Como o genoma foi montado? Observe que existem divergências de alinhamentos (bases
diferentes, bases sobrando ou faltando).
A que se devem essas discrepâncias?
v. A última sequência mostrada (Contig-0) corresponde ao consenso de todas as sequências.
Ela representa o nosso genoma. Você pode fazer uma cópia dessa sequência clicando no
nome dela e clicando em Edit > Copy e Edit > Paste. Uma nova sequência aparecerá abaixo
dela.
vi. Essa genoma apresenta gaps (-) que surgem de divergências entre as sequências, e que
necessitam ser removidos. Faça isso clicando na cópia que você criou, depois em Sequence
> Gaps > Unlock Gaps e depois em Sequence > Gaps > Degap.
vii. Agora, é necessário salvar essa sequência para que possamos trabalhar com ela.
viii. Copie-a novamente (Edit > Copy).
Clique em File > New Alignment e na nova janela cole a sequência Edit > Paste.
Agora, basta ir em File > Save As... e salvá-la.
ix. Abra essa sequência (provavelmente salva com o nome Untitled) com o auxílio do bloco de
notas ou WordPad. Você verá que ela apresenta um formato específico.
Que formato é esse? O que caracteriza esse formato?
Referências
[1] Jared T Simpson e Mihai Pop. “The theory and practice of genome sequence assembly”. Em:
Annual review of genomics and human genetics 16 (2015).
[2] Arnaldo Zaha, Henrique Bunselmeyer Ferreira e Luciane MP Passaglia. Biologia Molecular
Básica-5. Artmed Editora, 2014.
5. Anotação de Genomas
BRUNO NICHIO
5.1 Teoria
Em biologia molecular, anotar é fornecer informação biológica às sequências de DNA ou postular
uma função para o produto de uma Matriz Aberta de Leitura, do inglês, Open Reading Frame –
ORF [1]. Para tal postulação, utilizam-se diversos programas de comparação com dados genéticos
conhecidos. As ORFs são sequências codificantes para um produto de proteína ou peptídeo em
potencial, por apresentar 3 componentes estruturais: Códon de Iniciação, Região Codificadora
e Códon de Terminação, ou seja, devido a essas características, uma ORF pode ’sinalizar’ um
gene em potencial. Respeitando o Código genético, as ORFs podem possuir três fases de leitura e,
identificar essas fases através de um ORF Finder (ex.: NCBI ORF Finder), é uma estratégia em
bioinformática levada em consideração até os dias atuais. Primeiramente, começa-se escolhendo as
ORFs maiores e o anotador quem irá decidir qual eliminar ou validar no término do processo. A
sequência de DNA é uma fonte rica de informações sobre a biologia dos organismos, mas deve
ser traduzida e anotada de forma correta para que o pesquisador possa obter corretamente todas as
informações. Podemos ainda classificar o processo de anotação em 3 grandes níveis de análise:
Anotação a nível de Nucleotídeo
o objetivo é identificar alguns pontos de referência, integrando mapas físicos e genéticos, para a
montagem de um mapa preciso do genoma do organismo. A principal etapa nesse tipo de anotação
é a identificação das regiões gênicas. Existem duas principais classes de programas que fazem esse
tipo e anotação: os ab initio e aqueles baseados em homologias. Os primeiros são compostos de
sensores de sinais, próprios para detectar algumas regiões conservadas, como códons de início e
término, promotores, terminadores de transcrição, a junção éxon-íntron, etc. Os últimos, como fica
claro pelo próprio nome, baseiam-se na similaridade das sequências com a de outros organismos.
30 Capítulo 5. Anotação de Genomas
A nível de Proteínas
Essa etapa da anotação genômica procura montar um catálogo definitivo das proteínas presentes
nos organismos, nomeá-las e associá-las a prováveis funções. Uma forma comum de se realizar a
anotação de proteínas é procurar similaridades utilizando ferramentas como o BLASTp ou PSI-
BLAST, usando diferentes bancos de dados de proteínas. As coleções mais valiosas de sequências
de proteínas são os bancos de dados SWISS-PROT e TrEMBL, o primeiro apresenta uma coleção
de sequências de proteínas confirmadas e extensivamente anotadas e o segundo é feito para remover
sua redundância esse último. Uma análise complementar seria a procura de domínios funcionais e
as bases de dados mais utilizadas nesse processo são: PFAM, PRINTS, PROSITE, ProDom. Esses
vários bancos de dados de padrões possuem, cada um, seu próprio sistema de nomenclaturas e
método de procura, o que pode tornar difícil a interpretação dos resultados. Pensando nisso, foi
desenvolvido um banco integrado de assinaturas de proteínas, conhecido como InterPro, que integra
as informações dos bancos anteriormente citados.
ANível de Processos
É a parte mais desafiadora do processo de anotação gênica, onde é relacionado, finalmente, a
genômica com os processos biológicos. Para isso, foi criado um consórcio chamado de Gene
Ontology (GO), que busca criar um vocabulário padrão para descrever a função dos genes. Ele
consiste em três subpartes: função molecular (atividade específica do gene em questão, ex.:
atividade enzimática), processos biológicos (processo no qual o gene está inserido, ex.: meiose) e
componentes celulares (descreve a estrutura celular na qual o gene está localizado, ex.: organelas,
ribossomos). Com esse projeto pretende-se entender “como” e “onde” atuam todos os genes de
organismos. Para a anotação a este nível é necessário mais do que trabalho computacional. Técnicas
biológicas de alta produção são de fundamental importância para identificar o papel de genes e
de proteínas nos processos biológicos, pois cada novo experimento adiciona mais informação e
permite um melhor entendimento do genoma.
5.2 Prática
1. Para este exercício, entre no site http://www.ncbi.nlm.nih.gov/orffinder/
(a) Copie e cole a sequência salva anteriormente (Untitled.fas) no campo Enter Query
Sequence. Em Minimal ORF Length (nt) coloque 150. Clique em Submit.
(b) Várias ORF foram anotadas. O que é uma ORF?
Figura 5.1: Exemplo de visualização de ORFs pelo programa NCBI orffinder.
(c) Clique em uma determinada ORF (escolha uma grande). A sequência será mostrada
em um quadro abaixo. Clique em BLAST ORF. Na nova janela clique em BLAST no
final da página. O que é o programa BLAST?
2. Para este exercício, observe o resultado do BLAST
http://www.ncbi.nlm.nih.gov/orffinder/
REFERÊNCIAS 31
(a) Localize informações sobre o tipo e tamanho da molécula submetida para análise
(query).
(b) Nos gráficos (Graphic Summary), procure por informações de domínios conserva-
dos na proteína. Uma barra graduada indica o tamanho dos alinhamentos obtidos. Qual
o tamanho desses alinhamentos?
(c) Nas descrições (Descriptions), veja qual é a função das proteínas semelhantes
presentes no banco de dados. Observe qual é a porcentagem de identidade da proteína
submetida em relação às proteínas presentes no banco.
(d) Nos alinhamentos (Alignments) são mostrados os detalhes de cada alinhamento
entre a sequência submetida (query) e uma sequência do banco de dados (subject).
(e) Se o resultado do BLAST for considerado satisfatório, volte na página das ORF e MARK
a proteína. Continue anotando as ORF com o auxílio do BLAST.
Referências
[1] Josep F. Abril e Sergi Castellano. “Genome Annotation”. Em: Encyclopedia of Bioinformatics
and Computational Biology. Editado por Shoba Ranganathan et al. Oxford: Academic Press,
2019, páginas 195–209. ISBN: 978-0-12-811432-2. DOI: https://doi.org/10.1016/
B978-0-12-809633-8.20226-4. URL: http://www.sciencedirect.com/
science/article/pii/B9780128096338202264 (ver página 29).
https://doi.org/https://doi.org/10.1016/B978-0-12-809633-8.20226-4
https://doi.org/https://doi.org/10.1016/B978-0-12-809633-8.20226-4
http://www.sciencedirect.com/science/article/pii/B9780128096338202264
http://www.sciencedirect.com/science/article/pii/B9780128096338202264
6. Filogenia Molecular
JOSUÉ OLIVEIRA CAMARGO
6.1 Teoria
Historicamente, diferentes sistemas foram desenvolvidos para organizar e classificar animais,
plantas, etc., utilizando para tal fim critérios naturais. Basicamente, características macroscópicas
relacionadas ao fenótipo. Assim, as árvores filogenéticas foram utilizadas quase exclusivamente
para descrever relações entre espécies em sistematização e taxonomia.
Nos últimos anos, com o advento e a disponibilidade do sequenciamento de material genético em
larga escala, as filogenias passaram a serem moleculares, devido ao fato de utilizarem a informação
dos ácidos nucléicos contida nos genes para construir uma relação filogenética. Hoje, a filogenia
molecular é usada amplamente em quase todos os ramos da biologia. E além de representar os
relacionamentos entre as espécies da árvore da vida, as filogenias moleculares são usadas também
para:
- Descrever as relações entre genes de diferentes espécies;
- Interpretar genomas;
- Reconstruir genomas ancestrais e;
- Identificar a dinâmica evolutiva e epidemiológica de agentes patogênicos, como por exemplo,
vírus, bactérias, entre outros.
Hoje em dia, o biólogo ou quem trabalha com ciências da saúde precisa conhecer a inferência
filogenética. No entanto, para quem não conhece o campo, a existência de vários métodos analíticos
e pacotes de software podem parecer assustadores. Neste minicurso prático, descreveremos um
conjunto de metodologias para construir uma inferência filogenética usando dados de sequências
do gene ribossômico 16S de bactérias.
6.2 Prática – Filogenia Molecular bacteriana
Historicamente, as bactérias foram classificadas, desde a sua descoberta, por morfologia. Em 1884
foi desenvolvido um método que, ainda hoje, é empregado na diferenciação de bactérias, a coloração
34 Capítulo 6. Filogenia Molecular
de Gram. Mais tarde, no século XX aspectos bioquímicos e metabólicos foram incluídos para tal
fim. Em 1990, com o desenvolvimento de métodos de sequenciamento, foram disponibilizados
catálogos de nucleotídeos para algumas espécies de bactérias, desde então a taxonomia bacteriana é
fortemente influenciada por estudos de sequências de DNA.
Hoje, a filogenia de bactérias é desenvolvida a partir da preparação de árvores filogenéticas
moleculares, especialmente com base em sequências de ADN ribossomal. No futuro, não muito
distante, com a massificação do sequenciamento em grande escala é esperado que a classificação
taxonômica das bactérias seja baseada no genoma.
Objetivo
Utilizar o grau de similaridade genética de sequências de DNA para criar uma árvore filogenética
que permita inferir de forma fácil a distância evolutiva entre espécies bacterianas.
Procedimento prático
Utilizar as sequências de DNA do gene ribosomal 16S de bactérias, obtidas do banco de dados
SILVA e agrupadas no arquivo 16s.fasta [3].
1. Acesse a ferramenta Phylogeny.fr no endereço: http://www.phylogeny.fr/
index.cgi
2. Identificar e clicar no modo de análise “One Click”, na home page.
3. Identificar e abrir na ferramenta o arquivo 16s.fasta, após, clique em Submit.
4. Aguardar o alinhamento e a montagem do dendrograma, e quando concluir, clique em SVG
na barra de download.
5. Abrir uma nova janela no navegador.
6. Construir uma árvore filogenética utilizando o método de distância Neighbor-Joining (NJ) no
modo “A La Carte”, alterando o parâmetro de alinhamento para ClustalW.
7. Comparar as duas árvores
8. Discussão
Referências
[1] Robert C Edgar. “MUSCLE: multiple sequence alignment with high accuracy and high
throughput”. Em: Nucleic acids research 32.5 (2004), páginas 1792–1797.
[2] Koichiro Tamura et al. “MEGA6: molecular evolutionary genetics analysis version 6.0”. Em:
Molecular biology and evolution 30.12 (2013), páginas 2725–2729.
[3] Pelin Yilmaz et al. “The SILVA and “all-species living tree project (LTP)” taxonomic fra-
meworks”. Em: Nucleic acids research 42.D1 (2013), páginas D643–D648 (ver página 34).
http://www.phylogeny.fr/index.cgi
http://www.phylogeny.fr/index.cgi
7. Genômica Comparativa
BRUNO NICHIO
7.1 Teoria
Genômica Comparativa é o ramo da bioinformática que visa comparar o material biológico, como
sequências não codificantes, genes, proteínas ou até mesmo entre organismos inteiros, a fim de
elucidar semelhanças e diferenças pertinentes para uma gama de estudos. Perguntas diferentes
podem ser respondidas por comparação de sequências biológicas: como o porquê da organização
genômica entre vários organismos, o motivo de haver distâncias evolutivas entre determinados
grupos, etc. Através da comparação genômica, ainda é possível, a nível molecular, a distinção entre
diferentes formas de vida existentes entre eles. Portanto, é uma ferramenta poderosa para o estudo
de alterações evolutivas em organismos, ajudando a identificar os genes que são conservadas entreespécies ou comuns (Pan Genoma), bem como aquelas de genes próprios de um tipo particular de
organismo, que determinam as suas características únicas (Core genoma).
A maioria das abordagens em bioinformática faz necessário o alinhamento global entre as
sequências de DNA para o emparelhamento genômico entre dois organismos utilizando a ferramenta
Basic Local Alignment for Sequence Tool (BLAST). O alinhamento consiste em "buscar” similari-
dades dos nucleotídeos contidos no genoma de um organismo em relação aos outros nucleotídeos
do(s) outro(s) organismos(s). Após a etapa de alinhamento, podemos fazer análises comparativas
do genoma de um organismo com outro, a exemplo dessas análises é o GC skew [1], o conteúdo
GC ou GC plot [3] e a Sintenia genômica [4]. O GC skew está intimamente relacionado a várias
questões intra-genômicas, como por exemplo: preferência no uso de códons por um determinado
organismo, regiões ricas e pobres em GC podem indiciar regiões codificantes e/ou não codificantes,
detecção de ilhas de patogenicidade, além de podermos mapear regiões de Origem de Replicação
(OriC em procariotos). Em contraste o conteúdo GC e a sintenia refletem características globais
do genoma, tais como: estabilidade ou não cromossômica, regiões de simetria ou de assimetria,
etc, entretanto, a sintenia não necessariamente se relaciona apenas com as características globais,
mas também pode ser utilizada para analisar a composição de um conjunto específico de genes de
36 Capítulo 7. Genômica Comparativa
interesse para um estudo. Um software gratuito desenvolvido em plataforma Java para esse tipo de
análise que podemos citar é a ferramenta Artemis [2]. Por auxílio dela podemos visualizar, mapear
e comparar regiões específicas de sequencias de DNA inseridos em um genoma ou sequências de
DNA de genomas inteiros, afim de esclarecer as distribuições de genes, mecanismos de homologia
ou de composição sintênica, viabilizando dessa maneira no levantamento de hipóteses sobre os
principais mecanismos evolutivos envolvidos entre os organismos comparados.
7.2 Prática
Escherichia coli, estirpe O157:H7 é o principal agente infeccioso de origem alimentar que causa
diarreia, colite hemorrágica e síndrome hemolítico-urêmica. Escherichia coli K-12 MG1655 é
uma estirpe benigna, utilizada em laboratórios de pesquisa em Biologia Molecular. Comparando
genomas com o programa BLAST:
1. Acessar a página Web do programa BLAST pelo endereço abaixo:
blast.ncbi.nlm.nih.gov
2. No formulário para análise faça o seguinte:
(a) Marque a opção Align two or more sequences;
OBS.: a página será recarregada, incluindo um novo campo para entrada de sequência
(b) No campo para entrada de sequência em Enter Query Sequence, inclua o nú-
mero de acesso: U00096
(c) No campo para entrada de sequência em Enter Subject Sequence, inclua o
número de acesso: BA000007
(d) Selecione a opção Somewhat similar sequences (blastn)
(e) Marque a opção Show results in a new window
(f) Faça a análise, clicando no botão BLAST
3. Além da forma clássica para os resultados de uma análise BLASTn normal, um link Dot
Matrix View permite visualizar a comparação entre as sequências na forma de um gráfico
do tipo dot-plot.
4. Clique no link Download, na parte superior da página, e baixe o arquivo de comparação
através do link Hit Table (text), na lista que aparecerá OBS.: salve o arquivo no
mesmo diretório das sequências.
5. Baixe as sequências no formato GenBank (arquivos com extensão .gkb), através dos
endereços abaixo:
(a) E. coli K-12 (baixe o arquivo U00096.gbk):
ftp://ftp.ncbi.nih.gov/genbank/genomes/Bacteria/Escherichia_
coli_K_12_substr__MG1655_uid225
(b) E. coli O157:H7 (baixe o arquivo BA000007.gbk):
ftp://ftp.ncbi.nih.gov/genbank/genomes/Bacteria/Escherichia_
coli_O157H7_uid226
6. Execute o programa Artemis Comparison Tool (ACT)
(a) No menu, selecione File > Open
(b) Na próxima janela carregue os arquivos na seguinte ordem
Sequence file 1: U00096.gbk
Comparison file 1: arquivo de comparação do BLAST
Sequence file 2: BA000007.gbk
blast.ncbi.nlm.nih.gov
ftp://ftp.ncbi.nih.gov/genbank/genomes/Bacteria/Escherichia_coli_K_12_substr__MG1655_ uid225
ftp://ftp.ncbi.nih.gov/genbank/genomes/Bacteria/Escherichia_coli_K_12_substr__MG1655_ uid225
ftp://ftp.ncbi.nih.gov/genbank/genomes/Bacteria/Escherichia_coli_O157H7_uid226
ftp://ftp.ncbi.nih.gov/genbank/genomes/Bacteria/Escherichia_coli_O157H7_uid226
7.2 Prática 37
Figura 7.1: Visualização da sintenia genômica pelo programa ACT.
7. Abra o arquivo no programa Artemis
8. No menu, selecione File > Open in DNAPlotter
9. Na janela do programa DNA Plotter, selecione no menu
Graph > GC plot > Draw
Graph > GC skew > Draw
OBS.: Abra um genoma por vez no programa Artemis, siga os passos 2, 3 e 4 e salve a figura
gerada selecionando no menu File > Save As jpeg/png Image...
Figura 7.2: Comparação genômica de duas cepas de E. coli patogênica (a esquerda) e não patogênica (a
direita) pelo programa Artemis DNA Plotter.
Questões
- O que representa o GC skew?
- Existe relação entre o GC plot e GC skew?
38 Capítulo 7. Genômica Comparativa
- Existe relação entre o GC e as CDS?
- Como é possível usar o GC skew para determinar a origem de replicação (oriC)?
- O que as regiões de baixo conteúdo GC sugerem?
- Existe algum padrão para o GC skew ou GC plot nos diferentes organismos?
Referências
[1] Kazuharu Arakawa e Masaru Tomita. “The GC skew index: a measure of genomic compositi-
onal asymmetry and the degree of replicational selection”. eng. Em: Evolutionary bioinforma-
tics online 3 (set. de 2007). PMC2684130[pmcid], páginas 159–168. ISSN: 1176-9343. URL:
https://pubmed.ncbi.nlm.nih.gov/19461976 (ver página 35).
[2] Sanger Institute. Artemis Genome browser and annotation tool. 2020. URL: https://www.
sanger.ac.uk/tool/artemis/ (acesso em ) (ver página 36).
[3] Jonathan Romiguier et al. “Contrasting GC-content dynamics across 33 mammalian genomes:
relationship with life-history traits and chromosome sizes”. eng. Em: Genome research 20.8
(ago. de 2010). gr.104372.109[PII], páginas 1001–1009. ISSN: 1549-5469. DOI: 10.1101/
gr.104372.109. URL: https://doi.org/10.1101/gr.104372.109 (ver
página 35).
[4] Amit U. Sinha e Jaroslaw Meller. “Cinteny: flexible analysis and visualization of synteny and
genome rearrangements in multiple organisms”. eng. Em: BMC bioinformatics 8 (mar. de
2007). 1471-2105-8-82[PII], páginas 82–82. ISSN: 1471-2105. DOI: 10.1186/1471-
2105- 8- 82. URL: https://doi.org/10.1186/1471- 2105- 8- 82 (ver
página 35).
https://pubmed.ncbi.nlm.nih.gov/19461976
https://www.sanger.ac.uk/tool/artemis/
https://www.sanger.ac.uk/tool/artemis/
https://doi.org/10.1101/gr.104372.109
https://doi.org/10.1101/gr.104372.109
https://doi.org/10.1101/gr.104372.109
https://doi.org/10.1186/1471-2105-8-82
https://doi.org/10.1186/1471-2105-8-82
https://doi.org/10.1186/1471-2105-8-82
	1 Introdução
	2 Linux e Shell para Bioinformática
	2.1 Comandos básicos de shell
	2.2 Criando scripts
	2.2.1 Outros comandos úteis para a criação de scripts:
	2.2.2 Obtenção de dados de bancos de dados
	3 Bancos de Dados
	3.1 Teoria
	3.1.1 Estrutura e Formatos de Arquivos
	3.1.2 Principais Bancos de Dados Biológicos
	3.2 Prática
	4 Montagem Genômica
	4.1 Teoria
	4.2 Prática
	5 Anotação de Genomas
	5.1 Teoria
	5.2 Prática
	6 Filogenia Molecular
	6.1 Teoria
	6.2 Prática – Filogenia Molecular bacteriana
	7 Genômica Comparativa
	7.1 Teoria
	7.2 Prática

Outros materiais