Baixe o app para aproveitar ainda mais
Prévia do material em texto
Curitiba, PR Copyright © 2019 1ª Edição, Dezembro de 2020 UNIVERSIDADE FEDERAL DO PARANÁ – UFPR Setor de Educação Profissional e Tecnológica, SEPT Realização PROGRAMA DE PÓS-GRADUAÇÃO EM BIOINFORMÁTICA – UFPR Parceria PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIAS (BIOQUÍMICA) – UFPR Edição Gráfica e Imagens Camila Pereira Perico Guilherme Taborda Ribas Monique Schreiner PPG Bioinformática UFPR Site oficial: http://www.bioinfo.ufpr.br Site dos alunos: https://www.bioinfodiscentes.com.br. Licença: CC BY-NC-SA 4.0 Licenciado sob a Creative Commons Attribution-NonCommercial 4.0 Unported License. http://creativecommons.org/licenses/by-nc/4.0. Este documento é livre para uso, distribuição, adaptação e criação para fins não comerciais, desde que seja atribuído devido crédito e que a licença do que fôr produzido a partir deste material possua licença sob termos idênticos. O modelo deste documento foi modificado de “The Legrand Orange Book”. Obtido em overleaf.com, criado por Mathias Legrand (legrand.mathias@gmail.com). Licença: CC BY-NC-SA 3.0 (creativecommons.org/licenses/by-nc-sa/3.0/) http://www.bioinfo.ufpr.br https://www.bioinfodiscentes.com.br http://creativecommons.org/licenses/by-nc/4.0 creativecommons.org/licenses/by-nc-sa/3.0/ Sumário 1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2 Linux e Shell para Bioinformática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.1 Comandos básicos de shell 10 2.2 Criando scripts 14 2.2.1 Outros comandos úteis para a criação de scripts: . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.2.2 Obtenção de dados de bancos de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 3 Bancos de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 3.1 Teoria 19 3.1.1 Estrutura e Formatos de Arquivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 3.1.2 Principais Bancos de Dados Biológicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.2 Prática 24 4 Montagem Genômica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 4.1 Teoria 27 4.2 Prática 28 5 Anotação de Genomas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 5.1 Teoria 29 5.2 Prática 30 6 Filogenia Molecular . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 6.1 Teoria 33 6.2 Prática – Filogenia Molecular bacteriana 33 7 Genômica Comparativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 7.1 Teoria 35 7.2 Prática 36 5 APRESENTAÇÃO DO CURSO: No final do século passado, as ciências biológicas foram revolucionadas pela expansão da biologia molecular e da genética, de tal modo que hoje é muito difícil discutir qualquer assunto dentro da biologia, e até mesmo sobre a natureza humana, sem recorrer ao respaldo delas. Ao mesmo tempo em que explicam aspectos fascinantes da natureza, ainda que deparem cada vez mais nos seus próprios desafios e questionamentos, elas proliferam para os aspectos humanos e sociais, tornando-se assim um novo tipo de conhecimento indispensável: DNA e gene passaram a ser palavras corriqueiras na nossa vida, ouvidas nos filmes e na televisão, lidas nos livros e nos portais de notícias da internet. No entanto, a biologia molecular e a genética não teriam subido ao topo das discussões sem o auxílio de outra ciência que também deu passos largos no final do último século: a ciência da informação. O grande avanço da biologia molecular e da genética foi, sobretudo, acompanhado de um avanço na produção, análise e armazenamento da informação. O DNA passou a ser sequenciado com certa facilidade, as análises passaram a ser automatizadas por programas de computador e as informações passaram a ser armazenadas e cruzadas em bases de dados. Se hoje é difícil trabalhar com biologia sem fazer uso da biologia molecular, é muito mais difícil trabalhar com biologia molecular sem o auxílio, por menor que seja, da informá- tica. Surgiu assim a Bioinformática, que se ocupa de estudar as informações biológicas ao nível de DNA, RNA e proteínas e também de como organizar e armazenar essas informações Dessa forma, os alunos do programa de Pós-graduação em Bioinformática, em parceria com o programa de Pós-graduação em Ciências-Bioquímica, oferecem o curso de Introdução à Bioinformática com o intuito de auxiliar alunos e pesquisadores a dar os primeiros passos nessa mescla de conhecimentos e, com isso, conseguirem se aprofundar ainda mais dentro da genética e da biologia molecular. Os autores 6 AUTORES BRUNO THIAGO DE LIMA NICHIO Bacharel em Biomedicina (2010- 2013) pela Universidade Estadual de Londrina (UEL). Mestre em Bioin- formática pelo programa de Pós-Graduação em Bioinformática (2014- 2016) pela Universidade Federal do Paraná (UFPR). Atualmente douto- rando do programa em Pós Graduação em Ciências - Bioquímica pela Universidade Federal do Paraná (UFPR).. Contato: brnichio@gmail.com CAMILA PEREIRA PERICO Doutoranda em Bioinformática na UFPR, Mestre em Bioinformática (2020), Bacharel (2016) e licenciada (2018) em Ciências Biológicas pela Universidade Federal do Paraná (UFPR). Membro do Grupo de pesquisa Inteligência Artificial Aplicada à Bioin- formática do PPG Bioinformática da Universidade Federal do Paraná. Atualmente graduanda no curso de física pela UFPR. . Contato: camilapp94@gmail.com CAMILLA REGINATTO DE PIERRI Graduada em Biomedicina pelo Centro Universitário Campo Real (2014). Especialista em Imuno- hematologia em Banco de Sangue pela UNIPAR (2015). Especialista em Docência e Gestão do Ensino Superior pela UNIPAR (2019). Mestra em Bioinformática pela Universidade Federal do Paraná (2017). Doutoranda pelo Programa de Pós-graduação em Ciências - Bioquímica na Universi- dade Federal de Paraná.. Contato: camillareginatto.p@gmail.com JOSUÉ OLIVEIRA CAMARGO Licenciado em Ciências Biológicas pela Pontifícia Universidade Católica do Paraná (PUC-PR), Tecnólogo em Análise e Desenvolvimento de Sistemas pela Universidade Federal do Paraná (UFPR), mestre em Bioinformática pela UFPR (CAPES 3), atualmente é doutorando do Programa de Pós-Graduação em Ciências (Bioquímica) (CAPES 7), também pela UFPR.. Contato: josu.joc@gmail.com MONIQUE SCHREINER Bacharel e Licenciada em Ciências Biológicas na Universidade Federal do Paraná (2018) com graduação-sanduíche na University of Western Australia (2016), Técnica em Informática pelo Ins- tituto Federal do Paraná (2012). Atualmente, mestranda em Bioinformá- tica no Laboratório de Inteligência Artificial Aplicada à Bioinformática da UFPR. . Contato: nique.mo94@gmail.com 1. Introdução CAMILLA REGINATTO DE PIERRI É fácil perceber que quando falamos a palavra Bioinformática estamos nos referindo à junção de duas “coisas”, ou melhor, duas ciências: Biologia e Informática. Podemos dizer que isso é uma meia verdade, uma vez que a parte “Bio” se refere apenas à biologia molecular, e não à biologia como um todo. Embora isso não seja consenso, se você deseja trabalhar com bioinformática, há uma enorme probabilidade de você trabalhar em auxílio à biologia molecular, e não com zoologia ou botânica (pelo menos não diretamente). Depois dessa consideração, podemos dizer que duas ciências se unem quando elas esbarram em um objeto de estudo em comum. Qual objeto de estudo seria tão intrigante a ponto de conectar biologia molecular e informática? Esse ponto de união gira em torno da molécula de DNA, visto que ela é responsável por armazenar e transmitir a informação sobre os processos que ocorrem na célula. Além disso, a biologia molecular paira sobre uma estrutura de fluxo de informação chamada de dogma central da biologia molecular. O “dogma central” diz que a informação contida na molécula de DNA, constituída por um alfabeto de 4 letras (cada um dos nucleotídeos pode conter as bases A, C, T ou G), pode se replicarem outra molécula de DNA, propagando a informação (replicação), mas também pode ser transcrito em outra molécula, o RNA (transcrição). Essa molécula de RNA também é constituída por nucleotídeos (que podem conter as bases A, C, G ou U) e, por sua vez, pode ser convertida em DNA (transcrição reversa, embora seja realizada apenas por vírus), pode ser funcional (tRNA, rRNA), ou ainda pode dar continuidade ao fluxo e ser traduzido para uma proteína (tradução), cuja informação é formada por um alfabeto de 20 letras (os aminoácidos). A tradução da informação do RNA para uma proteína é realizada por um código, no qual cada trinca de bases do RNA (códon) corresponde a um aminoácido da proteína. Esse código é chamado de código genético, e é comum à maioria dos seres vivos (por esse motivo, o código genético não deve ser confundido com a informação contida no DNA). Dessa forma, a informática foi incorporada como uma ferramenta para auxiliar a biologia molecular a analisar e compreender os processos celulares ao nível molecular através desse fluxo de 8 Capítulo 1. Introdução informação. Porém, em pouco tempo ela já contava com seus próprios desafios e estudos. É possível dividir os estudos dentro da bioinformática em dois tipos: análise dos dados gerados à medida que as técnicas de biologia molecular vão surgindo, ou seja, basicamente análise de sequências de DNA, RNA ou proteínas; desenvolvimento de ferramentas para que as análises possam ser realizadas cada vez com maior número de sequências e para que sejam cada vez mais refinadas, além da criação de bancos de dados para armazenamento e cruzamento das informações produzidas. Dentro desse contexto surgiu também o novo cientista, o bioinformata, capaz de transitar entre as duas áreas do conhecimento. Welch e colaboradores (2014) [1] dividem os bioinformatas em 3 tipos: usuário, aquele que utiliza as ferramentas de bioinformática para analisar seus dados, embora seja incapaz de criar programas e soluções para seus problemas; engenheiro ou programador, aquele que é dedicado a resolver os problemas da biologia molecular utilizando conhecimentos computacionais e matemáticos que um biólogo não possui, embora tenha dificuldade em interpretar o significado biológico dos seus resultados; cientista (pesquisador), aquele que trabalha com um grande volume de informação, domina os programas e automatiza tarefas, embora ainda seja incapaz de desenvolver técnicas mais elaboradas computacionalmente. As análises bioinformáticas e os campos de desenvolvimento são vários. Aqui, vamos dividi-las em: Bancos de dados, Análise de sequência, Análise filogenética, Análise estrutural e Análise funcional (ômicas). Os bancos de dados são responsáveis por armazenar as informações biológicas, resgatar e cruzar essas informações. Muitos estão disponíveis na internet e em geral contam com uma interface web amigável, ferramentas de busca, recuperação e compartilhamento da informação, além de ferramentas para análises específicas. A análise de sequência consiste basicamente em identificar a função de uma sequência de DNA ou proteína, geralmente através da comparação com sequências já presentes em bancos de dados. Essa comparação é realizada pelo alinhamento das sequências, onde são comparados padrões de bases ou aminoácidos. As sequências com padrões muito parecidos são parecidas porque descendem de uma sequência ancestral, ou seja, são homólogas. Esses alinhamentos de sequências são também utilizados para a realização de análises filoge- néticas, que consistem no estudo da história evolutiva dos seres vivos ou, nesse caso, na história evolutiva dos genes e proteínas. Uma vez alinhadas, as sequências são agrupadas em ordem de semelhança, representadas em diagramas (árvores) que demonstram o possível parentesco entre elas. Além disso, genes, RNAs e proteínas podem ser estudados em conjunto, constituindo as ômicas. Dessa forma, temos a genômica como o conjunto de genes, a transcriptômica como o conjunto de transcritos (RNAs) em determinada condição, e o proteoma como o conjunto de proteínas de um organismo. Por outro lado, uma vez bem estabelecida a função de uma molécula (RNA ou proteína), é pos- sível analisá-la para desvendar sua estrutura tridimensional, estabelecendo com isso a relação entre forma e função. A estrutura de uma molécula é determinada pela interação dos seus componentes (pareamento de bases, interações de carga e hidrofobicidade dos aminoácidos, entre outras). Referências [1] Lonnie Welch et al. “Bioinformatics curriculum guidelines: toward a definition of core competencies”. Em: PLOS computational biology 10.3 (2014), e1003496 (ver página 8). 2. Linux e Shell para Bioinformática CAMILA PEREIRA PERICO Os sistemas operacionais (SO) são programas de computador (ou um conjunto deles) que tem como principal função gerenciar os recursos de um sistema - memória, processador, sistema de arquivos. O Linux é um sistema operacional que surgiu no início da década de 1990 como um trabalho acadêmico de seu criador Linus Torvalds que queria experimentar os novos recursos de hardware dos recém lançados processadores 80386. À época, Torvalds fez uma postagem num grupo de entusiastas de Minix (sistema operacional criado por Tannenbaum) para pedir feedbacks sobre o Minix. O objetivo era saber o que as pessoas gostavam ou não nesse SO, no mesmo post anunciou a criação do seu sistema e disse que esse também seria livre. Os dois primeiros programas que Linus Torvalds trouxe para seu sistema operacional foram o bash (um terminal de shell) e o gcc, um compilador de C. A razão para a escolha desses dois itens é simples: o primeiro traz o necessário para que o usuário possa interagir com o sistema de arquivos e outros recursos do computador; enquanto o segundo possibilita o desenvolvimento de softwares e novos programas. Historicamente o Linux é livre (tem o código aberto e pode ser alterado) e possui muitas versões gratuitas. Por essa razão e pela cultura disseminada por Linus de desenvolver o senso de comunidade em torno no Linux, ele é, até hoje, um sistema operacional bastante utilizado em projetos acadêmicos e comerciais que não querem (ou não podem) arcar com os custos de licença de software ou que desejam desenvolver suas próprias soluções de maneira livre. A frequente comparação entre Linux e Windows, do ponto de vista da Ciência da Computação faz pouco, ou nenhum, sentido, já que possuem públicos-alvo distintos. Se por um lado a liberdade pregada pelo Linux é um forte atrativo, a falta de compatibilidade e a quantidade limitada de aplicações disponíveis pode se tornar um empecilho. Da mesma maneira, apesar dos custos de licença associados ao Windows podem parecer impeditivos, a facilidade de implementação e o ganho de produtividade podem compensá-los. Por essa razão, a escolha do melhor sistema operacional precisa ser baseada nas características e qualidades que se deseja no projeto que serão empregadas e não em propriedades isoladamente. 10 Capítulo 2. Linux e Shell para Bioinformática shell O shell é uma interface que permite ao usuário acessar, em forma de linhas de comando, seu sistema operacional. Diz-se shell (concha ou casca em inglês) pois é a camada que expõe o núcleo (kernel) de um sistema operacional .O shell é onde se insere e executa comandos, também conhecido como prompt, terminal, console, tela preta. O shell é equivalente ao prompt de comando e ao Powershell do Windows. No shell é possível executar comandos simples como navegar nos diretórios de seu computador, executar programas, manipular arquivos. Além de tudo isso, possui uma estrutura que permite criação de scripts e o desenvolvimento de software [2]. Por isso, como qualquer linguagem de programação, o shell permite criar funções, além das tradicionais FOR, IF, WHILE, etc. shell script Os scripts são um arquivo que contém uma sequência de comandos que poderiam ser digitados em sequência no prompt. Mas qual seria a função dos scripts, se eles podem ser digitados diretamente? a automatização.Como em muitos a quantidade de comandos é muito grande ou muito repetitiva, então opta-se por automatizar. Os scripts shell utilizam o bash, um interpretador de comandos compatível com o .sh (Bourne Shell). O bash permite a montagem de scripts em shell (shell scripts) de execução fácil e eficiente. O shell permite a manipulação e obtenção de dados de arquivos de texto com grande faci- lidade, rapidez, sendo uma poderosa ferramenta para a bioinformática. Isso se torna evidente principalmente quando se precisa lidar com grande volume de dados. 2.1 Comandos básicos de shell Inicialmente, para se acostumar e conhecer melhor o terminal linux, vamos usar alguns comandos simples que permitirão navegar pelo terminal, como listado na Tabela 2.1. Mais comandos e exemplos podem ser encontrados no Guia Foca, listado nas referências [3]. Se você não possui acesso a uma máquina linux, pode experimentar utilizar um terminal online para aprender os comandos básicos e a ganhar noção no espaço do terminal. Experimente utilizar o terminal online do site https://bellard.org. Tabela 2.1: Alguns exemplos de comandos simples de terminal [1]. Comando Função ls Informa o que há na pasta ls -lh Informações sobre os arquivos da pasta pwd Em que pasta estou file Dá informações sobre o arquivo df Quais unidades estão montadas (HD, pendrive...) cp Copiar Quero copiar o arquivo “Hb.fasta” para a pasta “Documentos/FASTA/” > cp Hb.fasta Documentos/FASTA/ Quero copiar a pasta “MeusFasta” para a pasta “Documentos/FASTA/” > cp -r MeusFasta/ Documentos/FASTA/ mv Mover arquivo rm Apagar arquivo (definitivamente, não moverá para a lixeira) diff Comparar arquivos https://bellard.org/jslinux/vm.html?url=https://bellard.org/jslinux/buildroot-x86.cfg 2.1 Comandos básicos de shell 11 Quero saber o que difere os arquivos “A.txt” e “B.txt” > diff A.txt B.txt < indica o que saiu e > o que entrou em do arquivo A para o B ./ Executa um programa que não é do sistema, como um script .sh tail Imprime as últimas linhas do arquivo na tela Quero ver as 25 últimas linhas do arquivo “nomes.dat” > tail -25 nomes.dat head Imprime as primeiras linhas do arquivo na tela Quero ver as 25 primeiras linhas do arquivo “nomes.dat” > head -25 nomes.dat tar Extrair arquivos tipo tar.gz Extrair “arquivo.tar.gz” (-x = extrair, -v = verbose, -z= formato tar.gz, -f = o nome do arquivo está em seguida). > tar -xvzf arquivo.tar.gz unzip Extrair arquivos tipo .zip Extrair "arquivo.zip"(-v= verbose) > unzip -v arquivo.zip wc Word count – conta número de linhas, palavras e caracteres, nessa ordem. > wc -l file.txt -l: retornar só o número de linhas -w: retornar só o número de palavras -m: retornar só o número de caracteres (incluindo espaços) man Manual para os comandos -h fornece informações sobre o comando (opções, exemplo, uso, etc) Quero informações sobre os comandos wc e wget wget -h wget - -help wc - -h há variação de formato dependendo do comando (-h, - -h, -help) locate Localiza um arquivo na máquina pelo seu nome find Localiza arquivo na pasta e subpastas onde estou Listar todos os arquivos da pasta e subpastas > find . Encontrar os pdfs que comecem com Hb de uma pasta e subpastas > find /pasta/subpasta -name Hb*.pdf # comentário > cat file.dat # aqui escrevo o que quiser, muito útil em scripts & Libera o terminal durante a execução Abre a janela do programa gedit e libera o terminal para novas execuções > gedit arquivo.txt & 12 Capítulo 2. Linux e Shell para Bioinformática less Ver o que há no arquivo tipo texto Ver no terminal o “arquivo.txt”(-S não quebra linha) > less -S arquivo.txt more Similar ao less, com variação na forma de visualização > Armazena a saída do terminal em um arquivo >> Armazena a saída do terminal em um arquivo a partir da última linha Quero salvar as 5 primeiras linhas do File.dat em “titulo.dat”. > head -5 File.dat > titulo.dat Quero acrescentar ao arquivo “titulo.dat” uma linha escrito “fim do arquivo” > echo “fim do arquivo” >> titulo.dat cat Coloca o arquivo todo na tela Para entender melhor os comandos, existe online a www.explainshell.com. Ele funciona bem para uma grande gama de comandos shell, contendo uma explicação didática do comando inserido. Agora que vimos os comandos mais simples, vamos para o grep. O grep possui grande utilidade quando se visa analisar textos, como as sequências biológicas. Ele permite encontrar padrões utilizando as chamadas expressões regulares ou REGEX. As expressões regulares são bastante simples e poderosas para a busca de padrões. Vamos aos exemplos. Para acessar o material deste curso, entre no link abaixo e faça download do arquivo Pra- tica_Shell.zip: Todo o material necessário para desenvolver a prática será disponibilizado no link acima, contudo será dadas instruções de como esse material foi obtido nos exemplos a seguir. Exemplo 1: Thermus thermophilus Primeiramente, baixe a sequência fasta no NCBI, contendo o genoma completo da espécie Thermus thermophilus. Entre no site https://www.ncbi.nlm.nih.gov/ Selecione na aba genome escreva Thermus thermophilus e entre ou entre no link abaixo e selecione o FASTA genome. O arquivo estará compactado no formato .gz. Basta dar o comando > gunzip GCF_000091545.1_ASM9154v1_genomic.fna.gz Tenho o genoma completo do Thermus thermophilus no arquivo: GCF_000091545.1_ASM9154v1_genomic.fna. Vamos mudar o arquivo de nome, pois é muito longo: > cp GCF_000091545.1_ASM9154v1_genomic.fna Tt.fasta Assim, estarei copiando o arquivo como Tt.fasta. Primeiramente quero ver se nesse arquivo tem a sequência “AATGCGC”: > grep 'AATGCGC' Tt.fasta A impressão será das linhas em que foi encontrada a sequên- cia (e serão muitas) com ela destacada em vermelho, por exemplo as 3 primeiras linhas: GGATACGCTCAGGCTAGACGGTGGGAGAGGGTGGTGGAATTCCCGGAGTAGCGGTGAAATGCGCAGATACCGGGAGGAAC GTGGCGTATAACAAAATGCGCCGCGCCCTGGAGGAGCGCTTGGGCCTCCTCCGCCGCCTCGGGGGAATGGACCTCCGCTT AAGGGGTGCGGAGCCTGCTCAAGGAGGGGTGAATGCGCCGCGCCTTCCTCCTCGCCTTCCTGGGCCTCGCCCTGGCCCAG Caso queira saber em quais linhas em que o padrão foi encontrado, basta acrescentar -n: www.explainshell.com https://www.bioinfodiscentes.com.br/cursos-ministrados https://www.ncbi.nlm.nih.gov/ https://www.ncbi.nlm.nih.gov/genome/?term=Thermus+thermophilus 2.1 Comandos básicos de shell 13 > grep -n 'AATGCGC' Tt.fasta 1651:GGATACGCTCAGGCTAGACGGTGGGAGAGGGTGGTGGAATTCCCGGAGTAGCGGTGAAATGCGCAGATACCGGGAGGAAC 2491:GTGGCGTATAACAAAATGCGCCGCGCCCTGGAGGAGCGCTTGGGCCTCCTCCGCCGCCTCGGGGGAATGGACCTCCGCTT 3170:AAGGGGTGCGGAGCCTGCTCAAGGAGGGGTGAATGCGCCGCGCCTTCCTCCTCGCCTTCCTGGGCCTCGCCCTGGCCCAG Muitas vezes não temos um padrão bem definido. Pode ser algo como A ou T, seguido de GCAGCC e terminando com A ou G > grep -n '[AT]GCAGCC[AG]' Tt.fasta Posso salvar a(s) linha(s) com o padrão em um arquivo próprio, por ex., saida.dat. > grep -n '[AT]GCAGCC[AG]' Tt.fasta > saida.dat Exemplo 2: Multifasta Baixe o arquivo GCF_000091545.1_ASM9154v1_cds_from_genomic.fna.gz no en- dereço ftp neste link. Descompacte: > gunzip -k GCF_000091545.1_ASM9154v1_cds_from_genomic.fna.gz O -k evita que delete o .gz após a extração. Renomeie como MultiTt.fasta: > cp GCF_000091545.1_ASM9154v1_genomic.fna MultiTt.fasta Esse arquivo contém os fasta de todos as regiões codificantes de Thermus thermophilus. Digamos que eu queria criar um arquivo apenas com os cabeçalhos dessas sequências. Sei que os fasta têm um cabeçalho que começa com “>”, logo: > grep "^[>]" MultiTt.fasta > cabeçalhos.dat Opções do grep: -n: imprime número da linha -i: ignora a distinção maiúscula e minúscula -E: usa padrão regex Na Tabela 2.2 fornecemos alguns exemplos de expressões regulares (regex). Existem ferra- mentas online que permitem usar o padrão regex e inserir um texto de busca como o https: //regex101.com/ e o https://regexr.com/. Estamos dando exemplos apenas de bases nucleotídicas, mas o mesmo se aplica a aminoácidos, assim como a textos de maneira geral. O grep pode ser usado para encontrar informações variadas, incluindo números, variados caracteres, etc. Exemplo3: encontrar informação em múltiplos arquivos Também é possível encontrar informações em vários arquivos em uma pasta. Tenho, por exemplo, uma série de documentos Genbank com nomes codificados (pasta genbank de Exemplos), e quero apenas aqueles com sequências de Mus musculus. Para isso: > grep 'Mus musculus' *.genbank E ele irá retornar quais arquivos possuem esse texto. Agora, digamos que deseja-se extrair desse arquivo genbank apenas a sequência nucleotídica do restante das informações. Sabemos que as sequências nos arquivos genbank são iniciadas pelo identificador ORIGIN, logo > grep -n 'ORIGIN' file.genbank Conhecendo a linha em que começa minha sequência (a seguinte onde aparece ORIGIN). Posso usar wc para determinar quantas linhas tem o arquivo > wc -l file.genbank digamos que eu encontrei ORIGIN na linha 95 e que há 127 linhas no total. Obtenho a sequência ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/091/545/GCF_000091545.1_ASM9154v1/ https://regex101.com/ https://regex101.com/ https://regexr.com/ 14 Capítulo 2. Linux e Shell para Bioinformática com sed: > sed -n '96,126p' file.genbank > sequencia.txt e salvo minha sequência no arquivo sequencia.txt. Removo a linha 95 pois é a que contém a palavra ORIGIN, e a última que contém \\. Mas e os demais arquivos genbank, a que organismos pertencem? Pode-se obter uma lista facilmente buscando a tag “ORGANISM”: > grep 'ORGANISM' *.genbank E ele irá retornar a listagem de espécies, uma para cada arquivo. Exemplo 4: conteúdo GC Tenho uma sequência fasta e quero descobrir o conteúdo GC dela. Naturalmente existem várias ferramentas que fazem isso por nós, mas digamos que não existam (ou que queremos algo específico para a qual não existem ferramentas disponíveis). Primeiramente não quero que ele conte os caracteres do meu cabeçalho. Como ele começa com >, digo para o grep pegar todas as linhas, menos a que começa com > > grep '^[^>]' Tt.fasta Então uso essa saída como entrada de outro grep que vai encontrar os Gs e os Cs, mas peço para ele imprimir apenas os padrões, isto é, ele imprime só os G e C, e não os A e T: > grep '^[^>]' Tt.fasta | grep -o '[GC]' agora para encontrar quantas foram as ocorrências de G e C uso wc, e conto o número de linha > grep '^[^>]' Tt.fasta | grep -o '[GC]' | wc -l Assim você terá quantos G e C há na sequência. Mas como queremos o percentual, temos de saber qual o tamanho total da sequência, logo pegamos toda a sequência (sem cabeçalho) e contamos o número de caracteres com -m: > grep '^[^>]' Tt.fasta | wc -m É preciso tomar cuidado nesse ponto com espaços e linhas em branco, que serão contados também. Alternativamente, como segurança, pode-se contar o número de GC e depois o número de AT, o que dá maior segurança na análise. > grep '^[^>]' Tt.fasta | grep -o '[GC]' | wc -l > grep '^[^>]' Tt.fasta | grep -o '[AT]' | wc -l Para obter o percentual GC teríamos que calcular manualmente a partir da contagem. Agora podemos criar um script para automatizar esse cálculo. 2.2 Criando scripts A primeira linha de todo script deve ser #!/bin/bash. E a extensão para scripts shell geralmente é .sh. Podemos agora automatizar o cálculo do percentual GC de uma sequência num arquivo .fasta. #!/bin/bash # Comentários: # Este script fornece o % do conteúdo GC de uma sequência fasta. # Para utilizar este script, use o formato a seguir: # ./conteudoGC meuarquivo.fasta # obter o número de G e C na sequência GC=$(grep '^[^>]' $1 | grep -o '[GC]' | wc -l) 2.2 Criando scripts 15 # obter o número de A e T na sequência AT=$(grep '^[^>]' $1 | grep -o '[AT]' | wc -l) # soma AT com GC, dando o número de bases total tot=$(calc $GC+$AT) # dá o percentual calc $GC/$tot*100 Vamos salvar como conteudoGC.sh. Para executar o script é preciso alterar as permissões do arquivo, tornando-o executável: > chmod +x conteudoGC.sh Para executar use: > ./conteudoGC.sh file.fasta Vamos entender o que foi feito. #!/bin/bash é chamada do interpretador bash para os comandos dados no script. $1 tem a função de chamar o primeiro parâmetro inserido na linha de chamada do script, que nesse caso é o nome do arquivo fasta file.fasta. O comando X=$(...) permite salvar a saída de um comando dado na variável X. Para posteriormente usar o valor dessa variável, usa-se $X. calc é uma calculadora de terminal que permite realizar operações básicas com números tipo float (com vírgula). As operações são dadas pelos sinais +, -, / e *. 2.2.1 Outros comandos úteis para a criação de scripts: Posso, em scripts, solicitar ao usuário digitar algo na tela, e assim salvar essa informação em uma variável, utilizando read: > read -p 'digite algo' var Caso queira realizar troca de trechos de texto de um arquivo, posso usar o sed: > sed -i 's/esse texto vai sair/e esse vai entrar/g' file.txt substitui o trecho ‘esse texto vai sair’ pelo texto ’e esse vai entrar’. 2.2.2 Obtenção de dados de bancos de dados O download automático de uma série de arquivos é muito útil. Isso também pode ser facilmente realizado pelo terminal utilizando wget. O NCBI tem seus banco de dados abertos para download no endereço ftp://ftp.ncbi.nlm.nih.gov. Assim, se desejo obter um certo conjunto de sequências, basta usar o endereço de armazenamento desses dados. Por exemplo, obtive o genoma de Thermus thermophilus acessando o link. Se que quiser, entretanto, baixar os demais arquivos, contendo as sequências proteicas, o formato genbank, etc. acesso o diretório pai desse arquivo, como abaixo: ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/091/545/GCF_000091545.1_ASM9154v1/ ftp://ftp.ncbi.nlm.nih.gov ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/091/545/GCF_000091545.1_ASM9154v1/ 16 Capítulo 2. Linux e Shell para Bioinformática Se desejo baixar apenas os arquivos .gz, posso utilizar o seguinte comando: > wget -r -c -np -nd --accept=gz ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/ 000/091/545/GCF_000091545.1_ASM9154v1/ onde -r é o modo recursivo, -c permite que o download continue de onde parou caso haja alguma instabilidade na rede, -np impede o wget baixar arquivos do diretório pai, o -nd permite que ele apenas baixe os arquivos, sem copiar a estrutura do site, -accept=gz significa que ele só irá baixar os arquivos no formato .gz. Nesta lista de itens baixados haverá o arquivo ...genomic.gbff, que é o arquivo gen- bank, isto é, contém a listagem completa de genes do genoma do organismo. O arquivo com ...cds_from_genomic.fna é a sequência multifasta com todas as regiões codificantes (cds) conhecidas do genoma. Essas sequências foram utilizadas nos exemplos anteriores nomeadas como Tt.fasta, MultiTt.fasta. Alternativamente existe o aria2c. Ele também possui execução via terminal, mas com a vantagem de permitir vários acessos simultâneos a um mesmo arquivo para download, tornando-o mais rápido. Vamos a um exemplo em que faço 5 acessos simultâneos: > aria2c -x5 ftp://ftp.ncbi.nlm.nih.gov/genomes... onde o -x número dá o número de conexões. Exemplo 5: Script prático Podemos criar scripts que facilitam nosso trabalho, não apenas para análise de dados, mas também utilizando quaisquer comandos visto, inclusive chamando outros scripts. Tomemos um exemplo: quero baixar uma série de arquivos de certo diretório na nuvem, armazená-lo em um diretório ainda não criado, que estes arquivos sejam analisados e então o resultado seja dado na tela. Chamemos o script de simples.sh. Forneço ao script o nome do diretório a ser criado (parâmetro 1) e a url (parâmetro 2) - use como exemplo a seguinte url: > chmod +x simples.sh > ./simples.sh pasta ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/091/545/ GCF_000091545.1_ASM9154v1/GCF_000091545.1_ASM9154v1_genomic.fna.gz REFERÊNCIAS 17 #!/bin/bash # $1 - nome pasta, $2 - url mkdir $1 # crio pasta cd $1 # entro na pasta echo 'Iniciando Download .. ' wget -r -c -np -nd $2 gunzip *.gz cd .. # saio da pasta echo 'Iniciando Análise.. ' ls $1 > $1/Analise.dat # coloco o nome do arquivo ./conteudoGC.sh $1/* >> $1/Analise.dat #salvo resultado da análise O que está sendofeito: 1. crio uma pasta com um nome de minha escolha (parâmetro 1) 2. entro na pasta 3. imprimo na tela informando que vou iniciar o download 4. faço o download do arquivo tipo .gz pela url fornecida (parâmetro 2) 5. descompacto (e por default apago o .gz) 6. saio da pasta 7. imprimo na tela que vou começar a análise 8. copio o nome do arquivo que baixei para o arquivo Analise.dat 9. faço a analise com o conteudoGC.sh e salvo em Analise.dat numa nova linha 10. Agora posso acessar o resultado no arquivo Analise.dat na pasta que criei. Sugestão de sites: www.explainshell.com – comandos shell https://regex101.com/ – padrões REGEX (expressão regular) https://regexr.com/ – padrões REGEX (expressão regular) https://bellard.org – terminal online Referências [1] Manual Bash do GNU. (acessível em qualquer usuário linux ao digitar “man bash”. URL: https://linux.die.net/man/1/bash (acesso em 01/08/2019) (ver página 10). [2] Aurélio Marinho Jargas. Introdução ao Shell Script. 2004. URL: http://aurelio.net (ver página 10). [3] Gleydson Mazioli da Silva. Guia Foca GNU/Linux - Versão 4.22. 2010. URL: http://www. guiafoca.org/ (ver página 10). www.explainshell.com https://regex101.com/ https://regexr.com/ https://bellard.org/jslinux/vm.html?url=https://bellard.org/jslinux/buildroot-x86.cfg https://linux.die.net/man/1/bash http://aurelio.net http://www.guiafoca.org/ http://www.guiafoca.org/ 18 Capítulo 2. Linux e Shell para Bioinformática Tabela 2.2: Exemplos de expressões regulares: prefira usar sempre entre aspas. Expressão resultado ABC busca o padrão ABC [ABCD] A ou B ou C ou D (ABCD) conjunto ABCD C{5} padrão que repete 5 vezes o C CCAGT{3,5} somente a letra T se repetindo de 3 a 5 vezes (CCAGT){3,5} o padrão todo em tandem, se repetindo de 3 a 5 vezes ^[>] as linhas que começam com > ^[^>] as linhas que não começam com > (negação) [^(AT)] mostra todas as sequências, exceto o padrão AT ATC?A C é facultativo na sequência (exige -E de padrão regex) ATC[^AG] começa com ATC e não termina nem com A nem com G ^[CA]GG linha começa com A ou C, seguido de GG \[ \( \* use \ para inserir buscar caracteres especiais 3. Bancos de Dados MONIQUE SCHREINER LEONARDO CRUZ LEONARDO MAGALHÃES CRUZ 3.1 Teoria A biologia é uma ciência rica em informações, que acumula uma grande quantidade de dados gerados em experimentos. Desta forma, há necessidade de armazenar esses dados de forma organizada e fácil de se encontrar, otimizando o tempo de execução das análises. Uma forma de lidar com este grande número de dados é utilizando bancos de dados. Neles é possível unir os dados e relacionar partes da informação de forma consistente, facilitando o acesso aos dados e a extração de informações. Os bancos de dados atendem a diversas áreas, e podem arquivar todo tipo de dado (texto, imagens e áudios, por exemplo). O primeiro banco de dados biológico foi proposto em 1965 pela físico-química Margaret Dayhoff e era composto de todas as sequências de proteínas conhecidas até a época, reunidas no livro Atlas de Estruturas e Sequências de Proteínas [1]. Atualmente, os bancos de dados biológicos são compostos principalmente por sequências de ácidos nucleicos, incluindo genomas completos, sequências de aminoácidos, estruturas e funções de moléculas, padrões de expressão de genes, vias metabólicas, redes de interações e literatura. Além disso, são de responsabilidade de projetos específicos nacionais e internacionais [2] De forma geral, os bancos de dados biológicos podem ser classificados em três categorias a partir do tipo e do conteúdo dos dados armazenados: primários, secundários e especializados. Os Primários consistem em bancos de dados que armazenam resultados experimentais, ou seja, informações biológicas originais como sequências de nucleotídeos ou de proteínas. Geralmente os dados são armazenados em arquivos do tipo texto simples (Subseção 3.1.1). Alguns exemplos de bancos de dados biológicos primários são: GenBank, PDB e UniProtKB. Os Bancos de Dados Secundários armazenam resultado de análises feitas a partir de dados primários como, por exemplo, anotações de funcionalidades, motivos e famílias de proteínas e literatura associada. PROSITE, Pfam, SCOPE e CATH são exemplos. 20 Capítulo 3. Bancos de Dados Bancos de dados que atendem a um interesse particular, como um determinado organismo, gene ou proteína, são denominados Especializados. Por exemplo, WormBase (dados de nematódeos), HIV Sequence Database, RDP (banco de dados ribossomais), STRING (interações entre proteínas) e Registry of Standard Biological Parts (biologia sintética). 3.1.1 Estrutura e Formatos de Arquivos Bancos de dados podem ser estruturados de duas maneiras: em forma de arquivos de texto simples (Flat Text Files) ou em forma de bancos de dados relacionais [3]. Arquivos de Texto Simples são arquivos de texto sem formatação em que a informação se encontra estruturada em uma única tabela. Esse tipo de arquivo tem fácil legibilidade (tanto para humanos quanto para máquinas) e facilita o acesso automático. Alguns formatos de arquivos de texto simples em bancos de dados biológicos são o FASTA, FASTQ, o GenBank e o PDB. O formato FASTA (.fasta, .fas, .fna, .ffn, .faa, .frn) pode ser usado para armazenar tanto sequências de nucleotídeos quanto de aminoácidos. É caracterizado como FASTA o arquivo em que a tabela possui uma única coluna e a primeira linha se inicia com o símbolo > seguido de um cabeçalho. O padrão do cabeçalho é variável, mas uma boa prática é adicionar um identificador único para a sequência, como um ID, nome da proteína/gene e do nome do organismo. As linhas seguintes representam a sequência de aminoácido ou nucleotídeos (Figura 3.1). Figura 3.1: Exemplo de arquivo no formato FASTA. Outro formato para armazenar sequências biológicas é o FASTQ. Com ele é possível associar a sequência biológica com seus escores de qualidade. Do mesmo modo que o formato FASTA, o formato FASTQ é estruturado na forma de uma tabela com uma única coluna (Figura 3.2). A primeira linha se inicia com o símbolo @ e corresponde ao identificador da sequência. A segunda linha representa a sequência de nucleotídeos. A terceira linha é um separador e se inicia com o símbolo +. Após esse símbolo, pode-se adicionar o identificador ou qualquer descrição, mas isso é opcional. Por fim, a quarta linha representa o escore de qualidade em que cada caractere corresponde a um símbolo da tabela ASCII. 3.1 Teoria 21 Figura 3.2: Exemplo de arquivo no formato FASTQ. O formato GenBank (.gbk, .gb), também pode ser usado para sequências de aminoácidos e nucleotídeos e, além da sequência, fornece informações acerca da anotação como artigo de origem, autores, características da sequência, região codificadora, entre outras. O arquivo é dividido em três partes (header, features e origin). As partes header e features são compostas por duas colunas: uma com a característica chave e outra com a localização e/ou o qualificador (informações auxiliares sobre a característica chave). A header é o cabeçalho e mostra detalhes da sequência como definições, literatura associada e autores (Figura 3.3). As features se iniciam na linha FEATURES e descrevem características importantes da sequência como presença de regiões codificadores e proteínas (Figura 3.4). A sequência em si se inicia na linha ORIGIN e é finalizada com os símbolos //, marcando o final do arquivo 3.5. Figura 3.3: Primeira parte do arquivo no formato GenBank. 22 Capítulo 3. Bancos de Dados Figura 3.4: Segunda parte do arquivo no formato GenBank. Figura 3.5: Terceira parte do arquivo no formato GenBank. 3.1 Teoria 23 O formato PDB (.pdb, .ent, .brk) contém informações acerca da forma tridimensional de macromoléculas. O arquivo é composto por inúmeras seções (Figura 3.6). A seção SEQRES descreve as cadeias polipeptídicas da proteína. A seção ATOM descreve a coordenadas no espaço de cada átomo em cada aminoácido de cada cadeia polipeptídica. A seção HETATM descreve a posição dos hetero-átomos, ou seja, átomos que nãofazem parte da proteína. Figura 3.6: Exemplo de arquivo no formato PDB. Os bancos de dados relacionais são compostos por inúmeras tabelas relacionadas por meio de códigos únicos para cada registro. Este tipo de banco permite uma pesquisa mais eficiente, menor redundância e maior segurança e consistência dos dados. Porém, este tipo de banco não tem fácil legibilidade e precisa de linguagem e programas específicos para serem lidos como, por exemplo, a linguagem SQL. 3.1.2 Principais Bancos de Dados Biológicos O INSDC (International Nucleotide Sequence Database Collection) consiste numa iniciativa de coletar, disseminar e manter bancos de dados sincronizados. Esta iniciativa envolve três bancos de dados: DDBJ (DNA Data Bank of Japan) do Japão, NCBI (National Center for Biotechnology Information) dos Estados Unidos e EMBL (European Molecular Biology Laboratory) da Europa. O NCBI (https://www.ncbi.nlm.nih.gov/) é dividido em quase 40 bancos de da- dos. Por exemplo, as sequências de nucleotídeos anotadas de forma automática são armaze- nadas no banco de dados não-redundante GenBank (https://www.ncbi.nlm.nih.gov/ genbank/). Sequências de nucleotídeos e proteínas revisadas manualmente são armazenadas no banco de dado não-redundante RefSeq (https://www.ncbi.nlm.nih.gov/refseq/). Artigos, periódicos e livros online ficam armazenados no banco PubMed (https://www.ncbi. nlm.nih.gov/pubmed/). Nomes de organismos e linhagens filogenéticas se encontram no banco Taxonomy (https://www.ncbi.nlm.nih.gov/taxonomy). Genomas, incluindo sequências, anotações, mapas e cromossomos, são armazenadas no banco Genome (https: //www.ncbi.nlm.nih.gov/genome). https://www.ncbi.nlm.nih.gov/ https://www.ncbi.nlm.nih.gov/genbank/ https://www.ncbi.nlm.nih.gov/genbank/ https://www.ncbi.nlm.nih.gov/refseq/ https://www.ncbi.nlm.nih.gov/pubmed/ https://www.ncbi.nlm.nih.gov/pubmed/ https://www.ncbi.nlm.nih.gov/taxonomy https://www.ncbi.nlm.nih.gov/genome https://www.ncbi.nlm.nih.gov/genome 24 Capítulo 3. Bancos de Dados Dentre vários bancos de dados e ferramentas, o EMBL (https://www.embl.org/) man- tém o banco de dados de proteínas Uniprot (https://www.uniprot.org/). Este, por sua vez, também possui divisões: UniParc, UniProtKB e UniRef. A divisão UniParc consiste num banco de sequências de proteínas não-redundantes procedentes das principais bases de dados públicas. O UniParc armazena cada sequência uma única vez, fusionando sequências idênticas, mesmo que procedam de espécies de diferentes organismos. A divisão UniProtKB pode ser dividida em duas seções: Swiss-Prot e TrEMBL. Swiss- Prot contém sequências não-redundantes de proteínas, anotadas e revisadas manualmente, com resultados experimentais. TrEMBL contém sequências de proteínas associadas com anotações geradas automaticamente por ferramentas computacionais. Apesar de possuir maior qualidade de dados que o TrEMBL, o Swiss-Prot possui consideravelmente menos sequências (cerca de 560 mil sequências no Swiss-Prot e mais de 158 milhões no TrEMBL). A divisão UniRef é formada por agrupamento de sequências de proteínas derivadas do Uni- ProtKB e UniParc. As sequências são agrupadas de acordo com seus níveis de similaridade - UniRef100 (100% de similaridade), UniRef90 (90% de similaridade) e UniRef50 (50% de similari- dade) -, reduzindo o tamanho dos bancos de dados e permitindo a busca mais rápida. O PDB (Protein Data Bank) (https://www.rcsb.org/) é mantido pela National Science Foundation (https://www.nsf.gov/) e armazena dados de estruturas tridimensionais de pro- teínas. Os dados armazenados são provenientes de cristalografia de raio-X, ressonância magnética nuclear e microscopia crio-eletrônica. A partir destes métodos, é possível conseguir as coordenadas atômicas da molécula que serão armazenadas no formato de arquivo texto simples PDB e utilizadas para criar modelos tridimensionais das moléculas. O Pfam (https://pfam.xfam.org/) é um banco de dados secundário também mantido pelo EMBL que armazena informações acerca de dados de domínios, famílias e sítios funcionais de proteínas. As análises são feitas através de alinhamento múltiplo de sequências e Modelos Ocultos de Markov. O PROSITE (https://prosite.expasy.org/) também é um banco de dados secundário que armazena dados de domínios conservados em famílias de proteínas. Os domínios são representados, qualitativamente, através dos padrões e, quantitativamente, através dos perfis PSSM. 3.2 Prática Bancos de dados no NCBI 1. Acessar a página inicial do portal do NCBI no endereço https://www.ncbi.nlm.nih. gov 2. No campo de busca digitar o termo hemoglobin 3. Na seção Genome clique em Nucleotide Q. Quantos registros foram encontrados? 4. Verificando resultados para humanos Na coluna da direita, em Results by taxon, clique no resultado para Homo sapiens Q. Quantos registros foram encontrados? Q. Por que a diferença em relação à busca anterior? Clique no link para o primeiro resultado mostrado (Accession: DQ659148.1) Q. A sequência de nucleotídeos do gene está completa? Na parte superior, clique no link FASTA Q. Compare o formato apresentado com o anterior 5. Na seção CDS clique em protein_id https://www.embl.org/ https://www.uniprot.org/ https://www.rcsb.org/ https://www.nsf.gov/ https://pfam.xfam.org/ https://prosite.expasy.org/ https://www.ncbi.nlm.nih.gov https://www.ncbi.nlm.nih.gov 3.2 Prática 25 Banco de dados UniProtKB 1. Acessar a página inicial do UniProt ( www.uniprot.org ) 2. No campo de busca textual, certifique-se de que o banco de dados UniProtKB está selecio- nado Incluir o texto para busca hemoglobin Iniciar a busca clicando no botão Search Q. Quantos registros foram encontrados? Q. O UniprotKB é composto por duas subdivisões (dois outros bancos de dados). Quais são elas e qual o número de sequências obtidas como resultado em cada uma? Q. Como é possível identificar a qual subdivisão do UniProtKB cada sequência listada no resultado da busca pertence? 3. No campo de busca textual, pesquise a chave ABG47031.1 (novamente certifique-se de que o banco de dados UniProtKB está selecionado) Q. Quantos registros foram encontrados? Q. Por que a diferença em relação à busca anterior? Q. A qual subdivisão esta sequência pertence? Banco de dados PDB 1. Acessar a página inicial do PDB no endereço www.rcsb.org 2. No campo para busca digite 1HHO Q. A qual organismo pertence a proteína? Q. Qual método foi utilizado para resolver a estrutura da proteína? Q. Qual a resolução da estrutura? Q. Quantas cadeias polipeptídicas possui a proteína? Q. Existe algum ligante? Qual(is)? 3. Clique na aba 3D View Aguarde até que a estrutura da proteína seja carregada É possível interagir com a estrutura tridimensional com os comandos básicos abaixo GIRAR: segurar o botão esquerdo do mouse e arrastar AUMENTAR: girar o botão central do mouse para trás DIMINUIR: girar o botão central do mouse para frente DESLOCAR: segurar o botão esquerdo do mouse e arrastar 4. Identificação de cadeias de aminoácidos na estrutura quaternária da proteína Color By Chain OBS.: Cada cadeia (chain) de aminoácido independente será mostrada em uma cor Q. Quantas cadeias de aminoácidos compõem a estrutura da hemoglobina humana? 5. Identificação de heteroátomos na estrutura da proteína Ligand Spacefill 6. Clique na aba Sequence Clique em Display files > FASTA sequence Banco de Dados Pfam 1. Acesse a página inicial do Pfam (https://pfam.xfam.org/) Clique na aba SEARCH 2. Procurando domínios na sequência Clique na aba Sequence Cole a sequência no campo correspondente e clique em Submit 3. Para o domínio encontrado, clique no botão Show, na última coluna da tabela de resultados Interprete o resultado mostrado 4. Na primeira coluna da tabela de resultados, Family, clique no link para o primeiro domínio www.uniprot.org www.rcsb.org https://pfam.xfam.org/ 26 Capítulo 3. Bancos de Dados encontrado A que família de proteínas este domínio ocorre? Nesta família, quais outros domínios estão associados? Identifique a arquitetura encontrada para a proteínapesquisada Referências [1] RV Eck e MO Dayhoff. “Atlas of protein sequence and structure, National Biomedical Research Foundation”. Em: Maryland: Silver Springs (1966) (ver página 19). [2] Arthur M Lesk. Introdução à Bioinformática. Artmed, 2008 (ver página 19). [3] LM Moreira. “Ciências genômicas: fundamentos e aplicações”. Em: Moreira, LM & Varani, AM Plasticidade e fluxo genômico. Ribeirão Preto: Sociedade Brasileira de Genética 1 (2015), páginas 101–116 (ver página 20). 4. Montagem Genômica JOSUÉ OLIVEIRA CAMARGO 4.1 Teoria Um genoma pode ser entendido como toda a informação genética de um organismo, ou seja, todo o seu DNA. Uma definição alternativa para genoma é o conjunto de todos os genes de um organismo, reduzindo a informação para a parte funcional. A genômica enquanto ciência, consiste no estudo dos genomas e é a base para as ciências ômicas que a sucedem (transcriptômica proteômica, metabolômica, etc...). Foi impulsionada pelas tecnologias de sequenciamento genômico, que nos permite saber o conteúdo e a ordem exata dos nucleotídeos que compõe o DNA de um ser vivo, identificados por cada uma das bases nitrogenadas que os compõe (ACTG). A história do sequenciamento genômico iniciou com os métodos de Maxam-Gilbert e Sanger, sendo esse último o mais utilizado até o início dos anos 2000, quando foi substituído (para fins genômicos) pelos métodos de segunda (Roche 454, Illumina, SOLiD) terceira (Ion Torrent, PacBio) e quarta geração (MinION), cada um com suas particularidades. No entanto, essas tecnologias ainda são incapazes de sequenciar por completo exemplo grandes moléculas como os cromossomos bacterianos, que possuem de 0,5 a 10 milhões de bases. Para sequenciar um DNA grande como esse é utilizada uma estratégia chamada shotgun, ou fragmentação aleatória. Para bactérias, o DNA é fragmentado aleatoriamente em pedaços de alguns milhares de bases, condizentes com a capacidade das técnicas de sequenciamento. Para eucariotos, os cromossomos são mapeados, divididos em pedaços menores e só então fragmentados em um processo chamado shotgun hierárquico. Os genomas de várias células (idênticas) são fragmentados, de modo que cada molécula se fragmenta aleatoriamente em pontos diferentes. Posteriormente, esses fragmentos são sequenciados. O número estimado de genomas idênticos sequenciados é chamado de cobertura genômica. Uma vez sequenciados, os fragmentos são confrontados entre si para que as sobreposições sejam encontradas e permitam unir os fragmentos para a reconstrução da sequência genômica original. Esse processo é chamado de montagem genômica e, portanto, depende da cobertura. 28 Capítulo 4. Montagem Genômica Um genoma para ser montado necessita de uma cobertura média que varia entre 20 e 30 vezes, ou seja, se um cromossomo tem 1 milhão de bases, o conjunto de fragmentos sequenciados e utilizados para montá-lo deve ter pelo menos 20 milhões de bases. Esse excedente é responsável pelas sobreposições e correções de eventuais erros de sequenciamento. 4.2 Prática Para esta prática, utilize o programa BioEdit: i. Dentro do programa, abra o arquivo “BIO018_2019.1-AbrasilenseTrimmed.fasta.screen” em File > Open. ii. Verifique que este arquivo contém sequências de DNA obtidas de um sequenciamento genômico. Para montar o genoma, clique em AcessoryAplication > CAP contig assembly program > Run aplication iii. A montagem estará pronta quando aparecer SHOW na tela de mensagens. Você pode fechá-la apertando ENTER. iv. Como o genoma foi montado? Observe que existem divergências de alinhamentos (bases diferentes, bases sobrando ou faltando). A que se devem essas discrepâncias? v. A última sequência mostrada (Contig-0) corresponde ao consenso de todas as sequências. Ela representa o nosso genoma. Você pode fazer uma cópia dessa sequência clicando no nome dela e clicando em Edit > Copy e Edit > Paste. Uma nova sequência aparecerá abaixo dela. vi. Essa genoma apresenta gaps (-) que surgem de divergências entre as sequências, e que necessitam ser removidos. Faça isso clicando na cópia que você criou, depois em Sequence > Gaps > Unlock Gaps e depois em Sequence > Gaps > Degap. vii. Agora, é necessário salvar essa sequência para que possamos trabalhar com ela. viii. Copie-a novamente (Edit > Copy). Clique em File > New Alignment e na nova janela cole a sequência Edit > Paste. Agora, basta ir em File > Save As... e salvá-la. ix. Abra essa sequência (provavelmente salva com o nome Untitled) com o auxílio do bloco de notas ou WordPad. Você verá que ela apresenta um formato específico. Que formato é esse? O que caracteriza esse formato? Referências [1] Jared T Simpson e Mihai Pop. “The theory and practice of genome sequence assembly”. Em: Annual review of genomics and human genetics 16 (2015). [2] Arnaldo Zaha, Henrique Bunselmeyer Ferreira e Luciane MP Passaglia. Biologia Molecular Básica-5. Artmed Editora, 2014. 5. Anotação de Genomas BRUNO NICHIO 5.1 Teoria Em biologia molecular, anotar é fornecer informação biológica às sequências de DNA ou postular uma função para o produto de uma Matriz Aberta de Leitura, do inglês, Open Reading Frame – ORF [1]. Para tal postulação, utilizam-se diversos programas de comparação com dados genéticos conhecidos. As ORFs são sequências codificantes para um produto de proteína ou peptídeo em potencial, por apresentar 3 componentes estruturais: Códon de Iniciação, Região Codificadora e Códon de Terminação, ou seja, devido a essas características, uma ORF pode ’sinalizar’ um gene em potencial. Respeitando o Código genético, as ORFs podem possuir três fases de leitura e, identificar essas fases através de um ORF Finder (ex.: NCBI ORF Finder), é uma estratégia em bioinformática levada em consideração até os dias atuais. Primeiramente, começa-se escolhendo as ORFs maiores e o anotador quem irá decidir qual eliminar ou validar no término do processo. A sequência de DNA é uma fonte rica de informações sobre a biologia dos organismos, mas deve ser traduzida e anotada de forma correta para que o pesquisador possa obter corretamente todas as informações. Podemos ainda classificar o processo de anotação em 3 grandes níveis de análise: Anotação a nível de Nucleotídeo o objetivo é identificar alguns pontos de referência, integrando mapas físicos e genéticos, para a montagem de um mapa preciso do genoma do organismo. A principal etapa nesse tipo de anotação é a identificação das regiões gênicas. Existem duas principais classes de programas que fazem esse tipo e anotação: os ab initio e aqueles baseados em homologias. Os primeiros são compostos de sensores de sinais, próprios para detectar algumas regiões conservadas, como códons de início e término, promotores, terminadores de transcrição, a junção éxon-íntron, etc. Os últimos, como fica claro pelo próprio nome, baseiam-se na similaridade das sequências com a de outros organismos. 30 Capítulo 5. Anotação de Genomas A nível de Proteínas Essa etapa da anotação genômica procura montar um catálogo definitivo das proteínas presentes nos organismos, nomeá-las e associá-las a prováveis funções. Uma forma comum de se realizar a anotação de proteínas é procurar similaridades utilizando ferramentas como o BLASTp ou PSI- BLAST, usando diferentes bancos de dados de proteínas. As coleções mais valiosas de sequências de proteínas são os bancos de dados SWISS-PROT e TrEMBL, o primeiro apresenta uma coleção de sequências de proteínas confirmadas e extensivamente anotadas e o segundo é feito para remover sua redundância esse último. Uma análise complementar seria a procura de domínios funcionais e as bases de dados mais utilizadas nesse processo são: PFAM, PRINTS, PROSITE, ProDom. Esses vários bancos de dados de padrões possuem, cada um, seu próprio sistema de nomenclaturas e método de procura, o que pode tornar difícil a interpretação dos resultados. Pensando nisso, foi desenvolvido um banco integrado de assinaturas de proteínas, conhecido como InterPro, que integra as informações dos bancos anteriormente citados. ANível de Processos É a parte mais desafiadora do processo de anotação gênica, onde é relacionado, finalmente, a genômica com os processos biológicos. Para isso, foi criado um consórcio chamado de Gene Ontology (GO), que busca criar um vocabulário padrão para descrever a função dos genes. Ele consiste em três subpartes: função molecular (atividade específica do gene em questão, ex.: atividade enzimática), processos biológicos (processo no qual o gene está inserido, ex.: meiose) e componentes celulares (descreve a estrutura celular na qual o gene está localizado, ex.: organelas, ribossomos). Com esse projeto pretende-se entender “como” e “onde” atuam todos os genes de organismos. Para a anotação a este nível é necessário mais do que trabalho computacional. Técnicas biológicas de alta produção são de fundamental importância para identificar o papel de genes e de proteínas nos processos biológicos, pois cada novo experimento adiciona mais informação e permite um melhor entendimento do genoma. 5.2 Prática 1. Para este exercício, entre no site http://www.ncbi.nlm.nih.gov/orffinder/ (a) Copie e cole a sequência salva anteriormente (Untitled.fas) no campo Enter Query Sequence. Em Minimal ORF Length (nt) coloque 150. Clique em Submit. (b) Várias ORF foram anotadas. O que é uma ORF? Figura 5.1: Exemplo de visualização de ORFs pelo programa NCBI orffinder. (c) Clique em uma determinada ORF (escolha uma grande). A sequência será mostrada em um quadro abaixo. Clique em BLAST ORF. Na nova janela clique em BLAST no final da página. O que é o programa BLAST? 2. Para este exercício, observe o resultado do BLAST http://www.ncbi.nlm.nih.gov/orffinder/ REFERÊNCIAS 31 (a) Localize informações sobre o tipo e tamanho da molécula submetida para análise (query). (b) Nos gráficos (Graphic Summary), procure por informações de domínios conserva- dos na proteína. Uma barra graduada indica o tamanho dos alinhamentos obtidos. Qual o tamanho desses alinhamentos? (c) Nas descrições (Descriptions), veja qual é a função das proteínas semelhantes presentes no banco de dados. Observe qual é a porcentagem de identidade da proteína submetida em relação às proteínas presentes no banco. (d) Nos alinhamentos (Alignments) são mostrados os detalhes de cada alinhamento entre a sequência submetida (query) e uma sequência do banco de dados (subject). (e) Se o resultado do BLAST for considerado satisfatório, volte na página das ORF e MARK a proteína. Continue anotando as ORF com o auxílio do BLAST. Referências [1] Josep F. Abril e Sergi Castellano. “Genome Annotation”. Em: Encyclopedia of Bioinformatics and Computational Biology. Editado por Shoba Ranganathan et al. Oxford: Academic Press, 2019, páginas 195–209. ISBN: 978-0-12-811432-2. DOI: https://doi.org/10.1016/ B978-0-12-809633-8.20226-4. URL: http://www.sciencedirect.com/ science/article/pii/B9780128096338202264 (ver página 29). https://doi.org/https://doi.org/10.1016/B978-0-12-809633-8.20226-4 https://doi.org/https://doi.org/10.1016/B978-0-12-809633-8.20226-4 http://www.sciencedirect.com/science/article/pii/B9780128096338202264 http://www.sciencedirect.com/science/article/pii/B9780128096338202264 6. Filogenia Molecular JOSUÉ OLIVEIRA CAMARGO 6.1 Teoria Historicamente, diferentes sistemas foram desenvolvidos para organizar e classificar animais, plantas, etc., utilizando para tal fim critérios naturais. Basicamente, características macroscópicas relacionadas ao fenótipo. Assim, as árvores filogenéticas foram utilizadas quase exclusivamente para descrever relações entre espécies em sistematização e taxonomia. Nos últimos anos, com o advento e a disponibilidade do sequenciamento de material genético em larga escala, as filogenias passaram a serem moleculares, devido ao fato de utilizarem a informação dos ácidos nucléicos contida nos genes para construir uma relação filogenética. Hoje, a filogenia molecular é usada amplamente em quase todos os ramos da biologia. E além de representar os relacionamentos entre as espécies da árvore da vida, as filogenias moleculares são usadas também para: - Descrever as relações entre genes de diferentes espécies; - Interpretar genomas; - Reconstruir genomas ancestrais e; - Identificar a dinâmica evolutiva e epidemiológica de agentes patogênicos, como por exemplo, vírus, bactérias, entre outros. Hoje em dia, o biólogo ou quem trabalha com ciências da saúde precisa conhecer a inferência filogenética. No entanto, para quem não conhece o campo, a existência de vários métodos analíticos e pacotes de software podem parecer assustadores. Neste minicurso prático, descreveremos um conjunto de metodologias para construir uma inferência filogenética usando dados de sequências do gene ribossômico 16S de bactérias. 6.2 Prática – Filogenia Molecular bacteriana Historicamente, as bactérias foram classificadas, desde a sua descoberta, por morfologia. Em 1884 foi desenvolvido um método que, ainda hoje, é empregado na diferenciação de bactérias, a coloração 34 Capítulo 6. Filogenia Molecular de Gram. Mais tarde, no século XX aspectos bioquímicos e metabólicos foram incluídos para tal fim. Em 1990, com o desenvolvimento de métodos de sequenciamento, foram disponibilizados catálogos de nucleotídeos para algumas espécies de bactérias, desde então a taxonomia bacteriana é fortemente influenciada por estudos de sequências de DNA. Hoje, a filogenia de bactérias é desenvolvida a partir da preparação de árvores filogenéticas moleculares, especialmente com base em sequências de ADN ribossomal. No futuro, não muito distante, com a massificação do sequenciamento em grande escala é esperado que a classificação taxonômica das bactérias seja baseada no genoma. Objetivo Utilizar o grau de similaridade genética de sequências de DNA para criar uma árvore filogenética que permita inferir de forma fácil a distância evolutiva entre espécies bacterianas. Procedimento prático Utilizar as sequências de DNA do gene ribosomal 16S de bactérias, obtidas do banco de dados SILVA e agrupadas no arquivo 16s.fasta [3]. 1. Acesse a ferramenta Phylogeny.fr no endereço: http://www.phylogeny.fr/ index.cgi 2. Identificar e clicar no modo de análise “One Click”, na home page. 3. Identificar e abrir na ferramenta o arquivo 16s.fasta, após, clique em Submit. 4. Aguardar o alinhamento e a montagem do dendrograma, e quando concluir, clique em SVG na barra de download. 5. Abrir uma nova janela no navegador. 6. Construir uma árvore filogenética utilizando o método de distância Neighbor-Joining (NJ) no modo “A La Carte”, alterando o parâmetro de alinhamento para ClustalW. 7. Comparar as duas árvores 8. Discussão Referências [1] Robert C Edgar. “MUSCLE: multiple sequence alignment with high accuracy and high throughput”. Em: Nucleic acids research 32.5 (2004), páginas 1792–1797. [2] Koichiro Tamura et al. “MEGA6: molecular evolutionary genetics analysis version 6.0”. Em: Molecular biology and evolution 30.12 (2013), páginas 2725–2729. [3] Pelin Yilmaz et al. “The SILVA and “all-species living tree project (LTP)” taxonomic fra- meworks”. Em: Nucleic acids research 42.D1 (2013), páginas D643–D648 (ver página 34). http://www.phylogeny.fr/index.cgi http://www.phylogeny.fr/index.cgi 7. Genômica Comparativa BRUNO NICHIO 7.1 Teoria Genômica Comparativa é o ramo da bioinformática que visa comparar o material biológico, como sequências não codificantes, genes, proteínas ou até mesmo entre organismos inteiros, a fim de elucidar semelhanças e diferenças pertinentes para uma gama de estudos. Perguntas diferentes podem ser respondidas por comparação de sequências biológicas: como o porquê da organização genômica entre vários organismos, o motivo de haver distâncias evolutivas entre determinados grupos, etc. Através da comparação genômica, ainda é possível, a nível molecular, a distinção entre diferentes formas de vida existentes entre eles. Portanto, é uma ferramenta poderosa para o estudo de alterações evolutivas em organismos, ajudando a identificar os genes que são conservadas entreespécies ou comuns (Pan Genoma), bem como aquelas de genes próprios de um tipo particular de organismo, que determinam as suas características únicas (Core genoma). A maioria das abordagens em bioinformática faz necessário o alinhamento global entre as sequências de DNA para o emparelhamento genômico entre dois organismos utilizando a ferramenta Basic Local Alignment for Sequence Tool (BLAST). O alinhamento consiste em "buscar” similari- dades dos nucleotídeos contidos no genoma de um organismo em relação aos outros nucleotídeos do(s) outro(s) organismos(s). Após a etapa de alinhamento, podemos fazer análises comparativas do genoma de um organismo com outro, a exemplo dessas análises é o GC skew [1], o conteúdo GC ou GC plot [3] e a Sintenia genômica [4]. O GC skew está intimamente relacionado a várias questões intra-genômicas, como por exemplo: preferência no uso de códons por um determinado organismo, regiões ricas e pobres em GC podem indiciar regiões codificantes e/ou não codificantes, detecção de ilhas de patogenicidade, além de podermos mapear regiões de Origem de Replicação (OriC em procariotos). Em contraste o conteúdo GC e a sintenia refletem características globais do genoma, tais como: estabilidade ou não cromossômica, regiões de simetria ou de assimetria, etc, entretanto, a sintenia não necessariamente se relaciona apenas com as características globais, mas também pode ser utilizada para analisar a composição de um conjunto específico de genes de 36 Capítulo 7. Genômica Comparativa interesse para um estudo. Um software gratuito desenvolvido em plataforma Java para esse tipo de análise que podemos citar é a ferramenta Artemis [2]. Por auxílio dela podemos visualizar, mapear e comparar regiões específicas de sequencias de DNA inseridos em um genoma ou sequências de DNA de genomas inteiros, afim de esclarecer as distribuições de genes, mecanismos de homologia ou de composição sintênica, viabilizando dessa maneira no levantamento de hipóteses sobre os principais mecanismos evolutivos envolvidos entre os organismos comparados. 7.2 Prática Escherichia coli, estirpe O157:H7 é o principal agente infeccioso de origem alimentar que causa diarreia, colite hemorrágica e síndrome hemolítico-urêmica. Escherichia coli K-12 MG1655 é uma estirpe benigna, utilizada em laboratórios de pesquisa em Biologia Molecular. Comparando genomas com o programa BLAST: 1. Acessar a página Web do programa BLAST pelo endereço abaixo: blast.ncbi.nlm.nih.gov 2. No formulário para análise faça o seguinte: (a) Marque a opção Align two or more sequences; OBS.: a página será recarregada, incluindo um novo campo para entrada de sequência (b) No campo para entrada de sequência em Enter Query Sequence, inclua o nú- mero de acesso: U00096 (c) No campo para entrada de sequência em Enter Subject Sequence, inclua o número de acesso: BA000007 (d) Selecione a opção Somewhat similar sequences (blastn) (e) Marque a opção Show results in a new window (f) Faça a análise, clicando no botão BLAST 3. Além da forma clássica para os resultados de uma análise BLASTn normal, um link Dot Matrix View permite visualizar a comparação entre as sequências na forma de um gráfico do tipo dot-plot. 4. Clique no link Download, na parte superior da página, e baixe o arquivo de comparação através do link Hit Table (text), na lista que aparecerá OBS.: salve o arquivo no mesmo diretório das sequências. 5. Baixe as sequências no formato GenBank (arquivos com extensão .gkb), através dos endereços abaixo: (a) E. coli K-12 (baixe o arquivo U00096.gbk): ftp://ftp.ncbi.nih.gov/genbank/genomes/Bacteria/Escherichia_ coli_K_12_substr__MG1655_uid225 (b) E. coli O157:H7 (baixe o arquivo BA000007.gbk): ftp://ftp.ncbi.nih.gov/genbank/genomes/Bacteria/Escherichia_ coli_O157H7_uid226 6. Execute o programa Artemis Comparison Tool (ACT) (a) No menu, selecione File > Open (b) Na próxima janela carregue os arquivos na seguinte ordem Sequence file 1: U00096.gbk Comparison file 1: arquivo de comparação do BLAST Sequence file 2: BA000007.gbk blast.ncbi.nlm.nih.gov ftp://ftp.ncbi.nih.gov/genbank/genomes/Bacteria/Escherichia_coli_K_12_substr__MG1655_ uid225 ftp://ftp.ncbi.nih.gov/genbank/genomes/Bacteria/Escherichia_coli_K_12_substr__MG1655_ uid225 ftp://ftp.ncbi.nih.gov/genbank/genomes/Bacteria/Escherichia_coli_O157H7_uid226 ftp://ftp.ncbi.nih.gov/genbank/genomes/Bacteria/Escherichia_coli_O157H7_uid226 7.2 Prática 37 Figura 7.1: Visualização da sintenia genômica pelo programa ACT. 7. Abra o arquivo no programa Artemis 8. No menu, selecione File > Open in DNAPlotter 9. Na janela do programa DNA Plotter, selecione no menu Graph > GC plot > Draw Graph > GC skew > Draw OBS.: Abra um genoma por vez no programa Artemis, siga os passos 2, 3 e 4 e salve a figura gerada selecionando no menu File > Save As jpeg/png Image... Figura 7.2: Comparação genômica de duas cepas de E. coli patogênica (a esquerda) e não patogênica (a direita) pelo programa Artemis DNA Plotter. Questões - O que representa o GC skew? - Existe relação entre o GC plot e GC skew? 38 Capítulo 7. Genômica Comparativa - Existe relação entre o GC e as CDS? - Como é possível usar o GC skew para determinar a origem de replicação (oriC)? - O que as regiões de baixo conteúdo GC sugerem? - Existe algum padrão para o GC skew ou GC plot nos diferentes organismos? Referências [1] Kazuharu Arakawa e Masaru Tomita. “The GC skew index: a measure of genomic compositi- onal asymmetry and the degree of replicational selection”. eng. Em: Evolutionary bioinforma- tics online 3 (set. de 2007). PMC2684130[pmcid], páginas 159–168. ISSN: 1176-9343. URL: https://pubmed.ncbi.nlm.nih.gov/19461976 (ver página 35). [2] Sanger Institute. Artemis Genome browser and annotation tool. 2020. URL: https://www. sanger.ac.uk/tool/artemis/ (acesso em ) (ver página 36). [3] Jonathan Romiguier et al. “Contrasting GC-content dynamics across 33 mammalian genomes: relationship with life-history traits and chromosome sizes”. eng. Em: Genome research 20.8 (ago. de 2010). gr.104372.109[PII], páginas 1001–1009. ISSN: 1549-5469. DOI: 10.1101/ gr.104372.109. URL: https://doi.org/10.1101/gr.104372.109 (ver página 35). [4] Amit U. Sinha e Jaroslaw Meller. “Cinteny: flexible analysis and visualization of synteny and genome rearrangements in multiple organisms”. eng. Em: BMC bioinformatics 8 (mar. de 2007). 1471-2105-8-82[PII], páginas 82–82. ISSN: 1471-2105. DOI: 10.1186/1471- 2105- 8- 82. URL: https://doi.org/10.1186/1471- 2105- 8- 82 (ver página 35). https://pubmed.ncbi.nlm.nih.gov/19461976 https://www.sanger.ac.uk/tool/artemis/ https://www.sanger.ac.uk/tool/artemis/ https://doi.org/10.1101/gr.104372.109 https://doi.org/10.1101/gr.104372.109 https://doi.org/10.1101/gr.104372.109 https://doi.org/10.1186/1471-2105-8-82 https://doi.org/10.1186/1471-2105-8-82 https://doi.org/10.1186/1471-2105-8-82 1 Introdução 2 Linux e Shell para Bioinformática 2.1 Comandos básicos de shell 2.2 Criando scripts 2.2.1 Outros comandos úteis para a criação de scripts: 2.2.2 Obtenção de dados de bancos de dados 3 Bancos de Dados 3.1 Teoria 3.1.1 Estrutura e Formatos de Arquivos 3.1.2 Principais Bancos de Dados Biológicos 3.2 Prática 4 Montagem Genômica 4.1 Teoria 4.2 Prática 5 Anotação de Genomas 5.1 Teoria 5.2 Prática 6 Filogenia Molecular 6.1 Teoria 6.2 Prática – Filogenia Molecular bacteriana 7 Genômica Comparativa 7.1 Teoria 7.2 Prática
Compartilhar