Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 IBM1029 Introdução à Bioinformática Aula 1 Profª Drª Silvana Giuliatti Departamento de Genética – Bloco G Ramal: 4503 silvana@rge.fmrp.usp.br Faculdade de Medicina Departamento de Genética Conteúdo ¾ Obtenção de Sequências, Bancos de dados genômicos e formato de arquivos ¾ Phred/Phrap ¾ Alinhamento de Pares de Sequências ¾ Alinhamento Múltiplo de Sequências ¾ Árvores Filogenéticas ¾ Predição de Estrutura Secundária de RNA ¾ Predição de Genes e transcriptoma ¾ Classificação de Proteínas ¾ Predição de Estruturas ¾ Medida de Expressão Gênica ¾ Análise de Genomas ¾ Conceito de Pipeline Bibliografia Mount, D. W., Bioinformatics - Sequence and Genome Analysis, ed. CSHL, 2ª edição. Gibas, C e Jambeck, P., Desenvolvendo a Bioinformática. Ed. Campus. 2 Método de Avaliação � 1ª Avaliação: 27/04 � 2ª Avaliação: 05/06 � 3ª Avaliação: 22/06 �Substitutiva (Recuperação): 29/06 Avaliações: peso 3 Relatórios/Listas: peso 1 Introdução Anotação de Genes Mapa de Genes Análise por Microarrays Vias Metabólicas Comparação de Proteomas Genômica Comparativa Identificação de Cluster Genômica Funcional Seqüência Genoma Repeats Predição de Genes Localização de Genes Análise de Promotores Famílias de Parálogos Identificação de Ortólogos Análise de Domínios Modelagem Evolucionária Banco de Dados de Genoma 3 Envolve diferentes linhas de conhecimento: ESTATÍSTICA INFORMÁTICABIOLOGIA Aspectos da Bioinformática: representação, armazenamento e distribuição de dados desenvolvimento de ferramentas para revelar o conhecimento contido nos dados. Anos 60 ¾Margaret Dayhoff - Construção das matrizes PAM. ¾ Programas para alinhamentos de Sequências Matrizes de Pontos (Gibbs e McUntyre, 1970) Programação Dinâmica Alinhamento Global (Needleman e Wunsch, 1970) Bancos de dados de Sequências de DNA Protótipo do GenBank, 1979 Anos 70 Programação Dinâmica Alinhamento Local (Waterman e Smith, 1981) Buscas por similaridades em bancos de dados FASTA (Pearson e Lipman, 1988) Anos 80 Bancos de Dados: EMBL fundado em 1980; DDB fundado em 1984. BLAST (Altschul et al., 1990) Alinhamento Múltiplo (CLUSTALW, Thompson et al., 1994) ¾ Ferramentas para Assembly Phred/Phrap/Consed (1998) Anos 90 ¾ Projeto do Genoma Humano finalizado em 2001. Formatos de Arquivos 4 Formatos de Arquivos ¾ Nucleotídeos Símbolos para as 4 bases: A, T, C, G Código padrão para bases em ácidos nucléicos que são ambíguos ou incertos (estabelecido por um comitê internacional). ¾ Aminoácidos Código padrão, de uma única letra, para os aminoácidos foi estabelecido por um comitê internacional. Símbolo Significado Explicação G T C T G ou ou ou ou ou G A T C R Y M K S w H B v D N G A T C A C A G C A ou T A, C ou T, não G C,G ou T, não A A, C ou G, não T (não U) A, G ou T, não C A,C, G ou T Guanina Adenina Timina Citosina puRina pYrimidina aMino Keto Forte interação (Strong) Fraca interação (Weak) H segue G no alfabeto B segue A no alfabeto V segue U no alfabeto D segue C no alfabeto Nenhuma base 1-letra 3-letras Aminoácido Aa Ala alamina C Cys cisteina D Asp acido aspartico E Glu acido glutâmico F Phe Fenilalanina G Gly glicina H His . histidine I Ile isoleucina K Lys lisina L Leu leucina M Met metionina N Asn asparagina P Pro prolina Q Gln glutamina R Arg arginina S Ser serina T Thr treonina V Val valina W Trp triptofano X Xxx aminoácido indeterminado Y Tyr tirosina Zb Glx ácido glutâmico ou glutamina 5 Alguns Formatos... Diferentes programas usam diferentes formatos. – GenBank O programa assume que a seqüência estará entre os identificadores “ORIGIN” e “ // ”. LOCUS nome do locus, comprimento e tipo da seqüência, classificação do organismo, data de entrada DEFINITION descrição de entrada ACCESSION numeros da fonte original KEYWORDS palavras chave para referencias SOURCE organismo fonte de DNA ORGANISM descrição do organismo REFERENCE COMMENT função biologica ou informação da base de dados FEATURES informação sobre a seqüência pela posição de base ou faixa de posições Source organismo fonte misc_signal tipo de função ou sinal mRNA mRNA CDS, região codificadora da proteína intron, posição de intron mutation, alterações na seqüência por mutação BASE COUNT contagem de A, C, G, T e outros simbolos ORIGIN texto indicando inicio da sequencia 1 gaattcgata aatctctggt ttattgtgca gtttatggtt ccaaaatcgc 51 atatactcac agcataactg tatatacacc cagggggcgg aatgaaagcg . . // simbolo indicando final da sequencia Formato GenBank 6 – EMBL (European Molecular Biology Laboratory Data Library) – O programa assume que a seqüência estará entre os identificadores “SQ”e “// “. ID código de identificação para a seqüência no banco de dados AC numero de origem da seqüência DT datas de entrada e modificação KW palavras chaves para referencias OS, OC organismo fonte RN, RP, RX, RA, RT, RL referencias de literatura ou fonte DR i.d. em outras bases de dados CC descrição da função biológica FU, FT informação sobre a seqüência pela posição de base ou faixa de posições source organismo fonte misc_signal tipo de função ou sinal mRNA mRNA CDS, região codificadora da proteína intron, posição de intron mutation, alterações na seqüência por mutação SQ contagem de A, C, G, T e outros símbolos gaattcgata aatctctggt ttattgtgca gtttatggtt ccaaaatcgc cttttgctgt 60 atatactcac agcataactg tatatacacc cagggggcgg aatgaaagcg ttaacggcca 120 . . // símbolo para indicar final de seqüência Formato EMBL 7 – FASTA – Três partes: a) linha de comentário identificada por “ > “ seguida por nome e origem da seqüência. b) seqüência em padrão de símbolos de uma letra. Um símbolo “ * “ indicando o final da seqüência (opcional). Nº Geninfo, dado pelo NCBI Indica o banco de dados que forneceu a sequência (SWISS-PROT) Identificador do banco de dados (SWISS-PROT) Nome da proteína GCG (Genetics Computer Group) Linhas de informação são finalizadas com “..”, marcando o final da informação e inicio da seqüência. Não há símbolo para indicar o fim da seqüência. BASE COUNT 215 A 224 C 263 G 250 T ORIGIN Filename, Length af sequence, Date, Checksum value, .. 1 GAATTCGATA AATCTCTGGT TTATTGTGCA GTTTATGGTT CCAAAATCGC 51 CTTTTGCTGT ATATACTCAC AGCATAACTG TATATACACC CAGGGGGCGG Formato GCG 8 Conversão de Formatos – READSEQ:http://www.ebi.ac.uk/cgi-bin/readseq.cgi – SEQIO: http://bioweb.pasteur.fr/docs/seqio/seqio.html Mais alguns Bancos de Dados SwissProt: proteínas (www.expasy.ch/cgi-bin/sprot-search-de) PIR: proteínas (www.nbrf.georgetown.edu/pirwww/) TIGR: genoma (www.tigr.org) Ferramentas para Assembly 9 Sequenciamento AGGCAGATGATCAGTA GTAGTGGCGTATCAGTA GTACAGATGATCAGTA AGGCAGATGATCAGTAGTGGCGTATCAGTACAGATGATCAGTA • Métodos de sequenciamento geram leituras de cerca de 800 bp.• Genomas ou moléculas de DNA maiores precisam ser fragmentada (biblioteca de clones) • Fragmentos são aleatoriamente sequenciados por “shotgun” (“tiro no escuro”). • Montagem dos fragmentos - geração dos contigs. • Vários contigs irão compor uma seqüência consenso. Sequenciador Megabase (cromatograma) G é verde C é preto A é azul T é vermelho Phred/Phrap/Consed • Usado no Projeto do Genoma Humano • Desenvolvidos por pesquisadores sob a liderança de Phil Green - Universidade de Washington (1998). 10 Phred/Phrap/Consed Phred/Phrap/Consed é um pacote distribuído para: 1. ler os traços de um cromatograma; 2. avaliar a qualidade de cada base individualmente; 3. identificar e “mascarar” seqüências de repetições (‘repeats”) e vetores; 4. Montagem da seqüência; 5. Visualização e edição das montagens. Phred/Phrap/Consed Sequenciador Biblioteca de clones PHRED: verifica a qualidade do sequenciamento de cada base em várias seqüências PHRAP: faz a montagem dos fragmentos (gera o contig) CONSED: visualização e edição das montagens Phred/Phrap/Consed Obtenção dos programas: www.phrap.prog • Phred e Phrap são enviados por email. • Consed: • É baixado da web, depois de receber uma senha de acesso. Para isso deve enviar o acordo de licença e receberá depois as instruções de como obter o Consed. • Com o acesso liberado, obter o executável na página http://bozeman.genome.washington.edu/consed/consed.html 11 Instalação • Use arquivo INSTALL para as instalações. • Arquivo de parâmetro Phred - set enviroment para phredpar.dat • Criar diretórios necessários. • Descompactar / make Descompactando arquivos tar -zxvf phred-dist-acd.tar.Z (descompactando phred) make tar -zxvf distrib.tar.Z (descompactando phrap) make tar -zxvf consed_linux.tar.Z (descompactando consed) Criando Diretórios mkdir /result/chromat_dir mkdir /result/phd_dir mkdir /result/edit_dir mkdir /usr/local/genome mkdir /usr/local/genome/bin mkdir /usr/local/genome/lib Link para Perl ln -s /usr/bin/perl /usr/local/bin cd /usr/local/bin ls -l total 0 lrwxrwxrwx 1 root root 13 Feb 2 17:30 perl -> /usr/bin/perl Copiando arquivos para diretorio genome cp /data/bioinf/phrap/cluster /usr/local/genome/bin cp /data/bioinf/phrap/cross_match /usr/local/genome/bin cp /data/bioinf/phrap/loco /usr/local/genome/bin cp /data/bioinf/phrap/phrap /usr/local/genome/bin cp /data/bioinf/phrap/phrapview /usr/local/genome/bin cp /data/bioinf/phrap/swat /usr/local/genome/bin cp /data/bioinf/phred/phred /usr/local/genome/bin cp /data/bioinf/phred/phredpar.dat /usr/local/genome/bin make – mktrace e phd2fasta cd /data/bioinf/consed/misc/mktrace make cp /data/bioinf/consed/misc/mktrace/mktrace /usr/local/genome/bin cd /data/bioinf/consed/misc/phd2fasta make cp /data/bioinf/consed/misc/phd2fasta/phd2fasta /usr/local/genome/bin 12 Arquivos gerados no diretorio Consed cd /data/bioinf/consed/scripts/ ls ace2Fasta.perl determineReadTypes.perl removeReads ace2Oligos.perl fasta2Phd.perl revertToUneditedRead addReads2Consed.perl lib2Phd.perl tagRepeats.perl catPhdFiles.perl phd2Ace.perl transferConsensusTags.perl countEditedBases.perl phredPhrap chmod a+x /data/bioinf/consed/scripts/* cp /data/bioinf/consed/scripts/* /usr/local/genome/bin Criando diretorio mkdir /usr/local/genome/lib/screenLibs cp /data/bioinf/phrap/vector.seq /usr/local/genome/lib/screenLibs Criando arquivo vazio touch /usr/local/genome/lib/screenLibs/repeats.fasta Copiando arquivos cp /data/bioinf/phred/phredpar.dat /usr/local/genome/bin cp /data/bioinf/consed/consed_linux /usr/local/genome/bin Colocando o caminho no profile (ou no bashrc) cd /etc vi profile (Editando profile) PATH=$PATH:/usr/local/genome/bin export PHRED_PARAMETER_FILE=/usr/local/genome/bin/phredpar.dat
Compartilhar