Baixe o app para aproveitar ainda mais
Prévia do material em texto
Amos Bairoch* e Rolf Apweiler1 © 2000 Oxford University Press Nucleic Acids Research, 2000, vol. 28, nº 1 RESUMO O banco de dados de sequências de proteínas SWISS-PROT consiste em entradas de sequências. As entradas de sequência são compostas por diferentes tipos de linha, cada uma com seu próprio formato. Para fins de padronização, o formato do SWISS-PROT (consulte http://www.expasy.ch/ txt/userman.txt ) segue o mais próximo possível o do EMBL Nucleotide Sequence Database. Um exemplo de entrada SWISS-PROT é mostrado em http://www.expasy.ch/cgi-bin/niceprot. pl?P29965 A base de dados SWISS-PROT distingue-se de outras bases de dados de sequências de proteínas por três critérios distintos: (i) anotações, (ii) redundância mínima e (iii) integração com outras bases de dados. Acreditamos que o recurso sistemático tanto a publicações que não as que relatam os dados principais quanto aos pareceristas do assunto representa uma característica única e benéfica da SWISS-PROT. No SWISS- PROT, a anotação é encontrada principalmente nas linhas de comentários (CC), na tabela de características (FT) e nas linhas de palavras-chave (KW). A maioria dos comentários são classificados por 'tópicos'; essa abordagem permite a fácil recuperação de categorias específicas de dados do banco de dados. Human Proteomics Initiative (HPI), um grande projeto para anotar todas as sequências humanas conhecidas de acordo com os padrões de qualidade da SWISS-PROT. SWISS-PROT está disponível em: http:// www.expasy.ch/sprot/ e http://www.ebi.ac.uk/swissprot/ Cambridge CB10 1SD, Reino Unido INTRODUÇÃO SWISS-PROT (1) é um banco de dados de sequências de proteínas anotadas, que foi criado no Departamento de Bioquímica Médica da Universidade de Genebra e tem sido um esforço colaborativo do Departamento e do Laboratório Europeu de Biologia Molecular (EMBL), desde 1987. SWISS -PROT é agora uma parceria igualitária entre o EMBL e o Instituto Suíço de Bioinformática (SIB). As atividades do EMBL são realizadas por seu Hinxton Outstation, o Instituto Europeu de Bioinformática (EBI) (2). No SWISS-PROT podem ser distinguidas duas classes de dados: os dados principais e a anotação. Para cada entrada de sequência, os dados principais consistem nos dados de sequência; as informações de citação (referências bibliográficas) e os dados taxonômicos (descrição da fonte biológica da proteína), enquanto a anotação consiste na descrição dos seguintes itens: • Função(ões) da proteína • Modificação(ões) pós- traducional(is) . Por exemplo, carboidratos, fosforilação, acetilação, âncora GPI, etc. • Domínios e sítios. Por exemplo, regiões de ligação de cálcio, locais de ligação de ATP, dedos de zinco, homeoboxes, domínios SH2 e SH3, etc. • Estrutura secundária. Por exemplo alfa hélice, folha beta, etc. • Estrutura quaternária. Por exemplo, homodímero, heterotrímero, etc. • Semelhanças com outras proteínas • Doença(s) associada(s) a deficiência(ões) na proteína • Conflitos de sequência, variantes, etc. Instituto Suíço de Bioinformática, Centro Médico Universitário, 1 rue Michel Servet, 1211 Genebra 4, Suíça e 1O EMBL Outstation, Instituto Europeu de Bioinformática, Wellcome Trust Genome Campus, Hinxton, Tentamos incluir o máximo possível de informações de anotação no SWISS-PROT. Para obter essas informações utilizamos, além das publicações que relatam novos dados de sequência, artigos de revisão para atualizar periodicamente as anotações de famílias ou grupos de proteínas. Também fazemos uso de especialistas externos que foram recrutados para nos enviar seus comentários e atualizações sobre grupos específicos de proteínas (ver http://www.expasy.ch/cgi-bin/experts). 45–48 SWISS-PROT é um banco de dados de sequências de proteínas com curadoria que se esforça para fornecer um alto nível de anotação (como a descrição da função de uma proteína, sua estrutura de domínios, modificações pós-traducionais, variantes, etc.), um nível mínimo de redundância e alto nível de integração com outros bancos de dados. Desenvolvimentos recentes do banco de dados incluem aprimoramentos de formato e conteúdo, referências cruzadas a bancos de dados adicionais, novos arquivos de documentação e melhorias no TrEMBL, um suplemento anotado por computador ao SWISS-PROT. O TrEMBL consiste em entradas no formato SWISS-PROT-like derivadas da tradução de todas as sequências de codificação (CDSs) no EMBL Nucleotide Sequence Database, exceto os CDSs já incluídos no SWISS- PROT. Também descrevemos o Redundância mínima Muitos bancos de dados de sequências contêm, para uma determinada sequência de proteína, entradas separadas que correspondem a diferentes relatos da literatura. Na SWISS-PROT tentamos ao máximo juntar todos estes dados de forma a minimizar a redundância da base de dados. Anotação Se existirem conflitos entre vários relatórios de sequenciamento, eles serão O banco de dados de sequências de proteínas SWISS-PROT e seu suplemento TrEMBL em 2000 Recebido em 12 de outubro de 1999; Aceito em 13 de outubro de 1999 *Para quem a correspondência deve ser endereçada. Tel: +41 22 702 5477; Fax: +41 22 702 5502; E-mail: amos.bairoch@medecine.unige.ch Machine Translated by Google 46 Nucleic Acids Research, 2000, Vol. 28, nº 1 indicado na tabela de características da entrada SWISS PROT correspondente. Integração com outros bancos de dados É importante fornecer aos usuários de bancos de dados biomoleculares um grau de integração entre os três tipos de bancos de dados relacionados a sequências (sequências de ácidos nucleicos, sequências de proteínas e estruturas terciárias de proteínas), bem como coletas de dados especializadas. As referências cruzadas são fornecidas na forma de ponteiros para informações relacionadas às entradas SWISS- PROT e encontradas em coletas de dados diferentes da SWISS-PROT. Mesmo quando todas as regiões codificantes potenciais foram previstas, Por exemplo, a sequência de amostra mencionada acima contém, entre outras, linhas DR (Databank Reference) que apontam para EMBL, PDB, OMIM, Pfam e PROSITE. Neste exemplo em particular é, portanto, possível recuperar a(s) sequência(s) de ácido nucleico que codifica(m) para essa proteína (EMBL), a descrição da(s) doença(ões) genética(s) associada(s) a essa proteína (OMIM), a estrutura 3D (PDB) ou informação específico para a família de proteínas a que pertence (PROSITE e Pfam). Coletivamente, esses organismos representam ~40% do número total de entradas de sequência no SWISS-PROT. Estamos atualmente tentando concluir a integração no SWISS-PROT de todas as proteínas previstas de E.coli, B.subtilis, M.jannaschii e levedura. O projeto HPI contém vários subcomponentes, que são descritos brevemente a seguir: • Anotação de todas as proteínas humanas conhecidas. No decorrer dos próximos 9 meses (até abril de 2000) as seqüências de proteínas humanas que ainda não estão em SWISS- PROT serão totalmente anotadas. Também revisaremose completaremos a anotação das sequências humanas atualmente no SWISS-PROT. Ao final deste período de 9 meses, esperamos estar completos e atualizados e, a partir de agora, acompanhar o surgimento de novos dados relevantes para proteínas humanas. • Anotação de ortólogos de mamíferos de proteínas humanas. Garantiremos que para qualquer proteína humana, os ortólogos existentes em outras espécies de mamíferos também serão anotados em um nível equivalente ao das sequências humanas cognatas. • Anotação de todos os polimorfismos humanos conhecidos ao nível da sequência de proteínas. Como mencionado acima, SWISS-PROT já detém informações sobre uma quantidade considerável de tais polimorfismos e expandirá significativamente seus esforços para armazenar e anotar todas as 'pequenas' variações no nível da proteína. • Anotação de todas as modificações pós-traducionais conhecidas em proteínas humanas. Durante os próximos 9 meses, um grande esforço será feito para complementar a descrição já bastante abrangente de modificações pós- traducionais conhecidas em proteínas humanas atualmente fornecidas no SWISS-PROT. • Links estreitos para informações estruturais. O SWISS-PROT está intimamente ligado ao banco de dados de estrutura 3D PDB/RCSB e já inclui muitos recursos úteis para biólogos estruturais. A Iniciativa de Proteômica Humana (HPI) Em poucos meses, os esforços combinados de vários centros de sequenciamento e empresas produzirão um primeiro rascunho da sequência do genoma humano. Tal esforço é apenas um passo muito preliminar na compreensão dos processos biológicos humanos. A primeira armadilha a ser superada é a detecção de todas as regiões de codificação na sequência genômica. Os algoritmos atuais, embora muito poderosos, não são capazes de detectar com certeza todos os éxons, não estão bem equipados para distinguir diferentes variantes de splice e são incapazes de detectar pequenas proteínas (que são numerosas e cruciais para muitos processos biológicos). Esses vínculos estreitos serão expandidos ainda mais, fornecendo modelos derivados de homologia para todas as proteínas humanas para as quais essa abordagem é cientificamente relevante. Assim, o número de diferentes moléculas de proteínas expressas pelo genoma humano está provavelmente mais próximo de um milhão do que das cem mil geralmente consideradas pelos cientistas do genoma. Selecionamos uma série de organismos que são alvo de projetos de sequenciamento e/ou mapeamento de genomas e para os quais pretendemos: (i) ser o mais completo possível; (ii) fornecer um nível mais alto de anotação; (iii) fornecer referências cruzadas a banco(s) de dados especializado(s) que contenham, entre outros dados, alguma informação genética sobre os genes que codificam essas proteínas; e (iv) fornecer índices ou documentos específicos. Outro fator de complexidade a ser levado em consideração é a quantidade de polimorfismo no nível da sequência da proteína. Embora alguns desses polimorfismos estejam ligados a estados de doença, a maioria não está, mas em muitos casos tem um efeito direto ou indireto nas atividades das proteínas. Estamos, portanto, iniciando um grande projeto para anotar todas as sequências humanas conhecidas de acordo com os padrões de qualidade da SWISS-PROT. Isso significa fornecer, para cada proteína conhecida, uma riqueza de informações que inclui a descrição de sua função, sua estrutura de domínio, localização subcelular, modificações pós-traducionais, variantes, semelhanças com outras proteínas, etc. sequências humanas em SWISS-PROT. Essas entradas estão associadas a cerca de 14.500 referências da literatura, 16.000 PTMs experimentais ou previstos, 800 variantes de emenda e 8.000 polimorfismos (a maioria dos quais está ligada a estados de doença). Usaremos as informações atuais como base para o que chamamos de 'Iniciativa de Proteômica Humana' (HPI). Os organismos atualmente selecionados são: Arabidopsis thaliana (agrião), Bacillus subtilis, Caenorhabditis elegans (verme), Candida albicans, Dictyostelium discoideum (mofo), Drosophila melanogaster (mosca da fruta), Escherichia coli, Haemophilus influenzae, Helicobacter pylori, Homo sapiens (humano), Methanococcus jannaschii, Mus musculus (camundongo), Mycobacterium tuberculosis, Mycoplasma genitalium, Saccharomyces cerevisiae (fermento em brotamento), Salmonella typhimurium, Schizosaccharomyces pombe (levedura de fissão), Sulfolobus solfataricus e Synechocystis sp. PCC 6803. a comunidade de usuários terá à sua disposição as sequências de entre 80.000 e 100.000 proteínas 'nuas'. Chamamos essas proteínas de 'nuas' porque a informação genômica não permite a previsão eficiente de todas as modificações pós-traducionais (PTM) das quais a maioria das proteínas é alvo. DESENVOLVIMENTOS RECENTES Organismos modelo As proteínas, uma vez sintetizadas nos ribossomos, estão sujeitas a uma infinidade de etapas de modificação. A complexidade devido a todas essas modificações é agravada pelo alto nível de diversidade que o splicing alternativo pode produzir em nível de sequência. Machine Translated by Google Nucleic Acids Research, 2000, vol. 28, nº 1 47 Dividimos o TrEMBL em duas seções principais; SP-TrEMBL e REM- TrEMBL: SP-TrEMBL (SWISS-PROT TrEMBL) contém as entradas (199 794 na versão 11) que devem ser incorporadas ao SWISS-PROT. Os números de acesso SWISS-PROT foram atribuídos a essas entradas. SP-TrEMBL é parcialmente redundante contra SWISS-PROT, uma vez que ~60.000 dessas entradas são apenas relatórios de sequências adicionais de proteínas já em SWISS-PROT. Para que o TrEMBL atue como um suplemento anotado por computador ao SWISS-PROT, novos procedimentos foram introduzidos para remover a redundância (4) e adicionar automaticamente uma anotação altamente confiável (5). INFORMAÇÃO PRÁTICA Para todos os aspectos dos projetos HPI, agradecemos a ajuda e colaboração da comunidade científica. Informações sobre o proteoma humano são altamente críticas para uma grande parte da comunidade de ciências da vida. Apelamos, por isso, à comunidade de utilizadores para que participe plenamente nesta iniciativa disponibilizando toda a informação necessária para ajudar e agilizar a anotação integral do proteoma humano. Um sistema baseado em regras que utiliza a anotação SWISS PROT existente como padrão-ouro é aplicado para melhorar a anotação TrEMBL. No momento, esse processo afeta apenas 15% de todas as entradas do TrEMBL. A criação de regras adicionais será uma das prioridades do TrEMBL no próximo ano. Isso deve levar a um aumento drástico na cobertura por anotação automática. TrEMBL: UM SUPLEMENTO ANOTADO POR COMPUTADOR Recentemente, adicionamos referências cruzadas que vinculam o SWISS- PROT ao banco de dados Zebrafish Information Network (ZFIN) (3) (consulte http://zfish.uoregon.edu/ZFIN/ ). Também começamos a adicionar referências cruzadas do SWISS-PROT ao CarbBank Complex Carbohydrate StructureDatabase (CCSD) (consulte http://128.192.9.29/carbbank/ ). Atualmente (outubro de 1999), SWISS-PROT contém ~81.000 entradas de sequência, compreendendo 30 milhões de aminoácidos Os dados armazenados no SWISS-PROT costumavam ser representados exclusivamente em letras maiúsculas. Iniciamos um processo para converter os dados em maiúsculas e minúsculas. Este processo já está em andamento e será concluído durante o ano 2000. Nos últimos 12 meses, adicionamos novos tópicos de comentários ('Diversos' e 'Farmacêuticos'), bem como uma nova chave de recurso ('Se_Cys'). As principais mudanças para padronizar o uso e o conteúdo dos tópicos de comentários 'Similaridade' e 'Produto alternativo' estão em fase de conclusão. Os formatos usados para armazenar as referências de livros e patentes foram modificados para tornar essas informações analisáveis por computador. Atualmente, o SWISS-PROT está vinculado a 31 bases de dados diferentes e consolidou seu papel como o principal foco de interconectividade de bases de dados biomoleculares. Na versão 38, há uma média de 4,5 referências cruzadas para cada entrada de sequência. Para contribuir com a padronização das taxonomias usadas em bancos de dados de sequências moleculares, mudamos para a taxonomia NCBI, que é usada pelos bancos de dados de sequências de nucleotídeos DDBJ/EMBL/ GenBank. A classificação taxonômica mantida no NCBI está disponível em: http://www.ncbi.nlm. nih.gov/Taxonomy/ O uso do SWISS-PROT é gratuito para usuários acadêmicos. No entanto, em setembro de 1998, implementamos um sistema de taxa de assinatura anual para usuários comerciais do banco de dados. O SIB e o EMBL/EBI incumbiram uma nova empresa, Geneva Bio informatics (GeneBio) (http:// www.genebio.com ) para atuar como seu representante com a finalidade de concluir os acordos de licença necessários e cobrar as taxas. Os recursos arrecadados serão utilizados no SIB e no EBI para atualizar o SWISS-PROT, mantê-lo atualizado e melhorar ainda mais sua qualidade. Mais informações sobre este novo sistema estão disponíveis em http://www.expasy.ch/announce/ Status atual SWISS-PROT é distribuído com um grande número de arquivos de documentação. Alguns desses arquivos estão disponíveis há muito tempo (o manual do usuário, notas de lançamento, os vários índices de autores, citações, palavras-chave, etc.), mas muitos foram criados recentemente e estamos continuamente adicionando novos arquivos. Consulte http:// www.expasy/sprot/sp_docu.html para obter uma lista de todos os documentos atualmente disponíveis. Conteúdo da versão atual do SWISS-PROT Melhorias de formato e conteúdo Novas referências cruzadas Devido ao aumento do fluxo de dados de projetos de genoma para os bancos de dados de sequências, enfrentamos vários desafios em nossa forma de anotação de banco de dados. Mantendo a alta qualidade de Em julho de 1999, a versão 11 do TrEMBL foi produzida. A versão 11 foi baseada na tradução de todos os 379.000 CDSs no EMBL Nucleotide Sequence Database versão 58. Cerca de 119.000 desses CDSs já estavam como relatórios de sequência no SWISS-PROT e, portanto, excluídos do TrEMBL. As 260.000 entradas de sequência restantes foram mescladas automaticamente sempre que possível para reduzir a redundância no TrEMBL. Esta etapa levou a 245.761 entradas no TreMBL. REM-TrEMBL (REMaining TrEMBL) contém as entradas (~46.000 na versão 11) que não queremos incluir no SWISS-PROT. O projeto HPI tem dois aspectos diferentes relacionados ao tempo: um deles é uma 'maratona' de 9 meses para acompanhar o estado atual da pesquisa, o outro é um compromisso de longo prazo para manter esse projeto vivo enquanto é necessário. Para uma descrição detalhada do projeto HPI e seu status atual, consulte http://www.expasy.ch/sprot/hpi/ PARA SUÍÇO-PROT sequência e anotação no SWISS-PROT requer uma análise cuidadosa da sequência e anotação detalhada de cada entrada. Este é o passo limitante na produção de SWISS-PROT. Por um lado, não queremos relaxar os altos padrões editoriais da SWISS-PROT e é claro que há um limite para o quanto podemos acelerar os procedimentos de anotação. Por outro lado, também é vital que disponibilizemos novas sequências o mais rápido possível. Para resolver essa preocupação, introduzimos em 1996 o TrEMBL (Tradução do banco de dados de sequência de nucleotídeos EMBL). O TrEMBL consiste em entradas anotadas por computador derivadas da tradução de todas as sequências de codificação (CDSs) no banco de dados EMBL, exceto CDSs já incluídos no SWISS-PROT. Arquivos de documentação Introdução Machine Translated by Google 3. Westerfield, M., Doerry, E., Kirkpatrick, AE e Douglas, SA (1999) 5. Appel, RD, Bairoch, A. e Hochstrasser, DF (1994) Trends Biochem. Bioinformática, 15, 228-233. 4. Fleischmann, W., Moeller, S., Gateau, A. e Aweiler, R. (1999) 2. Stoesser, G., Tuli, MA, Lopez, R. e Sterk, P. (1999) Nucleic Acids Res., 27, 18-24. Artigo atualizado nesta edição: Nucleic Acids Res. (2000), 28, 19-23. 1. Bairoch, A. e Apweiler, R. (1999) Nucleic Acids Res., 27, 49-54. 6. Etzold, T. e Argos, P. (1993) Comput. Aplic. Biosci., 9, 49-57. Methods Cell Biol., 60, 339-355. Sci., 19, 258-260. 48 Nucleic Acids Research, 2000, Vol. 28, nº 1 Sites espelho completos e atualizados do ExPASy estão disponíveis na Austrália, Canadá e Taiwan: http://expasy.proteome.org.au/ (em Australian Proteome Swiss-Shop Swiss-Shop é um sistema automatizado de alerta de sequência que permite aos usuários obter, por e-mail, novas entradas de sequência relevantes para seu(s) campo(s) de interesse. Solicitações baseadas em palavras-chave e em sequência/padrão são possíveis. Toda vez que uma versão semanal do SWISS-PROT é realizada, todas as novas entradas do banco de dados que correspondem às palavras-chave ou padrões de pesquisa especificados pelo usuário e as entradas que mostram semelhanças de sequência com a sequência especificada pelo usuário serão enviadas automaticamente ao usuário por e-mail. abstraído de ~65.000 referências. O arquivo de dados (sequências e anotações) requer 185 Mb de espaço de armazenamento em disco. A documentação e os arquivos de índice requerem ~65 Mb de espaço em disco. • upd_seq.dat Contém as entradas para as quais os dados de sequência foram atualizados desde a última versão. • upd_ann.dat Contém as entradas para as quais um ou mais campos de anotação foram atualizados desde a última versão. As solicitações da Swiss-Shop podem ser enviadas em http://www.expasy. ch/suíça/ última versão completa (trembl_new.dat) é atualizada toda semana. REFERÊNCIAS Como enviar dados ou atualizações/correções à SWISS-PROT Para enviar novos dados de sequência à SWISS-PROT e para todas as perguntas sobre o processo de envio, entre em contato com: SWISS PROT, The EMBL Outstation—The European Bioinformatics Institute, Wellcome Trust Genome Campus, Hinxton, Cambridge CB10 1SD, Reino Unido. Tel: +44 1223 494457; Fax: +44 1223 494 468; E-mail: datasubs@ebi.ac.uk (para submissão), ou datalib@ebi. ac.uk (para consultas). Atualizações semanais também estão disponíveis; essas atualizações estão disponíveis por FTP anônimo. Para SWISS-PROT, três arquivos são atualizados toda semana: • new_seq.dat Contém todas as novas entradas desde a última Esses arquivos estão disponíveis nos servidores EBI e ExPASy, cujos endereços de Internet estão listados acima. liberar. Toda semana também produzimos uma coleção completa de sequências de proteínas não redundantes, fornecendo três arquivos compactados (no diretório /databases/sp_tr_nrdb no servidor FTP ExPASy e em /pub/databases/ sp_tr_nrdb no servidor EBI): sprot.dat.Z , trembl.dat.Z e trembl_new.dat.Z. Frequência de lançamento, atualizações semanais e conjuntos de dados não redundantes http://expasy.cbr.nrc.ca/ (no Canadian Bioinformatics Resource, Halifax) http://expasy.nhri.org.tw/ (no National Health Research Institutes, Taipei) Para todas as consultas, entre em contato com: The EMBL Outstation—The European Bioinformatics Institute, Wellcome Trust Genome Campus, Hinxton, Cambridge CB10 1SD, Reino Unido. Tel: +44 1223 494 444; Fax: +44 1223 494 468; E-mail: datalib@ebi.ac.uk A maneira mais eficiente e amigável de navegar interativamente no SWISS- PROT ou TrEMBL é usar o servidor de biologia molecular ExPASy (6) da WWW, bem como o desenvolvido pela EBI. O servidor Web ExPASy foi disponibilizado ao público em setembro de 1993. Em outubro de 1999, um total acumulado de 60 milhões de conexões foi alcançado. Seu endereço é: http://www.expasy.ch/ O servidor EBI está acessível em: http://www.ebi.ac.uk/ Nos servidores ExPASy e EBI Web, você pode usar o pacote de software Sequence Retrieval System (SRS) (6) para consultar e recuperar entradas de sequência . O EBI e o SIB também oferecem uma gama de serviços de busca (ver http:// www2.ebi.ac.uk/ ou http://www.expasy.ch/tools/ ) para executar a similaridade de sequência Smith–Waterman, FASTA e BLAST pesquisas contra SWISS- PROT + TrEMBL. A partir de um computador conectado à Internet, você pode obter SWISS- PROT e TrEMBL usando FTP anônimo (File Transfer Protocol) dos seguintes servidores: ftp.expasy.ch e ftp.ebi.ac.uk A frequência de distribuição atual é de quatro lançamentos por ano. Para enviar atualizações e/ou correções para SWISS-PROT, você pode usar o endereço de e-mail: swiss-prot@expasy.ch ou o endereço WWW http:// www.expasy.ch/sprot/sp_update_form.html Para TrEMBL, um arquivo contendo todas as novas entradas desde a Como obter as versões completas do SWISS-PROT e/ou TrEMBL Acesso interativo ao SWISS-PROT e ao TrEMBL Instalação de Análise, Sydney) SWISS-PROT + TrEMBL é distribuído em CD-ROM pela EBI (2). Os CD- ROMs também contêm alguns softwares de consulta e recuperação de banco de dados para computadores MS-DOS e Apple Macintosh. Machine Translated by Google
Compartilhar