Buscar

Inferência de Estrutura e Função, Tipos, Bases de Dados Biológicos

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 14 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 14 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 14 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Inferência de Estrutura e Função 
Domínios 
- Blocos quase autónomos dentro de proteína. 
- Evoluíram de forma autónoma e adquiriram conformação particular, associado à função da proteína. 
- Caraterizam a estrutura terciária – A conformação é primordial, ou seja, a estrutura é muito conservada 
- Atualmente tentam caraterizar domínios pelas suas sequências. 
Arquitetura de Domínios 
- Forma como os domínios se organizam na cadeia de aminoácidos. 
- A Arquitetura determina a estrutura da proteína no seu conjunto. 
- Importante: Ordem que se sucedem os domínios e o seu número. 
Famílias 
- Engloba conjunto de proteínas que partilham um ancestral comum – Relação de Parentesco 
- Apresentam conservação na estrutura e sequência (~30-35%). 
- Determinação fluida e dependente do contexto (equívoca) – por não haver conhecimento das proteínas ancestrais 
 – Diferentes fontes, diferentes critérios 
 – Expediência 
Super-Famílias 
- Grupo mais abrangente de proteínas que partilham um ancestral comum 
- Conservação apenas da estrutura 
- Genes homólogos 
 Ortólogos – genes separados pela especiação, mas mantendo uma função semelhante 
 Parálogos – duplicação num mesmo genoma com funções diferentes 
- O grau mínimo de conservação ao nível da sequência para manter a conservação de função é ~25-40%. Assim, não 
é possível codificar adequadamente estes domínios através de uma única sequência (sequência consenso). 
Motivos 
- Sequências consenso pouco abrangentes, curtas (10-20 a.a.) 
- Porção mais conservada da sequência do domínio ➔ Um domínio pode ter vários motivos (motivos múltiplos) 
- Provavelmente associados ao núcleo conservado, tanto na estrutura como na função 
Métodos 
de Deteção 
Motivos singelos – Patterns (Prosite) 
- Opta-se pelo motivo mais caraterístico dentro do domínio conservado pela família 
- Sequência consenso ambígua 
Expressões Regulares – Prosite 
- Codificar manualmente os motivos através das caraterísticas de cada uma das suas posições. 
- Recorrem a um conjunto de instruções derivado das expressões regulares tradicionais - padrões (patterns). 
- Grande flexibilidade e espeficidade 
- Deteção: 
• Algoritmo automático com conjunto de estados finito. 
• Há pontuação quando as correspondências são perfeitas 
• Incluir novos elementos obriga a redesenhar o padrão 
• Ausência de critérios para estimar a relevância estatística 
 
Expressões Regulares Difusas – eMOTIF 
Código 
- 
<A-Z> 
x 
[...] 
[...]* 
{...} 
(n) 
 
Significado 
Separador de posições 
Resíduo obrigatório 
Qualquer resíduo 
Ambiguidade 
Repetição arbitrária da cadeia de 
resíduos 
Resíduos incompatíveis 
Repetição limitada (n vezes) 
Superfamília Família
Arquitetura 
de Domínios
Domínio Motivos
- Codificam os motivos de forma difusa pois não incluem os resíduos encontrados, mas antes grupos homogéneos 
deles 
- Possuem ambiguidades extremas visto que os aminoácidos precisos desaparecem e são substituídos pelo grupo 
de prioridade 
- Capacidade acrescida para detetar novos elementos de uma família o que resulta num aumento de falsos 
positivos 
Motivos Múltiplos 
- Abordagem mais poderosa 
- Aproximam-se da deteção do domínio completo 
Impressões Digitais (PRINTS) 
Alinhamento múltiplo para não perder informação 
 - Não sujeito a ponderação ou introdução de lacunas 
 - Processo de construção manual 
Informação secundária para servir de base a curtos esforços de codificação 
Blocos (BLOCKS) 
Derivam de uma análise automatizada dos conteúdos das bases de dados PROSITE e PRINTS 
Transformadas em matrizes de pontuação (PSSM) 
Domínios Completos 
Perfis de Gribskov aka PSSM 
Matriz de pontuação por resíduo e posição → as linhas ou colunas representam as posições já conhecidas do 
domínio 
- O cruzamento linhas e colunas representa a probabilidade de encontrar a.a. em cada posição 
- Requer conjunto de exemplos do domínio para construção 
- Matriz é recalculada ao adicionar novos representantes 
- Pode ser “alinhado” com sequência para deteção 
Sensível e rápido 
- Possibilidade de começar com um conjunto reduzido de casas 
- Aritmética de inteiros intensiva 
- Memória volátil pouco relevante 
Faculdade de recrutar novos elementos 
- Estimativa de nível de significado estatística 
Modelos Ocultos de Markov aka PSSM 
Modelo probabilístico da sequência do domínio 
- Estados ocultos para a correspondência, a nova posição e a anulação da posição 
- Linhas: Probabilidade de transição 
• Conjunto de treino maior 
• Treino por algoritmo forward-backward 
- Deteção por nível de probabilidade de correspondência 
• Algoritmo forward 
• Resultados com nível de probabilidade superior ao E-value 
- Mais sensível que os perfis de Gribskov 
 
Multitude de Base de Dados 
Possibilidade de comparar uma sequência nova contra um conjunto consolidado de diferentes modelos de 
domínios, através da consulta de diferentes bases de dados (numa única operação) ➔ Base de Dados 
InterPro 
- Chaves primárias: 
 
 
 
 
PS PROSITE (padrões, perfis) 
PR PRINTS (impressões digitais) 
PF Pfam (HMMs) 
SM SMART (HMMs) 
PD PRODOM (sequências consenso) 
Análises de Sequências e Evolução 
 
 
 
 
 
 
 
Critérios para Avaliação 
Similitude / Identidade = grau de semelhança entre sequências 
- Difícil de estabelecer o termo de comparação 
• Necessita de alinhamento prévio 
• Não são analisadas a morfologia 
• Anatomia comparada 
- Compara-se sequências (percentagem de porção comparável) 
Conjunção 
- Não podem ocorrer no mesmo genoma/organismo 
- Separa Paralogia de Ortologia 
Congruência 
- Divergência observada respeita filogenia para grupos taxonómicos monofiléticos 
• Maior divergência, mais afastado filogeneticamente 
- Separa a Xenologia das restantes formas de homologia 
 
 
Antepassado Comum partilhado; 
Evolução; 
Classes de Homologia 
• Ortologia 
– Divergência acompanha especiação 
– Descendência em genomas distintos 
• Paralogia 
– Duplicação Intragenómica 
– Contextos (Funções) diferentes 
• Xenologia 
– Transferência horizontal 
– Evolução (quase) ausente 
 
 
 
 
 
 
 
 
Homologia 
Evolução convergente; 
Ausência de um antepassado comum; 
Contaminação em análise filogenética 
Homoplasia 
Xenologia 
Paralogia 
Ortologia 
Tempo 
Tipos de Grupos Taxonómicos 
Monofilético – Todos os membros partilham o mesmo ancestral comum mais próximo 
Parafilético – Não inclui toda a descendência do antepassado comum mais próximo 
Polifilético – Inclui várias linhagens com diferentes candidatos a antepassados comum mais próximo; 
Inclusão de homoplasia 
➔ Porque é necessária análise filogenética? 
A similitude pode não ser informativa. Se o fosse não haver 
similitude significaria não haver homologia. 
➔ Em presença de sequências 
O nível de homologia não é diretamente mesurável. 
 
Maior taxa de evolução do que é expetável sugere que há pressão seletiva naquela zona da sequência. 
Ao usar a similitude para calcular a distância evolutiva encontramos um problema. Se as sequências 
forem muito semelhares a relação prossegue de forma linear. Se forem muito diferentes, deixa de seguir 
da mesma forma e não são conclusivas sobre a distância entre elas. 
A cada refinamento destes modelos, corresponde mais fidelidade na medição da distância entre 
sequências evolutivas. Cada refinamento destes modelos obriga à estimativa de um maior número de 
parâmetros e mais a incerteza introduzida na estimativa. 
Particularidades das sequências 
DNA 
Substituições sobrepostas 
Transversão vs. Transição (Pirimidinas (CT) → Purinas (AG)) menos provável. Quanto mais raro, menor 
é a taxa de evolução expetável 
Substituições recorrentes/sobrepostas – Utilizam-se modelos de evolução com complexidade por 
medida que permitem a caraterização de estados intermédios 
Taxas de Evolução – Pressões seletivas diferentes. As sequências génicas sofrem uma maior pressão 
seletiva para se conservarem doque as sequências não génicas. Nas sequências codificantes a 2ª base 
do codão é a mais condicionante para a identificação com o respetivo a.a. 
Proteína 
Equivalência de propriedades em a.a. – 20 aminoácidos, 4 grupos 
Substituição conservante – Resíduos diferentes com propriedades semelhantes (influencia na 
conformação (carga, volume) 
Evolução mais lenta vs. CDS – A evolução de sequências de aminoácido de uma proteína é mais lenta que 
a do seu código codificante devido à degenerescência do código genético e substituição conservante 
Natureza modular – Níveis de conservação diferentes em relação a domínios e centros ativos 
 
Por vezes são necessárias mais do que 1 alteração no codão para alterar o a.a. codificado 
Identidade 20-30% - zona crepuscular → deve-se utilizar novos métodos (Métodos de Perfil) 
Identidade <20% - zona midnight → tem de se ter em conta a estrutura deduzida ou inferida de forma 
experimental (p.ex. cristalografia) 
 
Análise Comparativa de Sequências de Proteínas 
Matrizes de Substituição 
Pontuar diferenças → ao analisar duas posições, numa mesma sequência, que assumem o mesmo 
estado, mas correspondem a aminoácidos diferentes, quantifica a probabilidade de encontrar uma 
substituição de um por outro 
Identidade não acomoda Substituição Conservante 
Métrica para a similitude 
• Devido à degenerescência do código genético – matriz GCM (não se usa) 
- Número mínimo de mutações necessária para alterar aminoácidos 
- Resultados menos bons quando comparada com outras matrizes (adaptação ao meio depende 
das propriedades das proteínas) 
• Evolução Observável – matrizes MDM/PAM (Dayhoff) 
- PAM1 como base de cálculo – única matriz determinada experimentalmente; probabilidade de 
trocar um resíduo por outro 
- PAM250 – comparação de sequências partilhando 40-60% de identidade 
• Abordagem empírica – matrizes BLOSUM 
- Modelo evolutivo baseado em modelos ocultos de Markov de 1ª ordem 
- Construídas de forma automatizada incidindo nas substituições encontradas nos blocos extraídos 
de alinhamentos de grupos de sequências com certo nível de identidade 
- Blocos: 
- Frequência (probabilidade) de aparecimento de um resíduo na sequência 
- Valores na matriz: negativo (quociente baixo), positivo (quociente alto) 
- Não existe correlação com o tempo 
- Base de dados – BLOCKS 
- BLOSUM62 adequada para comparações genéricas 
Alinhamento 
Necessário conhecer posições que possam ser homólogas 
- Maximizando a semelhança entre elas por operações de alinhamento (sobreposição) das sequências 
- Depende do comprimento das sequências a comparar (soluções únicas vs. Soluções ótimas) 
- Lacuna/Indel – inserções ou deleções 
 - quando as sequências apresentam zonas semelhantes muito distantes, essas distâncias internas são 
anuladas por introdução de um gap 
 - perigo de destruição do alinhamento 
Identidade (%) e Similitude – só é possível medi-las após alinhamento 
- Quanto mais extensa é a sequência, menor similitude é requerida para provar homologia 
Tipos de Alinhamento 
Global – correspondência entre toda a extensão das sequências (p.ex. organismos ortólogos, 
filogeneticamente próximos) Implementações: Needleman e Wunsch (EMBOSS); Myers e Miller (FASTA) 
Local – correspondência apenas entre regiões mais semelhantes das sequências (não usado para 
determinar % de identidade; p.ex. comparar domínios) 
Categorias de Algoritmo de Alinhamento 
Lentos – baseados na programação dinâmica. Alinhamento cuidadoso. Algoritmo Needleman-Wunsch[1] 
– Filtragem de máximos locais de função 
– Interferência da homologia 
– “dinâmica” – divide problema complexo em vários pequenos resolvidos individualmente 
Rápidos – Deteção (geralmente local) de um certo nível de identidade e similitude. 
– Usa princípios heurísticos para agilizar. 
– Qualquer máximo da função serve 
– Deve ser refinado com um algoritmo lento 
 
Matriz Identidade – comparar sequências. Valor máximo = 1 
[1] Algoritmo Needleman-Wunsch 
– Matriz de acumulação de pontuações – Inicia com a matriz identidade 
– Fases sucessivas: 
1. Apuramento de pontuações – identidade/similitude 
- Começa no canto inferior direito 
- Células de cruzamento perfeito = 1 
2. Acumulação progressiva de pontuações 
- Nova pontuação = pontuação máx anterior +1 
- Na linha anterior, na direção do canto inferior direito 
- Valor no vértice = valor máx da linha inferior (a partir do valor no vértice) +1 
3. Percurso de pontuações máximas decrescentes 
- A partir do canto superior esquerdo na direção do canto inferior esquerdo 
- Cada desvio da diagonal há introdução de uma penalização (introduz Indel) 
– Soluções – acesso desejável a todas as soluções 
 Diferença entre a mais bem cotada e as restantes 
 Nem todas as ferramentas o fazem 
Algoritmo de Smith-Waterman 
– Alinhamento local 
– Algoritmo lento (não possui princípios heurísticos) 
– Fases sucessivas: 
1. Apuramento de pontuações – identidade/similitude 
2. Acumulação progressiva de pontuações 
3. Percurso de pontuações máximas decrescentes 
 
Algoritmo Recorrendo a Métodos Heurísticos 
– Velocidade 
- Eficiência computacional vs. Algoritmo de Smith-Waterman 
- Pesquisa contra base de dados 
 Número de comparações 
 Número de consultas simultâneas 
 Duração razoável 
– Qualidade 
- Bom, não ótimo 
- Heurístico 
– Tipos 
- FASTA (algoritmo para alinha rapidamente sequências e procurar semelhanças com outras) 
Alinhamento baseado em vocabulário - Alinhamento global 
Passos: 
1. Hashing (k-tuple) - Listagem de vocábulos presentes 
p.ex. proteína k=2 nucleótidos k=4-6 
2. Comparação de vocábulos com lista de curta sequência ou entradas de bases de dados 
3. Mapeamento dos pares de vocábulos correspondentes 
- Sinais gráficos de pontilhado 
- Banda diagonal incorpora as melhores correspondências 
- Reavaliação com PAM250 
- BLAST 
Alinhamento baseado em vocabulário - Alinhamento da sequência com vocábulos 
Vocábulos seriados por matriz de substituição/identidade 
- Proteínas – trímeros (3-tupples) 
- Sequência de nucleótidos – 12-tupples 
Versões iniciais incompatíveis com lacunas 
 - Extensão de HSP não podia ser interrompida 
 - Gapped BLAST resolveu a limitação 
Aspetos heurísticos reforçados 
 - Maior rapidez 
 - Resultados provisórios – pendentes de verificação 
1. Hashing, Avaliação de vocábulos, Valor limite 
2. Árvore guia/ high scoring words (não existem na sequência, são derivadas) 
3. Recolher entradas na base de dados onde ocorrem as HSW 
4. Prolongar HSP (High scoring pairs) 
5. Avaliar pontuação de cada alinhamento 
Variedades de ferramentas: BLASTN - nucl vs. nucl BLASTP – prot vs. prot 
 BLASTX - nucl(6x) vs. prot TBLASTN - prot vs. nucl(6x) 
 TBLASTX - nucl(6x) vs. nucl(6x) 
 Sequência de nucleótidos sequência de a.a. seq de nucleótidos das entradas? 
 
Seleção do Tipo de Alinhamento 
Critério 
 Distribuição das regiões semelhantes 
 - Confrontação de resultados de diferentes tipos 
 Resultado obtido no decurso do processo 
 Análise por gráfico de pontilhado 
 - Numa operação toda a distribuição da similitude 
 - Afinação de parâmetros 
 - Resultado qualitativo – não produz alinhamento 
Gráfico de Pontilhado 
 Dotter (Karolinks Inst.) 
 - Ferramenta original 
 - Linha de comandos 
 JDotter (VBRC, Univ. Victoria) 
 - Interface gráfico JAVA 
 - Local ou remoto 
 Dottlet (SIB) 
 - Servidor implementando a ferramenta 
Alinhamento Múltiplo de Sequências 
Considerações 
Sobreposição de posições supostamente homólogas 
Alinhamento global – sucessão de alinhamentos globais 
Maior número de sequências envolvidas 
Objetivos 
Determinação de sequências consenso 
Análise filogenética 
Inferência sobre estrutura/função 
Alinhamento Clustal 
Programação dinâmica não é suficiente 
- Paradigma de alinhamento progressivo - se for adicionado uma lacuna no início, é provável que 
reapareça 
- Por ordem de similitude crescenteRápido e eficiente 
Limitações 
Sensível a heterogeneidade das sequências 
Efeitos de cooperativo – lacunas 
Fases: 
1. Determinação de similitude 
Entre todos os pares de sequências, com matriz de semelhança 
2. Construção de árvore guia do alinhamento 
Algoritmo de clustering (agregação hierárquica) 
Neighbor Joining 
3. Alinhamento progressivo 
Começando pelo par mais semelhante (segundo a árvore guia) 
ClustalW – corrigir heterogeneidade 
Aspetos relevantes 
 A informação é retirada das diferenças – Medida de conservação/evolução 
 Semelhanças garantem a qualidade do alinhamento 
 Âncoras na posição das sequências pois combinações inadequadas introduzem instabilidade 
Orientações práticas 
Designação das sequências: 
Nomes Informativos 
 Curtos (<15 carateres, preferível 8) 
 Sem espaços (carateres especiais “_”) 
Quantidade de sequências <50 
 Não começar com mais de 10-15 sequências 
 Manter identidade do lote entre 30-90% 
Sequências de DNA: CDS Tradução conceptual 
Alinhamento dos produtos (métrica de codões implícita; avaliação de 
similitude) 
 Reverter para as sequências originais (refletindo o alinhamento) 
Sequências de proteínas Evitar sequências que apresentem repetições 
 Fragmentar as sequências e alinhar se necessário 
Tipos de Algoritmos 
Progressivo segundo a árvore guia 
 ClustalW 
- Implementação do EBI 
- Alinhamento múltiplo 
- Análise filogenética rudimentar 
Por representatividade no universo das soluções 
possíveis 
 TCoffee 
- Alinhamento 
- Avaliação de alinhamentos 
- Acreção de alinhamentos 
Baseado em Alinhamento local 
 Dialign 
- Mais rápido 
- Adequado a lotes de sequências com conservação parcial (domínios, regiões importantes para a 
configuração de rRNA, permite alinhamento de CDS via tradução) 
Baseado em distância entre vocábulos 
 Muscle 
- Muito rápido 
- Fases (Rascunho > Melhoramento > Refinamento) 
- Etapa de perturbação para refinar resultados 
 Retido o melhor resultado posterior 
Baseado em transformadas de Fourier rápidas 
 MAFT 
- Muito rápido 
- Só sequências de aminoácidos 
- Alinhamento feito no domínio das frequências 
 
 
Tipos, Estrutura e Filosofia de Bases de Dados Biológicos 
Tipos – Tipos de dados armazenados 
Natureza Bibliográfica – referências (citações) e texto integral 
Sequências Anotadas ou Afins 
 - Primárias – Dados experimentais 
 – Anotados com referências bibliográficas 
 – p.ex. sequências de DNA e proteínas (para ser mais fácil) 
 - Secundárias – Dados derivados de base de dados primárias 
 – Tipos de dados secundários: Alinhamentos, Padrões, Perfis, Famílias 
 - Genomas Anotados – Toda a anotação de uma sequência genómica 
 – Interface de utilização específica 
 - Outras 
 Índices – Listas de cruzamento de referências (entradas de bases de dados) 
 – Permite navegar em várias bases de dados, sem alterar a interface 
– Organização temática 
 – Associadas a ferramentas de pesquisa 
 Interface de exploração para bases de dados públicas 
 
Base de Dados Bibliográficos - NCBI 
O EBI search e NCBI são motores de pesquisa (interface utilizado), mas recorrem a índices. 
Tríade de recursos 
Medline – Referências Bibliográficas de Biomedicina (MeSH – medical subject headings) 
 – MeSH – Vocabulário controlado e indexado com estrutura ontológica 
• Grafo acíclico direcionado 
• Hierarquia de especificidade 
• Descrição associada 
Pubmed / Linkout – Base de dados mais abrangente, inclui Medline 
Pesquisas na PUBMED, são pesquisas na MEDLINE (esta passa a linguagem da pesquisa para MeSH) 
 – Serviço de acesso a referências bibliográficas 
 – Referências “out-of-scope” (assuntos não biomédicos na Medline) 
 – Referências de artigos na PMC 
 – Livros (Bookshelf) e Manuscritos financiados pelos NIH 
PMC – Pubmed Central 
– Biblioteca digital dos NIH (texto integral do NCBI) 
– Áreas científicas abrangidas: Biomedicina e Ciências da Vida 
– Pesquisa feita sobre o texto integral - apresentando mais resultados do que na PUBMED. Deste 
modo há mais resultados potenciais e menor especificidade (é melhor pesquisar na PUBMED). 
– Espólio (Recursos) 
• Jornais com conteúdo depositado nos seus servidores 
• Manuscritos de investigadores financiados pelos NIH 
- Revistas não aderentes 
• Idem para o Welcome Trust 
– Outros recursos: 
• Bookshelf – biblioteca digital de livros de biomedicina e outros 
– Ref. Pubmed; Ciências da vida; OMIM; Manuais dos recursos do NCBI 
• Journal Database – Informação sobre as revistas citadas nas BD do NCBI 
– Pesquisa: nome, abreviatura (MEDLINE ou ISSO); ISSN 
 
ABCDEFG
ABC
AB
C
DE
D
E
FG
F
G
 
A interface de utilização na WWW é a PUBMED, nesta encontramos formulários de pesquisa avançada. 
• PMID – chave primária 
• AD – instituição do 1º autor, respetivo endereço e eventual código de financiamento 
• FAU – nome completo de autor não pesquisável 
• AU – nome de autor abreviável e pesquisável 
• LA – idioma em que está redigido o artigo 
Bases de dados de sequências de nucleótidos 
ENA – EMBL – criada em 1980 e atualmente mantida pelo EBI 
GenBank (NCBI) – criada em 1982 e atualmente mantida pelo NCBI 
DDBJ (NIGJ)– criada em 1986, recebe 99% das submissões do Japão 
Surgiram isoladamente, mas agora existem em colaboração internacional 
INSDC 
• Criado em 1990 
• Agrega as 3 bases de dados 
• Permite uma partilha de dados 
– Sincronização diária 
– A estrutura de atributos é comum (chave primária comum) – anotação comum 
• Todas as bases de dados do NCBI estão indexadas de um modo específico, mas isto está a 
desaparecer (p.ex. com GI) 
• Possui uma indexação compatível para os 3 – MeSH (NCBI) 
Submissão de dados na INSDC depende de vários fatores: 
Tipo de dados –estamos a tratar de uma sequência ou anotação 
Propriedade intelectual – o conteúdo é da responsabilidade dos autores, ou seja, quem submete 
é que fica com a propriedade intelectual 
Interface de utilização – temos ferramenta para introduzir sequências de modo individual (Webin 
– EBI, Bankit – NCBI, Sakura – DDBJ) e interfaces para submeter grandes 
quantidades de sequências, tais como as provenientes de projetos de 
sequenciação (p.ex. EST) 
Bases de dados de sequências de nucleótidos são analisadas estatisticamente e podem ser divididas: 
Divisões – caracter taxonómico (há diferenças na deposição de sequências de espécies diferentes) 
Classes – qual a fonte da sequência, não diz respeito à taxonomia 
Entradas - formato de texto simples, sendo que as do GenBank são as mais completas, pois 
contêm informação particular de zonas da sequência (features). 
Sempre que temos dúvidas acerca da funcionalidade do gene, ou que esta não está definida, devemos 
fazer a nossa própria análise qualitativa (experimental). 
 
Bases de dados de sequências de proteínas: 
- Antecedem os seus parceiros de ácidos nucleicos em quase uma década, mas a sua evolução não 
foi tão dramática. 
- O seu corpo de dados atual pode conter sequências de dois tipos: 
• Determinações experimentais (sequenciação) 
• Traduções concetuais 
 
A anotação que acompanha as entradas pode ser gerada manualmente ou de forma automática, 
sendo que esta última é aplicada provisoriamente a traduções concetuais. 
Existem consórcios internacionais que visam a convergência de dados e recurso, exemplo disso é a 
UNIPROT. Esta envolve a Swiss-Prot / TrEMBL (EBI) e a PIR-PSD (NBRF). 
A Swiss-Prot aprece atualmente como a divisão de anotação manual (alta qualidade) da UNIPROTKB. 
A qualidade e atualidade dos seus dados resulta do esforço de curadoria, que não tem 
correspondência nas bases de dados de sequências de nucleótidos. O seu corpo de dados é também 
consideravelmente menor. 
A informação armazenada tenta estruturar-se de acordo com o formato da base de dados de 
sequências de nucleótidos do EMBL. A grande diferença está no volume de indexação cruzada com o 
exterior. 
Desenvolvimento das bases de dados:PDB (protein data bank) 
• Consórcio de estruturas de proteínas (ligandos e substratos) 
• Manutenção distribuída pelos membros do consórcio 
 
Protein sequence databank 
• Sucessora informática do “Atlas of protein sequence and structure” 
• Atualmente mantida pela PIR 
• Integrada na UNIPROTKB 
 
Swiss-Prot 
• Criada em 1986 
• Atualmente mantida pelo EBI & SIB, como divisão da UNIPROT 
• Tem como objetivo a recolha de sequências de proteínas anotadas de alta qualidade 
(anotação proprietária) 
• Tem maioritariamente referências cruzadas 
 
TrEMBL 
• Criada em 1986 
• Mantida pelo EBI em coordenação com a Swiss-Prot 
• Só contém anotações 
UniProtKB (colaboração Internacional) 
• Criada em 2002 como resultado da unificação da PIR-PSD, Swiss-Prot e TrEMBL 
• Cada uma delas deixou de ser uma base de dados autónoma, passando apenas a ser divisões 
de anotação 
• Possuem identificador e access code para cada entrada 
Swiss-Prot – anotação vistoriada por peritos (alta qualidade) 
TrEMBL – anotação automática, menos extensa e por verificar 
UniParc – divisão de arquivo de sequências (busca as sequências à TrEMBL e Swiss-Prot) 
Perspetiva do utilizador: 
Quando comparamos as entradas com a UniParc obtemos a resposta. 
 
Percentagem de homologia entre as sequências 
Fluxo de dados da base de dados: 
Trabalho manual de sequenciação 
Anotação automática 
Tradução concetual 
Deposição da sequência 
Anotação menos frequente de alta qualidade (verificada)

Continue navegando