Baixe o app para aproveitar ainda mais
Prévia do material em texto
Inferência de Estrutura e Função Domínios - Blocos quase autónomos dentro de proteína. - Evoluíram de forma autónoma e adquiriram conformação particular, associado à função da proteína. - Caraterizam a estrutura terciária – A conformação é primordial, ou seja, a estrutura é muito conservada - Atualmente tentam caraterizar domínios pelas suas sequências. Arquitetura de Domínios - Forma como os domínios se organizam na cadeia de aminoácidos. - A Arquitetura determina a estrutura da proteína no seu conjunto. - Importante: Ordem que se sucedem os domínios e o seu número. Famílias - Engloba conjunto de proteínas que partilham um ancestral comum – Relação de Parentesco - Apresentam conservação na estrutura e sequência (~30-35%). - Determinação fluida e dependente do contexto (equívoca) – por não haver conhecimento das proteínas ancestrais – Diferentes fontes, diferentes critérios – Expediência Super-Famílias - Grupo mais abrangente de proteínas que partilham um ancestral comum - Conservação apenas da estrutura - Genes homólogos Ortólogos – genes separados pela especiação, mas mantendo uma função semelhante Parálogos – duplicação num mesmo genoma com funções diferentes - O grau mínimo de conservação ao nível da sequência para manter a conservação de função é ~25-40%. Assim, não é possível codificar adequadamente estes domínios através de uma única sequência (sequência consenso). Motivos - Sequências consenso pouco abrangentes, curtas (10-20 a.a.) - Porção mais conservada da sequência do domínio ➔ Um domínio pode ter vários motivos (motivos múltiplos) - Provavelmente associados ao núcleo conservado, tanto na estrutura como na função Métodos de Deteção Motivos singelos – Patterns (Prosite) - Opta-se pelo motivo mais caraterístico dentro do domínio conservado pela família - Sequência consenso ambígua Expressões Regulares – Prosite - Codificar manualmente os motivos através das caraterísticas de cada uma das suas posições. - Recorrem a um conjunto de instruções derivado das expressões regulares tradicionais - padrões (patterns). - Grande flexibilidade e espeficidade - Deteção: • Algoritmo automático com conjunto de estados finito. • Há pontuação quando as correspondências são perfeitas • Incluir novos elementos obriga a redesenhar o padrão • Ausência de critérios para estimar a relevância estatística Expressões Regulares Difusas – eMOTIF Código - <A-Z> x [...] [...]* {...} (n) Significado Separador de posições Resíduo obrigatório Qualquer resíduo Ambiguidade Repetição arbitrária da cadeia de resíduos Resíduos incompatíveis Repetição limitada (n vezes) Superfamília Família Arquitetura de Domínios Domínio Motivos - Codificam os motivos de forma difusa pois não incluem os resíduos encontrados, mas antes grupos homogéneos deles - Possuem ambiguidades extremas visto que os aminoácidos precisos desaparecem e são substituídos pelo grupo de prioridade - Capacidade acrescida para detetar novos elementos de uma família o que resulta num aumento de falsos positivos Motivos Múltiplos - Abordagem mais poderosa - Aproximam-se da deteção do domínio completo Impressões Digitais (PRINTS) Alinhamento múltiplo para não perder informação - Não sujeito a ponderação ou introdução de lacunas - Processo de construção manual Informação secundária para servir de base a curtos esforços de codificação Blocos (BLOCKS) Derivam de uma análise automatizada dos conteúdos das bases de dados PROSITE e PRINTS Transformadas em matrizes de pontuação (PSSM) Domínios Completos Perfis de Gribskov aka PSSM Matriz de pontuação por resíduo e posição → as linhas ou colunas representam as posições já conhecidas do domínio - O cruzamento linhas e colunas representa a probabilidade de encontrar a.a. em cada posição - Requer conjunto de exemplos do domínio para construção - Matriz é recalculada ao adicionar novos representantes - Pode ser “alinhado” com sequência para deteção Sensível e rápido - Possibilidade de começar com um conjunto reduzido de casas - Aritmética de inteiros intensiva - Memória volátil pouco relevante Faculdade de recrutar novos elementos - Estimativa de nível de significado estatística Modelos Ocultos de Markov aka PSSM Modelo probabilístico da sequência do domínio - Estados ocultos para a correspondência, a nova posição e a anulação da posição - Linhas: Probabilidade de transição • Conjunto de treino maior • Treino por algoritmo forward-backward - Deteção por nível de probabilidade de correspondência • Algoritmo forward • Resultados com nível de probabilidade superior ao E-value - Mais sensível que os perfis de Gribskov Multitude de Base de Dados Possibilidade de comparar uma sequência nova contra um conjunto consolidado de diferentes modelos de domínios, através da consulta de diferentes bases de dados (numa única operação) ➔ Base de Dados InterPro - Chaves primárias: PS PROSITE (padrões, perfis) PR PRINTS (impressões digitais) PF Pfam (HMMs) SM SMART (HMMs) PD PRODOM (sequências consenso) Análises de Sequências e Evolução Critérios para Avaliação Similitude / Identidade = grau de semelhança entre sequências - Difícil de estabelecer o termo de comparação • Necessita de alinhamento prévio • Não são analisadas a morfologia • Anatomia comparada - Compara-se sequências (percentagem de porção comparável) Conjunção - Não podem ocorrer no mesmo genoma/organismo - Separa Paralogia de Ortologia Congruência - Divergência observada respeita filogenia para grupos taxonómicos monofiléticos • Maior divergência, mais afastado filogeneticamente - Separa a Xenologia das restantes formas de homologia Antepassado Comum partilhado; Evolução; Classes de Homologia • Ortologia – Divergência acompanha especiação – Descendência em genomas distintos • Paralogia – Duplicação Intragenómica – Contextos (Funções) diferentes • Xenologia – Transferência horizontal – Evolução (quase) ausente Homologia Evolução convergente; Ausência de um antepassado comum; Contaminação em análise filogenética Homoplasia Xenologia Paralogia Ortologia Tempo Tipos de Grupos Taxonómicos Monofilético – Todos os membros partilham o mesmo ancestral comum mais próximo Parafilético – Não inclui toda a descendência do antepassado comum mais próximo Polifilético – Inclui várias linhagens com diferentes candidatos a antepassados comum mais próximo; Inclusão de homoplasia ➔ Porque é necessária análise filogenética? A similitude pode não ser informativa. Se o fosse não haver similitude significaria não haver homologia. ➔ Em presença de sequências O nível de homologia não é diretamente mesurável. Maior taxa de evolução do que é expetável sugere que há pressão seletiva naquela zona da sequência. Ao usar a similitude para calcular a distância evolutiva encontramos um problema. Se as sequências forem muito semelhares a relação prossegue de forma linear. Se forem muito diferentes, deixa de seguir da mesma forma e não são conclusivas sobre a distância entre elas. A cada refinamento destes modelos, corresponde mais fidelidade na medição da distância entre sequências evolutivas. Cada refinamento destes modelos obriga à estimativa de um maior número de parâmetros e mais a incerteza introduzida na estimativa. Particularidades das sequências DNA Substituições sobrepostas Transversão vs. Transição (Pirimidinas (CT) → Purinas (AG)) menos provável. Quanto mais raro, menor é a taxa de evolução expetável Substituições recorrentes/sobrepostas – Utilizam-se modelos de evolução com complexidade por medida que permitem a caraterização de estados intermédios Taxas de Evolução – Pressões seletivas diferentes. As sequências génicas sofrem uma maior pressão seletiva para se conservarem doque as sequências não génicas. Nas sequências codificantes a 2ª base do codão é a mais condicionante para a identificação com o respetivo a.a. Proteína Equivalência de propriedades em a.a. – 20 aminoácidos, 4 grupos Substituição conservante – Resíduos diferentes com propriedades semelhantes (influencia na conformação (carga, volume) Evolução mais lenta vs. CDS – A evolução de sequências de aminoácido de uma proteína é mais lenta que a do seu código codificante devido à degenerescência do código genético e substituição conservante Natureza modular – Níveis de conservação diferentes em relação a domínios e centros ativos Por vezes são necessárias mais do que 1 alteração no codão para alterar o a.a. codificado Identidade 20-30% - zona crepuscular → deve-se utilizar novos métodos (Métodos de Perfil) Identidade <20% - zona midnight → tem de se ter em conta a estrutura deduzida ou inferida de forma experimental (p.ex. cristalografia) Análise Comparativa de Sequências de Proteínas Matrizes de Substituição Pontuar diferenças → ao analisar duas posições, numa mesma sequência, que assumem o mesmo estado, mas correspondem a aminoácidos diferentes, quantifica a probabilidade de encontrar uma substituição de um por outro Identidade não acomoda Substituição Conservante Métrica para a similitude • Devido à degenerescência do código genético – matriz GCM (não se usa) - Número mínimo de mutações necessária para alterar aminoácidos - Resultados menos bons quando comparada com outras matrizes (adaptação ao meio depende das propriedades das proteínas) • Evolução Observável – matrizes MDM/PAM (Dayhoff) - PAM1 como base de cálculo – única matriz determinada experimentalmente; probabilidade de trocar um resíduo por outro - PAM250 – comparação de sequências partilhando 40-60% de identidade • Abordagem empírica – matrizes BLOSUM - Modelo evolutivo baseado em modelos ocultos de Markov de 1ª ordem - Construídas de forma automatizada incidindo nas substituições encontradas nos blocos extraídos de alinhamentos de grupos de sequências com certo nível de identidade - Blocos: - Frequência (probabilidade) de aparecimento de um resíduo na sequência - Valores na matriz: negativo (quociente baixo), positivo (quociente alto) - Não existe correlação com o tempo - Base de dados – BLOCKS - BLOSUM62 adequada para comparações genéricas Alinhamento Necessário conhecer posições que possam ser homólogas - Maximizando a semelhança entre elas por operações de alinhamento (sobreposição) das sequências - Depende do comprimento das sequências a comparar (soluções únicas vs. Soluções ótimas) - Lacuna/Indel – inserções ou deleções - quando as sequências apresentam zonas semelhantes muito distantes, essas distâncias internas são anuladas por introdução de um gap - perigo de destruição do alinhamento Identidade (%) e Similitude – só é possível medi-las após alinhamento - Quanto mais extensa é a sequência, menor similitude é requerida para provar homologia Tipos de Alinhamento Global – correspondência entre toda a extensão das sequências (p.ex. organismos ortólogos, filogeneticamente próximos) Implementações: Needleman e Wunsch (EMBOSS); Myers e Miller (FASTA) Local – correspondência apenas entre regiões mais semelhantes das sequências (não usado para determinar % de identidade; p.ex. comparar domínios) Categorias de Algoritmo de Alinhamento Lentos – baseados na programação dinâmica. Alinhamento cuidadoso. Algoritmo Needleman-Wunsch[1] – Filtragem de máximos locais de função – Interferência da homologia – “dinâmica” – divide problema complexo em vários pequenos resolvidos individualmente Rápidos – Deteção (geralmente local) de um certo nível de identidade e similitude. – Usa princípios heurísticos para agilizar. – Qualquer máximo da função serve – Deve ser refinado com um algoritmo lento Matriz Identidade – comparar sequências. Valor máximo = 1 [1] Algoritmo Needleman-Wunsch – Matriz de acumulação de pontuações – Inicia com a matriz identidade – Fases sucessivas: 1. Apuramento de pontuações – identidade/similitude - Começa no canto inferior direito - Células de cruzamento perfeito = 1 2. Acumulação progressiva de pontuações - Nova pontuação = pontuação máx anterior +1 - Na linha anterior, na direção do canto inferior direito - Valor no vértice = valor máx da linha inferior (a partir do valor no vértice) +1 3. Percurso de pontuações máximas decrescentes - A partir do canto superior esquerdo na direção do canto inferior esquerdo - Cada desvio da diagonal há introdução de uma penalização (introduz Indel) – Soluções – acesso desejável a todas as soluções Diferença entre a mais bem cotada e as restantes Nem todas as ferramentas o fazem Algoritmo de Smith-Waterman – Alinhamento local – Algoritmo lento (não possui princípios heurísticos) – Fases sucessivas: 1. Apuramento de pontuações – identidade/similitude 2. Acumulação progressiva de pontuações 3. Percurso de pontuações máximas decrescentes Algoritmo Recorrendo a Métodos Heurísticos – Velocidade - Eficiência computacional vs. Algoritmo de Smith-Waterman - Pesquisa contra base de dados Número de comparações Número de consultas simultâneas Duração razoável – Qualidade - Bom, não ótimo - Heurístico – Tipos - FASTA (algoritmo para alinha rapidamente sequências e procurar semelhanças com outras) Alinhamento baseado em vocabulário - Alinhamento global Passos: 1. Hashing (k-tuple) - Listagem de vocábulos presentes p.ex. proteína k=2 nucleótidos k=4-6 2. Comparação de vocábulos com lista de curta sequência ou entradas de bases de dados 3. Mapeamento dos pares de vocábulos correspondentes - Sinais gráficos de pontilhado - Banda diagonal incorpora as melhores correspondências - Reavaliação com PAM250 - BLAST Alinhamento baseado em vocabulário - Alinhamento da sequência com vocábulos Vocábulos seriados por matriz de substituição/identidade - Proteínas – trímeros (3-tupples) - Sequência de nucleótidos – 12-tupples Versões iniciais incompatíveis com lacunas - Extensão de HSP não podia ser interrompida - Gapped BLAST resolveu a limitação Aspetos heurísticos reforçados - Maior rapidez - Resultados provisórios – pendentes de verificação 1. Hashing, Avaliação de vocábulos, Valor limite 2. Árvore guia/ high scoring words (não existem na sequência, são derivadas) 3. Recolher entradas na base de dados onde ocorrem as HSW 4. Prolongar HSP (High scoring pairs) 5. Avaliar pontuação de cada alinhamento Variedades de ferramentas: BLASTN - nucl vs. nucl BLASTP – prot vs. prot BLASTX - nucl(6x) vs. prot TBLASTN - prot vs. nucl(6x) TBLASTX - nucl(6x) vs. nucl(6x) Sequência de nucleótidos sequência de a.a. seq de nucleótidos das entradas? Seleção do Tipo de Alinhamento Critério Distribuição das regiões semelhantes - Confrontação de resultados de diferentes tipos Resultado obtido no decurso do processo Análise por gráfico de pontilhado - Numa operação toda a distribuição da similitude - Afinação de parâmetros - Resultado qualitativo – não produz alinhamento Gráfico de Pontilhado Dotter (Karolinks Inst.) - Ferramenta original - Linha de comandos JDotter (VBRC, Univ. Victoria) - Interface gráfico JAVA - Local ou remoto Dottlet (SIB) - Servidor implementando a ferramenta Alinhamento Múltiplo de Sequências Considerações Sobreposição de posições supostamente homólogas Alinhamento global – sucessão de alinhamentos globais Maior número de sequências envolvidas Objetivos Determinação de sequências consenso Análise filogenética Inferência sobre estrutura/função Alinhamento Clustal Programação dinâmica não é suficiente - Paradigma de alinhamento progressivo - se for adicionado uma lacuna no início, é provável que reapareça - Por ordem de similitude crescenteRápido e eficiente Limitações Sensível a heterogeneidade das sequências Efeitos de cooperativo – lacunas Fases: 1. Determinação de similitude Entre todos os pares de sequências, com matriz de semelhança 2. Construção de árvore guia do alinhamento Algoritmo de clustering (agregação hierárquica) Neighbor Joining 3. Alinhamento progressivo Começando pelo par mais semelhante (segundo a árvore guia) ClustalW – corrigir heterogeneidade Aspetos relevantes A informação é retirada das diferenças – Medida de conservação/evolução Semelhanças garantem a qualidade do alinhamento Âncoras na posição das sequências pois combinações inadequadas introduzem instabilidade Orientações práticas Designação das sequências: Nomes Informativos Curtos (<15 carateres, preferível 8) Sem espaços (carateres especiais “_”) Quantidade de sequências <50 Não começar com mais de 10-15 sequências Manter identidade do lote entre 30-90% Sequências de DNA: CDS Tradução conceptual Alinhamento dos produtos (métrica de codões implícita; avaliação de similitude) Reverter para as sequências originais (refletindo o alinhamento) Sequências de proteínas Evitar sequências que apresentem repetições Fragmentar as sequências e alinhar se necessário Tipos de Algoritmos Progressivo segundo a árvore guia ClustalW - Implementação do EBI - Alinhamento múltiplo - Análise filogenética rudimentar Por representatividade no universo das soluções possíveis TCoffee - Alinhamento - Avaliação de alinhamentos - Acreção de alinhamentos Baseado em Alinhamento local Dialign - Mais rápido - Adequado a lotes de sequências com conservação parcial (domínios, regiões importantes para a configuração de rRNA, permite alinhamento de CDS via tradução) Baseado em distância entre vocábulos Muscle - Muito rápido - Fases (Rascunho > Melhoramento > Refinamento) - Etapa de perturbação para refinar resultados Retido o melhor resultado posterior Baseado em transformadas de Fourier rápidas MAFT - Muito rápido - Só sequências de aminoácidos - Alinhamento feito no domínio das frequências Tipos, Estrutura e Filosofia de Bases de Dados Biológicos Tipos – Tipos de dados armazenados Natureza Bibliográfica – referências (citações) e texto integral Sequências Anotadas ou Afins - Primárias – Dados experimentais – Anotados com referências bibliográficas – p.ex. sequências de DNA e proteínas (para ser mais fácil) - Secundárias – Dados derivados de base de dados primárias – Tipos de dados secundários: Alinhamentos, Padrões, Perfis, Famílias - Genomas Anotados – Toda a anotação de uma sequência genómica – Interface de utilização específica - Outras Índices – Listas de cruzamento de referências (entradas de bases de dados) – Permite navegar em várias bases de dados, sem alterar a interface – Organização temática – Associadas a ferramentas de pesquisa Interface de exploração para bases de dados públicas Base de Dados Bibliográficos - NCBI O EBI search e NCBI são motores de pesquisa (interface utilizado), mas recorrem a índices. Tríade de recursos Medline – Referências Bibliográficas de Biomedicina (MeSH – medical subject headings) – MeSH – Vocabulário controlado e indexado com estrutura ontológica • Grafo acíclico direcionado • Hierarquia de especificidade • Descrição associada Pubmed / Linkout – Base de dados mais abrangente, inclui Medline Pesquisas na PUBMED, são pesquisas na MEDLINE (esta passa a linguagem da pesquisa para MeSH) – Serviço de acesso a referências bibliográficas – Referências “out-of-scope” (assuntos não biomédicos na Medline) – Referências de artigos na PMC – Livros (Bookshelf) e Manuscritos financiados pelos NIH PMC – Pubmed Central – Biblioteca digital dos NIH (texto integral do NCBI) – Áreas científicas abrangidas: Biomedicina e Ciências da Vida – Pesquisa feita sobre o texto integral - apresentando mais resultados do que na PUBMED. Deste modo há mais resultados potenciais e menor especificidade (é melhor pesquisar na PUBMED). – Espólio (Recursos) • Jornais com conteúdo depositado nos seus servidores • Manuscritos de investigadores financiados pelos NIH - Revistas não aderentes • Idem para o Welcome Trust – Outros recursos: • Bookshelf – biblioteca digital de livros de biomedicina e outros – Ref. Pubmed; Ciências da vida; OMIM; Manuais dos recursos do NCBI • Journal Database – Informação sobre as revistas citadas nas BD do NCBI – Pesquisa: nome, abreviatura (MEDLINE ou ISSO); ISSN ABCDEFG ABC AB C DE D E FG F G A interface de utilização na WWW é a PUBMED, nesta encontramos formulários de pesquisa avançada. • PMID – chave primária • AD – instituição do 1º autor, respetivo endereço e eventual código de financiamento • FAU – nome completo de autor não pesquisável • AU – nome de autor abreviável e pesquisável • LA – idioma em que está redigido o artigo Bases de dados de sequências de nucleótidos ENA – EMBL – criada em 1980 e atualmente mantida pelo EBI GenBank (NCBI) – criada em 1982 e atualmente mantida pelo NCBI DDBJ (NIGJ)– criada em 1986, recebe 99% das submissões do Japão Surgiram isoladamente, mas agora existem em colaboração internacional INSDC • Criado em 1990 • Agrega as 3 bases de dados • Permite uma partilha de dados – Sincronização diária – A estrutura de atributos é comum (chave primária comum) – anotação comum • Todas as bases de dados do NCBI estão indexadas de um modo específico, mas isto está a desaparecer (p.ex. com GI) • Possui uma indexação compatível para os 3 – MeSH (NCBI) Submissão de dados na INSDC depende de vários fatores: Tipo de dados –estamos a tratar de uma sequência ou anotação Propriedade intelectual – o conteúdo é da responsabilidade dos autores, ou seja, quem submete é que fica com a propriedade intelectual Interface de utilização – temos ferramenta para introduzir sequências de modo individual (Webin – EBI, Bankit – NCBI, Sakura – DDBJ) e interfaces para submeter grandes quantidades de sequências, tais como as provenientes de projetos de sequenciação (p.ex. EST) Bases de dados de sequências de nucleótidos são analisadas estatisticamente e podem ser divididas: Divisões – caracter taxonómico (há diferenças na deposição de sequências de espécies diferentes) Classes – qual a fonte da sequência, não diz respeito à taxonomia Entradas - formato de texto simples, sendo que as do GenBank são as mais completas, pois contêm informação particular de zonas da sequência (features). Sempre que temos dúvidas acerca da funcionalidade do gene, ou que esta não está definida, devemos fazer a nossa própria análise qualitativa (experimental). Bases de dados de sequências de proteínas: - Antecedem os seus parceiros de ácidos nucleicos em quase uma década, mas a sua evolução não foi tão dramática. - O seu corpo de dados atual pode conter sequências de dois tipos: • Determinações experimentais (sequenciação) • Traduções concetuais A anotação que acompanha as entradas pode ser gerada manualmente ou de forma automática, sendo que esta última é aplicada provisoriamente a traduções concetuais. Existem consórcios internacionais que visam a convergência de dados e recurso, exemplo disso é a UNIPROT. Esta envolve a Swiss-Prot / TrEMBL (EBI) e a PIR-PSD (NBRF). A Swiss-Prot aprece atualmente como a divisão de anotação manual (alta qualidade) da UNIPROTKB. A qualidade e atualidade dos seus dados resulta do esforço de curadoria, que não tem correspondência nas bases de dados de sequências de nucleótidos. O seu corpo de dados é também consideravelmente menor. A informação armazenada tenta estruturar-se de acordo com o formato da base de dados de sequências de nucleótidos do EMBL. A grande diferença está no volume de indexação cruzada com o exterior. Desenvolvimento das bases de dados:PDB (protein data bank) • Consórcio de estruturas de proteínas (ligandos e substratos) • Manutenção distribuída pelos membros do consórcio Protein sequence databank • Sucessora informática do “Atlas of protein sequence and structure” • Atualmente mantida pela PIR • Integrada na UNIPROTKB Swiss-Prot • Criada em 1986 • Atualmente mantida pelo EBI & SIB, como divisão da UNIPROT • Tem como objetivo a recolha de sequências de proteínas anotadas de alta qualidade (anotação proprietária) • Tem maioritariamente referências cruzadas TrEMBL • Criada em 1986 • Mantida pelo EBI em coordenação com a Swiss-Prot • Só contém anotações UniProtKB (colaboração Internacional) • Criada em 2002 como resultado da unificação da PIR-PSD, Swiss-Prot e TrEMBL • Cada uma delas deixou de ser uma base de dados autónoma, passando apenas a ser divisões de anotação • Possuem identificador e access code para cada entrada Swiss-Prot – anotação vistoriada por peritos (alta qualidade) TrEMBL – anotação automática, menos extensa e por verificar UniParc – divisão de arquivo de sequências (busca as sequências à TrEMBL e Swiss-Prot) Perspetiva do utilizador: Quando comparamos as entradas com a UniParc obtemos a resposta. Percentagem de homologia entre as sequências Fluxo de dados da base de dados: Trabalho manual de sequenciação Anotação automática Tradução concetual Deposição da sequência Anotação menos frequente de alta qualidade (verificada)
Compartilhar