Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 IBM1029 Introdução à Bioinformática Aula 9 Profª Drª Silvana Giuliatti Departamento de Genética – Bloco G Ramal: 4503 silvana@rge.fmrp.usp.br Faculdade de Medicina Departamento de Genética CLUSTAL Alinhamento Múltiplo • Interesse numa visão global de um conjunto de sequências: • história evolutiva comum → história evolutiva das espécies respectivas • relacionadas por ordem funcional ou estrutural → acrescentar novas informações sobre as sequências. • O alinhamento múltiplo de sequências identifica resíduos ou regiões conservadas ou equivalentes em estruturas. • Algoritmos com diferentes abordagens. • Os algoritmos em uso são heurísticos e a maioria são progressivos. Alinhamento Múltiplo PROGRESSIVO • Método heurístico • Rápido e eficiente. • Faz alinhamento progressivo dos perfis e sequências mais distantes • O mais usado: ClustalW (Thompson et al, 1994) . ClustalW • Algoritmo de 3 etapas: • Alinhamento em pares de todas as sequências para determinar similaridade entre elas. • Definir a ordem do alinhamento progressivo baseado na similaridade. • Construir o alinhamento múltiplo baseado na ordem definida. seq seq alinh alinh alinh ams ams Qual a ordem do alinhamento? ClustalW • Clustal vem em 3 versões: • Clustal: atribui pesos iguais a todas as sequências. • ClustalW: atribui pesos diferentes às sequências. • ClustalX: proporciona uma interface gráfica para o ClustalW. 2 ClustalW Etapa 1: Alinhamento em pares de todas sequências para determinar similaridade entre elas. • Usa método de alinhamento (global) de pares de sequências • Usa matriz de substituição e penalidade por gaps. S1 S2 S3 S4 S5 ClustalW • Usa os alinhamentos em pares para calcular uma “distância genética” entre todos os pares de sequências. • Constrói uma matriz de valores de distâncias. S1 S2 S3 S4 S5 S1 S2 S3 S4 S5 - - - - - D2,1 D3,1 D4,1 D5,1 D3,2 D4,2 D4,3 D5,2 D5,3 D5,4 Simétrica ClustalW Distância Genética = número de mismatches número total de pares (sem contar gaps) Exemplo: Considere duas sequências HHFGTYH e HFGGGH e suponha que o alinhamento por programação dinâmica forneceu o seguinte alinhamento ótimo: H H F G T Y H H F G G G - H - 6 pares e um gap. - número de mismatches = 3 Então: distância = 3/6 = 0,5 ClustalW Etapa 2: Definir a ordem do alinhamento progressivo baseado na similaridade. • Definir as sequências mais próximas: árvore de similaridade. • Usa matriz de distâncias para calcular a árvore. • Método de junção por vizinhos (neighbor-joining) S1 S2 S3 S4 S5 S1 S2 S3 S4 S5 S1 S2 S3 S4 S5 - - - - - 0,3 D3,1 D4,1 D5,1 0,5 D4,2 0,8 D5,2 D5,3 D5,4 0,1 0,1 0,1 ClustalW Etapa 3: Construir o alinhamento múltiplo baseado na ordem definida. • Combinar os alinhamentos começando com os grupos mais próximos para os mais distantes S1 S2 S3 S4 S5 • Alinha S1 com S2 • Alinha S3 com S4 • Alinha S1: S2 com S3:S4 • Alinha S1: S2 e S3:S4 com S5 O Score do Alinhamento Método de Soma de Pares (SP) • Método padrão para pontuar o alinhamento múltiplo • SP é uma função, coluna por coluna, do peso do alinhamento. • Usa matriz de substituição. • O score total do alinhamento múltiplo é encontrado pelo score encontrado em cada coluna. 3 Alinhamento Múltiplo Considere o alinhamento múltiplo de 4 sequências: S1: A Q P I L L L V S2: A L R - L L - - S3: A K - I L L L - S3: C P P V L I L V Assuma: match = 1 mismatch = -1 gap = -2 gap/gap = 0 e considere o cálculo para a quarta coluna. Alinhamento Múltiplo S1: A Q P I L L L V S2: A L R - L L - - S3: A K - I L L L - S3: C P P V L I L V O score SP para essa coluna é: SP(I, -, I, V) = s(I, -) + s(I, I) + s(I, V) + s(- , I) + s(- , V) + s(I, V) = -2 +1 -1 -2 -2 -1 = -7 O score para o alinhamento é a soma de todos os scores SP encontrados para cada coluna. Alinhamento Múltiplo Quando uma matriz de substituição for usada: BLOSUM62 A B C S1 ...N...N...N... S2 ...N...N...N... S3 ...N...N...N... S4 ...N...N...C... S5 ...N...C...C... Alinhamento Score A B C N-N 6 10 6 3 N-C -3 0 4 6 C-C 9 0 0 1 60 24 9 Alinhamento Múltiplo Considere a 1ª coluna: S1: A Q P I L L L V S2: A L R - L L - - S3: A K - I L L L - S3: C P P V L I L V O score SP para essa coluna é: SP(A, A, A, C) = s (A, A) + s (A, A) + s (A, C) + s (A , A) + s (A, C) + s (A, C) = +1 +1 -1 +1 -1 -1 = 0 Se a coluna fosse toda de A, o score SP(A,A,A,A,A) seria igual a 6. Se pesos diferentes forem introduzidos para cada sequência individualmente, esse problema pode ser reparado. ClustalW • Para evitar problemas com método SP, ClustalW usa os valores da árvore para atribuir pesos às sequências. S1 S2 S3 S4 0,2 0,3 0,2 0,4 0,4 0,2 WS1 = 0,3 + (0,4/2) = 0,5 WS2 = 0,2 + (0,4/2) = 0,4 WS3 = 0,2 + (0,2/2) = 0,3 WS4 = 0,4 + (0,2/2) = 0,5 Alinh 1 S1 ... K ... S2 ... N ... Alinh 2 S3 ... L ... S4 ... V ... Score para a coluna [(WS1 x WS3) x score (K,L) + (WS1 x WS4) x score (K,V) + (WS2 x WS3) x score (N,L) + (WS2 x WS4) x score (N,V) ] / 4 ClustalW S1 S2 S3 S4 Permite gaps para melhorar o alinhamento S1 S2 S3 S4 Mantém os gaps e permite novos gaps para melhorar o alinhamento 4 Alinhamento Múltiplo Suponha um alinhamento feito com as 3 sequências: S1: ACTTA S2: AGTA S3: ACGTA Suponha que a árvore indique um alinhamento primeiro entre S1 e S2 e depois com S3 . Os alinhamentos possíveis, entre S1 e S2, são: ACTTA ACTTA ACTTA A-GTA AGT-A AG-TA Alinhamento Múltiplo O gap introduzido no primeiro alinhamento não poderá ser mudado. Então, os alinhamentos possíveis, entre S1 e S2 e S3, são: ACTTA ACTTA ACTTA A-GTA AGT-A AG-TA ACGTA ACGTA ACGTA Apenas o primeiro é ótimo. Qualquer “erro” feito no início irá propagar-se ao longo de todo o alinhamento. ClustalW Onde encontrar ClustalW na internet e para download. • www.ebi.ac.uk/clustalw/index.html • www.ch.embnet.org/software/ClustalW.html • pir.georgetown.edu/pirwww.search/mult-align/multi- align.html • clustalw.genome.ad.jp/ ClustalW Saída do ClustalW • www.ebi.ac.uk/clustalw/index.html 5 PSSM e Perfis 6 PSSM e Perfis Alinhamentos múltiplos: identificação de sequências relacionadas em bancos de dados • PSSM (Position-specific scoring matrices) • Perfis • Modelos de Markov (Hidden Markov Model – HMM) Modelos estatísticos que refletem na informação de resíduos (nucleotídeos ou aminoácidos) num alinhamento múltiplo. Permitem detectar membros mais distantes de uma mesma família de sequências, resultando numa maior sensitividade das buscas em bancos de dados. PSSM PSSM: tabela que contém as probabilidades de aminoácidos ou nucleotídeos em cada posição de um alinhamento múltiplo sem gaps. Posição 1 2 3 4 5 6 Seq.1 A T G T C G Seq.2 A A G A C T Seq.3 T A C T C A Seq.4 C G G A G G Seq.5 A A C C T G Converter o alinhamento múltiplo em uma tabela de frequencias 0,23-0,60,20,4-0,2C 0,270,60,2-0,60,2-G 0,200,20,20,4-0,20,2T0,300,2-0,4-0,60,6A Freq.654321Pos. Coluna 1: 3A / 5 bases = 0,6 Frequência Total de A: 9 A/ 30 bases = 0,30 Normalizar os valores dividindo-os pelas frequências totais. 0,23-2,610,871,74-0,87C 0,272,220,74-2,220,74-G 0,201,01,02,0-1,01,0T 0,300,67-1,33-2,02,0A Freq.654321Pos. Coluna 1: 0,6/0,30 = 2,0 0,23-0,60,20,4-0,2C 0,270,60,2-0,60,2-G 0,200,20,20,4-0,20,2T 0,300,2-0,4-0,60,6A Freq.654321Pos. Converter os valores para log na base 2. -1,38-0,20,8--0,2C 1,15-0,43-1,15-0,43-G 0,00,01,0-0,00,0T -0,58-0,41-1,01,0A 654321Pos. Coluna 1: log2 2 = 1 0,23-2,610,871,74-0,87C 0,272,220,74-2,220,74-G 0,201,01,02,0-1,01,0T 0,300,67-1,33-2,02,0A Freq.654321Pos. Na matriz, um valor positivo representa resíduo idêntico ou similar e um valor negativo representa um resíduo não- conservado. Por exemplo: dada a matriz, obtida de um alinhamento, quão bem a nova sequência AACTCG se aproxima no alinhamento? 7 -1,38-0,20,8--0,2C 1,15-0,43-1,15-0,43-G 0,00,01,0-0,00,0T -0,58-0,41-1,01,0A 654321Pos. AACTCG Encontrar os nucleotídeos em cada posição respectiva da matriz Score = 1,0 + 1,0 + 0,8 + 1,0 + 1,38 + 1,15 = 6,33 Como: 26,33 = 80, pode-se dizer que há 80 vezes mais chance de ser parte da família do que ser ao acaso. Perfis Quando uma penalidade por gap é incluída na construção da matriz, um perfil é criado. Ou seja, um perfil é um PSSM com informação de penalidade dos gaps inseridos na família de sequências. A maioria dos métodos normaliza as probabilidades brutas em relação a uma matriz de pontuação como a BLOSUM62. Perfis Perfis podem ser usados em busca em bancos de dados para encontrar remotas sequências homólogas. PSI-BLAST: Um programa que estabelece os perfis e usa-os na busca contra um banco de dados de uma maneira automatizada. PSI-BLAST BLAST: + match; - mismatch PSI-BLAST: analisa as posições do alinhamento. Ex.: Cisteina (query) na posição 5 é sempre conservada, enquanto que outra cisteína na posição 25 pode ser alinhada com uma serina em algum desses hits. Penaliza mais as substituições na posição5, e tolera substituições na posição 25. Essas duas cisteínas para o PSI-BLAST são diferentes. Se threshold muito baixo: não consegue novas sequências; Se threshold muito alto: seleciona qualquer sequência não relacionada com o restante. PSI-BLAST A etapas do algoritmo podem ser resumidas em: 1. Realiza um BLASTP normal entre a sequência de entrada (query) e o banco de dados para gerar hits de similaridade; 2. Os hits de alta similaridade são usadas num alinhamento múltiplo, dos quais um perfil é criado; 3. O perfil é então usado numa segunda busca para identificar mais membros da mesma família que possam gerar um “match” com o perfil; 4. Quando esses novos hits (novas sequências) são identificadas, elas são combinadas com o alinhamento múltiplo anterior para gerar um novo perfil, que é então usado em ciclos subsequentes de busca no banco de dados; 5. O procedimento é repetido até que nenhuma sequência nova seja encontrada. A C D E ... 1 2 3 ... A C D E ... 1 2 3 ... Sequência query BLAST Sequências homólogas Perfil Alinhamento múltiplo BLAST Incorporado no perfil Sequências homólogas adicionais Novo Perfil Processo iterativo
Compartilhar