Baixe o app para aproveitar ainda mais
Prévia do material em texto
Alinhamentos de sequências e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e Humanidades - USP “Eu não vim para explicar, eu vim para confundir” Chacrinha Alinhamentos veremos em breve Primeiro: busca de similaridade Contexto http://www.ekac.org/gene.html http://www.fuzzco.com/news/wp-content/uploads/2007/11/genome.jpg Contexto Buscas por sequências (o sentido biológico) • Busca de identidade: – SABER o que é, onde está, etc. • Busca de similaridade: – INFERIR o que é Busca de identidade • Comparar 2 sequências para saber se: – são iguais – possuem uma subsequência em comum Exemplo 1 Localização de subsequência sequência genoma Exemplo 1 Localização de subsequência sequência genoma Exemplo 1 Localização de subsequência sequência genoma BUSCA POR IDENTIDADE Exemplo 2 • Como faço para saber que proteína é essa? MMETERLVLPPPDPLDLPLRAVELGCTGHWELLNLPGAPESSLPHGLPPCAPDLQQEAEQLFLSSPAWLPLHGVEHSARKW QRKTDPWSLLAVLGAPVPSDLQAQRHPTTGQILGYKEVLLENTNLSATTSLSLRRPPGPASQSLWGNPTRYPFWPGGM DEPTITDLNTREEAEEEIDFEKDLLTIPPGFKKGMDFAPKDCPTPAPGLLSLSCLLEPLDLGGGDEDENEAVGQPGGPRG DTVSASPCSAPLARASSLEDLVLKEASTAVSTPEAPEPPSQEQWAIPVDATSPVGDFYRLIPQPAFQWAFEPDVFQKQAI LHLERHDSVFVAAHTSAGKTVVAEYAIALAQKHMTRTIYTSPIKALSNQKFRDFRNTFGDVGLLTGDVQLHPEASCLIMTT EILRSMLYSGSDVIRDLEWVIFDEVHYINDVERGVVWEEVLIMLPDHVSIILLSATVPNALEFADWIGRLKRRQIYVISTVTRP VPLEHYLFTGNSSKTQGELFLLLDSRGAFHTKGYYAAVEAKKERMSKHAQTFGAKQPTHQGGPAQDRGVYLSLLASLRT RAQLPVVVFTFSRGRCDEQASGLTSLDLTTSSEKSEIHLFLQRCLARLRGSDRQLPQVLQMSELLNRGLGVHHSGILPILK EIVEMLFSRGLVKVLFATETFAMGVNMPARTVVFDSMRKHDGSTFRDLLPGEYVQMAGRAGRRGLDPTGTVILLCKGRV PEMADLHRMMMGKPSQLQSQFRLTYTMILNLLRVDALRVEDMMKRSFSEFPSRKDSKAHEQALAELTKRLGALEEPDM TGQLVDLPEYYSWGEELTETQHMIQRRIMESVNGLKSLSAGRVVVVKNQEHHNALGVILQVSSNSTSRVFTTLVLCDKPL SQDPQDRGPATAEVPYPDDLVGFKLFLPEGPCDHTVVKLQPGDMAAITTKVLRVNGEKILEDFSKRQQPKFKKDPPLAA VTTAVQELLRLAQAHPAGPPTLDPVNDLQLKDMSVVEGGLRARKLEELIQGAQCVHSPRFPAQYLKLRERMQIQKEMER LRFLLSDQSLLLFPEYHQRVEVLRTLGYVDEAGTVKLAGRVACAMSSHELLLTELMFDNALSTLRPEEIAALLSGLVCQSP GDAGDQLPNTLKQGIERVRAVAKRIGEVQVACGLNQTVEEFVGELNFGLVEVVYEWARGMPFSELAGLSGTPEGLVVR CIQRLAEMCRSLRGAARLVGEPVLGAKMETAATLLRRDIVFAASLYTQ Exemplo 2 • Como faço para saber que proteína é essa? MMETERLVLPPPDPLDLPLRAVELGCTGHWELLNLPGAPESSLPHGLPPCAPDLQQEAEQLFLSSPAWLPLHGVEHSARKW QRKTDPWSLLAVLGAPVPSDLQAQRHPTTGQILGYKEVLLENTNLSATTSLSLRRPPGPASQSLWGNPTRYPFWPGGM DEPTITDLNTREEAEEEIDFEKDLLTIPPGFKKGMDFAPKDCPTPAPGLLSLSCLLEPLDLGGGDEDENEAVGQPGGPRG DTVSASPCSAPLARASSLEDLVLKEASTAVSTPEAPEPPSQEQWAIPVDATSPVGDFYRLIPQPAFQWAFEPDVFQKQAI LHLERHDSVFVAAHTSAGKTVVAEYAIALAQKHMTRTIYTSPIKALSNQKFRDFRNTFGDVGLLTGDVQLHPEASCLIMTT EILRSMLYSGSDVIRDLEWVIFDEVHYINDVERGVVWEEVLIMLPDHVSIILLSATVPNALEFADWIGRLKRRQIYVISTVTRP VPLEHYLFTGNSSKTQGELFLLLDSRGAFHTKGYYAAVEAKKERMSKHAQTFGAKQPTHQGGPAQDRGVYLSLLASLRT RAQLPVVVFTFSRGRCDEQASGLTSLDLTTSSEKSEIHLFLQRCLARLRGSDRQLPQVLQMSELLNRGLGVHHSGILPILK EIVEMLFSRGLVKVLFATETFAMGVNMPARTVVFDSMRKHDGSTFRDLLPGEYVQMAGRAGRRGLDPTGTVILLCKGRV PEMADLHRMMMGKPSQLQSQFRLTYTMILNLLRVDALRVEDMMKRSFSEFPSRKDSKAHEQALAELTKRLGALEEPDM TGQLVDLPEYYSWGEELTETQHMIQRRIMESVNGLKSLSAGRVVVVKNQEHHNALGVILQVSSNSTSRVFTTLVLCDKPL SQDPQDRGPATAEVPYPDDLVGFKLFLPEGPCDHTVVKLQPGDMAAITTKVLRVNGEKILEDFSKRQQPKFKKDPPLAA VTTAVQELLRLAQAHPAGPPTLDPVNDLQLKDMSVVEGGLRARKLEELIQGAQCVHSPRFPAQYLKLRERMQIQKEMER LRFLLSDQSLLLFPEYHQRVEVLRTLGYVDEAGTVKLAGRVACAMSSHELLLTELMFDNALSTLRPEEIAALLSGLVCQSP GDAGDQLPNTLKQGIERVRAVAKRIGEVQVACGLNQTVEEFVGELNFGLVEVVYEWARGMPFSELAGLSGTPEGLVVR CIQRLAEMCRSLRGAARLVGEPVLGAKMETAATLLRRDIVFAASLYTQ Posso procurá-la em bancos de proteínas anotadas (procuro por ela, ou seja, por uma sequência idêntica) Exemplo 2 • Como faço para saber que proteína é essa? MMETERLVLPPPDPLDLPLRAVELGCTGHWELLNLPGAPESSLPHGLPPCAPDLQQEAEQLFLSSPAWLPLHGVEHSARKW QRKTDPWSLLAVLGAPVPSDLQAQRHPTTGQILGYKEVLLENTNLSATTSLSLRRPPGPASQSLWGNPTRYPFWPGGM DEPTITDLNTREEAEEEIDFEKDLLTIPPGFKKGMDFAPKDCPTPAPGLLSLSCLLEPLDLGGGDEDENEAVGQPGGPRG DTVSASPCSAPLARASSLEDLVLKEASTAVSTPEAPEPPSQEQWAIPVDATSPVGDFYRLIPQPAFQWAFEPDVFQKQAI LHLERHDSVFVAAHTSAGKTVVAEYAIALAQKHMTRTIYTSPIKALSNQKFRDFRNTFGDVGLLTGDVQLHPEASCLIMTT EILRSMLYSGSDVIRDLEWVIFDEVHYINDVERGVVWEEVLIMLPDHVSIILLSATVPNALEFADWIGRLKRRQIYVISTVTRP VPLEHYLFTGNSSKTQGELFLLLDSRGAFHTKGYYAAVEAKKERMSKHAQTFGAKQPTHQGGPAQDRGVYLSLLASLRT RAQLPVVVFTFSRGRCDEQASGLTSLDLTTSSEKSEIHLFLQRCLARLRGSDRQLPQVLQMSELLNRGLGVHHSGILPILK EIVEMLFSRGLVKVLFATETFAMGVNMPARTVVFDSMRKHDGSTFRDLLPGEYVQMAGRAGRRGLDPTGTVILLCKGRV PEMADLHRMMMGKPSQLQSQFRLTYTMILNLLRVDALRVEDMMKRSFSEFPSRKDSKAHEQALAELTKRLGALEEPDM TGQLVDLPEYYSWGEELTETQHMIQRRIMESVNGLKSLSAGRVVVVKNQEHHNALGVILQVSSNSTSRVFTTLVLCDKPL SQDPQDRGPATAEVPYPDDLVGFKLFLPEGPCDHTVVKLQPGDMAAITTKVLRVNGEKILEDFSKRQQPKFKKDPPLAA VTTAVQELLRLAQAHPAGPPTLDPVNDLQLKDMSVVEGGLRARKLEELIQGAQCVHSPRFPAQYLKLRERMQIQKEMER LRFLLSDQSLLLFPEYHQRVEVLRTLGYVDEAGTVKLAGRVACAMSSHELLLTELMFDNALSTLRPEEIAALLSGLVCQSP GDAGDQLPNTLKQGIERVRAVAKRIGEVQVACGLNQTVEEFVGELNFGLVEVVYEWARGMPFSELAGLSGTPEGLVVR CIQRLAEMCRSLRGAARLVGEPVLGAKMETAATLLRRDIVFAASLYTQ Posso procurá-la em bancos de proteínas anotadas (procuro por ela, ou seja, por uma sequência idêntica) BUSCA POR IDENTIDADE Exemplo 3 • Como faço para saber que proteína é essa? MMETERLVLPPPDPLDLPLRAVELGCTGHWELLNLPGAPESSLPHGLPPCAPDLQQEAEQLFLSSPAWLPLHGVEHSARKW QRKTDPWSLLAVLGAPVPSDLQAQRHPTTGQILGYKEVLLENTNLSATTSLSLRRPPGPASQSLWGNPTRYPFWPGGM DEPTITDLNTREEAEEEIDFEKDLLTIPPGFKKGMDFAPKDCPTPAPGLLSLSCLLEPLDLGGGDEDENEAVGQPGGPRG DTVSASPCSAPLARASSLEDLVLKEASTAVSTPEAPEPPSQEQWAIPVDATSPVGDFYRLIPQPAFQWAFEPDVFQKQAI LHLERHDSVFVAAHTSAGKTVVAEYAIALAQKHMTRTIYTSPIKALSNQKFRDFRNTFGDVGLLTGDVQLHPEASCLIMTT EILRSMLYSGSDVIRDLEWVIFDEVHYINDVERGVVWEEVLIMLPDHVSIILLSATVPNALEFADWIGRLKRRQIYVISTVTRP VPLEHYLFTGNSSKTQGELFLLLDSRGAFHTKGYYAAVEAKKERMSKHAQTFGAKQPTHQGGPAQDRGVYLSLLASLRT RAQLPVVVFTFSRGRCDEQASGLTSLDLTTSSEKSEIHLFLQRCLARLRGSDRQLPQVLQMSELLNRGLGVHHSGILPILK EIVEMLFSRGLVKVLFATETFAMGVNMPARTVVFDSMRKHDGSTFRDLLPGEYVQMAGRAGRRGLDPTGTVILLCKGRV PEMADLHRMMMGKPSQLQSQFRLTYTMILNLLRVDALRVEDMMKRSFSEFPSRKDSKAHEQALAELTKRLGALEEPDM TGQLVDLPEYYSWGEELTETQHMIQRRIMESVNGLKSLSAGRVVVVKNQEHHNALGVILQVSSNSTSRVFTTLVLCDKPL SQDPQDRGPATAEVPYPDDLVGFKLFLPEGPCDHTVVKLQPGDMAAITTKVLRVNGEKILEDFSKRQQPKFKKDPPLAA VTTAVQELLRLAQAHPAGPPTLDPVNDLQLKDMSVVEGGLRARKLEELIQGAQCVHSPRFPAQYLKLRERMQIQKEMER LRFLLSDQSLLLFPEYHQRVEVLRTLGYVDEAGTVKLAGRVACAMSSHELLLTELMFDNALSTLRPEEIAALLSGLVCQSP GDAGDQLPNTLKQGIERVRAVAKRIGEVQVACGLNQTVEEFVGELNFGLVEVVYEWARGMPFSELAGLSGTPEGLVVR CIQRLAEMCRSLRGAARLVGEPVLGAKMETAATLLRRDIVFAASLYTQ Posso procurá-la em bancos de proteínas anotadas (procuro por ela, ou seja, por uma sequência idêntica) E SE EU NÃO ENCONTRASSE UMA IDÊNTICA, MAS UMA SIMILAR? Inferência de função a partir de similaridade Inferência de função a partir de similaridade Inferência de função a partir de similaridade Nem sempre funciona... 2 sequências cacttttaactctctttccaaagtccttttcatctttccttcacagtacttgttcactat cacttttaactctctttccaaagaacttttcatctttccctcacggtacttgtttgctat Processo evolutivo Homologia, paralogia e ortologia • Homologia: 2 sequências são homólogas se elas possuem uma sequência ancestral comum • Ortologia • Paralogia Ortologia: homologia por especiação Paralogia: homologia por duplicação Homologia, paralogia e ortologia Paralogia Ortologia Aplicações de busca de similaridade • ? Aplicações de busca de similaridade • Predição de genes • Predição de estrutura – de proteínas – de RNA/DNA • Inferência de árvores filogenéticas • Busca de polimorfismos / marcadores • CUIDADO: Se duas (ou mais) sequências são parecidas: – elas podem ser homólogas – elas podem ter funções similares – elas podem ter a mesma estrutura Identidade, similaridade e homologia Como encontrar identidade e similaridade? ALINHAMENTOS! Como encontrar identidade e similaridade? Alinhamentos de 2 sequências • “Deixar 2 sequências o mais parecidas possível” ROSAVERMELHA AMOROSOVERME • Ajustando as posições de suas letras, se necessário usando espaços: Alinhamentos de 2 sequências • “Deixar 2 sequências o mais parecidas possível” ROSAVERMELHA AMOROSOVERME ---ROSAVERMELHA AMOROSOVERME--- • Ajustandoas posições de suas letras, se necessário usando espaços: • Alinhamentos permitem comparações entre as sequências – Identidade – Similaridade ROSAVERMELHA AMOROSOVERME ---ROSAVERMELHA AMOROSOVERME--- ROSAVERMELHA | AMOROSOVERME Identidade: 8% (1/12) ---ROSAVERMELHA ||| ||||| AMOROSOVERME--- Identidade: 53% (8/15) Sistema de scores • Pontos para match (ex: +2) • Penalidades para mismatch (ex: -1) • Penalidades para gap – abertura (ex: -3) – extensão (ex: -1) ROSAVERMELHA | AMOROSOVERME Identidade: 8% (1/12) SCORE: ??? ---ROSAVERMELHA ||| ||||| AMOROSOVERME--- Identidade: 53% (8/15) SCORE: ??? ROSAVERMELHA | AMOROSOVERME Identidade: 8% (1/12) SCORE: -9 ---ROSAVERMELHA ||| ||||| AMOROSOVERME--- Identidade: 53% (8/15) SCORE: ??? ROSAVERMELHA | AMOROSOVERME Identidade: 8% (1/12) SCORE: -9 ---ROSAVERMELHA ||| ||||| AMOROSOVERME--- Identidade: 53% (8/15) SCORE: +3 ROSAVERMELHA | AMOROSOVERME Identidade: 8% (1/12) SCORE: -9 ---ROSAVERMELHA ||| ||||| AMOROSOVERME--- Identidade: 53% (8/15) SCORE: +3 Para um dado sistema de score, calculo o alinhamento de maior score (alinhamento ótimo) PROBLEMA DE OTIMIZAÇÃO Similaridade entre os aminoácidos Identidade, similaridade e homologia Identidade Similaridade Homologia Tipo de Medida Quantitativa Quantitativa QUALITATIVA Sentido quantos idênticos quantos parecidos TEM ou NÃO TEM um ancestral comum • Matrizes 20x20 • Algumas matrizes: – PAMs – BLOSUMs Matrizes de score (matrizes de substitição de aa) Reference: Henikoff, S. and Henikoff, J. G. (1992). Amino acid substitution matrices from protein blocks. Proc. Natl. Acad. Sci. USA 89: 10915-10919. A R N D C Q E G H I L K M F P S T W Y V B Z X * A 4 -1 -2 -2 0 -1 -1 0 -2 -1 -1 -1 -1 -2 -1 1 0 -3 -2 0 -2 -1 0 -4 R -1 5 0 -2 -3 1 0 -2 0 -3 -2 2 -1 -3 -2 -1 -1 -3 -2 -3 -1 0 -1 -4 N -2 0 6 1 -3 0 0 0 1 -3 -3 0 -2 -3 -2 1 0 -4 -2 -3 3 0 -1 -4 D -2 -2 1 6 -3 0 2 -1 -1 -3 -4 -1 -3 -3 -1 0 -1 -4 -3 -3 4 1 -1 -4 C 0 -3 -3 -3 9 -3 -4 -3 -3 -1 -1 -3 -1 -2 -3 -1 -1 -2 -2 -1 -3 -3 -2 -4 Q -1 1 0 0 -3 5 2 -2 0 -3 -2 1 0 -3 -1 0 -1 -2 -1 -2 0 3 -1 -4 E -1 0 0 2 -4 2 5 -2 0 -3 -3 1 -2 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4 G 0 -2 0 -1 -3 -2 -2 6 -2 -4 -4 -2 -3 -3 -2 0 -2 -2 -3 -3 -1 -2 -1 -4 H -2 0 1 -1 -3 0 0 -2 8 -3 -3 -1 -2 -1 -2 -1 -2 -2 2 -3 0 0 -1 -4 I -1 -3 -3 -3 -1 -3 -3 -4 -3 4 2 -3 1 0 -3 -2 -1 -3 -1 3 -3 -3 -1 -4 L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4 -2 2 0 -3 -2 -1 -2 -1 1 -4 -3 -1 -4 K -1 2 0 -1 -3 1 1 -2 -1 -3 -2 5 -1 -3 -1 0 -1 -3 -2 -2 0 1 -1 -4 M -1 -1 -2 -3 -1 0 -2 -3 -2 1 2 -1 5 0 -2 -1 -1 -1 -1 1 -3 -1 -1 -4 F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6 -4 -2 -2 1 3 -1 -3 -3 -1 -4 P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7 -1 -1 -4 -3 -2 -2 -1 -2 -4 S 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4 1 -3 -2 -2 0 0 0 -4 T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5 -2 -2 0 -1 -1 0 -4 W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11 2 -3 -4 -3 -2 -4 Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7 -1 -3 -2 -1 -4 V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4 -3 -2 -1 -4 B -2 -1 3 4 -3 0 1 -1 0 -3 -4 0 -3 -3 -2 0 -1 -4 -3 -3 4 1 -1 -4 Z -1 0 0 1 -3 3 4 -2 0 -3 -3 1 -1 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4 X 0 -1 -1 -1 -2 -1 -1 -1 -1 -1 -1 -1 -1 -1 -2 0 0 -2 -1 -1 -1 -1 -1 -4 * -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 1 • Matrizes 20x20 • Algumas matrizes: – PAMs – BLOSUMs Matrizes de score (matrizes de substitição de aa) Também pode usar matrizes de nucleotídeos.... • Matrizes 20x20 • Algumas matrizes: – PAMs – BLOSUMs Matrizes de score (matrizes de substitição de aa) Também pode usar matrizes de nucleotídeos.... Veremos sobre essas matrizes mais adiante.... Alinhamentos • Pairwise: 2 sequências • Múltiplo: mais de 2 sequências Tipos de alinhamentos • Global • Semi-global • Local Alinhamento global QUERIDA---ROSAVERMELHA |||| ||| ||||| QUEROUMAMOROSOVERME--- Alinhamento global • Aplicação: – comparar 2 proteínas (ex. para inferir estrutura secundária) Estrutura 3D de proteínas Alinhamento global • Aplicação: – comparar 2 proteínas (ex. para inferir estrutura secundária) Alinhamento múltiplo Alinhamento global • Outras aplicações – Identificação de SNPs (single nucleotide polimorphism) e outros polimorfismos – Identificação de domínios proteicos mais conservados – Identificação de isoformas – Construção de árvores filogenéticas Helicases humanas (SNPs) Várias helicases (domínios) Várias helicases (domínios) Identificação de isoformas Identificação de isoformas Alinhamento pairwise global • Algoritmo Exato: Needleman-Wunsch (pairwise) • Programas: – needle (EMBOSS) – stretcher (EMBOSS) (demora mais, mas economiza memória) – FASTA Como calcular o alinhamento • Matriz de programação dinâmica Needleman-Wunsch Si,j = máximo( Si-1, j-1 + s(ai,bj) (match/mismatch na diagonal), Si,j-1 + w (gap na sequência #1), Si-1,j + w (gap na sequência #2) ) Needleman-Wunsch Match: +5 Mismatch: -3 Gap: -4 5 1 -3 Needleman-Wunsch Match: +5 Mismatch: -3 Gap: -4 Needleman-Wunsch Match: +5 Mismatch: -3 Gap: -4 Traceback Traceback Poderia ter valores negativos!!! G A A T T C A G T T A | | | | | | G G A – T C – G - — A Complexidade : ? Complexidade : O(L2) Alinhamento Múltiplo global exato • Algoritmo: generalização do Needleman-Wunsch Alinhamento Múltiplo global exato • Algoritmo: generalização do Needleman-Wunsch • Para alinhar 3 sequências, preciso construir um cubo (3D) Alinhamento Múltiplo global exato • Algoritmo: generalização do Needleman-Wunsch • Para alinhar 3 sequências, preciso construir um cubo (3D) • Para alinhar 4 sequências, preciso construir um cubo de 4 dimensões Alinhamento Múltiplo global exato • Algoritmo: generalização do Needleman-Wunsch • Para alinhar 3 sequências, preciso construir um cubo (3D) • Para alinhar 4 sequências, preciso construir um cubo de 4 dimensões • ... • Para alinhar N sequências, preciso construir um cubo de ? dimensões Alinhamento Múltiplo global exato • Algoritmo: generalização do Needleman-Wunsch • Para alinhar 3 sequências, preciso construir um cubo (3D) • Para alinhar 4 sequências, preciso construir um cubo de 4 dimensões • ... • Para alinhar N sequências, preciso construir um cubo de N dimensões • Complexidade: ? Alinhamento Múltiplo global exato • Algoritmo: generalização do Needleman-Wunsch • Para alinhar 3 sequências, preciso construir um cubo (3D) • Para alinhar 4 sequências, preciso construir um cubo de 4 dimensões • ... • Para alinhar N sequências, preciso construir um cubo de N dimensões • Complexidade: O(LN) Alternativa 1: alinhamento progressivo • Vários alinhamentos pairwise: – Entre 2 sequências – Entre 1 alinhamento e 1 sequência – Entre 2 alinhamentos • Diferenças entre algoritmos: – Escolha do próximo (árvore guia?) – 1 único alinhamento crescente ou vários – Procedimento de alinhamento e score – Realinha sequências já alinhadas? (iterativos) Alinhamento progressivo • Algumas ferramentas: – ClustalW / ClustalX – T-Coffee – Muscle Sobre alinhamentos múltiplos • NÃO SÃO EXATOS! • Necessita alguma edição manual • Parece não haver um consistentemente melhor que todos Outra alternativa: Profile HMM (Hidden Markov Models) Outra aplicação • Criação de modelos e identificação de RNAs não codificantes (ou outros elementos) com estrutura secundária • Ex: microRNAs Alinhamento estrutural Alinhamento semi-global ---ROSAVERMELHA ||| ||||| AMOROSOVERME--- Alinhamento semi-global • Aplicação: montagem de genomas! Sequenciamento shot-gun Alinhamentosemi-global • Aplicação: montagem de genomas! Alinhamento local QUERIDA---ROSAVERMELHA |||| ||| ||||| QUEROUMAMOROSOVERME--- QUER |||| QUER ROSAVERME ||| ||||| ROSOVERME Alinhamento local • Aplicações: – Encontrar um gene em um genoma sequência genoma Alinhamento local • Aplicações: – Identificar possíveis homólogos em um banco de dados MMETERLVLPPPDPLDLPLRAVELGCTGHWELLNLPGAPESSLPHGLPPCAPDLQQEAEQLFLSSPAWLPLHGVEHSARKWQ RKTDPWSLLAVLGAPVPSDLQAQRHPTTGQILGYKEVLLENTNLSATTSLSLRRPPGPASQSLWGNPTRYPFWPGGMDEPTIT DLNTREEAEEEIDFEKDLLTIPPGFKKGMDFAPKDCPTPAPGLLSLSCLLEPLDLGGGDEDENEAVGQPGGPRGDTVSASPCS APLARASSLEDLVLKEASTAVSTPEAPEPPSQEQWAIPVDATSPVGDFYRLIPQPAFQWAFEPDVFQKQAILHLERHDSVFVAA HTSAGKTVVAEYAIALAQKHMTRTIYTSPIKALSNQKFRDFRNTFGDVGLLTGDVQLHPEASCLIMTTEILRSMLYSGSDVIRDLE WVIFDEVHYINDVERGVVWEEVLIMLPDHVSIILLSATVPNALEFADWIGRLKRRQIYVISTVTRPVPLEHYLFTGNSSKTQGELF LLLDSRGAFHTKGYYAAVEAKKERMSKHAQTFGAKQPTHQGGPAQDRGVYLSLLASLRTRAQLPVVVFTFSRGRCDEQASGL TSLDLTTSSEKSEIHLFLQRCLARLRGSDRQLPQVLQMSELLNRGLGVHHSGILPILKEIVEMLFSRGLVKVLFATETFAMGVNM PARTVVFDSMRKHDGSTFRDLLPGEYVQMAGRAGRRGLDPTGTVILLCKGRVPEMADLHRMMMGKPSQLQSQFRLTYTMIL NLLRVDALRVEDMMKRSFSEFPSRKDSKAHEQALAELTKRLGALEEPDMTGQLVDLPEYYSWGEELTETQHMIQRRIMESVN GLKSLSAGRVVVVKNQEHHNALGVILQVSSNSTSRVFTTLVLCDKPLSQDPQDRGPATAEVPYPDDLVGFKLFLPEGPCDHTV VKLQPGDMAAITTKVLRVNGEKILEDFSKRQQPKFKKDPPLAAVTTAVQELLRLAQAHPAGPPTLDPVNDLQLKDMSVVEGGL RARKLEELIQGAQCVHSPRFPAQYLKLRERMQIQKEMERLRFLLSDQSLLLFPEYHQRVEVLRTLGYVDEAGTVKLAGRVACA MSSHELLLTELMFDNALSTLRPEEIAALLSGLVCQSPGDAGDQLPNTLKQGIERVRAVAKRIGEVQVACGLNQTVEEFVGELNF GLVEVVYEWARGMPFSELAGLSGTPEGLVVRCIQRLAEMCRSLRGAARLVGEPVLGAKMETAATLLRRDIVFAASLYTQ Alinhamento Local • Algoritmo Smith-Waterman • Programas – BLAST (NCBI / WU) – BLAT (mais preciso – bom para localização) – water (EMBOSS) – matcher (demora mais, mas economiza memória) – cross_match (swat) – bom para mascaramento – FASTA BLAST Basic Local Alignment Search Tool • NCBI BLAST ou WU-BLAST • Heurísticas “Palavras” do BLAST (W) MLI LII MLIIKRDELVISWASHERE sequência query IIK IKR KRD RDE DEL ELV LVI VIS ISW SWA WAS ASH SHE HER ERE todas as palavras de tamanho 3 com sobreposição Formato FASTA >Identificador da sequência GCCCCCGGCCCCGCCCCGGCCCCGCCCCCGGCCCCGCCCCGCAAGGGTC ACAGGTCACGGGGCGGGGCCGAGGCGGAAGCGCCCGCAGCCCGGTACCG GCTCCTCCTGGGCTCCCTCTAGCGCCTTCCCCCCGGCCCGACTCCGCTG GTCAGCGCCAAGTGACTTACGCCCCCGACCTCTGAGCCCGGACCGCTAG Significância de scores • E-value (s): número de hits com score tão bom ou melhor que s puramente por chance em um banco de dados aleatório, do mesmo tamanho e com a mesma composição de bases • Quanto menor... Significância de scores • E-value (s): número de hits com score tão bom ou melhor que s puramente por chance em um banco de dados aleatório, do mesmo tamanho e com a mesma composição de bases • Quanto menor... ... melhor!!!! Significância de scores • P-value (s): probabilidade de obter um score tão bom ou melhor que s puramente por chance em um banco de dados aleatório, do mesmo tamanho e com a mesma composição de bases • E-value (s): número de hits com score tão bom ou melhor que s puramente por chance em um banco de dados aleatório, do mesmo tamanho e com a mesma composição de bases Significância de scores • E-value é um número real não negativo • Quanto menor... ... melhor!!!! • E-value depende de... E(S) = Kmne- S ... por isso não existe número mágico Programas standalone • Programas como Blast, BLAT e muuuuitos outros: – via web server – standalone (linha de comando) – Perl scripts!!!! • netblast: linha de comando, mas executa remotamente BLAT – Blast Like Alignment Tool • Mais rápido e mais preciso (para sequências altamente similares) • Aplicação: mapeamento de sequências (ex: transcritos) • Mantém um índice de todo o banco em memória (non-overlapping k-mers) Cuidado com anotações erradas!!! • Cuidado com bancos não “curados” Voltando ao sistema de score... • Match/mismatch pode ser substituído por – uma matriz 4x4 (nucleotídeos) – uma matriz 20x20 (aminoácidos) Similaridade entre os aminoácidos Matrizes de score (matrizes de substituição) Reference: Henikoff, S. and Henikoff, J. G. (1992). Amino acid substitution matrices from protein blocks. Proc. Natl. Acad. Sci. USA 89: 10915-10919. A R N D C Q E G H I L K M F P S T W Y V B Z X * A 4 -1 -2 -2 0 -1 -1 0 -2 -1 -1 -1 -1 -2 -1 1 0 -3 -2 0 -2 -1 0 -4 R -1 5 0 -2 -3 1 0 -2 0 -3 -2 2 -1 -3 -2 -1 -1 -3 -2 -3 -1 0 -1 -4 N -2 0 6 1 -3 0 0 0 1 -3 -3 0 -2 -3 -2 1 0 -4 -2 -3 3 0 -1 -4 D -2 -2 1 6 -3 0 2 -1 -1 -3 -4 -1 -3 -3 -1 0 -1 -4 -3 -3 4 1 -1 -4 C 0 -3 -3 -3 9 -3 -4 -3 -3 -1 -1 -3 -1 -2 -3 -1 -1 -2 -2 -1 -3 -3 -2 -4 Q -1 1 0 0 -3 5 2 -2 0 -3 -2 1 0 -3 -1 0 -1 -2 -1 -2 0 3 -1 -4 E -1 0 0 2 -4 2 5 -2 0 -3 -3 1 -2 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4 G 0 -2 0 -1 -3 -2 -2 6 -2 -4 -4 -2 -3 -3 -2 0 -2 -2 -3 -3 -1 -2 -1 -4 H -2 0 1 -1 -3 0 0 -2 8 -3 -3 -1 -2 -1 -2 -1 -2 -2 2 -3 0 0 -1 -4 I -1 -3 -3 -3 -1 -3 -3 -4 -3 4 2 -3 1 0 -3 -2 -1 -3 -1 3 -3 -3 -1 -4 L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4 -2 2 0 -3 -2 -1 -2 -1 1 -4 -3 -1 -4 K -1 2 0 -1 -3 1 1 -2 -1 -3 -2 5 -1 -3 -1 0 -1 -3 -2 -2 0 1 -1 -4 M -1 -1 -2 -3 -1 0 -2 -3 -2 1 2 -1 5 0 -2 -1 -1 -1 -1 1 -3 -1 -1 -4 F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6 -4 -2 -2 1 3 -1 -3 -3 -1 -4 P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7 -1 -1 -4 -3 -2 -2 -1 -2 -4 S 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4 1 -3 -2 -2 0 0 0 -4 T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5 -2 -2 0 -1 -1 0 -4 W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11 2 -3 -4 -3 -2 -4 Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7 -1 -3 -2 -1 -4 V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4 -3 -2 -1 -4 B -2 -1 3 4 -3 0 1 -1 0 -3 -4 0 -3 -3 -2 0 -1 -4 -3 -3 4 1 -1 -4 Z -1 0 0 1 -3 3 4 -2 0 -3 -3 1 -1 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4 X 0 -1 -1 -1 -2 -1 -1 -1 -1 -1 -1 -1 -1 -1 -2 0 0 -2 -1 -1 -1 -1 -1 -4 * -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 1 Matrizes de score (matrizes de substituição) • qij: probabilidade do aminoácido i ser substituído pelo aminoácido j • pi: probabilidade do aminoácido i mij = log (qij / pi pj) = mij Matrizes de score (matrizes de substituição) • qij: probabilidade do aminoácido i ser substituído pelo aminoácido j • pi: probabilidade do aminoácido i mij = log (qij / pi pj) = mij Matrizes de score (matrizes de substituição) • qij: probabilidade do aminoácido i ser substituído pelo aminoácido j • pi: probabilidade do aminoácido i mij = 1/ log (qij / pi pj) = mij • Como achar qij, pi e pj? • Algumas matrizes: – PAMs – BLOSUMs Matrizes de score (matrizes de substitição) Matrizes PAM de aminoácidos – Point Accepted Mutation • Dayhoff, 1978 • Processo: – Alinhamento de conjuntos de sequências relacionadas (85% id) – Construção de árvores filogenéticas – Cálculo da frequência de substituição de cada par de aminoácido – Normalização das frequências: 1% de mudança ~ 50 milhões de anos (PAM1) Matrizes PAM de aminoácidos – Point Accepted Mutation • Em um período de 2 PAMs, pode ter havido A ?, e então ? D • Extrapolação: PAM2 = PAM1 x PAM1 PAMy = PAM1 x PAM1 x .... x PAM1 • PAM120: 40% de identidade • PAM250: 20% de identidade PAM250 Diagonal Hidrofóbicos Hidrofílicos Problemas das PAMs • Inferida por um conjunto restrito de proteínas • Extrapolação • Muitas novas proteínas foram sequenciadas desde 78... Matrizes BLOSUM de aminoácidos • Henikoff & Henikoff, 1992 • Alinhamentos de blocos de vários grupos de proteínas relacionadas (banco de dados BLOCKS) • Cálculo de frequência de substituição de cada par de aminoácido • BLOSUMx: blocos de sequências com no máximo x% de identidade • Ex: BLOSUM62 e BLOSUM85 BLOSUM62 Reference: Henikoff, S. and Henikoff,J. G. (1992). Amino acid substitution matrices from protein blocks. Proc. Natl. Acad. Sci. USA 89: 10915-10919. A R N D C Q E G H I L K M F P S T W Y V B Z X * A 4 -1 -2 -2 0 -1 -1 0 -2 -1 -1 -1 -1 -2 -1 1 0 -3 -2 0 -2 -1 0 -4 R -1 5 0 -2 -3 1 0 -2 0 -3 -2 2 -1 -3 -2 -1 -1 -3 -2 -3 -1 0 -1 -4 N -2 0 6 1 -3 0 0 0 1 -3 -3 0 -2 -3 -2 1 0 -4 -2 -3 3 0 -1 -4 D -2 -2 1 6 -3 0 2 -1 -1 -3 -4 -1 -3 -3 -1 0 -1 -4 -3 -3 4 1 -1 -4 C 0 -3 -3 -3 9 -3 -4 -3 -3 -1 -1 -3 -1 -2 -3 -1 -1 -2 -2 -1 -3 -3 -2 -4 Q -1 1 0 0 -3 5 2 -2 0 -3 -2 1 0 -3 -1 0 -1 -2 -1 -2 0 3 -1 -4 E -1 0 0 2 -4 2 5 -2 0 -3 -3 1 -2 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4 G 0 -2 0 -1 -3 -2 -2 6 -2 -4 -4 -2 -3 -3 -2 0 -2 -2 -3 -3 -1 -2 -1 -4 H -2 0 1 -1 -3 0 0 -2 8 -3 -3 -1 -2 -1 -2 -1 -2 -2 2 -3 0 0 -1 -4 I -1 -3 -3 -3 -1 -3 -3 -4 -3 4 2 -3 1 0 -3 -2 -1 -3 -1 3 -3 -3 -1 -4 L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4 -2 2 0 -3 -2 -1 -2 -1 1 -4 -3 -1 -4 K -1 2 0 -1 -3 1 1 -2 -1 -3 -2 5 -1 -3 -1 0 -1 -3 -2 -2 0 1 -1 -4 M -1 -1 -2 -3 -1 0 -2 -3 -2 1 2 -1 5 0 -2 -1 -1 -1 -1 1 -3 -1 -1 -4 F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6 -4 -2 -2 1 3 -1 -3 -3 -1 -4 P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7 -1 -1 -4 -3 -2 -2 -1 -2 -4 S 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4 1 -3 -2 -2 0 0 0 -4 T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5 -2 -2 0 -1 -1 0 -4 W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11 2 -3 -4 -3 -2 -4 Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7 -1 -3 -2 -1 -4 V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4 -3 -2 -1 -4 B -2 -1 3 4 -3 0 1 -1 0 -3 -4 0 -3 -3 -2 0 -1 -4 -3 -3 4 1 -1 -4 Z -1 0 0 1 -3 3 4 -2 0 -3 -3 1 -1 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4 X 0 -1 -1 -1 -2 -1 -1 -1 -1 -1 -1 -1 -1 -1 -2 0 0 -2 -1 -1 -1 -1 -1 -4 * -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 1 PAMs e BLOSUMs • Para encontrar alinhamentos mais curtos e com maior similaridade: – PAMs – BLOSUMs • Para encontrar alinhamentos mais longos e com menor similaridade: – PAMs – BLOSUMs PAMs e BLOSUMs • Para encontrar alinhamentos mais curtos e com maior similaridade: – PAMs – BLOSUMs • Para encontrar alinhamentos mais longos e com menor similaridade: – PAMs – BLOSUMs mais baixas mais altas PAMs e BLOSUMs • Para encontrar alinhamentos mais curtos e com maior similaridade: – PAMs – BLOSUMs • Para encontrar alinhamentos mais longos e com menor similaridade: – PAMs – BLOSUMs mais baixas mais baixas mais altas mais altas Papel dos gaps • Inserções / deleções GLOBAL LOCAL MUITO ALTAS Inibir trechos de gap → alinhamentos ruins (muitos mismatches) Inibir trechos de gap → poucos blocos alinhados MUITO BAIXAS Muitos gaps espalhados pelo alinhamento (alinhamento ruim) Muitos gaps espalhados pelo alinhamento (alinhamento ruim e possivelmente maior do que deveria) Referências Caprichado: Mount - http://www.bioinformaticsonline.org/ Básico: O'Reilly - http://www.oreilly.com/catalog/bioskills/ BLAST: http://www.oreilly.com/catalog/blast/ Durbin R, Eddy S, Krogh A, Mitchison G. (1998). Biological sequence analysis: probabilistic models of proteins and nucleic acids, Cambridge University Press, 1998.
Compartilhar