Baixe o app para aproveitar ainda mais
Prévia do material em texto
Dr. rer. nat. Diego Mauricio Riaño Pachón Laboratório de Biologia Computacional, Evolutiva e de Sistemas Centro de Energia Nuclear na Agricultura Universidade de São Paulo diego.riano@cena.usp.br http://labbces.cena.usp.br/ CEN0485 – Introdução à Bioinformática Comparação de sequências II: Alinhamentos de pares de sequências (Globais y Locais); Matrizes de Substituição (PAM, BLOSUM); Métodos Heurísticos . CEN0485 – Introdução à Bioinformática 1 2 Alinhamento de sequências CEN0485 – Introdução à Bioinformática 3 A escolha do alinhamento ótimo e a semelhança entre um par de sequências depende da função de custos que seja usada match -1 mismatch 3 gap 1 Função de custos match -1 mismatch 3 gap 1 CEN0485 – Introdução à Bioinformática Alinhamento de sequências 4 Para uma função de custos especificada qual é o melhor alinhamento possível? CEN0485 – Introdução à Bioinformática 4 Alinhamento de sequências – Similaridade 5 O que em realidade precisamos saber e se as duas sequencias são homologas ou não Estratégia: Comparar a probabilidade que as duas sequencias sejam homologas, com a probabilidade que não sejam. Convenientemente isto pode ser avaliado para cada uma das posições do alinhamento. Eddy SA. 2004. Where did the BLOSUM62 alignment score matrix come from?. Nature Biotech. 22:1035-1036. Precisamos calcular uma pontuação para cada um dos alinhamentos possíveis. Essa pontuação tem que refletir a probabilidade que as sequencias sejam homologas, e deveria permitir escolher o melhor alinhamento Para fazer isto temos dois modelos que atribuem probabilidades para cada caso (homologa vs não homologa), e depois consideram a quociente entre essas duas probabilidades; Modelo aleatório y modelo de pareamento (match) Durbin R, Eddy S, Krogh A & Mitchinson G. 1998. Biological Sequence Analysis: probabilistic models of proteins and nucleic acids. Cambridge University Press. CEN0485 – Introdução à Bioinformática 5 Alinhamento de sequências – Similaridade 6 Modelo aleatório É o modelo mais simples. Assume que o resíduo (nucleotídeo ou amino ácido) ocorre independentemente e com frequência fa. Então a probabilidade de observar os resíduos a y b é Durbin R, Eddy S, Krogh A & Mitchinson G. 1998. Biological Sequence Analysis: probabilistic models of proteins and nucleic acids. Cambridge University Press. Eddy SA. 2004. Where did the BLOSUM62 alignment score matrix come from?. Nature Biotech. 22:1035-1036. CEN0485 – Introdução à Bioinformática 6 7 Modelo de pareamento Neste modelo os pares de residuos alinhados aparecem com uma probabilidade conjunta pab Durbin R, Eddy S, Krogh A & Mitchinson G. 1998. Biological Sequence Analysis: probabilistic models of proteins and nucleic acids. Cambridge University Press. Eddy SA. 2004. Where did the BLOSUM62 alignment score matrix come from?. Nature Biotech. 22:1035-1036. Vocês podem pensar que pab é a probabilidade que os resíduos a y b se derivem de forma independente a partir de um resíduo original e desconhecido c no seu ancestral comum (c pode ser o mesmo a e/ou b) Alinhamento de sequências – Similaridade CEN0485 – Introdução à Bioinformática 7 8 Odds Ratio = Quociente de oportunidades Durbin R, Eddy S, Krogh A & Mitchinson G. 1998. Biological Sequence Analysis: probabilistic models of proteins and nucleic acids. Cambridge University Press. Eddy SA. 2004. Where did the BLOSUM62 alignment score matrix come from?. Nature Biotech. 22:1035-1036. A expressão anterior é válida para um par de resíduos, para a sequência como um todo, podemos assumir que cada posição é independente, assim a probabilidade final é o produto das probabilidades em cada posição: Alinhamento de sequências – Similaridade CEN0485 – Introdução à Bioinformática 8 9 Log Odds Ratio Durbin R, Eddy S, Krogh A & Mitchinson G. 1998. Biological Sequence Analysis: probabilistic models of proteins and nucleic acids. Cambridge University Press. Eddy SA. 2004. Where did the BLOSUM62 alignment score matrix come from?. Nature Biotech. 22:1035-1036. Por conveniência transformamos o Odds Ratio no log-Odds Ratio, assim chegamos a: Onde: Isto É a matriz de substituição Pontuações positivas (s(a,b)) indicam substituições conservativas, no sentido estatístico. Pontuações negativas indicam substituições no-conservativas Alinhamento de sequências – Similaridade CEN0485 – Introdução à Bioinformática 9 10 Eddy SA. 2004. Where did the BLOSUM62 alignment score matrix come from?. Nature Biotech. 22:1035-1036. Agora o problema e calcular pab A estratégia da família de matrizes BLOSUMX: Pegar muitos alinhamentos (conhecidos e confiáveis) de no máximo X% de identidade, e calcular a frequência de cada par de amino ácidos alinhados Alinhamento de sequências – Similaridade CEN0485 – Introdução à Bioinformática The numerator (pab) is the likelihood of the hypothesis we want to test: that these two residues are correlated because they’re homologous. Thus, pab are the target fre- quencies: the probability that we expect to observe residues a and b aligned in homo- logous sequence alignments. The denomi- nator( fa fb)isthelikelihoodofanull hypothesis: that these two residues are un- correlated and unrelated, occurring inde- pendently. Thus, fa and fb are background frequencies: the probabilities that we expect to observe amino acids a and b on average in any protein sequence. If we expect to find a and b aligned together in homologous sequences more often than we expect them to occur by chance (pab>fa fb), then the odds ratio is greater than one and the score is positive. Operationally, we say that positive scores mean conservative substitutions, and nega- tive scores indicate nonconservative substi- tutions. 10 11 Matrizes de substituição – BLOSUM62 Uma das matrizes de substituição mais usadas , foi construída a partir de alinhamento com identidade máxima de 62% ¿Por qué a diagonal não tem sempre o mesmo valor? Pontuação positiva para substituições prováveis Pontuação negativa para substituições menos prováveis CEN0485 – Introdução à Bioinformática Las matrices de sustitución solo se usan para proteínas. Normalmente en el caso de ADN solo se necesita un puntaje para match y otro para mismatch. why shouldn’t all identitites get the same score? The rarer the amino acid is, the more surprising it would be to see two of them align together by chance. In the homologous alignment data that BLOSUM62 was trained on, leucine/leucine (L/L) pairs were in fact more common than tryptophan/tryptophan (W/W) pairs (pLL = 0.0371, pWW = 0.0065), but tryptophan is a much rarer amino acid (fL = 0.099, fW = 0.013). Run those numbers (with BLO- SUM62’s original λ = 0.347) and you get +3.8 for L/L and +10.5 for W/W, which were rounded to +4 and +11. Esto significa que podemo hacer nuestras propias matrices, basadas en alineamientos conocidos, para cualquier valor deseado de “target frequencies” o para familias de proteins (intermembranales por ejemplo) y obtendremos alineamientos similares a los usados como conjunto de entrenamiento. 11 Matrizes de substituição independentes da posiçã0 12 Ácidos Nucleicos – Matriz de identidade Proteínas Matrizes PAM (Percent Accepted Mutation) Modelo de evolução implícito Todas as matrizes PAM calculadas a partir de PAM1 Matrizes BLOSUM (BLOck SUbstitution Matrices) Determinadas empiricamente a partir de alinhamentos múltiplos de blocos conservados de proteínas distantes O número indica o grau de identidade das sequencias que se usaram para calcular a matriz. BLOSUM 62 é a mais usada CEN0485 – Introdução à Bioinformática Las matrices de sustitución solo se usan para proteínas. Normalmente en el caso de ADN solo se necesita un puntaje para match y otro para mismatch. why shouldn’t all identitites get the same score? The rarer the amino acid is, the more surprising it would be to see two of them align together by chance. In the homologous alignment data that BLOSUM62 was trained on, leucine/leucine(L/L) pairs were in fact more common than tryptophan/tryptophan (W/W) pairs (pLL = 0.0371, pWW = 0.0065), but tryptophan is a much rarer amino acid (fL = 0.099, fW = 0.013). Run those numbers (with BLO- SUM62’s original λ = 0.347) and you get +3.8 for L/L and +10.5 for W/W, which were rounded to +4 and +11. Esto significa que podemo hacer nuestras propias matrices, basadas en alineamientos conocidos, para cualquier valor deseado de “target frequencies” o para familias de proteins (intermembranales por ejemplo) y obtendremos alineamientos similares a los usados como conjunto de entrenamiento. 12 13 Matrizes de substituição independentes da posição Seq1 Seq2 AREKAE AQDKAD Glutamina: D Ácido Glutámico: E Será a melhor opção sempre ter o mesmo peso, independentemente da posição? Pensem numa posição que muda muito, com poucas implicações na estrutura terciaria da proteína e outra posição muito conservada onde qualquer mudança faz perder a atividade da proteína. CEN0485 – Introdução à Bioinformática Las matrices de sustitución solo se usan para proteínas. Normalmente en el caso de ADN solo se necesita un puntaje para match y otro para mismatch. why shouldn’t all identitites get the same score? The rarer the amino acid is, the more surprising it would be to see two of them align together by chance. In the homologous alignment data that BLOSUM62 was trained on, leucine/leucine (L/L) pairs were in fact more common than tryptophan/tryptophan (W/W) pairs (pLL = 0.0371, pWW = 0.0065), but tryptophan is a much rarer amino acid (fL = 0.099, fW = 0.013). Run those numbers (with BLO- SUM62’s original λ = 0.347) and you get +3.8 for L/L and +10.5 for W/W, which were rounded to +4 and +11. Esto significa que podemo hacer nuestras propias matrices, basadas en alineamientos conocidos, para cualquier valor deseado de “target frequencies” o para familias de proteins (intermembranales por ejemplo) y obtendremos alineamientos similares a los usados como conjunto de entrenamiento. 13 Matrizes de substituição dependentes da posição 14 Vamos falar delas no final Position-Specific Iterated (PSI-BLAST) Reverse Position-Specific Iterated (RPS-BLAST) CEN0485 – Introdução à Bioinformática Las matrices de sustitución solo se usan para proteínas. Normalmente en el caso de ADN solo se necesita un puntaje para match y otro para mismatch. why shouldn’t all identitites get the same score? The rarer the amino acid is, the more surprising it would be to see two of them align together by chance. In the homologous alignment data that BLOSUM62 was trained on, leucine/leucine (L/L) pairs were in fact more common than tryptophan/tryptophan (W/W) pairs (pLL = 0.0371, pWW = 0.0065), but tryptophan is a much rarer amino acid (fL = 0.099, fW = 0.013). Run those numbers (with BLO- SUM62’s original λ = 0.347) and you get +3.8 for L/L and +10.5 for W/W, which were rounded to +4 and +11. Esto significa que podemo hacer nuestras propias matrices, basadas en alineamientos conocidos, para cualquier valor deseado de “target frequencies” o para familias de proteins (intermembranales por ejemplo) y obtendremos alineamientos similares a los usados como conjunto de entrenamiento. 14 15 Open gap penalty Extension gap penalty Além da matriz de substituição, a pontuação do alinhamento depende dois custos associados a inserção dos ‘gaps’ : ¿Cuál? ? Alinhamento de sequências – Similaridade CEN0485 – Introdução à Bioinformática 15 16 ¿Como escolher o alinhamento com a melhor pontuação? ¿Fazer todos os alinhamentos possíveis? NÃO! Usar programação dinâmica ¿global o local? ¿Qual tipo de alinhamento quer fazer? Alinhamento de sequências – Similaridade CEN0485 – Introdução à Bioinformática 16 Alinhamentos: Global y local 17 Global Local CEN0485 – Introdução à Bioinformática 17 Alineamientos: Programación dinámica Consiste em decompor o problema em subproblemas e usar a solução dos subproblemas para obter a solução do problema original. Os subproblemas têm que ser sobreponíveis. O algoritmo encontra o alinhamento ótimo dadas a matriz de substituição e os custos de lacunas. Este algoritmo, com pequenas modificações, é muito utilizado na análise de sequências. 18 CEN0485 – Introdução à Bioinformática 18 Alinhamentos: Programação dinâmica 19 Local Algoritmo de Smith-Waterman Algoritmo de Needleman-Wunsch Global - A C A C T A - A G C A C A C A Matriz de programação dinâmica ¿Como preencher as células? Eddy SA. 2004. What is dynamic programming? Nature Biotech. 22:909-10. Obter o alinhamento exato segundo a matriz de substituição e o custo de gaps. Mudam os parâmetros – Muda o alinhamento CEN0485 – Introdução à Bioinformática 19 Alinhamentos: Programação dinâmica 20 Algoritmo de Needleman-Wunsch Global Gaps: λ= -6 Matriz de similitude (σ): Match=+5; Mismatch=-2 Inicializar (0,0)=0 Preencher as células Eddy SA. 2004. What is dynamic programming? Nature Biotech. 22:909-10. - A C A C T A - A G C A C A C A 0 i j Traceback! g=gaps=-6 CEN0485 – Introdução à Bioinformática El puntaje final del alineamiento depende de la función de puntaje! La celda en la posición inferior derecha da el puntaje del mejor alineamiento Movimientos en la horizontal o en la vertical indican gaps Si s(i-1,)+gamma es el mayor puntaje entonces xi esta alineado a un gap. Si s(i,j-1+gamma) es el mayor puntaje entonces yi esta alineado a un gap. 20 Septiembre 21 de 2009 21 Diego M. Riaño Pachón - MPIMP ` - A C A C T A - 0 -6 -12 A -6 +5 G -12 C A C A C A Gaps: λ= -6 Matriz de similitude (σ): Match=+5; Mismatch=-2 Inicializar (0,0)=0 CEN0485 – Introdução à Bioinformática 21 Alinhamentos: Programação dinâmica 22 Algoritmo de Smith-Waterman Local Gaps: λ= -6 Matriz de substituição (σ): Match=+5; Mismatch=-2 Inicializar (0,0)=0 Llenado de celdas - A C A C T A - A G C A C A C A 0 i j g=gaps=-6 CEN0485 – Introdução à Bioinformática 22 Septiembre 21 de 2009 23 Diego M. Riaño Pachón - MPIMP - A C A C T A - 0 A G C A C A C A CEN0485 – Introdução à Bioinformática 23 Alineamientos: Local vs. Global 24 CEN0485 – Introdução à Bioinformática Un par se secuencias pueden ser alineadas tanto de forma global como de forma local, todo depende de la pregunta que se quiere responder. 24 Vamos lembrar 25 CEN0485 – Introdução à Bioinformática Alinhamento de sequências - Similaridade 26 Open gap penalty Extension gap penalty Além da matriz de substituições, a pontuação do alinhamento depende das penalizações dos gaps: ¿Cuál? ? CEN0485 – Introdução à Bioinformática 26 Alineamiento de secuencias – Gaps 27 Open gap penalty Extension gap penalty Affine gap penalties Para um gap de comprimento g: d: Custo por abrir o gap e: Custo por extender o gap CEN0485 – Introdução à Bioinformática 27 Alinhamentos: Global e local 28 Global Local CEN0485 – Introdução à Bioinformática 28 Significancia do alinhamento Teste com sequências randômicas na sessão prática. O que vocês esperam ao alinhar duas sequencias aleatórias? E, uma sequência real contra uma aleatória? 29 CEN0485 – Introdução à Bioinformática Alinhamentos: Local vs. Global 30 ¿Como podríamos ahorrar tiempo? CEN0485 – Introdução à Bioinformática Un par se secuencias pueden ser alineadas tanto de forma global como de forma local, todo depende de la pregunta que se quiere responder. 30 BLAST Basic Local Alignment Search Tool 31 Smith & Watermany Needleman & Wunsch são algoritmos exatos, i.e., sempre encontram a solução ótima, mas são muito caros (memória e tempo) BLAST é um algoritmo heurístico i.e., nem sempre encontra a solução ótima mas é muito rápido, i.e., segue atalhos CEN0485 – Introdução à Bioinformática BLAST Basic Local Alignment Search Tool 32 Lembrem-se: Apenas buscas locais Constitui uma busca preliminar, normalmente tem como finalidade a identificação de sequências, de domínios e sub-sequências comuns. Procura regiões locais de similaridade entre pares de sequências, é muito rápido (NÃO usa Smith-Waterman) e útil quando se procura em bases de dados com muitas sequências CEN0485 – Introdução à Bioinformática BLAST Basic Local Alignment Search Tool 33 Da mesma forma que no caso pareado, a pontuação do alinhamento depende de: DMRP Gaps Open gap penalty Extension gap penalty CEN0485 – Introdução à Bioinformática BLAST Basic Local Alignment Search Tool 34 http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/BLAST_algorithm.html Altschul et al., 1990. Basic Local Alignment Search Tool. J. Mol. Biol. (1990) 215, 403–410 BLAST misses hard to find matches CEN0485 – Introdução à Bioinformática 34 Um alinhamento que o Blast não pode encontrar com W=11 35 1 GAATATATGAAGACCAAGATTGCAGTCCTGCTGGCCTGAACCACGCTATTCTTGCTGTTG || | || || || | || || || || | ||| |||||| | | || | ||| | 1 GAGTGTACGATGAGCCCGAGTGTAGCAGTGAAGATCTGGACCACGGTGTACTCGTTGTCG 61 GTTACGGAACCGAGAATGGTAAAGACTACTGGATCATTAAGAACTCCTGGGGAGCCAGTT | || || || ||| || | |||||| || | |||||| ||||| | | 61 GCTATGGTGTTAAGGGTGGGAAGAAGTACTGGCTCGTCAAGAACAGCTGGGCTGAATCCT 121 GGGGTGAACAAGGTTATTTCAGGCTTGCTCGTGGTAAAAAC |||| || ||||| || || | | |||| || ||| 121 GGGGAGACCAAGGCTACATCCTTATGTCCCGTGACAACAAC Por quê? CEN0485 – Introdução à Bioinformática BLAST Basic Local Alignment Search Tool 36 Camacho C et al., 2009. BLAST+: architecture and applications. BMC Bioinformatics. 15;10:421. , Score threshold 2 Score threshold 3 Score threshold 4 Score threshold 1 CEN0485 – Introdução à Bioinformática 36 BLAST Basic Local Alignment Search Tool 37 DMRP Significancia O que é um bom alinhamento? O que se esperaria por acaso somente? Esta avaliação está baseada na pontuação do seu alinhamento: Poderia obter a mesma pontuação, ou melhor, por acaso? O cálculo é dependente da matriz de substituição e da penalização por 'gaps' que se usou. O 'Expect-value' nos dá a resposta que precisamos. E-value: Número de alinhamentos com uma pontuação igual ou maior do que a observada, que se espera apareçam por acaso. Quanto menor for o e-value, mais significativo é o alinhamento. CEN0485 – Introdução à Bioinformática BLAST Basic Local Alignment Search Tool 38 Resultados DMRP CEN0485 – Introdução à Bioinformática 38 Estadísticos de alineamiento local CEN0485 – Introdução à Bioinformática ¿Cómo calcular el valor e o p? CEN0485 – Introdução à Bioinformática Crear secuencias al azar, e.g., shuffled, y comparar el valor de puntaje entre las secuencias reales, con el valor obtenidos de las comparaciones con las secuencias aleatorias. 40 Algumas propriedades do valor-E: Diminui exponencialmente ao aumentar S. À medida que o valor-E se aproxima de zero, a probabilidade de que o alinhamento ocorra por acaso se aproxima de zero. Tamanho da sequência e do banco de dados influenciam a probabilidade de que o alinhamento ocorra por acaso. Para alinhamentos com Gaps, aparentemente os pontuações seguem o mesmo tipo de distribuição estatística, mas isso ainda não foi comprovado. Na prática, usa-se o mesmo quadro teórico. CEN0485 – Introdução à Bioinformática CEN0485 – Introdução à Bioinformática Muitas vezes os parâmetros padrão do BLAST funcionam bem No entanto, existem algumas razões pelas quais você se beneficiaria ajustando alguns parâmetros Por que mudar os parâmetros padrão do BLAST? CEN0485 – Introdução à Bioinformática Por que mudar os parâmetros padrão do BLAST? Razão Parâmetro a definir A sequência de consulta tem muitos resíduos idênticos (por exemplo, baixa complexidade) Filtros de sequência (Mascaramento automático). BLAST não relata nenhum resultado Alterar matriz de substituição e penalidades de gap. Os resultados têm valores E próximos do limiar Alterar matriz de substituição e penalidades de gap, a fim de verificar a robustez de seus achados. BLAST relata muitas correspondências Tente mudar o banco de dados, ou filtrar com base na taxonomia ou palavra-chave. Aumentar o limiar do valor de E. CEN0485 – Introdução à Bioinformática Alguns parâmetros do BLAST 45 CEN0485 – Introdução à Bioinformática O uso do tamanho da palavra WORD SIZE BLAST N Highly similar sequences (megablast 16,18,20,24 28,32,48,64 More dissimilar sequences (discontiguous megablast) 11,12 Somewhat similar sequences (BLASTn) 7,11,15 BLAST P BLASTp (protein-protein BLAST) 2,3 PSI-BLAST (Position-Specific Iterated BLAST) 2,3 PHI-BLAST (Pattern Hit Initiated BLAST) 2,3 CEN0485 – Introdução à Bioinformática SCORING PARAMETERS BLASTn CEN0485 – Introdução à Bioinformática SCORING PARAMETERS BLASTP CEN0485 – Introdução à Bioinformática FILTROS Y MASCARAS CEN0485 – Introdução à Bioinformática FILTROS E MÁSCARAS Low complexity regions Mascara segmentos da sequência problema que possuem baixa complexidade em composição de acordo com SEG ou DUST. Species specific Mascara repetições (LINEs, SINEs, elementos retrotransponíveis intercalados curtos e longos, e repetições retrovirais) e é útil para sequências humanas que podem conter essas repetições. Mask lower case letters CEN0485 – Introdução à Bioinformática OS TIPOS DE BLAST blastp: Proteína Proteína Para comparar uma proteína contra um banco de dados de proteínas. Programa Query Número de búsquedas en la BD BD 1 blastn: ADN ADN Para comparar as duas cadeias de DNA contra o banco de dados de DNA. blastx: ADN Proteína Blastx traduz a sequência de DNA em 6 sequências de proteínas. tblastn: Proteína ADN Cada sequência de DNA do banco de dados é traduzida em seis proteínas. tblastx: ADN ADN Traduz o cada entrada do banco de dados e o query em suas 6 possíveis proteínas. 1 6 6 36 CEN0485 – Introdução à Bioinformática E quando usar qual? PROTEÍNAS: você já tem uma proteína e quer encontrar proteínas semelhantes blastp: se estiver em dúvida, sempre use blastp. Em geral, é usado para buscar informações sobre a função da proteína. Também se o quadro de leitura aberto for conhecido, é preferível traduzir a proteína e usar este programa. tblastn: Você quer descobrir novos genes que codificam para uma proteína. NUCLEOTÍDEOS: Não se conhece o ORF que codifica para a proteína blastn: Sequências muito semelhantes (>70% de identidade) tblastx: Descobrimento de genes que codificam proteínas homólogas à consulta (Blastn e Blastx não deram nada) blastx: Análise da consulta, descobrimento de proteínas codificadas. Pode servir para compensar um pouco erros de sequências. Por quê? Cuidado com os parâmetros CEN0485 – Introdução à Bioinformática Consider a situation in which you have a DNA sequence with no obvious database matches, and you want to know if it encodes a protein with even distant database matches. A blastx search would be useful to reveal such matches. But if that search fails, you might perform a tblastx search to determine whether an entire DNA database contains genes that encode proteins homologous to your query. 52 Salida de BLAST: alineamientos CEN0485 – Introdução à Bioinformática 53 Program Selection BLASTn CEN0485 – Introdução à Bioinformática Mega BLAST Utiliza um algoritmo para a busca por alinhamento de sequências de nucleotídeos. Está otimizado para alinhar sequênciasque divergem ligeiramente como resultado de possíveis erros de sequência ou outros similares. Usa uma largura de palavra maior → 10 vezes mais rápido e pode trabalhar com sequências de DNA muito mais longas. CEN0485 – Introdução à Bioinformática Program Selection Guide https://blast.ncbi.nlm.nih.gov/blast/BLAST_guide.pdf CEN0485 – Introdução à Bioinformática CEN0485 – Introdução à Bioinformática CEN0485 – Introdução à Bioinformática CEN0485 – Introdução à Bioinformática Matrices de sustitución dependients de la posición PSI – BLAST CEN0485 – Introdução à Bioinformática Tasas de sustitución específicas de posición Serina en un sitio activo CEN0485 – Introdução à Bioinformática 61 Position Specific Score Matrix (PSSM) A R N D C Q E G H I L K M F P S T W Y V 206 D 0 -2 0 2 -4 2 4 -4 -3 -5 -4 0 -2 -6 1 0 -1 -6 -4 -1 207 G -2 -1 0 -2 -4 -3 -3 6 -4 -5 -5 0 -2 -3 -2 -2 -1 0 -6 -5 208 V -1 1 -3 -3 -5 -1 -2 6 -1 -4 -5 1 -5 -6 -4 0 -2 -6 -4 -2 209 I -3 3 -3 -4 -6 0 -1 -4 -1 2 -4 6 -2 -5 -5 -3 0 -1 -4 0 210 S -2 -5 0 8 -5 -3 -2 -1 -4 -7 -6 -4 -6 -7 -5 1 -3 -7 -5 -6 211 S 4 -4 -4 -4 -4 -1 -4 -2 -3 -3 -5 -4 -4 -5 -1 4 3 -6 -5 -3 212 C -4 -7 -6 -7 12 -7 -7 -5 -6 -5 -5 -7 -5 0 -7 -4 -4 -5 0 -4 213 N -2 0 2 -1 -6 7 0 -2 0 -6 -4 2 0 -2 -5 -1 -3 -3 -4 -3 214 G -2 -3 -3 -4 -4 -4 -5 7 -4 -7 -7 -5 -4 -4 -6 -3 -5 -6 -6 -6 215 D -5 -5 -2 9 -7 -4 -1 -5 -5 -7 -7 -4 -7 -7 -5 -4 -4 -8 -7 -7 216 S -2 -4 -2 -4 -4 -3 -3 -3 -4 -6 -6 -3 -5 -6 -4 7 -2 -6 -5 -5 217 G -3 -6 -4 -5 -6 -5 -6 8 -6 -8 -7 -5 -6 -7 -6 -4 -5 -6 -7 -7 218 G -3 -6 -4 -5 -6 -5 -6 8 -6 -7 -7 -5 -6 -7 -6 -2 -4 -6 -7 -7 219 P -2 -6 -6 -5 -6 -5 -5 -6 -6 -6 -7 -4 -6 -7 9 -4 -4 -7 -7 -6 220 L -4 -6 -7 -7 -5 -5 -6 -7 0 -1 6 -6 1 0 -6 -6 -5 -5 -4 0 221 N -1 -6 0 -6 -4 -4 -6 -6 -1 3 0 -5 4 -3 -6 -2 -1 -6 -1 6 222 C 0 -4 -5 -5 10 -2 -5 -5 1 -1 -1 -5 0 -1 -4 -1 0 -5 0 0 223 Q 0 1 4 2 -5 2 0 0 0 -4 -2 1 0 0 0 -1 -1 -3 -3 -4 224 A -1 -1 1 3 -4 -1 1 4 -3 -4 -3 -1 -2 -2 -3 0 -2 -2 -2 -3 Serina tiene un puntaje diferente en estas dos posiciones Sitio activo CEN0485 – Introdução à Bioinformática 62 Molecular biologists “will spend a huge amount of time collecting their data, and then potentially throw away all of their good work by feeding the data into a computer program with default parameter settings…” 63 CEN0485 – Introdução à Bioinformática 64 Isso é tudo por hoje CEN0485 – Introdução à Bioinformática 64 image3.gif image4.png image5.gif image6.jpeg oleObject1.bin image7.emf € P a,b |R( ) = fa fb Pa,b|R () =f a f b oleObject2.bin image8.emf € P a,b |M( ) = pab Pa,b|M () =p ab oleObject3.bin image9.emf € P a,b |M( ) P(a,b |R) = pab fa fb Pa,b|M () P(a,b|R) = p ab f a f b oleObject4.bin image10.emf € P x,y |M( ) P(x,y |R) = pab fa fbi ∏ Px,y|M () P(x,y|R) = p ab f a f b i Õ oleObject5.bin image11.emf € S = s(xi,yi) i ∑ S=s(x i ,y i ) i å oleObject6.bin image12.emf € s(a,b) = log pab fa fb ⎛ ⎝ ⎜ ⎞ ⎠ ⎟ s(a,b)=log p ab f a f b æ è ç ö ø ÷ oleObject7.bin image13.emf € s(a,b ) = 1 λ log pab fa fb s (a,b) = 1 l log p ab f a f b image14.png image15.png image16.png image17.png image18.png image19.png image20.png image21.png image22.png image23.gif oleObject8.bin image24.emf € S(i, j) =max S(i −1, j −1) +σ(xi,y j ), S(i −1, j) + γ , S(i, j −1) + γ ⎧ ⎨ ⎪ ⎩ ⎪ S(i,j)=max S(i-1,j-1)+s(x i ,y j ), S(i-1,j)+g, S(i,j-1)+g ì í ï î ï oleObject9.bin oleObject10.bin image25.emf € S(i, j) =max 0, S(i −1, j −1) +σ(xi,y j ), S(i −1, j) + γ , S(i, j −1) + γ ⎧ ⎨ ⎪ ⎪ ⎩ ⎪ ⎪ S(i,j)=max 0, S(i-1,j-1)+s(x i ,y j ), S(i-1,j)+g, S(i,j-1)+g ì í ï ï î ï ï image26.png oleObject11.bin image27.emf € γ(g) = −d − (g −1)e g(g)=-d-(g-1)e image28.png image29.png image30.png image31.png image32.png image33.png image34.png image35.wmf image36.png image37.png image38.png image39.png image40.png image41.png image42.png image43.png image44.png image45.png image1.png image2.jpeg
Compartilhar