Baixe o app para aproveitar ainda mais
Prévia do material em texto
Dr. rer. nat. Diego Mauricio Riaño-Pachón Laboratório de Biologia Computacional, Evolutiva e de Sistemas Centro de Energia Nuclear na Agricultura Universidade de São Paulo diego.riano@cena.usp.br http://labbces.cena.usp.br/ CEN0485 – Introdução à Bioinformática Comparação de sequências I. Introdução, Importância, Algoritmos, Interpretação. Similaridade vs Homologia. Alinhamentos ótimos. Exemplos: Dotplot, Programa Dotlet, EMBOSS. CEN0485 – Introdução à Bioinformática 1 No e-Disciplinas tem o Quiz aula 5 por favor responder as perguntas. 2 CEN0485 – Introdução à Bioinformática Dúvidas Postar as dúvidas no e-Disciplinas, no fórum do Perguntas e Respostas. Lembrem todas as comunicações são via e-Disciplinas. Enviar o tema do seminário via edisciplinas 3 CEN0485 – Introdução à Bioinformática 4 Comparação de sequências O objetivo é encontrar as regiões ou posições semelhantes em um conjunto de sequências CEN0485 – Introdução à Bioinformática Comparação de sequências Para quê? Transferir informação funcional desde um gene bem estudado a outro recém sequenciado. Montar sequencias de transcritos e genomas. Identificar características (features) nas sequências, e.g., bordas de exons, sítios de união entre exons e introns, domínios proteicos. Identificar regiões conservadas e inferir relações evolutivas. 5 CEN0485 – Introdução à Bioinformática Comparação de sequências: Transferência de informação funcional 6 Você acaba de identificar o seguinte gene num experimento de ciclo celular. Não conhece a função do gene. >unknown_seq TAAAATTCCCTCCTTCCCTCGTTTTCTGCTCTCTCCTTTTCTTTTCTTCTTCCTCTTTCTCTCACTAAAACCCTTGTTTC TTCACTCGCCGTCGCTTTTCCCGTCATCGGAATCTTCAAATTCGACTCTCGCTTCACTACGATCCATGTCCGGTGTCGTA GATCTTCTCCCGGTTCTTCTCAGCCGCCACCGCCGCCGCCGCACCATCCACCGTCATCTCCGGTTCCGGTTACATCTACG CGGTTATACCACCTATACGTCGTCACTTAGCTTTCGCCTCAACAAAACCTCCGTTTCATCCTTCCGATGATTACCATCGA TTAACCCTTCTTCGCTCAGTAATAATAACGACAGGAGCTTCGTTCATGGTTGTGGTGTTGTAGATCGGGAGGAAGATGCT TCGTTGTTAGATCTCCTTCACGAAAGAGAAAGGCGACAATGGATATGGTTGTTGCTCCATCTAATAATGGATTCACGAGT CTGGTTTCACTAACATACCTAGCAGTCCCTGTCAAACTCCTAGAAAAGGGGGCAGAGTCAACATCAAGTCAAAGGCCAAA GAAACAAGTCAACTCCTCAAACACCCATCTCGACAAACGCTGGTTCTCCTATCACACTTACTCCATCAGGAAGTTGTCGT ATGACAGTTCTTTAGGTCTCCTTACAAAAAAGTTCGTCAATCTAATTAAACAAGCCAAAGATGGAATGCTGGACCTAAAC AAGCTGCAGAAACATTGGAGGTGCAGAAACGACGTATATATGATATTACAAACGTTTTGGAGGGGATAGATCTCATTGAA AGCCTTTCAAGAATCGAATACTTTGGAAGGGAGTTGATGCGTGTCCTGGCGATGAGGATGCTGACGTATCTGTATTACAG CAGAAATTGAAAACCTCGCCCTCGAAGAGCAAGCATTAGACAACCAAATCAGACAAACAGAGGAAAGATTAAGAGACCTG GCGAAAATGAAAAGAATCAGAAATGGCTTTTTGTAACTGAAGAGGATATCAAGAGTTTACCAGGTTTCCAGAACCAGACT TGATAGCCGTCAAAGCTCCTCATGGCACAACTTTGGAAGTGCCTGATCCAGATGAAGCGGCTGACCACCCACAAAGGAGA ACAGGATCATTCTTAGAAGTACAATGGGACCTATTGACGTATACCTCGTCAGCGAATTTGAAGGGAAATTCGAAGACACA ATGGGAGTGGTGCAGCACCACCAGCATGCTTGCCTATTGCTTCTAGCTCAGGATCTACAGGACACCATGACATCGAAGCC TAACTGTTGACAACCCAGAAACTGCTATTGTGTCTCATGATCATCCTCATCCTCAACCCGGCGATACCTCTGATCTTAAT ATTTGCAAGAGCAAGTAGGAGGAATGCTTAAGATTACTCCCTCTGATGTTGAAAATGATGAGTCGGACTACTGGCTTCTC CAAATGCTGAGATTAGCATGACGGATATTTGGAAAACTGACTCTGGTATCGATTGGGATTATGGAATAGCCGACGTGAGT CTCCACCACCAGGAATGGGCGAAATAGCACCAACAGCTGTTGACTCAACCCCGAGATGATCGAATACCAAGCACACTTCT AACTTCTGATCCCAAATGTGTTACCTCACAACACTCCCTAAAATCATATACAAGGAGGGAGCAACTACAGAACGTGTATG ACCAATGGCAGGTGCGTTCCATACAATGTACCATTAGATTATGATTCATTTATCGCCTAGAGTGATGTTGTAGAGGAGCA CGAGAAACTAATGTAAGTTTAACAGAGAATGTACTTCATCGGCTGCATTGGTACACTATTTGATTATAATATTTTTGACC CTCAAATGCATCTTTATAATCAGCTA CEN0485 – Introdução à Bioinformática Comparação de sequências: Transferência de informação funcional 7 Você pode fazer uma busca num banco de dados de sequências conhecidas. Se achar algo “muito” semelhante você pode aproveitar a informação funcional das sequencias conhecidas. Isso é o que fazemos com o BLAST (falaremos do BLAST com detalhe na próxima aula) CEN0485 – Introdução à Bioinformática Comparação de sequências: Transferência de informação funcional 8 CEN0485 – Introdução à Bioinformática Comparação de sequências 9 Para quê? Transferir informação funcional desde um gene bem estudado a outro recém sequenciado. Montar sequencias de transcritos e genomas. Identificar características (features) nas sequências, e.g., bordas de exons, sítios de união entre exons e introns, domínios proteicos. Identificar regiões conservadas e inferir relações evolutivas. CEN0485 – Introdução à Bioinformática Comparação de sequências: Montar transcritos e genomas Exemplo: imagine um genoma de tamanho 10bp, e que você tem três copias do genoma. Cada cópia é fragmentada de seguinte forma, você não conhece a ordem dos fragmentos: TG, ATG e CCTAC AT, GCC e TACTG CTG, CTA e ATGC ¿Qual a sequência do genoma inteiro? CCTAC CC CTA ATGCCTACTG TAC C CCTAC GCCTACTG CTACTG CEN0485 – Introdução à Bioinformática Comparação de sequências: Montar transcritos e genomas Cada fragmento é uma das leituras do sequenciamento. Os genomas reais são bem maiores que 10bp, e não temos nenhuma tecnologia capaz de ler o genoma inteiro (exceto para genomas pequenos), então temos que ler em pequenos pedaços A leitura desses pequenos pedaços inicia no genoma em posições aleatórias O truque então e achar regiões que sobrepõem entre as diferentes leituras, e assim de forma sucessiva reconstruir a sequência original do genoma. Para achar essa regiões usamos estratégias/ferramentas de comparação de sequências Essa estratégia geral pode ser aplicada para montagem de genes individuais, de transcriptomas e de genomas CEN0485 – Introdução à Bioinformática Comparação de sequências: Montar transcritos e genomas 12 http://www.nature.com/scitable/topicpage/complex-genomes-shotgun-sequencing-609 Montagem de uma sequencia de um gene a partir de pequenos fragmentos Estrategia geral para montage de genomas usando o método “Shotgun” CEN0485 – Introdução à Bioinformática Comparação de sequências 13 Para quê? Transferir informação funcional desde um gene bem estudado a outro recém sequenciado. Montar sequencias de transcritos e genomas. Identificar características (features) nas sequências, e.g., bordas de exons, sítios de união entre exons e introns, domínios proteicos. Identificar regiões conservadas e inferir relações evolutivas. CEN0485 – Introdução à Bioinformática Comparação de sequências: Identificar ”features” Os genes de organismos eucarióticos são descontínuos, compostos por introns e exons. Após o processamento do RNA, os exons são mantidos para formar o mRNA (RNA mensageiro), enquanto os introns são removidos. Uma tarefa comum durante um projeto genômico é a identificação de exons e introns. Para isso, o pesquisador geralmente dispõe da sequência do genoma e das sequências das regiões transcritas, isto é, dos mRNA. 14 CEN0485 – Introdução à Bioinformática Os genes eucarióticos são descontínuos 15 As áreas verdes representam regiões do mRNA que alinham no genoma CEN0485 – Introdução à Bioinformática Comparação de sequências: Identificar ”features” Explorando estratégias de comparação de sequências, podemos alinhar o transcrito ao genoma. Como apenas os éxons estão presentes no transcrito, esse alinhamento identificará suas posições no genoma. As regiões que não se alinham correspondem aos íntrons. 16 CEN0485 – Introdução à Bioinformática Comparação de sequências: Identificar ”features” 17 CEN0485 – Introdução à Bioinformática Comparação de sequências: Identificar ”features” 18 Exercicio com Splign Vamos fazer o alinhamento da sequência de cDNA com a sequência genômica usando Splign: https://www.ncbi.nlm.nih.gov/sutils/splign/splign.cgi?textpage=online&level=form# Descreva os resultados Vamos usar a seguintes sequências: cDNA: NM_214647 Genomic: NW_732498 Descreva cada uma das sequencias. Em qual bases de dados estão presentes? Em qual organismo? Que significa cDNA? CEN0485 – Introdução à Bioinformática Comparação de sequências 19 Para quê? Transferir informação funcional desde um gene bem estudado a outro recém sequenciado.Montar sequencias de transcritos e genomas. Identificar características (features) nas sequências, e.g., bordas de exons, sítios de união entre exons e introns, domínios proteicos. Identificar regiões conservadas e inferir relações evolutivas. CEN0485 – Introdução à Bioinformática Comparación de secuencias: Identificar regiones conservadas 20 A comparação de sequências é muito usada para fazer alinhamentos multiplos e inferior as relações evolutvas entre genes ou organismos CEN0485 – Introdução à Bioinformática Comparación de secuencias: Identificar regiones conservadas 21 Comparações de genomas de diferentes especies. Geralmente as regions exómicas e codificantes, são mas conservadas. Elas aparecem como rosa e roxo na figura acima. CEN0485 – Introdução à Bioinformática 22 Sobre similaridade e homologia ‘A proteína X é 43% homologa da proteína Y’ Errado As duas sequências podem ser 43% idênticas ou 43% similares. A porcentagem de homologia no existe. Não pode ser parcialmente homólogo, seria como estar parcialmente morto ou parcialmente gravida. É homólogo ou não é. Petsko 2001, Genome Biology 2(2) Similaridade É uma medida (uma quantidade) que expressa o grau de relacionamento de duas sequencias. Geralmente se presenta como a porcentagem de identidade o conservação. Identidade É uma medida que expressa a proporção de posições no variáveis entre duas sequências. Homologia É um tipo de relação, não é uma medida. Expressa a relação por evolução divergente a partir de um ancestral comum. CEN0485 – Introdução à Bioinformática 23 A similaridade pode indicar homologia. Características/Sequências homólogas podem ou não ter a mesma função. Se duas sequências são similares a longo de tudo seu comprimento, geralmente são homologas, i.e., compartilham um ancestral comum. >40% de identidade em proteínas é um bom indicador de homologia. Regiões de baixa complexidade (repetições), podem ser altamente similares sem ser homólogas. Sequências homólogas nem sempre são similares. Sobre similaridade e homologia CEN0485 – Introdução à Bioinformática 24 Tipos de homologia: Ortologia e paralogia Genes ortólogos: o evento mas recente que relaciona os dois genes é um evento de especiação. Genes paralogos: o evento mas recente que relaciona os dois genes é um evento de duplicação genica. Genes co-ortólogos o in-paralogos: Quando um evento de duplicação génica acontece depois do evento de especiação. Genes Xenólogos: originam-se num evento de transferência horizontal de genes. CEN0485 – Introdução à Bioinformática 25 Fitch, W. M. Homology a personal view on some of the problems. Trends Genet, 2000, 16, 227-231 Tipos de homologia: Ortologia e paralogia Sp: Evento de Especiação Dp: Evento de duplicação CEN0485 – Introdução à Bioinformática 26 Alinhamento de sequências Tem como objetivo: encontrar as regiões o posições similares num conjunto de sequências. CEN0485 – Introdução à Bioinformática Alinhamento de sequências – Dot Plot 27 Matrices de pontos Uma das formas mas simples de representar a similaridade entre duas sequências. Método gráfico É um analise exploratório, e.g., serve para detectar sequencias repetitivas, inversões, entre outros. CEN0485 – Introdução à Bioinformática 27 Alinhamento de sequências – Dot Plot 28 Como funciona? Para comparar duas sequências de comprimentos M e N, cria-se uma grade de dimensões M * N. Uma sequência fica na direção horizontal e a outra na vertical. Com as sequências: CGCTACG CGATACGT Crie uma matriz de pontos C G C T A C G C G A T A C G T Matrices de pontos CEN0485 – Introdução à Bioinformática 28 29 Para cada posição na grade, se comparam os elementos da linha e da coluna. Se são iguais se sombreia a célula C G C T A C G C G A T A C G T Regiões de similaridade aparecem como diagonal Alinhamento de sequências – Dot Plot Matrices de pontos CEN0485 – Introdução à Bioinformática 29 30 Similitud a lo largo de la una diagonal Alinhamentos com gap podem ser representados ¿Como se identifican los gaps en la sequência horizontal? ¿En la vertical? Alinhamento de sequências – Dot Plot Interpretação CEN0485 – Introdução à Bioinformática 30 31 Regiões repetidas se veem como diagonais paralelas Alinhamento de sequências – Dot Plot Interpretação CEN0485 – Introdução à Bioinformática 31 32 Inversões repetidas (palíndromos) se veem como uma diagonal na sentido oposto Alinhamento de sequências – Dot Plot Interpretação CEN0485 – Introdução à Bioinformática 32 Alinhamento de sequências – Dot Plot 33 O método básico de dotplot descrito anteriormente é muito ruidoso quando trabalhamos com sequencias compridas, especialmente de ácidos nucléicos. Pode imaginar alguma razão para isso? Em esses casos uma estratégia baseada em janelas é mas apropriada. Nesta estratégia não vamos olhar resíduo por resíduo, i.e., cada uma das linhas e colunas da grade. Vamos a olhar um número X de resíduos contíguos (janela de comprimento X) e a janela será sombreada se a porcentagem de identidade é superior a um limite (threshold) predefinido CEN0485 – Introdução à Bioinformática 33 Alinhamento de sequências – Dot Plot 34 Posição na sequência de cDNA Posição na sequência genômica Gap Similitud ¿O que representam as regiões de similaridade? ¿O que representam os gaps? Alinhando um cDNA e sua região genômica CEN0485 – Introdução à Bioinformática 34 Alinhamento de sequências – Dot Plot Ferramentas 35 Usar a ferramenta Dotlet JS: https://dotlet.vital-it.ch/ Com as sequências disponíveis em: https://myhits.isb-sib.ch/util/dotlet/doc/dotlet_examples.html CEN0485 – Introdução à Bioinformática 35 Alinhamento de sequências – Dot Plot 36 Mas ¿e onde está o alinhamento? CEN0485 – Introdução à Bioinformática 36 Avaliando similaridade 37 CEN0485 – Introdução à Bioinformática Avaliando similaridade Com as sequências: ACTAGTC ACAGTCT Qual a similaridade entre elas? Distância de Hamming: Número de substituições que são necessárias para converter uma sequência na outra. As sequências têm que ser do mesmo comprimento. 38 Problemas? Distância de Hamming=5 CEN0485 – Introdução à Bioinformática Las secuencias biológicas no tienen la misma longitud siempre. No todos los cambios (proteínas) tienen la misma probabilidad. 38 Avaliando similaridade Com as mesmas sequências do caso anterior, mas agora pode insertar um símbolo adicional (gap) com o objetivo de incrementar a similaridade ACTAGTC_ AC_AGTCT A operação de inserção do gap e uma operação de edição. As operações de edição podem ter custos. Onde colocar o gap? Tem muito alinhamentos possíveis. Como escolher o melhor alinhamento possível? 39 O melhor alinhamento possível e aquele que minimize os custos de edição Introducindo gaps CEN0485 – Introdução à Bioinformática 39 Avaliando similaridade: Função de custos 40 AGCATACG AGTACAGC Com a seguinte função de custos: match -1 (identidade, os dois residuos são o mesmo) mismatch 1 (substituição, os dois residios são diferentes) gap 2 (inserção de um gap representando um indel) Qual é o melhor alinhamento (o alinhamento ótimo)? CEN0485 – Introdução à Bioinformática 40 Avaliando similaridade: Função de custos 41 AG_CA_TA_CG AGT_AC_AGC_ Mas, e se alinhamos de seguinte forma: AGCATACG AGTACAGC O segundo alinhamento é melhor. ¿Qual é o melhor alinhamento de todos os possíveis alinhamentos? -1 -1 2 2 -1 2 2 -1 2 -1 2 Σ=7 ¿Custo? -1 -1 1 -1 1 -1 1 1 ¿Custo? Σ=0 Porcentagem de identidade = (4/8)*100 = 50.0% Porcentagem de identidade = (5/11)*100 = 45.5% CEN0485 – Introdução à Bioinformática 41 Avaliando similaridade: Alinhamento ótimo 42 O que acontece se mudamos a função de custos? Quais as pontuações dos dois alinhamentos usando a seguinte função de custos: match -1 mismatch 3 gap 1 AG_CA_TA_CG AGT_AC_AGC_ AGCATACG AGTACAGC Σ=? Σ=? A escolha do alinhamento ótimo e a similaridade entre duas sequências DEPENDE da função de custos que seja usada. 3+3+2+2+3+2+2+3+2+3+2=27 -1-1+3-1+3-1+3+3= 8 CEN0485 – Introdução à Bioinformática El primer alineamiento es el mejor, 45% de identidad Primer alinhamento: -1-1+1+1-1+1+1-1+1+1+1=2 Segundo alinhamento:-1-1+3-1+3-1+3+3= 8 42 Avaliando similaridade: Função de custos 43 A função de custos pode modelar a identidade, as substituições e os indels Cómo poderia modificar a função de custos para que seja mas real? Em sequências de ácidos nucléicos: A proporção de transições e transversões não é sempre 1 As mudanças na terceira posição das trincas (códons) nem sempre geram mudanças na proteína (substituições sinónimas) Poderia-se incluir no cálculo a taxa de erro do sequenciamento Nas sequencias de proteínas: As substituições observadas dependem do tipo de resíduos envolvidos.. Por exemplo, é “difícil” substituir um resíduo não polar por um resíduo polar. CEN0485 – Introdução à Bioinformática El primer alineamiento es el mejor, 45% de identidad 43 Avaliando similaridade: Função de custos 44 A função de custos pode modelar a identidade, as substituições e os indels ¿Cómo poderia modificar a função de custos para que seja mas real? Em sequências de ácidos nucléicos: A proporção de transições e transverõoes não é sempre 1 Existem duas vezes o número de caminhos para transversões que para transições, ainda assim a frequência das transições e maior. Por exemplo, transições são menos prováveis de gerar substituições de amino ácidos (mutações silenciosas, devido a hipótese de wobble) CEN0485 – Introdução à Bioinformática El primer alineamiento es el mejor, 45% de identidad 44 Avaliando similaridade: Função de custos 45 A função de custos pode modelar a identidade, as substituições e os indels Como poderia modificar a função de custos para que seja mas real? Em sequências de ácidos nucléicos: A proporção de transições e transversões não é sempre 1 Os câmbios na terceira posição dos códons nem sempre geram câmbios na sequência da proteína (substituições sinônimas) Poderia-se ter em conta a frequência de erros de sequenciamento Em sequencias de proteínas: As substituições que podem ser observadas dependem do tipo de resíduos envolvidos, por exemplo, é pouco frequente substituir um resíduo polar por uno não polar. ¿Por que? CEN0485 – Introdução à Bioinformática El primer alineamiento es el mejor, 45% de identidad 45 Lembrar: Alinhamento de sequências O alinhamento de sequências é uma operação fundamental em bioinformática. O “melhor” alinhamento depende do sistema de pontos, i.e., da função de custos Os dot-plots mostram a correspondência entre pares de sequencias Não são métodos de alinhamento propriamente ditos São métodos visuais e exploratórios Então, como achar o alinhamento ótimo? 46 Na próxima aula! CEN0485 – Introdução à Bioinformática 46 47 Isso é tudo por hoje CEN0485 – Introdução à Bioinformática 47 image3.png image4.jpeg image5.png image6.png image7.png image8.png image9.png image10.png image11.gif image12.png image13.gif image14.jpeg image15.png image16.wmf image17.wmf image18.png image19.jpeg image20.png image21.png image22.tiff image23.png image1.png image2.jpeg
Compartilhar