Buscar

CEN0485-Aula 05 - CompSeqs I

Prévia do material em texto

Dr. rer. nat. Diego Mauricio Riaño-Pachón
Laboratório de Biologia Computacional, Evolutiva e de Sistemas
Centro de Energia Nuclear na Agricultura
Universidade de São Paulo
diego.riano@cena.usp.br
http://labbces.cena.usp.br/
CEN0485 – Introdução à Bioinformática
Comparação de sequências I. Introdução, Importância, Algoritmos, Interpretação. Similaridade vs Homologia. Alinhamentos ótimos. Exemplos: Dotplot, Programa Dotlet, EMBOSS.

CEN0485 – Introdução à Bioinformática
1
No e-Disciplinas tem o Quiz aula 5 por favor responder as perguntas.
2
CEN0485 – Introdução à Bioinformática
Dúvidas
Postar as dúvidas no e-Disciplinas, no fórum do Perguntas e Respostas.
Lembrem todas as comunicações são via e-Disciplinas.
Enviar o tema do seminário via edisciplinas
3
CEN0485 – Introdução à Bioinformática
4
Comparação de sequências
O objetivo é encontrar as regiões ou posições semelhantes em um conjunto de sequências
CEN0485 – Introdução à Bioinformática
Comparação de sequências
Para quê?
Transferir informação funcional desde um gene bem estudado a outro recém sequenciado.
Montar sequencias de transcritos e genomas.
Identificar características (features) nas sequências, e.g., bordas de exons, sítios de união entre exons e introns, domínios proteicos.
Identificar regiões conservadas e inferir relações evolutivas.
5
CEN0485 – Introdução à Bioinformática
Comparação de sequências:
Transferência de informação funcional
6
Você acaba de identificar o seguinte gene num experimento de ciclo celular.
Não conhece a função do gene.
>unknown_seq
TAAAATTCCCTCCTTCCCTCGTTTTCTGCTCTCTCCTTTTCTTTTCTTCTTCCTCTTTCTCTCACTAAAACCCTTGTTTC
TTCACTCGCCGTCGCTTTTCCCGTCATCGGAATCTTCAAATTCGACTCTCGCTTCACTACGATCCATGTCCGGTGTCGTA
GATCTTCTCCCGGTTCTTCTCAGCCGCCACCGCCGCCGCCGCACCATCCACCGTCATCTCCGGTTCCGGTTACATCTACG
CGGTTATACCACCTATACGTCGTCACTTAGCTTTCGCCTCAACAAAACCTCCGTTTCATCCTTCCGATGATTACCATCGA
TTAACCCTTCTTCGCTCAGTAATAATAACGACAGGAGCTTCGTTCATGGTTGTGGTGTTGTAGATCGGGAGGAAGATGCT
TCGTTGTTAGATCTCCTTCACGAAAGAGAAAGGCGACAATGGATATGGTTGTTGCTCCATCTAATAATGGATTCACGAGT
CTGGTTTCACTAACATACCTAGCAGTCCCTGTCAAACTCCTAGAAAAGGGGGCAGAGTCAACATCAAGTCAAAGGCCAAA
GAAACAAGTCAACTCCTCAAACACCCATCTCGACAAACGCTGGTTCTCCTATCACACTTACTCCATCAGGAAGTTGTCGT
ATGACAGTTCTTTAGGTCTCCTTACAAAAAAGTTCGTCAATCTAATTAAACAAGCCAAAGATGGAATGCTGGACCTAAAC
AAGCTGCAGAAACATTGGAGGTGCAGAAACGACGTATATATGATATTACAAACGTTTTGGAGGGGATAGATCTCATTGAA
AGCCTTTCAAGAATCGAATACTTTGGAAGGGAGTTGATGCGTGTCCTGGCGATGAGGATGCTGACGTATCTGTATTACAG
CAGAAATTGAAAACCTCGCCCTCGAAGAGCAAGCATTAGACAACCAAATCAGACAAACAGAGGAAAGATTAAGAGACCTG
GCGAAAATGAAAAGAATCAGAAATGGCTTTTTGTAACTGAAGAGGATATCAAGAGTTTACCAGGTTTCCAGAACCAGACT
TGATAGCCGTCAAAGCTCCTCATGGCACAACTTTGGAAGTGCCTGATCCAGATGAAGCGGCTGACCACCCACAAAGGAGA
ACAGGATCATTCTTAGAAGTACAATGGGACCTATTGACGTATACCTCGTCAGCGAATTTGAAGGGAAATTCGAAGACACA
ATGGGAGTGGTGCAGCACCACCAGCATGCTTGCCTATTGCTTCTAGCTCAGGATCTACAGGACACCATGACATCGAAGCC
TAACTGTTGACAACCCAGAAACTGCTATTGTGTCTCATGATCATCCTCATCCTCAACCCGGCGATACCTCTGATCTTAAT
ATTTGCAAGAGCAAGTAGGAGGAATGCTTAAGATTACTCCCTCTGATGTTGAAAATGATGAGTCGGACTACTGGCTTCTC
CAAATGCTGAGATTAGCATGACGGATATTTGGAAAACTGACTCTGGTATCGATTGGGATTATGGAATAGCCGACGTGAGT
CTCCACCACCAGGAATGGGCGAAATAGCACCAACAGCTGTTGACTCAACCCCGAGATGATCGAATACCAAGCACACTTCT
AACTTCTGATCCCAAATGTGTTACCTCACAACACTCCCTAAAATCATATACAAGGAGGGAGCAACTACAGAACGTGTATG
ACCAATGGCAGGTGCGTTCCATACAATGTACCATTAGATTATGATTCATTTATCGCCTAGAGTGATGTTGTAGAGGAGCA
CGAGAAACTAATGTAAGTTTAACAGAGAATGTACTTCATCGGCTGCATTGGTACACTATTTGATTATAATATTTTTGACC
CTCAAATGCATCTTTATAATCAGCTA
CEN0485 – Introdução à Bioinformática
Comparação de sequências:
Transferência de informação funcional
7
Você pode fazer uma busca num banco de dados de sequências conhecidas. Se achar algo “muito” semelhante você pode aproveitar a informação funcional das sequencias conhecidas. Isso é o que fazemos com o BLAST (falaremos do BLAST com detalhe na próxima aula)
CEN0485 – Introdução à Bioinformática
Comparação de sequências:
Transferência de informação funcional
8
CEN0485 – Introdução à Bioinformática
Comparação de sequências
9
Para quê?
Transferir informação funcional desde um gene bem estudado a outro recém sequenciado.
Montar sequencias de transcritos e genomas.
Identificar características (features) nas sequências, e.g., bordas de exons, sítios de união entre exons e introns, domínios proteicos.
Identificar regiões conservadas e inferir relações evolutivas.
CEN0485 – Introdução à Bioinformática
Comparação de sequências:
Montar transcritos e genomas
Exemplo: imagine um genoma de tamanho 10bp, e que você tem três copias do genoma. Cada cópia é fragmentada de seguinte forma, você não conhece a ordem dos fragmentos:
		TG, ATG e CCTAC
		AT, GCC e TACTG
		CTG, CTA e ATGC
¿Qual a sequência do genoma inteiro?
CCTAC
CC
CTA
ATGCCTACTG
TAC
C
 CCTAC
GCCTACTG
 CTACTG
CEN0485 – Introdução à Bioinformática
Comparação de sequências:
Montar transcritos e genomas
Cada fragmento é uma das leituras do sequenciamento. 
Os genomas reais são bem maiores que 10bp, e não temos nenhuma tecnologia capaz de ler o genoma inteiro (exceto para genomas pequenos), então temos que ler em pequenos pedaços
A leitura desses pequenos pedaços inicia no genoma em posições aleatórias
O truque então e achar regiões que sobrepõem entre as diferentes leituras, e assim de forma sucessiva reconstruir a sequência original do genoma. Para achar essa regiões usamos estratégias/ferramentas de comparação de sequências
Essa estratégia geral pode ser aplicada para montagem de genes individuais, de transcriptomas e de genomas
CEN0485 – Introdução à Bioinformática
Comparação de sequências:
Montar transcritos e genomas
12
http://www.nature.com/scitable/topicpage/complex-genomes-shotgun-sequencing-609
Montagem de uma sequencia de um gene a partir de pequenos fragmentos
Estrategia geral para montage de genomas usando o método “Shotgun”
CEN0485 – Introdução à Bioinformática
Comparação de sequências
13
Para quê?
Transferir informação funcional desde um gene bem estudado a outro recém sequenciado.
Montar sequencias de transcritos e genomas.
Identificar características (features) nas sequências, e.g., bordas de exons, sítios de união entre exons e introns, domínios proteicos.
Identificar regiões conservadas e inferir relações evolutivas.
CEN0485 – Introdução à Bioinformática
Comparação de sequências:
Identificar ”features”
Os genes de organismos eucarióticos são descontínuos, compostos por introns e exons. Após o processamento do RNA, os exons são mantidos para formar o mRNA (RNA mensageiro), enquanto os introns são removidos. Uma tarefa comum durante um projeto genômico é a identificação de exons e introns. Para isso, o pesquisador geralmente dispõe da sequência do genoma e das sequências das regiões transcritas, isto é, dos mRNA.
14
CEN0485 – Introdução à Bioinformática
Os genes eucarióticos são descontínuos
15
As áreas verdes representam regiões do mRNA que alinham no genoma
CEN0485 – Introdução à Bioinformática
Comparação de sequências:
Identificar ”features”
Explorando estratégias de comparação de sequências, podemos alinhar o transcrito ao genoma. Como apenas os éxons estão presentes no transcrito, esse alinhamento identificará suas posições no genoma. As regiões que não se alinham correspondem aos íntrons.
16
CEN0485 – Introdução à Bioinformática
Comparação de sequências:
Identificar ”features”
17
CEN0485 – Introdução à Bioinformática
Comparação de sequências:
Identificar ”features”
18
Exercicio com Splign
Vamos fazer o alinhamento da sequência de cDNA com  a sequência genômica usando Splign:
https://www.ncbi.nlm.nih.gov/sutils/splign/splign.cgi?textpage=online&level=form#
Descreva os resultados
Vamos usar a seguintes sequências:
cDNA: NM_214647
Genomic: NW_732498
Descreva cada uma das sequencias. 
Em qual bases de dados estão presentes? 
Em qual organismo?
Que significa cDNA?
CEN0485 – Introdução à Bioinformática
Comparação de sequências
19
Para quê?
Transferir informação funcional desde um gene bem estudado a outro recém sequenciado.Montar sequencias de transcritos e genomas.
Identificar características (features) nas sequências, e.g., bordas de exons, sítios de união entre exons e introns, domínios proteicos.
Identificar regiões conservadas e inferir relações evolutivas.
CEN0485 – Introdução à Bioinformática
Comparación de secuencias:
Identificar regiones conservadas
20
A comparação de sequências é muito usada para fazer alinhamentos multiplos e inferior as relações evolutvas entre genes ou organismos
CEN0485 – Introdução à Bioinformática
Comparación de secuencias:
Identificar regiones conservadas
21
Comparações de genomas de diferentes especies. Geralmente as regions exómicas e codificantes, são mas conservadas. Elas aparecem como rosa e roxo na figura acima.
CEN0485 – Introdução à Bioinformática
22
Sobre similaridade e homologia
‘A proteína X é 43% homologa da proteína Y’ Errado
As duas sequências podem ser 43% idênticas ou 43% similares.
A porcentagem de homologia no existe.
Não pode ser parcialmente homólogo, seria como estar parcialmente morto ou parcialmente gravida. É homólogo ou não é.
 Petsko 2001, Genome Biology 2(2)
	Similaridade	É uma medida (uma quantidade) que expressa o grau de relacionamento de duas sequencias. Geralmente se presenta como a porcentagem de identidade o conservação.
	Identidade	É uma medida que expressa a proporção de posições no variáveis entre duas sequências.
	Homologia	É um tipo de relação, não é uma medida. Expressa a relação por evolução divergente a partir de um ancestral comum.
CEN0485 – Introdução à Bioinformática
23
A similaridade pode indicar homologia. Características/Sequências homólogas podem ou não ter a mesma função.
Se duas sequências são similares a longo de tudo seu comprimento, geralmente são homologas, i.e., compartilham um ancestral comum.
>40% de identidade em proteínas é um bom indicador de homologia.
Regiões de baixa complexidade (repetições), podem ser altamente similares sem ser homólogas.
Sequências homólogas nem sempre são similares.
Sobre similaridade e homologia
CEN0485 – Introdução à Bioinformática
24
Tipos de homologia: Ortologia e paralogia
Genes ortólogos: o evento mas recente que relaciona os dois genes é um evento de especiação.
Genes paralogos: o evento mas recente que relaciona os dois genes é um evento de duplicação genica.
Genes co-ortólogos o in-paralogos: Quando um evento de duplicação génica acontece depois do evento de especiação.
Genes Xenólogos: originam-se num evento de transferência horizontal de genes.
CEN0485 – Introdução à Bioinformática
25
Fitch, W. M. Homology a personal view on some of the problems. Trends Genet, 2000, 16, 227-231
Tipos de homologia: Ortologia e paralogia
Sp: Evento de Especiação
Dp: Evento de duplicação
CEN0485 – Introdução à Bioinformática
26
Alinhamento de sequências
Tem como objetivo: encontrar as regiões o posições similares num conjunto de sequências.
CEN0485 – Introdução à Bioinformática
Alinhamento de sequências – Dot Plot
27
Matrices de pontos
Uma das formas mas simples de representar a similaridade entre duas sequências.
Método gráfico
É um analise exploratório, e.g., serve para detectar sequencias repetitivas, inversões, entre outros.
CEN0485 – Introdução à Bioinformática
27
Alinhamento de sequências – Dot Plot
28
Como funciona?
Para comparar duas sequências de comprimentos M e N, cria-se uma grade de dimensões M * N. Uma sequência fica na direção horizontal e a outra na vertical.
Com as sequências:
CGCTACG
CGATACGT
Crie uma matriz de pontos
		C	G	C	T	A	C	G
	C							
	G							
	A							
	T							
	A							
	C							
	G							
	T							
Matrices de pontos
CEN0485 – Introdução à Bioinformática
28
29
Para cada posição na grade, se comparam os elementos da linha e da coluna. Se são iguais se sombreia a célula
		C	G	C	T	A	C	G
	C							
	G							
	A							
	T							
	A							
	C							
	G							
	T							
Regiões de similaridade aparecem como diagonal
Alinhamento de sequências – Dot Plot
Matrices de pontos
CEN0485 – Introdução à Bioinformática
29
30
Similitud a lo largo de la una diagonal
Alinhamentos com gap podem ser representados
¿Como se identifican los gaps en la sequência horizontal? ¿En la vertical?
Alinhamento de sequências – Dot Plot
Interpretação
CEN0485 – Introdução à Bioinformática
30
31
Regiões repetidas se veem como diagonais paralelas
Alinhamento de sequências – Dot Plot
Interpretação
CEN0485 – Introdução à Bioinformática
31
32
Inversões repetidas (palíndromos) se veem como uma diagonal na sentido oposto
Alinhamento de sequências – Dot Plot
Interpretação
CEN0485 – Introdução à Bioinformática
32
Alinhamento de sequências – Dot Plot
33
O método básico de dotplot descrito anteriormente é muito ruidoso quando trabalhamos com sequencias compridas, especialmente de ácidos nucléicos. Pode imaginar alguma razão para isso?
Em esses casos uma estratégia baseada em janelas é mas apropriada. Nesta estratégia não vamos olhar resíduo por resíduo, i.e., cada uma das linhas e colunas da grade. Vamos a olhar um número X de resíduos contíguos (janela de comprimento X) e a janela será sombreada se a porcentagem de identidade é superior a um limite (threshold) predefinido
CEN0485 – Introdução à Bioinformática
33
Alinhamento de sequências – Dot Plot
34
Posição na sequência de cDNA
Posição na sequência genômica
Gap
Similitud
¿O que representam as regiões de similaridade?
¿O que representam os gaps?
Alinhando um cDNA e sua região genômica
CEN0485 – Introdução à Bioinformática
34
Alinhamento de sequências – Dot Plot
Ferramentas
35
Usar a ferramenta Dotlet JS:
https://dotlet.vital-it.ch/
Com as sequências disponíveis em:
 https://myhits.isb-sib.ch/util/dotlet/doc/dotlet_examples.html
CEN0485 – Introdução à Bioinformática
35
Alinhamento de sequências – Dot Plot
36
Mas ¿e onde está o alinhamento?
CEN0485 – Introdução à Bioinformática
36
Avaliando similaridade
37
CEN0485 – Introdução à Bioinformática
Avaliando similaridade
Com as sequências:
ACTAGTC
ACAGTCT
Qual a similaridade entre elas?
	Distância de Hamming: Número de substituições que são necessárias para converter uma sequência na outra. As sequências têm que ser do mesmo comprimento. 
38
Problemas?
Distância de Hamming=5
CEN0485 – Introdução à Bioinformática
Las secuencias biológicas no tienen la misma longitud siempre.
No todos los cambios (proteínas) tienen la misma probabilidad.
38
Avaliando similaridade
Com as mesmas sequências do caso anterior, mas agora pode insertar um símbolo adicional (gap) com o objetivo de incrementar a similaridade
ACTAGTC_
AC_AGTCT
A operação de inserção do gap e uma operação de edição. As operações de edição podem ter custos.
Onde colocar o gap? Tem muito alinhamentos possíveis. Como escolher o melhor alinhamento possível?
39
O melhor alinhamento possível e aquele que minimize os custos de edição
Introducindo gaps
CEN0485 – Introdução à Bioinformática
39
Avaliando similaridade: Função de custos
40
AGCATACG
AGTACAGC
Com a seguinte função de custos:
match		-1 	(identidade, os dois residuos são o mesmo)
mismatch	 	 1 	(substituição, os dois residios são diferentes)
gap		 2	(inserção de um gap representando um indel)
Qual é o melhor alinhamento (o alinhamento ótimo)?
CEN0485 – Introdução à Bioinformática
40
Avaliando similaridade: Função de custos
41
AG_CA_TA_CG
AGT_AC_AGC_
Mas, e se alinhamos de seguinte forma:
AGCATACG
AGTACAGC
O segundo alinhamento é melhor. 
¿Qual é o melhor alinhamento de todos os possíveis alinhamentos?
-1 -1 2 2 -1 2 2 -1 2 -1 2
Σ=7
¿Custo?
-1 -1 1 -1 1 -1 1 1 
¿Custo?
Σ=0
Porcentagem de identidade = (4/8)*100 = 50.0%
Porcentagem de identidade = (5/11)*100 = 45.5%
CEN0485 – Introdução à Bioinformática
41
Avaliando similaridade: Alinhamento ótimo
42
O que acontece se mudamos a função de custos?
Quais as pontuações dos dois alinhamentos usando a seguinte função de custos:
match		-1
mismatch	 	 3
gap		 1
AG_CA_TA_CG
AGT_AC_AGC_
AGCATACG
AGTACAGC
Σ=?
Σ=?
A escolha do alinhamento ótimo e a similaridade entre duas sequências DEPENDE da função de custos que seja usada.
3+3+2+2+3+2+2+3+2+3+2=27
-1-1+3-1+3-1+3+3= 8
CEN0485 – Introdução à Bioinformática
El primer alineamiento es el mejor, 45% de identidad
Primer alinhamento: -1-1+1+1-1+1+1-1+1+1+1=2
Segundo alinhamento:-1-1+3-1+3-1+3+3= 8
42
Avaliando similaridade: Função de custos
43
A função de custos pode modelar a identidade, as substituições e os indels Cómo poderia modificar a função de custos para que seja mas real?
	
Em sequências de ácidos nucléicos:
A proporção de transições e transversões não é sempre 1
As mudanças na terceira posição das trincas (códons) nem sempre geram mudanças na proteína (substituições sinónimas)
Poderia-se incluir no cálculo a taxa de erro do sequenciamento
Nas sequencias de proteínas:
As substituições observadas dependem do tipo de resíduos envolvidos.. Por exemplo, é “difícil” substituir um resíduo não polar por um resíduo polar.
CEN0485 – Introdução à Bioinformática
El primer alineamiento es el mejor, 45% de identidad
43
Avaliando similaridade: Função de custos
44
A função de custos pode modelar a identidade, as substituições e os indels ¿Cómo poderia modificar a função de custos para que seja mas real?
	
Em sequências de ácidos nucléicos:
A proporção de transições e transverõoes não é sempre 1
Existem duas vezes o número de caminhos para transversões que para transições, ainda assim a frequência das transições e maior. Por exemplo, transições são menos prováveis de gerar substituições de amino ácidos (mutações silenciosas, devido a hipótese de wobble)
CEN0485 – Introdução à Bioinformática
El primer alineamiento es el mejor, 45% de identidad
44
Avaliando similaridade: Função de custos
45
A função de custos pode modelar a identidade, as substituições e os indels Como poderia modificar a função de custos para que seja mas real?
	
Em sequências de ácidos nucléicos:
A proporção de transições e transversões não é sempre 1
Os câmbios na terceira posição dos códons nem sempre geram câmbios na sequência da proteína (substituições sinônimas)
Poderia-se ter em conta a frequência de erros de sequenciamento
Em sequencias de proteínas:
As substituições que podem ser observadas dependem do tipo de resíduos envolvidos, por exemplo, é pouco frequente substituir um resíduo polar por uno não polar. ¿Por que?
CEN0485 – Introdução à Bioinformática
El primer alineamiento es el mejor, 45% de identidad
45
Lembrar: Alinhamento de sequências
O alinhamento de sequências é uma operação fundamental em bioinformática.
O “melhor” alinhamento depende do sistema de pontos, i.e., da função de custos
Os dot-plots mostram a correspondência entre pares de sequencias
Não são métodos de alinhamento propriamente ditos
São métodos visuais e exploratórios
Então, como achar o alinhamento ótimo?
46
Na próxima aula!
CEN0485 – Introdução à Bioinformática
46
47
Isso é tudo por hoje
CEN0485 – Introdução à Bioinformática
47
image3.png
image4.jpeg
image5.png
image6.png
image7.png
image8.png
image9.png
image10.png
image11.gif
image12.png
image13.gif
image14.jpeg
image15.png
image16.wmf
image17.wmf
image18.png
image19.jpeg
image20.png
image21.png
image22.tiff
image23.png
image1.png
image2.jpeg

Continue navegando