Buscar

CEN0485-Aula 06 - CompSeqs II

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 64 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 64 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 64 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Dr. rer. nat. Diego Mauricio Riaño Pachón
Laboratório de Biologia Computacional, Evolutiva e de Sistemas
Centro de Energia Nuclear na Agricultura
Universidade de São Paulo
diego.riano@cena.usp.br
http://labbces.cena.usp.br/
CEN0485 – Introdução à Bioinformática
Comparação de sequências II: Alinhamentos de pares de sequências (Globais y Locais); Matrizes de Substituição (PAM, BLOSUM); Métodos Heurísticos .

CEN0485 – Introdução à Bioinformática
1
2
Alinhamento de sequências
CEN0485 – Introdução à Bioinformática
3
A escolha do alinhamento ótimo e a semelhança entre um par de sequências depende da função de custos que seja usada
match		-1
mismatch	 3
gap		 1
Função de custos
match		-1
mismatch	 3
gap		 1
CEN0485 – Introdução à Bioinformática
Alinhamento de sequências
4
Para uma função de custos especificada qual é o melhor alinhamento possível?
CEN0485 – Introdução à Bioinformática
4
Alinhamento de sequências – Similaridade
5
O que em realidade precisamos saber e se as duas sequencias são homologas ou não
Estratégia: Comparar a probabilidade que as duas sequencias sejam homologas, com a probabilidade que não sejam. Convenientemente isto pode ser avaliado para cada uma das posições do alinhamento.
Eddy SA. 2004. Where did the BLOSUM62 alignment score matrix come from?. Nature Biotech. 22:1035-1036.
Precisamos calcular uma pontuação para cada um dos alinhamentos possíveis. Essa pontuação tem que refletir a probabilidade que as sequencias sejam homologas, e deveria permitir escolher o melhor alinhamento
Para fazer isto temos dois modelos que atribuem probabilidades para cada caso (homologa vs não homologa), e depois consideram a quociente entre essas duas probabilidades;
Modelo aleatório y modelo de pareamento (match)
Durbin R, Eddy S, Krogh A & Mitchinson G. 1998. Biological Sequence Analysis: probabilistic models of proteins and nucleic acids. Cambridge University Press.
CEN0485 – Introdução à Bioinformática
5
Alinhamento de sequências – Similaridade
6
Modelo aleatório
É o modelo mais simples. Assume que o resíduo (nucleotídeo ou amino ácido) ocorre independentemente e com frequência fa. Então a probabilidade de observar os resíduos a y b é
Durbin R, Eddy S, Krogh A & Mitchinson G. 1998. Biological Sequence Analysis: probabilistic models of proteins and nucleic acids. Cambridge University Press.
Eddy SA. 2004. Where did the BLOSUM62 alignment score matrix come from?. Nature Biotech. 22:1035-1036.
CEN0485 – Introdução à Bioinformática
6
7
Modelo de pareamento
Neste modelo os pares de residuos alinhados aparecem com uma probabilidade conjunta pab
Durbin R, Eddy S, Krogh A & Mitchinson G. 1998. Biological Sequence Analysis: probabilistic models of proteins and nucleic acids. Cambridge University Press.
Eddy SA. 2004. Where did the BLOSUM62 alignment score matrix come from?. Nature Biotech. 22:1035-1036.
Vocês podem pensar que pab é a probabilidade que os resíduos a y b se derivem de forma independente a partir de um resíduo original e desconhecido c no seu ancestral comum (c pode ser o mesmo a e/ou b)
Alinhamento de sequências – Similaridade
CEN0485 – Introdução à Bioinformática
7
8
Odds Ratio = Quociente de oportunidades
Durbin R, Eddy S, Krogh A & Mitchinson G. 1998. Biological Sequence Analysis: probabilistic models of proteins and nucleic acids. Cambridge University Press.
Eddy SA. 2004. Where did the BLOSUM62 alignment score matrix come from?. Nature Biotech. 22:1035-1036.
A expressão anterior é válida para um par de resíduos, para a sequência como um todo, podemos assumir que cada posição é independente, assim a probabilidade final é o produto das probabilidades em cada posição:
Alinhamento de sequências – Similaridade
CEN0485 – Introdução à Bioinformática
8
9
Log Odds Ratio
Durbin R, Eddy S, Krogh A & Mitchinson G. 1998. Biological Sequence Analysis: probabilistic models of proteins and nucleic acids. Cambridge University Press.
Eddy SA. 2004. Where did the BLOSUM62 alignment score matrix come from?. Nature Biotech. 22:1035-1036.
Por conveniência transformamos o Odds Ratio no log-Odds Ratio, assim chegamos a:
Onde:
Isto É a matriz de substituição
Pontuações positivas (s(a,b)) indicam substituições conservativas, no sentido estatístico.
Pontuações negativas indicam substituições no-conservativas
Alinhamento de sequências – Similaridade
CEN0485 – Introdução à Bioinformática
9
10
Eddy SA. 2004. Where did the BLOSUM62 alignment score matrix come from?. Nature Biotech. 22:1035-1036.
Agora o problema e calcular pab
A estratégia da família de matrizes BLOSUMX:
	Pegar muitos alinhamentos (conhecidos e confiáveis) de no máximo X% de identidade, e calcular a frequência de cada par de amino ácidos alinhados
Alinhamento de sequências – Similaridade
CEN0485 – Introdução à Bioinformática
The numerator (pab) is the likelihood of the hypothesis we want to test: that these two residues are correlated because they’re homologous. Thus, pab are the target fre- quencies: the probability that we expect to observe residues a and b aligned in homo- logous sequence alignments. The denomi- nator( fa fb)isthelikelihoodofanull hypothesis: that these two residues are un- correlated and unrelated, occurring inde- pendently. Thus, fa and fb are background frequencies: the probabilities that we expect to observe amino acids a and b on average in any protein sequence. 
If we expect to find a and b aligned together in homologous sequences more often than we expect them to occur by chance (pab>fa fb), then the odds ratio is greater than one and the score is positive. Operationally, we say that positive scores mean conservative substitutions, and nega- tive scores indicate nonconservative substi- tutions. 
10
11
Matrizes de substituição – BLOSUM62
Uma das matrizes de substituição mais usadas , foi construída a partir de alinhamento com identidade máxima de 62%
¿Por qué a diagonal não tem sempre o mesmo valor?
Pontuação positiva para substituições prováveis
Pontuação negativa para substituições menos prováveis
CEN0485 – Introdução à Bioinformática
Las matrices de sustitución solo se usan para proteínas. Normalmente en el caso de ADN solo se necesita un puntaje para match y otro para mismatch.
why shouldn’t all identitites get the same score? The rarer the amino acid is, the more surprising it would be to see two of them align together by chance. In the homologous alignment data that BLOSUM62 was trained on, leucine/leucine (L/L) pairs were in fact more common than tryptophan/tryptophan (W/W) pairs (pLL = 0.0371, pWW = 0.0065), but tryptophan is a much rarer amino acid (fL = 0.099, fW = 0.013). Run those numbers (with BLO- SUM62’s original λ = 0.347) and you get +3.8 for L/L and +10.5 for W/W, which were rounded to +4 and +11.
Esto significa que podemo hacer nuestras propias matrices, basadas en alineamientos conocidos, para cualquier valor deseado de “target frequencies” o para familias de proteins (intermembranales por ejemplo) y obtendremos alineamientos similares a los usados como conjunto de entrenamiento.
11
Matrizes de substituição independentes da posiçã0
12
Ácidos Nucleicos – Matriz de identidade
Proteínas
Matrizes PAM (Percent Accepted Mutation)
Modelo de evolução implícito
Todas as matrizes PAM calculadas a partir de PAM1
Matrizes BLOSUM (BLOck SUbstitution Matrices)
Determinadas empiricamente a partir de alinhamentos múltiplos de blocos conservados de proteínas distantes
O número indica o grau de identidade das sequencias que se usaram para calcular a matriz. BLOSUM 62 é a mais usada
CEN0485 – Introdução à Bioinformática
Las matrices de sustitución solo se usan para proteínas. Normalmente en el caso de ADN solo se necesita un puntaje para match y otro para mismatch.
why shouldn’t all identitites get the same score? The rarer the amino acid is, the more surprising it would be to see two of them align together by chance. In the homologous alignment data that BLOSUM62 was trained on, leucine/leucine(L/L) pairs were in fact more common than tryptophan/tryptophan (W/W) pairs (pLL = 0.0371, pWW = 0.0065), but tryptophan is a much rarer amino acid (fL = 0.099, fW = 0.013). Run those numbers (with BLO- SUM62’s original λ = 0.347) and you get +3.8 for L/L and +10.5 for W/W, which were rounded to +4 and +11.
Esto significa que podemo hacer nuestras propias matrices, basadas en alineamientos conocidos, para cualquier valor deseado de “target frequencies” o para familias de proteins (intermembranales por ejemplo) y obtendremos alineamientos similares a los usados como conjunto de entrenamiento.
12
13
Matrizes de substituição independentes da posição
Seq1
Seq2
AREKAE
AQDKAD
Glutamina: D
Ácido Glutámico: E
Será a melhor opção sempre ter o mesmo peso, independentemente da posição? Pensem numa posição que muda muito, com poucas implicações na estrutura terciaria da proteína e outra posição muito conservada onde qualquer mudança faz perder a atividade da proteína. 
CEN0485 – Introdução à Bioinformática
Las matrices de sustitución solo se usan para proteínas. Normalmente en el caso de ADN solo se necesita un puntaje para match y otro para mismatch.
why shouldn’t all identitites get the same score? The rarer the amino acid is, the more surprising it would be to see two of them align together by chance. In the homologous alignment data that BLOSUM62 was trained on, leucine/leucine (L/L) pairs were in fact more common than tryptophan/tryptophan (W/W) pairs (pLL = 0.0371, pWW = 0.0065), but tryptophan is a much rarer amino acid (fL = 0.099, fW = 0.013). Run those numbers (with BLO- SUM62’s original λ = 0.347) and you get +3.8 for L/L and +10.5 for W/W, which were rounded to +4 and +11.
Esto significa que podemo hacer nuestras propias matrices, basadas en alineamientos conocidos, para cualquier valor deseado de “target frequencies” o para familias de proteins (intermembranales por ejemplo) y obtendremos alineamientos similares a los usados como conjunto de entrenamiento.
13
Matrizes de substituição dependentes da posição
14
Vamos  falar delas no final
Position-Specific Iterated (PSI-BLAST)
Reverse Position-Specific Iterated (RPS-BLAST)
CEN0485 – Introdução à Bioinformática
Las matrices de sustitución solo se usan para proteínas. Normalmente en el caso de ADN solo se necesita un puntaje para match y otro para mismatch.
why shouldn’t all identitites get the same score? The rarer the amino acid is, the more surprising it would be to see two of them align together by chance. In the homologous alignment data that BLOSUM62 was trained on, leucine/leucine (L/L) pairs were in fact more common than tryptophan/tryptophan (W/W) pairs (pLL = 0.0371, pWW = 0.0065), but tryptophan is a much rarer amino acid (fL = 0.099, fW = 0.013). Run those numbers (with BLO- SUM62’s original λ = 0.347) and you get +3.8 for L/L and +10.5 for W/W, which were rounded to +4 and +11.
Esto significa que podemo hacer nuestras propias matrices, basadas en alineamientos conocidos, para cualquier valor deseado de “target frequencies” o para familias de proteins (intermembranales por ejemplo) y obtendremos alineamientos similares a los usados como conjunto de entrenamiento.
14
15
Open gap penalty
Extension gap penalty
Além da matriz de substituição, a pontuação do alinhamento depende dois custos associados a inserção dos ‘gaps’ :
¿Cuál?
?
Alinhamento de sequências – Similaridade
CEN0485 – Introdução à Bioinformática
15
16
¿Como escolher o alinhamento com a melhor pontuação?
¿Fazer todos os alinhamentos possíveis?
NÃO!
Usar programação dinâmica
¿global o local?
¿Qual tipo de alinhamento quer fazer?
Alinhamento de sequências – Similaridade
CEN0485 – Introdução à Bioinformática
16
Alinhamentos: Global y local
17
Global
Local
CEN0485 – Introdução à Bioinformática
17
Alineamientos: Programación dinámica
Consiste em decompor o problema em subproblemas e usar a solução dos subproblemas para obter a solução do problema original. Os subproblemas têm que ser sobreponíveis.
O algoritmo encontra o alinhamento ótimo dadas a matriz de substituição e os custos de lacunas.
Este algoritmo, com pequenas modificações, é muito utilizado na análise de sequências.
18
CEN0485 – Introdução à Bioinformática
18
Alinhamentos: Programação dinâmica
19
Local
Algoritmo de Smith-Waterman
Algoritmo de Needleman-Wunsch
Global
		-	A	C	A	C	T	A
	-							
	A							
	G							
	C							
	A							
	C							
	A							
	C							
	A							
Matriz de programação dinâmica
¿Como preencher as células?
Eddy SA. 2004. What is dynamic programming? Nature Biotech. 22:909-10.
Obter o alinhamento exato segundo a matriz de substituição e o custo de gaps. Mudam os parâmetros – Muda o alinhamento
CEN0485 – Introdução à Bioinformática
19
Alinhamentos: Programação dinâmica
20
Algoritmo de Needleman-Wunsch
Global
Gaps: λ= -6
Matriz de similitude (σ): Match=+5; Mismatch=-2
Inicializar (0,0)=0
Preencher as células
Eddy SA. 2004. What is dynamic programming? Nature Biotech. 22:909-10.
		-	A	C	A	C	T	A
	-							
	A							
	G							
	C							
	A							
	C							
	A							
	C							
	A							
								
		0						
								
								
								
								
								
								
								
								
i
j
Traceback!
g=gaps=-6
CEN0485 – Introdução à Bioinformática
El puntaje final del alineamiento depende de la función de puntaje!
La celda en la posición inferior derecha da el puntaje del mejor alineamiento
Movimientos en la horizontal o en la vertical indican gaps
Si s(i-1,)+gamma es el mayor puntaje entonces xi esta alineado a un gap.
Si s(i,j-1+gamma) es el mayor puntaje entonces yi esta alineado a un gap.
20
Septiembre 21 de 2009
21
Diego M. Riaño Pachón - MPIMP
`
		-	A	C	A	C	T	A
	-	0	-6	-12				
	A	-6	+5					
	G	-12						
	C							
	A							
	C							
	A							
	C							
	A							
Gaps: λ= -6
Matriz de similitude (σ): Match=+5; Mismatch=-2
Inicializar (0,0)=0
CEN0485 – Introdução à Bioinformática
21
Alinhamentos: Programação dinâmica
22
Algoritmo de Smith-Waterman
Local
Gaps: λ= -6
Matriz de substituição (σ): Match=+5; Mismatch=-2
Inicializar (0,0)=0
Llenado de celdas
		-	A	C	A	C	T	A
	-							
	A							
	G							
	C							
	A							
	C							
	A							
	C							
	A							
								
		0						
								
								
								
								
								
								
								
								
i
j
g=gaps=-6
CEN0485 – Introdução à Bioinformática
22
Septiembre 21 de 2009
23
Diego M. Riaño Pachón - MPIMP
		-	A	C	A	C	T	A
	-	0						
	A							
	G							
	C							
	A							
	C							
	A							
	C							
	A							
CEN0485 – Introdução à Bioinformática
23
Alineamientos: Local vs. Global
24
CEN0485 – Introdução à Bioinformática
Un par se secuencias pueden ser alineadas tanto de forma global como de forma local, todo depende de la pregunta que se quiere responder.
24
Vamos lembrar
25
CEN0485 – Introdução à Bioinformática
Alinhamento de sequências - Similaridade
26
Open gap penalty
Extension gap penalty
Além da matriz de substituições, a pontuação do alinhamento depende das penalizações dos gaps:
¿Cuál?
?
CEN0485 – Introdução à Bioinformática
26
Alineamiento de secuencias – Gaps
27
Open gap penalty
Extension gap penalty
Affine gap penalties
Para um gap de comprimento g:
d: Custo por abrir o gap
e: Custo por extender o gap 
CEN0485 – Introdução à Bioinformática
27
Alinhamentos: Global e local
28
Global
Local
CEN0485 – Introdução à Bioinformática
28
Significancia do alinhamento
Teste com sequências randômicas na sessão prática.
O que vocês esperam ao alinhar duas sequencias aleatórias? 
E, uma sequência real contra uma aleatória?
29
CEN0485 – Introdução à Bioinformática
Alinhamentos: Local vs. Global
30
¿Como podríamos ahorrar tiempo?
CEN0485 – Introdução à Bioinformática
Un par se secuencias pueden ser alineadas tanto de forma global como de forma local, todo depende de la pregunta que se quiere responder.
30
BLAST
Basic Local Alignment Search Tool
31
Smith & Watermany Needleman & Wunsch são algoritmos exatos, i.e., sempre encontram a solução ótima, mas são muito caros (memória e tempo) 
BLAST é um algoritmo heurístico
i.e., nem sempre encontra a solução ótima mas é muito rápido, i.e., segue atalhos
CEN0485 – Introdução à Bioinformática
BLAST
Basic Local Alignment Search Tool
32
Lembrem-se: Apenas buscas locais
Constitui uma busca preliminar, normalmente tem como finalidade a identificação de sequências, de domínios e sub-sequências comuns.
Procura regiões locais de similaridade entre pares de sequências, é muito rápido (NÃO usa Smith-Waterman) e útil quando se procura em bases de dados com muitas sequências
CEN0485 – Introdução à Bioinformática
BLAST
Basic Local Alignment Search Tool
33
Da mesma forma que no caso pareado, a pontuação do alinhamento depende de:
DMRP
Gaps
Open gap penalty
Extension gap penalty
CEN0485 – Introdução à Bioinformática
BLAST
Basic Local Alignment Search Tool
34
http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/BLAST_algorithm.html
Altschul et al., 1990. Basic Local Alignment Search Tool. J. Mol. Biol. (1990) 215, 403–410
BLAST misses hard to find matches
CEN0485 – Introdução à Bioinformática
34
Um alinhamento que o Blast não pode encontrar com W=11
35
 1 GAATATATGAAGACCAAGATTGCAGTCCTGCTGGCCTGAACCACGCTATTCTTGCTGTTG
 || | || || || | || || || || | ||| |||||| | | || | ||| |
 1 GAGTGTACGATGAGCCCGAGTGTAGCAGTGAAGATCTGGACCACGGTGTACTCGTTGTCG
 61 GTTACGGAACCGAGAATGGTAAAGACTACTGGATCATTAAGAACTCCTGGGGAGCCAGTT
 | || || || ||| || | |||||| || | |||||| ||||| | |
 61 GCTATGGTGTTAAGGGTGGGAAGAAGTACTGGCTCGTCAAGAACAGCTGGGCTGAATCCT
 121 GGGGTGAACAAGGTTATTTCAGGCTTGCTCGTGGTAAAAAC
 |||| || ||||| || || | | |||| || |||
 121 GGGGAGACCAAGGCTACATCCTTATGTCCCGTGACAACAAC
Por quê?
CEN0485 – Introdução à Bioinformática
BLAST
Basic Local Alignment Search Tool
36
Camacho C et al., 2009. BLAST+: architecture and applications. BMC Bioinformatics. 15;10:421.
,
Score threshold 2
Score threshold 3
Score threshold 4
Score threshold 1
CEN0485 – Introdução à Bioinformática
36
BLAST
Basic Local Alignment Search Tool
37
DMRP
Significancia
O que é um bom alinhamento?
O que se esperaria por acaso somente?
Esta avaliação está baseada na pontuação do seu alinhamento: 
	Poderia obter a mesma pontuação, ou melhor, por acaso?
O cálculo é dependente da matriz de substituição e da penalização por 'gaps' que se usou.
O 'Expect-value' nos dá a resposta que precisamos.
E-value: Número de alinhamentos com uma pontuação igual ou maior do que a observada, que se espera apareçam por acaso.
Quanto menor for o e-value, mais significativo é o alinhamento.
CEN0485 – Introdução à Bioinformática
BLAST
Basic Local Alignment Search Tool
38
Resultados
DMRP
CEN0485 – Introdução à Bioinformática
38
Estadísticos de alineamiento local
CEN0485 – Introdução à Bioinformática
¿Cómo calcular el valor e o p?
CEN0485 – Introdução à Bioinformática
Crear secuencias al azar, e.g., shuffled, y comparar el valor de puntaje entre las secuencias reales, con el valor obtenidos de las comparaciones con las secuencias aleatorias.
40
Algumas propriedades do valor-E:
Diminui exponencialmente ao aumentar S.
À medida que o valor-E se aproxima de zero, a probabilidade de que o alinhamento ocorra por acaso se aproxima de zero.
Tamanho da sequência e do banco de dados influenciam a probabilidade de que o alinhamento ocorra por acaso.
Para alinhamentos com Gaps, aparentemente os pontuações seguem o mesmo tipo de distribuição estatística, mas isso ainda não foi comprovado. Na prática, usa-se o mesmo quadro teórico.
CEN0485 – Introdução à Bioinformática
CEN0485 – Introdução à Bioinformática
Muitas vezes os parâmetros padrão do BLAST funcionam bem
No entanto, existem algumas razões pelas quais você se beneficiaria ajustando alguns parâmetros
Por que mudar os parâmetros padrão do BLAST?
CEN0485 – Introdução à Bioinformática
Por que mudar os parâmetros padrão do BLAST?
	Razão	Parâmetro a definir
	A sequência de consulta tem muitos resíduos idênticos (por exemplo, baixa complexidade)	Filtros de sequência (Mascaramento automático).
	BLAST não relata nenhum resultado	Alterar matriz de substituição e penalidades de gap.
	Os resultados têm valores E próximos do limiar	Alterar matriz de substituição e penalidades de gap, a fim de verificar a robustez de seus achados.
	BLAST relata muitas correspondências	Tente mudar o banco de dados, ou filtrar com base na taxonomia ou palavra-chave. Aumentar o limiar do valor de E.

CEN0485 – Introdução à Bioinformática
Alguns parâmetros do BLAST
45
CEN0485 – Introdução à Bioinformática
O uso do tamanho da palavra
			WORD SIZE
	BLAST N	Highly similar sequences (megablast 	16,18,20,24
			28,32,48,64
		More dissimilar sequences (discontiguous megablast) 	11,12
		Somewhat similar sequences (BLASTn) 	7,11,15
	BLAST P	BLASTp (protein-protein BLAST) 	2,3
		PSI-BLAST (Position-Specific Iterated BLAST)	2,3
		PHI-BLAST (Pattern Hit Initiated BLAST)	2,3
CEN0485 – Introdução à Bioinformática
SCORING PARAMETERS BLASTn
CEN0485 – Introdução à Bioinformática
SCORING PARAMETERS BLASTP
CEN0485 – Introdução à Bioinformática
FILTROS Y MASCARAS
CEN0485 – Introdução à Bioinformática
FILTROS E MÁSCARAS
Low complexity regions Mascara segmentos da sequência problema que possuem baixa complexidade em composição de acordo com SEG ou DUST.
Species specific Mascara repetições (LINEs, SINEs, elementos retrotransponíveis intercalados curtos e longos, e repetições retrovirais) e é útil para sequências humanas que podem conter essas repetições.
Mask lower case letters
CEN0485 – Introdução à Bioinformática
OS TIPOS DE BLAST
blastp:		Proteína 	 							Proteína 
Para comparar uma proteína contra um banco de dados de proteínas.
Programa	Query	 Número de búsquedas en la BD BD
1
blastn:		ADN							 ADN 
Para comparar as duas cadeias de DNA contra o banco de dados de DNA.
blastx:		ADN	 				 				 Proteína 
Blastx traduz a sequência de DNA em 6 sequências de proteínas.
tblastn:		Proteína								 ADN 
Cada sequência de DNA do banco de dados é traduzida em seis proteínas.
tblastx:		ADN									 ADN 
Traduz o cada entrada do banco de dados e o query em suas 6 possíveis proteínas.
1
6
6
36
CEN0485 – Introdução à Bioinformática
E quando usar qual?
PROTEÍNAS: você já tem uma proteína e quer encontrar proteínas semelhantes
blastp: se estiver em dúvida, sempre use blastp. Em geral, é usado para buscar informações sobre a função da proteína. Também se o quadro de leitura aberto for conhecido, é preferível traduzir a proteína e usar este programa.
tblastn: Você quer descobrir novos genes que codificam para uma proteína.
NUCLEOTÍDEOS: Não se conhece o ORF que codifica para a proteína
blastn: Sequências muito semelhantes (>70% de identidade)
tblastx: Descobrimento de genes que codificam proteínas homólogas à consulta (Blastn e Blastx não deram nada)
blastx: Análise da consulta, descobrimento de proteínas codificadas. Pode servir para compensar um pouco erros de sequências. Por quê?
Cuidado com os parâmetros
CEN0485 – Introdução à Bioinformática
Consider a situation in which you have a DNA sequence with no obvious database matches, and you want to know if it encodes a protein with even distant
database matches. A blastx search would be useful to reveal such matches. But if that search fails, you might perform a tblastx search to determine
whether an entire DNA database contains genes that encode proteins homologous to your query.
52
Salida de BLAST: alineamientos
CEN0485 – Introdução à Bioinformática
53
Program Selection BLASTn
CEN0485 – Introdução à Bioinformática
Mega BLAST
Utiliza um algoritmo para a busca por alinhamento de sequências de nucleotídeos.
Está otimizado para alinhar sequênciasque divergem ligeiramente como resultado de possíveis erros de sequência ou outros similares.
Usa uma largura de palavra maior → 10 vezes mais rápido e pode trabalhar com sequências de DNA muito mais longas.
CEN0485 – Introdução à Bioinformática
Program Selection Guide
https://blast.ncbi.nlm.nih.gov/blast/BLAST_guide.pdf
CEN0485 – Introdução à Bioinformática
CEN0485 – Introdução à Bioinformática
CEN0485 – Introdução à Bioinformática
CEN0485 – Introdução à Bioinformática
Matrices de sustitución dependients de la posición
PSI – BLAST
CEN0485 – Introdução à Bioinformática
Tasas de sustitución específicas de posición
Serina en un sitio 
activo
CEN0485 – Introdução à Bioinformática
61
Position Specific Score Matrix (PSSM)
 A R N D C Q E G H I L K M F P S T W Y V
 206 D 0 -2 0 2 -4 2 4 -4 -3 -5 -4 0 -2 -6 1 0 -1 -6 -4 -1 
 207 G -2 -1 0 -2 -4 -3 -3 6 -4 -5 -5 0 -2 -3 -2 -2 -1 0 -6 -5 
 208 V -1 1 -3 -3 -5 -1 -2 6 -1 -4 -5 1 -5 -6 -4 0 -2 -6 -4 -2 
 209 I -3 3 -3 -4 -6 0 -1 -4 -1 2 -4 6 -2 -5 -5 -3 0 -1 -4 0 
 210 S -2 -5 0 8 -5 -3 -2 -1 -4 -7 -6 -4 -6 -7 -5 1 -3 -7 -5 -6 
 211 S 4 -4 -4 -4 -4 -1 -4 -2 -3 -3 -5 -4 -4 -5 -1 4 3 -6 -5 -3 
 212 C -4 -7 -6 -7 12 -7 -7 -5 -6 -5 -5 -7 -5 0 -7 -4 -4 -5 0 -4 
 213 N -2 0 2 -1 -6 7 0 -2 0 -6 -4 2 0 -2 -5 -1 -3 -3 -4 -3 
 214 G -2 -3 -3 -4 -4 -4 -5 7 -4 -7 -7 -5 -4 -4 -6 -3 -5 -6 -6 -6 
 215 D -5 -5 -2 9 -7 -4 -1 -5 -5 -7 -7 -4 -7 -7 -5 -4 -4 -8 -7 -7 
 216 S -2 -4 -2 -4 -4 -3 -3 -3 -4 -6 -6 -3 -5 -6 -4 7 -2 -6 -5 -5 
 217 G -3 -6 -4 -5 -6 -5 -6 8 -6 -8 -7 -5 -6 -7 -6 -4 -5 -6 -7 -7 
 218 G -3 -6 -4 -5 -6 -5 -6 8 -6 -7 -7 -5 -6 -7 -6 -2 -4 -6 -7 -7 
 219 P -2 -6 -6 -5 -6 -5 -5 -6 -6 -6 -7 -4 -6 -7 9 -4 -4 -7 -7 -6 
 220 L -4 -6 -7 -7 -5 -5 -6 -7 0 -1 6 -6 1 0 -6 -6 -5 -5 -4 0 
 221 N -1 -6 0 -6 -4 -4 -6 -6 -1 3 0 -5 4 -3 -6 -2 -1 -6 -1 6 
 222 C 0 -4 -5 -5 10 -2 -5 -5 1 -1 -1 -5 0 -1 -4 -1 0 -5 0 0 
 223 Q 0 1 4 2 -5 2 0 0 0 -4 -2 1 0 0 0 -1 -1 -3 -3 -4 
 224 A -1 -1 1 3 -4 -1 1 4 -3 -4 -3 -1 -2 -2 -3 0 -2 -2 -2 -3 
Serina tiene un puntaje diferente 
en estas dos posiciones
Sitio activo 
CEN0485 – Introdução à Bioinformática
62
Molecular biologists “will spend a huge amount of time collecting their data, and then potentially throw away all of their good work by feeding the data into a computer program with default parameter settings…”
63
CEN0485 – Introdução à Bioinformática
64
Isso é tudo por hoje
CEN0485 – Introdução à Bioinformática
64
image3.gif
image4.png
image5.gif
image6.jpeg
oleObject1.bin
image7.emf
€ 
P a,b |R( ) = fa fb
  
Pa,b|R
()
=f
a
f
b
oleObject2.bin
image8.emf
€ 
P a,b |M( ) = pab
  
Pa,b|M
()
=p
ab
oleObject3.bin
image9.emf
€ 
P a,b |M( )
P(a,b |R)
=
pab
fa fb
  
Pa,b|M
()
P(a,b|R)
=
p
ab
f
a
f
b
oleObject4.bin
image10.emf
€ 
P x,y |M( )
P(x,y |R)
=
pab
fa fbi
∏
  
Px,y|M
()
P(x,y|R)
=
p
ab
f
a
f
b
i
Õ
oleObject5.bin
image11.emf
€ 
S = s(xi,yi)
i
∑
  
S=s(x
i
,y
i
)
i
å
oleObject6.bin
image12.emf
€ 
s(a,b) = log pab
fa fb
⎛ 
⎝ 
⎜ 
⎞ 
⎠ 
⎟ 
  
s(a,b)=log
p
ab
f
a
f
b
æ 
è 
ç 
ö 
ø 
÷ 
oleObject7.bin
image13.emf
€ 
s(a,b ) =
1
λ
log pab
fa fb
  
s
(a,b)
=
1
l
log
p
ab
f
a
f
b
image14.png
image15.png
image16.png
image17.png
image18.png
image19.png
image20.png
image21.png
image22.png
image23.gif
oleObject8.bin
image24.emf
€ 
S(i, j) =max
S(i −1, j −1) +σ(xi,y j ),
S(i −1, j) + γ ,
S(i, j −1) + γ
⎧ 
⎨ 
⎪ 
⎩ 
⎪ 
  
S(i,j)=max
S(i-1,j-1)+s(x
i
,y
j
),
S(i-1,j)+g,
S(i,j-1)+g
ì 
í 
ï 
î 
ï 
oleObject9.bin
oleObject10.bin
image25.emf
€ 
S(i, j) =max
0,
S(i −1, j −1) +σ(xi,y j ),
S(i −1, j) + γ ,
S(i, j −1) + γ
⎧ 
⎨ 
⎪ 
⎪ 
⎩ 
⎪ 
⎪ 
  
S(i,j)=max
0,
S(i-1,j-1)+s(x
i
,y
j
),
S(i-1,j)+g,
S(i,j-1)+g
ì 
í 
ï 
ï 
î 
ï 
ï 
image26.png
oleObject11.bin
image27.emf
€ 
γ(g) = −d − (g −1)e
  
g(g)=-d-(g-1)e
image28.png
image29.png
image30.png
image31.png
image32.png
image33.png
image34.png
image35.wmf
image36.png
image37.png
image38.png
image39.png
image40.png
image41.png
image42.png
image43.png
image44.png
image45.png
image1.png
image2.jpeg

Outros materiais