aula9_ibm1029

•

USP-RP

Alef Janguas Da Costa

22/10/2014

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Introdução à Bioinformática

163 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

1
IBM1029
Introdução à Bioinformática
Aula 9
Profª Drª Silvana Giuliatti
Departamento de Genética – Bloco G
Ramal: 4503
silvana@rge.fmrp.usp.br
Faculdade de Medicina
Departamento de Genética
CLUSTAL
Alinhamento Múltiplo
• Interesse numa visão global de um conjunto de sequências:
• história evolutiva comum → história evolutiva das espécies 
respectivas
• relacionadas por ordem funcional ou estrutural → acrescentar 
novas informações sobre as sequências.
• O alinhamento múltiplo de sequências identifica resíduos ou 
regiões conservadas ou equivalentes em estruturas. 
• Algoritmos com diferentes abordagens.
• Os algoritmos em uso são heurísticos e a maioria são progressivos.
Alinhamento Múltiplo
PROGRESSIVO
• Método heurístico
• Rápido e eficiente.
• Faz alinhamento progressivo dos perfis e sequências mais distantes 
• O mais usado: ClustalW (Thompson et al, 1994)
.
ClustalW
• Algoritmo de 3 etapas:
• Alinhamento em pares de todas as sequências para determinar 
similaridade entre elas.
• Definir a ordem do alinhamento progressivo baseado na 
similaridade.
• Construir o alinhamento múltiplo baseado na ordem definida.
seq seq
alinh alinh
alinh
ams
ams
Qual a ordem do 
alinhamento?
ClustalW
• Clustal vem em 3 versões:
• Clustal: atribui pesos iguais a todas as sequências.
• ClustalW: atribui pesos diferentes às sequências.
• ClustalX: proporciona uma interface gráfica para o ClustalW.
2
ClustalW
Etapa 1: Alinhamento em pares de todas sequências para determinar 
similaridade entre elas.
• Usa método de alinhamento (global) de pares de sequências
• Usa matriz de substituição e penalidade por gaps.
S1
S2
S3
S4
S5
ClustalW
• Usa os alinhamentos em pares para calcular uma “distância 
genética” entre todos os pares de sequências. 
• Constrói uma matriz de valores de distâncias.
S1 S2 S3 S4 S5
S1
S2
S3
S4
S5
-
-
-
-
-
D2,1
D3,1
D4,1
D5,1
D3,2
D4,2 D4,3
D5,2 D5,3 D5,4
Simétrica
ClustalW
Distância Genética = número de mismatches
número total de pares (sem contar gaps)
Exemplo: Considere duas sequências HHFGTYH e HFGGGH e 
suponha que o alinhamento por programação dinâmica forneceu o 
seguinte alinhamento ótimo:
H H F G T Y H
H F G G G - H
- 6 pares e um gap.
- número de mismatches = 3
Então: distância = 3/6 = 0,5
ClustalW
Etapa 2: Definir a ordem do alinhamento progressivo baseado na 
similaridade.
• Definir as sequências mais próximas: árvore de similaridade. 
• Usa matriz de distâncias para calcular a árvore.
• Método de junção por vizinhos (neighbor-joining)
S1
S2
S3
S4
S5
S1 S2 S3 S4 S5
S1
S2
S3
S4
S5
-
-
-
-
-
0,3
D3,1
D4,1
D5,1
0,5
D4,2 0,8
D5,2 D5,3 D5,4
0,1
0,1
0,1
ClustalW
Etapa 3: Construir o alinhamento múltiplo baseado na ordem 
definida.
• Combinar os alinhamentos começando com os grupos mais 
próximos para os mais distantes
S1
S2
S3
S4
S5
• Alinha S1 com S2
• Alinha S3 com S4
• Alinha S1: S2 com S3:S4
• Alinha S1: S2 e S3:S4 com S5
O Score do Alinhamento
Método de Soma de Pares (SP)
• Método padrão para pontuar o alinhamento múltiplo
• SP é uma função, coluna por coluna, do peso do 
alinhamento.
• Usa matriz de substituição.
• O score total do alinhamento múltiplo é encontrado 
pelo score encontrado em cada coluna.
3
Alinhamento Múltiplo
Considere o alinhamento múltiplo de 4 sequências:
S1: A Q P I L L L V
S2: A L R - L L - -
S3: A K - I L L L -
S3: C P P V L I L V
Assuma: match = 1
mismatch = -1
gap = -2
gap/gap = 0
e considere o cálculo para a quarta coluna.
Alinhamento Múltiplo
S1: A Q P I L L L V
S2: A L R - L L - -
S3: A K - I L L L -
S3: C P P V L I L V
O score SP para essa coluna é:
SP(I, -, I, V) = s(I, -) + s(I, I) + s(I, V) + s(- , I) + s(- , V) + s(I, V)
= -2 +1 -1 -2 -2 -1
= -7
O score para o alinhamento é a soma de todos os scores SP 
encontrados para cada coluna.
Alinhamento Múltiplo
Quando uma matriz de substituição for usada:
BLOSUM62
A B C
S1 ...N...N...N...
S2 ...N...N...N...
S3 ...N...N...N...
S4 ...N...N...C...
S5 ...N...C...C...
Alinhamento Score A B C
N-N 6 10 6 3
N-C -3 0 4 6
C-C 9 0 0 1
60 24 9
Alinhamento Múltiplo
Considere a 1ª coluna:
S1: A Q P I L L L V
S2: A L R - L L - -
S3: A K - I L L L -
S3: C P P V L I L V
O score SP para essa coluna é:
SP(A, A, A, C) = s (A, A) + s (A, A) + s (A, C) + s (A , A) + s (A, C) + s (A, C)
= +1 +1 -1 +1 -1 -1
= 0
Se a coluna fosse toda de A, o score SP(A,A,A,A,A) seria igual a 6.
Se pesos diferentes forem introduzidos para cada sequência
individualmente, esse problema pode ser reparado.
ClustalW
• Para evitar problemas com método SP, ClustalW usa os valores da 
árvore para atribuir pesos às sequências.
S1
S2
S3
S4
0,2
0,3
0,2
0,4
0,4
0,2
WS1 = 0,3 + (0,4/2) = 0,5
WS2 = 0,2 + (0,4/2) = 0,4
WS3 = 0,2 + (0,2/2) = 0,3 
WS4 = 0,4 + (0,2/2) = 0,5
Alinh 1 S1 ... K ...
S2 ... N ...
Alinh 2 S3 ... L ...
S4 ... V ...
Score para a coluna
[(WS1 x WS3) x score (K,L) +
(WS1 x WS4) x score (K,V) +
(WS2 x WS3) x score (N,L) +
(WS2 x WS4) x score (N,V) ] / 4
ClustalW
S1
S2
S3
S4
Permite gaps para melhorar o alinhamento
S1
S2
S3
S4
Mantém os gaps e 
permite novos gaps
para melhorar o 
alinhamento
4
Alinhamento Múltiplo
Suponha um alinhamento feito com as 3 sequências:
S1: ACTTA
S2: AGTA
S3: ACGTA
Suponha que a árvore indique um alinhamento primeiro entre S1 e S2 e 
depois com S3 . Os alinhamentos possíveis, entre S1 e S2, são:
ACTTA ACTTA ACTTA
A-GTA AGT-A AG-TA
Alinhamento Múltiplo
O gap introduzido no primeiro alinhamento não poderá ser mudado. 
Então, os alinhamentos possíveis, entre S1 e S2 e S3, são:
ACTTA ACTTA ACTTA
A-GTA AGT-A AG-TA
ACGTA ACGTA ACGTA
Apenas o primeiro é ótimo.
Qualquer “erro” feito no início irá propagar-se ao longo 
de todo o alinhamento.
ClustalW
Onde encontrar ClustalW na internet e para download.
• www.ebi.ac.uk/clustalw/index.html
• www.ch.embnet.org/software/ClustalW.html
• pir.georgetown.edu/pirwww.search/mult-align/multi-
align.html
• clustalw.genome.ad.jp/
ClustalW
Saída do ClustalW
• www.ebi.ac.uk/clustalw/index.html
5
PSSM e Perfis
6
PSSM e Perfis 
Alinhamentos múltiplos: identificação de sequências
relacionadas em bancos de dados 
• PSSM (Position-specific scoring matrices)
• Perfis
• Modelos de Markov (Hidden Markov Model – HMM)
Modelos estatísticos que refletem na informação de resíduos 
(nucleotídeos ou aminoácidos) num alinhamento múltiplo.
Permitem detectar membros mais distantes de uma mesma 
família de sequências, resultando numa maior sensitividade das 
buscas em bancos de dados.
PSSM
PSSM: tabela que contém as probabilidades 
de aminoácidos ou nucleotídeos em cada 
posição de um alinhamento múltiplo sem 
gaps.
Posição 1 2 3 4 5 6
Seq.1 A T G T C G
Seq.2 A A G A C T
Seq.3 T A C T C A
Seq.4 C G G A G G
Seq.5 A A C C T G
Converter o alinhamento 
múltiplo em uma tabela de 
frequencias
0,23-0,60,20,4-0,2C
0,270,60,2-0,60,2-G
0,200,20,20,4-0,20,2T0,300,2-0,4-0,60,6A
Freq.654321Pos.
Coluna 1: 3A / 5 bases = 0,6
Frequência Total de A: 9 A/ 30 bases = 0,30
Normalizar os valores dividindo-os 
pelas frequências totais.
0,23-2,610,871,74-0,87C
0,272,220,74-2,220,74-G
0,201,01,02,0-1,01,0T
0,300,67-1,33-2,02,0A
Freq.654321Pos.
Coluna 1: 0,6/0,30 = 2,0
0,23-0,60,20,4-0,2C
0,270,60,2-0,60,2-G
0,200,20,20,4-0,20,2T
0,300,2-0,4-0,60,6A
Freq.654321Pos.
Converter os valores para 
log na base 2.
-1,38-0,20,8--0,2C
1,15-0,43-1,15-0,43-G
0,00,01,0-0,00,0T
-0,58-0,41-1,01,0A
654321Pos.
Coluna 1: log2 2 = 1
0,23-2,610,871,74-0,87C
0,272,220,74-2,220,74-G
0,201,01,02,0-1,01,0T
0,300,67-1,33-2,02,0A
Freq.654321Pos.
Na matriz, um valor positivo representa 
resíduo idêntico ou similar e um valor negativo
representa um resíduo não- conservado.
Por exemplo: dada a matriz, obtida de um alinhamento, 
quão bem a nova sequência AACTCG se aproxima no 
alinhamento? 
7
-1,38-0,20,8--0,2C
1,15-0,43-1,15-0,43-G
0,00,01,0-0,00,0T
-0,58-0,41-1,01,0A
654321Pos.
AACTCG
Encontrar os nucleotídeos em cada 
posição respectiva da matriz
Score = 1,0 + 1,0 + 0,8 + 1,0 + 1,38 + 1,15 = 6,33
Como: 26,33 = 80, pode-se dizer que há 80 vezes 
mais chance de ser parte da família do que ser ao acaso.
Perfis
Quando uma penalidade por gap é incluída na 
construção da matriz, um perfil é criado.
Ou seja, um perfil é um PSSM com informação de 
penalidade dos gaps inseridos na família de sequências.
A maioria dos métodos normaliza as probabilidades 
brutas em relação a uma matriz de pontuação como a 
BLOSUM62.
Perfis
Perfis podem ser usados em busca em bancos de 
dados para encontrar remotas sequências homólogas. 
PSI-BLAST: Um programa que estabelece os 
perfis e usa-os na busca contra um banco de dados de 
uma maneira automatizada. 
PSI-BLAST
BLAST: + match; - mismatch
PSI-BLAST: analisa as posições do alinhamento. Ex.: Cisteina
(query) na posição 5 é sempre conservada, enquanto que outra 
cisteína na posição 25 pode ser alinhada com uma serina em 
algum desses hits. Penaliza mais as substituições na posição5, 
e tolera substituições na posição 25. Essas duas cisteínas para 
o PSI-BLAST são diferentes.
Se threshold muito baixo: não consegue novas sequências;
Se threshold muito alto: seleciona qualquer sequência não 
relacionada com o restante.
PSI-BLAST
A etapas do algoritmo podem ser resumidas em:
1. Realiza um BLASTP normal entre a sequência de entrada 
(query) e o banco de dados para gerar hits de similaridade;
2. Os hits de alta similaridade são usadas num alinhamento 
múltiplo, dos quais um perfil é criado;
3. O perfil é então usado numa segunda busca para identificar 
mais membros da mesma família que possam gerar um 
“match” com o perfil;
4. Quando esses novos hits (novas sequências) são identificadas, 
elas são combinadas com o alinhamento múltiplo anterior para 
gerar um novo perfil, que é então usado em ciclos 
subsequentes de busca no banco de dados;
5. O procedimento é repetido até que nenhuma sequência nova 
seja encontrada.
A C D E ...
1
2
3
...
A C D E ...
1
2
3
...
Sequência query BLAST
Sequências
homólogas
Perfil
Alinhamento múltiplo
BLAST
Incorporado no perfil
Sequências homólogas 
adicionais
Novo Perfil
Processo iterativo