Buscar

1 leitura Alinhamento de Sequências - resumo e exercício

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Alinhamento de Sequências 
 
O alinhamento de sequências consiste no processo de comparar duas sequências (de 
nucleotídeos ou proteínas) de forma a se observar seu nível de identidade. A similaridade 
entre duas sequências pode ser consequência de relações funcionais, estruturais ou 
evolucionária entre elas. O alinhamento de sequências é um dos pilares da bioinformática, 
tendo várias aplicações, como na identificação de genes e proteínas desconhecidas, 
comparação entre genes ou genomas de diferentes organismos, mapeamento de sequências 
expressas dentro de um genoma, montagem de genomas entre outras aplicações. 
O alinhamento de sequências de nucleotídeos ou aminoácidos é tipicamente 
representado como linhas em uma matriz. Se as duas sequências em um alinhamento 
compartilham de um ancestral em comum (são sequências homólogas), correspondências 
(matches) entre letras na sequência aponta que aquele nucleotídeo ou aminoácido não foi 
alterado. Quando, em determinada posição, há uma letra diferente entre as duas sequências 
(um mismatch), podemos inferir que houve uma mutação pontual. Por vezes, pra que as 
sequências consigam se alinhar, é necessário inserir gaps (espaços vazios) entre as letras. 
Essas gaps podem ser interpretadas como inserções ou deleções (indel) em uma das 
sequências. Gaps são representadas na sequência por “-“. 
Durante um alinhamento, deve-se pontuar as similaridades (matches), diferenças 
(mismatches) e falhas (gaps). Matches sempre recebem pontuação positiva, enquanto 
mismatches e gaps recebem pontuação negativa. Além disso, gaps podem ter duas 
pontuações distintas: uma pontuação mais baixa para abertura de falhas (gap opening) e 
outra pontuação para extensão de falha (gap extension) (Fig. 1). Ao fim do alinhamento, é 
somatória dos pontos, chamado de escore do alinhamento. Esses escores são calculados em 
todos os tipos de alinhamentos. 
 
 
Figura 1. Calculo de escore de um alinhamento entre duas sequências. 
 
Para alinhar sequências, existem diferentes tipos de algoritmos que podem ser 
utilizados. Entre os métodos de alinhamento, estão algoritmos de programação dinâmica, o 
qual tende a quebrar a sequência em problemas menores para encontrar o melhor resultado 
de alinhamento. Entretanto, esse tipo de abordagem consome tempo, e é inviável para alinhar 
sequências muito grandes ou comparar uma sequência com várias sequências em um banco 
de dados. Alguns programas utilizam algoritmos heurísticos, os quais são utilizados em 
buscas em bancos de dados e para alinhar sequências maiores em um menor tempo, porém 
não esses algoritmos não garantem encontrar o melhor alinhamento, diferente da 
programação dinâmica. 
O alinhamento de sequências pode ser de três tipos (Fig. 2). No alinhamento global, 
toda a extensão das sequências é alinhada uma com a outra, penalizando gaps nas pontas. 
Esse tipo de alinhamento é utilizado, por exemplo, para alinhar sequências homólogas 
completas. No alinhamento semi-global (ou semi-local, ou glocal), toda a extensão das 
sequências é alinhada, porém as pontas das sequências que apresentam gaps não são 
penalizadas (não entram no escore). É utilizado no caso de montagem de genomas, onde 
busca-se um alinhamento de pontuação máxima entre o início de uma sequência e o final da 
outra. Por fim, no alinhamento local, busca-se a pontuação máxima entre qualquer par de 
subsequências, sendo que apenas é observado a pontuação de um pedaço das duas sequências 
estudadas. É utilizado quando se pretende identificar trechos altamente conservados entre 
dois genes. 
 
 
Figura 2. Tipos de alinhamento de sequências 
 
No alinhamento global, pode ser utilizado o algoritmo de Needleman-Wunsch, o qual 
utiliza programação dinâmica para solucionar o problema. No alinhamento semi-global, o 
algoritmo de Needleman-Wunsch é alterado, sendo que sendo que todos os valores negativos 
na inicialização da matriz são trocados por “0” e não se penaliza gaps no início e fim do 
alinhamento final. O algoritmo de Smith-Waterman é utilizado no alinhamento local, sendo 
que não são utilizados valores negativos na matriz. Neste algoritmo, o resultado é lido 
começando do maior número e terminando quando o rastreamento chegar em 0. 
Durante o alinhamento de proteínas, para pontuar matches e mismatches, são utilizadas 
matrizes de substituição (ou de comparação). Isso se deve ao fato de que existem 
aminoácidos que são mais (ou menos) similares entre si do que os outros. Além disso, cada 
aminoácido é mais (ou menos) provável de ser trocado (mutação) em outro aminoácido, o 
que depende das características desses aminoácidos. Por exemplo, um resíduo hidrofílico 
como a arginina é mais provável de ser trocado por outro composto hidrofílico, como a 
glutamina, ao invés de ser mutado para um resíduo hidrofóbico como a leucina. Por tanto, 
as matrizes de substituição são extremamente utilizadas durante o alinhamento de sequências 
proteicas. As matrizes de substituição mais conhecidas utilizadas para pontuação de 
alinhamento de sequências proteicas são a PAM (pointed accepted mutation) e BLOSUM 
(Blocks Substitution Matrix) (Fig. 3). 
 
 
Figura 3. Escore da matriz de substituição BLOSUM62. Esta é uma das matrizes mais 
utilizadas e programas de alinhamento de sequências. Esta matriz foi montada para 
comparar proteínas que apresentem 62% de aminoácidos idênticos ou menos. 
 
 
Exercício 
 
1. Dadas as sequências a seguir, realize um alinhamento global utilizando o algoritmo 
de Needleman-Wunsch e dê o escore final do melhor alinhamento. Para os cálculos 
da matriz, utilize os seguintes escores: match = 2; mismatch = –2; gap penalt = –2. 
Para o escore final do alinhamento, utilize a pontuação: match = 2; mismatch = –2; 
gap opening = –4; gap extension = –2. 
Cálculo da matriz (Ti,j): T(i-1, j-1) + match ou mismatch 
 T(i-1, j) + gap penalt 
 T(i, j-1) + gap penalt 
 
Seta diagonal: pareamento. Seta horizontal: gap na sequência da coluna. Seta 
vertical: gap na sequência da linha 
 
 
 G T T A C T A G 
 0 
G 
T 
T 
G 
A 
C 
 
 
Alinhamento: 
 
 
Escore: 
 
 
2. Dadas as sequências a seguir, realize um alinhamento local utilizando o algoritmo de 
Smith-Waterman e dê o escore final do melhor alinhamento. Para os cálculos da 
matriz, utilize os seguintes escores: match = 2; mismatch = –2; gap penalt = 2. Para 
o escore final do alinhamento, utilize a pontuação: match = 2; mismatch = –2; gap = 
–2. 
Cálculo da matriz (Ti,j): T(i-1, j-1) + match ou mismatch 
 T(i-1, j) – gap penalt 
 T(i, j-1) – gap penalt 
 0 
 
 G T T A C T A G 
 0 
C 
C 
A 
C 
T 
C 
T 
 
 
Alinhamento: 
 
 
Escore:

Outros materiais