1 leitura Alinhamento de Sequências - resumo e exercício

•

UNICHRISTUS

2

0

2

0

Caroline Mesquita

13/09/2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Bioinformática

2.035 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Alinhamento de Sequências

O alinhamento de sequências consiste no processo de comparar duas sequências (de
nucleotídeos ou proteínas) de forma a se observar seu nível de identidade. A similaridade
entre duas sequências pode ser consequência de relações funcionais, estruturais ou
evolucionária entre elas. O alinhamento de sequências é um dos pilares da bioinformática,
tendo várias aplicações, como na identificação de genes e proteínas desconhecidas,
comparação entre genes ou genomas de diferentes organismos, mapeamento de sequências
expressas dentro de um genoma, montagem de genomas entre outras aplicações.
O alinhamento de sequências de nucleotídeos ou aminoácidos é tipicamente
representado como linhas em uma matriz. Se as duas sequências em um alinhamento
compartilham de um ancestral em comum (são sequências homólogas), correspondências
(matches) entre letras na sequência aponta que aquele nucleotídeo ou aminoácido não foi
alterado. Quando, em determinada posição, há uma letra diferente entre as duas sequências
(um mismatch), podemos inferir que houve uma mutação pontual. Por vezes, pra que as
sequências consigam se alinhar, é necessário inserir gaps (espaços vazios) entre as letras.
Essas gaps podem ser interpretadas como inserções ou deleções (indel) em uma das
sequências. Gaps são representadas na sequência por “-“.
Durante um alinhamento, deve-se pontuar as similaridades (matches), diferenças
(mismatches) e falhas (gaps). Matches sempre recebem pontuação positiva, enquanto
mismatches e gaps recebem pontuação negativa. Além disso, gaps podem ter duas
pontuações distintas: uma pontuação mais baixa para abertura de falhas (gap opening) e
outra pontuação para extensão de falha (gap extension) (Fig. 1). Ao fim do alinhamento, é
somatória dos pontos, chamado de escore do alinhamento. Esses escores são calculados em
todos os tipos de alinhamentos.

Figura 1. Calculo de escore de um alinhamento entre duas sequências.

Para alinhar sequências, existem diferentes tipos de algoritmos que podem ser
utilizados. Entre os métodos de alinhamento, estão algoritmos de programação dinâmica, o
qual tende a quebrar a sequência em problemas menores para encontrar o melhor resultado
de alinhamento. Entretanto, esse tipo de abordagem consome tempo, e é inviável para alinhar
sequências muito grandes ou comparar uma sequência com várias sequências em um banco
de dados. Alguns programas utilizam algoritmos heurísticos, os quais são utilizados em
buscas em bancos de dados e para alinhar sequências maiores em um menor tempo, porém
não esses algoritmos não garantem encontrar o melhor alinhamento, diferente da
programação dinâmica.
O alinhamento de sequências pode ser de três tipos (Fig. 2). No alinhamento global,
toda a extensão das sequências é alinhada uma com a outra, penalizando gaps nas pontas.
Esse tipo de alinhamento é utilizado, por exemplo, para alinhar sequências homólogas
completas. No alinhamento semi-global (ou semi-local, ou glocal), toda a extensão das
sequências é alinhada, porém as pontas das sequências que apresentam gaps não são
penalizadas (não entram no escore). É utilizado no caso de montagem de genomas, onde
busca-se um alinhamento de pontuação máxima entre o início de uma sequência e o final da
outra. Por fim, no alinhamento local, busca-se a pontuação máxima entre qualquer par de
subsequências, sendo que apenas é observado a pontuação de um pedaço das duas sequências
estudadas. É utilizado quando se pretende identificar trechos altamente conservados entre
dois genes.

Figura 2. Tipos de alinhamento de sequências

No alinhamento global, pode ser utilizado o algoritmo de Needleman-Wunsch, o qual
utiliza programação dinâmica para solucionar o problema. No alinhamento semi-global, o
algoritmo de Needleman-Wunsch é alterado, sendo que sendo que todos os valores negativos
na inicialização da matriz são trocados por “0” e não se penaliza gaps no início e fim do
alinhamento final. O algoritmo de Smith-Waterman é utilizado no alinhamento local, sendo
que não são utilizados valores negativos na matriz. Neste algoritmo, o resultado é lido
começando do maior número e terminando quando o rastreamento chegar em 0.
Durante o alinhamento de proteínas, para pontuar matches e mismatches, são utilizadas
matrizes de substituição (ou de comparação). Isso se deve ao fato de que existem
aminoácidos que são mais (ou menos) similares entre si do que os outros. Além disso, cada
aminoácido é mais (ou menos) provável de ser trocado (mutação) em outro aminoácido, o
que depende das características desses aminoácidos. Por exemplo, um resíduo hidrofílico
como a arginina é mais provável de ser trocado por outro composto hidrofílico, como a
glutamina, ao invés de ser mutado para um resíduo hidrofóbico como a leucina. Por tanto,
as matrizes de substituição são extremamente utilizadas durante o alinhamento de sequências
proteicas. As matrizes de substituição mais conhecidas utilizadas para pontuação de
alinhamento de sequências proteicas são a PAM (pointed accepted mutation) e BLOSUM
(Blocks Substitution Matrix) (Fig. 3).

Figura 3. Escore da matriz de substituição BLOSUM62. Esta é uma das matrizes mais
utilizadas e programas de alinhamento de sequências. Esta matriz foi montada para
comparar proteínas que apresentem 62% de aminoácidos idênticos ou menos.

Exercício

1. Dadas as sequências a seguir, realize um alinhamento global utilizando o algoritmo
de Needleman-Wunsch e dê o escore final do melhor alinhamento. Para os cálculos
da matriz, utilize os seguintes escores: match = 2; mismatch = –2; gap penalt = –2.
Para o escore final do alinhamento, utilize a pontuação: match = 2; mismatch = –2;
gap opening = –4; gap extension = –2.
Cálculo da matriz (Ti,j): T(i-1, j-1) + match ou mismatch
T(i-1, j) + gap penalt
T(i, j-1) + gap penalt

Seta diagonal: pareamento. Seta horizontal: gap na sequência da coluna. Seta
vertical: gap na sequência da linha

G T T A C T A G
0
G
T
T
G
A
C

Alinhamento:

Escore:

2. Dadas as sequências a seguir, realize um alinhamento local utilizando o algoritmo de
Smith-Waterman e dê o escore final do melhor alinhamento. Para os cálculos da
matriz, utilize os seguintes escores: match = 2; mismatch = –2; gap penalt = 2. Para
o escore final do alinhamento, utilize a pontuação: match = 2; mismatch = –2; gap =
–2.
Cálculo da matriz (Ti,j): T(i-1, j-1) + match ou mismatch
T(i-1, j) – gap penalt
T(i, j-1) – gap penalt
0

G T T A C T A G
0
C
C
A
C
T
C
T

Alinhamento:

Escore: