Baixe o app para aproveitar ainda mais
Prévia do material em texto
Alinhamento de Sequências O alinhamento de sequências consiste no processo de comparar duas sequências (de nucleotídeos ou proteínas) de forma a se observar seu nível de identidade. A similaridade entre duas sequências pode ser consequência de relações funcionais, estruturais ou evolucionária entre elas. O alinhamento de sequências é um dos pilares da bioinformática, tendo várias aplicações, como na identificação de genes e proteínas desconhecidas, comparação entre genes ou genomas de diferentes organismos, mapeamento de sequências expressas dentro de um genoma, montagem de genomas entre outras aplicações. O alinhamento de sequências de nucleotídeos ou aminoácidos é tipicamente representado como linhas em uma matriz. Se as duas sequências em um alinhamento compartilham de um ancestral em comum (são sequências homólogas), correspondências (matches) entre letras na sequência aponta que aquele nucleotídeo ou aminoácido não foi alterado. Quando, em determinada posição, há uma letra diferente entre as duas sequências (um mismatch), podemos inferir que houve uma mutação pontual. Por vezes, pra que as sequências consigam se alinhar, é necessário inserir gaps (espaços vazios) entre as letras. Essas gaps podem ser interpretadas como inserções ou deleções (indel) em uma das sequências. Gaps são representadas na sequência por “-“. Durante um alinhamento, deve-se pontuar as similaridades (matches), diferenças (mismatches) e falhas (gaps). Matches sempre recebem pontuação positiva, enquanto mismatches e gaps recebem pontuação negativa. Além disso, gaps podem ter duas pontuações distintas: uma pontuação mais baixa para abertura de falhas (gap opening) e outra pontuação para extensão de falha (gap extension) (Fig. 1). Ao fim do alinhamento, é somatória dos pontos, chamado de escore do alinhamento. Esses escores são calculados em todos os tipos de alinhamentos. Figura 1. Calculo de escore de um alinhamento entre duas sequências. Para alinhar sequências, existem diferentes tipos de algoritmos que podem ser utilizados. Entre os métodos de alinhamento, estão algoritmos de programação dinâmica, o qual tende a quebrar a sequência em problemas menores para encontrar o melhor resultado de alinhamento. Entretanto, esse tipo de abordagem consome tempo, e é inviável para alinhar sequências muito grandes ou comparar uma sequência com várias sequências em um banco de dados. Alguns programas utilizam algoritmos heurísticos, os quais são utilizados em buscas em bancos de dados e para alinhar sequências maiores em um menor tempo, porém não esses algoritmos não garantem encontrar o melhor alinhamento, diferente da programação dinâmica. O alinhamento de sequências pode ser de três tipos (Fig. 2). No alinhamento global, toda a extensão das sequências é alinhada uma com a outra, penalizando gaps nas pontas. Esse tipo de alinhamento é utilizado, por exemplo, para alinhar sequências homólogas completas. No alinhamento semi-global (ou semi-local, ou glocal), toda a extensão das sequências é alinhada, porém as pontas das sequências que apresentam gaps não são penalizadas (não entram no escore). É utilizado no caso de montagem de genomas, onde busca-se um alinhamento de pontuação máxima entre o início de uma sequência e o final da outra. Por fim, no alinhamento local, busca-se a pontuação máxima entre qualquer par de subsequências, sendo que apenas é observado a pontuação de um pedaço das duas sequências estudadas. É utilizado quando se pretende identificar trechos altamente conservados entre dois genes. Figura 2. Tipos de alinhamento de sequências No alinhamento global, pode ser utilizado o algoritmo de Needleman-Wunsch, o qual utiliza programação dinâmica para solucionar o problema. No alinhamento semi-global, o algoritmo de Needleman-Wunsch é alterado, sendo que sendo que todos os valores negativos na inicialização da matriz são trocados por “0” e não se penaliza gaps no início e fim do alinhamento final. O algoritmo de Smith-Waterman é utilizado no alinhamento local, sendo que não são utilizados valores negativos na matriz. Neste algoritmo, o resultado é lido começando do maior número e terminando quando o rastreamento chegar em 0. Durante o alinhamento de proteínas, para pontuar matches e mismatches, são utilizadas matrizes de substituição (ou de comparação). Isso se deve ao fato de que existem aminoácidos que são mais (ou menos) similares entre si do que os outros. Além disso, cada aminoácido é mais (ou menos) provável de ser trocado (mutação) em outro aminoácido, o que depende das características desses aminoácidos. Por exemplo, um resíduo hidrofílico como a arginina é mais provável de ser trocado por outro composto hidrofílico, como a glutamina, ao invés de ser mutado para um resíduo hidrofóbico como a leucina. Por tanto, as matrizes de substituição são extremamente utilizadas durante o alinhamento de sequências proteicas. As matrizes de substituição mais conhecidas utilizadas para pontuação de alinhamento de sequências proteicas são a PAM (pointed accepted mutation) e BLOSUM (Blocks Substitution Matrix) (Fig. 3). Figura 3. Escore da matriz de substituição BLOSUM62. Esta é uma das matrizes mais utilizadas e programas de alinhamento de sequências. Esta matriz foi montada para comparar proteínas que apresentem 62% de aminoácidos idênticos ou menos. Exercício 1. Dadas as sequências a seguir, realize um alinhamento global utilizando o algoritmo de Needleman-Wunsch e dê o escore final do melhor alinhamento. Para os cálculos da matriz, utilize os seguintes escores: match = 2; mismatch = –2; gap penalt = –2. Para o escore final do alinhamento, utilize a pontuação: match = 2; mismatch = –2; gap opening = –4; gap extension = –2. Cálculo da matriz (Ti,j): T(i-1, j-1) + match ou mismatch T(i-1, j) + gap penalt T(i, j-1) + gap penalt Seta diagonal: pareamento. Seta horizontal: gap na sequência da coluna. Seta vertical: gap na sequência da linha G T T A C T A G 0 G T T G A C Alinhamento: Escore: 2. Dadas as sequências a seguir, realize um alinhamento local utilizando o algoritmo de Smith-Waterman e dê o escore final do melhor alinhamento. Para os cálculos da matriz, utilize os seguintes escores: match = 2; mismatch = –2; gap penalt = 2. Para o escore final do alinhamento, utilize a pontuação: match = 2; mismatch = –2; gap = –2. Cálculo da matriz (Ti,j): T(i-1, j-1) + match ou mismatch T(i-1, j) – gap penalt T(i, j-1) – gap penalt 0 G T T A C T A G 0 C C A C T C T Alinhamento: Escore:
Compartilhar