A maior rede de estudos do Brasil

Grátis
19 pág.
Bioinformática 4 - BLAST, Alinhamento múltiplo, CLUSTALW

Pré-visualização | Página 1 de 2

SUMÁRIO
1. Introdução _____________________________________________________2
2. Aula Prática: Alinhamento local utilizando BLASTn e BLASTx__________ 5
BLASTn………………………………………………………………………………… 5
BLASTx………………………………………………………………………………….7
3. Aula Prática: Alinhamento múltiplo e global utilizando Clustal W_______ 10
Alinhamento das sequências proteicas……………………………………………. 12
Alinhamento de sequências parciais de α-amylases presentes em espécies
distantes de cupins.………………………………………………………………...... 16
4. Referências_____________________________________________________19
1
1. Introdução
Retomando alguns conceitos vistos na parte 1 dos alinhamentos, sabemos que
estes são comparações entre duas ou mais sequências biológicas e que são
fundamentais para a análise destas; buscam séries de caracteres individuais que se
encontram na mesma ordem nas sequências analisadas, objetivando a melhor
correspondência e criando gaps para que, ao final, todas as sequências tenham o
mesmo comprimento. Isto torna visualizável a similaridade e identidade, ao mesmo
tempo, diminui as diferenças.
O programa BLAST (Basic Local Alignment Search Tool) é o mais importante
quando se trata de alinhamento local; este algoritmo visa comparar uma sequência alvo
(query) com as disponíveis nos banco de dados (target), fornecendo um valor de
significância estatística associada a essa comparação de similaridade (VERLI, 2014). A
ideia principal por trás da pesquisa do BLAST é que sequências homólogas
provavelmente contêm uma região de similaridade curta e de alta pontuação, chamada
word ou hit (W) (CHOUDHURI, 2014). O alinhamento local é representado pelos HSPs
(high-scoring segment pairs).
O BLAST nos permite investigar ortólogos e parólogos, determinar a presença
de genes em um determinado organismo, determinar identidade entre sequências de
DNA e proteínas, explorar resíduos de aminoácidos que são importantes para a função
ou estrutura de uma proteína, entre outros recursos.
Há uma variedade de programas BLAST que podem ser utilizados para
diferentes fins, sendo cinco principais. Variam quanto à sequência de busca, o banco
de dados utilizado e o tipo de comparação a ser realizada. O BLASTn é o
nucleotídeo-nucleotídeo, ou seja, compara a sequência de nucleotídeos query com
uma sequência de nucleotídeo do banco de dados. O BLASTp procura por uma
proteína no banco de dados utilizando a proteína query. O BLASTx traduz uma
sequência de DNA em seis sequências de proteínas e depois as compara com o banco
de dados. O tBLASTn procura por uma tradução de nucleotídeos utilizando a proteína
2
query. O tBLASTx procura por traduções de ambas as sequências query e subject em
seis proteínas e então procura no banco de dados de proteínas.
Figura 1.: Programas BLAST.
Para o BLASTp há parâmetros opcionais que são especificamente relevantes
quando se trata de proteínas, como a escolha de várias matrizes PAM e BLOSUM.
Neste tipo de busca, o programa compila uma lista preliminar de alinhamentos
par-a-par chamada pares de palavras. O algoritmo percorre a base de dados com os
pares de palavras até encontrar pares de palavras que tenham uma nota acima de um
valor T. Quando isto ocorre, os hits são estendidos usando alinhamentos com e sem
lacunas. O BLAST continua a estender o par até obter uma nota inferior à nota de corte
S. Estes estendidos serão reportados ao usuário. As notas são calculadas a partir de
matrizes como a BLOSSUM62 com sistemas de penalidades de lacunas. Um
3
procedimento de rastreio é executado para se atribuir os locais de inserções, deleções
e não-pareamentos (FREIRE, 2018).
Os alinhamentos obtidos com o BLAST podem ser avaliados. Retomando
informações contidas no relatório de aula n˚ 3, a avaliação é feita por meio do E-value -
“valor de esperança”, o qual compara resultados do alinhamento obtido com outros da
base de dados. São feitas em determinados casos, especialmente para buscar
evidências de homologia entre sequências. Primeiramente é gerado um modelo
aleatório de sequências analisadas; pontua-se estes seguindo um esquema de notas,
visando a probabilidade de se obter aleatoriamente um score igual ao do alinhamento a
ser analisado. Os e-value são gerados após vários testes e correspondem ao número
distinto de alinhamentos, com pontuação igual ou melhor, que se espera retornar na
busca por sequências similares aleatoriamente. Quanto menor o e-value, menor o
número de chances de uma determinada sequência ser alinhada aleatoriamente com
outras e, portanto, mais significante é o resultado.
O alinhamento múltiplo utiliza duas ou mais sequências que são completamente
ou parcialmente alinhadas para encontrar a melhor combinação. Presume-se a
homologia de resíduos e também a posição estrutural com base no alinhamento, tendo
em vista que os resíduos alinhados tendem a ocupar posições correspondentes na
estrutura tridimensional de cada proteína alinhada.
A maior parte dos métodos disponíveis para o alinhamento múltiplo de estruturas
inicia-se estabelecendo todos os alinhamentos entre pares de estruturas e, então,
emprega-os para estabelecer um alinhamento consenso entre todas as estruturas.
(VERLI, 2014)
A partir do alinhamento múltiplo pode-se obter provável função, estrutura e
evolução de uma proteína ao ser comparada com um grupo maior desta família;
identificação de homólogos, regiões conservadas, domínios e motivos.
Existem cinco principais abordagens algorítmicas para alinhamento múltiplo. Os
métodos exatos geram alinhamentos ótimos, mas não são viáveis no tempo ou no
espaço por mais de algumas sequências. Os métodos progressivos envolvem o cálculo
4
dos scores de alinhamento de sequência entre todas as proteínas ou ácidos nucléicos
sendo alinhados, iniciando o alinhamento com as duas sequências mais próximas e
progressivamente adicionando mais sequências ao alinhamento - permite o
alinhamento rápido de centenas de sequências, mas o alinhamento final depende da
ordem em que as sequências são unidas; a precisão não é garantida. Os métodos
iterativos criam um alinhamento inicial usando o progressivo e depois o modificam a fim
de melhorá-lo, desse modo, correções são feitas, diferente do método progressivo. Os
métodos baseados em consistência utiliza informações sobre o alinhamento de múltiplo
à medida que ele é gerado para guiar os alinhamentos em pares. Os métodos
baseados em estrutura incluem informações da estrutura 3D da proteína a fim de
avaliar a precisão de um alinhamento múltiplo.
2. Aula Prática: Alinhamento local utilizando BLASTn e BLASTx
a. BLASTn
α-amylase:
Figura 2.: Alinhamento local utilizando BLASTn para α-amylase; em vermelho, os valores de
Query cover, E-value e Ident.
5
A sequência, pertencente à espécie de cupim subterrâneo Heterotermes tenuis,
possui alta identidade com a α-amylase de outra espécie do mesmo tipo de cupim, a
Coptotermes formosanus. Elas compartilham aproximadamente 90% de identidade,
com 0% de gaps.
β-glicosidase:
Figura 3.: Alinhamento local utilizando BLASTn para ß-glicosidase; em vermelho, os valores de
Query cover, E-value e Ident.
A ß-glicosidase de Heterotermes tenuis possui identidade em torno de 90% para
ß-glicosidase de outras espécies de cupins subterrâneos, como Coptotermes
formosanus, Reticulitermes flavipes, Macrotermes barneyi, etc.
Cellobiohydrolase:
6
Figura 4.: Alinhamento local utilizando BLASTn para Cellobiohydrolase; em vermelho, os valores
de Query cover, E-value e Ident.
A Cellobiohydrolase possui 90% de identidade com celulase de
Pseudotrichonympha grassii - protista flagelado que têm relação endossimbiótica com
os cupins subterrâneos.
b. BLASTx
α-amylase:
7
Figura 5.: Alinhamento local utilizando BLASTx para α-amylase.
Figura 6.: Alinhamento local utilizando BLASTx para α-amylase; em vermelho, alguns valores
de Query cover, E-value e Ident.
ß-glicosidase:
8
Figura 7.: Alinhamento local utilizando BLASTx para ß-glicosidase.
Figura 8.: Alinhamento local utilizando

Crie agora seu perfil grátis para visualizar sem restrições.