Bioinformática 4 - BLAST, Alinhamento múltiplo, CLUSTALW

•

UFSCAR

0

Julia Bolli

20/09/2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 19 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 19 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 19 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Bioinformática

2.061 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

SUMÁRIO
1. Introdução _____________________________________________________2
2. Aula Prática: Alinhamento local utilizando BLASTn e BLASTx__________ 5
BLASTn………………………………………………………………………………… 5
BLASTx………………………………………………………………………………….7
3. Aula Prática: Alinhamento múltiplo e global utilizando Clustal W_______ 10
Alinhamento das sequências proteicas……………………………………………. 12
Alinhamento de sequências parciais de α-amylases presentes em espécies
distantes de cupins.………………………………………………………………...... 16
4. Referências_____________________________________________________19
1
1. Introdução
Retomando alguns conceitos vistos na parte 1 dos alinhamentos, sabemos que
estes são comparações entre duas ou mais sequências biológicas e que são
fundamentais para a análise destas; buscam séries de caracteres individuais que se
encontram na mesma ordem nas sequências analisadas, objetivando a melhor
correspondência e criando gaps para que, ao final, todas as sequências tenham o
mesmo comprimento. Isto torna visualizável a similaridade e identidade, ao mesmo
tempo, diminui as diferenças.
O programa BLAST (Basic Local Alignment Search Tool) é o mais importante
quando se trata de alinhamento local; este algoritmo visa comparar uma sequência alvo
(query) com as disponíveis nos banco de dados (target), fornecendo um valor de
significância estatística associada a essa comparação de similaridade (VERLI, 2014). A
ideia principal por trás da pesquisa do BLAST é que sequências homólogas
provavelmente contêm uma região de similaridade curta e de alta pontuação, chamada
word ou hit (W) (CHOUDHURI, 2014). O alinhamento local é representado pelos HSPs
(high-scoring segment pairs).
O BLAST nos permite investigar ortólogos e parólogos, determinar a presença
de genes em um determinado organismo, determinar identidade entre sequências de
DNA e proteínas, explorar resíduos de aminoácidos que são importantes para a função
ou estrutura de uma proteína, entre outros recursos.
Há uma variedade de programas BLAST que podem ser utilizados para
diferentes fins, sendo cinco principais. Variam quanto à sequência de busca, o banco
de dados utilizado e o tipo de comparação a ser realizada. O BLASTn é o
nucleotídeo-nucleotídeo, ou seja, compara a sequência de nucleotídeos query com
uma sequência de nucleotídeo do banco de dados. O BLASTp procura por uma
proteína no banco de dados utilizando a proteína query. O BLASTx traduz uma
sequência de DNA em seis sequências de proteínas e depois as compara com o banco
de dados. O tBLASTn procura por uma tradução de nucleotídeos utilizando a proteína
2
query. O tBLASTx procura por traduções de ambas as sequências query e subject em
seis proteínas e então procura no banco de dados de proteínas.
Figura 1.: Programas BLAST.
Para o BLASTp há parâmetros opcionais que são especificamente relevantes
quando se trata de proteínas, como a escolha de várias matrizes PAM e BLOSUM.
Neste tipo de busca, o programa compila uma lista preliminar de alinhamentos
par-a-par chamada pares de palavras. O algoritmo percorre a base de dados com os
pares de palavras até encontrar pares de palavras que tenham uma nota acima de um
valor T. Quando isto ocorre, os hits são estendidos usando alinhamentos com e sem
lacunas. O BLAST continua a estender o par até obter uma nota inferior à nota de corte
S. Estes estendidos serão reportados ao usuário. As notas são calculadas a partir de
matrizes como a BLOSSUM62 com sistemas de penalidades de lacunas. Um
3
procedimento de rastreio é executado para se atribuir os locais de inserções, deleções
e não-pareamentos (FREIRE, 2018).
Os alinhamentos obtidos com o BLAST podem ser avaliados. Retomando
informações contidas no relatório de aula n˚ 3, a avaliação é feita por meio do E-value -
“valor de esperança”, o qual compara resultados do alinhamento obtido com outros da
base de dados. São feitas em determinados casos, especialmente para buscar
evidências de homologia entre sequências. Primeiramente é gerado um modelo
aleatório de sequências analisadas; pontua-se estes seguindo um esquema de notas,
visando a probabilidade de se obter aleatoriamente um score igual ao do alinhamento a
ser analisado. Os e-value são gerados após vários testes e correspondem ao número
distinto de alinhamentos, com pontuação igual ou melhor, que se espera retornar na
busca por sequências similares aleatoriamente. Quanto menor o e-value, menor o
número de chances de uma determinada sequência ser alinhada aleatoriamente com
outras e, portanto, mais significante é o resultado.
O alinhamento múltiplo utiliza duas ou mais sequências que são completamente
ou parcialmente alinhadas para encontrar a melhor combinação. Presume-se a
homologia de resíduos e também a posição estrutural com base no alinhamento, tendo
em vista que os resíduos alinhados tendem a ocupar posições correspondentes na
estrutura tridimensional de cada proteína alinhada.
A maior parte dos métodos disponíveis para o alinhamento múltiplo de estruturas
inicia-se estabelecendo todos os alinhamentos entre pares de estruturas e, então,
emprega-os para estabelecer um alinhamento consenso entre todas as estruturas.
(VERLI, 2014)
A partir do alinhamento múltiplo pode-se obter provável função, estrutura e
evolução de uma proteína ao ser comparada com um grupo maior desta família;
identificação de homólogos, regiões conservadas, domínios e motivos.
Existem cinco principais abordagens algorítmicas para alinhamento múltiplo. Os
métodos exatos geram alinhamentos ótimos, mas não são viáveis no tempo ou no
espaço por mais de algumas sequências. Os métodos progressivos envolvem o cálculo
4
dos scores de alinhamento de sequência entre todas as proteínas ou ácidos nucléicos
sendo alinhados, iniciando o alinhamento com as duas sequências mais próximas e
progressivamente adicionando mais sequências ao alinhamento - permite o
alinhamento rápido de centenas de sequências, mas o alinhamento final depende da
ordem em que as sequências são unidas; a precisão não é garantida. Os métodos
iterativos criam um alinhamento inicial usando o progressivo e depois o modificam a fim
de melhorá-lo, desse modo, correções são feitas, diferente do método progressivo. Os
métodos baseados em consistência utiliza informações sobre o alinhamento de múltiplo
à medida que ele é gerado para guiar os alinhamentos em pares. Os métodos
baseados em estrutura incluem informações da estrutura 3D da proteína a fim de
avaliar a precisão de um alinhamento múltiplo.
2. Aula Prática: Alinhamento local utilizando BLASTn e BLASTx
a. BLASTn
α-amylase:
Figura 2.: Alinhamento local utilizando BLASTn para α-amylase; em vermelho, os valores de
Query cover, E-value e Ident.
5
A sequência, pertencente à espécie de cupim subterrâneo Heterotermes tenuis,
possui alta identidade com a α-amylase de outra espécie do mesmo tipo de cupim, a
Coptotermes formosanus. Elas compartilham aproximadamente 90% de identidade,
com 0% de gaps.
β-glicosidase:
Figura 3.: Alinhamento local utilizando BLASTn para ß-glicosidase; em vermelho, os valores de
Query cover, E-value e Ident.
A ß-glicosidase de Heterotermes tenuis possui identidade em torno de 90% para
ß-glicosidase de outras espécies de cupins subterrâneos, como Coptotermes
formosanus, Reticulitermes flavipes, Macrotermes barneyi, etc.
Cellobiohydrolase:
6
Figura 4.: Alinhamento local utilizando BLASTn para Cellobiohydrolase; em vermelho, os valores
de Query cover, E-value e Ident.
A Cellobiohydrolase possui 90% de identidade com celulase de
Pseudotrichonympha grassii - protista flagelado que têm relação endossimbiótica com
os cupins subterrâneos.
b. BLASTx
α-amylase:
7
Figura 5.: Alinhamento local utilizando BLASTx para α-amylase.
Figura 6.: Alinhamento local utilizando BLASTx para α-amylase; em vermelho, alguns valores
de Query cover, E-value e Ident.
ß-glicosidase:
8
Figura 7.: Alinhamento local utilizando BLASTx para ß-glicosidase.
Figura 8.: Alinhamento local utilizandoBLASTx para ß-glicosidase; em vermelho, alguns valores
de Query cover, E-value e Ident.
Cellobiohydrolase:
9
Figura 9.: Alinhamento local utilizando BLASTx para cellobiohydrolase.
Figura 10.: Alinhamento local utilizando BLASTx para cellobiohydrolase; em vermelho, alguns
valores de Query cover, E-value e Ident.
3. Aula Prática: Alinhamento múltiplo e global utilizando ClustalW
10
Figura 11.: Alinhamento múltiplo e global utilizando ClustalW.
Figura 12.: Árvore guia das sequências analisadas.
11
Figura 13.: Alinhamento múltiplo e global utilizando ClustalW. Um asterisco indica posições nas
quais o resíduo de aminoácido é 100% conservado em uma coluna; dois pontos indicam
substituições conservadas; um ponto indica substituições menos conservadas.
3.1 Alinhamento das sequências proteicas
12
Para obter as sequências proteicas, acessamos o “Expansy Translate Tool”.
Retornando ao ClustalW, realizou-se novamente o alinhamento múltiplo.
Figura 14.: Tradução da α-amylase utilizando o Translate Tool. Em amarelo, a sequência
utilizada para o alinhamento múltiplo feito posteriormente no ClustalW.
Figura 15.: Tradução da ß-glicosidase utilizando o Translate Tool. Em amarelo, a sequência
utilizada para o alinhamento múltiplo feito posteriormente no ClustalW.
13
Figura 16.: Tradução da Cellobiohydrolase utilizando o Translate Tool. Em amarelo, a sequência
utilizada para o alinhamento múltiplo feito posteriormente no ClustalW.
Figura 17.: Alinhamento múltiplo das traduções feito no ClustalW.
14
Figura 18.: Alinhamento múltiplo das traduções feito no ClustalW. Um asterisco indica posições
nas quais o resíduo de aminoácido é 100% conservado em uma coluna; dois pontos indicam
substituições conservadas; um ponto indica substituições menos conservadas.
15
3.2 Alinhamento de sequências parciais de α-amylases presentes em
espécies distantes de cupins
Figura 19.: Alinhamento múltiplo das α-amylases feito no ClustalW.
16
Figura 20.: Alinhamento múltiplo das α-amylases feito no ClustalW.
Figura 21.: Árvore guia calculada a partir da matriz de similaridade. A árvore reflete a homologia
das proteínas alinhadas.
17
Quando compara-se o alinhamento múltiplo feito para as três diferentes enzimas
com este realizado para a α-amylase de diferentes espécies, nota-se score mais alto,
por se tratar da mesma enzima. Verifica-se a presença de várias regiões conservadas e
uma árvore guia de mesmo formato, sendo possível observar as relações em ambos os
casos.
ClustalW implementa uma série de recursos adicionais para otimizar o
alinhamento (THOMPSON et al., 1994). A distância de cada sequência de proteína (ou
DNA) da raiz da árvore-guia é calculada, e as sequências que estão mais intimamente
relacionadas são reduzidas por um fator multiplicativo. Este ajuste assegura que, se um
alinhamento incluir um grupo de sequências muito relacionadas, bem como outro grupo
de sequências divergentes, as mais relacionadas não dominarão excessivamente o
alinhamento múltiplo final. Outros ajustes incluem o uso de uma série de matrizes de
pontuação que são aplicadas a alinhamentos par-a-par de proteínas, dependendo de
sua similaridade, e compensação por diferenças no comprimento da sequência
(PEVSNER, 2009).
18
4. Referências
CHOUDHURI, Supratim. Bioinformatics for Beginners: Genes,
genomes, molecular evolution, databases and analytical toys.
Elsevier, 2014. P. 135-155.
FREIRE, Caio César de Melo. Alinhamentos - Parte 2. Aula
ministrada na disciplina de Bioinformática, do curso de
Biotecnologia da Universidade Federal de São Carlos. São Carlos,
2018.
PEVSNER, Jonathan. Bioinformatics and functional genomics.
2 ed. Wiley-Blackwell, 2009. 101-121; 179-189 p.
19