Baixe o app para aproveitar ainda mais
Prévia do material em texto
SUMÁRIO 1. Introdução _____________________________________________________2 2. Aula Prática: Alinhamento local utilizando BLASTn e BLASTx__________ 5 BLASTn………………………………………………………………………………… 5 BLASTx………………………………………………………………………………….7 3. Aula Prática: Alinhamento múltiplo e global utilizando Clustal W_______ 10 Alinhamento das sequências proteicas……………………………………………. 12 Alinhamento de sequências parciais de α-amylases presentes em espécies distantes de cupins.………………………………………………………………...... 16 4. Referências_____________________________________________________19 1 1. Introdução Retomando alguns conceitos vistos na parte 1 dos alinhamentos, sabemos que estes são comparações entre duas ou mais sequências biológicas e que são fundamentais para a análise destas; buscam séries de caracteres individuais que se encontram na mesma ordem nas sequências analisadas, objetivando a melhor correspondência e criando gaps para que, ao final, todas as sequências tenham o mesmo comprimento. Isto torna visualizável a similaridade e identidade, ao mesmo tempo, diminui as diferenças. O programa BLAST (Basic Local Alignment Search Tool) é o mais importante quando se trata de alinhamento local; este algoritmo visa comparar uma sequência alvo (query) com as disponíveis nos banco de dados (target), fornecendo um valor de significância estatística associada a essa comparação de similaridade (VERLI, 2014). A ideia principal por trás da pesquisa do BLAST é que sequências homólogas provavelmente contêm uma região de similaridade curta e de alta pontuação, chamada word ou hit (W) (CHOUDHURI, 2014). O alinhamento local é representado pelos HSPs (high-scoring segment pairs). O BLAST nos permite investigar ortólogos e parólogos, determinar a presença de genes em um determinado organismo, determinar identidade entre sequências de DNA e proteínas, explorar resíduos de aminoácidos que são importantes para a função ou estrutura de uma proteína, entre outros recursos. Há uma variedade de programas BLAST que podem ser utilizados para diferentes fins, sendo cinco principais. Variam quanto à sequência de busca, o banco de dados utilizado e o tipo de comparação a ser realizada. O BLASTn é o nucleotídeo-nucleotídeo, ou seja, compara a sequência de nucleotídeos query com uma sequência de nucleotídeo do banco de dados. O BLASTp procura por uma proteína no banco de dados utilizando a proteína query. O BLASTx traduz uma sequência de DNA em seis sequências de proteínas e depois as compara com o banco de dados. O tBLASTn procura por uma tradução de nucleotídeos utilizando a proteína 2 query. O tBLASTx procura por traduções de ambas as sequências query e subject em seis proteínas e então procura no banco de dados de proteínas. Figura 1.: Programas BLAST. Para o BLASTp há parâmetros opcionais que são especificamente relevantes quando se trata de proteínas, como a escolha de várias matrizes PAM e BLOSUM. Neste tipo de busca, o programa compila uma lista preliminar de alinhamentos par-a-par chamada pares de palavras. O algoritmo percorre a base de dados com os pares de palavras até encontrar pares de palavras que tenham uma nota acima de um valor T. Quando isto ocorre, os hits são estendidos usando alinhamentos com e sem lacunas. O BLAST continua a estender o par até obter uma nota inferior à nota de corte S. Estes estendidos serão reportados ao usuário. As notas são calculadas a partir de matrizes como a BLOSSUM62 com sistemas de penalidades de lacunas. Um 3 procedimento de rastreio é executado para se atribuir os locais de inserções, deleções e não-pareamentos (FREIRE, 2018). Os alinhamentos obtidos com o BLAST podem ser avaliados. Retomando informações contidas no relatório de aula n˚ 3, a avaliação é feita por meio do E-value - “valor de esperança”, o qual compara resultados do alinhamento obtido com outros da base de dados. São feitas em determinados casos, especialmente para buscar evidências de homologia entre sequências. Primeiramente é gerado um modelo aleatório de sequências analisadas; pontua-se estes seguindo um esquema de notas, visando a probabilidade de se obter aleatoriamente um score igual ao do alinhamento a ser analisado. Os e-value são gerados após vários testes e correspondem ao número distinto de alinhamentos, com pontuação igual ou melhor, que se espera retornar na busca por sequências similares aleatoriamente. Quanto menor o e-value, menor o número de chances de uma determinada sequência ser alinhada aleatoriamente com outras e, portanto, mais significante é o resultado. O alinhamento múltiplo utiliza duas ou mais sequências que são completamente ou parcialmente alinhadas para encontrar a melhor combinação. Presume-se a homologia de resíduos e também a posição estrutural com base no alinhamento, tendo em vista que os resíduos alinhados tendem a ocupar posições correspondentes na estrutura tridimensional de cada proteína alinhada. A maior parte dos métodos disponíveis para o alinhamento múltiplo de estruturas inicia-se estabelecendo todos os alinhamentos entre pares de estruturas e, então, emprega-os para estabelecer um alinhamento consenso entre todas as estruturas. (VERLI, 2014) A partir do alinhamento múltiplo pode-se obter provável função, estrutura e evolução de uma proteína ao ser comparada com um grupo maior desta família; identificação de homólogos, regiões conservadas, domínios e motivos. Existem cinco principais abordagens algorítmicas para alinhamento múltiplo. Os métodos exatos geram alinhamentos ótimos, mas não são viáveis no tempo ou no espaço por mais de algumas sequências. Os métodos progressivos envolvem o cálculo 4 dos scores de alinhamento de sequência entre todas as proteínas ou ácidos nucléicos sendo alinhados, iniciando o alinhamento com as duas sequências mais próximas e progressivamente adicionando mais sequências ao alinhamento - permite o alinhamento rápido de centenas de sequências, mas o alinhamento final depende da ordem em que as sequências são unidas; a precisão não é garantida. Os métodos iterativos criam um alinhamento inicial usando o progressivo e depois o modificam a fim de melhorá-lo, desse modo, correções são feitas, diferente do método progressivo. Os métodos baseados em consistência utiliza informações sobre o alinhamento de múltiplo à medida que ele é gerado para guiar os alinhamentos em pares. Os métodos baseados em estrutura incluem informações da estrutura 3D da proteína a fim de avaliar a precisão de um alinhamento múltiplo. 2. Aula Prática: Alinhamento local utilizando BLASTn e BLASTx a. BLASTn α-amylase: Figura 2.: Alinhamento local utilizando BLASTn para α-amylase; em vermelho, os valores de Query cover, E-value e Ident. 5 A sequência, pertencente à espécie de cupim subterrâneo Heterotermes tenuis, possui alta identidade com a α-amylase de outra espécie do mesmo tipo de cupim, a Coptotermes formosanus. Elas compartilham aproximadamente 90% de identidade, com 0% de gaps. β-glicosidase: Figura 3.: Alinhamento local utilizando BLASTn para ß-glicosidase; em vermelho, os valores de Query cover, E-value e Ident. A ß-glicosidase de Heterotermes tenuis possui identidade em torno de 90% para ß-glicosidase de outras espécies de cupins subterrâneos, como Coptotermes formosanus, Reticulitermes flavipes, Macrotermes barneyi, etc. Cellobiohydrolase: 6 Figura 4.: Alinhamento local utilizando BLASTn para Cellobiohydrolase; em vermelho, os valores de Query cover, E-value e Ident. A Cellobiohydrolase possui 90% de identidade com celulase de Pseudotrichonympha grassii - protista flagelado que têm relação endossimbiótica com os cupins subterrâneos. b. BLASTx α-amylase: 7 Figura 5.: Alinhamento local utilizando BLASTx para α-amylase. Figura 6.: Alinhamento local utilizando BLASTx para α-amylase; em vermelho, alguns valores de Query cover, E-value e Ident. ß-glicosidase: 8 Figura 7.: Alinhamento local utilizando BLASTx para ß-glicosidase. Figura 8.: Alinhamento local utilizandoBLASTx para ß-glicosidase; em vermelho, alguns valores de Query cover, E-value e Ident. Cellobiohydrolase: 9 Figura 9.: Alinhamento local utilizando BLASTx para cellobiohydrolase. Figura 10.: Alinhamento local utilizando BLASTx para cellobiohydrolase; em vermelho, alguns valores de Query cover, E-value e Ident. 3. Aula Prática: Alinhamento múltiplo e global utilizando ClustalW 10 Figura 11.: Alinhamento múltiplo e global utilizando ClustalW. Figura 12.: Árvore guia das sequências analisadas. 11 Figura 13.: Alinhamento múltiplo e global utilizando ClustalW. Um asterisco indica posições nas quais o resíduo de aminoácido é 100% conservado em uma coluna; dois pontos indicam substituições conservadas; um ponto indica substituições menos conservadas. 3.1 Alinhamento das sequências proteicas 12 Para obter as sequências proteicas, acessamos o “Expansy Translate Tool”. Retornando ao ClustalW, realizou-se novamente o alinhamento múltiplo. Figura 14.: Tradução da α-amylase utilizando o Translate Tool. Em amarelo, a sequência utilizada para o alinhamento múltiplo feito posteriormente no ClustalW. Figura 15.: Tradução da ß-glicosidase utilizando o Translate Tool. Em amarelo, a sequência utilizada para o alinhamento múltiplo feito posteriormente no ClustalW. 13 Figura 16.: Tradução da Cellobiohydrolase utilizando o Translate Tool. Em amarelo, a sequência utilizada para o alinhamento múltiplo feito posteriormente no ClustalW. Figura 17.: Alinhamento múltiplo das traduções feito no ClustalW. 14 Figura 18.: Alinhamento múltiplo das traduções feito no ClustalW. Um asterisco indica posições nas quais o resíduo de aminoácido é 100% conservado em uma coluna; dois pontos indicam substituições conservadas; um ponto indica substituições menos conservadas. 15 3.2 Alinhamento de sequências parciais de α-amylases presentes em espécies distantes de cupins Figura 19.: Alinhamento múltiplo das α-amylases feito no ClustalW. 16 Figura 20.: Alinhamento múltiplo das α-amylases feito no ClustalW. Figura 21.: Árvore guia calculada a partir da matriz de similaridade. A árvore reflete a homologia das proteínas alinhadas. 17 Quando compara-se o alinhamento múltiplo feito para as três diferentes enzimas com este realizado para a α-amylase de diferentes espécies, nota-se score mais alto, por se tratar da mesma enzima. Verifica-se a presença de várias regiões conservadas e uma árvore guia de mesmo formato, sendo possível observar as relações em ambos os casos. ClustalW implementa uma série de recursos adicionais para otimizar o alinhamento (THOMPSON et al., 1994). A distância de cada sequência de proteína (ou DNA) da raiz da árvore-guia é calculada, e as sequências que estão mais intimamente relacionadas são reduzidas por um fator multiplicativo. Este ajuste assegura que, se um alinhamento incluir um grupo de sequências muito relacionadas, bem como outro grupo de sequências divergentes, as mais relacionadas não dominarão excessivamente o alinhamento múltiplo final. Outros ajustes incluem o uso de uma série de matrizes de pontuação que são aplicadas a alinhamentos par-a-par de proteínas, dependendo de sua similaridade, e compensação por diferenças no comprimento da sequência (PEVSNER, 2009). 18 4. Referências CHOUDHURI, Supratim. Bioinformatics for Beginners: Genes, genomes, molecular evolution, databases and analytical toys. Elsevier, 2014. P. 135-155. FREIRE, Caio César de Melo. Alinhamentos - Parte 2. Aula ministrada na disciplina de Bioinformática, do curso de Biotecnologia da Universidade Federal de São Carlos. São Carlos, 2018. PEVSNER, Jonathan. Bioinformatics and functional genomics. 2 ed. Wiley-Blackwell, 2009. 101-121; 179-189 p. 19
Compartilhar