Baixe o app para aproveitar ainda mais
Prévia do material em texto
BLAST Blast é um programa fornecido pelo NCBI para alinhar sequências de consulta em relação aos presentes alvos em um banco de dados. A página inicial do blast do NCBI (https://blast.ncbi.nlm.nih.gov) fornece um ponto de acesso para essas ferramentas para realizar o alinhamento da sequência na web. Uma busca utilizando BLAST compara a sequência de interesse (query ou sequência de entrada), conta um banco de dados (subject). A origem da sequência de interesse assim como a pergunta que se tenta responder irão determinar o banco de dados a ser utilizado. A utilização do programa com suas várias possibilidades também leva ao uso de uma série de recursos com expressões bastante peculiares e que são de uso muito comum durante a sua manipulação, tanto na preparação e submissão dos dados assim como na análise dos dos resultados. Dentre tais, estão as expressões FASTA, banco de dados, identidade, alinhamento, e-value etc... De forma geral, o programa permite a comparação de sequência de cinco formas diferentes: Blastp, Blastn, Blastx, tBlastn e tBlastx. Cada comparação a ser solicitada ao algoritimo tem um objetivo e um programa Blast a ser utilizado, que é baseado na necessidade do usuário e natureza dos dados e do banco de referência. Esses programas permitem a comparação da sequência de entrada cotra uma do banco de dados, ambos podendo ser apresentados silmultaneamente (MULTI-FASTA) ou não, como conjunto de nuleotídeos e aminoácidos. Banco de dados: O banco de dados é o local onde são armazenadas as sequencias (nucleotideos ou aminoácidos) que são utilizadas como referência para a comparação. Estes bancos podem ser de acesso restrito ou irrestrito. Os bancos de dados publicos permitem o acesso irrestrito de dados por qualquer usuário, sem prévia autorização. Há 3 grandes bancos publicos mundiais de sequencias e que trocam diariamente dados entre si: EMBL (European Molecular Biology Laboratory), GenBank (National Center for Biotechnology information) e DDBJ (DNA Databank of japan). Sequência em formato FASTA A submição de dados para uma análise através do algoritmo BLAST requer a formataçãp desta informação de tal maneira que possa ser recohecida pelo programa. O formato FASTA é a forma de apresentação da sequência, representada pelo código que utiliza uma letra para cada nucleotídeo ou aminoácido, segundo as normas IUB/IUPAC, antecedida por uma linha que pode conter qualquer registro dado pelo usuario, mas que normalmente é utilizada para descrever o que representa, a origem da sequência ou mesmo qualquer comentario de interesse de quem está manuseando a sequência. Esta ´ i´dentificação´´ não é obrigatória para a utilização do programa BLAST se o objetivo é submeter apenas uma sequência (query), ou seja, individualmente, para comparação com um banco de dados em que os seus registros apresentem tal identificação. Preferencialmente, cada linha da sequência deve conter no máximo 80 caracteres. Estes dados (sequências são opcionalmente identificados em seu cabeçalho, pelo símbolo ´´>´ ´ (maior que) seguido de curta descrição da sequência em uma linha (também idealmente, com menos de 80 caracteres), onde são informados pelo usuario a denominação, base de dados, comentário, etc. O símbolo ´´>´´ deve vir na primeira coluna e sem espaço entre ele e a primeira letra da identificação. Este formato permite também que o programa identifique, ao reconhecer novamente o simbolo, o início de uma próxima sequência que ocorra em seguida, se o usuário submeter simultaneamente para análise, mais de uma sequência (formato multi-FASTA) Obtendo a sequência em formato fasta Na pagina inicial do NCBI, no campo de busca o tipo de sequencia desejada. Selecionando a opção ´´nucleotide´´. Clique no botão ´´seaech´´. sequência gi: é um código único representado por números e atribuido a toda sequência de nucleotideos ou proteina traduzida depositada no banco de dados GenBank, não importando a origem. É uma espécie de RG da sequência: individual, intransferível e não modificavel. Accession number: identificador do registro da sequência depositada no GenBank, que combina letras e números, e que então pertence à coleção de sequências do banco de dados. Ele representa o relatório completo da sequência e não somente a sequência em si. BLASTn Informações sobre a sequência Clique para obter o formato FASTA. Ctrl + c Na pÁgina inicial do BLAST, clique em Nucleotide BLAST (blastn) Relatório do BLAST (report) Toda submissão correta de sequências ao programa que aplica o algoritimo BLAST irá gerar um relatório da análise realizada, esse relatório, traz uma série de informações referentes à analise e, dentre elas, a demonstração gráfica dos alinhamentos estatisticamente significativos, a lista de sequências com respectivas identificações que apresentaram similaridade no banco de dados e o grau desta similaridade. Cole sua sequÊncia na caixa de texto. Blast! Analisando... Regiões onde há identidade de nucleotídeos no pareamento, representadas por barras verticais (|) Alinhamento: É a disposição de duas sequências, com a demosntração gráfica da comparação através do pareamento da sequencia de entrada (query) na linha superior, com a sequência do banco de dados (subject) na linha inferior. No alinhamento as similaridades são destacadas, cabe lembrar que a simbologia é modificada se a sequência se refere a nucleotideo ou aminoácido. As combinações inperfeitas (mismatchs) são consideradas mutações, enquanto que os intervalos vazios (gaps) são considerados deleções ou incersões. Um maior número de gaps, penalisa o score, e afeta negativamente o e-value. Score: Nota atribuida pelo algoritmo e baseada no número de pareamentos perfeitos (match) e imperfeitos (mismatchs) entre a sequência de entrada e alguma sequência do banco de dados. O valor do score dá uma indicação se o alinhamento é bom ou não, sendo o seu valor positivamente correlacionado com a qualidade deste alinhamento (ou seja, quanto maior, melhor). E-value: Representa o valor estatístico (probabilidade) que indica se o alinhamento é real ou foi obtido meramente pelo acaso naquele banco de dados (falso positivo). Em outras palavras, é o numero esperado de falsos positivos que obteriam score igual ou maior que o reportado em um determinado alinhamento entre a sequencia de entrada e uma do banco. Fundamentalmente, quanto menor o e-value, menores as chances daquele resultado ser consequência do acaso. gaps mismatchs Identidade: É o numero de resíduos (letras) similares (matchs) identificados no alinhamento expresso, em porcentagem a partir da comparação com o comprimento desse alinhamento. Nos resultados do BLAST, os ´´positivos´´ (que já não apresentam a idetidade, mas a similaridade) indicam a conservação evolutiva, ou seja, são a soma do número de aminoácidos idênticos e aqueles que são diferentes na comparação mas que apresentam score positivo na tabela empregada. Similaridade: É o grau de semelhança entre as sequências. Este valor é baseado na identidade e/ou conservação da sequência. BLASTp Para o blastp devemos obter a sequencia de aminoácidos. Clicar em ´´protein´´ Ctrl + c Na página inicial do blast, clique na opcão Protein BLAST (BLASTp) Cole a sequência. Alinhamento:BLASTx Precisaremos da sequência de nucleotídeos em formato FASTA Na página inicial do Blast, clique em Blastx. Ctrl + c Precisaremos da sequência de nucleotídeos em formato FASTA Cole a sequência. ORF Finder ORF Finder é uma ferramenta do NCBI, que permite a localização de quadro de leitura aberta, ou seja, identificar como a sequência é lida na tradução. E essa ferramenta fará a comparação da sua sequência (query) com a sequência do banco de dados (sbjct) através do Blast. Haverá 6 quadros de leituras: +1, +2, +3, -1, -2 e -3. Os positivos são aqueles em que a sequência foi lida na direção no começo da sequência para a direção poliA, e os negativos são aqueles em que a sequência é lida de trás para frente que é da poliA em direção ao começo (Pois os “ATGs” estarão dispersos na sequência nucleotídica). Primeiro, deve ter uma sequência que é a query, no caso da aula foi usado “Amylase Lutzomyia”, que é a enzima amylase desse organismo. Vá no NCBI e pesquisa Amylase Lutzomyia: (Seleciona Nucleotide) Entra na primeira opção: Coloca na forma de FASTA, que é caracterizada da seguinte maneira: >gi|4887103|gb|AF132512.1| Lutzomyia longipalpis putative alpha- amylase (AMY) mRNA, complete cds Sinal de maior iniciando, depois o gi e o acesso, a referência da sua sequência e depois a sequência completa. Copia a FASTA para ser usado no ORF Finder. E entre no ORF Finder como na imagem abaixo! Lá cole sua sequência e clique em OrfFind. Após fazer isso, aparecerá a seguinte tela com todos os 6 quadros de leituras. Esse terceiro quadro é o que mais +3 é que mais alinhou, que foram 1494 bases. Clica nessa sequência. E faz um blastp. Em seguida aparecerá a seguinte tela: Note que todas barras estão vermelhas, sendo assim o alinhamento foram todos muito parecidos. Ao clicar na primeira barra vermelha, veremos a sequência alinhada e os seus respectivos parâmetros: Putative alpha-amylase, que significa uma provável amylase, comprimento da sequência 497aa, Score que é a pontuação foi de 1038 bits – uma boa pontuação. Expect = 0.0 que é o E. Value, um bom valor pois é zero e se estiver próximo também é um bom valor. A identidade que foi de 100%. Positives também 100% e por fim os Gaps que foi 0% ou seja nenhum aminoácido não alinhado. Nesse outro exemplo é só para identificar os sinais de Gaps e positivos. Gaps são -, representam aminoácidos não alinhados. E os sinais positivos + são aminoácidos diferentes, mas que não alteraram a função da enzima. Pegue a sequência Fasta e faça um complemento reverso (Busque no Google mesmo: Reverse complement) e depois copiei essa sequência e faça um Blast X. Blast X COPIAR E cola a sequência para dá o BlastX. Esse sequencia tem o quadro de leitura: -3. Se fizer o Blast X com a sequência não reversa que é: >gi|4887103|gb|AF132512.1| Lutzomyia longipalpis putative alpha- amylase (AMY) mRNA, complete cds ACTTTTAATTTGAAGTACAGTGAAGATAATCAAAGATGAAGTTTTTGATTGGATTTGGAGTAGTTCTACT CCTGGTAGCTGTTGCTGCGCAGTACGATCCGCATTATCTTGACAAGAGAACTGTAATGGTTCATTTATTT GAATGGAAATGGAACGACATTGCCAAGGAGTGTCAGGATTATCTAGGACCAAATGGGTTTGGTGGAGTTC AGGTTTCACCGGTTAATGAGAATTGGGTTTCTGGAGAACGTGCCTGGTTCGAACGCTACCAACCAATATC ATACAAACTAACCACAAGATCTGGTAATGAGGACGAATTTGCCGCAATGGTAAAAACCTGCCGACAAAAT GGCGTTCGAATCTTCGTTGACGTTGTGGTCAACCACATGGCTTCAGGTGCTCTTGAAGACACAATTTATG GAACAGGTGGATCTGAGGCACATCCTGGTCCTTTTGACTATCCAGCTGTTCCGTATGAAAAGAATGACTT TCATCCTGATTGTAGCATCTCAGACTATCAGGATGTGTATCAAGTTAGAAATTGTCAGTTGTCTAGCTTG AGGGATCTCAATCAAACTATTCCCTATGTCAGAGAGAAGATCCTAGACTTCCTCAATCATTTAGTAGACT TGGGAGTAGCGGGCTTCAGAATAGACGCAGCCAAGCATATGGATCCGAAGGACTTGCGATACATCTACAA TCATATAAAGAAATTAAATAAGGACGCTGAGTTTAAGGCAGGGGACAAAGCATTTATTTTCCAGGAAGTT ATAGATCTTGGAGGAGAAGCTGTATCATCACGTGAATACATATCGCTGGGCGTTGTAACAGAGTTCAAGG CATCCGATGATCTTGGAAAGCTTTTCCGGGGACAAGTTGCTCTGTCGACCTTGGAAAGATGGGGTCCACA ATATGGGCTTCTGCCTTCAAACCGAGCTCTTGCCTTTGTTGAGAATCACGACAACGAACGTGGGCACGGA GCTGGCGGAACAAATATCCTAACGTACAAGGATGGGAAAATCTACACAATGGCCGTAGTATTTAACCTAG CACACTCCTATGGGGTTCCACGAATGATGAGCAGCTATGAATTCAACGATCCAAGCCAGGGACCTCCACA TGATGACAATAGCAACATTCTAACTCCTGAATTCTCTGCAGATGGTAATTCCTGCACTAATGGTTGGGTT TGTCAGCATCGTTGGCGTCCTATGAGAAATATGGTGAAGTTCCGGAATATCGTCGGTCGGAAGTCAGTTA GGAAGTGGTATGACAACGGAAGCAATCAGATAGCCTTCTCCAGAGGCAATCAGGGCTTTGTGGCCTTTAA CTTGGACATTGTTGACTTTAACCAGCAAGTTCCAACGGATTTACCAGACGGGGTATATTGCGACGTTATT TCAGGTGAGAAGAATGGCAATGAGTGTACTGGAAAGGTAGTTATTGTGAGCAAGAGGAAGGCAGCTGTTA TCCTAAGGGCAGATGACAACTACGGAGTACTTGCAATTCATTCAGAGTCTAAATTGTAAGAATTATGCTG AAATGTTTGCTCCAACAATTCAATGGCTTTGGTGCTTGGAAGGTTAAGAAGAAACTTTTTTGTTTGAGAT AGTTTCAGCTAACCTATTTCTATTATTTTTTTATTTTAATAAAGAAGATAACTTGCTACAGAAAAAAAAA AAAAAAAAAAAAAAAAAAA O resultado será: A sequência de cima é que foi traduzida e ela será o triplo da de baixo, 36 ... 215 (cima) 1 ... 60 (Baixo), porque a sequência é lida em trinca ou códon. Seria 180/60= 3. Então essa ferramenta é útil para saber se sua sequência (query)
Compartilhar