Buscar

Bioinformática

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 25 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 25 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 25 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

BLAST 
 
Blast é um programa fornecido pelo NCBI para alinhar sequências de consulta em 
relação aos presentes alvos em um banco de dados. A página inicial do blast do NCBI 
(https://blast.ncbi.nlm.nih.gov) fornece um ponto de acesso para essas ferramentas 
para realizar o alinhamento da sequência na web. 
Uma busca utilizando BLAST compara a sequência de interesse (query ou sequência de 
entrada), conta um banco de dados (subject). A origem da sequência de interesse 
assim como a pergunta que se tenta responder irão determinar o banco de dados a 
ser utilizado. A utilização do programa com suas várias possibilidades também leva ao 
uso de uma série de recursos com expressões bastante peculiares e que são de uso 
muito comum durante a sua manipulação, tanto na preparação e submissão dos dados 
assim como na análise dos dos resultados. Dentre tais, estão as expressões FASTA, 
banco de dados, identidade, alinhamento, e-value etc... 
De forma geral, o programa permite a comparação de sequência de cinco formas 
diferentes: Blastp, Blastn, Blastx, tBlastn e tBlastx. Cada comparação a ser solicitada ao 
algoritimo tem um objetivo e um programa Blast a ser utilizado, que é baseado na 
necessidade do usuário e natureza dos dados e do banco de referência. Esses 
programas permitem a comparação da sequência de entrada cotra uma do banco de 
dados, ambos podendo ser apresentados silmultaneamente (MULTI-FASTA) ou não, 
como conjunto de nuleotídeos e aminoácidos. 
 
 
 
 
Banco de dados: 
 
O banco de dados é o local onde são armazenadas as sequencias (nucleotideos ou 
aminoácidos) que são utilizadas como referência para a comparação. Estes bancos 
podem ser de acesso restrito ou irrestrito. Os bancos de dados publicos permitem o 
acesso irrestrito de dados por qualquer usuário, sem prévia autorização. 
Há 3 grandes bancos publicos mundiais de sequencias e que trocam diariamente dados 
entre si: EMBL (European Molecular Biology Laboratory), GenBank (National Center for 
Biotechnology information) e DDBJ (DNA Databank of japan). 
 
 
 Sequência em formato FASTA 
A submição de dados para uma análise através do algoritmo BLAST requer a 
formataçãp desta informação de tal maneira que possa ser recohecida pelo programa. 
O formato FASTA é a forma de apresentação da sequência, representada pelo código 
que utiliza uma letra para cada nucleotídeo ou aminoácido, segundo as normas 
IUB/IUPAC, antecedida por uma linha que pode conter qualquer registro dado pelo 
usuario, mas que normalmente é utilizada para descrever o que representa, a origem 
da sequência ou mesmo qualquer comentario de interesse de quem está manuseando 
a sequência. Esta ´ i´dentificação´´ não é obrigatória para a utilização do programa 
BLAST se o objetivo é submeter apenas uma sequência (query), ou seja, 
individualmente, para comparação com um banco de dados em que os seus registros 
apresentem tal identificação. Preferencialmente, cada linha da sequência deve conter 
no máximo 80 caracteres. 
Estes dados (sequências são opcionalmente identificados em seu cabeçalho, pelo 
símbolo ´´>´ ´ (maior que) seguido de curta descrição da sequência em uma linha 
(também idealmente, com menos de 80 caracteres), onde são informados pelo usuario 
a denominação, base de dados, comentário, etc. 
O símbolo ´´>´´ deve vir na primeira coluna e sem espaço entre ele e a primeira letra da 
identificação. Este formato permite também que o programa identifique, ao 
reconhecer novamente o simbolo, o início de uma próxima sequência que ocorra em 
seguida, se o usuário submeter simultaneamente para análise, mais de uma sequência 
(formato multi-FASTA) 
 
 
 
 
 
 
 
 
 
 
 
Obtendo a sequência em formato fasta 
 
Na pagina inicial do NCBI, no 
campo de busca o tipo de 
sequencia desejada. Selecionando 
a opção ´´nucleotide´´. Clique no 
botão ´´seaech´´. 
sequência 
gi: é um código único representado por números e 
atribuido a toda sequência de nucleotideos ou 
proteina traduzida depositada no banco de dados 
GenBank, não importando a origem. É uma espécie 
de RG da sequência: individual, intransferível e não 
modificavel. 
Accession number: identificador do registro da sequência 
depositada no GenBank, que combina letras e números, e 
que então pertence à coleção de sequências do banco de 
dados. Ele representa o relatório completo da sequência e 
não somente a sequência em si. 
 
 
 
 
 BLASTn 
 
Informações sobre a 
sequência 
Clique para obter o formato 
FASTA. 
Ctrl + c 
Na pÁgina inicial do BLAST, 
clique em Nucleotide BLAST 
(blastn) 
 
 
Relatório do BLAST (report) 
Toda submissão correta de sequências ao programa que aplica o algoritimo BLAST 
irá gerar um relatório da análise realizada, esse relatório, traz uma série de 
informações referentes à analise e, dentre elas, a demonstração gráfica dos 
alinhamentos estatisticamente significativos, a lista de sequências com respectivas 
identificações que apresentaram similaridade no banco de dados e o grau desta 
similaridade. 
Cole sua sequÊncia na caixa 
de texto. 
Blast! 
 
Analisando... 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Regiões onde há 
identidade de 
nucleotídeos no 
pareamento, 
representadas por 
barras verticais (|) 
 Alinhamento: 
É a disposição de duas sequências, com a demosntração gráfica da comparação 
através do pareamento da sequencia de entrada (query) na linha superior, com a 
sequência do banco de dados (subject) na linha inferior. No alinhamento as 
similaridades são destacadas, cabe lembrar que a simbologia é modificada se a 
sequência se refere a nucleotideo ou aminoácido. As combinações inperfeitas 
(mismatchs) são consideradas mutações, enquanto que os intervalos vazios (gaps) 
são considerados deleções ou incersões. 
Um maior número de gaps, penalisa o score, e afeta negativamente o e-value. 
 
 Score: 
Nota atribuida pelo algoritmo e baseada no número de pareamentos perfeitos 
(match) e imperfeitos (mismatchs) entre a sequência de entrada e alguma 
sequência do banco de dados. O valor do score dá uma indicação se o alinhamento 
é bom ou não, sendo o seu valor positivamente correlacionado com a qualidade 
deste alinhamento (ou seja, quanto maior, melhor). 
 E-value: 
Representa o valor estatístico (probabilidade) que indica se o alinhamento é real 
ou foi obtido meramente pelo acaso naquele banco de dados (falso positivo). Em 
outras palavras, é o numero esperado de falsos positivos que obteriam score igual 
ou maior que o reportado em um determinado alinhamento entre a sequencia de 
entrada e uma do banco. Fundamentalmente, quanto menor o e-value, menores as 
chances daquele resultado ser consequência do acaso. 
gaps 
mismatchs 
 Identidade: 
É o numero de resíduos (letras) similares (matchs) identificados no alinhamento 
expresso, em porcentagem a partir da comparação com o comprimento desse 
alinhamento. Nos resultados do BLAST, os ´´positivos´´ (que já não apresentam a 
idetidade, mas a similaridade) indicam a conservação evolutiva, ou seja, são a 
soma do número de aminoácidos idênticos e aqueles que são diferentes na 
comparação mas que apresentam score positivo na tabela empregada. 
 Similaridade: 
É o grau de semelhança entre as sequências. Este valor é baseado na identidade 
e/ou conservação da sequência. 
 
BLASTp 
 
Para o blastp devemos obter 
a sequencia de aminoácidos. 
Clicar em ´´protein´´ 
 
 
 
Ctrl + c 
 
Na página inicial do blast, 
clique na opcão Protein BLAST 
(BLASTp) 
 
Cole a sequência. 
 
 Alinhamento:BLASTx 
 
Precisaremos da sequência de nucleotídeos em formato FASTA 
Na página inicial do Blast, clique 
em Blastx. 
 
 
Ctrl + c 
 
Precisaremos da 
sequência de 
nucleotídeos em 
formato FASTA 
 
Cole a sequência. 
 
 
ORF Finder 
ORF Finder é uma ferramenta do NCBI, que permite a localização de quadro de leitura aberta, 
ou seja, identificar como a sequência é lida na tradução. E essa ferramenta fará a comparação 
da sua sequência (query) com a sequência do banco de dados (sbjct) através do Blast. Haverá 6 
quadros de leituras: +1, +2, +3, -1, -2 e -3. Os positivos são aqueles em que a sequência foi lida 
na direção no começo da sequência para a direção poliA, e os negativos são aqueles em que a 
sequência é lida de trás para frente que é da poliA em direção ao começo (Pois os “ATGs” 
estarão dispersos na sequência nucleotídica). 
Primeiro, deve ter uma sequência que é a query, no caso da aula foi usado “Amylase 
Lutzomyia”, que é a enzima amylase desse organismo. Vá no NCBI e pesquisa Amylase 
Lutzomyia: (Seleciona Nucleotide) 
 
Entra na primeira opção: 
 
 
 
 
 
 
Coloca na forma de FASTA, que é caracterizada da seguinte maneira: 
>gi|4887103|gb|AF132512.1| Lutzomyia longipalpis putative alpha-
amylase (AMY) mRNA, complete cds 
Sinal de maior iniciando, depois o gi e o acesso, a referência da sua sequência e depois a 
sequência completa. 
 
 Copia a FASTA para ser usado no ORF Finder. E entre no ORF Finder como na imagem abaixo! 
Lá cole sua sequência e clique em OrfFind. 
 
 
Após fazer isso, aparecerá a seguinte tela com todos os 6 quadros de leituras.
 
Esse terceiro quadro é o que mais +3 é que mais alinhou, que foram 1494 bases. Clica nessa 
sequência. E faz um blastp. Em seguida aparecerá a seguinte tela: 
 
Note que todas barras estão vermelhas, sendo assim o alinhamento foram todos muito 
parecidos. 
 Ao clicar na primeira barra vermelha, veremos a sequência alinhada e os seus respectivos 
parâmetros: 
 
Putative alpha-amylase, que significa uma provável amylase, comprimento da sequência 
497aa, Score que é a pontuação foi de 1038 bits – uma boa pontuação. Expect = 0.0 que é o E. 
Value, um bom valor pois é zero e se estiver próximo também é um bom valor. A identidade 
que foi de 100%. Positives também 100% e por fim os Gaps que foi 0% ou seja nenhum 
aminoácido não alinhado. 
Nesse outro exemplo é só para identificar os sinais de Gaps e positivos. Gaps são -, 
representam aminoácidos não alinhados. E os sinais positivos + são aminoácidos diferentes, 
mas que não alteraram a função da enzima. 
 
Pegue a sequência Fasta e faça um complemento reverso (Busque no Google mesmo: Reverse 
complement) e depois copiei essa sequência e faça um Blast X. 
 
 
Blast X 
COPIAR 
 
E cola a sequência para dá o BlastX. 
 
Esse sequencia tem o quadro de leitura: -3. 
Se fizer o Blast X com a sequência não reversa que é: 
>gi|4887103|gb|AF132512.1| Lutzomyia longipalpis putative alpha-
amylase (AMY) mRNA, complete cds 
ACTTTTAATTTGAAGTACAGTGAAGATAATCAAAGATGAAGTTTTTGATTGGATTTGGAGTAGTTCTACT 
CCTGGTAGCTGTTGCTGCGCAGTACGATCCGCATTATCTTGACAAGAGAACTGTAATGGTTCATTTATTT 
GAATGGAAATGGAACGACATTGCCAAGGAGTGTCAGGATTATCTAGGACCAAATGGGTTTGGTGGAGTTC 
AGGTTTCACCGGTTAATGAGAATTGGGTTTCTGGAGAACGTGCCTGGTTCGAACGCTACCAACCAATATC 
ATACAAACTAACCACAAGATCTGGTAATGAGGACGAATTTGCCGCAATGGTAAAAACCTGCCGACAAAAT 
GGCGTTCGAATCTTCGTTGACGTTGTGGTCAACCACATGGCTTCAGGTGCTCTTGAAGACACAATTTATG 
GAACAGGTGGATCTGAGGCACATCCTGGTCCTTTTGACTATCCAGCTGTTCCGTATGAAAAGAATGACTT 
TCATCCTGATTGTAGCATCTCAGACTATCAGGATGTGTATCAAGTTAGAAATTGTCAGTTGTCTAGCTTG 
AGGGATCTCAATCAAACTATTCCCTATGTCAGAGAGAAGATCCTAGACTTCCTCAATCATTTAGTAGACT 
TGGGAGTAGCGGGCTTCAGAATAGACGCAGCCAAGCATATGGATCCGAAGGACTTGCGATACATCTACAA 
TCATATAAAGAAATTAAATAAGGACGCTGAGTTTAAGGCAGGGGACAAAGCATTTATTTTCCAGGAAGTT 
ATAGATCTTGGAGGAGAAGCTGTATCATCACGTGAATACATATCGCTGGGCGTTGTAACAGAGTTCAAGG 
CATCCGATGATCTTGGAAAGCTTTTCCGGGGACAAGTTGCTCTGTCGACCTTGGAAAGATGGGGTCCACA 
ATATGGGCTTCTGCCTTCAAACCGAGCTCTTGCCTTTGTTGAGAATCACGACAACGAACGTGGGCACGGA 
GCTGGCGGAACAAATATCCTAACGTACAAGGATGGGAAAATCTACACAATGGCCGTAGTATTTAACCTAG 
CACACTCCTATGGGGTTCCACGAATGATGAGCAGCTATGAATTCAACGATCCAAGCCAGGGACCTCCACA 
TGATGACAATAGCAACATTCTAACTCCTGAATTCTCTGCAGATGGTAATTCCTGCACTAATGGTTGGGTT 
TGTCAGCATCGTTGGCGTCCTATGAGAAATATGGTGAAGTTCCGGAATATCGTCGGTCGGAAGTCAGTTA 
GGAAGTGGTATGACAACGGAAGCAATCAGATAGCCTTCTCCAGAGGCAATCAGGGCTTTGTGGCCTTTAA 
CTTGGACATTGTTGACTTTAACCAGCAAGTTCCAACGGATTTACCAGACGGGGTATATTGCGACGTTATT 
TCAGGTGAGAAGAATGGCAATGAGTGTACTGGAAAGGTAGTTATTGTGAGCAAGAGGAAGGCAGCTGTTA 
TCCTAAGGGCAGATGACAACTACGGAGTACTTGCAATTCATTCAGAGTCTAAATTGTAAGAATTATGCTG 
AAATGTTTGCTCCAACAATTCAATGGCTTTGGTGCTTGGAAGGTTAAGAAGAAACTTTTTTGTTTGAGAT 
AGTTTCAGCTAACCTATTTCTATTATTTTTTTATTTTAATAAAGAAGATAACTTGCTACAGAAAAAAAAA 
AAAAAAAAAAAAAAAAAAA 
O resultado será: 
 
A sequência de cima é que foi traduzida e ela será o triplo da de baixo, 36 ... 215 (cima) 
1 ... 60 (Baixo), porque a sequência é lida em trinca ou códon. Seria 180/60= 3. 
Então essa ferramenta é útil para saber se sua sequência (query)

Continue navegando