Tutorial BLAST

•

UP

Felipe Tricárico

18.08.2016

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 31 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 31 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 31 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Genética I

38.623 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Alinhamento local- Utilização do 
BLAST
BLAST
Tipos de BLAST
Compara nucleotídeos(blastn)
(blastp) Compara proteínas
Utiliza nucleotídeo como “query” , este é traduzido nos seus 6 quadros de 
leitura e é comparado contra banco de proteína
Utiliza proteína como “query” , esta é comparada contra banco de 
nucleotídeo traduzido nos 6 quadros de leitura
Utiliza nucleotídeo como “query” , este é traduzido nos seus 6 quadros de 
leitura e é comparado contra banco de nucleotídeo traduzido nos 6 
quadros de leitura
Submissão de seqüências Blastn
Seqüência a ser alinhada ou 
numero de acesso
Bases de dados
Busca por palavra chave
Programa
Megablast + rapido 
Parâmetros do blastn
Programa:
Megablast utiliza “seeds” maiores (28 bases) fazendo com que o algoritmo seja mais 
rápido
Discontiguos megablast- Utiliza seeds maiores, mas exige que apenas algumas bases 
sejam coincidentes dentro de um padrão definido.
Blastn- seeds menores (11 bases, podendo ser ajustado ate 7 bases). Mais sensível 
mas também mais lento
Parâmetros do blastn
Max Target sequences- Numero de alinhamentos mostrados
Short queries- Ajuste automático de parâmetros para seqüências pequenas
Expect threshold- Ajuste da exigência mínima de relevância estatistica para seqüência 
ser mostrada
Word size- Tamanho do “seed”
Parâmetros do blastn
Match/Mismatch scores- escores para alinhamento coreto e incorreto
Gap costs- Penalização para abertura de “gaps”
Filtros- Filtragem de região de baixa complexidade ou repetições
Mascaras- Filtragem de seqüências para busca dos “seeds” e mascaramento dado pelo 
usuario
Interpretação do resultado do blast
Interpretação do resultado do blast
Accesion – Numero de acesso para seqüência alinhada
Description- Descrição breve da seqüência
Max score- escore máximo resultante de um único HSPs (High-scoring Segment 
Pairs)
Total score- Escore resultante da soma de HSPs
Query coverage- Porcentagem da seqüência submetida ao programa que é 
coberta pelo alinhamento
E-value- Parâmetro de confiança
Max identity- Identidade máxima obtida por um HSP
Escore do blast
• Escore do blast
O escore do blast é normalizado e é dado pela seguinte 
equação:
l e K são parâmetros estatísticos utilizados utilizada 
que buscam normalizar os escores de resultados 
derivados de diferentes matrizes e espaços de busca
expected value (e-value)
• Parâmetro de confiança do alinhamento
Onde E = expect value
m e n-tamanho das seqüências alinhadas
S´- escore normalizado
Relação entre e-value e p-value
E p
10 0.99995460
5 0.99326205
2 0.86466472
1 0.63212056
0.1 0.09516258
0.05 0.04877058 
0.001 0.00099950
0.0001 0.0001000
Interpretação de e-value
• O e-value permite-nos ter uma idéia de quão significativos são os 
alinhamentos que obtemos. Entretanto a interpretação de um resultado 
nem sempre é trivial e muitas vezes dependo do que o usuário busca 
(definição de função, busca de motivos conservados, etc..) e também do 
tamanho da seqüência submetida (seqüências muito pequenas nunca 
obterão um e-value muito baixo mesmo obtendo um alinhamento 
perfeito)
• O fato de termos um e-value significativo não implica que 
necessariamente podemos postular a função de uma proteína, pois em 
alguns casos isso reflete meramente a conservação de algum motivo ou 
domínio que podem esta presentes em proteínas com funções diversas
Interpretação do resultado do blast
Traços verticais representam 
identidade entre nucleotídeos
Letras minúsculas em cinza 
representam trechos 
mascarados
Traços horizontais 
representam “gaps”
Query- seqüência submetida 
ao programa
Subject- seqüência do banco 
de dados alinhada a 
seqüência submetida 
Interpretação do resultado do blast
Resultado tem dois HSPs (High-scoring Segment Pairs), estatísticas para 
cada um deles é dada.
Submissão de seqüências Blastp
Basicamente o mesmo que o 
blastn
Podem ser utilizados 3 programas:
Blastp- algoritimo normal
PSI-Blast- Matriz modificada
PHI-BLAST-Busca sequencias 
contendo um motivo indicado pelo 
usuário
Proteína X proteína
Submissão de seqüências Blastp
• Word size padrão para proteínas é 3 
(contra 7 dos nucleotideos), 
entretanto somente aqueles mais 
significativos são utilizados como 
seeds
Parâmetros do PSI-blast
Interpretação do resultado do 
blastp
Espaços com letras na linha 
do meio do alinhamento 
indicam conservação do 
aminoácido
Sinal + neste espaço indica 
uma substituição com escore 
positivo segundo a matriz de 
substituição utilizada
PSI-BLAST
• O PSI-blast inicia-se como um blastp normal e recupera 
proteínas contendo similaridades com a proteína inserida.
• Entretanto o algoritmo se utiliza das seqüências resultantes 
desta primeira pesquisa que obtiveram um escore acima de 
um certo limite para criar uma nova matriz (position-specific 
score matrix) baseada no alinhamento destas seqüências
• Esta matriz tenderá a fornecer escores mais altos para regiões 
conservadas dentro desta família e escores baixos para 
regiões pouco conservadas
• Uma nova busca é realizada com esta matriz e com os novos 
alinhamentos formados uma nova matriz pode ser criada
PSI-Blast
Resultado primeiro 
alinhamento
PSI-Blast
Resultado Primeiro 
alinhamento
PSI-Blast
Resultado terceiro 
alinhamento
Primeiro alinhamento –melhor hit
Terceiro alinhamento –
melhor hit
Terceiro alinhamento –
melhor hit do primeiro 
alinhamento
Interpretação do resultado do 
blastx
Quadro de leitura da tradução da seqüência submetida 
Interpretação do resultado do 
tblastn
Quadro de leitura da tradução da seqüência do banco de dados 
Interpretação do resultado do 
tblastx
Quadro de leitura da 
tradução da seqüência 
submetida 
Provável resultado espúrio 
devido a conservação de 
bases no quadro de leitura 
positivo
Quadro de leitura da 
tradução da seqüência do 
banco
Interpretação do resultado do 
tblastx
• Quando utilizamos o tblastx muitas vezes temos alinhamentos 
em quadros de leitura que não possuem nenhum sentido 
biológico, mas que são similares entre as seqüências devido a 
pouca divergência entre elas
• É recomendável quando analisamos uma seqüência de 
nucleotídeos tentarmos deduzir primeiramente a proteína 
codificada por este (através da dedução do quadro de leitura 
mais longo) e após isso utilizar o programa tblastn
Blast 2 sequences
Permite a realização de alinhamento local entre duas seqüências
Parâmetros semelhante ao do blast
Blast 2 sequences
Estatísticas são calculadas 
levando-se em conta o banco nr 
do NCBI
BLAST Assembled Genomes
BLAST Assembled Genomes
Ab-initio RNA ou protein-
seqüências deduzidas a partir 
de programas de predição de 
genes utilizando a informação 
disponível para o organismo
Build RNA ou protein-
Combinação dos dados de ref-
Seq mais as seqüências ab-
initio (dando preferência a 
primeira)
Traces- Dados brutos de 
seqüenciamento em larga 
escala