Baixe o app para aproveitar ainda mais
Prévia do material em texto
Alinhamento local- Utilização do BLAST BLAST Tipos de BLAST Compara nucleotídeos(blastn) (blastp) Compara proteínas Utiliza nucleotídeo como “query” , este é traduzido nos seus 6 quadros de leitura e é comparado contra banco de proteína Utiliza proteína como “query” , esta é comparada contra banco de nucleotídeo traduzido nos 6 quadros de leitura Utiliza nucleotídeo como “query” , este é traduzido nos seus 6 quadros de leitura e é comparado contra banco de nucleotídeo traduzido nos 6 quadros de leitura Submissão de seqüências Blastn Seqüência a ser alinhada ou numero de acesso Bases de dados Busca por palavra chave Programa Megablast + rapido Parâmetros do blastn Programa: Megablast utiliza “seeds” maiores (28 bases) fazendo com que o algoritmo seja mais rápido Discontiguos megablast- Utiliza seeds maiores, mas exige que apenas algumas bases sejam coincidentes dentro de um padrão definido. Blastn- seeds menores (11 bases, podendo ser ajustado ate 7 bases). Mais sensível mas também mais lento Parâmetros do blastn Max Target sequences- Numero de alinhamentos mostrados Short queries- Ajuste automático de parâmetros para seqüências pequenas Expect threshold- Ajuste da exigência mínima de relevância estatistica para seqüência ser mostrada Word size- Tamanho do “seed” Parâmetros do blastn Match/Mismatch scores- escores para alinhamento coreto e incorreto Gap costs- Penalização para abertura de “gaps” Filtros- Filtragem de região de baixa complexidade ou repetições Mascaras- Filtragem de seqüências para busca dos “seeds” e mascaramento dado pelo usuario Interpretação do resultado do blast Interpretação do resultado do blast Accesion – Numero de acesso para seqüência alinhada Description- Descrição breve da seqüência Max score- escore máximo resultante de um único HSPs (High-scoring Segment Pairs) Total score- Escore resultante da soma de HSPs Query coverage- Porcentagem da seqüência submetida ao programa que é coberta pelo alinhamento E-value- Parâmetro de confiança Max identity- Identidade máxima obtida por um HSP Escore do blast • Escore do blast O escore do blast é normalizado e é dado pela seguinte equação: l e K são parâmetros estatísticos utilizados utilizada que buscam normalizar os escores de resultados derivados de diferentes matrizes e espaços de busca expected value (e-value) • Parâmetro de confiança do alinhamento Onde E = expect value m e n-tamanho das seqüências alinhadas S´- escore normalizado Relação entre e-value e p-value E p 10 0.99995460 5 0.99326205 2 0.86466472 1 0.63212056 0.1 0.09516258 0.05 0.04877058 0.001 0.00099950 0.0001 0.0001000 Interpretação de e-value • O e-value permite-nos ter uma idéia de quão significativos são os alinhamentos que obtemos. Entretanto a interpretação de um resultado nem sempre é trivial e muitas vezes dependo do que o usuário busca (definição de função, busca de motivos conservados, etc..) e também do tamanho da seqüência submetida (seqüências muito pequenas nunca obterão um e-value muito baixo mesmo obtendo um alinhamento perfeito) • O fato de termos um e-value significativo não implica que necessariamente podemos postular a função de uma proteína, pois em alguns casos isso reflete meramente a conservação de algum motivo ou domínio que podem esta presentes em proteínas com funções diversas Interpretação do resultado do blast Traços verticais representam identidade entre nucleotídeos Letras minúsculas em cinza representam trechos mascarados Traços horizontais representam “gaps” Query- seqüência submetida ao programa Subject- seqüência do banco de dados alinhada a seqüência submetida Interpretação do resultado do blast Resultado tem dois HSPs (High-scoring Segment Pairs), estatísticas para cada um deles é dada. Submissão de seqüências Blastp Basicamente o mesmo que o blastn Podem ser utilizados 3 programas: Blastp- algoritimo normal PSI-Blast- Matriz modificada PHI-BLAST-Busca sequencias contendo um motivo indicado pelo usuário Proteína X proteína Submissão de seqüências Blastp • Word size padrão para proteínas é 3 (contra 7 dos nucleotideos), entretanto somente aqueles mais significativos são utilizados como seeds Parâmetros do PSI-blast Interpretação do resultado do blastp Espaços com letras na linha do meio do alinhamento indicam conservação do aminoácido Sinal + neste espaço indica uma substituição com escore positivo segundo a matriz de substituição utilizada PSI-BLAST • O PSI-blast inicia-se como um blastp normal e recupera proteínas contendo similaridades com a proteína inserida. • Entretanto o algoritmo se utiliza das seqüências resultantes desta primeira pesquisa que obtiveram um escore acima de um certo limite para criar uma nova matriz (position-specific score matrix) baseada no alinhamento destas seqüências • Esta matriz tenderá a fornecer escores mais altos para regiões conservadas dentro desta família e escores baixos para regiões pouco conservadas • Uma nova busca é realizada com esta matriz e com os novos alinhamentos formados uma nova matriz pode ser criada PSI-Blast Resultado primeiro alinhamento PSI-Blast Resultado Primeiro alinhamento PSI-Blast Resultado terceiro alinhamento Primeiro alinhamento –melhor hit Terceiro alinhamento – melhor hit Terceiro alinhamento – melhor hit do primeiro alinhamento Interpretação do resultado do blastx Quadro de leitura da tradução da seqüência submetida Interpretação do resultado do tblastn Quadro de leitura da tradução da seqüência do banco de dados Interpretação do resultado do tblastx Quadro de leitura da tradução da seqüência submetida Provável resultado espúrio devido a conservação de bases no quadro de leitura positivo Quadro de leitura da tradução da seqüência do banco Interpretação do resultado do tblastx • Quando utilizamos o tblastx muitas vezes temos alinhamentos em quadros de leitura que não possuem nenhum sentido biológico, mas que são similares entre as seqüências devido a pouca divergência entre elas • É recomendável quando analisamos uma seqüência de nucleotídeos tentarmos deduzir primeiramente a proteína codificada por este (através da dedução do quadro de leitura mais longo) e após isso utilizar o programa tblastn Blast 2 sequences Permite a realização de alinhamento local entre duas seqüências Parâmetros semelhante ao do blast Blast 2 sequences Estatísticas são calculadas levando-se em conta o banco nr do NCBI BLAST Assembled Genomes BLAST Assembled Genomes Ab-initio RNA ou protein- seqüências deduzidas a partir de programas de predição de genes utilizando a informação disponível para o organismo Build RNA ou protein- Combinação dos dados de ref- Seq mais as seqüências ab- initio (dando preferência a primeira) Traces- Dados brutos de seqüenciamento em larga escala
Compartilhar