Baixe o app para aproveitar ainda mais
Prévia do material em texto
Alinhamento de Sequências Algumas ferramentas de alinhamento: ± Clustalw2: ferramenta de alinhamentos múltiplos - http://www.ebi.ac.uk/Tools/clustalw2/index.html - http://www.ebi.ac.uk/Tools/clustalw2/index.html → O ClustalW2 é um programa de alinhamento de múltiplas seqüências de DNA ou proteína de uso geral para três ou mais seqüências. Para o alinhamento de duas sequências, use nossas ferramentas de alinhamento de sequência em pares; → Os serviços ClustalW2 foram desativados. Para acessar serviços semelhantes, visite a página de ferramentas Alinhamento de várias seqüências. Para alinhamentos de proteínas, recomendamos Clustal Omega. Para alinhamentos de DNA, recomendamos tentar MUSCLE ou MAFFT. ± Blast: ferramenta para pesquisa de alinhamento básico local - http://blast.ncbi.nlm.nih.gov/Blast.cgi → BLAST (Ferramenta básica de busca de alinhamento local) é a ferramenta de busca de similaridade de sequência do NCBI projetada para apoiar a análise de bancos de dados de nucleotídeos e proteínas. O BLAST é um conjunto de programas de pesquisa de similaridade projetados para explorar todos os bancos de dados de sequência disponíveis, independentemente de a consulta ser proteína ou DNA. ± phred/phrap/consed: ferramenta de montagem de genomas → Ler cromatogramas (sequenciamento); → Monta e visualiza sequências individuais em “contigs”; → Phred: Avaliação dos valores de qualidade; → Phrap: Montagem de contigs; → Consed: Visualização e edição da montagem. Por que o alinhamento de proteínas fornece mais informações que o alinhamento de DNA? Um contig (de contíguo) é um conjunto de segmentos de DNA sobrepostos que juntos representam uma região de consenso do DNA. Em projetos de seqüência de baixo para cima , um contig se refere a dados de seqüência sobrepostos (leituras); em projetos de sequenciamento de cima para baixo, contig refere-se aos clones sobrepostos que formam um mapa físico do genoma usado para orientar o sequenciamento e a montagem. Assim, contigs podem se referir tanto à seqüência de DNA sobreposta quanto a segmentos físicos sobrepostos (fragmentos) contidos em clones, dependendo do contexto. http://www.ebi.ac.uk/Tools/clustalw2/index.html http://www.ebi.ac.uk/Tools/clustalw2/index.html http://blast.ncbi.nlm.nih.gov/Blast.cgi https://en.wikipedia.org/wiki/Consensus_sequence https://en.wikipedia.org/wiki/Shotgun_sequencing#Whole_genome_shotgun_sequencing https://en.wikipedia.org/wiki/Shotgun_sequencing#Hierarchical_Shotgun_sequencing https://en.wikipedia.org/wiki/Shotgun_sequencing#Hierarchical_Shotgun_sequencing https://en.wikipedia.org/wiki/Gene_mapping#Physical_Mapping https://en.wikipedia.org/wiki/Sequence_assembly https://en.wikipedia.org/wiki/Contig#cite_note-genome_map-3 x Código genético degenerado (muitas mudanças na 3ª posição do codon não muda o AA; muitas alterações em uma sequência de DNA, particularmente na terceira posição de um códon, não alteram o aminoácido especificado) x Muitos aminoácidos compartilham propriedades biofísicas comuns (Ex; Lys e Arg = AA básicos) › O relacionamento entre aminoácidos (com propriedades biofísicas comuns) pode ser computado num sistema de Escores no alinhamento, ou seja, os relacionamentos importantes entre aminoácidos relacionados (mas incompatíveis - mismatched) em um alinhamento podem ser explicados pelo uso de sistemas de pontuação; › A comparação de sequências protéicas pode identificar sequências homólogas a partir de organismos que compartilharam o último ancestral comum a 1 bilhão de anos atrás (1 BAA) (Ex: Glutationa Transferases) ***A comparação de sequências de DNA não pode (~600 MAA). Definição do melhor alinhamento: Identificação das correspondências entre os pares de resíduos Podemos nos mover facilmente entre os mundos de DNA e proteína. Por exemplo, a ferramenta TBLASTN do site NCBI BLAST permite que proteínas relacionadas derivadas de um banco de dados de DNA sejam pesquisadas com uma sequência de proteínas. Essa opção de consulta é realizada traduzindo cada sequência de DNA em todas as seis proteínas que ela potencialmente codifica. No entanto, em muitos casos, é apropriado comparar sequências nucleotídicas. Essa comparação pode ser importante na confirmação da identidade de uma sequência de DNA em uma pesquisa de banco de dados, na busca de polimorfismos, na análise da identidade de um fragmento de cDNA clonado, na comparação de regiões reguladoras ou em muitas outras aplicações. APLICAÇÕES ± MONTAGEM DE SEQUENCIAS CURTAS DE DNA e/ou RNA/MONTAGEM SEQUENCIAS DE GENOMAS › Ordenar/alinhar os clones sequenciados até refazer o BAC › Ordenar/alinhar os BACs até refazer o CROMOSSOMO ± LOCALIZAÇÃO DE SEQUENCIAS EM BANCO DE DADOS › Buscar sequências contendo homologias DEFININDO TERMOS IMPORTANTES ± Homologia: refere-se a relação evolutiva entre as seqs. Duas sequências homólogas derivam da mesma seq. ancentral. › Duas seqüências são homólogas se compartilham uma ancestralidade evolutiva comum. Não há graus de homologia; as seqüências são homólogas ou não. As proteínas homólogas quase sempre compartilham uma estrutura tridimensional significativamente relacionada. › Quando duas sequências são homólogas, suas seqüências de aminoácidos ou nucleotídeos geralmente compartilham identidade significativa. Embora a homologia seja uma inferência qualitativa (as seqüências são homólogas ou não), identidade e semelhança são quantidades que descrevem a relação das seqüências. ± Identidade: refere-se à presença do mesmo ácido nucléico (nt) ou aminoácido (aa) na mesma posição em 2 sequências alinhadas. › EX: Membros de uma família de proteína X são homólogos, mas alguns têm sequências que divergem tanto que não compartilham identidade de sequência reconhecível (por exemplo, beta globina humana e neuroglobina humana compartilham apenas 22% de identidade de aminoácidos). ± Similaridade/semelhança: é uma medida que considera a probabilidade do alinhamento ter ocorrido por acaso (e-value). Considera todos os outros possíveis alinhamentos. AA com propriedades químicas semelhantes. › EX: Cadeias de globinas dos indivíduos compartilham a mesma forma geral (são similares) da mioglobina, embora as proteínas da mioglobina e da alfa-globina compartilhem apenas cerca de 26% de identidade de aminoácidos. Em geral, estruturas tridimensionais divergem muito mais lentamente do que a identidade de sequência de aminoácidos entre duas proteínas. ± Ortologia: Os ortólogos são sequências homólogas em diferentes espécies que surgiram de um gene ancestral comum durante a especiação. Presume-se que os ortólogos tenham funções biológicas semelhantes; a exemplo das mioglobinas humanas e de ratos, que transportam oxigênio nas células musculares. Os seres humanos e os roedores divergiram cerca de 90 milhões de anos atrás (MYA), quando um único gene ancestral da mioglobina divergia por especiação. O alinhamento é muito útil na predição de função, estrutura e inferência filogenética. . › Onde a homologia é o resultado da especiação, de modo que a história do gene reflete a história da espécie (por exemplo, hemoglobina α no homem e no rato), os genes devem ser chamados de ortólogos (orto = exato). ± Paralogia: Parálogos são sequências homólogas que surgiram por um mecanismo como a duplicação de genes. Por exemplo, a alfa 1 globina humana (NP_000549.1) é paralóga à alfa 2 globina (NP_000508.1); de fato, essas duas proteínas compartilham 100% de identidade de aminoácidos. A alfa 1 globina e a beta globina humanas também são paralógas. Todas as globinas têm propriedades distintas, incluindo distribuição regional no corpo, tempo de desenvolvimento da expressão gênica e abundância. Todos eles são pensados para ter funções distintas, mas relacionadas, como proteínas transportadorasde oxigênio. › Portanto, definimos genes homólogos dentro do mesmo organismo como parálogos. Mas considere ainda mais o caso das globinas. A α-globina e a β-globina humanas são parálogas, assim como a α-globina e a β-globina de camundongo. α-globina humana e α-globina de rato são ortólogos. Qual é a relação da α-globina humana com a β-globina de camundongo? Estes podem ser considerados paralelos, porque a α-globina e a β-globina se originam de um evento de duplicação de genes e não de um evento de especiação. No entanto, eles não são parálogos porque não ocorrem na mesma espécie. Portanto, pode ser mais apropriado simplesmente chamá- los de "homólogos", refletindo sua descendência de um ancestral comum. › Onde a homologia é o resultado da duplicação de genes, de modo que ambas as cópias tenham descido lado a lado durante a história de um organismo (por exemplo, hemoglobina α e β), os genes devem ser chamados de parálogos (para = em paralelo). Duas sequências de DNA (ou proteína) são definidas como homólogas, com base na obtenção de pontuações significativas de alinhamento. Podemos avaliar a relação de quaisquer duas proteínas realizando um alinhamento aos pares. Neste procedimento, colocamos as duas seqüências diretamente próximas uma da outra. Uma maneira prática de fazer isso é através da ferramenta NCBI BLASTP (para proteínas) ou BLASTN (para nucleotídeos). Observe que esse alinhamento é local (ou seja, os comprimentos inteiros de cada proteína não são comparados) e há muitas posições de identidade entre as duas sequências (indicadas com aminoácidos exibidos entre a query e as linhas de subject; veja linhas com setas). O alinhamento contém um gap interno (indicado por dois traços). Uma linha intermediária indica a presença de aminoácidos idênticos no alinhamento. Por exemplo, observe que próximo ao início do alinhamento os resíduos WGKV são idênticos entre as duas proteínas. Podemos contar o número total de resíduos idênticos; neste caso, as duas proteínas compartilham 25% de identidade (37 de 145 resíduos alinhados). Identidade é a extensão em que duas seqüências de aminoácidos (ou nucleotídeos) são invariantes. Observe que esse alinhamento específico é chamado local porque apenas um subconjunto das duas proteínas está alinhado: o primeiro e os últimos poucos resíduos de aminoácidos de cada proteína não são exibidos. Um alinhamento global em pares inclui todos os resíduos de ambas as sequências. OBS: o alinhamento semi-global é similar ao alinhamento global, mas ignora espaços nos extremos das seqüências. Aplicação: Montagem de Fragmentos Alinhamento global É útil quando as duas sequências tem tamanhos próximos Exemplo de programa : CLUSTAL Alinhamento local É útil para alinhamento entre sequências de tamanhos diferentes, sequências com apenas alguns trechos e também para sequências com apenas alguns trechos conservados Exemplo de programa : BLAST E FASTA Alinhamento semi-global (ou pontas livres) É útil para encontrar sobreposições de fragmentos de sequenciamento Exemplo de programa : PHRAP E CAP3 Outro aspecto desse alinhamento aos pares é que alguns dos resíduos alinhados são semelhantes, mas não idênticos; eles estão relacionados entre si porque compartilham propriedades bioquímicas semelhantes. Pares semelhantes de resíduos estão relacionados estrutural ou funcionalmente. Por exemplo, na primeira linha do alinhamento, podemos encontrar treonina e serina (T e S conectados por um sinal +); nas proximidades, podemos ver uma leucina e um resíduo de valina alinhados. Estas são substituições conservadoras. A similaridade percentual de duas seqüências de proteínas é a soma de correspondências idênticas e similares. Na figura existem 57 resíduos de aminoácidos alinhados que são semelhantes. Em geral, é mais útil considerar a identidade compartilhada por duas seqüências de proteínas, em vez da semelhança, porque a medida de similaridade pode ser baseada em uma variedade de definições de quão relacionados (semelhantes) dois resíduos de aminoácidos estão entre si. Em resumo, o alinhamento de pares é o processo de alinhar duas seqüências para alcançar níveis máximos de identidade (e níveis máximos de conservação no caso de alinhamentos de aminoácidos). O objetivo de um alinhamento aos pares é avaliar o grau de similaridade e a possibilidade de homologia entre duas moléculas. Por exemplo, podemos dizer que duas proteínas compartilham 25% de identidade de aminoácidos e 39% de similaridade. Se a quantidade de identidade de sequência for suficiente, as duas sequências provavelmente são homólogas. Nunca é correto dizer que duas proteínas compartilham uma certa porcentagem de homologia, porque ou elas são homólogas ou não. Da mesma forma, não é apropriado descrever duas seqüências como "altamente homólogas"; em vez disso, pode-se dizer que elas compartilham um alto grau de similaridade. A comparação entre sequências de DNA de organismos diferentes é baseada no conceito de que estes organismos originaram-se de um ancestral comum. No contexto de evolução as sequências de DNA sofrem mutações. Estas modificações locais entre os nucleotídeos podem ser: inserções (inserção de uma base ou várias bases na sequência); deleções (deleção de uma base ou mais bases na sequências); e substituições (substituição de uma base por outra). Portanto um programa de alinhamento de sequências biológicas tem que considerar essas mutações. Predição gênica Determinação de promotor, éxons e íntrons ± Uso das ferramentas: Blast ; Clustal; e Traduc (Busca por similaridade) → 1 – Blast usando sequência nucleotídica (Blastn) ou protéica (tBlastn) contra sequências (draft) de um genoma recém liberado. → 2 – Comparação de sequência nucleotídica identificada com dados de mRNA/ ESTs. ± Análise in silico de promotor: Plant CARE cis-elements - http://bioinformatics.psb.ugent.be/webtools/plantcare/html/ http://bioinformatics.psb.ugent.be/webtools/plantcare/html/ Análise filogenética Preparar arquivo no word contendo sequências de proteínas/ nucleotídeos (Formato fasta) e salvar em extensão txt; ± Converter o arquivo fasta/txt no formato Mega; ± Construir árvore filogenética. MEGA – Molecular Evolutionary Genetics Analysis- http://www.megasoftware.net/ Tipos de alinhamentos ± Simples X Múltiplos › Simples é quele realizado entre seqüências de DNA ou proteínas, desde que duas a duas; › Múltiplo é aquele realizado entre MAIS DE DUAS seqüências de DNA ou proteínas. ± Local X Global › Global: as seqs são alinhadas de ponta a ponta; › Local: pedaços das seqs é que são comparados. ± Heurístico X Ótimo Desenho de primers (Identificação de genes homólogos em uma dada espécie) •Levantamento de sequências de genes/cDNAs do gene de interesse (banco de dados); •Alinhamento de sequências (ClustalW2) e escolha de regiões 5’ e 3’ conservadas Regras Básicas •Deverão ter entre 17-28 bases de tamanho; •A composição deverá ter entre 50-60% de G+C; •Os primers deverão terminar na posição 3' num G ou C, ou CG ou GC: aumenta a estabilidade do emparelhamento; •Tms deverão ser entre 55-80ºC; •As extremidades 3‘ dos primers não devem ser complementares de modo a não formarem preferencialmente dímeros de primers; •Não deve haver complementaridade (possibilidade de se formarem estruturas tipo gancho de cabelo). http://www.megasoftware.net/ › Alinhamento heurístico: produz um resultado o mais próximo possível do resultado ótimo, mas, principalmente, produz um resultado de maneira muito veloz; › Alinhamento ótimo: produz o melhor resultado computacionalmente possível. Intepretando o E-Value Significância dos resultados - E-value Quanto menor e mais próximo de zero o valor de E-value mais semelhantes são as duassequências alinhadas Quanto maior for esse valor, maior a probabilidade destas identidades serem devidas ao acaso e como resultado as sequências não são homólogas Qual o valor de e-value significativo? Alguns autores recomendam valores < 0.005 PUBLICAÇÕES tem considerado valores < 0.00000000005= 5*10-11 Método de alinhamentos de sequências 1. Alinhamento de pares de seqs. ± Matriz de pontos (dot matrix): › Comparar duas sequências buscando possíveis alinhamentos de caracteres entre as seqs. ± Programação dinâmica › Motivação: gerar e testar o score de todos os possíveis alinhamentos › É exponencial no tamanho das seqüências (nn), onde n é o tamanho das sequências › Se o alinhamento de 2 sequências de 100 pb leva 1 segundo, o alinhamento de duas sequências de 1000 bp levaria trilhões de anos. › Abordagem alternativa: Com programação dinâmica o tempo de processamento e memória ficam quadráticos (n2): Se o alinhamento de 2 sequências de 100 pb leva 1 segundo, o alinhamento de 2 sequências de 1000 pb leva 100 segundos. Mas ainda não está bom, pois alinhamento de sequências de 10 Mpb (genoma de Saccharomyces) levaria 377 anos. › É um método computacional que calcula o melhor alinhamento possível entre sequências. › Principais variáveis do programa: match, mismatch e gap ± Dicionário de palavras ou k-tuplas (BLAST). 2. Alinhamento de múltiplas seqs. Uso das sub-ferramentas do BLAST Ferramenta Comparação de dados Resultado nucleotide blast blastn Seq. Nucl (query) VS Banco de dados Nucl Nucl x Nucl protein blast blastp Seq. Prot. (query) VS Banco de dados Prot Prot x Prot blastx blastx Seq. Nucl. (query) VS Banco de dados Prot. Prot x Prot tblastn tblastn Seq. Prot. (query) VS Banco de dados Nucl Prot x Prot tblastx tblastx Seq. Nucl (query) VS Banco de dados Nucl Prot x Prot nucleotide blast Search a nucleotide database using a nucleotide query Algorithms: blastn, megablast, discontiguous megablast http://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastn&BLAST_PROGRAMS=megaBlast&PAGE_TYPE=BlastSearch&SHOW_DEFAULTS=on&LINK_LOC=blasthome http://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastn&BLAST_PROGRAMS=megaBlast&PAGE_TYPE=BlastSearch&SHOW_DEFAULTS=on&LINK_LOC=blasthome http://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastp&BLAST_PROGRAMS=blastp&PAGE_TYPE=BlastSearch&SHOW_DEFAULTS=on&LINK_LOC=blasthome http://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastx&BLAST_PROGRAMS=blastx&PAGE_TYPE=BlastSearch&SHOW_DEFAULTS=on&LINK_LOC=blasthome http://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=tblastn&BLAST_PROGRAMS=tblastn&PAGE_TYPE=BlastSearch&SHOW_DEFAULTS=on&LINK_LOC=blasthome http://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=tblastx&BLAST_PROGRAMS=tblastx&PAGE_TYPE=BlastSearch&SHOW_DEFAULTS=on&LINK_LOC=blasthome http://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastn&BLAST_PROGRAMS=megaBlast&PAGE_TYPE=BlastSearch&SHOW_DEFAULTS=on&LINK_LOC=blasthome http://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastn&BLAST_PROGRAMS=megaBlast&PAGE_TYPE=BlastSearch&SHOW_DEFAULTS=on&LINK_LOC=blasthome protein blast Search protein database using a protein query Algorithms: blastp, psi-blast, phi-blast, delta-blast blastx Search protein database using a translated nucleotide query tblastn Search translated nucleotide database using a protein query tblastx Search translated nucleotide database using a translated nucleotide query Anotação de sequências Anotação de seqüências é um processo múltiplo, pelo qual uma ou mais seqüências brutas de DNA ou de aminoácido são analisadas com a finalidade de atribuir características biológicas para o entendimento do contexto biológico em que estas se inserem, ou seja, sua função. (Stein, 2001) Anotação é atribuir as seqüências: •Nomes • Características funcionais • Características físicas (mapping) • Estrutura • Participação em vias metabólicas Os tipos de anotação são: Anotação automática: • feita através de softwares • O computador toma as decisões em relação a anotação • Funciona bem para seqüências fácies de anotar, • Seqüências dificeis de anotar requerem anotação manual Anotação manual: • feita por um “curador” humano • Anotação de melhor qualidade • Gasta muito tempo Níveis de anotação Anotação no nível de nucleotídeos (procura por genes): •Em procariotos: mais simples; procura por janelas abertas de leitura http://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastp&BLAST_PROGRAMS=blastp&PAGE_TYPE=BlastSearch&SHOW_DEFAULTS=on&LINK_LOC=blasthome http://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastx&BLAST_PROGRAMS=blastx&PAGE_TYPE=BlastSearch&SHOW_DEFAULTS=on&LINK_LOC=blasthome http://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=tblastn&BLAST_PROGRAMS=tblastn&PAGE_TYPE=BlastSearch&SHOW_DEFAULTS=on&LINK_LOC=blasthome http://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=tblastx&BLAST_PROGRAMS=tblastx&PAGE_TYPE=BlastSearch&SHOW_DEFAULTS=on&LINK_LOC=blasthome •Em eucariotos: complicada pela presença de íntrons e sítios de splicing alternativo Anotação no nível de proteínas: nomeação de proteínas e suas possíveis funções Anotação no nível de processos: relacionar o genoma a processos biológicos Busca por genes - Predição Ab Initio Começa com a predição de genes através da: • identificação de ORFs • Exame da composição de bases entre as regiões codificadoras e não codificadoras • Reconhecimento computacional do gene (exons, introns, limite exon-intron) usando uma variedade de algoritmos de busca de genes (GLIMMER, GRAIL, FGENEH, GENSCAN GLIMMER-HMM, etc…) GAPS: O alinhamento de pares é útil como uma maneira de identificar mutações que ocorreram durante a evolução e causaram divergência nas seqüências das duas proteínas que estamos estudando. As mutações mais comuns são substituições, inserções e deleções. Nas sequências de proteínas, as substituições ocorrem quando uma mutação resulta no códon de um aminoácido sendo alterado para outro. Isso resulta no alinhamento de dois aminoácidos não idênticos, como serina e treonina. Inserções e exclusões ocorrem quando os resíduos são adicionados ou removidos e são normalmente representados por traços adicionados a uma ou a outra sequência. Inserções ou exclusões (mesmo aquelas com apenas um caractere) são chamadas de gaps no alinhamento. Gaps podem ocorrer nas extremidades das proteínas ou no meio. Observe que um dos efeitos da adição de gaps é tornar o comprimento total de cada alinhamento exatamente o mesmo. A adição de gaps pode ajudar a criar um alinhamento que modela as mudanças evolutivas que ocorreram. Em um esquema típico de pontuação, existem duas penalidades de gap denominadas custos de gap afim. Uma é uma pontuação - a para criar uma lacuna (- 11 no exemplo da Fig. 3.5b). Uma segunda penalidade é –b para cada resíduo que um intervalo se estende. Se uma folga se estende por k resíduos, é atribuída uma penalidade de - (a + bk). Para uma lacuna de comprimento 1, a pontuação é - (a + b).
Compartilhar