Buscar

Alinhamento de Sequências-convertido

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 13 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 13 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 13 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Alinhamento de Sequências 
Algumas ferramentas de alinhamento: 
± Clustalw2: ferramenta de alinhamentos múltiplos - 
http://www.ebi.ac.uk/Tools/clustalw2/index.html - 
http://www.ebi.ac.uk/Tools/clustalw2/index.html 
→ O ClustalW2 é um programa de alinhamento de múltiplas seqüências de 
DNA ou proteína de uso geral para três ou mais seqüências. Para o 
alinhamento de duas 
sequências, use nossas 
ferramentas de alinhamento 
de sequência em pares; 
→ Os serviços ClustalW2 foram 
desativados. Para acessar 
serviços semelhantes, visite a 
página de ferramentas 
Alinhamento de várias 
seqüências. Para 
alinhamentos de proteínas, 
recomendamos Clustal 
Omega. Para alinhamentos de 
DNA, recomendamos tentar 
MUSCLE ou MAFFT. 
± Blast: ferramenta para pesquisa de 
alinhamento básico local - 
http://blast.ncbi.nlm.nih.gov/Blast.cgi 
→ BLAST (Ferramenta básica de busca de alinhamento local) é a ferramenta 
de busca de similaridade de sequência do NCBI projetada para apoiar a 
análise de bancos de dados de nucleotídeos e proteínas. O BLAST é um 
conjunto de programas de pesquisa de similaridade projetados para 
explorar todos os bancos de dados de sequência disponíveis, 
independentemente de a consulta ser proteína ou DNA. 
± phred/phrap/consed: ferramenta de montagem de genomas 
→ Ler cromatogramas (sequenciamento); 
→ Monta e visualiza sequências individuais em “contigs”; 
→ Phred: Avaliação dos valores de qualidade; 
→ Phrap: Montagem de contigs; 
→ Consed: Visualização e edição da montagem. 
 
Por que o alinhamento de proteínas fornece mais informações que o alinhamento de 
DNA? 
Um contig (de contíguo) é um conjunto de 
segmentos de DNA sobrepostos que juntos 
representam uma região de consenso do DNA. 
Em projetos de seqüência de baixo para cima , um 
contig se refere a dados de seqüência sobrepostos 
(leituras); em projetos de sequenciamento de 
cima para baixo, contig refere-se aos clones 
sobrepostos que formam um mapa físico do 
genoma usado para orientar o sequenciamento e 
a montagem. Assim, contigs podem se referir 
tanto à seqüência de DNA sobreposta quanto a 
segmentos físicos sobrepostos (fragmentos) 
contidos em clones, dependendo do contexto. 
http://www.ebi.ac.uk/Tools/clustalw2/index.html
http://www.ebi.ac.uk/Tools/clustalw2/index.html
http://blast.ncbi.nlm.nih.gov/Blast.cgi
https://en.wikipedia.org/wiki/Consensus_sequence
https://en.wikipedia.org/wiki/Shotgun_sequencing#Whole_genome_shotgun_sequencing
https://en.wikipedia.org/wiki/Shotgun_sequencing#Hierarchical_Shotgun_sequencing
https://en.wikipedia.org/wiki/Shotgun_sequencing#Hierarchical_Shotgun_sequencing
https://en.wikipedia.org/wiki/Gene_mapping#Physical_Mapping
https://en.wikipedia.org/wiki/Sequence_assembly
https://en.wikipedia.org/wiki/Contig#cite_note-genome_map-3
x Código genético degenerado (muitas mudanças na 3ª posição do codon não muda 
o AA; muitas alterações em uma sequência de DNA, particularmente na terceira 
posição de um códon, não alteram o aminoácido especificado) 
x Muitos aminoácidos compartilham propriedades biofísicas comuns (Ex; Lys e 
Arg = AA básicos) 
› O relacionamento entre aminoácidos (com propriedades biofísicas 
comuns) pode ser computado num sistema de Escores no alinhamento, ou 
seja, os relacionamentos importantes entre aminoácidos relacionados (mas 
incompatíveis - mismatched) em um alinhamento podem ser explicados 
pelo uso de sistemas de pontuação; 
› A comparação de sequências protéicas pode identificar sequências 
homólogas a partir de organismos que compartilharam o último ancestral 
comum a 1 bilhão de anos atrás (1 BAA) (Ex: Glutationa Transferases) 
***A comparação de sequências de DNA não pode (~600 MAA). 
 
Definição do melhor alinhamento: 
Identificação das correspondências entre os pares de resíduos 
 
 
 
 
 
 
 
 
 
Podemos nos mover facilmente entre os mundos de DNA e proteína. Por exemplo, a ferramenta TBLASTN do site 
NCBI BLAST permite que proteínas relacionadas derivadas de um banco de dados de DNA sejam pesquisadas com 
uma sequência de proteínas. Essa opção de consulta é realizada traduzindo cada sequência de DNA em todas as 
seis proteínas que ela potencialmente codifica. No entanto, em muitos casos, é apropriado comparar sequências 
nucleotídicas. Essa comparação pode ser importante na confirmação da identidade de uma sequência de DNA em 
uma pesquisa de banco de dados, na busca de polimorfismos, na análise da identidade de um fragmento de cDNA 
clonado, na comparação de regiões reguladoras ou em muitas outras aplicações. 
APLICAÇÕES 
± MONTAGEM DE SEQUENCIAS CURTAS DE DNA e/ou RNA/MONTAGEM 
SEQUENCIAS DE GENOMAS 
› Ordenar/alinhar os clones sequenciados até refazer o BAC 
› Ordenar/alinhar os BACs até refazer o CROMOSSOMO 
± LOCALIZAÇÃO DE SEQUENCIAS EM BANCO DE DADOS 
› Buscar sequências contendo homologias 
 
DEFININDO TERMOS IMPORTANTES 
± Homologia: refere-se a relação evolutiva entre as seqs. 
Duas sequências homólogas derivam da mesma seq. 
ancentral. 
› Duas seqüências são homólogas se 
compartilham uma ancestralidade evolutiva 
comum. Não há graus de homologia; as seqüências são homólogas ou não. 
As proteínas homólogas quase sempre compartilham uma estrutura 
tridimensional significativamente relacionada. 
› Quando duas sequências são homólogas, suas seqüências de aminoácidos 
ou nucleotídeos geralmente compartilham identidade significativa. 
Embora a homologia seja uma inferência qualitativa (as seqüências são 
homólogas ou não), identidade e semelhança são quantidades que 
descrevem a relação das seqüências. 
± Identidade: refere-se à presença do mesmo ácido nucléico (nt) ou aminoácido 
(aa) na mesma posição em 2 sequências alinhadas. 
› EX: Membros de uma família de proteína X são homólogos, mas alguns 
têm sequências que divergem tanto que não compartilham identidade de 
sequência reconhecível (por exemplo, beta globina humana e 
neuroglobina humana compartilham apenas 22% de identidade de 
aminoácidos). 
± Similaridade/semelhança: é uma medida que considera a probabilidade do 
alinhamento ter ocorrido por acaso (e-value). Considera todos os outros possíveis 
alinhamentos. AA com propriedades químicas semelhantes. 
› EX: Cadeias de globinas dos indivíduos compartilham a mesma forma 
geral (são similares) da mioglobina, embora as proteínas da mioglobina e 
da alfa-globina compartilhem apenas cerca de 26% de identidade de 
aminoácidos. Em geral, estruturas tridimensionais divergem muito mais 
lentamente do que a identidade de sequência de aminoácidos entre duas 
proteínas. 
± Ortologia: Os ortólogos são sequências homólogas em diferentes espécies que 
surgiram de um gene ancestral comum durante a especiação. Presume-se que os 
ortólogos tenham funções biológicas semelhantes; a exemplo das mioglobinas 
humanas e de ratos, que transportam oxigênio nas células musculares. Os seres 
humanos e os roedores divergiram cerca de 90 milhões de anos atrás (MYA), 
quando um único gene ancestral da mioglobina divergia por especiação. 
O alinhamento é muito útil na 
predição de função, estrutura e 
inferência filogenética. 
. 
› Onde a homologia é o resultado da especiação, de modo que a história do 
gene reflete a história da espécie (por exemplo, hemoglobina α no homem 
e no rato), os genes devem ser chamados de ortólogos (orto = exato). 
± Paralogia: Parálogos são sequências homólogas que surgiram por um mecanismo 
como a duplicação de genes. Por exemplo, a alfa 1 globina humana 
(NP_000549.1) é paralóga à alfa 2 globina (NP_000508.1); de fato, essas duas 
proteínas compartilham 100% de identidade de aminoácidos. A alfa 1 globina e a 
beta globina humanas também são paralógas. Todas as globinas têm propriedades 
distintas, incluindo distribuição regional no corpo, tempo de desenvolvimento da 
expressão gênica e abundância. Todos eles são pensados para ter funções distintas, 
mas relacionadas, como proteínas transportadorasde oxigênio. 
› Portanto, definimos genes homólogos dentro do mesmo organismo como 
parálogos. Mas considere ainda mais o caso das globinas. A α-globina e a 
β-globina humanas são parálogas, assim como a α-globina e a β-globina 
de camundongo. α-globina humana e α-globina de rato são ortólogos. Qual 
é a relação da α-globina humana com a β-globina de camundongo? Estes 
podem ser considerados paralelos, porque a α-globina e a β-globina se 
originam de um evento de duplicação de genes e não de um evento de 
especiação. No entanto, eles não são parálogos porque não ocorrem na 
mesma espécie. Portanto, pode ser mais apropriado simplesmente chamá-
los de "homólogos", refletindo sua descendência de um ancestral comum. 
› Onde a homologia é o resultado da duplicação de genes, de modo que 
ambas as cópias tenham descido lado a lado durante a história de um 
organismo (por exemplo, hemoglobina α e β), os genes devem ser 
chamados de parálogos (para = em paralelo). 
Duas sequências de DNA (ou proteína) são definidas como homólogas, com base na 
obtenção de pontuações significativas de alinhamento. Podemos avaliar a relação de 
quaisquer duas proteínas realizando um alinhamento aos pares. Neste procedimento, 
colocamos as duas seqüências diretamente próximas uma da outra. Uma maneira prática 
de fazer isso é através da ferramenta NCBI BLASTP (para proteínas) ou BLASTN (para 
nucleotídeos). 
 
Observe que esse alinhamento é local (ou seja, os comprimentos inteiros de cada proteína não são 
comparados) e há muitas posições de identidade entre as duas sequências (indicadas com aminoácidos 
exibidos entre a query e as linhas de subject; veja linhas com setas). O alinhamento contém um gap 
interno (indicado por dois traços). 
Uma linha intermediária indica a presença de aminoácidos idênticos no alinhamento. Por 
exemplo, observe que próximo ao início do alinhamento os resíduos WGKV são idênticos 
entre as duas proteínas. Podemos contar o número total de resíduos idênticos; neste caso, 
as duas proteínas compartilham 25% de identidade (37 de 145 resíduos alinhados). 
Identidade é a extensão em que duas seqüências de aminoácidos (ou nucleotídeos) são 
invariantes. Observe que esse alinhamento específico é chamado local porque apenas um 
subconjunto das duas proteínas está alinhado: o primeiro e os últimos poucos resíduos de 
aminoácidos de cada proteína não são exibidos. Um alinhamento global em pares inclui 
todos os resíduos de ambas as sequências. 
OBS: o alinhamento semi-global é similar ao alinhamento global, mas ignora 
espaços nos extremos das seqüências. Aplicação: Montagem de Fragmentos 
 
Alinhamento 
global
É útil quando as duas 
sequências tem 
tamanhos próximos
Exemplo de programa : 
CLUSTAL
Alinhamento 
local
É útil para alinhamento 
entre sequências de 
tamanhos diferentes, 
sequências com apenas 
alguns trechos e também 
para sequências com 
apenas alguns trechos 
conservados
Exemplo de programa : 
BLAST E FASTA
Alinhamento 
semi-global (ou 
pontas livres)
É útil para encontrar 
sobreposições de 
fragmentos de 
sequenciamento
Exemplo de programa : 
PHRAP E CAP3
 
 
 
 
 
 
 
 
 
Outro aspecto desse alinhamento aos pares é que alguns dos resíduos alinhados são 
semelhantes, mas não idênticos; eles estão relacionados entre si porque compartilham 
propriedades bioquímicas semelhantes. Pares semelhantes de resíduos estão relacionados 
estrutural ou funcionalmente. Por exemplo, na primeira linha do alinhamento, podemos 
encontrar treonina e serina (T e S conectados por um sinal +); nas proximidades, podemos 
ver uma leucina e um resíduo de valina alinhados. Estas são substituições conservadoras. 
A similaridade percentual de duas seqüências de proteínas é a soma de correspondências 
idênticas e similares. Na figura existem 57 resíduos de aminoácidos alinhados que são 
semelhantes. Em geral, é mais útil considerar a identidade compartilhada por duas 
seqüências de proteínas, em vez da semelhança, porque a medida de similaridade pode 
ser baseada em uma variedade de definições de quão relacionados (semelhantes) dois 
resíduos de aminoácidos estão entre si. 
Em resumo, o alinhamento de pares é o processo de alinhar duas seqüências para 
alcançar níveis máximos de identidade (e níveis máximos de conservação no caso de 
alinhamentos de aminoácidos). O objetivo de um alinhamento aos pares é avaliar o grau 
de similaridade e a possibilidade de homologia entre duas moléculas. Por exemplo, 
podemos dizer que duas proteínas compartilham 25% de identidade de aminoácidos e 
39% de similaridade. Se a quantidade de identidade de sequência for suficiente, as duas 
sequências provavelmente são homólogas. Nunca é correto dizer que duas proteínas 
compartilham uma certa porcentagem de homologia, porque ou elas são homólogas ou 
não. Da mesma forma, não é apropriado descrever duas seqüências como "altamente 
homólogas"; em vez disso, pode-se dizer que elas compartilham um alto grau de 
similaridade. 
A comparação entre sequências de DNA de organismos diferentes é baseada no conceito 
de que estes organismos originaram-se de um ancestral comum. No contexto de evolução 
as sequências de DNA sofrem mutações. Estas modificações locais entre os nucleotídeos 
podem ser: inserções (inserção de uma base ou várias bases na sequência); deleções 
(deleção de uma base ou mais bases na sequências); e substituições (substituição de uma 
base por outra). Portanto um programa de alinhamento de sequências biológicas tem que 
considerar essas mutações. 
 
 
 
 
 
 
 
 
 
 
 
 
 
Predição gênica 
Determinação de promotor, éxons e íntrons 
± Uso das ferramentas: Blast ; Clustal; e Traduc (Busca por similaridade) 
→ 1 – Blast usando sequência nucleotídica (Blastn) ou protéica (tBlastn) 
contra sequências (draft) de um genoma recém liberado. 
→ 2 – Comparação de sequência nucleotídica identificada com dados de 
mRNA/ ESTs. 
± Análise in silico de promotor: Plant CARE cis-elements - 
http://bioinformatics.psb.ugent.be/webtools/plantcare/html/ 
http://bioinformatics.psb.ugent.be/webtools/plantcare/html/
 
 
 
Análise filogenética 
Preparar arquivo no word contendo sequências de proteínas/ nucleotídeos (Formato fasta) 
e salvar em extensão txt; 
± Converter o arquivo fasta/txt no formato Mega; 
± Construir árvore filogenética. 
MEGA – Molecular Evolutionary Genetics Analysis- http://www.megasoftware.net/ 
 
Tipos de alinhamentos 
± Simples X Múltiplos 
› Simples é quele realizado entre seqüências de DNA ou proteínas, desde 
que duas a duas; 
› Múltiplo é aquele realizado entre MAIS DE DUAS seqüências de DNA 
ou proteínas. 
± Local X Global 
› Global: as seqs são 
alinhadas de ponta a 
ponta; 
› Local: pedaços das 
seqs é que são 
comparados. 
± Heurístico X Ótimo 
Desenho de primers (Identificação de 
genes homólogos em uma dada espécie)
•Levantamento de sequências de 
genes/cDNAs do gene de interesse 
(banco de dados);
•Alinhamento de sequências (ClustalW2) 
e escolha de regiões 5’ e 3’ conservadas
Regras Básicas
•Deverão ter entre 17-28 bases de 
tamanho;
•A composição deverá ter entre 50-60% 
de G+C;
•Os primers deverão terminar na posição 
3' num G ou C, ou CG ou GC: aumenta a 
estabilidade do emparelhamento;
•Tms deverão ser entre 55-80ºC;
•As extremidades 3‘ dos primers não 
devem ser complementares de modo a 
não formarem preferencialmente dímeros 
de primers;
•Não deve haver complementaridade 
(possibilidade de se formarem estruturas 
tipo gancho de cabelo).
http://www.megasoftware.net/
› Alinhamento heurístico: produz um resultado o mais próximo possível do 
resultado ótimo, mas, principalmente, produz um resultado de maneira 
muito veloz; 
› Alinhamento ótimo: produz o melhor resultado computacionalmente 
possível. 
 
Intepretando o E-Value 
Significância dos resultados - E-value 
Quanto menor e mais próximo de zero o valor de E-value mais semelhantes são as duassequências alinhadas 
Quanto maior for esse valor, maior a probabilidade destas identidades serem devidas ao 
acaso e como resultado as sequências não são homólogas 
Qual o valor de e-value significativo? 
 Alguns autores recomendam valores < 0.005 
 PUBLICAÇÕES tem considerado valores < 0.00000000005= 5*10-11 
 
Método de alinhamentos de sequências 
1. Alinhamento de pares de seqs. 
± Matriz de pontos (dot matrix): 
› Comparar duas sequências buscando possíveis alinhamentos de caracteres 
entre as seqs. 
± Programação dinâmica 
› Motivação: gerar e testar o score de todos os possíveis alinhamentos 
› É exponencial no tamanho das seqüências (nn), onde n é o tamanho das 
sequências 
› Se o alinhamento de 2 sequências de 100 pb leva 1 segundo, o alinhamento 
de duas sequências de 1000 bp levaria trilhões de anos. 
› Abordagem alternativa: Com programação dinâmica o tempo de 
processamento e memória ficam quadráticos (n2): Se o alinhamento de 2 
sequências de 100 pb leva 1 segundo, o alinhamento de 2 sequências de 
1000 pb leva 100 segundos. Mas ainda não está bom, pois alinhamento de 
sequências de 10 Mpb (genoma de Saccharomyces) levaria 377 anos. 
› É um método computacional que calcula o melhor alinhamento possível 
entre sequências. 
› Principais variáveis do programa: match, mismatch e gap 
± Dicionário de palavras ou k-tuplas (BLAST). 
2. Alinhamento de múltiplas seqs. 
 
Uso das sub-ferramentas do BLAST 
 Ferramenta Comparação de dados Resultado 
nucleotide 
blast 
blastn Seq. Nucl (query) VS Banco de dados 
Nucl 
Nucl x Nucl 
protein blast blastp Seq. Prot. (query) VS Banco de 
dados Prot 
Prot x Prot 
blastx blastx Seq. Nucl. (query) VS Banco de 
dados Prot. 
Prot x Prot 
tblastn tblastn Seq. Prot. (query) VS Banco de 
dados Nucl 
Prot x Prot 
tblastx tblastx Seq. Nucl (query) VS Banco de dados 
Nucl 
Prot x Prot 
 
nucleotide 
blast 
Search a nucleotide database using a nucleotide query 
Algorithms: blastn, megablast, discontiguous megablast 
http://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastn&BLAST_PROGRAMS=megaBlast&PAGE_TYPE=BlastSearch&SHOW_DEFAULTS=on&LINK_LOC=blasthome
http://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastn&BLAST_PROGRAMS=megaBlast&PAGE_TYPE=BlastSearch&SHOW_DEFAULTS=on&LINK_LOC=blasthome
http://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastp&BLAST_PROGRAMS=blastp&PAGE_TYPE=BlastSearch&SHOW_DEFAULTS=on&LINK_LOC=blasthome
http://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastx&BLAST_PROGRAMS=blastx&PAGE_TYPE=BlastSearch&SHOW_DEFAULTS=on&LINK_LOC=blasthome
http://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=tblastn&BLAST_PROGRAMS=tblastn&PAGE_TYPE=BlastSearch&SHOW_DEFAULTS=on&LINK_LOC=blasthome
http://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=tblastx&BLAST_PROGRAMS=tblastx&PAGE_TYPE=BlastSearch&SHOW_DEFAULTS=on&LINK_LOC=blasthome
http://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastn&BLAST_PROGRAMS=megaBlast&PAGE_TYPE=BlastSearch&SHOW_DEFAULTS=on&LINK_LOC=blasthome
http://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastn&BLAST_PROGRAMS=megaBlast&PAGE_TYPE=BlastSearch&SHOW_DEFAULTS=on&LINK_LOC=blasthome
protein blast 
Search protein database using a protein query 
Algorithms: blastp, psi-blast, phi-blast, delta-blast 
blastx Search protein database using a translated nucleotide query 
tblastn Search translated nucleotide database using a protein query 
tblastx Search translated nucleotide database using a translated nucleotide query 
 
Anotação de sequências 
Anotação de seqüências é um processo múltiplo, pelo qual uma ou mais seqüências 
brutas de DNA ou de aminoácido são analisadas com a finalidade de atribuir 
características biológicas para o entendimento do contexto biológico em que estas se 
inserem, ou seja, sua função. (Stein, 2001) 
Anotação é atribuir as seqüências: 
•Nomes 
• Características funcionais 
• Características físicas (mapping) 
• Estrutura 
• Participação em vias metabólicas 
Os tipos de anotação são: 
Anotação automática: 
• feita através de softwares 
• O computador toma as decisões em relação a anotação 
• Funciona bem para seqüências fácies de anotar, 
• Seqüências dificeis de anotar requerem anotação manual 
Anotação manual: 
• feita por um “curador” humano 
• Anotação de melhor qualidade 
• Gasta muito tempo 
Níveis de anotação 
Anotação no nível de nucleotídeos (procura por genes): 
 •Em procariotos: mais simples; procura por janelas abertas de leitura 
http://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastp&BLAST_PROGRAMS=blastp&PAGE_TYPE=BlastSearch&SHOW_DEFAULTS=on&LINK_LOC=blasthome
http://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastx&BLAST_PROGRAMS=blastx&PAGE_TYPE=BlastSearch&SHOW_DEFAULTS=on&LINK_LOC=blasthome
http://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=tblastn&BLAST_PROGRAMS=tblastn&PAGE_TYPE=BlastSearch&SHOW_DEFAULTS=on&LINK_LOC=blasthome
http://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=tblastx&BLAST_PROGRAMS=tblastx&PAGE_TYPE=BlastSearch&SHOW_DEFAULTS=on&LINK_LOC=blasthome
 •Em eucariotos: complicada pela presença de íntrons e sítios de splicing 
alternativo 
Anotação no nível de proteínas: nomeação de proteínas e suas possíveis funções 
Anotação no nível de processos: relacionar o genoma a processos biológicos 
Busca por genes - Predição Ab Initio 
Começa com a predição de genes através da: 
• identificação de ORFs 
• Exame da composição de bases entre as regiões codificadoras e não codificadoras 
• Reconhecimento computacional do gene (exons, introns, limite exon-intron) usando 
uma variedade de algoritmos de busca de genes (GLIMMER, GRAIL, FGENEH, 
GENSCAN GLIMMER-HMM, etc…) 
 
GAPS: 
O alinhamento de pares é útil como uma maneira de identificar mutações que ocorreram 
durante a evolução e causaram divergência nas seqüências das duas proteínas que estamos 
estudando. As mutações mais comuns são substituições, inserções e deleções. Nas sequências 
de proteínas, as substituições ocorrem quando uma mutação resulta no códon de um 
aminoácido sendo alterado para outro. Isso resulta no alinhamento de dois aminoácidos não 
idênticos, como serina e treonina. Inserções e exclusões ocorrem quando os resíduos são 
adicionados ou removidos e são normalmente representados por traços adicionados a uma ou 
a outra sequência. Inserções ou exclusões (mesmo aquelas com apenas um caractere) são 
chamadas de gaps no alinhamento. 
Gaps podem ocorrer nas extremidades das proteínas ou no meio. Observe que um dos efeitos 
da adição de gaps é tornar o comprimento total de cada alinhamento exatamente o mesmo. A 
adição de gaps pode ajudar a criar um alinhamento que modela as mudanças evolutivas que 
ocorreram. 
Em um esquema típico de pontuação, existem duas penalidades de gap denominadas custos de 
gap afim. Uma é uma pontuação - a para criar uma lacuna (- 11 no exemplo da Fig. 3.5b). Uma 
segunda penalidade é –b para cada resíduo que um intervalo se estende. Se uma folga se 
estende por k resíduos, é atribuída uma penalidade de - (a + bk). Para uma lacuna de 
comprimento 1, a pontuação é - (a + b).

Continue navegando