Buscar

2 NCBI e alinhamento de sequências

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 49 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 49 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 49 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

09/03/2022 18:44 NCBI e alinhamento de sequências
https://stecine.azureedge.net/repositorio/00212sa/02925/index.html#imprimir 1/49
NCBI e alinhamento de sequências
Profa. Melise Chaves Silveira
Descrição
Portal do NCBI (Centro Nacional de Informação Biotecnológica), alinhamentos de sequências biológicas e
desenho de primers.
Propósito
O conhecimento das plataformas e ferramentas mais utilizadas na bioinformática é essencial para
acompanhar a constante evolução da ciência, que reflete em diferentes formas de obtenção e análises de
dados biológicos para o desenvolvimento de novos testes diagnósticos e metodologias científicas.
Objetivos
Módulo 1
A importância do NCBI
Reconhecer a importância do NCBI para as ciências biomédicas.
Módulo 2
Alinhamentos de sequências
09/03/2022 18:44 NCBI e alinhamento de sequências
https://stecine.azureedge.net/repositorio/00212sa/02925/index.html#imprimir 2/49
Alinhamentos de sequências
Distinguir os tipos de alinhamentos de sequências biológicas disponíveis.
Módulo 3
Os Primers
Aplicar o conhecimento sobre primers no desenho dessas sequências utilizando programas de
computador.
A tecnologia está presente o tempo inteiro na nossa vida pessoal, como, por exemplo, os smartphones
ou aparelhos de televisão cada vez mais modernos. A sua vida profissional também não pode negar
todas as vantagens, facilidades e desafios que as novas tecnologias trazem.
Ao longo deste conteúdo, discutiremos como são armazenados dados biológicos que são produzidos a
partir de equipamentos modernos, como os sequenciadores de DNA. Além disso, você vai aprender a
usar ferramentas computacionais que permitem gerar informações e trazer conhecimento a partir
dessas sequências. Ao final deste conteúdo, termos como NCBI, alinhamento de sequência e desenho
de primers serão agregados ao seu repertório acadêmico e estarão bem claros para você.
Introdução
09/03/2022 18:44 NCBI e alinhamento de sequências
https://stecine.azureedge.net/repositorio/00212sa/02925/index.html#imprimir 3/49
1 - A Importância do NCBI
Ao �nal deste módulo, você será capaz de reconhecer a importância
do NCBI para as ciências biomédicas.
NCBI (National Center for Biotechnology
Information)
Um dos marcos históricos mais importantes da bioinformática foi a realização do Projeto Genoma Humano,
com o objetivo de identificar a sequência de nucleotídeos que compõe os 46 cromossomos humanos.
Ao final desse projeto, que durou de 1990 a 2001, a bioinformática ganhou um grande impulso. Logo
surgiram tecnologias para o sequenciamento de DNA capazes de determinar a ordem de nucleotídeos de
genomas inteiros, de forma mais rápida e barata.
09/03/2022 18:44 NCBI e alinhamento de sequências
https://stecine.azureedge.net/repositorio/00212sa/02925/index.html#imprimir 4/49
Ilustração de sequenciamento genético.
Até o final da década de 1990, os arquivos de sequência de ácidos nucleicos continham cerca de 4 bilhões
de nucleotídeos, que correspondem a pouco mais de um único genoma humano. No final dos anos 2000,
esse número já era maior que 100 bilhões.
Mas onde está guardada toda essa quantidade de sequências de nucleotídeos?
Funções e aplicações do NCBI
Sequências de nucleotídeos e aminoácidos, estruturas tridimensionais de proteínas e vias metabólicas são
exemplos de dados biológicos. A bioinformática utiliza bancos de dados para armazenar e organizar o
grande volume de dados gerados a partir da prática biomédica.
Isso permite que quando alguém precise de um determinado dado biológico, ele possa ser recuperado
facilmente. Muitos desses bancos de dados podem ser acessados por qualquer pessoa, de qualquer lugar
do mundo, utilizando a rede mundial de computadores (World Wide Web).
O NCBI (National Center for Biotechnology Information), Centro Nacional para Informação Biotecnológica, é
uma organização sediada nos Estados Unidos da América que controla o portal mais famoso da
bioinformática, cujo acesso é feito pelo endereço ncbi.nlm.nih.gov. Dentro desse portal estão disponíveis
diferentes bancos de dados biológicos e ferramentas para analisá-los.
O NCBI se propõe a reunir o resultado do trabalho de pesquisadores ao redor do mundo em um só lugar,
facilitando o acesso e manipulação desses registros. Essa iniciativa impulsiona o avanço do conhecimento
na área biotecnológica.
09/03/2022 18:44 NCBI e alinhamento de sequências
https://stecine.azureedge.net/repositorio/00212sa/02925/index.html#imprimir 5/49
Sede do NCBI em Bethesda, Maryland, EUA.
Imagine que você está estudando uma cepa de bactéria resistente a todos os antibióticos
disponíveis e decidiu sequenciar o genoma desse organismo para descobrir quais genes são
responsáveis por essa característica. Com a sequência em mãos, você pode enviá-la para os
responsáveis pelo NCBI e, então, seu trabalho se juntará a milhões de outras sequências em um
banco de dados de sequências nucleotídicas.
Se um pesquisador, em qualquer lugar do mundo, quiser saber a ordem dos nucleotídeos no
cromossomo da “sua” bactéria, é só ele usar ferramentas de busca disponíveis no portal do NCBI,
fazer o download dessa sequência para o seu computador e estudá-la.
Agora, vamos aprender sobre exemplos reais de bancos e ferramentas disponíveis pelo portal do NCBI.
PubMed
É um banco de dados de informações sobre literatura biomédica com acesso parcialmente livre. Nesse
banco, encontramos artigos científicos publicados em milhares de revistas científicas diferentes,
principalmente aquelas que publicam em inglês, o “idioma universal da ciência”.
Atenção
Mas como funciona esse processo? 
09/03/2022 18:44 NCBI e alinhamento de sequências
https://stecine.azureedge.net/repositorio/00212sa/02925/index.html#imprimir 6/49
É importante ressaltar que, para algumas revistas, é possível acessar livremente apenas o resumo dos
artigos. Nesses casos, é necessário pagar uma “assinatura” para conseguir o acesso completo, o que é
normalmente feito por instituições de pesquisa. Existe também a possibilidade de pagamento apenas do
artigo de interesse, caso você realmente precise ler o conteúdo e sua instituição não tenha a assinatura de
determinada revista científica.
Quando estiver desenvolvendo seu trabalho de conclusão de curso (TCC), após a escolha do tema, você vai
começar a buscar artigos científicos sobre ele. Uma forma de encontrar essa literatura é acessar o PubMed
pelo portal do NCBI e buscar por palavras-chave. Imagine que sua busca resulte em 100 artigos.
Nesse número estão incluídos os artigos de acesso livre e os de acesso restrito. É possível, então, “filtrar” a
busca apenas por artigos que você consiga ler inteiros. Nesse caso, é muito provável que o número de
artigos disponíveis seja bem menor que 100. Além de direcionar a busca para artigos de acesso livre,
também é possível utilizar os filtros para determinar o período de publicação desejado, o tipo de artigo
(ensaio clínico ou revisão, por exemplo), dentre outras formas de busca mais específicas que falaremos
adiante.
GenBank
Outro banco de dados biológico mantido pelo NCBI. O tipo de dado armazenado nesse caso são sequências
primárias de nucleotídeos de quase todos os organismos, com acesso liberado. Trata-se principalmente de
sequências de DNA, que podem corresponder a um gene, partes do cromossomo, o cromossomo inteiro ou
plasmídeos. Essas sequências são resultado do trabalho de pesquisadores da comunidade científica
mundial, que as enviam ao GenBank. O acesso a esses dados é totalmente livre, e qualquer pessoa pode
fazer o download das sequências de nucleotídeos para seu computador.
Você se lembra do exemplo da bactéria resistente a todos os antibióticos que discutimos agora mesmo?
Podemos aplicar esse exemplo ao contexto do GenBank, conforme os seguintes passos:
Extrair o DNA da célula
b t i
Sequenciá-lo utilizando
t l i d
Entrar no portal do NCBI para
i i
09/03/2022 18:44 NCBI e alinhamento de sequências
https://stecine.azureedge.net/repositorio/00212sa/02925/index.html#imprimir7/49
Feito isso, após um processo de triagem automatizada, em alguns dias sua sequência estará disponível
mundialmente!
Diante dessas informações, você pode estar se perguntando:
E por que devo disponibilizar esses dados ao mundo?
Resposta
Para que você possa provar que fez, é preciso “mostrar”. Além disso, ciência é feita em conjunto, o avanço
de um é o avanço de todos.
RefSeq
Existem vários outros exemplos de bancos de dados disponíveis no portal do NCBI, mas o último que
veremos será um banco de dados referência (RefSeq). O RefSeq possui um conjunto de sequências
primárias de DNA genômico, transcritos e proteínas. O que faz desse banco uma referência é o fato de seus
dados serem não redundantes, bem anotados e de livre acesso.
Transcritos
RNAs “transformados” em DNA complementar.
As sequências genômicas disponíveis no RefSeq são cópias de sequências selecionadas a partir do
GenBank. Essa seleção é feita continuamente pela equipe que trabalha no NCBI e por colaboradores, que
verificam se não existem sequências repetidas (não redundantes) e se a localização e função dos genes
foram corretamente atribuídos (bem anotados).
bacteriana; tecnologias de
sequenciamento total de
genoma; 
enviar o arquivo com as
sequências de nucleotídeos
ao GenBank.
09/03/2022 18:44 NCBI e alinhamento de sequências
https://stecine.azureedge.net/repositorio/00212sa/02925/index.html#imprimir 8/49
Os dados contidos no RefSeq fornecem uma referência confiável para identificação e caracterização de
genes, análise de mutações e polimorfismos, estudos de expressão gênica e anotação de genomas (tema
que iremos estudar em outro momento).
Curiosidade
As sequências dos transcritos e das proteínas contidas no RefSeq são geradas por várias etapas, que
incluem o processamento computacional e curadoria manual (realizada por especialistas), de maneira que
podemos dizer, então, que o RefSeq é um banco de dados curado.
No contexto da pandemia da covid-19, uma das grandes preocupações é o surgimento de novas variantes
do vírus SARS-CoV-2.
Variantes do SARS-CoV-2 conhecidas e suas regiões de origem.
Variantes são amostras da mesma espécie, mas que apresentam pequenas mudanças na ordem de bases
nitrogenadas (A, T, G e C) do material genético em relação às primeiras cepas sequenciadas desse vírus.
Mudanças no material genético podem conferir ao vírus maior capacidade de disseminação, aumentar a
chance de provocar doença ou até provocar sintomas mais graves no doente.
Por isso é tão importante que laboratórios que realizem o sequenciamento genômico do vírus SARS-CoV-2
09/03/2022 18:44 NCBI e alinhamento de sequências
https://stecine.azureedge.net/repositorio/00212sa/02925/index.html#imprimir 9/49
sejam também capazes de identificar se a amostra analisada se trata de uma variante. Isso é possível se o
profissional comparar a sequência de bases obtidas pelo sequenciamento com uma sequência referência.
Já pensou onde podemos encontrar essa sequência referência? No RefSeq.
Exemplo
No RefSeq está disponível a sequência de nucleotídeos de uma amostra de SARS-CoV-2 isolada em Wuhan,
na China, local onde a pandemia teve início. Os dados dessa amostra são confiáveis e foram usados em um
artigo publicado na revista Nature, que relata a emergência da covid-19 (Wu et al., 2020).
Blast
Agora que já falamos sobre bancos de dados, vamos conhecer uma ferramenta muito útil que está
disponível no portal do NCBI, o BLAST (Basic Local Alignment Search Tool), um software (programa de
computador) que encontra regiões de similaridade entre sequências biológicas. Ele é capaz de comparar
tanto sequências de nucleotídeos quanto sequências de aminoácidos. No final da comparação, o programa
mostra a porcentagem de semelhança entre as sequências e um valor de significância estatística sobre
aquela comparação.
Em bioinformática, essa comparação entre sequências é chamada de alinhamento. Vamos estudar com
detalhes os vários tipos de alinhamento de sequências possíveis nos próximos tópicos, mas, por agora,
vamos nos deter a à aplicação do BLAST no portal do NCBI.
Agora que você já sabe o que o BLAST é capaz de fazer, o próximo passo é entender como ele pode ser
aplicado no portal do NCBI. Esse programa foi criado por Stephen Altschul e colaboradores, em 1990, e hoje
é usado em vários bancos de dados que armazenam sequências biológicas.
Comparação
Em bioinformática, essa comparação entre sequências é chamada de alinhamento. Vamos estudar com
detalhes os vários tipos de alinhamento de sequências possíveis nos próximos tópicos.
Ao acessar o BLAST pelo portal do NCBI, você pode comparar uma sequência de nucleotídeos ou
09/03/2022 18:44 NCBI e alinhamento de sequências
https://stecine.azureedge.net/repositorio/00212sa/02925/index.html#imprimir 10/49
aminoácidos de seu interesse com todas as milhões de sequências armazenadas nos bancos de dados do
NCBI. Como resultado, você vai obter uma lista com as sequências do banco mais similares à sua. Essa
informação pode ser usada para descobrir sequências evolutivamente próximas, que tenham funções
relacionadas ou que pertençam a uma mesma “família” de genes.
Imagine que você esteja voltando do trabalho no ônibus exclusivo da empresa. De repente, começa
uma chuva muito forte, mas você não trouxe guarda-chuva. Uma pessoa do seu lado tem um reserva
e lhe empresta, mas, na correria, você saltou do ônibus e esqueceu de perguntar o nome da pessoa, e
precisará devolver o guarda-chuva.
Uma forma de encontrar essa pessoa é descrevendo suas características físicas ao motorista do
ônibus naquele dia. Pode ser que ele não saiba exatamente quem é, afinal, o fluxo de pessoas na
empresa é muito grande, mas ele poderia lhe dar uma “lista” com nomes de prováveis donos.
Grosso modo, podemos comparar todas as pessoas que usam o transporte da empresa às
sequências nos bancos de dados do NCBI. As características físicas que você descreveu ao
motorista seriam as regiões de similaridade que o BLAST encontra entre a sua sequência e as
sequências dos bancos de dados. Enfim, a lista de nomes do motorista pode ser comparada à lista
com as sequências que resultam da busca feita usando o BLAST.
Pesquisa e recuperação de dados
Como já sabemos, a ferramenta BLAST é uma das formas de acessar os dados armazenados em alguns
bancos do NCBI, e vamos agora explorar essa e outras alternativas. Convido você a me acompanhar nas
etapas que vou descrever, e você poderá vivenciar daí onde está uma parte prática da bioinformática.
Contextualizando nossas buscas, vamos supor que você esteja iniciando em um novo laboratório de
pesquisa sobre bactérias resistentes aos antibióticos. Para se inteirar do assunto, você precisa ler artigos
sobre esse tema. Uma das alternativas é usar o banco de dados PubMed.
Para isso, você deve seguir os seguintes passos:
Vamos fazer uma analogia à função do BLAST no NCBI. 
09/03/2022 18:44 NCBI e alinhamento de sequências
https://stecine.azureedge.net/repositorio/00212sa/02925/index.html#imprimir 11/49
Primeiro, acesse o PubMed pelo portal do NCBI (pubmed.ncbi.nlm.nih.gov/).
Em seguida, digite palavras-chave em inglês que envolvam o tema de interesse.
E, por último, selecione search (procurar) para buscar os resultados da pesquisa.
Após a busca, poderemos observar o número total de artigos recuperados sobre o tema e o período em
anos dessas publicações:
09/03/2022 18:44 NCBI e alinhamento de sequências
https://stecine.azureedge.net/repositorio/00212sa/02925/index.html#imprimir 12/49
Uma busca feita no dia 23 de julho de 2021 usando como palavras-chave “bacteria”, “resistance” e
“antimicrobial” resultou em 201.011 artigos, publicados entre 1945 e 2021.
Ao observarmos a quantidade de resultados encontrados, vemos que esse número é muito grande e muito
tempo seria gasto para ler toda essa bibliografia. Uma solução para diminuir o número de resultados de uma
busca inicial no PubMed é restringindo-a. Na mesma página que mostra o resultadoda busca, é possível
observar, do lado esquerdo, os filtros de pesquisa no PubMed; dentre eles, está disponibilidade do texto, tipo
de artigo e ano de publicação.
No caso do exemplo que estamos seguindo, ao filtrar a busca por textos completos e gratuitos (free full
text), o número de resultados diminui para 77.903. Isso acontece porque alguns artigos do PubMed são
liberados para leitura integral apenas mediante pagamento.
Uma busca ainda mais específica pode ser realizada ao clicarmos em Advanced (avançado), na página inicial
do PubMed. Dessa forma, é possível especificar as palavras-chave por campo de pesquisa.
Para isso, você precisa:
Escolher o campo de
pesquisa em “Adicione
termos à caixa de consulta”
(Add terms to the query box),
l “Tít l ”
Na caixa à frente, digitar as
palavras-chave; 
Clique em “Adicionar” (Add). 
09/03/2022 18:44 NCBI e alinhamento de sequências
https://stecine.azureedge.net/repositorio/00212sa/02925/index.html#imprimir 13/49
Alguns dos outros campos de pesquisa disponíveis são autor, data e nome da revista. Em um teste
especificando que as três palavras-chave do exemplo que estamos usando deveriam aparecer no título
artigo ao mesmo tempo. O resultado dessa busca avançada foram 9.413 artigos (na data pesquisada),
número bem menor do que o que estávamos vendo nos resultados das buscas anteriores.
Atenção
É importante que as palavras-chave sejam traduzidas para o inglês porque a maioria dos textos científicos
são publicados nesse idioma.
Após cada busca, uma lista de títulos de artigos é disponibilizada. Esses títulos aparecem na cor azul e são
hiperlinks para a página em que você vai encontrar mais informações sobre o artigo. Se o texto estiver
disponível de forma integral, nessa segunda página haverá um novo hiperlink para a revista na qual o artigo
foi publicado (full text link).
Os próximos bancos que vamos explorar serão GenBank e RefSeq. Como ambos armazenam sequências, a
forma de busca é semelhante. Podemos utilizar como ferramentas a busca textual ou a busca através do
BLAST.
Hiperlinks
Ligam aquela página em que você está à página em que você vai encontrar mais informações sobre o
artigo.
Busca textual
A primeira delas é a busca textual usando palavras-chave. A ferramenta textual implementada vai buscar por
como, por exemplo, “Título”
(Title);
09/03/2022 18:44 NCBI e alinhamento de sequências
https://stecine.azureedge.net/repositorio/00212sa/02925/index.html#imprimir 14/49
essas palavras nos descritores das sequências depositadas nos bancos de dados.
Suponha que, após ler a bibliografia relacionada às bactérias resistentes aos antibióticos, você tenha
percebido que uma das principais causas da resistência sejam bactérias produtoras de enzimas que
destroem essas moléculas. Uma dessas enzimas é chamada de KPC (Klebsiella pneumoniae
carbapenemase) e você pode encontrar a sequência de nucleotídeos do gene que codifica para essa enzima.
Para consultar nesses dois bancos, devemos:
Acessar o GenBank ou RefSeq pelo portal do NCBI: ncbi.nlm.nih.gov/genbank/;
Em seguida, digitar a palavra-chave relacionada à sua sequência de interesse;
E, por último, clicar no botão “Search”.
A palavra-chave de interesse pode ser o nome do gene ou a espécie, por exemplo. Como resultado da busca,
você vai encontrar uma lista de descritores de sequências depositadas no banco que contenham sua
palavra-chave.
Quem define o descritor da sequência é a pessoa que submeteu os dados ao NCBI.
Exemplo
Um exemplo de descritor que aparece para a pesquisa usando “KPC” como palavra-chave é “Escherichia coli
strain E02162 plasmid pE02162_KPC, complete sequence” (plasmídeo pE02162_KPC da cepa E02162 de
Escherichia coli, sequência completa).
Esses descritores aparecem na cor azul e são hiperlinks, ou seja, ligam aquela página em que você está à
página em que estão mais informações sobre aquela determinada sequência. Nessa nova página, é possível
saber o tamanho da sequência em pares de bases, quem foi o autor da submissão, se ela foi publicada em
algum artigo, dentre outras informações.
09/03/2022 18:44 NCBI e alinhamento de sequências
https://stecine.azureedge.net/repositorio/00212sa/02925/index.html#imprimir 15/49
O dado mais importante é a sequência em si, que possui download liberado, tanto para GenBank quanto para
RefSeq. A partir deste ponto, devemos realizar três etapas:
A maioria dos programas desenvolvidos por bioinformatas para trabalhar com dados de sequências de
nucleotídeos ou sequências de aminoácidos consegue “ler” o formato FASTA, um formato baseado em texto
para representar tanto sequências de nucleotídeos quanto sequências de aminoácidos usando códigos de
uma única letra.
As regras desse formato são que uma única linha, que comece com um colchete angular (>), contenha a
definição das sequências, e as próximas linhas sejam letras que correspondem a bases nitrogenadas (A, T, C
e G) ou aminoácidos (G, A, L, V, I, P, F, S, T, C, Y, N, Q, D, E, R, K, H, W e M). Portanto, se você for fazer o
download de uma sequência do GenBank ou RefSeq e deseja um arquivo de fácil utilização, escolha o
formato FASTA.
Formato
Formato de um arquivo é a forma como o dado deve ser armazenado para que determinado programa de
1 - Clicar em Send to. 2 - Selecionar File (arquivo) e
escolher o formato do
arquivo.
3 - Clicar em Create File (criar
arquivo).
09/03/2022 18:44 NCBI e alinhamento de sequências
https://stecine.azureedge.net/repositorio/00212sa/02925/index.html#imprimir 16/49
computador possa usá-lo. Formatos conhecidos de arquivos são DOC e XLS, usados pelos programas
Microsoft Word e Microsoft Excel, respectivamente.
Busca a partir do BLAST
Outra forma de buscar por sequências dentro dos bancos GenBank e RefSeq é usando a ferramenta BLAST.
Esse programa precisa de uma sequência pergunta, chamada de query, que será fornecida pelo usuário. A
partir dela, o BLAST realiza alinhamentos com todas as sequências do banco de dados com o objetivo de
encontrar sequências com regiões altamente similares e de alta confiança (subject). Veremos com detalhes
como isso é feito quando estudarmos alinhamento de sequências.
Como utilizar o PubMed, GenBank e
RefSeq
Neste vídeo, a especialista apresenta um passo a passo sobre como buscar por artigos no PubMed usando
palavras-chave e sequências no GenBank e RefSeq, utilizando os filtros de resultados e a busca avançada.
Falta pouco para atingir seus objetivos.
Vamos praticar alguns conceitos?

09/03/2022 18:44 NCBI e alinhamento de sequências
https://stecine.azureedge.net/repositorio/00212sa/02925/index.html#imprimir 17/49
Vamos praticar alguns conceitos?
Questão 1
Vimos que o NCBI controla o portal mais famoso da bioinformática que se propõe a reunir o resultado do
trabalho de pesquisadores ao redor do mundo em um só lugar. A partir disso, analise a frase a seguir: "O
NCBI mantém o PubMed, que é um (1) que serve para (2)." Qual opção completa corretamente os números
"1" e "2"?
A (1) banco de dados, (2) armazenar artigos científicos
B (1) programa para alinhamento, (2) comparar sequências biológicas
C (1) banco de dados, (2) armazenar sequências de nucleotídeos
D (1) programa para alinhamento, (2) armazenar artigos científicos
E (1) banco de dados, (2) armazenar estrutura tridimensional de proteínas
Parabéns! A alternativa A está correta.
O PubMed é um banco de dados de bibliografia da área biomédica, administrado e disponível no
portal do NCBI, que armazena artigos científicos publicados em milhares de revistas científicas.
Questão 2
Bancos de dados biológicos podem armazenar diferentes tipos de dados. O GenBank é um banco de dados
disponível no portal do NCBI, no qual podemos obter sequências de nucleotídeos. Qual das opções abaixo é
um formato disponível para armazenamento de sequências no GenBank?
A JPEG
B Docx
09/03/2022 18:44 NCBI e alinhamento de sequências
https://stecine.azureedge.net/repositorio/00212sa/02925/index.html#imprimir 18/49
2- Alinhamentos de sequências
Ao �nal deste módulo, você será capaz de distinguir os tipos de
alinhamentos de sequências biológicas disponíveis.
C PDF
D FASTA
E Texto
Parabéns! A alternativa D está correta.
O formato FASTA é o mais usado pelos programas de computador que manipulam sequências
biológicas primárias. É possível fazer o download da sequência nesse formato pelo GenBank.

09/03/2022 18:44 NCBI e alinhamento de sequências
https://stecine.azureedge.net/repositorio/00212sa/02925/index.html#imprimir 19/49
Alinhamento de sequências
Todas as milhões de sequências de nucleotídeos e aminoácidos que já estão depositadas em bancos de
dados são superimportantes. É possível usar essas sequências para, por exemplo, descobrir variações
dentro de uma espécie, identificar relações evolutivas entre espécies ou sugerir o papel de uma nova
proteína.
Essas inferências são feitas a partir de comparações, realizadas fundamentalmente pelo processo de
alinhamento de sequências.
O objetivo de um alinhamento é encontrar o maior número de resíduos similares ou
idênticos entre sequências biológicas primárias.
ilustração de sequenciamento de nucleotídeos.
No alinhamento, os resíduos iguais ficam um embaixo do outro, e em casos de divergências observamos
resíduos diferentes na mesma posição ou “buracos”. Em se tratando de sequências de DNA, os resíduos são
nucleotídeos, enquanto para proteínas os resíduos são os aminoácidos.
Considerando as sequências “ATGGC” e “AAGGC”, ambas possuem cinco nucleotídeos, e um alinhamento
entre elas iria mostrar uma porcentagem de identidade de 80% (4 em 5 bases nitrogenadas são idênticas e
uma é diferente, marcada em vermelho).
Em bioinformática, nos referimos às letras que representam os nucleotídeos na sequência de DNA como
bases. Isso acontece porque o que difere um nucleotídeo do outro na molécula de DNA é sua base
nitrogenada.
Agora, se vamos nos referir ao comprimento de uma sequência de DNA, a “medida” usada são pares de
bases (pb). Falamos em pares, pois o DNA é uma molécula de fita dupla.
Curiosidade
09/03/2022 18:44 NCBI e alinhamento de sequências
https://stecine.azureedge.net/repositorio/00212sa/02925/index.html#imprimir 20/49
Podemos dizer que o genoma humano (todo o conteúdo de DNA de uma célula humana) é formado por
mais de 3,2 bilhões de pares de bases.
Tipos de aplicações do alinhamento
Muitos programas de computador já foram e vêm sendo desenvolvidos com a função de realizar o
alinhamento de sequências. O objetivo geral é o mesmo, mas existem diferenças entre eles que precisamos
saber, pois isso ajuda na escolha da melhor opção para cada análise. Essas diferenças estão relacionadas à
exigência ao encontrar o melhor pareamento possível, à extensão que será alinhada e ao número de
sequências alinhadas.
Precisão do alinhamento
Como já mencionado, o objetivo dos programas de alinhamento de sequências é encontrar o melhor
pareamento possível, aquele que reflita o maior número de similaridade entre as sequências comparadas.
No entanto, o alinhamento “perfeito” leva tempo e poder computacional para ser alcançado. Por isso,
algumas ferramentas optam por acelerar o processo e buscam por uma aproximação do alinhamento ideal.
Usando esse critério, o programa de alinhamento pode ser do tipo ótimo ou do tipo heurístico. Vamos
conhecê-los?
Um software que execute o alinhamento ótimo fornece como resultado o melhor alinhamento possível entre
as sequências, de acordo com os seus critérios. Isso significa que usando essa mesma ferramenta você
não vai conseguir um resultado melhor, mesmo que você refaça milhares de vezes a comparação entre as
mesmas sequências. No entanto, encontrar o alinhamento perfeito pode se tornar inviável devido ao número
de comparações ou de sequências alinhadas. Esses casos exigiriam computadores com memória e
processadores poderosíssimos e levariam um tempo gigantesco para serem concluídos.
A opção para acelerar a comparação de sequências é adotar programas de alinhamento heurístico. Esse
09/03/2022 18:44 NCBI e alinhamento de sequências
https://stecine.azureedge.net/repositorio/00212sa/02925/index.html#imprimir 21/49
tipo de estratégia pega atalhos e não analisa todos os alinhamentos possíveis, contanto que isso não
prejudique significativamente a qualidade do resultado. Dessa forma, você vai encontrar uma comparação
adequada, mesmo que imperfeita. A ferramenta para alinhamento heurístico busca pela aproximação ao
alinhamento ideal e por isso é mais rápida. Fica mais fácil escolher pelo alinhamento ótimo ou heurístico
quando compreendermos as próximas características relevantes sobre o alinhamento de sequências.
Extensão alinhada
Existem duas formas de alinharmos sequências biológicas considerando sua extensão: alinhamentos
globais ou locais.
Alinhamento global
Um programa para alinhamento global vai parear os resíduos em toda a extensão das sequências, de
ponta a ponta. Essa abordagem é indicada quando pressupomos que as sequências são similares ao
longo de todo seu comprimento.
Se desejamos comparar a sequência de um mesmo gene em organismos diferentes dentro da mesma
espécie, é bem provável que as sequências se diferenciem em poucas posições devido a mutações
pontuais. Nesse caso, o alinhamento global é indicado.
Alinhamento local
Não considera o comprimento total da sequência, e vai alinhar as regiões mais similares. Esse tipo de
alinhamento é indicado quando as sequências são divergentes ou possuem comprimento diferente.
Imagine uma sequência de proteína recém-obtida. Por ser nova, ela pode não apresentar semelhança
significativa em todo o seu comprimento com sequências de um banco de dados de funções
conhecidas. A estratégia, então, é realizar o alinhamento local com as sequências desse banco e
encontrar similaridade com regiões curtas que sejam padrões relacionados às funções conhecidas,
como se fossem “blocos”.
As sequências curtas conservadas entre diferentes proteínas são chamadas de domínios.

09/03/2022 18:44 NCBI e alinhamento de sequências
https://stecine.azureedge.net/repositorio/00212sa/02925/index.html#imprimir 22/49
Comparação entre os alinhamentos global e local.
Vejamos, então, um exemplo com a aplicabilidade prática em conseguirmos diferenciar os alinhamentos
global e local e sabermos em quais situações usar cada um deles:
Exemplo
O domínio contendo repetições ricas em leucina (um aminoácido) é evolutivamente conservado em muitas
proteínas associadas à imunidade inata em plantas, invertebrados e vertebrados. Imagine que você esteja
estudando uma nova espécie de planta que foi encontrada na Floresta Amazônica. Nos seus estudos, você
obteve uma proteína que é muito produzida por essa espécie, mas, comparando a sequência completa de
aminoácidos dessa proteína (alinhamento global), você não encontra nenhuma outra sequência conhecida
similar. A opção é comparar blocos dessa sequência com outras pequenas partes de proteínas conhecidas
(alinhamento local). Se você encontrar uma região muito similar e essa região estiver relacionada a uma
função conhecida (domínio), você já pode sugerir um papel biológico para a sua proteína de estudo.
Número de sequências
Quanto ao número de sequências alinhadas, temos dois tipos de alinhamentos: simples e múltiplos. Vamos
conhecer agora cada um deles.
Alinhamento simples
Primeiro, vamos falar sobre o alinhamento simples, também chamado de par a par ou pairwise, quando
apenas duas sequências são comparadas.
Essa é a estratégia de alinhamento usada em bancos de dados de sequências biológicas, por exemplo. O
programa de busca por alinhamento implementado em um banco de dados vai realizar o pareamento entre a
“sequência-pergunta” de interesse do usuário com as sequências que estão no banco. O número de
alinhamentos simples que será feito é proporcional ao número de sequências armazenadas no banco de
dados, sempre par a par: sequência-pergunta + sequência do banco.
Quando fazemos o alinhamentode uma sequência contra um banco de dados, é esperado encontrarmos
várias sequências similares. No final podemos obter um grupo de sequências bem parecidas e é possível
converter os vários alinhamentos simples em um único alinhamento com todas elas.
09/03/2022 18:44 NCBI e alinhamento de sequências
https://stecine.azureedge.net/repositorio/00212sa/02925/index.html#imprimir 23/49
Alinhamento múltiplo
É a comparação de três ou mais sequências relacionadas para obter a correspondência ideal entre elas. O
resultado desse alinhamento permite a identificação de regiões que sejam conservadas entre todas as
sequências. Também é possível visualizarmos quais as diferenças na ordem dos resíduos, que
correspondem a mudanças evolutivas ocorridas ao longo dos anos.
É a partir desse tipo de alinhamento que a relação evolutiva entre os organismos pode ser sugerida, e assim
são geradas as árvores filogenéticas (parecidas com uma árvore genealógica).
Árvore filogenética do Micoplasma (bactérias da classe dos Mollicutes).
Na árvore filogenética, os galhos são as distâncias entre os organismos, as ramificações são os ancestrais
e as pontas os descendentes comparados.
Programas para alinhamento de
sequência
Antes de darmos exemplos reais de programas de computador que são usados para o alinhamento de
sequências, precisamos definir alguns termos usados para explicar o funcionamento dessas ferramentas.
Observe a imagem seguir que mostra um alinhamento simples entre duas sequências de nucleotídeos e
acompanhe as definições.
09/03/2022 18:44 NCBI e alinhamento de sequências
https://stecine.azureedge.net/repositorio/00212sa/02925/index.html#imprimir 24/49
Alinhamento simples de sequências de nucleotídeos.
Na figura, observamos algumas nomenclaturas. São elas: Match, Mismatch, Gap e uma pontuação. Vamos
entender o que cada uma delas significa?
Match
Posição no alinhamento em que o resíduo é o mesmo entre as sequências comparadas.
Podemos dizer que essas são posições conservadas.
Mismatch
Posição no alinhamento em que o resíduo é diferente entre as sequências comparadas.
Nesses casos, ocorreu uma mutação por substituição de nucleotídeo em uma das
sequências.
Gap
É um “espaço” em uma das sequências comparadas, causado pelo deslocamento de resíduos
dela em relação à outra sequência. É inserido pelo programa para melhorar o alinhamento e
encontrar mais similaridades. Esses espaços representam deleções ou inserções que as
sequências comparadas possam ter sofrido.
Pontuação (score)
09/03/2022 18:44 NCBI e alinhamento de sequências
https://stecine.azureedge.net/repositorio/00212sa/02925/index.html#imprimir 25/49
Basic Local Alignment Search Tool – BLAST
O programa BLAST é o programa para alinhamento de sequências mais popular. Ele se caracteriza por
realizar alinhamento simples, local e heurístico. Isso quer dizer que o BLAST sempre vai comparar as
sequências duas a duas, buscando por regiões similares entre elas, e o resultado vai ser próximo ao ideal.
Nós já falamos dele antes, pois ele está disponível no portal no NCBI como uma forma de buscar por
sequências dentro de seus bancos de dados. Agora, vamos ver com mais detalhes as funcionalidades do
BLAST.
Imagine que você possui a seguinte sequência de proteína “MRDPYNKLI” e deseja encontrar sequências
similares a ela dentro de um banco de dados de sequência. Essa sequência é chamada de “pergunta”, do
inglês query.
O BLAST irá dividir a sequência query em “palavras”, como, por exemplo, “MRD”, “PYN” e “KLI”. O próximo
passo é identificar todas as sequências do banco de dados que possuam uma dessas “palavras”.
Quando a região com a “palavra” é encontrada, ela é considerada uma semente (seed). A partir dela, o
alinhamento vai “brotando” (seeding), estendendo-se nas duas direções.
Procedimento do alinhamento pelo programa BLAST.
Saiba mais
O BLAST é considerado heurístico, porque ele não compara cada resíduo das sequências entre si. Ao invés
disso, cria uma lista de “palavras” curtas e a partir delas realiza o alinhamento, o que diminui o número de
comparações e acelera a obtenção do resultado. A velocidade do resultado do BLAST permite que seja
viável usá-lo para buscar por sequências similares em bancos enormes, com milhões de sequências.
Já que o BLAST não fornece o resultado perfeito, como saber se o seu resultado é confiável?
É o total do somatório de matches subtraídos do número de mismatches e gaps ao longo do
alinhamento. Cada alinhamento possui uma pontuação.
09/03/2022 18:44 NCBI e alinhamento de sequências
https://stecine.azureedge.net/repositorio/00212sa/02925/index.html#imprimir 26/49
Além de informações como a porcentagem de identidade, o programa também fornece um valor de
significância estatística para cada alinhamento, chamado de e-value (valor esperado, valor e).
O valor de e-value representa a probabilidade do alinhamento obtido a partir da busca
no banco de dados ter ocorrido ao acaso.
Se o e-value for alto, você pode entender que as sequências alinhadas não são próximas, que aquele mesmo
alinhamento poderia ter ocorrido com várias outras sequências no banco de dados aleatoriamente.
Quanto mais baixo for o e-value, mais significativa e confiável é aquela correspondência entre sequências
que você está analisando. 
Agora você pode estar se perguntando: e qual é esse valor ideal?
O valor ideal é o mais próximo possível de zero. De forma geral, se o valor de e-value é menor que 1 x 10-50,
esse é um alinhamento extremamente confiável. Quando o valor está entre 1 x 10-2 e 1 x 10-50, esse
alinhamento pode ser confiável.
Agora, se for algo entre 1 x 10-2 e 10, então você está olhando para um alinhamento sem significância.
O melhor valor de e-value, mais significativo estatisticamente, que você pode obter para um alinhamento
09/03/2022 18:44 NCBI e alinhamento de sequências
https://stecine.azureedge.net/repositorio/00212sa/02925/index.html#imprimir 27/49
com o BLAST, é 0,0.
Relembrando
O número negativo ao qual o 10 está elevado representa o número de casas decimais depois da vírgula, por
exemplo, 1 x 10-2 é igual a 0,01.
Existem algumas variações do programa, e por isso você pode ouvir falar de “família de programas BLAST”.
A diferença entre as variantes é qual o tipo de sequência biológica usada como query (nucleotídeos ou
aminoácidos), e qual tipo de sequência está no banco de dados, conforme demonstrado abaixo:
BLASTn
Faz buscas em um banco de dados de sequência de nucleotídeos usando como query uma sequência
também de nucleotídeos.
BLASTp
Usa sequências de aminoácidos (proteínas) para buscar correspondências dentro de um banco de dados de
proteínas.
BLASTx
Faz buscas em um banco de dados de proteínas usando como query uma sequência de nucleotídeos. Para
conseguir isso, antes da busca em si, a query é traduzida.
tBLASTn
Usa sequências de aminoácidos (proteínas) para buscar correspondências dentro de um banco de dados de
nucleotídeos. Para isso, as sequências do banco estão traduzidas.
tBLASTx
Essa variante traduz tanto a sequência query quanto as sequências no banco de dados. Faz buscas em um
banco de dados traduzido, usando como query uma sequência de nucleotídeos também traduzida.
Essas variações que realizam a tradução são úteis quando, por exemplo, você tem uma sequência de
09/03/2022 18:44 NCBI e alinhamento de sequências
https://stecine.azureedge.net/repositorio/00212sa/02925/index.html#imprimir 28/49
proteína e gostaria de saber a sequência do gene (DNA) que deu origem a ela (tBLASTn). Outra possibilidade
é quando a intenção é saber qual proteína será sintetizada a partir de determinada sequência de DNA
(BLASTx). Quando utilizar o BLAST, o usuário (você) vai escolher a forma de busca que mais atende ao seu
interesse de pesquisa. Vejamos um exemplo real de uso do BLAST.
Após um pesquisador sequenciar o genoma de uma bactéria, ele observou que um dos genes possuía a
sequência a seguir.
O interesse dele era descobrir qual a proteína que seriaproduzida a partir desse gene e qual a sua sequência
de aminoácidos. Para isso, ele optou pela opção BLASTx no portal do NCBI, como você observa na imagem
ao lado.
Após a inclusão dos dados, ele pesquisou no banco e o resultado mostrou que a sequência corresponde à
proteína chamada de BasR, cuja função é regular um sistema de dois componentes na espécie de bactéria
Escherichia coli.
A descrição dos resultados está ordenada pelo valor de e-value, onde os alinhamentos mais confiáveis
aparecem primeiro. Clicando no hiperlink para a descrição do alinhamento, você poderá visualizá-lo em
09/03/2022 18:44 NCBI e alinhamento de sequências
https://stecine.azureedge.net/repositorio/00212sa/02925/index.html#imprimir 29/49
detalhes.
Nesse alinhamento, você pode observar que o valor de e-value foi igual a 2 x 10-145, um alinhamento
extremamente confiável. A identidade entre a proteína traduzida a partir de seu gene em relação à proteína
no banco de dados foi igual a 99%, assim como a positividade.
Captura de tela demonstrando alinhamento local pela ferramenta BLAST®.
Positividade
Positividade é a similaridade entre as sequências. Para calcular esse valor são considerados tanto os
resíduos pareados que são idênticos quanto aqueles pareados que possuem propriedades parecidas
(tamanho, carga e hidrofobicidade). As bases nitrogenadas não são consideradas similares entre si, porém
alguns aminoácidos sim, como a treonina (T) e a serina (S), com cadeias laterais pequenas, polares e sem
carga.
Quando alinhamos aminoácidos, o valor de positividade pode ser superior à identidade em situações em
que os aminoácidos diferentes na mesma posição possuem características químicas parecidas, ou seja,
não são idênticos, mas são similares. Mas esse não foi o caso do exemplo mostrado. Conseguimos ver
também que nenhum gap foi introduzido pelo BLAST, pois não foi necessário.
Alinhamento de sequências com a
ferramenta BLAST
Assista a este vídeo, no qual a especialista demonstra o processo de alinhamento de sequências a partir do
banco de dados do NCBI e do uso da ferramente BLAST.

09/03/2022 18:44 NCBI e alinhamento de sequências
https://stecine.azureedge.net/repositorio/00212sa/02925/index.html#imprimir 30/49
Clustal
O Clustal é um programa que realiza alinhamento múltiplo e global de sequências biológicas de forma
heurística. Sendo assim, usamos esse programa quando queremos comparar três ou mais sequências ao
longo de toda sua extensão. Como não é viável garantir o resultado perfeito para esse tipo de comparação,
ele utiliza uma estratégia aproximada, igualmente heurística. Por ser global, as sequências alinhadas devem
ter cumprimentos semelhantes e ser evolutivamente relacionadas.
O Clustal é indicado, por exemplo, para comparar a sequência de aminoácidos da proteína histona
entre diferentes espécies, como homem, chimpanzé, camundongo, rato e vaca. Essa é a principal
proteína que compõe o nucleossomo dos organismos eucariotos e, portanto, vai ter a mesma função
em todas essas espécies. Para conservar a função, a sequência de aminoácidos precisa ser bem
parecida, diferindo em apenas alguns pontos, devido a diferentes “caminhos” evolutivos que as
espécies tomaram. Essa semelhança possibilita usar um programa que realize um alinhamento
global, e como estamos comparando cinco sequências diferentes, ele também é caracterizado como
múltiplo.
O alinhamento múltiplo realizado pelo Clustal começa a ser feito a partir de vários alinhamentos simples,
para todos os pares possíveis entre as sequências comparadas. Observe a seguir para entender como
funciona este processo:
Procedimento do alinhamento feito pelo programa Clustal.
Cl t l t f t d li h t últi l ã li d d d t
Mas, então, de que forma podemos usar o Clustal? 
09/03/2022 18:44 NCBI e alinhamento de sequências
https://stecine.azureedge.net/repositorio/00212sa/02925/index.html#imprimir 31/49
Clustal e outras ferramentas de alinhamento múltiplo são aplicadas quando queremos responder perguntas
do tipo: qual a região conservada entre as proteínas que são receptores celulares? Quem é mais próximo
evolutivamente quando eu comparo homem, chimpanzé e orangotango? Qual seria o alvo ideal de um primer
de PCR (Reação em Cadeia da Polimerase) para detectar o mesmo gene em diferentes espécies?
Como resposta, você poderia encontrar que uma região rica em aminoácidos hidrofóbicos está presente em
todas as sequências de proteínas receptoras que você alinhou, o que faz sentido, já que elas precisam
atravessar a membrana plasmática para se “firmar”. Comparando a sequência de nucleotídeos do RNA
ribossômico de homem, chimpanzé e orangotango, você poderia verificar que a sequência do chimpanzé é
mais similar à humana, e, portanto, o orangotango seria o mais “antigo” evolutivamente. Agora, a resposta
da última pergunta será respondida quando estudarmos os primers, em breve!
A seguir, vemos um quadro comparativo dos principais programas de alinhamento por nós estudados.
Programa Precisão
Extensão
alinhada
Número de
sequências
BLAST Heurístico Local Simples
Clustal Heurístico Global Múltiplo
Quadro: Principais programas de alinhamento de sequência e suas características.
Elaborado por: Melise Silveira.
Falta pouco para atingir seus objetivos.
Vamos praticar alguns conceitos?
Questão 1
Imagine que você precise comparar, a partir do alinhamento de sequências, 1000 sequências de proteínas
com 580 aminoácidos cada uma. Qual tipo de programa de alinhamento seria recomendado neste caso?
A Simples e local
B Múltiplo e heurístico
09/03/2022 18:44 NCBI e alinhamento de sequências
https://stecine.azureedge.net/repositorio/00212sa/02925/index.html#imprimir 32/49
C Simples e heurístico
D Simples e ótimo
E Múltiplo e ótimo
Parabéns! A alternativa B está correta.
A comparação de 3 ou mais sequências é feita por alinhamento múltiplo. O resultado perfeito
entre muitas sequências é inviável computacionalmente devido ao número de comparações ou de
sequências alinhadas. Assim, o alinhamento heurístico, que busca pela aproximação ao
alinhamento ideal, é o mais rápido e indicado neste caso.
Questão 2
A comparação de sequências biológicas por meio de alinhamento utilizando o programa BLAST é feita de
que maneira?
A Alinhamento simples e global
B Alinhamento múltiplo e global
C Alinhamento simples e local
D Alinhamento múltiplo e local
E Alinhamento simples e múltiplo
Parabéns! A alternativa C está correta.
09/03/2022 18:44 NCBI e alinhamento de sequências
https://stecine.azureedge.net/repositorio/00212sa/02925/index.html#imprimir 33/49
3 - Os Primers
Ao �nal deste módulo, você será capaz de aplicar o conhecimento
sobre primers no desenho dessas sequências usando programas de
computador.
Primers: de�nições e aplicações
Uma das aplicações do alinhamento múltiplo é a identificação de uma região comum a diferentes
sequências. Essas sequências podem, por exemplo, corresponder a um mesmo gene em espécies distintas.
Vamos pensar no caso do gene RNAr 16S, que codifica para uma pequena subunidade do RNA ribossômico
de bactérias. Todos os organismos que pertencem ao domínio Bacteria possuem esse gene. No entanto, ao
longo de milhões de anos, as diferentes espécies evoluíram sob variadas condições, e o RNAr 16S sofreu
O BLAST realiza um alinhamento simples, local e heurístico. Isso quer dizer que o BLAST sempre
vai comparar as sequências duas a duas, buscando por regiões similares entre elas, e o resultado
vai ser próximo ao ideal.

09/03/2022 18:44 NCBI e alinhamento de sequências
https://stecine.azureedge.net/repositorio/00212sa/02925/index.html#imprimir 34/49
algumas mutações.
Se a minha pergunta for “qual região permanece conservada no gene RNAr 16S de diferentes espécies
bacterianas?”, posso respondê-la a partir de um alinhamento múltiplo desses genes, a partir do programa
Clustal.
Além disso, após definir uma região de interesse específica no DNA, podemos detectá-la a partir da Reação
em Cadeia daPolimerase (PCR). A PCR é uma técnica desenvolvida para amplificar uma determinada região
do DNA, fazendo várias cópias desse local. Dentre os reagentes necessários para que a reação aconteça,
destacam-se a enzima DNA polimerase (que sintetiza os novos fragmentos de DNA), moléculas de DNA
extraídas da amostra (DNA molde) e os primers.
Os primers são pequenas sequências de nucleotídeos utilizados na PCR para indicar a
região do DNA que será copiada. Essas sequências irão se ligar, de forma
complementar, às extremidades da região de interesse, demarcando onde a DNA
polimerase deve começar seus trabalhos.
Em uma PCR convencional, dois primers são utilizados, ligando-se em posições diferentes, que “cercam” a
região alvo.
Pareamento de um par de primers a uma região alvo no DNA molde.
09/03/2022 18:44 NCBI e alinhamento de sequências
https://stecine.azureedge.net/repositorio/00212sa/02925/index.html#imprimir 35/49
Suponha que a região de interesse seja aquela conservada no gene RNAr 16S de diferentes espécies
bacterianas. Essa parte do DNA pode ser utilizada para desenvolver primers capazes de detectar bactérias
presentes em diferentes tipos de amostras, como solo, água e fezes.
Já sabemos que a sequência de nucleotídeos dos primers deve ser complementar ao local que queremos
que eles se liguem. Se na região alvo existe a sequência CCGCC, para que um primer se ligue a ela, sua
sequência deve ser GGCGG.
Na imagem abaixo, vemos que entre as posições 890 e 1000 (indicadas pelas setas vermelhas),
aproximadamente, temos uma região parcialmente conservada (o asterisco é usado para indicar que a base
é a mesma entre as sequências comparadas naquela posição).
Captura de tela com parte do alinhamento múltiplo de sequências do gene RNAr 16S de diferentes espécies bacterianas.
Parâmetros
Além de ser complementar ao DNA alvo, existem outros parâmetros importantes dos primers para que eles
possam cumprir sua função de forma eficiente: tamanho do produto, comprimento, conteúdo de bases
guanina e citosina, temperatura de melting e temperatura de anelamento. Vamos conhecê-los?
Tamanho do produto
O tamanho da região amplificada a partir da PCR, também chamado de tamanho do produto, é uma
informação muito importante. Esse valor pode ser calculado subtraindo a primeira posição à qual o primer 1
se liga da primeira posição à qual o primer 2 se liga. O primer 1, chamado de senso ou forward, se liga no
início da região a ser amplificada, enquanto o primer 2, chamado de antissenso ou reverse, se liga ao final.
Exemplo
Se o primer senso começa na base 50 do gene e o primer antissenso começa na base 300, então o tamanho
do produto amplificado será 250 pares de bases (300-50 =250).
Podemos conferir esse tamanho após a eletroforese, técnica usada para separar fragmentos de DNA de
acordo com seu peso molecular.
09/03/2022 18:44 NCBI e alinhamento de sequências
https://stecine.azureedge.net/repositorio/00212sa/02925/index.html#imprimir 36/49
Para isso, o produto que sai da máquina da PCR é aplicado em um gel de agarose e sofre ação de uma
corrente elétrica, que empurra os fragmentos de DNA do polo negativo para o polo positivo. Quanto menos
pares de bases possui um fragmento, mais leve ele é, e mais rápido ele migra pelo gel. Ao contrário,
fragmentos com muitos pares de bases são mais pesados e migram de forma mais lenta.
Fragmentos de DNA separados por eletroforese.
Estimamos o tamanho do fragmento amplificado usando como referência o marcador de peso molecular
(solução adquirida pelo laboratório que contém diferentes fragmentos de DNA com tamanhos já definidos).
O tamanho ideal do produto da PCR está entre 150 e 1.000 pares de bases (pb). Fragmentos muito
pequenos podem ser confundidos com restos de primers que não se ligaram ao alvo e aparecem no final do
gel da eletroforese. Por outro lado, se a região amplificada for muito grande, a DNA polimerase pode não
conseguir adicionar todos os nucleotídeos necessários, e nesses casos a PCR não vai funcionar.
Comprimento
O primer pode também ser chamado de oligonucleotídeo, ou seja, um fragmento curto de uma cadeia
simples de ácido nucleico.
Mas o quão curta deve ser a sequência de um primer?
Resposta
O comprimento deve variar entre 18 e 24 bases. Um primer muito curto, com menos de 18 bases, é
considerado inespecífico, podendo se ligar em diferentes posições no DNA molde.
Você pode imaginar que a chance de encontrar a sequência CCGCC aleatoriamente ao longo de um DNA é
maior, quando comparada à chance de encontrar a sequência CCGCCTGGGGA. Portanto, existe um tamanho
mínimo para “garantir” que o primer vai se ligar somente na região que você deseja.
Existe um limite superior para o tamanho dos primers, de cerca de 24 bases. Esse limite é estabelecido, pois
primers muito longos tendem a se combinar com si mesmos, em estruturas secundárias. Uma estrutura
secundária conhecida que um primer longo pode assumir é chamada de “grampo”, do inglês hairpin.
O comprimento muito longo também aumenta a chance de um primer se combinar com outro, o que
09/03/2022 18:44 NCBI e alinhamento de sequências
https://stecine.azureedge.net/repositorio/00212sa/02925/index.html#imprimir 37/49
chamamos de dímeros de primers. Os dois casos diminuem a chance de ligação do primer à região alvo do
DNA molde, e, portanto, também torna a PCR menos produtiva.
Primers formando estrutura secundária (hairpin) e dímeros.
Na imagem ao lado, vemos as estruturas secundárias ocasionadas pelo alinhamento errado dos primers.
Conteúdo de bases guanina e citosina (GC)
O conteúdo GC é a porcentagem das bases nitrogenadas guanina (G) e citosina (C) ao longo da sequência
de DNA. Se a soma de G mais C ao longo de um primer com 20 bases de comprimento é igual a 10, então o
conteúdo GC dele é igual a 50%.
As bases guanina e citosina ligam-se por meio de três pontes de hidrogênio, diferente de adenina (A) e
timina (T), que se ligam por duas. Por isso, uma quantidade maior de energia está envolvida na ligação G+C,
ela é mais “forte”.
Pontes de hidrogênio entre as bases nitrogenadas que compõem os nucleotídeos.
Atenção
A porcentagem ideal de GC para um primer deve estar entre 40% e 60%. Estabelecer um limite mínimo (40%)
permite que o primer se ligue ao alvo com mais força, trazendo estabilidade para o pareamento. O limite
máximo (60%) é necessário, pois altas porcentagens de GC demandam muita energia para a ligação, e ela
pode não acontecer.
A energia envolvida na ligação entre as bases influencia diretamente no cálculo da temperatura de
09/03/2022 18:44 NCBI e alinhamento de sequências
https://stecine.azureedge.net/repositorio/00212sa/02925/index.html#imprimir 38/49
anelamento.
A temperatura de anelamento da PCR é a segunda etapa de cada ciclo dessa reação.
Desnaturação
Esta é a primeira etapa da PCR, ocorre entre 90°C e 96°C, quando a dupla fita do DNA se desfaz.
Anelamento
Depois disso, ocorre o anelamento dos primers, quando a temperatura cai entre 50°C e 60°C.
Extensão (DNA Polimerase)
A última etapa do ciclo é a síntese do fragmento de DNA pela ação da DNA polimerase. A polimerase
especial usada na PCR (Taq DNA polimerase), que resiste a altas temperaturas sem perder sua função,
trabalha de forma ideal a 72°C
09/03/2022 18:44 NCBI e alinhamento de sequências
https://stecine.azureedge.net/repositorio/00212sa/02925/index.html#imprimir 39/49
trabalha de forma ideal a 72 C.
O valor da temperatura de anelamento é calculado dependendo da sequência de bases dos primers usados.
Tanto o conteúdo GC quanto o comprimento é importante nessa conta.
Reações de PCR diferentes, com alvos diferentes e, portanto, com sequência dos
primers diferente, terão cada uma sua temperatura de anelamento própria.
O nosso próximo passo é entender como é calculada essa temperatura. Uma vez definida, o profissional
deve usá-la para programar a máquina usada para PCR, chamada termociclador.
Temperatura de melting (Tm)
Temperatura de melting (Tm) é aquelaem que metade dos primers estão ligados ao seu alvo na fita de DNA
molde e a outra metade está livre na solução. A Tm é importante, pois a temperatura de anelamento dos
primers é calculada com base nesse valor. O anelamento também pode ser chamado de hibridização, pois é
nessa etapa que os primers vão se ligar à região complementar no DNA alvo.
O cálculo da Tm depende da sequência de bases do primer, portanto, cada primer do par vai ter a sua Tm. A
maneira mais simples de calcular esse valor é a partir da seguinte fórmula:
Tm = 4(G+C) + 2(A+T)
Nesse cálculo, os dois parâmetros que mais influenciam são o conteúdo GC do primer e seu comprimento.
Conteúdo – quanto maior a porcentagem de GC, maior será a Tm, pois mais energia está envolvida na
ligação entre essas duas bases.
Comprimento – quanto mais bases, mais energia de ligação é demandada para que todas elas se liguem ao
DNA alvo e, assim, mais elevada será a Tm.
Temperatura de melting
Traduzindo para o português, podemos chamar de “ponto de fusão médio”.
Temperatura de anelamento (Ta)
Por fim, chegamos na temperatura de anelamento (Ta), aquela que permite que os primers se liguem à sua
09/03/2022 18:44 NCBI e alinhamento de sequências
https://stecine.azureedge.net/repositorio/00212sa/02925/index.html#imprimir 40/49
sequência complementar no DNA alvo. A Ta é calculada subtraindo 5°C, a partir da fórmula:
Ta = Tm-5
O valor da Ta deve estar entre 50°C e 60°C.
Baixas temperaturas de anelamento correspondem a primers com ligações mais
fracas e menos específicas. Por outro lado, Ta muito elevadas tornam a PCR pouco
eficiente, pois o primer pode não se ligar.
Outro ponto muito importante é que a Ta dos dois primers do par (senso e antissenso) devem ser próximas,
diferindo no máximo em 5°C. Quando você for programar o aparelho termociclador para realizar a PCR, você
só informa uma Ta e, portanto, ela deve servir para os dois primers usados naquela reação.
Agora que aprendemos todos os parâmetros, vamos a um exemplo.
Supondo as sequências de primers a seguir, avalie-as com base nos parâmetros vistos até agora:
comprimento, conteúdo GC, Tm e Ta.
Primer 1 -> 5’-TAGCGCGTAGCGATGCGATG-3’
Primer 2 -> 5’-ATGTTCGATCGAGCTGACGC-3’
1. Ambos possuem 20 bases, sendo:
Primer 1: oito bases G, quatro bases C, quatro bases T e quatro bases A.
Primer 2: seis bases G, cinco bases C, cinco bases T e quatro bases A.
2. Conteúdo GC do primer 1 é 60% e do primer 2 é 55%.
Vamos considerar que as 20 bases no primer são iguais a 100%. Em seguida, devemos contar as
bases G e C do primer 1. Assim, vemos que oito bases são do tipo G e quatro são do tipo C,
totalizando 12 bases. Ao aplicar uma simples regra de 3, achamos 60% de conteúdo GC.
20 ---- 100%
Vamos entender como ? 
09/03/2022 18:44 NCBI e alinhamento de sequências
https://stecine.azureedge.net/repositorio/00212sa/02925/index.html#imprimir 41/49
12 ----- X (%)
X = 60%
Ao contar as bases do primer 2, vemos que seis bases são do tipo G e cinco do tipo C, totalizando 11
bases. Aplicando a regra de três, agora temos que o conteúdo GC no primer 2 é 55%.
20 ---- 100%
11 ----- X (%)
X = 55%
3. Ao calcular a Tm pela fórmula, temos:
Primer 1:
Tm= 4(8+4) + 2(4+4)
Tm= 4(12) + 2(8)
Tm = 64°C
Primer 2:
Tm= 4(6+5) + 2(5+4)
Tm= 4(11) + 2(9)
Tm = 62°C
4. Ao calcular a Ta de cada primer, pela fórmula, temos:
Primer 1 (Tm: 64ºC):
Ta = 64 - 5
Ta = 59°C
Primer 2 (Tm: 62ºC):
Ta = 62 - 5
09/03/2022 18:44 NCBI e alinhamento de sequências
https://stecine.azureedge.net/repositorio/00212sa/02925/index.html#imprimir 42/49
Ta = 57°C
Por esses critérios, os primers estão adequados para que a PCR seja eficiente e específica.
A eficiência está relacionada ao número de “cópias” da região alvo do DNA que será feito por ciclo de PCR,
enquanto a especificidade garante que a região copiada seja realmente a que você deseja, e não outra
qualquer.
Exemplo
Se você espera copiar uma região conservada do gene RNAr 16S, a intenção é que apenas essa região seja
amplificada. Se você espera conseguir 1 milhão de cópias dessa região, quanto mais próximo a sua PCR
chegar desse número, mais eficiente ela será.
Um trabalho minucioso deve ser feito para escolher qual será a sequência dos primers e garantir que ambas
atendam aos parâmetros necessários. A boa notícia é que podemos contar com programas de computador
para realizar esse trabalho!
Softwares usados para desenho de primers
Programas de computador foram desenvolvidos para testar muitas combinações de primers e fornecer
como resultado apenas os mais adequados.
A qualidade dos primers é melhor quando usamos esses programas, comparada à qualidade daqueles
escolhidos e testados manualmente pelo profissional. É importante que você saiba como utilizar essas
ferramentas, pois isso irá poupar seu tempo e garantir resultados melhores para suas análises.
A primeira coisa que todo programa para desenho de primers precisa é a sequência de bases no DNA molde.
Como os primers são complementares à sequência molde, essa informação se torna indispensável. Se você
espera que uma carta chegue exatamente ao remetente esperado, então você precisa dizer o endereço
completo. O endereço para os primers é a sequência no DNA molde onde eles devem se ligar. Essas
sequências moldes podem ser obtidas em bancos de dados biológicos de sequências de nucleotídeos,
09/03/2022 18:44 NCBI e alinhamento de sequências
https://stecine.azureedge.net/repositorio/00212sa/02925/index.html#imprimir 43/49
como GenBank e RefSeq, disponíveis no portal do NCBI.
Depois de fornecer a sequência molde, você irá definir os parâmetros que acabamos de discutir.
Saiba mais
Existem diferentes programas usados para o desenho de primers, e eles diferem em relação a quais
parâmetros são usados como critério de seleção, facilidade de uso e o fato de ser gratuito ou pago, por
exemplo.
Vamos usar como exemplo o software Primer3, disponível gratuitamente na Internet.
Na página inicial do programa, você deve colar a sequência do DNA molde (1). Depois, você seleciona as
opções para desenho de primers senso e antissenso (2). Na figura a seguir, conseguimos observar onde
entramos com esses parâmetros. Observe a seta verde (local para colocarmos o DNA molde) e as setas
amarelas (local de desenhos de primers senso e antissenso).
Você pode (mas não precisa) customizar os parâmetros considerados pelo Primer3. Dentre eles, estão:
Tamanho do produto (Product Size Ranges);
Comprimento dos primers (Primer Size);
Temperatura de melting (Primer Tm);
Conteúdo GC (Primer GC%).
Também é possível especificar qual região deseja incluir no fragmento que será amplificado (Targets) ou
definir qual região não deve estar incluída nele (Excluded Regions). Outros parâmetros menos usados
também estão disponíveis. Para saber o que significa cada um deles, é só clicar em cima do hiperlink no
portal do programa.
09/03/2022 18:44 NCBI e alinhamento de sequências
https://stecine.azureedge.net/repositorio/00212sa/02925/index.html#imprimir 44/49
Captura de tela com parte do alinhamento múltiplo de sequências do gene RNAr 16S de diferentes espécies bacterianas.
Vamos usar como exemplo a sequência do gene RNAr 16S de bactérias, que vimos anteriormente. Com
base no resultado do alinhamento múltiplo de sequências desse gene em quatro espécies bacterianas
diferentes (Escherichia coli, Klebsiella pneumoniae, Staphylococcus aureus e Neisseria gonorrhoeae), escolhi
a região conservada entre as posições 890 e 1000 como alvo.
A sequência abaixo é uma das quatro presentes no alinhamento múltiplo da imagem que acabamos de ver.
Todas foram copiadas do GenBank. Vamos usar a sequência da espécie S. aureus como molde para
desenhar os primers.
Sequência do S. aureus.
Primeiro, a sequência molde é copiada para o retângulo em branco. Dentre os parâmetros do Primer3,
vamos especificar a região que desejamos incluir no fragmento amplificado: posição 970 mais 60 bases à
frente (Targets: 970,60). Essaregião foi escolhida por ser conservada, sem muitas diferenças entre as
espécies comparadas. Vamos especificar também o tamanho do produto (150-180pb), para que os primers
pareiem perto da parte conservada, evitando, assim, as regiões muito variáveis (Product Size Range: 150-
180). Feito isso, é só selecionar a opção “Escolher Primers” (Pick Primers).
09/03/2022 18:44 NCBI e alinhamento de sequências
https://stecine.azureedge.net/repositorio/00212sa/02925/index.html#imprimir 45/49
Como resultado obtido ao final desse processo, o Primer3 mostra o par de primers mais adequado e, no final
da página, existe a sugestão de outros pares.
Sobre os parâmetros que os primers devem seguir, verificamos que todos eles estão dentro dos valores
recomendados.
1. Comprimento (len): 20pb;
2. Tm: 60°C para ambos os primers;
3. Conteúdo GC: 50% para ambos os primers;
4. Tamanho do produto (product size): 169pb.
Além dos parâmetros que discutimos, o Primer3 também prioriza outros dois: any e 3’, que se referem à
tendência dos primers se ligarem com eles mesmos ou formar estruturas secundárias. Valores positivos
são considerados aceitáveis, pois indicam baixa tendência dos primers manterem essas combinações que
prejudicam a eficiência da reação de PCR.
Desenho de primers usando o Primer3
Neste vídeo, demonstramos como você pode utilizar o Primer3, usando como ponto de partida a sequência
de um gene obtido em banco de dados.

09/03/2022 18:44 NCBI e alinhamento de sequências
https://stecine.azureedge.net/repositorio/00212sa/02925/index.html#imprimir 46/49
Falta pouco para atingir seus objetivos.
Vamos praticar alguns conceitos?
Questão 1
A Reação em Cadeira da Polimerase (PCR) utiliza etapas com variação de temperatura que são repetidas
várias vezes, em ciclos. As características dos primers usados na PCR influenciam mais diretamente na
temperatura de qual etapa do ciclo?
A Desnaturação
B Extensão
C Anelamento
D Melting
E Fusão
Parabéns! A alternativa C está correta.
O anelamento é quando o primer se liga à sequência correspondente no DNA molde. Essa ligação
depende da sequência de bases e do tamanho dos primers, principalmente.
Questão 2
Primers ou iniciadores são sequências de nucleotídeos que se ligam de forma complementar a um DNA
molde e permitem que a replicação aconteça. Na PCR, eles indicam a região do DNA molde que será
amplificada, pois cada um dos primers se liga a uma das extremidades do molde. Um dos fatores que
contam para que a PCR seja eficiente são as características dos primers. Qual das opções abaixo é um
parâmetro importante dos primers, que contribui para que a PCR aconteça de forma adequada?
A Os primers devem ter conteúdo de GC de cerca de 90%.
09/03/2022 18:44 NCBI e alinhamento de sequências
https://stecine.azureedge.net/repositorio/00212sa/02925/index.html#imprimir 47/49
Considerações �nais
Muitas perguntas biológicas podem ser respondidas usando-se apenas computadores, programas e fonte
de dados adequados. Ir para a bancada, pipetar e preparar substâncias é essencial para alcançar respostas,
mas o caminho pode ficar muito mais curto se usarmos as possibilidades que a bioinformática nos
apresenta.
Agora você já sabe onde obter artigos científicos e sequências biológicas, comparar essas sequências e
também usá-las para o desenvolvimento dos testes moleculares como a PCR. A partir deste momento, você
está ainda mais preparado para se formar como um profissional completo e atualizado!
Podcast
B Os primers devem apresentar temperatura de melting inferior a 50°C.
C O comprimento dos primers deve variar entre 30 e 90 pares de bases.
D Os primers devem apresentar temperatura de anelamento superior a 72°C.
E A temperatura de anelamento de cada primer do par deve ser bem próxima.
Parabéns! A alternativa E está correta.
Apenas uma temperatura de anelamento (Ta) é informada no momento de programar o
termociclador, portanto, os dois primers do par devem possuir Ta próxima, com no máximo 5°C de
diferença.


09/03/2022 18:44 NCBI e alinhamento de sequências
https://stecine.azureedge.net/repositorio/00212sa/02925/index.html#imprimir 48/49
Podcast
Antes de encerrarmos, ouça este podcast, no qual a especialista fala sobre o crescimento do NCBI e de seus
bancos de dados nos últimos anos, as aplicações do alinhamento de sequências e explica o que são
primers degenerados.
Referências
DIEFFENBACH, C. W.; LOWE, T. M. J.; DVEKSLER, G. S. General Concepts for PCR Primer Design. Genome
Res. 1993 Dec;3(3):S30-7.
NATIONAL CENTER FOR BIOTECHNOLOGY INFORMATION. Consultado na Internet em: 16 jul. 2021.
PROSDOCIMI, F. Introdução à Bioinformática. Biotecnologia – Ciência e Desenvolvimento. Curso On-line.
São Paulo: USP, 2007. Consultado na Internet em: 16 jul. 2021.
SILVA, S. A.; NOTARI, D. L.; DALL’ALBA, G. Bioinformática: contexto computacional e aplicações. 1. ed. Caxias
do Sul: Educs. 2020.
WATUGULY, T. W.; SAMSURIA, I. K.; ASTUTI, P.; NURINGTYAS, T. R.; WIJAYANTI, N.; WAEL, S. The Analysis of
Primer Gene of Phosphodiesterase Type 5 (PDE5) on Erectile Dysfunction. Open Journal of Applied
Sciences, 2018, 8, 398-410.
WU, F. et al. A new coronavirus associated with human respiratory disease in China. Nature. Publicado em: 3
fev. 2020. Consultado na Internet em: 16 jul. 2021.
XIONG, J. Essential Bioinformatics. 1. ed. Cambridge, England: Cambridge University Press, 2006.
Explore +
Para saber mais sobre os assuntos tratados neste conteúdo:
09/03/2022 18:44 NCBI e alinhamento de sequências
https://stecine.azureedge.net/repositorio/00212sa/02925/index.html#imprimir 49/49
Explore a playlist “Alinhamento de sequências”, no canal do YouTube OnlineBioinfo Bioinformática.
Leia o artigo “Desenho e Validação de Primers In Silico para Detecção do Vírus Sincicial Respiratório
Humano”, de Jackson Alves da Silva Queiroz e colaboradores, e acompanhe um exemplo real de desenho
de primers.
 Baixar conteúdo
javascript:CriaPDF()

Continue navegando