Micologia e Virologia estacio 4

Outros

Paola Azusa

em 24/08/2025

Questões resolvidas

A bioinformática organiza e acessa grandes volumes de dados biológicos produzidos por tecnologias modernas, contribuindo para avanços no conhecimento científico e no desenvolvimento de novas metodologias.
Qual a principal função de plataformas como o NCBI no campo da bioinformática?
A Armazenar dados biológicos e possibilitar sua análise e seu compartilhamento.
B Criar novos genes sintéticos para aplicação em biotecnologia.
C Desenvolver ferramentas exclusivamente para o sequenciamento genético.
D Patrocinar pesquisas científicas em biotecnologia ao redor do mundo.
E Monitorar e controlar o uso de dados biológicos para fins comerciais.

O acesso a bancos de dados biológicos e literários contribui significativamente para o desenvolvimento da ciência.
Por que o compartilhamento de sequências biológicas em bancos de dados como o GenBank é importante para a ciência?
A Porque o GenBank armazena informações apenas sobre organismos humanos, facilitando estudos específicos sobre a espécie humana.
B Porque o GenBank oferece acesso gratuito a sequências de DNA de diversos organismos, permitindo que cientistas de todo o mundo colaborem e comparem dados para avanços na pesquisa científica.
C Porque o GenBank só armazena sequências de DNA de bactérias, limitando o estudo de organismos mais complexos.
D Porque as sequências de DNA no GenBank são acessíveis apenas para cientistas do NCBI, restringindo a troca de informações.
E Porque o GenBank armazena apenas informações sobre genes de resistência a antibióticos, determinantes para o desenvolvimento de novos medicamentos.

Ferramentas e bancos de dados em bioinformática são importantes elementos da análise de informações biológicas.
Qual é a principal vantagem de utilizar o BLAST para a comparação de sequências biológicas?
A Geração de novas sequências evolutivamente distintas.
B Identificação de sequências com maior taxa de mutação.
C Organização de sequências biológicas em bancos de dados exclusivos.
D Criação de novas variantes genéticas em laboratório.
E Descoberta de sequências similares e suas possíveis funções.

Ferramentas como o PubMed, GenBank e RefSeq permitem acesso e análise de dados biológicos e literários, utilizando estratégias de busca específicas que facilitam a recuperação de informações úteis.
Qual é a principal vantagem de usar filtros ou busca avançada em bancos de dados como PubMed ou GenBank?

Após a leitura do caso, é hora de aplicar seus conhecimentos!
Qual a principal razão para Maria utilizar filtros no PubMed durante sua busca de literatura?
A Garantir que todos os artigos sejam de autores reconhecidos.
B Reduzir a quantidade de artigos irrelevantes para o seu tema de pesquisa.
C Restringir a busca apenas a artigos publicados em revistas específicas.
D Evitar artigos que contenham erros científicos.
E Garantir que apenas artigos revisados por pares sejam exibidos.

Como o BLAST pode complementar a análise de Maria e quais são as implicações práticas de encontrar genes similares em outras espécies bacterianas?

O alinhamento de sequências biológicas é uma ferramenta significativa na genética, especialmente na análise de sequências de DNA, RNA e proteínas.
Qual é o principal objetivo do alinhamento de sequências biológicas?
A Determinar a estrutura tridimensional de proteínas.
B Substituir nucleotídeos divergentes em uma sequência.
C Estimar o comprimento total de um genoma.
D Identificar o maior número de resíduos similares ou idênticos entre sequências.
E Medir a taxa de mutação de uma sequência ao longo do tempo.

Alinhamentos de sequências biológicas comparam e interpretam dados genéticos, permitindo análises detalhadas de similaridades, diferenças e relações evolutivas entre moléculas e organismos.
Qual fator deve ser considerado ao escolher entre alinhamento global e local para análise de sequências biológicas?
A O comprimento total do genoma das espécies analisadas.
B A similaridade esperada ao longo de toda a extensão das sequências.
C A presença de domínios evolutivamente conservados em proteínas.
D O número de sequências disponíveis no banco de dados.
E A complexidade do algoritmo usado pelo programa de alinhamento.

O BLAST é uma ferramenta de alinhamento de sequências biológicas que fornece resultados próximos ao ideal, com base em critérios como identidade, positividade e valor estatístico (e-value).
Qual fator determina a confiabilidade estatística de um alinhamento gerado pelo BLAST?
A O número de gaps presentes no alinhamento.
B A positividade entre as sequências comparadas.
C A similaridade química dos resíduos alinhados.
D O valor de e-value obtido no alinhamento.
E A quantidade de palavras analisadas na sequência query.

O Clustal e o BLAST são ambos programas amplamente usados na bioinformática para realizar alinhamentos de sequências biológicas, mas eles têm propósitos e abordagens diferentes.
Qual cenário é mais adequado para o uso do programa Clustal em comparação ao BLAST?
A Analisar rapidamente regiões específicas de similaridade entre sequências curtas.
B Comparar a sequência de um gene com um banco de dados para identificar funções.
C Determinar relações evolutivas entre espécies utilizando múltiplas sequências globais.
D Realizar buscas rápidas por correspondências em grandes bancos de dados.
E Identificar mutações pontuais em um gene específico de uma única espécie.

Conteúdos escolhidos para você

14 pág.

EXERCICIO 5 BIOTECNOLOGIA E BIOINFORMÁTICA

ESTÁCIO

48 pág.

NCBI e alinhamento de sequências

ESTÁCIO EAD

8 pág.

Desempenho em Exercícios Científicos

ESTÁCIO

Perguntas dessa disciplina

PERGUNTA 2 Segundo a CBPF, a natureza produz equipamentos de extrema engenhosidade. Por exemplo, os flagelos de bactérias, que são considerados nanomo

UNIP

Segundo a CBPF, a natureza produz equipamentos de extrema engenhosidade. Por exemplo, os flagelos de bactérias, que são considerados nanomotores qu...

Marque a opção correta em relação às regiões de DNA utilizadas para análises forenses e identificação humana. Escolha uma opção: a. Os primeiros k...

1D 2A 3B 4E 5 6 - 7 8 9 10 11 12 Tempo di Prova Questão 5 Dos marcadores moleculares, a avaliação de polimorfismo de um único nucleotídeo se tornou...

UNIASSELVI

De acordo com as sentenças relacione-as em V para verdadeiras ou F para falsas. ( ) Um estudo distinto foi conduzido por Costa et al. (2006), onde for

UNICSUL

Material

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Questões resolvidas

A bioinformática organiza e acessa grandes volumes de dados biológicos produzidos por tecnologias modernas, contribuindo para avanços no conhecimento científico e no desenvolvimento de novas metodologias.
Qual a principal função de plataformas como o NCBI no campo da bioinformática?
A Armazenar dados biológicos e possibilitar sua análise e seu compartilhamento.
B Criar novos genes sintéticos para aplicação em biotecnologia.
C Desenvolver ferramentas exclusivamente para o sequenciamento genético.
D Patrocinar pesquisas científicas em biotecnologia ao redor do mundo.
E Monitorar e controlar o uso de dados biológicos para fins comerciais.

O acesso a bancos de dados biológicos e literários contribui significativamente para o desenvolvimento da ciência.
Por que o compartilhamento de sequências biológicas em bancos de dados como o GenBank é importante para a ciência?
A Porque o GenBank armazena informações apenas sobre organismos humanos, facilitando estudos específicos sobre a espécie humana.
B Porque o GenBank oferece acesso gratuito a sequências de DNA de diversos organismos, permitindo que cientistas de todo o mundo colaborem e comparem dados para avanços na pesquisa científica.
C Porque o GenBank só armazena sequências de DNA de bactérias, limitando o estudo de organismos mais complexos.
D Porque as sequências de DNA no GenBank são acessíveis apenas para cientistas do NCBI, restringindo a troca de informações.
E Porque o GenBank armazena apenas informações sobre genes de resistência a antibióticos, determinantes para o desenvolvimento de novos medicamentos.

Ferramentas e bancos de dados em bioinformática são importantes elementos da análise de informações biológicas.
Qual é a principal vantagem de utilizar o BLAST para a comparação de sequências biológicas?
A Geração de novas sequências evolutivamente distintas.
B Identificação de sequências com maior taxa de mutação.
C Organização de sequências biológicas em bancos de dados exclusivos.
D Criação de novas variantes genéticas em laboratório.
E Descoberta de sequências similares e suas possíveis funções.

Ferramentas como o PubMed, GenBank e RefSeq permitem acesso e análise de dados biológicos e literários, utilizando estratégias de busca específicas que facilitam a recuperação de informações úteis.
Qual é a principal vantagem de usar filtros ou busca avançada em bancos de dados como PubMed ou GenBank?

Após a leitura do caso, é hora de aplicar seus conhecimentos!
Qual a principal razão para Maria utilizar filtros no PubMed durante sua busca de literatura?
A Garantir que todos os artigos sejam de autores reconhecidos.
B Reduzir a quantidade de artigos irrelevantes para o seu tema de pesquisa.
C Restringir a busca apenas a artigos publicados em revistas específicas.
D Evitar artigos que contenham erros científicos.
E Garantir que apenas artigos revisados por pares sejam exibidos.

Como o BLAST pode complementar a análise de Maria e quais são as implicações práticas de encontrar genes similares em outras espécies bacterianas?

O alinhamento de sequências biológicas é uma ferramenta significativa na genética, especialmente na análise de sequências de DNA, RNA e proteínas.
Qual é o principal objetivo do alinhamento de sequências biológicas?
A Determinar a estrutura tridimensional de proteínas.
B Substituir nucleotídeos divergentes em uma sequência.
C Estimar o comprimento total de um genoma.
D Identificar o maior número de resíduos similares ou idênticos entre sequências.
E Medir a taxa de mutação de uma sequência ao longo do tempo.

Alinhamentos de sequências biológicas comparam e interpretam dados genéticos, permitindo análises detalhadas de similaridades, diferenças e relações evolutivas entre moléculas e organismos.
Qual fator deve ser considerado ao escolher entre alinhamento global e local para análise de sequências biológicas?
A O comprimento total do genoma das espécies analisadas.
B A similaridade esperada ao longo de toda a extensão das sequências.
C A presença de domínios evolutivamente conservados em proteínas.
D O número de sequências disponíveis no banco de dados.
E A complexidade do algoritmo usado pelo programa de alinhamento.

O BLAST é uma ferramenta de alinhamento de sequências biológicas que fornece resultados próximos ao ideal, com base em critérios como identidade, positividade e valor estatístico (e-value).
Qual fator determina a confiabilidade estatística de um alinhamento gerado pelo BLAST?
A O número de gaps presentes no alinhamento.
B A positividade entre as sequências comparadas.
C A similaridade química dos resíduos alinhados.
D O valor de e-value obtido no alinhamento.
E A quantidade de palavras analisadas na sequência query.

O Clustal e o BLAST são ambos programas amplamente usados na bioinformática para realizar alinhamentos de sequências biológicas, mas eles têm propósitos e abordagens diferentes.
Qual cenário é mais adequado para o uso do programa Clustal em comparação ao BLAST?
A Analisar rapidamente regiões específicas de similaridade entre sequências curtas.
B Comparar a sequência de um gene com um banco de dados para identificar funções.
C Determinar relações evolutivas entre espécies utilizando múltiplas sequências globais.
D Realizar buscas rápidas por correspondências em grandes bancos de dados.
E Identificar mutações pontuais em um gene específico de uma única espécie.

Conteúdos escolhidos para você

14 pág.

EXERCICIO 5 BIOTECNOLOGIA E BIOINFORMÁTICA

ESTÁCIO

48 pág.

NCBI e alinhamento de sequências

ESTÁCIO EAD

8 pág.

Desempenho em Exercícios Científicos

ESTÁCIO

Perguntas dessa disciplina

PERGUNTA 2 Segundo a CBPF, a natureza produz equipamentos de extrema engenhosidade. Por exemplo, os flagelos de bactérias, que são considerados nanomo

UNIP

Segundo a CBPF, a natureza produz equipamentos de extrema engenhosidade. Por exemplo, os flagelos de bactérias, que são considerados nanomotores qu...

Marque a opção correta em relação às regiões de DNA utilizadas para análises forenses e identificação humana. Escolha uma opção: a. Os primeiros k...

1D 2A 3B 4E 5 6 - 7 8 9 10 11 12 Tempo di Prova Questão 5 Dos marcadores moleculares, a avaliação de polimorfismo de um único nucleotídeo se tornou...

UNIASSELVI

De acordo com as sentenças relacione-as em V para verdadeiras ou F para falsas. ( ) Um estudo distinto foi conduzido por Costa et al. (2006), onde for

UNICSUL

Prévia do material em texto

NCBI e alinhamento de sequências
O domínio de plataformas como o NCBI (Centro Nacional de Informação Biotecnológica), com ferramentas
para alinhamento de sequências biológicas e desenho de primers, é fundamental para acompanhar os
avanços da bioinformática. Esse conhecimento permite explorar dados biológicos de forma inovadora,
contribuindo para o desenvolvimento de novos testes diagnósticos e aprimorando metodologias
científicas.
Profa. Melise Chaves Silveira
1. Itens iniciais
Objetivos
Reconhecer a importância do NCBI para as ciências biomédicas.

Distinguir os tipos de alinhamentos de sequências biológicas disponíveis.

Aplicar o conhecimento sobre primers no desenho dessas sequências utilizando programas de
computador.
Introdução
A tecnologia está cada vez mais presente em nossas vidas, desde smartphones até televisores modernos, e
tem se tornado indispensável na vida profissional, especialmente na ciência.

A bioinformática exerce um papel essencial nas ciências biomédicas, permitindo a análise e interpretação de
grandes volumes de dados biológicos. Dentro desse campo, o NCBI (National Center for Biotechnology
Information) se destaca como uma das principais plataformas para o armazenamento e análise de informações
genômicas e proteicas, sendo um recurso fundamental para pesquisadores de diversas áreas.

Neste conteúdo, vamos explorar a importância do NCBI e como ele facilita a pesquisa biomédica. Também
abordaremos os diferentes tipos de alinhamentos de sequências biológicas, compreendendo suas aplicações
e diferenças. Por fim, aplicaremos esse conhecimento no desenho de primers, utilizando programas
computacionais para criar sequências específicas que auxiliam em técnicas como PCR e sequenciamento
genético.

Ao final, você será capaz de utilizar essas ferramentas de forma prática, fortalecendo suas habilidades em
bioinformática para análises mais eficientes e precisas. Vamos lá!
•
•
•
1. A importância do NCBI
NCBI (National Center for Biotechnology Information)
Aprenda neste vídeo o papel do NCBI na organização de dados biológicos, desde sua origem pós-Projeto
Genoma Humano até seu impacto na ciência. Veja suas funções, ferramentas e aplicações, como o estudo de
bactérias resistentes.
Conteúdo interativo
Acesse a versão digital para assistir ao vídeo.
Um dos marcos históricos mais importantes da bioinformática foi a realização do Projeto Genoma Humano,
com o objetivo de identificar a sequência de nucleotídeos que compõe os 46 cromossomos humanos.

Ao final desse projeto, que durou de 1990 a 2001, a bioinformática ganhou um grande impulso. Logo surgiram
tecnologias para o sequenciamento de DNA capazes de determinar a ordem de nucleotídeos de genomas
inteiros, de forma mais rápida e barata.
Representação de sequenciamento genético.
Até o final da década de 1990, os arquivos de sequência de ácidos nucleicos continham cerca de 4 bilhões de
nucleotídeos, que correspondem a pouco mais de um único genoma humano. No final da década de 2000,
esse número já era maior que 100 bilhões.

Mas onde está guardada toda essa quantidade de sequências de nucleotídeos? Vamos entender melhor!
Funções e aplicações do NCBI
Sequências de nucleotídeos e aminoácidos, estruturas tridimensionais de proteínas e vias metabólicas são
exemplos de dados biológicos. A bioinformática utiliza bancos de dados para armazenar e organizar o grande
volume de dados gerados a partir da prática biomédica.
Desse modo, quando
alguém precisa de
determinado dado
biológico, ele pode
ser recuperado
facilmente. Muitos
desses bancos de
dados podem ser
acessados por
qualquer pessoa, de
qualquer lugar do
mundo, utilizando a
rede mundial de
computadores (World
Wide Web).
O NCBI (National Center for
Biotechnology Information),
Centro Nacional para
Informação Biotecnológica, é
uma organização sediada nos
Estados Unidos da América
que controla o portal mais
famoso da bioinformática,
cujo acesso é feito pelo
ncbi.nlm.nih.gov. Dentro
desse portal estão
disponíveis diferentes bancos
de dados biológicos e
ferramentas para analisá-los.
O NCBI se propõe
a reunir o
resultado do
trabalho de
pesquisadores ao
redor do mundo
em um só lugar,
facilitando o
acesso e
manipulação
desses registros.
Essa iniciativa
impulsiona o
avanço do
conhecimento na
área
biotecnológica.
Pessoa utilizando software para análise
de DNA.
Como funciona esse processo?
Imagine encontrar uma bactéria super-resistente, que não pode ser eliminada por nenhum antibiótico
conhecido. Isso é um problema grave na medicina, porque essas bactérias podem causar infecções difíceis de
tratar. Para entender o que torna essa bactéria tão resistente, você decide estudar seu DNA, ou seja, o
conjunto de instruções genéticas que controla tudo o que acontece dentro dela.

O primeiro passo é sequenciar o genoma dessa bactéria, o que significa descobrir a ordem exata dos
nucleotídeos ― as letras químicas que compõem o DNA: A, T, C e G. Esse sequenciamento é feito com
equipamentos especiais de laboratório que leem e registram a sequência completa do DNA da bactéria.

Após obter essa sequência, você pode enviá-la para o banco de dados científico, como o NCBI, uma
plataforma internacional na qual cientistas do mundo inteiro compartilham informações genéticas. Esse banco
de dados funciona como uma grande biblioteca de DNA em que qualquer pesquisador pode buscar
informações sobre diferentes organismos.

Isso é muito importante porque permite que outros cientistas:

Descubram os genes responsáveis pela resistência aos antibióticos, ajudando no desenvolvimento de
novos medicamentos.

Comparem a sua bactéria com outras já estudadas, para entender sua origem e evolução.

Desenvolvam testes mais rápidos para identificar bactérias resistentes em hospitais e laboratórios.

Ao sequenciar e compartilhar o genoma da bactéria, você não apenas aprende mais sobre ela, mas também
ajuda a comunidade científica a encontrar formas de combater infecções resistentes e proteger a saúde
pública.
Atividade 1
A bioinformática organiza e acessa grandes volumes de dados biológicos produzidos por tecnologias
modernas, contribuindo para avanços no conhecimento científico e no desenvolvimento de novas
metodologias. Qual a principal função de plataformas como o NCBI no campo da bioinformática?
•
•
•
A Armazenar dados biológicos e possibilitar sua análise e seu compartilhamento.
B Criar novos genes sintéticos para aplicação em biotecnologia.
C Desenvolver ferramentas exclusivamente para o sequenciamento genético.
D Patrocinar pesquisas científicas em biotecnologia ao redor do mundo.
E Monitorar e controlar o uso de dados biológicos para fins comerciais.
A alternativa A está correta.
Plataformas como o NCBI têm como principal função reunir, organizar e disponibilizar dados biológicos
gerados por pesquisadores de diversas áreas, facilitando sua análise e seu compartilhamento global. Essa
centralização de informações impulsiona o avanço da ciência possibilitando acesso a um grande volume de
dados relevantes para pesquisas.
Bancos e ferramentas: PubMed e GenBank
Confira neste vídeo como funciona o PubMed, com filtros para buscas biomédicas, e o GenBank, repositório
de sequências nucleotídicas para colaboração global. Veja também um exemplo sobre bactérias resistentes a
antibióticos.
Conteúdo interativo
Acesse a versão digital para assistir ao vídeo.
Agora, vamos aprender sobre exemplos reais de bancos e ferramentas disponíveis pelo portal do NCBI.
PubMed
Funciona como uma grande biblioteca digital de artigos científicos na área da saúde. No seu site, você
encontra pesquisas sobre doenças, tratamentos, medicamentos, genética e muitos outros temas científicos
da saúde.

Os artigos disponíveis no PubMed vêm de revistas científicas do mundo todo, mas a maioria está publicada
em inglês, considerado o principal idioma da ciência. Embora nem todos os artigos sejam gratuitos, muitos
podem ser lidos sem custo.

O PubMed é uma ferramenta para estudantesA Selecionando primers em regiões não conservadas para garantir amplificação específica.
B Utilizando primers em regiões conservadas para amplificar DNA de diferentes organismos.
C Desenvolvendo primers que se ligam aleatoriamente para maior abrangência na amplificação.
D Escolhendo primers em regiões exclusivas para evitar a amplificação do DNA-alvo.
E Criando primers sem especificidade para maximizar a amplificação de diferentes genes.
A alternativa B está correta.
Em análises como a PCR, quando se busca amplificar uma região comum presente em diferentes
organismos, como o gene RNAr 16S em bactérias, precisamos de primers complementares a regiões
conservadas. Dessa forma, é possível detectar organismos diversos em amostras variadas, fazendo com
que haja especificidade e eficiência no experimento. Escolher regiões não conservadas ou sem
especificidade pode comprometer o resultado, pois isso aumenta a chance de amplificar sequências não
relacionadas. Além disso, utilizar regiões exclusivas não atende ao objetivo de identificar múltiplos
organismos. Portanto, primers devem ser desenhados estrategicamente para garantir resultados confiáveis
e abrangentes.
Parâmetros
Parâmetros para primers eficientes na PCR
Conheça, neste vídeo, como os parâmetros essenciais para primers em PCR eficiente, como tamanho do
produto (150-1.000 pb) e comprimento ideal dos primers (18-24 bases). Entenda a importância de controlar
estruturas secundárias e como esses fatores afetam a amplificação. Veja também a relevância da eletroforese
para confirmar o tamanho do fragmento amplificado.
Conteúdo interativo
Acesse a versão digital para assistir ao vídeo.
Para que os primers funcionem bem na PCR, não basta que apenas se liguem ao DNA-alvo. Existem outros
fatores que influenciam o sucesso da reação.
Tamanho do produto
É a medida do fragmento de DNA amplificado na PCR. Ele é determinado pela posição em que os primers se
ligam ao DNA. Os primers podem ser de dois tipos:
Primer forward (senso)
Se liga no início da região a ser amplificada.
Primer reverse (antissenso)
Se liga no final dessa região.
Cálculo
Para determinar o tamanho do produto, basta subtrair a posição inicial do primer forward da posição inicial do
primer reverse.
Exemplo
Se o primer forward inicia na base 50 e o primer reverse na base 300, então 300 – 50 = 250 pares de
bases (pb).
Esse valor assegura que a PCR amplifique exatamente o fragmento desejado.

Podemos conferir esse tamanho após a eletroforese, técnica usada para separar fragmentos de DNA de
acordo com seu peso molecular.

Para isso, o produto que sai da máquina da PCR é aplicado em um gel de agarose e sofre ação de uma
corrente elétrica, que empurra os fragmentos de DNA do polo negativo para o polo positivo. Quanto menos
pares de bases possui um fragmento, mais leve ele é, e mais rápido ele migra pelo gel. Ao contrário,
fragmentos com muitos pares de bases são mais pesados e migram de forma mais lenta.

Estimamos o tamanho do fragmento amplificado usando como referência o marcador de peso molecular
(solução adquirida pelo laboratório que contém diferentes fragmentos de DNA com tamanhos já definidos).

O tamanho ideal do produto da PCR está entre 150 e 1.000 pares de bases (pb). Fragmentos muito pequenos
podem ser confundidos com restos de primers que não se ligaram ao alvo e aparecem no final do gel da
eletroforese. Por outro lado, se a região amplificada for muito grande, a DNA polimerase pode não conseguir
adicionar todos os nucleotídeos necessários e, nesses casos, a PCR não vai funcionar.
Representação dos fragmentos de DNA separados por eletroforese.
Comprimento
O primer pode também ser chamado de oligonucleotídeo, ou seja, um fragmento curto de uma cadeia simples
de ácido nucleico.

Mas o quão curta deve ser a sequência de um primer?
Comentário
O comprimento deve variar entre 18 e 24 bases. Um primer muito curto, com menos de 18 bases, é
considerado inespecífico, podendo se ligar em diferentes posições no DNA molde.
Você pode imaginar que a chance de encontrar a sequência CCGCC aleatoriamente ao longo de um DNA é
maior, quando comparada à chance de encontrar a sequência CCGCCTGGGGA. Portanto, existe um tamanho
mínimo para garantir que o primer vai se ligar somente na região que você deseja.

O tamanho dos primers geralmente não ultrapassa 24 bases, pois sequências muito longas podem formar
estruturas secundárias, prejudicando a PCR. Um exemplo disso é a formação de um grampo (hairpin): o primer
se dobra sobre si e se emparelha internamente, dificultando sua ligação ao DNA-alvo. Esse limite garante que
os primers sejam longos o suficiente para especificidade, mas curtos o bastante para evitar problemas
estruturais.

O comprimento muito longo também aumenta a chance de um primer se combinar com outro, o que
chamamos de dímeros de primers. Os dois casos diminuem a chance de ligação do primer à região alvo do
DNA molde e, portanto, também torna a PCR menos produtiva.

Na sequência, observe as estruturas secundárias ocasionadas pelo alinhamento errado dos primers.
Representação da formação da estrutura secundária (hairpin) e dímeros.
Atividade 2
Os primers, ou oligonucleotídeos, são importantes na reação em cadeia da polimerase (PCR). Diversos
parâmetros são necessários para garantir sua eficiência no processo. Quais fatores podem comprometer a
eficiência de um primer na PCR?
A Apenas a sequência-alvo do DNA.
B Apenas a concentração dos primers no processo.
C Somente o tipo de polimerase utilizada.
D Tamanho, conteúdo de bases e estrutura secundária.
E O tamanho do DNA total no experimento.
A alternativa D está correta.
A eficiência dos primers na PCR depende de parâmetros como o tamanho ideal da sequência, o conteúdo
de guanina e citosina, e a ausência de estruturas secundárias como dímeros ou hairpins, que podem
prejudicar sua ligação à região alvo do DNA.
Parâmetros essenciais dos primers na PCR
Confira no vídeo o conteúdo GC e sua importância na estabilidade de primers e no cálculo da Tm e Ta em
PCR. Veja exemplos práticos de como avaliar comprimento, porcentagem GC, Tm e Ta. Garanta eficiência e
especificidade na amplificação de DNA.
Conteúdo interativo
Acesse a versão digital para assistir ao vídeo.
Conteúdo de bases guanina e citosina (GC)
O conteúdo GC é a porcentagem das bases nitrogenadas guanina (G) e citosina (C) ao longo da sequência de
DNA.
Exemplo
Se a soma de G mais C ao longo de um primer com 20 bases de comprimento é igual a 10, então o
conteúdo GC dele é igual a 50%.
As bases guanina e citosina ligam-se por meio de três pontes de hidrogênio, diferente de adenina (A) e timina
(T), que se ligam por duas. Por isso, uma quantidade maior de energia está envolvida na ligação G+C, ela é
mais forte.
Representação das pontes de hidrogênio entre as bases nitrogenadas que
compõem os nucleotídeos.
A porcentagem ideal de GC para um primer deve estar entre 40% e 60%. Estabelecer um limite mínimo (40%)
permite que o primer se ligue ao alvo com mais força, trazendo estabilidade para o pareamento. O limite
máximo (60%) é necessário, pois altas porcentagens de GC demandam muita energia para a ligação, e ela
pode não acontecer. A energia envolvida na ligação entre as bases influencia diretamente no cálculo da
temperatura de anelamento.

A temperatura de anelamento da PCR é a segunda etapa de cada ciclo dessa reação. Entenda melhor todas as
etapas.
Desnaturação
É a primeira fase da PCR e ocorre entre 90 °C e 96 °C, quando a dupla fita
do DNA se desfaz.
Anelamento
Etapa em que ocorre o anelamento dos primers, quando a temperatura
cai entre 50 °C e 60 °C.
Extensão (DNA Polimerase)
A última etapa do ciclo é a síntese do fragmento de DNA pela ação da
DNA polimerase. A polimerase especial usada na PCR (Taq DNA
polimerase), que resiste a altas temperaturas sem perder sua função,
trabalha de forma ideal a 72 °C.
O valor da temperatura de anelamento é calculado dependendo da sequência de bases dos primers usados.Tanto o conteúdo GC quanto o comprimento é importante nessa conta.
Atenção
Reações de PCR distintas, com alvos diferentes e, portanto, sequências de primers diferentes, terão
cada uma sua própria temperatura de anelamento.
O nosso próximo passo é entender como é calculada a temperatura de anelamento. Uma vez definida, o
profissional deve usá-la para programar a máquina usada para PCR, chamada termociclador.
Temperatura de melting (Tm)
A Tm é importante, pois a temperatura de anelamento dos primers é calculada com base nesse valor. O
anelamento também pode ser chamado de hibridização, pois é nessa etapa que os primers vão se ligar à
região complementar no DNA alvo.

O cálculo da Tm depende da sequência de bases do primer, portanto, cada primer do par vai ter a sua Tm. A
maneira mais simples de calcular esse valor é a partir da seguinte fórmula:
Nesse cálculo, a Tm é influenciada principalmente por dois fatores:
Conteúdo
Quanto maior a porcentagem de GC, maior será
a Tm, pois mais energia está envolvida na
ligação entre essas duas bases.
Comprimento
Quanto mais bases, mais energia de ligação é
demandada para que todas elas se liguem ao
DNA alvo e, assim, mais elevada será a Tm.
Temperatura de anelamento (Ta)
É aquela que permite que os primers se liguem à sua sequência complementar no DNA alvo. A Ta é calculada
subtraindo 5 °C, a partir da seguinte fórmula:
O valor da Ta deve estar entre 50 °C e 60 °C.
Dica
Temperaturas baixas de anelamento correspondem a primers com ligações mais fracas e menos
específicas. Por outro lado, Ta excessivamente elevada pode comprometer a eficiência da PCR,
dificultando a ligação dos primers ao DNA molde.
Outro ponto muito importante é que a Ta dos dois primers do par (senso e antissenso) devem ser próximas,
diferindo no máximo em 5 °C. Quando você for programar o aparelho termociclador para realizar a PCR, você
só informa uma Ta e, portanto, ela deve servir para os dois primers usados naquela reação.

Agora que compreendemos todos os parâmetros, vamos analisar um exemplo.

Supondo as seguintes sequências de primers, vamos avaliá-las com base nos critérios discutidos:
comprimento, conteúdo GC, Tm e Ta.

Primer 1 → 5’-TAGCGCGTAGCGATGCGATG-3’

Primer 2 → 5’-ATGTTCGATCGAGCTGACGC-3’

A partir disso, notamos que ambos possuem 20 bases, distribuídas da seguinte forma:
Primer 1
Oito bases G, quatro bases C, quatro bases T e
quatro bases A.
Primer 2
Seis bases G, cinco bases C, cinco bases T e
quatro bases A.
Visto isso, o conteúdo GC do primer 1 é 60% e do primer 2 é 55%.

Agora, vamos entender melhor como tudo ocorre!
Considere que as 20 bases no primer são iguais a 100%. Em seguida, devemos contar as bases G e C do
primer 1. Assim, vemos que oito bases são do tipo G e quatro são do tipo C, totalizando 12 bases. Ao aplicar
uma simples regra de 3, achamos 60% de conteúdo GC.
•
•
Assim, ao contar as bases do primer 2, vemos que seis bases são do tipo G e cinco do tipo C, totalizando 11
bases. Aplicando a regra de três, agora temos que o conteúdo GC no primer 2 é 55%.
Logo, ao calcular a Tm para o primer 1, teremos:
Da mesma forma, para o primer 2, aplicamos a mesma equação:
Agora, para determinar a Ta do primer 1, aplicamos a seguinte fórmula:
Do mesmo modo, calculamos a Ta do primer 2 utilizando a mesma equação:
Por esses critérios, os primers estão adequados para que a PCR seja eficiente e específica.

A eficiência determina quantas cópias da região alvo do DNA são geradas a cada ciclo de PCR, enquanto a
especificidade assegura que apenas a sequência desejada seja amplificada, evitando a cópia de regiões
indesejadas.
Exemplo
Se você espera copiar uma região conservada do gene RNAr 16S, a intenção é que apenas essa região
seja amplificada. Se você espera conseguir 1 milhão de cópias dessa região, quanto mais próximo a sua
PCR chegar desse número, mais eficiente ela será.
Um trabalho minucioso deve ser feito para escolher qual será a sequência dos primers e garantir que ambas
atendam aos parâmetros necessários. A boa notícia é que podemos contar com programas de computador
para realizar esse trabalho!
Atividade 3
O sucesso da reação em cadeia da polimerase (PCR) depende de parâmetros de eficiência e especificidade.
Qual fator pode afetar tanto a eficiência quanto a especificidade dos primers em uma reação de PCR?
A A concentração do tampão utilizado.
B O comprimento e o conteúdo GC dos primers.
C O tipo de DNA polimerase empregado.
D A duração da etapa de extensão.
E O número de ciclos da PCR.
A alternativa B está correta.
Tanto a eficiência quanto a especificidade dos primers na PCR dependem de características como o
comprimento, que deve estar entre 18 e 24 bases, e o conteúdo de guanina e citosina (GC), idealmente
entre 40% e 60%. Esses fatores garantem estabilidade no pareamento e evitam estruturas secundárias
indesejadas, como dímeros ou hairpins, que podem comprometer o sucesso da reação.
Softwares usados para desenho de primers
Confira, neste vídeo, como usar o Primer3 para desenhar primers, definindo parâmetros como tamanho do
produto, Tm e GC%. Aprenda a evitar estruturas secundárias e selecionar primers eficientes para PCR. A partir
disso, entenda como interpretar os resultados para garantir precisão.
Conteúdo interativo
Acesse a versão digital para assistir ao vídeo.
Programas de computador foram desenvolvidos para testar muitas combinações de primers e fornecer como
resultado apenas os mais adequados.
A qualidade dos
primers é melhor
quando usamos
esses programas,
comparada à
qualidade daqueles
escolhidos e testados
manualmente pelo
profissional. É
importante que você
saiba como utilizar
essas ferramentas,
pois isso irá poupar
seu tempo e garantir
resultados melhores
para suas análises.
A primeira coisa que todo programa para
desenho de primers precisa é a sequência
de bases no DNA molde. Como os primers
são complementares à sequência molde,
essa informação se torna indispensável.
Se você espera que uma carta chegue
exatamente ao remetente esperado, então
você precisa dizer o endereço completo. O
endereço para os primers é a sequência
no DNA molde onde eles devem se ligar.
Essas sequências moldes podem ser
obtidas em bancos de dados biológicos de
sequências de nucleotídeos, como
GenBank e RefSeq, disponíveis no portal
do NCBI.
Após
fornecer a
sequência
molde,
você irá
definir os
parâmetros
que
acabamos
de discutir.
Cientistas analisando dados de DNA em
software especializado.
Curiosidade
Existem diversos programas disponíveis para o desenho de primers, e eles variam em relação aos
parâmetros utilizados para seleção, facilidade de uso e se são gratuitos ou pagos.
Vamos usar como exemplo o software Primer3, disponível gratuitamente na internet.

Na página inicial do programa, você deve colar a sequência do DNA molde (1). Após isso, você seleciona as
opções para desenho de primers senso e antissenso (2). Na imagem a seguir, veja onde inserimos esses
parâmetros: a seta verde indica o local para o DNA molde, e as setas amarelas, o local para os primers senso e
antissenso.
Tela de configuração do software Primer3.
Você pode (mas não precisa) customizar os parâmetros considerados pelo Primer3. Dentre eles, estão:

Tamanho do produto (Product size ranges).

Comprimento dos primers (Primer size).

Temperatura de melting (Primer Tm).

Conteúdo GC (Primer GC%).
Também é possível especificar qual região deseja incluir no fragmento que será amplificado (Targets) ou
definir qual região não deve estar incluída nele (Excluded regions). Outros parâmetros menos usados também
estão disponíveis. Para saber o que significa cada um deles, é só visitar o portal do programa.

Considerando isso, vamos utilizar como exemplo a sequência do gene RNAr 16S de bactérias. Com base no
resultado do alinhamento múltiplo de sequências desse gene em quatro espécies bacterianas diferentes
(Escherichia coli, Klebsiella pneumoniae, Staphylococcus aureus e Neisseria gonorrhoeae), escolhemosa
região conservada entre as posições 890 e 1000 como alvo.
•
•
•
•
Representação da parte do alinhamento múltiplo de sequências do gene RNAr 16S
de diferentes espécies bacterianas.
A sequência adiante é uma das quatro presentes no alinhamento múltiplo da imagem que acabamos de ver.
Todas foram copiadas do GenBank. A partir disso, vamos utilizar a sequência da espécie S. aureus como
molde para desenhar os primers.
Representação da sequência do S. aureus.
Primeiro, a sequência molde é copiada para o retângulo em branco. Em seguida, no Primer3, especificamos a
região a ser incluída no fragmento amplificado: posição 970 e 60 bases à frente (Targets: 970,60). Essa região
foi escolhida por ser conservada, com poucas diferenças entre as espécies comparadas. Também definimos o
tamanho do produto (150-180pb), para que os primers se pareiem perto da parte conservada e evitem as
regiões altamente variáveis (Product Size Range: 150-180). Feito isso, basta selecionar a opção Escolher
Primers (Pick Primers).

Como resultado obtido ao final desse processo, o Primer3 mostra o par de primers mais adequado e, no final
da página, existe a sugestão de outros pares.
Tela de configuração com o principal resultado obtido pela ferramenta Primer3.
Quanto aos parâmetros que os primers devem seguir, podemos observar que todos estão dentro dos valores
recomendados:
Comprimento (Ien)
20pb.
Tm
60°C para ambos os primers.
Conteúdo GC
50% para ambos os primers.
Tamanho do produto
169pb.
Além desses parâmetros, o Primer3 também leva em consideração outros dois: any e 3’, que avaliam a
tendência dos primers se ligarem a si mesmos ou formarem estruturas secundárias. Valores positivos para
esses parâmetros são considerados aceitáveis, pois indicam baixa tendência para essas combinações, que
poderiam prejudicar a eficiência da reação de PCR.
Desenho de primers usando o Primer3
Confira, neste vídeo, como você pode utilizar o Primer3, usando como ponto de partida a sequência de um
gene obtido em banco de dados.
Conteúdo interativo
Acesse a versão digital para assistir ao vídeo.
Atividade 4
Softwares especializados, como o Primer3, são bastante utilizados para otimizar o desenho de primers em
reações de PCR. Qual das alternativas a seguir reflete um benefício significativo ao utilizar programas como o
Primer3 para o desenho de primers?
A Aumentar a precisão no alinhamento e escolha dos primers.
B Eliminar a necessidade de definir parâmetros específicos.
C Permitir a execução de PCR sem sequência molde.
D Garantir a exclusão de etapas manuais na análise de dados.
E Evitar o uso de sequências conservadas como alvo.
A alternativa A está correta.
Programas como o Primer3 analisam e selecionam primers com maior precisão ao integrar parâmetros
como comprimento, Tm, conteúdo GC e tamanho do produto. Esses softwares garantem maior eficiência e
especificidade na reação de PCR ao evitar erros manuais e permitir a definição de regiões conservadas e
variáveis, otimizando o desenho de primers.
Aplicando o conhecimento
Você é estagiário em um laboratório de microbiologia ambiental e recebeu uma tarefa importante: desenvolver
primers para detectar a presença de bactérias em amostras de água coletadas de diferentes reservatórios.
Para isso, você usará como alvo o gene RNAr 16S, altamente conservado entre espécies bacterianas.
Pessoa analisando amostra.
O primeiro passo é acessar o banco de dados GenBank para buscar a sequência do gene RNAr 16S de
diferentes espécies bacterianas. Após o alinhamento múltiplo, utilizando o programa Clustal, você identificou
uma região conservada entre as posições 890 e 1.000. Essa região será o alvo para o desenho dos primers.

Em seguida, você acessa o software Primer3, insere a sequência molde correspondente à espécie
Staphylococcus aureus e define os parâmetros necessários:

Tamanho do produto: De 150 pb a 180 pb, garantindo que o fragmento amplificado seja de tamanho
ideal para eletroforese.
•
Comprimento do primer: Entre 18 e 24 bases, evitando problemas de inespecificidade ou formação de
estruturas secundárias.
Conteúdo GC: Entre 40%-60%, garantindo estabilidade e eficiência na ligação ao DNA alvo.
Temperatura de melting (Tm): Próxima de 60 °C para os dois primers, para assegurar compatibilidade
na PCR.

Após clicar em Pick Primers, o software retorna um par de primers com as seguintes características:

Primer Forward (senso): 5’-TAGCGCGTAGCGATGCGATG-3’, Tm = 60 °C, GC = 60%.
Primer Reverse (antissenso): 5’-ATGTTCGATCGAGCTGACGC-3’, Tm = 59 °C, GC = 55%.

Com os primers selecionados, você realiza a PCR com o termociclador configurado para uma temperatura de
anelamento de 55 °C. Após a amplificação, os produtos são separados por eletroforese em gel de agarose.
Você identifica uma banda correspondente ao tamanho esperado, confirmando a presença de bactérias nas
amostras.

Após a leitura do caso, é hora de aplicar seus conhecimentos!
Questão 1
Qual parâmetro, entre os listados a seguir, seria mais crítico para garantir a especificidade dos primers
desenhados no experimento descrito?
A O tamanho do produto amplificado.
B O comprimento dos primers.
C A temperatura de anelamento (Ta).
D O tipo de DNA polimerase utilizado na PCR.
E A concentração de nucleotídeos na mistura de reação.
A alternativa C está correta.
A Ta controla a força de ligação entre os primers e o DNA-alvo, garantindo especificidade ao evitar ligações
inespecíficas ou ausência de ligação. O tamanho do produto e o comprimento dos primers são importantes,
mas afetam principalmente a eficiência. O tipo de polimerase e a concentração de nucleotídeos influenciam
a reação geral, mas não determinam a especificidade.
•
•
•
•
•
Questão 2
Por que o gene RNAr 16S é frequentemente utilizado como alvo em estudos de detecção bacteriana?
Chave de resposta
O gene RNAr 16S é altamente conservado entre as espécies bacterianas, sendo importante para a função
ribossômica. Ele possui regiões constantes, ideais para desenhar primers que detectem uma profusão de
bactérias, e regiões variáveis, úteis para distinguir diferentes espécies. Sua universalidade no domínio
Bacteria e o extenso banco de dados disponível no GenBank tornam esse gene uma escolha confiável para
estudos de detecção bacteriana em diversas amostras, como solo, água e fezes. Assim, o RNAr 16S
combina especificidade e abrangência, sendo muito relevante em estudos de microbiologia ambiental e
diagnóstico molecular.
Questão 3
Quais são os benefícios da utilização de softwares como o Primer3 para o desenho de primers e como
otimizam o processo experimental?
Chave de resposta
O uso de softwares como o Primer3 permite automatizar e otimizar o desenho de primers, reduzindo erros
e poupando tempo. Esses programas avaliam parâmetros como comprimento, conteúdo GC, temperatura
de melting (Tm) e tendência à formação de estruturas secundárias. Além disso, é possível customizar
regiões-alvo e evitar áreas indesejadas no DNA molde. O Primer3 também sugere pares de primers com
compatibilidade ideal, aumentando a eficiência e a especificidade da PCR. No experimento descrito, o
software assegurou que os primers atendessem aos critérios estabelecidos, maximizando a probabilidade
de amplificar apenas a região conservada do gene RNAr 16S.
Para complementar, confira este vídeo e aprenda a desenvolver primers para detectar bactérias em amostras
de água: desde a busca pela sequência do gene RNAr 16S no GenBank, passando pelo alinhamento no Clustal,
o desenho de primers no Primer3 até a validação final por PCR e eletroforese.
Conteúdo interativo
Acesse a versão digital para assistir ao vídeo.
4. Conclusão
Considerações finais
O que você aprendeu neste conteúdo?
NCBI é fundamental para centralizar dados biológicos e facilitar o acesso a ferramentas como GenBank
e RefSeq.

Plataformas bioinformáticas permitem avanços significativos no diagnóstico molecular e na pesquisa
científica.

Alinhamentos biológicos ajudam a identificarregiões conservadas e variáveis, essenciais em estudos
comparativos.

Softwares como Primer3 tornam o desenho de primers mais eficiente e específico para amplificação de
sequências.

O domínio dessas ferramentas é útil para capacitar profissionais no uso de dados biológicos modernos.

O armazenamento de dados no NCBI organiza informações genômicas fundamentais para pesquisas
globais.

Alinhamentos e primers são bases importantes para criar testes diagnósticos sensíveis e precisos.
Podcast
Ouça sobre o crescimento do NCBI e de seus bancos de dados nos últimos anos. Entenda as aplicações
do alinhamento de sequências e o que são primers degenerados.
Conteúdo interativo
Acesse a versão digital para ouvir o áudio.
Explore +
Para saber mais sobre os assuntos tratados neste conteúdo:

Explore a playlist “Alinhamento de sequências”, no canal do YouTube OnlineBioinfo Bioinformática.

Leia o artigo “Desenho e Validação de Primers In Silico para Detecção do Vírus Sincicial Respiratório
Humano”, de Jackson Alves da Silva Queiroz e colaboradores, e acompanhe um exemplo real de
desenho de primers.
Referências
DIEFFENBACH, C. W.; LOWE, T. M. J.; DVEKSLER, G. S. General Concepts for PCR Primer Design. Genome Res.
1993 Dec;3(3):S30-7.

•
•
•
•
•
•
•
•
•
NATIONAL CENTER FOR BIOTECHNOLOGY INFORMATION. Consultado na Internet em: 16 jul. 2021.

PROSDOCIMI, F. Introdução à bioinformática. Biotecnologia – Ciência e Desenvolvimento. Curso On-line. São
Paulo: USP, 2007. Consultado na internet em: 16 jul. 2021.

SILVA, S. A.; NOTARI, D. L.; DALL’ALBA, G. Bioinformática: contexto computacional e aplicações. 1. ed. Caxias
do Sul: Educs. 2020.

WATUGULY, T. W.; SAMSURIA, I. K.; ASTUTI, P.; NURINGTYAS, T. R.; WIJAYANTI, N.; WAEL, S. The Analysis of
Primer Gene of Phosphodiesterase Type 5 (PDE5) on Erectile Dysfunction. Open Journal of Applied Sciences,
n. 8, p. 398-410, 2018.

WU, F. et al. A new coronavirus associated with human respiratory disease in China. Nature. Publicado em: 3
fev. 2020. Consultado na internet em: 16 jul. 2021.

XIONG, J. Essential Bioinformatics. 1. ed. Cambridge, England: Cambridge University Press, 2006.
NCBI e alinhamento de sequências
1. Itens iniciais
Objetivos
Introdução
1. A importância do NCBI
NCBI (National Center for Biotechnology Information)
Conteúdo interativo
Funções e aplicações do NCBI
Como funciona esse processo?
Atividade 1
Bancos e ferramentas: PubMed e GenBank
Conteúdo interativo
PubMed
Atenção
GenBank
Dica
Extração de DNA
Sequenciamento genômico
Submissão ao GenBank
Atividade 2
Bancos e ferramentas: RefSeq e Blast
RefSeq e BLAST: sequências de referência e comparação
Conteúdo interativo
RefSeq
Exemplo
Blast
Porcentagem de similaridade
Valor estatístico (e-value)
Resumindo
Atividade 3
Pesquisa e recuperação de dados
Conteúdo interativo
Acessando o PubMed
Insira as palavras-chave
Inicie a pesquisa
Selecionar o campo de pesquisa
Inserir palavras-chave
Adicionar termos
Realizar busca
Atenção
Busca textual
Exemplo
Conteúdo interativo
Exemplo
Enviar o arquivo
Selecionar e definir o formato
Criar o arquivo
Primeira linha
Linhas seguintes
Busca de sequências com o BLAST
Como funciona?
Como utilizar o PubMed, GenBank e RefSeq
Conteúdo interativo
Atividade 4
Fala, mestre!
Conteúdo interativo
Conteúdo interativo
Aplicando o conhecimento
Conteúdo interativo
2. Alinhamentos de sequências
Análise e alinhamento de sequências biológicas
Conteúdo interativo
Descobrir variações dentro de uma mesma espécie
Entender relações evolutivas entre espécies
Prever a função de novas proteínas
DNA
Proteínas
Alinhamento das sequências
Análise de identidade
Cálculo da identidade
Curiosidade
Atividade 1
Tipos de aplicações do alinhamento
Conteúdo interativo
Precisão do alinhamento
Alinhamento ótimo
Alinhamento heurístico
Extensão alinhada
Exemplo de alinhamento local para descobrir a função de uma proteína
Comparação com sequências conhecidas
Identificação de regiões conservadas
Conclusão
Número de sequências
Alinhamento simples
Alinhamento múltiplo
Atividade 2
Programas para alinhamento de sequência
Conteúdo interativo
Match
Mismatch
Gap
Pontuação (score)
Basic Local Alignment Search Tool – BLAST
Como funciona a busca no BLAST?
Inserção da sequência
Divisão em palavras
Busca no banco de dados
Semente (Seed)
Expansão do alinhamento
Como saber se o resultado do BLAST é confiável?
Porcentagem de identidade
E-value (valor de expectativa)
E-value (valor de expectativa)
Relembrando
Variantes do BLAST e exemplo de uso
BLASTn
BLASTp
BLASTx
tBLASTn
tBLASTx
Identidade
E-value
Gaps
Curiosidade
Alinhamento de sequências com a ferramenta BLAST
Conteúdo interativo
Atividade 3
Clustal
Clustal: alinhamento múltiplo e global de sequências
Conteúdo interativo
Alinhamento múltiplo
Alinhamento global
Método heurístico
Como podemos utilizar o Clustal?
Por que a histona?
Por que utilizar o Clustal?
Alinhamento global
Alinhamento múltiplo
O que podemos descobrir?
Atividade 4
Aplicando o conhecimento
Conteúdo interativo
3. Os primers
Primers: definições e aplicações
Primers e alinhamento múltiplo: identificando regiões conservadas
Conteúdo interativo
Exemplo
DNA molde
Primers
DNA polimerase
Atividade 1
Parâmetros
Parâmetros para primers eficientes na PCR
Conteúdo interativo
Tamanho do produto
Primer forward (senso)
Primer reverse (antissenso)
Cálculo
Exemplo
Comprimento
Comentário
Atividade 2
Parâmetros essenciais dos primers na PCR
Conteúdo interativo
Conteúdo de bases guanina e citosina (GC)
Exemplo
Desnaturação
Anelamento
Extensão (DNA Polimerase)
Atenção
Temperatura de melting (Tm)
Conteúdo
Comprimento
Temperatura de anelamento (Ta)
Dica
Primer 1
Primer 2
Exemplo
Atividade 3
Softwares usados para desenho de primers
Conteúdo interativo
Curiosidade
Comprimento (Ien)
Tm
Conteúdo GC
Tamanho do produto
Desenho de primers usando o Primer3
Conteúdo interativo
Atividade 4
Aplicando o conhecimento
Conteúdo interativo
4. Conclusão
Considerações finais
O que você aprendeu neste conteúdo?
Podcast
Conteúdo interativo
Explore +
Referênciase profissionais da saúde, pois permite acessar informações
atualizadas e baseadas em evidências científicas para estudos, pesquisas e tomada de decisões na prática
clínica.
Atenção
Para algumas revistas, é possível acessar livremente apenas o resumo dos artigos. Nesses casos, é
necessário pagar uma assinatura para conseguir o acesso completo, o que é normalmente feito por
instituições de pesquisa. Existe também a possibilidade de pagamento apenas do artigo de interesse,
caso você realmente precise ler o conteúdo e sua instituição não tenha a assinatura de determinada
revista científica.
Quando estiver desenvolvendo seu trabalho de conclusão de curso (TCC), após a escolha do tema, você vai
começar a buscar artigos científicos sobre ele. Uma forma de encontrar essa literatura é acessar o PubMed
pelo portal do NCBI e buscar por palavras-chave. Imagine que sua busca resulte em 100 artigos. Veja!
Nesse número estão incluídos os artigos de acesso livre e os de acesso restrito. É possível, então, filtrar a
busca apenas por artigos que você consiga ler inteiros. Nesse caso, é muito provável que o número de artigos
disponíveis seja bem menor que 100. Além de direcionar a busca para artigos de acesso livre, também é
possível utilizar os filtros para determinar o período de publicação desejado, o tipo de artigo (ensaio clínico ou
revisão, por exemplo), dentre outras formas de busca mais específicas que falaremos adiante.
GenBank
É um banco de dados on-line que armazena sequências de DNA de diversos organismos, desde bactérias até
seres humanos. Mantido pelo NCBI, contém informações enviadas por cientistas do mundo inteiro.

Nesse banco, é possível encontrar sequências de genes individuais, partes de cromossomos, cromossomos
inteiros e até plasmídeos ― pequenos pedaços de DNA que algumas bactérias usam para trocar genes entre
si, incluindo genes de resistência a antibióticos.
Dica
O acesso ao GenBank é totalmente gratuito. Qualquer pessoa pode pesquisar e baixar sequências para
estudos ou comparações com outras sequências. Essa ferramenta é essencial para quem trabalha com
genética, evolução, biotecnologia e até no desenvolvimento de novos medicamentos.
Você se lembra do exemplo da bactéria resistente a todos os antibióticos que discutimos agora mesmo?

Podemos aplicar esse exemplo ao contexto do GenBank, conforme os seguintes passos:
Extração de DNA
Removendo o material genético da célula bacteriana.
Sequenciamento genômico
Obtendo a sequência completa do DNA com tecnologias específicas.
Submissão ao GenBank
Enviando as sequências de nucleotídeos pelo portal do NCBI.
Feito isso, após um processo de triagem automatizada, em alguns dias sua sequência estará disponível
mundialmente!

Diante dessas informações, você pode estar se perguntando: E por que devo disponibilizar esses dados ao
mundo?

Para que você possa provar que fez, é preciso “mostrar”. Além disso, ciência é feita em conjunto, o avanço de
um é o avanço de todos.
Atividade 2
O acesso a bancos de dados biológicos e literários contribui significativamente para o desenvolvimento da
ciência. Por que o compartilhamento de sequências biológicas em bancos de dados como o GenBank é
importante para a ciência?
A Porque o GenBank armazena informações apenas sobre organismos humanos, facilitando estudos
específicos sobre a espécie humana.
BPorque o GenBank oferece acesso gratuito a sequências de DNA de diversos organismos, permitindo que
cientistas de todo o mundo colaborem e comparem dados para avanços na pesquisa científica.
C Porque o GenBank só armazena sequências de DNA de bactérias, limitando o estudo de organismos
mais complexos.
D Porque as sequências de DNA no GenBank são acessíveis apenas para cientistas do NCBI, restringindo
a troca de informações.
E Porque o GenBank armazena apenas informações sobre genes de resistência a antibióticos,
determinantes para o desenvolvimento de novos medicamentos.
A alternativa B está correta.
O GenBank oferece acesso gratuito a sequências de DNA de diversos organismos, permitindo que
cientistas de todo o mundo colaborem, compartilhem informações e avancem em pesquisas científicas nas
áreas de genética, evolução, biotecnologia e desenvolvimento de medicamentos.
Bancos e ferramentas: RefSeq e Blast
RefSeq e BLAST: sequências de referência e comparação
Confira neste vídeo o RefSeq, banco de dados curado para identificar variantes do SARS-CoV-2, e o BLAST,
ferramenta do NCBI para comparar sequências. Além disso, veja exemplos práticos de sua aplicação científica.
Conteúdo interativo
Acesse a versão digital para assistir ao vídeo.
RefSeq
Banco de dados do NCBI reúne sequências de DNA, RNA (transcritos) e proteínas de diferentes organismos. É
chamado de banco de dados referência porque contém informações mais organizadas, revisadas e sem
repetições desnecessárias (não redundantes). Isso significa que, em vez de armazenar várias versões de uma
mesma sequência enviadas por diferentes cientistas, o RefSeq mantém apenas uma versão bem anotada e
confiável.

O acesso é livre, permitindo que pesquisadores do mundo inteiro utilizem essas informações para estudar
genes, comparar organismos e desenvolver novos tratamentos e tecnologias. É muito utilizado em genética,
biotecnologia e bioinformática.

O RefSeq utiliza sequências genômicas previamente depositadas no GenBank, mas com um diferencial: a
equipe do NCBI e seus colaboradores realizam uma curadoria contínua para garantir que essas sequências
sejam não redundantes (sem cópias repetidas) e bem anotadas (com informações corretas sobre a localização
e a função dos genes). Considerando isso, veja a seguir um registro no RefSeq, destacando a organização das
informações sobre uma proteína específica e a curadoria realizada para garantir a qualidade dos dados.
Exemplo de registro no RefSeq, mostrando a anotação de uma proteína associada à
família Rhizobiaceae.
Isso significa que, enquanto o GenBank aceita qualquer sequência enviada por cientistas, o RefSeq seleciona
e organiza os dados, oferecendo versões mais confiáveis para pesquisas. Dessa forma, torna-se referência
para quem precisa de informações genéticas precisas e padronizadas.

Os dados contidos no RefSeq fornecem uma referência confiável para identificação e caracterização de
genes, análise de mutações e polimorfismos, estudos de expressão gênica e anotação de genomas.
Na pandemia da covid-19,
uma das grandes
preocupações era o
surgimento de novas
variantes do vírus SARS-
CoV-2. Variantes são
amostras da mesma
espécie, mas que
apresentam pequenas
mudanças na ordem de
bases nitrogenadas (A, T, G
e C) do material genético
em relação às primeiras
cepas sequenciadas desse
vírus.
Mudanças no
material
genético
podem conferir
ao vírus maior
capacidade de
disseminação,
aumentar a
chance de
provocar
doença ou até
provocar
sintomas mais
graves no
doente.
Por isso, laboratórios
que sequenciam o
genoma do vírus
SARS-CoV-2 devem
também identificar se
a amostra analisada
corresponde a uma
variante. Isso ocorre
quando o profissional
compara a sequência
de bases obtida com
uma sequência de
referência.
Já pensou
onde
podemos
encontrar
essa
sequência
referência?
No
RefSeq.
Principais variantes do vírus SARS-CoV-2
e suas regiões de origem.
Exemplo
O RefSeq disponibiliza a sequência de nucleotídeos de uma amostra de SARS-CoV-2 isolada em Wuhan,
China, onde a pandemia começou. Os dados dessa amostra são confiáveis e foram utilizados em um
artigo publicado na revista Nature, que relata a emergência da covid-19 (Wu et al., 2020).
Blast
Ferramenta disponível no portal do NCBI, permite comparar sequências biológicas, como DNA, RNA ou
proteínas, com outras armazenadas em bancos de dados.

Funciona como um buscador genético, ajudando os cientistas a encontrar semelhanças entre sequências. Por
exemplo, se você tem uma sequência de um gene desconhecido e quer saber se já foi estudado antes, basta
usar o BLAST para compará-lo com sequências conhecidas no GenBank ou RefSeq.O programa analisa os dados e fornece dois resultados principais:
Porcentagem de similaridade
Indica o quanto sua sequência se parece com
outras já registradas.
Valor estatístico (e-value)
Mostra a confiabilidade da comparação, ou
seja, se a similaridade encontrada pode ter
ocorrido por acaso ou se é realmente
significativa.
O BLAST é muito usado em estudos de genética, evolução, biotecnologia e até no diagnóstico de doenças,
ajudando pesquisadores a identificar genes, proteínas e até novas espécies.

Em bioinformática, essa comparação entre sequências é chamada de alinhamento. Vamos estudar com
detalhes os vários tipos de alinhamento de sequências possíveis nos próximos tópicos, mas, por agora,
focaremos a aplicação do BLAST no portal do NCBI.

Agora que você já sabe o que o BLAST é capaz de fazer, o próximo passo é entender como ele pode ser
aplicado no portal do NCBI. Esse programa foi criado por Stephen Altschul e colaboradores, em 1990, e hoje é
usado em vários bancos de dados que armazenam sequências biológicas.
Tela de configuração do BLAST.
Ao acessar o BLAST pelo portal do NCBI, você pode comparar uma sequência de nucleotídeos ou
aminoácidos de seu interesse com todas as milhões de sequências armazenadas nos bancos de dados do
NCBI. Como resultado, você vai obter uma lista com as sequências do banco mais similares à sua. Essa
informação pode ser usada para descobrir sequências evolutivamente próximas, que tenham funções
relacionadas ou que pertençam a uma mesma família de genes.

Agora, vamos fazer uma analogia à função do BLAST no NCBI.

Imagine que você esteja voltando do trabalho no ônibus exclusivo da empresa. De repente, começa uma
chuva muito forte, mas você não trouxe guarda-chuva. Uma pessoa do seu lado tem um reserva e lhe
empresta, mas, na correria, você saltou do ônibus e esqueceu de perguntar o nome da pessoa, e precisará
devolver o guarda-chuva. Uma forma de encontrar essa pessoa é descrevendo suas características físicas ao
motorista do ônibus naquele dia. Pode ser que ele não saiba exatamente quem é, afinal, o fluxo de pessoas na
empresa é muito grande, mas o motorista poderia lhe dar uma lista com nomes de prováveis donos.
Resumindo
As pessoas que usam o transporte da empresa representam as sequências nos bancos de dados do
NCBI, enquanto as características físicas descritas ao motorista correspondem às regiões de
similaridade identificadas pelo BLAST. Assim, a lista de nomes fornecida pelo motorista equivale ao
conjunto de sequências resultante da busca, ajudando a identificar quais delas mais se assemelham à
sequência consultada.
Atividade 3
Ferramentas e bancos de dados em bioinformática são importantes elementos da análise de informações
biológicas. Qual é a principal vantagem de utilizar o BLAST para a comparação de sequências biológicas?
A Geração de novas sequências evolutivamente distintas.
B Identificação de sequências com maior taxa de mutação.
C Organização de sequências biológicas em bancos de dados exclusivos.
D Criação de novas variantes genéticas em laboratório.
E Descoberta de sequências similares e suas possíveis funções.
A alternativa E está correta.
O BLAST permite comparar sequências biológicas com milhões de outras armazenadas em bancos de
dados. Identifica sequências similares e fornece informações relevantes sobre funções relacionadas ou
conexões evolutivas, facilitando a pesquisa e o avanço do conhecimento.
Pesquisa e recuperação de dados
Entenda neste vídeo as ferramentas do NCBI para pesquisa biomédica e genética. Aprenda a buscar no
PubMed, aplicar filtros e explorar o GenBank e RefSeq. Veja também como usar o BLAST para comparar
sequências biológicas.
Conteúdo interativo
Acesse a versão digital para assistir ao vídeo.
A ferramenta BLAST é uma das formas de acessar os dados armazenados em alguns bancos do NCBI. Agora,
serão exploradas essa e outras alternativas, com foco na aplicação prática da bioinformática.

Imagine um pesquisador que acaba de ingressar em um laboratório de pesquisa sobre bactérias resistentes a
antibióticos. Para se aprofundar no tema, ele precisa ler artigos científicos, e uma das melhores fontes
disponíveis é o banco de dados PubMed.
Acessando o PubMed
Entre no pubmed.ncbi.nlm.nih.gov/ e confira esta imagem:
Insira as palavras-chave
Digite termos em inglês relacionados ao tema.
Inicie a pesquisa
Clique em Search para buscar os dados da pesquisa.
Após a busca, será possível observar o número total de artigos recuperados sobre o tema, bem como o
período de publicação desses artigos em anos.

Uma busca realizada em 20 de fevereiro de 2025, utilizando as palavras-chave bacteria, resistance e
antimicrobial, resultou em 256.068 artigos publicados entre 1945 e 2025.
A quantidade de resultados encontrados costuma ser alta, tornando inviável a leitura de toda a bibliografia.
Uma solução para reduzir esse número na busca inicial do PubMed é aplicar filtros para restringir os
resultados. Na mesma página que mostra o resultado da busca, é possível observar, do lado esquerdo, os
filtros de pesquisa no PubMed; dentre eles, está disponibilidade do texto, tipo de artigo e ano de publicação.

No caso do exemplo que estamos seguindo, ao filtrar a busca por textos completos e gratuitos (free full text),
o número de resultados diminui para 114,927. Isso acontece porque alguns artigos do PubMed são liberados
para leitura integral apenas mediante pagamento.
Uma busca ainda mais específica pode ser realizada ao clicarmos em Advanced (avançado), na página inicial
do PubMed. Dessa forma, é possível especificar as palavras-chave por campo de pesquisa.

Para compreender melhor, veja o passo a passo a seguir.
Selecionar o campo de pesquisa
Escolha o campo de pesquisa em Add terms to the query box (Adicione termos à caixa de consulta), por
exemplo, Title (Título).
Inserir palavras-chave
Na caixa à frente, digite as palavras-chave.
Adicionar termos
Clique em Add. Neste campo, é possível adicionar várias especificações de uma vez.
Realizar busca
Após adicionar os termos desejados, clique em Search.
Outros campos de pesquisa disponíveis incluem autor, data e nome da revista. Em um teste no qual
especificamos que as três palavras-chave do exemplo deveriam aparecer no título do artigo simultaneamente,
o resultado da busca avançada foi de 31.004 artigos (na data da pesquisa), um número bem menor em
comparação aos resultados das buscas anteriores.
Atenção
As palavras-chave devem ser traduzidas para o inglês porque a maioria dos textos científicos são
publicados nesse idioma.
Após cada busca, uma lista de títulos de artigos é disponibilizada. Esses títulos aparecem na cor azul e são
hiperlinks. Se o texto estiver disponível de forma integral, nessa segunda página haverá um novo hiperlink
para a revista na qual o artigo foi publicado (full text link).

Os próximos bancos que vamos explorar serão GenBank e RefSeq. Como ambos armazenam sequências, a
forma de busca é semelhante. Podemos utilizar como ferramentas a busca textual ou a busca através do
BLAST.
Hiperlinks
Links que conectam a página atual a outra com mais informações sobre o artigo.
Busca textual
É uma forma simples de encontrar informações em bancos de dados usando palavras-chave. Quando você
digita um termo na ferramenta de busca, o sistema o procura nas descrições das sequências armazenadas.
Exemplo
Se você está estudando bactérias resistentes a antibióticos e descobre que algumas produzem uma
enzima chamada KPC (Klebsiella pneumoniae carbapenemase), pode pesquisar essa palavra no banco
de dados para encontrar a sequência do gene responsável por produzir essa enzima.
Essa ferramenta localiza rapidamente genes ou proteínas relacionadas a um tema específico, ajudando na
pesquisa e no desenvolvimento de novos tratamentos contra bactérias resistentes.

Para realizar a consulta nesses dois bancos, siga estes passos:

Acesse o GenBank ou RefSeq pelo ncbi.nlm.nih.gov/genban.

Digite a palavra-chaverelacionada à sequência de interesse.

1.
2.
Clique no botão Search para iniciar a pesquisa.

Considerando isso, acompanhe o exemplo a seguir.
Conteúdo interativo
Acesse a versão digital para ver mais detalhes da imagem
abaixo.
A palavra-chave de interesse pode ser o nome do gene ou a espécie, por exemplo. Como resultado da busca,
você vai encontrar uma lista de descritores de sequências depositadas no banco que contenham sua palavra-
chave.

Quem define o descritor da sequência é a pessoa que submeteu os dados ao NCBI.
Exemplo
Se você pesquisar KPC no banco de dados, um dos resultados pode ser: “Escherichia coli strain E02162
plasmid pE02162_KPC, complete sequence”. Isso significa que foi encontrada uma sequência completa
de um plasmídeo (pequeno pedaço de DNA que carrega genes de resistência) presente na bactéria
Escherichia coli, e que contém o gene KPC, responsável pela produção da enzima que torna essa
bactéria resistente a antibióticos.
Esses descritores aparecem na cor azul e são hiperlinks, ou seja, ligam aquela página em que você está à
página em que estão mais informações sobre aquela determinada sequência. Nessa nova página, é possível
saber o tamanho da sequência em pares de bases, quem foi o autor da submissão, se ela foi publicada em
algum artigo, entre outras informações.
3.
O dado mais importante é a sequência em si, que possui download liberado, tanto para GenBank quanto para
RefSeq. A partir deste ponto, devemos realizar três etapas. Confira!
Enviar o arquivo
Para fazer o envio do arquivo clique em Send to.
Selecionar e definir o formato
Aqui, selecione File e defina o formato desejado.
Criar o arquivo
Agora, clique em Create File para criar arquivo.
A maioria dos programas desenvolvidos por bioinformatas para trabalhar com dados de sequências de
nucleotídeos ou sequências de aminoácidos consegue ler o formato FASTA. Esse formato é baseado em texto
para representar tanto sequências de nucleotídeos quanto sequências de aminoácidos usando códigos de
uma única letra. É um dos formatos mais utilizados para armazenar e compartilhar sequências de DNA, RNA ou
proteínas. Por ser baseado em texto, pode ser aberto em qualquer editor de texto simples.

A estrutura de um arquivo FASTA segue duas regras principais:
Primeira linha
Começa com o símbolo > e contém uma descrição da sequência.
Linhas seguintes
Trazem a sequência propriamente dita, representada por letras:
Para DNA/RNA: A, T, C e G (as bases nitrogenadas).
Para proteínas: Um código de uma letra para cada aminoácido (como G para glicina, A para
alanina etc.).
A seguir, apresentamos um exemplo de como é um arquivo no formato FASTA:

>GeneX Escherichia coli
ATGCGTACGTAGCTAGT

Esse formato é aceito por programas de bioinformática, tornando a análise de sequências mais fácil. Se você
precisar baixar uma sequência do GenBank ou RefSeq, o formato FASTA é uma escolha prática e compatível
com a maioria dos softwares.
•
•
Representação do formato FASTA.
Busca de sequências com o BLAST
Outra forma de procurar sequências no GenBank e no RefSeq é usando a ferramenta BLAST.
Em vez de pesquisar com palavras-chave, como na busca textual, o BLAST permite buscas usando uma
sequência de DNA, RNA ou proteína como referência. Essa sequência inicial é chamada de query (consulta).
Como funciona?
Para encontrar uma sequência utilizando o BLAST, seguimos este passo a passo:

Você fornece a query (uma sequência que deseja comparar).

O BLAST pesquisa no banco de dados e encontra sequências similares, chamadas de subject.

O programa alinha sua sequência com as do banco e indica quais apresentam regiões altamente
parecidas e alta confiabilidade.

Isso é útil para descobrir se um gene já foi identificado antes, encontrar organismos com sequências
semelhantes e até entender a função de uma sequência desconhecida.
Como utilizar o PubMed, GenBank e RefSeq
Aprenda neste vídeo a buscar artigos no PubMed utilizando palavras-chave e sequências do GenBank e
RefSeq, além de explorar os filtros de resultados e a busca avançada.
Conteúdo interativo
Acesse a versão digital para assistir ao vídeo.
Atividade 4
Ferramentas como o PubMed, GenBank e RefSeq permitem acesso e análise de dados biológicos e literários,
utilizando estratégias de busca específicas que facilitam a recuperação de informações úteis. Qual é a
principal vantagem de usar filtros ou busca avançada em bancos de dados como PubMed ou GenBank?
1.
2.
3.
A Reduzir o número de resultados irrelevantes e refinar a pesquisa.
B Permitir o armazenamento automático de dados no formato FASTA.
C Estabelecer conexões diretas com autores das sequências.
D Garantir acesso gratuito a todos os artigos ou sequências disponíveis.
E Facilitar o compartilhamento imediato de dados com outras plataformas.
A alternativa A está correta.
O uso de filtros e busca avançada em bancos de dados delimita a pesquisa, tornando-a mais específica e
eficiente. Ao restringir a partir de critérios como palavras-chave, tipo de documento ou disponibilidade de
texto completo, é possível reduzir a quantidade de resultados irrelevantes e concentrar-se nos dados mais
úteis para o objetivo do pesquisador.
Fala, mestre!
Neste vídeo, Lice Ornelas aborda a construção de primers e o alinhamento de sequências, focando o SARS-
CoV-2 e a covid-19. Ele explica a estrutura do vírus, a importância da RT-PCR para diagnósticos e como
desenhar primers específicos para o gene S do vírus usando o Primer-BLAST do NCBI, destacando critérios
como tamanho e conteúdo de GC. Assista!
Conteúdo interativo
Acesse a versão digital para assistir ao vídeo.
Neste vídeo, Lícia Ornelas fala sobre anotação gênica e o uso do BLAST. A atividade utiliza ferramentas como
Dinmark S e BLAST do NCBI para predizer genes e funções de proteínas. A metodologia envolve acessar o
GenBank, baixar a sequência do SARS-CoV-2 e comparar proteínas semelhantes. O objetivo é entender a
diferença entre predição gênica e anotação funcional, algo essencial para o estudo de vírus, vacinas e
terapias. Confira!
Conteúdo interativo
Acesse a versão digital para assistir ao vídeo.
Aplicando o conhecimento
Maria é estudante de biomedicina e está iniciando seu trabalho de conclusão de curso (TCC) sobre bactérias
resistentes a antibióticos. Durante sua pesquisa inicial, ela descobre que uma das principais causas de
resistência está associada a enzimas que degradam os antibióticos, como a KPC (Klebsiella pneumoniae
carbapenemase). Para entender melhor essa relação, Maria decide buscar artigos científicos e sequências
genéticas relacionadas à KPC.
Estudante fazendo pesquisa no computador.
Maria acessa o PubMed pelo portal do NCBI e insere as palavras-chave bacteria, resistance, e KPC na busca.
Ela encontra 25.000 mil artigos, um número muito alto para revisar. Para refinar os resultados, Maria aplica
filtros, selecionando apenas textos completos gratuitos e restringindo o período de publicação para os últimos
cinco anos. Com isso, o número de resultados reduziu para 5.000 mil artigos. Após explorar os títulos e
resumos, ela encontra um artigo relevante que descreve os mecanismos de resistência associados à KPC.

Agora que Maria entende melhor os aspectos gerais da resistência, ela decide investigar a sequência genética
da KPC. Para isso, acessa o GenBank pelo portal do NCBI, insere KPC como palavra-chave na busca e
encontra a sequência completa do gene em uma cepa de Escherichia coli. Maria opta por baixar a sequência
no formato FASTA, ideal para análises computacionais.

Por fim, ela utiliza a ferramenta BLAST para comparar a sequência da KPC com outras disponíveis no banco
de dados. O BLAST retorna uma lista de genes similares em diferentes espécies bacterianas, ajudando Maria a
entender a distribuição evolutiva da resistência.

Com esses passos, Maria organiza dados relevantes para seu TCC, compreendendo o impacto das
ferramentas do NCBI no avanço da bioinformática.

Após a leitura do caso, é horade aplicar seus conhecimentos!
Questão 1
Qual a principal razão para Maria utilizar filtros no PubMed durante sua busca de literatura?
A Garantir que todos os artigos sejam de autores reconhecidos.
B Reduzir a quantidade de artigos irrelevantes para o seu tema de pesquisa.
C Restringir a busca apenas a artigos publicados em revistas específicas.
D Evitar artigos que contenham erros científicos.
E Garantir que apenas artigos revisados por pares sejam exibidos.
A alternativa B está correta.
Maria utilizou filtros no PubMed para tornar a busca mais eficiente, restringindo os resultados a artigos
gratuitos e publicados nos últimos cinco anos, o que reduziu bastante o número de artigos irrelevantes.
Isso facilita a revisão bibliográfica e o foco na literatura mais atual e específica para o tema. Alternativas
como A e C não correspondem ao uso funcional de filtros no PubMed, enquanto D e E não refletem o papel
principal dos filtros, pois o PubMed já é uma base confiável e com revisão por pares.
Questão 2
Explique como o uso do GenBank e do formato FASTA pode ajudar Maria a organizar e analisar a sequência
genética da KPC.
Chave de resposta
O GenBank permite a Maria acessar sequências genéticas confiáveis enviadas por outros pesquisadores,
como a do gene KPC, o que facilita o estudo da resistência bacteriana. Ao baixar a sequência no formato
FASTA, Maria utiliza um padrão amplamente aceito para análises computacionais, simplificando a
integração com programas bioinformáticos que processam e analisam essas sequências. Isso agiliza o
alinhamento e a identificação de similaridades com outras sequências, contribuindo para o entendimento
da evolução e dispersão da resistência bacteriana.
Questão 3
Como o BLAST pode complementar a análise de Maria e quais são as implicações práticas de encontrar genes
similares em outras espécies bacterianas?
Chave de resposta
O BLAST complementa a análise de Maria ao comparar a sequência KPC com um vasto banco de dados,
identificando genes similares em outras espécies bacterianas. Isso auxilia a entender como a resistência
pode ser compartilhada entre diferentes organismos, bem como a identificar padrões de evolução e
transferência gênica. As implicações práticas incluem o desenvolvimento de estratégias para conter a
disseminação da resistência, como a criação de novos antibióticos ou métodos de diagnóstico mais
precisos para variantes bacterianas resistentes.
Agora, vamos conferir este caso prático que envolve a utilização do PubMed para pesquisa científica, a
consulta de sequências no GenBank e a aplicação do BLAST na análise de resistência bacteriana. Assista ao
vídeo!
Conteúdo interativo
Acesse a versão digital para assistir ao vídeo.
2. Alinhamentos de sequências
Análise e alinhamento de sequências biológicas
Entenda neste vídeo como o alinhamento de sequências auxilia na identificação de variações, estudos
evolutivos e previsão de funções proteicas. Aprenda sobre identidade entre nucleotídeos e aminoácidos na
comparação de DNA. Veja também a importância dos pares de bases e a escala do genoma humano.
Conteúdo interativo
Acesse a versão digital para assistir ao vídeo.
Os bancos de dados de DNA, RNA e proteínas armazenam milhões de sequências já estudadas por cientistas.
Essas sequências são extremamente valiosas porque permitem:
Descobrir variações dentro de uma mesma espécie
Por exemplo, identificar mutações em bactérias que as tornam mais resistentes a antibióticos.
Entender relações evolutivas entre espécies
Ao comparar o DNA de diferentes organismos, podemos saber quais estão mais próximos na árvore
da vida.
Prever a função de novas proteínas
Se uma proteína recém-descoberta for parecida com outra já conhecida, podemos sugerir qual pode
ser sua função no organismo.
Para fazer essas descobertas, os cientistas utilizam um processo chamado alinhamento de sequências, que
compara diferentes sequências de DNA, RNA ou proteínas para encontrar semelhanças e padrões
importantes. Ferramentas como o BLAST possibilitam esse processo, tornando a análise mais rápida e
eficiente.
O objetivo de um alinhamento é encontrar o maior número de resíduos similares ou idênticos entre
sequências biológicas primárias.
No alinhamento de sequências, os elementos que compõem o DNA ou as proteínas são comparados posição
por posição. Veja!
DNA
Aqui os resíduos são os nucleotídeos (A, T, C,
G).
Proteínas
Aqui os resíduos são os aminoácidos,
representados por letras como A, R, G, L, entre
outros.
Dessa forma, quando duas sequências são alinhadas, diferentes situações podem ocorrer:

Se houver igualdade, os resíduos aparecem um embaixo do outro.

Se houver diferença, vemos nucleotídeos ou aminoácidos distintos na mesma posição.

Se houver um buraco (gap), significa que um resíduo foi perdido ou inserido em uma das sequências ao
longo da evolução.

Quando comparamos as sequências ATGGC e AAGGC, estamos analisando quantas posições têm
nucleotídeos iguais e quantas são diferentes. Acompanhe!
1
Alinhamento das sequências
ATGGC
AAGGC
2
Análise de identidade
As letras alinhadas A-T-G-G-C e A-A-G-G-C têm 4 nucleotídeos iguais (A, G, G, C) e apenas 1
nucleotídeo diferente (T ≠ A).
3
Cálculo da identidade
A identidade da sequência é (4 iguais / 5 totais) × 100 = 80%. Esse tipo de análise é importante para
entender o grau de semelhança entre sequências, o que pode indicar relações evolutivas ou
mutações que alteram a função de um gene.
Em bioinformática, nos referimos às letras que representam os nucleotídeos na sequência de DNA como
bases. Isso acontece porque o que difere um nucleotídeo do outro na molécula de DNA é sua base
nitrogenada.

Agora, se vamos nos referir ao comprimento de uma sequência de DNA, a medida usada são pares de bases
(pb). Falamos em pares, pois o DNA é uma molécula de fita dupla.
Curiosidade
Podemos dizer que o genoma humano (todo o conteúdo de DNA de uma célula humana) é formado por
mais de 3,2 bilhões de pares de bases.
•
•
•
•
•
Atividade 1
O alinhamento de sequências biológicas é uma ferramenta significativa na genética, especialmente na análise
de sequências de DNA, RNA e proteínas. Qual é o principal objetivo do alinhamento de sequências biológicas?
A Determinar a estrutura tridimensional de proteínas.
B Substituir nucleotídeos divergentes em uma sequência.
C Estimar o comprimento total de um genoma.
D Identificar o maior número de resíduos similares ou idênticos entre sequências.
E Medir a taxa de mutação de uma sequência ao longo do tempo.
A alternativa D está correta.
O alinhamento de sequências biológicas tem como principal objetivo encontrar resíduos semelhantes ou
idênticos entre duas ou mais sequências. Esse processo identifica relações evolutivas, variações genéticas
e funções biológicas de moléculas. Outros aspectos, como a determinação de estruturas tridimensionais,
medições de comprimento genômico ou taxas de mutação, não são o foco direto do alinhamento de
sequências. Da mesma forma, o alinhamento não está relacionado à modificação ou substituição de
nucleotídeos, mas sim à análise comparativa das sequências.
Tipos de aplicações do alinhamento
Aprenda, neste vídeo, os tipos de alinhamento de sequências e suas aplicações. Entenda as diferenças entre
alinhamentos globais, locais, ótimos e heurísticos. Veja também como alinhamentos simples e múltiplos
auxiliam na identificação de domínios proteicos e na construção de árvores filogenéticas.
Conteúdo interativo
Acesse a versão digital para assistir ao vídeo.
Muitos programas de computador já foram e vêm sendo desenvolvidos com a função de realizar o
alinhamento de sequências. O objetivo geral é o mesmo, mas existem diferenças entre eles que precisamos
saber, pois isso ajuda na escolha da melhor opção para cada análise. Essas diferenças estão relacionadas à
exigência ao encontrar o melhor pareamento possível, à extensão que será alinhada e ao número de
sequências alinhadas.
Precisão do alinhamento
O objetivo dos programasde alinhamento de sequências é encontrar o melhor pareamento possível, aquele
que reflita o maior número de similaridade entre as sequências comparadas. No entanto, o alinhamento
perfeito leva tempo e poder computacional para ser alcançado. Por isso, algumas ferramentas optam por
acelerar o processo e buscam por uma aproximação do alinhamento ideal. Usando esse critério, o programa
de alinhamento pode ser do tipo ótimo ou do tipo heurístico.
Um software de
alinhamento
ótimo encontra
a melhor
correspondência
possível entre
duas ou mais
sequências,
seguindo
critérios
específicos. Isso
significa que, se
você repetir a
análise, o
resultado
sempre será o
mesmo, pois já
foi encontrada a
melhor solução
disponível.
No entanto, o
alinhamento
perfeito pode
ser inviável em
alguns casos,
especialmente
quando lidamos
com muitas
sequências ou
sequências
muito longas.
Isso acontece
porque o
número de
comparações
cresce de
forma
exponencial,
exigindo
computadores
muito potentes
e muito tempo
de
processamento.
Para contornar
essa limitação,
muitos
programas
utilizam
métodos
aproximados
que reduzem o
tempo de
análise,
mantendo uma
boa precisão
nos resultados.
Ferramentas
como o BLAST
são um
exemplo, pois
encontram
alinhamentos
rápidos e
confiáveis,
mesmo que
nem sempre
sejam os
ótimos.
Para acelerar
a
comparação
de
sequências,
utilizamos
programas
de
alinhamento
heurístico.
Esses
programas
funcionam
como atalhos
inteligentes,
pois não
testam todas
as
combinações
possíveis,
embora
consigam
encontrar um
resultado
muito
próximo do
ideal.
A principal
vantagem do
alinhamento
heurístico é a
velocidade: ele
reduz drasticamente
o tempo necessário
para a análise,
possibilitando
comparar grandes
quantidades de
sequências sem
precisar de
supercomputadores.
Compare os
seguintes métodos:
Representação do processo de
alinhamento de sequências genéticas.
Alinhamento ótimo
Proporciona o melhor resultado possível, mas
pode ser muito demorado e pesado
computacionalmente.
Alinhamento heurístico
Faz uma aproximação rápida do melhor
resultado, garantindo eficiência sem perder
muita qualidade.
Ferramentas como o BLAST usam esse método heurístico para comparar sequências de forma prática e
eficiente. A escolha entre ótimo ou heurístico depende do equilíbrio entre precisão e tempo disponível para a
análise.
Extensão alinhada
Existem duas formas de alinhar sequências biológicas com base em sua extensão: alinhamentos globais e
locais. Entenda a diferença a seguir.
As sequências curtas conservadas entre diferentes proteínas são chamadas de domínios. Veja!
Representação da comparação entre o alinhamento global e local.
A partir disso, observe uma ilustração com a aplicabilidade prática que demonstra a diferença entre os
alinhamentos global e local, destacando em quais situações cada um deve ser utilizado.
Exemplo de alinhamento local para descobrir a função de uma proteína
Imagine descobrir uma nova espécie de planta na Floresta Amazônica, que produz determinada proteína em
grande quantidade. Para entender sua possível função, você decide compará-la com proteínas cujas funções
já são conhecidas. Acompanhe os passos a seguir.
Comparação com sequências conhecidas
Você tem um alinhamento global, comparando a proteína inteira com outras, mas não encontra uma
sequência semelhante. Então, utiliza um alinhamento local, que analisa pequenos trechos da proteína
em comparação com partes de outras proteínas já estudadas.
Alinhamento global
Compara resíduos
ao longo de toda
a sequência, de
ponta a ponta. É
indicado quando
as sequências são
similares em todo
o seu
comprimento.
Se a comparação for
entre o mesmo gene em
organismos da mesma
espécie, pequenas
diferenças podem surgir
por mutações pontuais.
Nesse caso, o
alinhamento global é
recomendado.
Alinhamento local
Prioriza as
regiões mais
similares,
sem
considerar o
comprimento
total da
sequência. É
útil quando
as
sequências
são
diferentes ou
têm
tamanhos
distintos.
Imagine uma sequência
de proteína recém-
obtida. Por ser nova, ela
pode não ser semelhante
em toda a sua extensão a
sequências de um banco
de dados. Por isso, o
alinhamento local é
usado para encontrar
pequenas regiões
parecidas, que
correspondem a padrões
de funções conhecidas
como blocos.

Identificação de regiões conservadas
Você descobre que um trecho da sua proteína é muito parecido com uma região rica em leucina,
conhecida por estar presente em proteínas envolvidas na imunidade inata.
Conclusão
Mesmo sem encontrar uma proteína idêntica, essa semelhança parcial já sugere que sua proteína
pode ter um papel na defesa da planta contra patógenos. Esse tipo de análise é muito usado na
bioinformática para prever a função de proteínas desconhecidas, ajudando na descoberta de novos
mecanismos biológicos.
Número de sequências
Quanto ao número de sequências alinhadas, os alinhamentos podem ser simples ou múltiplos. Vamos
conhecê-los!
Alinhamento simples
Também conhecido como par a par ou pairwise, é quando apenas duas sequências são comparadas.

Essa é a estratégia de alinhamento usada em bancos de dados de sequências biológicas, por exemplo. O
programa de busca por alinhamento implementado em um banco de dados vai realizar o pareamento entre a
sequência-pergunta de interesse do usuário com as sequências que estão no banco. O número de
alinhamentos simples que será feito é proporcional ao número de sequências armazenadas no banco de
dados, sempre par a par: sequência-pergunta + sequência do banco.

Ao alinhar uma sequência contra um banco de dados, geralmente encontramos várias sequências similares.
No final, podemos obter um grupo de sequências bem parecidas e é possível converter os vários alinhamentos
simples em um único alinhamento com todas elas.
Alinhamento múltiplo
É a comparação de três ou mais sequências relacionadas para obter a correspondência ideal entre elas. O
resultado desse alinhamento permite a identificação de regiões que sejam conservadas entre todas as
sequências. Também é possível visualizarmos quais as diferenças na ordem dos resíduos, que correspondem
a mudanças evolutivas ocorridas ao longo dos anos.

É a partir desse tipo de alinhamento que a relação evolutiva entre os organismos pode ser sugerida, e assim
são geradas as árvores filogenéticas (parecidas com uma árvore genealógica).
Representação da árvore filogenética do micoplasma (bactérias da classe dos
Mollicutes).
Na árvore filogenética, os galhos são as distâncias entre os organismos, as ramificações são os ancestrais e
as pontas os descendentes comparados.
Atividade 2
Alinhamentos de sequências biológicas comparam e interpretam dados genéticos, permitindo análises
detalhadas de similaridades, diferenças e relações evolutivas entre moléculas e organismos. Qual fator deve
ser considerado ao escolher entre alinhamento global e local para análise de sequências biológicas?
A O comprimento total do genoma das espécies analisadas.
B A similaridade esperada ao longo de toda a extensão das sequências.
C A presença de domínios evolutivamente conservados em proteínas.
D O número de sequências disponíveis no banco de dados.
E A complexidade do algoritmo usado pelo programa de alinhamento.
A alternativa B está correta.
A escolha entre alinhamento global e local depende da expectativa de similaridade ao longo das sequências
comparadas. O alinhamento global é utilizado quando há alta similaridade em toda a extensão das
sequências, enquanto o alinhamento local é ideal para identificar regiões específicas similares em
sequências que podem ser divergentes ou de tamanhos diferentes. Fatores como a presença de domínios,
o número de sequências no banco de dados ou a complexidade do algoritmo não são determinantes diretos
para essa escolha.
Programas para alinhamento de sequência
Conheça no vídeo os fundamentos do alinhamento de sequências e o funcionamento do BLAST. Entenda suas
variações, aplicações e a importância do e-value na confiabilidade dos resultados. Veja também um exemplo
prático do BLASTx na identificaçãode proteínas.
Conteúdo interativo
Acesse a versão digital para assistir ao vídeo.
Antes de darmos exemplos reais de softwares usados para o alinhamento de sequências, precisamos definir
alguns termos usados para explicar o funcionamento dessas ferramentas.

Observe um alinhamento simples entre duas sequências de nucleotídeos e acompanhe as definições.
Representação do alinhamento simples de sequências de nucleotídeos.
A imagem destaca algumas nomenclaturas, vamos entender o que cada uma delas representa.
1
Match
É a posição no alinhamento em que o resíduo é o mesmo entre as sequências comparadas.
Podemos dizer que essas são posições conservadas.
2 Mismatch
É a posição no alinhamento em que o resíduo é diferente entre as sequências comparadas. Nesses
casos, ocorreu uma mutação por substituição de nucleotídeo em uma das sequências.
3
Gap
É um espaço em uma das sequências comparadas, causado pelo deslocamento de resíduos dela em
relação à outra sequência. É inserido pelo programa para melhorar o alinhamento e encontrar mais
similaridades. Esses espaços representam deleções ou inserções que as sequências comparadas
possam ter sofrido.
4
Pontuação (score)
É o total do somatório de matches subtraídos do número de mismatches e gaps ao longo do
alinhamento. Cada alinhamento possui uma pontuação.
Basic Local Alignment Search Tool – BLAST
O BLAST é o programa de alinhamento de sequências mais amplamente utilizado. Ele se caracteriza por
realizar alinhamento simples, local e heurístico. Isso quer dizer que ele sempre vai comparar as sequências
duas a duas, buscando por regiões similares entre elas, e o resultado vai ser próximo ao ideal.
Como funciona a busca no BLAST?
Veja como as pesquisas são realizadas nessa ferramenta.
Inserção da sequência
É necessário inserir uma sequência, chamada de query (pergunta), para iniciar o processo. Exemplo:
MRDPYNKLI.
Divisão em palavras
O BLAST dividirá essa sequência em pequenos trechos, chamados de palavras, como MRD, PYN e
KLI.
Busca no banco de dados
O programa vai procurar no banco de dados sequências que contenham pelo menos uma dessas
palavras.
Semente (Seed)
Quando encontrar uma correspondência, essa parte da sequência será chamada de semente (seed).
Expansão do alinhamento
O BLAST então expandirá o alinhamento a partir da semente, tentando encontrar uma região maior de
semelhança.
Visto isso, o BLAST não compara sequência por sequência de forma exata, mas encontra pequenos trechos
iguais e expande o alinhamento, acelerando a busca. Assim, é possível encontrar sequências parecidas e
biologicamente relevantes de maneira muito mais fácil. Veja este exemplo:
Representação do procedimento de alinhamento pelo programa BLAST.
O BLAST é considerado heurístico, porque ele não compara cada resíduo das sequências entre si. Em vez
disso, cria uma lista de palavras curtas e a partir delas realiza o alinhamento, o que diminui o número de
comparações e acelera a obtenção do resultado. A velocidade do resultado do BLAST permite que seja viável
usá-lo para buscar por sequências similares em bancos enormes, com milhões de sequências.
Como saber se o resultado do BLAST é confiável?
O BLAST não oferece um alinhamento perfeito, mas sim métricas importantes que ajudam a avaliar a
relevância e a qualidade dos resultados. Para que os resultados sejam significativos, é preciso considerar os
principais indicadores de qualidade do alinhamento, que fornecem informações sobre a confiabilidade das
comparações realizadas. São eles:
Porcentagem de identidade
Mostra quantos nucleotídeos ou aminoácidos
são iguais entre as sequências comparadas.
Quanto maior, melhor.
E-value (valor de expectativa)
Indica a chance de o alinhamento ter ocorrido
por acaso.
E-value (valor de expectativa)
É uma métrica usada em programas de alinhamento de sequências, como o BLAST, para avaliar a significância
dos resultados de uma busca. Ele oferece uma estimativa de quantas vezes um resultado semelhante ao que
foi encontrado pode ocorrer por acaso em um banco de dados de tamanho determinado.

Quanto menor o e-value, mais confiável é o alinhamento.

Se for muito alto, significa que a semelhança pode ter sido apenas coincidência.

Um e-value próximo de zero indica que a correspondência entre as sequências é estatisticamente
significativa.

Portanto, o e-value ajuda a diferenciar resultados reais de coincidências aleatórias. Quando analisamos os
resultados do BLAST, devemos procurar alta identidade + baixo e-value para assegurar que a sequência
realmente tenha uma relação biológica relevante.

Mas qual é o valor ideal?

0 valor ideal é o mais próximo possível de zero. De forma geral, se o valor de e-value é menor que 1 x ,
esse é um alinhamento extremamente confiável. Quando o valor está entre , esse
alinhamento pode ser confiável.

Porém, se o valor estiver entre e 10, então você está olhando para um alinhamento sem
significância.

O melhor valor de e-value, o mais significativo estatisticamente, que você pode obter em um alinhamento
BLAST é 0,0.
Relembrando
Quando um número está escrito na forma 10 elevado a um número negativo, isso significa que devemos
mover a vírgula para a esquerda. Podemos visualizar de forma mais clara no exemplo a seguir: 1 × 10⁻² →
Mova a vírgula duas casas para a esquerda → 0,015 × 10⁻³ → Mova a vírgula três casas para a esquerda
→ 0,0052,3 × 10⁻⁴ → Mova a vírgula quatro casas para a esquerda → 0,00023 Essa notação é muito
usada em ciência, especialmente para representar valores muito pequenos, como o e-value no BLAST.
Quanto menor o número (mais negativo o expoente), mais significativo é o resultado.
Variantes do BLAST e exemplo de uso
O BLAST não é um único programa, mas sim uma família de ferramentas, cada uma projetada para comparar
diferentes tipos de sequências biológicas. A escolha da versão correta depende do que você deseja
pesquisar. Vamos lá!
BLASTn
Compara DNA com DNA.
•
•
•
BLASTp
Compara proteína com proteína.
BLASTx
Utiliza DNA como entrada, mas primeiro o traduz para proteína e depois compara no banco de
proteínas.
tBLASTn
Utiliza proteína como entrada e compara com um banco de DNA traduzido.
tBLASTx
Traduz tanto a query (DNA) quanto o banco (DNA) e compara proteínas teóricas.
Exemplo prático

Um pesquisador sequenciou o DNA de uma bactéria e encontrou um gene novo. Ele queria saber qual proteína
esse gene produz e sua sequência de aminoácidos.
Solução
O pesquisador utilizou o BLASTx, que traduz a sequência de DNA para proteína antes de compará-la com um
banco de proteínas conhecidas.
Tela de configuração do software BLAST.
O BLAST encontrou uma proteína chamada BasR, presente na Escherichia coli. A análise revelou um alto grau
de similaridade entre a sequência teórica e a encontrada no banco de dados. Acompanhe!
Identidade
A correspondência entre a proteína traduzida e a do banco foi de 99%, indicando que elas são praticamente
idênticas.
Tela de configuração do BLAST: Resultados organizados por e-value, destacando os
alinhamentos mais confiáveis.
E-value
O valor obtido foi 2 × 10⁻¹⁴⁵, extremamente baixo, confirmando que o alinhamento não ocorreu por acaso e é
altamente confiável.
Tela de configuração do BLAST: Exibição do alinhamento local.
Gaps
Nenhum gap foi identificado, pois não houve necessidade de inserir espaços para melhorar o alinhamento.
Curiosidade
Quando alinhamos proteínas, pode haver diferenças na sequência, mas os aminoácidos podem ter
funções químicas parecidas, tornando o alinhamento ainda válido. Esse é o conceito de positividade, que
às vezes é maior que a identidade. No caso do exemplo, identidade e positividade foram iguais (99%),
mostrando um alinhamento perfeito.
Alinhamento de sequências com a ferramenta BLAST
Confira neste vídeo o processo de alinhamento de sequências a partir do banco de dados do NCBI e do uso
da ferramente BLAST.
Conteúdo interativo
Acesse a versão digital para assistir ao vídeo.
Atividade 3
O BLAST é uma ferramenta de alinhamentode sequências biológicas que fornece resultados próximos ao
ideal, com base em critérios como identidade, positividade e valor estatístico (e-value). Qual fator determina a
confiabilidade estatística de um alinhamento gerado pelo BLAST?
A O número de gaps presentes no alinhamento.
B A positividade entre as sequências comparadas.
C A similaridade química dos resíduos alinhados.
D O valor de e-value obtido no alinhamento.
E A quantidade de palavras analisadas na sequência query.
A alternativa D está correta.
O e-value é o principal indicador de confiabilidade estatística em alinhamentos realizados pelo BLAST.
Representa a probabilidade de o alinhamento ocorrer ao acaso. Quanto menor o e-value, mais confiável é o
alinhamento, sendo valores próximos de zero os ideais. Outros fatores, como a positividade e os gaps,
fornecem dados complementares, mas não determinam diretamente a significância estatística. A
quantidade de palavras analisadas está relacionada à eficiência computacional, mas não à confiabilidade
dos resultados.
Clustal
Clustal: alinhamento múltiplo e global de sequências
Aprenda no vídeo como o Clustal realiza alinhamentos múltiplos e globais de sequências biológicas. Veja sua
aplicação na identificação de regiões conservadas e relações evolutivas. Além disso, entenda as diferenças
entre Clustal e BLAST em precisão, extensão e número de sequências alinhadas.
Conteúdo interativo
Acesse a versão digital para assistir ao vídeo.
É um programa utilizado para alinhar simultaneamente três ou mais sequências biológicas (DNA, RNA ou
proteínas). Suas principais características são:
Alinhamento múltiplo
Compara três ou mais sequências ao mesmo tempo.
Alinhamento global
As sequências são comparadas ao longo de toda a sua extensão.
Método heurístico
Usa uma abordagem aproximada para acelerar o processo, já que um alinhamento perfeito seria muito
demorado.
O Clustal é ideal quando queremos comparar sequências relacionadas evolutivamente e de tamanhos
semelhantes, como:

Identificar padrões de conservação genética entre espécies.

Construir árvores filogenéticas para entender relações evolutivas.

Comparar proteínas similares para prever funções biológicas.

Se você precisa alinhar múltiplas sequências ao mesmo tempo, o Clustal é uma ferramenta eficiente para
analisar semelhanças evolutivas e padrões conservados dentro de grupos de genes ou proteínas.
Como podemos utilizar o Clustal?
O Clustal é uma ferramenta ideal para comparar a sequência de aminoácidos da proteína histona entre
diferentes espécies, como homem, chimpanzé, camundongo, rato e vaca.
Por que a histona?
A histona é a principal proteína que compõe o nucleossomo, estrutura que organiza o DNA dentro das células
eucarióticas. Como sua função é a mesma em todas essas espécies, sua sequência de aminoácidos deve ser
muito parecida, com apenas pequenas diferenças ao longo da evolução.
Por que utilizar o Clustal?
Existem diversas versões do Clustal, com destaque para o ClustalW e o Clustal Omega, que são as mais
conhecidas. Essas versões têm como característica a capacidade de alinhar múltiplas sequências ao mesmo
tempo, gerando resultados que podem ser usados para construir árvores filogenéticas e explorar a evolução
molecular.
Alinhamento global
Compara toda a extensão da proteína, pois
esperamos uma sequência altamente
conservada.
Alinhamento múltiplo
Permite comparar cinco espécies ao mesmo
tempo, facilitando a visualização de
semelhanças e pequenas variações.
O que podemos descobrir?
Com o Clustal, podemos descobrir informações sobre a evolução, as funções biológicas, as mutações
genéticas e as interações proteicas, assim como:

Regiões altamente conservadas, ou seja, aminoácidos que não mudaram ao longo da evolução.

Pequenas variações que ocorreram devido a diferentes trajetórias evolutivas de cada espécie
.
•
•
•
•
•
Padrões evolutivos, ajudando a entender como as proteínas se adaptam e mantêm sua função ao longo
do tempo.

O alinhamento múltiplo realizado pelo Clustal começa a ser feito a partir de vários alinhamentos simples, para
todos os pares possíveis entre as sequências comparadas. Entenda melhor como funciona esse processo.
Representação do procedimento do alinhamento feito pelo programa Clustal.
O Clustal e outras ferramentas de alinhamento múltiplo são aplicadas quando queremos responder a
perguntas do tipo:

Qual a região conservada entre as proteínas que são receptores celulares?

Quem é mais próximo evolutivamente quando eu comparo homem, chimpanzé e orangotango?

Qual seria o alvo ideal de um primer de PCR (Reação em cadeia da polimerase) para detectar o mesmo
gene em diferentes espécies?

Como resposta, você poderia encontrar que uma região rica em aminoácidos hidrofóbicos está presente em
todas as sequências de proteínas receptoras que você alinhou, o que faz sentido, já que elas precisam
atravessar a membrana plasmática para se firmar. Comparando a sequência de nucleotídeos do RNA
ribossômico de homem, chimpanzé e orangotango, você poderia verificar que a sequência do chimpanzé é
mais similar à humana, e, portanto, o orangotango seria o mais antigo evolutivamente. Agora, a última
pergunta será respondida quando estudarmos os primers.
A seguir, apresentamos uma tabela comparativa dos principais programas de alinhamento que estudamos.
•
•
•
•
Programa Precisão Extensão alinhada Número de sequências
BLAST Heurístico Local Simples
Clustal Heurístico Global Múltiplo
Tabela: Principais programas de alinhamento de sequência e suas características.
Melise Chaves Silveira
Atividade 4
O Clustal e o BLAST são ambos programas amplamente usados na bioinformática para realizar alinhamentos
de sequências biológicas, mas eles têm propósitos e abordagens diferentes. Qual cenário é mais adequado
para o uso do programa Clustal em comparação ao BLAST?
A Analisar rapidamente regiões específicas de similaridade entre sequências curtas.
B Comparar a sequência de um gene com um banco de dados para identificar funções.
C Determinar relações evolutivas entre espécies utilizando múltiplas sequências globais.
D Realizar buscas rápidas por correspondências em grandes bancos de dados.
E Identificar mutações pontuais em um gene específico de uma única espécie.
A alternativa C está correta.
O Clustal é ideal para alinhamentos globais e múltiplos, sendo usado para comparar várias sequências ao
longo de toda a sua extensão, como na determinação de relações evolutivas ou na identificação de regiões
conservadas. Já o BLAST, por ser heurístico e local, é mais indicado para buscas rápidas em bancos de
dados e alinhamentos simples. Situações que envolvem análises pontuais ou comparações simples são
mais apropriadas para ferramentas como o BLAST, enquanto o Clustal é projetado para explorar
semelhanças globais entre várias sequências evolutivamente relacionadas.
Aplicando o conhecimento
João está desenvolvendo um projeto de iniciação científica sobre proteínas relacionadas à imunidade inata em
diferentes espécies. Ele quer entender como a sequência de aminoácidos de uma proteína específica, rica em
leucina, está conservada entre seres humanos, chimpanzés, orangotangos e camundongos. Seu objetivo é
verificar se essa proteína desempenha funções semelhantes nessas espécies e identificar diferenças
evolutivas.
Jovem em laboratório analisando dados no computador.
João decide usar o Clustal, programa que permite realizar alinhamentos múltiplos e globais. Essa abordagem é
ideal para comparar a sequência completa da proteína entre várias espécies e observar similaridades e
diferenças ao longo de toda a extensão.
Ele busca no GenBank as sequências de aminoácidos correspondentes à proteína de interesse em humanos,
chimpanzés, orangotangos e camundongos. Após reunir as sequências no formato FASTA, ele as insere no
Clustal para realizar o alinhamento.
O alinhamento revela que a sequência da proteína é altamente conservada entre humanos e chimpanzés,
apresentando 98% deidentidade. Em orangotangos, a identidade é de 95%, enquanto em camundongos cai
para 80%. João observa que as diferenças estão concentradas em regiões específicas, enquanto outras
permanecem completamente conservadas. Essas regiões conservadas provavelmente correspondem a
domínios funcionais essenciais, como a interação com receptores celulares.
Com base no alinhamento, João conclui que humanos e chimpanzés têm maior proximidade evolutiva,
enquanto camundongos, pertencentes a outra ordem de mamíferos, apresentam maior divergência. Ele sugere
que as regiões conservadas podem ser usadas para desenvolver primers a fim de detectar o gene dessa
proteína em outras espécies (um ponto a ser explorado em estudos futuros).

Esse exercício permitiu a João compreender a importância de ferramentas de alinhamento múltiplo como o
Clustal na análise de relações evolutivas e conservação de sequências biológicas.

Após a leitura do caso, é hora de aplicar seus conhecimentos!
Questão 1
No estudo de João, a ferramenta Clustal foi escolhida para realizar o alinhamento das sequências de
aminoácidos. Com base nas características do Clustal, qual seria o maior benefício do uso dessa ferramenta
no contexto do projeto de João?
A Alcançar resultados perfeitos e alinhamentos ideais mesmo com grande quantidade de sequências.
B Permitir o alinhamento de sequências com diferentes comprimentos, independentemente de relação
evolutiva.
C Identificar exclusivamente mutações pontuais em proteínas divergentes.
D Realizar alinhamento local e detectar apenas domínios de proteínas curtas.
E Comparar múltiplas sequências de proteínas ao longo de toda a sua extensão de forma aproximada.
A alternativa E está correta.
A escolha pelo Clustal foi baseada na sua capacidade de realizar alinhamentos múltiplos e globais,
permitindo a análise completa das sequências de proteínas em diferentes espécies, uma característica
necessária para estudar similaridades ao longo de toda a extensão da proteína. A alternativa A está
incorreta porque o Clustal utiliza um método heurístico, não garantindo resultados perfeitos. A alternativa C
é imprecisa, pois o foco do Clustal não são exclusivamente mutações pontuais. Já a alternativa D descreve
alinhamentos locais, o que não se aplica ao Clustal. A alternativa B também está incorreta, pois o Clustal é
mais eficiente para sequências com comprimento semelhante.
Questão 2
Por que João escolheu realizar um alinhamento global em vez de local para analisar a sequência da proteína
rica em leucina entre diferentes espécies? Explique a diferença entre esses dois tipos de alinhamento e sua
relação com os objetivos do estudo.
Chave de resposta
João escolheu o alinhamento global porque pretendia analisar a sequência completa da proteína em
diferentes espécies para observar similaridades e diferenças ao longo de toda a extensão. O alinhamento
global é adequado quando as sequências têm comprimentos semelhantes e são evolutivamente
relacionadas, pois ele compara as sequências de ponta a ponta. Já o alinhamento local é indicado quando
se deseja encontrar regiões específicas de maior similaridade em sequências divergentes ou de diferentes
tamanhos. No caso de João, o alinhamento global permitiu identificar regiões conservadas importantes
para a função da proteína, atendendo ao objetivo do estudo de avaliar relações evolutivas.
Questão 3
Quais conclusões João pode tirar sobre a evolução das espécies analisadas a partir dos resultados do
alinhamento e como isso contribui para a biologia evolutiva?
Chave de resposta
A partir do alinhamento, João concluiu que humanos e chimpanzés têm maior proximidade evolutiva, com
98% de identidade na sequência da proteína, enquanto camundongos apresentam maior divergência
(80%). Esses dados indicam que humanos e chimpanzés compartilham um ancestral comum mais recente
em comparação aos camundongos. As regiões conservadas da proteína sugerem importantes funções
mantidas ao longo da evolução, enquanto as diferenças refletem adaptações específicas de cada espécie.
Essa análise revela padrões de conservação e diversificação molecular, ajudando a compreender como
processos da biologia evolutiva moldaram características funcionais nas espécies.
Veja agora como o Clustal foi usado para analisar a conservação de uma proteína entre espécies, obtendo
sequências no GenBank, realizando alinhamentos múltiplos e destacando regiões conservadas para
desenvolver primers em pesquisas futuras. Assista ao vídeo!
Conteúdo interativo
Acesse a versão digital para assistir ao vídeo.
3. Os primers
Primers: definições e aplicações
Primers e alinhamento múltiplo: identificando regiões conservadas
Entenda no vídeo como o Clustal auxilia na identificação de regiões conservadas no gene RNAr 16S em
bactérias. Veja seu uso no design de primers para PCR e amplificação de sequências específicas.
Conteúdo interativo
Acesse a versão digital para assistir ao vídeo.
Uma das utilidades do alinhamento múltiplo de sequências é encontrar trechos que são iguais ou muito
parecidos em diferentes organismos. Isso permite identificar regiões conservadas em genes, ou seja, partes
que permaneceram quase inalteradas ao longo da evolução.
Exemplo
Todas as bactérias contam com um gene chamado RNAr 16S, que faz parte do RNA ribossômico e atua
na produção de proteínas. Com o tempo, esse gene sofreu algumas mudanças em diferentes espécies
bacterianas, embora certas partes tenham continuado iguais ou muito semelhantes.
Se quisermos descobrir quais partes desse gene não mudaram entre várias espécies de bactérias, podemos
usar o programa Clustal, que compara as sequências e alinha os trechos semelhantes. Esse tipo de análise é
muito útil para desenvolver primers, pequenos pedaços de DNA usados em técnicas como a PCR (reação em
cadeia da polimerase), para identificar e amplificar genes específicos.
Representação de parte do alinhamento múltiplo e global do gene RNAr 16S de
bactérias.
Depois de escolher uma parte do DNA que queremos estudar, podemos detectá-la e copiá-la usando a PCR.
Essa reação funciona como uma fotocopiadora molecular, fazendo várias cópias de uma região específica do
DNA. Isso é muito relevante em pesquisas, testes genéticos e até em exames para identificar vírus e bactérias.

Para que a PCR aconteça, precisamos de alguns ingredientes:
DNA molde
É o DNA extraído da amostra, que contém a sequência que queremos amplificar.
Primers
São pequenos pedaços de DNA que se ligam à região-alvo e mostram à enzima onde começar a
cópia.
DNA polimerase
É a enzima que lê o DNA molde e constrói novas cópias da sequência desejada.
Os primers atuam como marcadores, ligando-se às extremidades da região do DNA que será copiada. Assim,
o DNA polimerase sabe exatamente onde começar e terminar a amplificação.

Em uma PCR convencional, dois primers são utilizados, ligando-se em posições diferentes, que cercam a
região alvo.
Representação do pareamento de um par de a uma região alvo no DNA molde.
Suponha que a região de interesse seja aquela conservada no gene RNAr 16S de diferentes espécies
bacterianas. Essa parte do DNA pode ser utilizada para desenvolver primers capazes de detectar bactérias
presentes em diferentes tipos de amostras, como solo, água e fezes.

Já sabemos que a sequência de nucleotídeos dos primers deve ser complementar ao local que queremos que
eles se liguem. Se na região alvo existe a sequência CCGCC, para que um primer se ligue a ela, sua sequência
deve ser GGCGG.

Na imagem a seguir, observa-se uma região parcialmente conservada entre as posições 890 e 1000
(indicadas pelas setas vermelhas). Nessa região, o asterisco indica que a base é a mesma em todas as
sequências comparadas nessa posição.
Representação do alinhamento múltiplo das sequências do gene RNAr 16S de
diversas espécies bacterianas.
Atividade 1
Para obter sucesso na amplificação de DNA, é preciso escolher primers complementares em uma PCR. Como
essa escolha influencia os resultados de uma análise genética?

Micologia e Virologia estacio 4

Outros

Ferramentas de estudo

Como o BLAST pode complementar a análise de Maria e quais são as implicações práticas de encontrar genes similares em outras espécies bacterianas?

Conteúdos escolhidos para você

SIMULADO BIOINFORMÁTICA

EXERCICIO 5 BIOTECNOLOGIA E BIOINFORMÁTICA

NCBI e alinhamento de sequências

BIOINFORMATICA ll (1)

Desempenho em Exercícios Científicos

Perguntas dessa disciplina

PERGUNTA 2 Segundo a CBPF, a natureza produz equipamentos de extrema engenhosidade. Por exemplo, os flagelos de bactérias, que são considerados nanomo

Segundo a CBPF, a natureza produz equipamentos de extrema engenhosidade. Por exemplo, os flagelos de bactérias, que são considerados nanomotores qu...

Marque a opção correta em relação às regiões de DNA utilizadas para análises forenses e identificação humana. Escolha uma opção: a. Os primeiros k...

1D 2A 3B 4E 5 6 - 7 8 9 10 11 12 Tempo di Prova Questão 5 Dos marcadores moleculares, a avaliação de polimorfismo de um único nucleotídeo se tornou...

De acordo com as sentenças relacione-as em V para verdadeiras ou F para falsas. ( ) Um estudo distinto foi conduzido por Costa et al. (2006), onde for

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Como o BLAST pode complementar a análise de Maria e quais são as implicações práticas de encontrar genes similares em outras espécies bacterianas?

Conteúdos escolhidos para você

SIMULADO BIOINFORMÁTICA

EXERCICIO 5 BIOTECNOLOGIA E BIOINFORMÁTICA

NCBI e alinhamento de sequências

BIOINFORMATICA ll (1)

Desempenho em Exercícios Científicos

Perguntas dessa disciplina

PERGUNTA 2 Segundo a CBPF, a natureza produz equipamentos de extrema engenhosidade. Por exemplo, os flagelos de bactérias, que são considerados nanomo

Segundo a CBPF, a natureza produz equipamentos de extrema engenhosidade. Por exemplo, os flagelos de bactérias, que são considerados nanomotores qu...

Marque a opção correta em relação às regiões de DNA utilizadas para análises forenses e identificação humana. Escolha uma opção: a. Os primeiros k...

1D 2A 3B 4E 5 6 - 7 8 9 10 11 12 Tempo di Prova Questão 5 Dos marcadores moleculares, a avaliação de polimorfismo de um único nucleotídeo se tornou...

De acordo com as sentenças relacione-as em V para verdadeiras ou F para falsas. ( ) Um estudo distinto foi conduzido por Costa et al. (2006), onde for

Mais conteúdos dessa disciplina