BIOINFORMATICA AULA 05 A 10

•

ESTÁCIO

Mary BHbrandt

04/04/2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 113 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 113 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 113 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Bioinformática

2.044 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Bioinformática
Aula 5: Métodos de sequenciamento de DNA
Apresentação
Nesta aula, abordaremos o sequenciamento de DNA e identi�caremos suas principais características.
Enfatizaremos a determinação da ordem exata em que os nucleotídeos se encontram ao longo da dupla �ta e
conheceremos as estratégias desenvolvidas, além da importância dessa técnica para o avanço da Bioinformática.
Objetivos
Esclarecer o princípio de sequenciamento de Sanger;
Examinar a relação entre as novas técnicas e o avanço da Bioinformática;
Discutir sobre os sequenciadores de 1ª a 4ª geração.
A estrutura do DNA
A partir da descoberta da estrutura do DNA, importantes avanços levaram à compreensão da complexidade e diversidade
dos genomas. Os primeiros métodos de sequenciamento direto do DNA só foram criados na década de 1970.
Os conhecimentos existentes sobre a organização do gene e genoma eram baseados principalmente em estudos de genética
reversa, na qual a sequência de aminoácidos do produto do gene de interesse é retro-traduzida em uma sequência de
nucleotídeos com base nos códons apropriados. Considerando a característica degenerada do código genético, este
processo pode ser complicado e os resultados não corresponderem à realidade.
Atenção! Aqui existe uma videoaula, acesso pelo conteúdo online
Os dois primeiros métodos de sequenciamento de DNA foram os de Maxam-
Gilbert, conhecido como método de clivagem química e o método de
terminação de cadeia de Sanger, tendo este último dominado os trabalhos
até meados dos anos 2000.
Projetos de sequenciamento, incluindo principalmente o Projeto Genoma Humano, propiciaram o desenvolvimento de
soluções tecnológicas mais avançadas tanto para a geração dos dados quanto para a análise destes.
 qimono (Fonte: Pixabay).
Estes avanços ajudaram a responder aos novos questionamentos que surgiram, mas as principais barreiras, que eram a
produção limitada e os altos custos de sequenciamento, permaneciam.
O lançamento da primeira plataforma de sequenciamento de alto rendimento (eg. high throughput), o Roche 454, em meados
da década de 2000, propiciou uma redução de 50.000 vezes no custo do sequenciamento. A nova geração de sequenciadores
de DNA (NGS) continuou a evoluir e aumentou a capacidade por um fator de 100-1.000.
Embora seja um grande avanço na forma de se analisar genomas, essas novas abordagens têm suas limitações.
À medida que novas tecnologias surgiram, os problemas existentes foram exacerbados ou apareceram novos. As novas
plataformas, apesar de fornecer grandes quantidades de dados, possuem taxas de erro associadas mais elevadas. Além
disso, as leituras são geralmente mais curtas do que o do tradicional sequenciamento de Sanger, exigindo exame mais
cuidadoso dos resultados.
Cabe salientar que, devido ao grande número de sequências gerado, a tecnologia de processamento dos dados também teve
que evoluir, incluindo a capacidade computacional associada e software.
Em princípio, o conceito subjacente a essa tecnologia se assemelha ao mecanismo de eletroforese através de capilares, onde
as bases de um pequeno fragmento de DNA podem ser identi�cadas sequencialmente a partir de sinais emitidos.
No entanto, os métodos mais modernos ao invés de se limitarem a analisar pequenos fragmentos de DNA, passaram a
avaliar milhões deles em uma única corrida. Com isso, esse avanço tecnológico permitiu que fosse realizado um
sequenciamento mais e�ciente, com uma maior cobertura incluindo genomas inteiros através de uma única reação.
É importante destacar que o método de terminação em cadeia não deixou de ser utilizado, mas está caindo em desuso com o
passar dos anos.
O sequenciamento genômico é uma técnica que permite identi�car,
na ordem correta, a sequência de nucleotídeos de uma molécula de
DNA ou RNA, visando conhecer a informação genética contida
nesta estrutura.
As metodologias responsáveis por tal façanha fornecem, para cada uma das bases determinadas, uma informação referente
a sua qualidade (con�abilidade).
Desde o desenvolvimento das primeiras metodologias de sequenciamento (no �nal da década de 1970) até as tecnologias
atuais, denominadas de Sequenciamento de Nova Geração (New Generation Sequencing— NGS), passamos da escala de
sequenciamento manual de poucos kilobases para o sequenciamento maciço e paralelo de genomas inteiros e em curto
período de tempo.
Nesta aula, discutiremos algumas das metodologias de sequenciamento mais utilizadas, focando em seus princípios,
peculiaridades, aplicações, vantagens e desvantagens.
Além disto, serão apresentadas, sucintamente, tecnologias ainda em desenvolvimento, classi�cadas como de terceira
geração. De forma geral, o sequenciamento é feito a partir de moléculas de DNA advindas diretamente do DNA genômico
(aquele que contém a maior parte da informação genética dos organismos) ou de outras moléculas de DNA celular como:
DNA mitocondrial, DNA cloroplastídico, DNA plasmidial, dentre outros.
 PublicDomainPictures (Fonte: Unsplash).
Metodologias de sequenciamento em pequena escala
Entre 1800 e 1900, as proteínas foram consideradas as moléculas mais importantes dentre os constituintes celulares. No
entanto, a primeira sequência proteica só foi sequenciada em 1953. Neste mesmo ano, Watson e Crick propuseram o modelo
de dupla hélice do DNA, iniciando uma nova era no estudo do DNA.
Apesar dos avanços, era muito difícil até o começo da década de 1970, obter a sequência de nucleotídeos de um fragmento
de DNA, por menor que fosse. Este problema foi resolvido com o surgimento em 1977 de duas tecnologias: Uma,
desenvolvida por Allan Maxam e Walter Gilbert (baseada em hidrólise química), e outra por Frederick Sanger e cols. (baseada
em reações enzimáticas), que permitiram determinar a sequência de nucleotídeos de fragmentos maiores de DNA.
Segundo Sanger et al. (1977), metodologias revolucionaram as pesquisas cientí�cas e se difundiram rapidamente pelo
mundo, sendo a base da Genômica.
Atenção! Aqui existe uma videoaula, acesso pelo conteúdo online
Sequenciamento químico de Maxam-Gilbert
Após divulgada, esta metodologia foi amplamente utilizada por proporcionar a obtenção da sequência de nucleotídeos de
fragmentos maiores de DNA.
 geralt (Fonte: Unsplash).
Após divulgada, esta metodologia foi amplamente utilizada por proporcionar a obtenção da sequência de nucleotídeos de
fragmentos maiores de DNA.
Sequenciando genomas 29
A técnica desenvolvida por eles utiliza marcação do DNA alvo a ser sequenciado com fósforo radioativo (P32). O P32 é
inicialmente ligado ao dATP formando P32-dATP, que é incorporado pela enzima polinucleotídeo quinase ao DNA a ser
sequenciado.
Tal incorporação pode ser tanto na extremidade 5’ quanto na extremidade 3’, �cando a critério do executor da técnica. Neste
método, o rompimento das pontes de hidrogênio da �ta dupla de DNA ocorre pela adição de dimetilsulfato e aquecimento a
90ºC.
O princípio básico desta técnica consiste na clivagem do DNA alvo marcado, através da utilização de compostos químicos,
em posições especí�cas (antes dos “G”s, antes de “A” ou “G”, antes de “C” ou “T” e antes dos “C”s).
A posição a ser quebrada depende do composto químico que é adicionado, num só tipo, a um dos quatro tubos contendo o
DNA molde a ser sequenciado. Como resultado, tem-se após a fragmentação um conjunto de fragmentos de diferentes
tamanhos em cada um dos quatro tubos.
As bandas geradas após a corrida destes fragmentos em gel de poliacrilamida podem ser visualizadas após a impressão de
uma chapa radiográ�ca. A determinação da sequência de nucleotídeos é obtida lendo-se de baixo para cima, um a um, os
nucleotídeos representados pelas bandas do gel.
 Por gopixa (Fonte: Shutterstock).
Método de Sanger
A técnica de sequenciamento desenvolvida por Sanger utiliza marcação radioativa, marcando os fragmentos de DNA
sintetizados a partir da �ta molde. A síntese de novos fragmentos de DNA a partir da �ta molde só foi possível graças ao
desenvolvimento da técnica de PCR (reação em cadeia da polimerase),que consiste na síntese in vitro de uma �ta de DNA
complementar a um DNA molde, utilizando os seguintes componentes básicos da replicação celular:
 Cópias do DNA molde que deverá ser sequenciado,apresentando relativo grau de pureza.
 Enzima DNA polimerase capaz de produzir cópiasrelativamente �éis do DNA molde.
 Um DNA iniciador (primer) que propicia o início da extensãopela DNA polimerase.

Os desoxinucleotídeos que são as unidades básicas para a
construção da �ta complementar ao DNA molde. São eles:
dATP, dCTP, dGTP e dTTP.

Solução tampão, contendo o cofator magnésio (Mg),
necessário para que a enzima DNA polimerase desempenhe
sua atividade.
Por �m, é necessária ainda a presença de didesoxinucleotídeos (ddATP, ddCTP, ddGTP e ddTTP), que atuam como
terminadores da síntese de DNA. A chance dos desoxi ou didesoxinucleotídeos serem incorporados numa determinada
posição da cadeia de DNA nascente é a mesma, uma vez que a DNA polimerase não consegue distinguir estes dois
nucleotídeos pelo fato da diferença entre eles ser apenas a ausência do grupo OH na posição 3´.
No entanto, esta diferença é su�ciente para bloquear a
síntese da cadeia de DNA nascente. A explicação é simples:
Se um desoxinucleotídeo (que é o substrato normal da
DNA polimerase) é adicionado, a síntese da cadeia de DNA
continua, pois haverá, após sua incorporação na molécula
de DNA nascente, a presença de uma hidroxila livre na
posição 3´, onde deverá ser ligado o próximo
desoxinucleotídeo.
Por outro lado, se um didesoxinucleotídeo for adicionado à
cadeia nascente de DNA, a síntese da mesma será
interrompida neste ponto, pois a ausência do grupo OH na
posição 3’ impede a entrada de um novo nucleotídeo (por
isso este método é também conhecido como terminador de
cadeia ou didesoxi).
 geralt (Fonte: Shutterstock).
O princípio da técnica consiste em marcar radioativamente alguns dos desoxinucleotídeos livres em solução ou o primeiro
desoxinucleotídeo do primer com P32 ou S35.
Após incorporação na cadeia de DNA nascente, estes átomos marcados emitem radiação que é utilizada para impressão de
uma chapa radiográ�ca, permitindo, dessa forma, visualizar os fragmentos resultantes da ampli�cação.
A técnica se desenvolve da seguinte maneira:
Primeiro, o DNA �ta dupla é desnaturado e
utilizado para montar quatro reações
independentes contendo os mesmos
reagentes, com exceção dos
didesoxinucleotídeos, que são adicionados
separadamente (um determinado tipo em
cada reação).
Após um determinado tempo de reação,
considerando que nada dirige a entrada de
desoxi ou didesoxinucleotídeos na cadeia de
DNA nascente e que os mesmos são
colocados em excesso na reação, será
produzido um conjunto de fragmentos
complementar ao DNA molde com tamanhos
variados, sendo o tamanho de cada
fragmento dependente da posição onde o
didesoxinucleotídeo terminador foi
adicionado.
Se pensarmos que existem na mistura muitas
moléculas do mesmo DNA molde,
compreenderemos que todas as posições do
DNA molde, em algum momento, terão um
dNTP, ora um ddNTP complementar. Assim,
teremos amplicons (produto da PCR)
terminando em diferentes posições do DNA
molde.
O produto heterogêneo de cada uma das
quatro reações é aplicado em canaletas
diferentes do gel que, frequentemente, têm a
poliacrilamida como matriz. Devido ao alto
poder de resolução (separação dos
fragmentos) deste gel, é possível separar e
visualizar fragmentos que diferem entre si por
apenas um nucleotídeo.





As bandas produzidas são visualizadas numa
chapa radiográ�ca após sua impressão.
Assim, como no método anterior, a análise da
ordem das bandas na chapa radiográ�ca
começa pelo �nal do gel, permitindo
determinar a sequência de nucleotídeos da
�ta de DNA recém-sintetizada. Esta técnica
permitiu inicialmente separar de 200 a 300
nucleotídeos por corrida, sendo considerada
uma revolução na época em que foi
descoberta.
Aprimoramento do método de Sanger
Método semiautomatizado
A ciência não para e está sempre buscando novas descobertas, que na maioria das vezes surgem para melhorar a vida de
todos nós.
Não foi diferente com a metodologia de sequenciamento proposta por Sanger. Classi�cada como manual por não utilizar o
computador em nenhuma de suas etapas, esta metodologia foi aperfeiçoada originando o método semiautomatizado, que é
a base de muitas metodologias de sequenciamento atuais.
A ideia de automatizar o sequenciamento foi proposta por Lloyd M.Smith, Mike Hunkapiller e Tim Hunkapiller na
universidade privada do estado da Califórnia. O princípio do método proposto por Sanger permaneceu o mesmo. No entanto,
a técnica foi aprimorada �cando mais simples, rápida e segura por não utilizar compostos radioativos prejudiciais à saúde
humana.
Mas, que mudança foi esta que trouxe tantas melhorias à técnica, fazendo com que dominasse as três décadas
seguintes?
A principal modi�cação foi a adição aos didesoxinucleotídeos, de corantes
capazes de emitir �uorescência quando excitados em comprimento de onda
especí�co. No início, Smith mostrou-se pessimista quanto à exequibilidade
do método, temendo que a quantidade de corantes adicionados aos
didesoxinucleotídeos fosse insu�ciente para ser detectada pelo
computador. No entanto, este problema foi rapidamente resolvido pela
utilização de corantes especiais, que emitem luz ao serem atravessados por
um feixe de raios laser.
O método aprimorado utiliza �uoróforos diferentes para cada um dos quatro tipos de didesoxinucleotídeos que, ao serem
excitados, emitem luz característica do didesoxinucleotídeo incorporado.
Utilizaremos aqui o mesmo raciocínio apresentado no método inicial de Sanger: Se pensarmos que existem na reação
muitas moléculas do mesmo DNA molde, compreenderemos que todas as posições deste DNA terão, em algum
momento, ora um dNTP, ora um ddNTP incorporado pela DNA polimerase durante a PCR. Assim, teremos amplicons
terminando em diferentes posições do DNA molde.
Como consequência da incorporação dos didesoxinucleotídeos marcados com �uorescência, as quatro reações
passaram a ocorrer num tubo único e seu conteúdo podia agora ser aplicado numa única canaleta do gel. Este fato fez
com que o número de amostras analisadas por corrida fosse quatro vezes maior, considerando que no método radioativo
eram necessárias quatro canaletas do gel para obter o mesmo resultado que o novo método conseguia em uma
canaleta.
 Por ktsdesign (Fonte: Shutterstock).
Método automatizado
Nos anos 1990, os géis (de difícil manuseio) foram substituídos por �níssimos capilares preenchidos com gel onde os
fragmentos de DNA são separados em altíssima velocidade.
Os sequenciadores baseados neste sistema são,
aproximadamente, duas vezes mais rápidos do que os
semiautomatizados. As amostras são aplicadas através de
um sistema de eletroinjeção diretamente nos capilares
diminuindo consideravelmente o trabalho do analista.
Para termos uma ideia do nível de automação dos
sequenciadores de capilares atuais, 15 minutos de
intervenção humana a cada 24 horas é su�ciente para
produzir aproximadamente meio milhão de pares de bases.
Após a eletroinjeção, os fragmentos começam a migrar e
encontram, num determinado ponto, um feixe de raios laser
que excita os �uoróforos presentes na extremidade 3´ de
cada fragmento fazendo com que estes emitam
�uorescência característica de um dos quatro tipos de
�uoróforos.
 geralt (Fonte: Shutterstock).
Atenção! Aqui existe uma videoaula, acesso pelo conteúdo online
Um detector registra esta �uorescência e a transmite para um computador que possui um software capaz de converter
�uorescência em picos coloridos, sendo utilizada uma única cor para cada um dos quatro tipos de nucleotídeos (verde para
adenina, preto para guanina, azul para citosina e vermelho para timina).
Este procedimento é efetuado para cada fragmento no gel. No �nal do processo, o software gera um cromatograma que
corresponde a sequência de DNA complementar ao DNA molde utilizado. O sequenciador MegaBace® é capaz de sequenciar
96 fragmentos de DNA num intervalode 1 a 3 horas. O sistema continuou sendo aperfeiçoado, sendo possível hoje
sequenciar até 384 amostras em uma única corrida.
 TheDigitalArtist (Fonte: Pixabay).
Estratégias de sequenciamento de DNA
A técnica de sequenciamento automatizada, descrita anteriormente, permite sequenciar com qualidade aproximadamente
700 nucleotídeos consecutivos de um fragmento. Assim, quando o objetivo é o sequenciamento de genomas, seja de
organismos simples como bactérias ou organismos complexos como o homem, torna-se necessário: Picotar o DNA em
fragmentos menores, sequenciar os pedacinhos obtidos e depois sobrepô-los em busca do genoma completo.
As técnicas de fragmentação são várias, dentre as quais destacamos: Uso de enzimas de restrição de corte frequente, como
Alu1, e quebra aleatória por fragmentação mecânica do genoma a ser sequenciado (shotgun).
Atividade
1. A Bioinformática é considerada uma extensão da Biologia Computacional e consiste na utilização de métodos voltados ao
estudo do genoma e, atualmente, pode ser dividida em três subáreas, que são:
Escolha uma:
a) Desenvolvimento de novos algoritmos, análise e interpretação de vários tipos de dados e desenvolvimento e implementação de
ferramentas.
b) Desenvolvimento de genes, análise e interpretação de caracteres e desenvolvimento e implementação de dados estatísticos.
c) Desenvolvimento de softwares, máquinas e sistemas operacionais.
d) Desenvolvimento de novos anagramas, análise e interpretação de um dado apenas e desenvolvimento e implementação de caracteres.
e) Manipulação genética, desenvolvimento de bioprodutos e cultura de tecidos.
2. Faça uma breve de�nição da Bioinformática destacando sua importância para as diversas áreas da ciência.
3. Várias ferramentas desenvolvidas pela Bioinformática permitem o acesso e análise dos dados no GenBank. A ferramenta
mais popular de comparação de sequências de DNA com os bancos de dados genômicos é o BLAST ou Basic Local Alignment
Search Tool. Caracterize a ferramenta BLAST.
Notas
Referências
FAKRUDDIN, M. D.; CHOWDHURY, A.; HOSSAIN, M. D. N.; MANNAN, K. S. B.; MUZAMDAR, R. M. Pyrosequencing— Principles
and Applications. In: International Journal of Life Science and Pharma Research, v. 2, p. L.65-75, 2012. Disponível em:
http://www.ijlpr.com/admin/php/uploads/67_pdf.pdf .
PEIXOTO, B. M. Classi�cação de sequência e análise de diversidade em Metagenômica. 2013 Tese (mestrado em Ciência
da Computação) — Instituto de Computação, Universidade Estadual de Campinas/UNICAMP, Campinas, 2013. Disponível
em: http://repositorio.unicamp.br/bitstream/REPOSIP/275639/1/Peixoto_BrunoMalveira_M.pdf
javascript:void(0);
javascript:void(0);
PROSDOCIMI, F. et al. Bioinformática: Manual do usuário. In: Biotecnologia Ciência e Desenvolvimento, Brasília, v. 29, p. 12-
25, 2003.
Próxima aula
As ômicas.
Explore mais
Leia o texto:
Sequenciamento do DNA e suas aplicações
javascript:void(0);
Bioinformática
Aula 6: As ômicas
Apresentação
As tecnologias denominadas ômicas vêm ganhando força e são
relativamente recentes.
A genômica estuda o genoma completo dos organismos, ou seja,
estabelece toda a sequência de nucleotídeos presentes no DNA,
além de analisar e comparar com outros organismos com o
objetivo de compreender seu funcionamento e regulação.
Embora a genômica tenha sido revolucionária e disruptiva, não
conseguia responder todos os questionamentos dos
pesquisadores. Diante disso, logo nasceram outras ciências
ômicas, como transcriptômica, proteômica, metabolômica e a
lipidômica.
Os nomes e signi�cados são bem parecidos, mas cada uma
delas estuda um nível de componentes moleculares.
As ciências ômicas possibilitam analisar uma enorme
quantidade de alterações genéticas, proteínas e metabólitos ao
mesmo tempo, sendo, portanto, instrumentos poderosos na
compreensão do organismo de forma ampla.
As análises derivadas das técnicas ômicas podem ser aplicáveis
em diversas áreas, como saúde, agricultura e pecuária. O que
são as ômicas e suas aplicações é o que abordaremos nesta
aula.
Objetivo
Esclarecer o que são as ômicas;
Discutir a evolução do estudo cientí�co.
Funcionamento da estrutura do
DNA
Desde a descoberta da estrutura do DNA pelos cientistas James
Watson e Francis Crick, em 1953, vários grupos de pesquisa no
mundo todo tentam compreender seu funcionamento e o modo
como as informações genéticas são armazenadas e reguladas.
Os estudos em busca desses objetivos tiveram início em 1990, por
ocasião da criação do Projeto Genoma Humano, cujo intuito era
determinar toda a sequência de nucleotídeos do DNA humano e
identi�car seus genes.
Ao mesmo tempo, outros projetos de sequenciamento de genomas
foram iniciados e incluíam organismos muito usados em pesquisas
cientí�cas, como Arabdopsis thaliana (planta mais presente nos
estudos vegetais), Drosophila melanogaster (mosca-das-frutas), a
bactéria Escherichia coli e o camundongo (Mus musculus).
O termo genômica foi empregado pela primeira vez ainda em 1987 e,
atualmente, as tecnologias denominadas ômicas vêm ganhando destaque,
tanto em função da quantidade de dados obtidos e analisados, como em
relação às suas áreas de aplicação.
O termo ômica deriva do su�xo -oma que signi�ca conjunto de. E
você deve ter várias perguntas sobre assunto, não é? A esta altura,
você deve estar se perguntando: Tudo bem, mas o que signi�ca
cada ômica?
Atenção! Aqui existe uma videoaula, acesso pelo conteúdo online
A primeira delas, a genômica, caracteriza-se pelo estudo dos genes
e suas funções. Sua chegada impulsionou uma verdadeira
revolução no campo da Biologia. Não à toa, diversas expectativas e
investimentos foram e continuam sendo empregados nesta área,
objetivando aplicações nos campos da indústria farmacêutica,
agricultura, meio ambiente, saúde, entre outros.
A genômica pode ser:
Estrutural
Objetiva a
caracterização
da
natureza
física dos
genomas
completos.
Funcional
Busca
caracterizar
a função
biológica
dos
genes.
Embora revolucionária, a genômica não é capaz de responder todos
os questionamentos dos pesquisadores, porque a determinação da
sequência completa de um genoma (ou de vários) não permite
compreender a complexidade dos mecanismos biológicos.
Diante disto, logo nasceram outras ciências ômicas. Mas, antes de
irmos para outra ômica, é importante falar um pouco sobre um
ramo da genômica, chamado genômica comparativa.
Esse campo vem se tornando cada vez mais comum em virtude da
grande quantidade de sequências de genomas sendo obtidas, com
o objetivo de comparar todo o conteúdo de DNA do genoma de um
organismo com outros genomas já conhecidos. Através dessa
análise, pode ser possível estabelecer relações funcionais e
evolutivas.
Saiba mais
A metagenômica é uma técnica que permite estudar os genomas de
microrganismos de um nicho ecológico sem necessidade de fazer
culturas individuais. É uma das aplicações que tem se bene�ciado
das melhorias tecnológicas trazidas pelo sequenciamento de DNA de
nova geração.
Atenção! Aqui existe uma videoaula, acesso pelo conteúdo online
Os objetivos dos projetos de metagenoma (é o genoma coletivo de
microbiota total encontrada em um determinado habitat)
geralmente incluem identi�car genes funcionais e/ou novas vias
metabólicas, estimar a diversidade microbiana, compreender a
dinâmica da população de uma comunidade inteira, montar o
genoma de um organismo não cultivado e identi�car
biomarcadores úteis para classi�car um tipo de processo ocorrido
em ambientes especí�cos, como um ambiente poluído, por
exemplo.
A terceira ômica que iremos abordar é a transcriptômica, que
busca determinar os per�s da expressão de todos os genes
presentes em um genoma. Diferente do genoma, o transcriptoma é
característico de cada tipo de célula, e pode diferir em função de
diferentes situações �siológicas ou patológicas.
Atenção
Várias técnicas podem ser aplicadas para o estudo de transcriptoma,
mas a que vem ganhando preferência é a técnica de microarranjosde DNA (DNA microarray), que se baseia na hibridação em paralelo
de ácidos nucleicos.
A tecnologia de microarranjos de DNA possibilita a avaliação
simultânea da expressão de milhares de genes em diferentes
tecidos de um determinado organismo, e em diferentes estágios de
desenvolvimento ou condições ambientais.
Em linhas gerais, para uma análise transcriptômica utilizando
microarranjos de DNA, deve-se obter o RNA total puri�cado da
amostra biológica. O próximo passo é isolar o RNA mensageiro
(mRNA), a partir do RNA total. Isso garantirá que apenas os genes
que estão sendo expressos serão identi�cados.
O mRNA que foi isolado será usado para a construção de uma
biblioteca de DNA complementar (cDNA), ou seja, todos os
fragmentos de mRNA obtidos serão submetidos a um processo de
transcrição reversa (catalisado pela enzima transcriptase reversa),
para a produção de suas respectivas sequências de DNA de origem.
Os fragmentos da biblioteca de cDNA são, então, marcados com
um �uoróforo (componente de uma molécula que faz com que esta
seja �uorescente) e colocados sobre um chip de microarranjos,
para que a hibridização aconteça.
Saiba mais
Importante esclarecer que um chip de microarranjo é uma superfície
de plástico, vidro ou silicone que possui uma coleção de pontos
microscópicos que apresentam grupos de sequências de DNA de um
gene. Esses segmentos de DNA são chamados de sondas. Se um
gene da biblioteca de cDNA encontrar uma sequência
correspondente no chip, ele irá se hibridizar, fazendo a sonda �car
marcada com o �uoróforo.
A intensidade luminosa apresentada pelo chip de microarranjo
pode, então, ser lida e quanti�cada, sendo que, se uma determinada
sequência encontrar vários correspondentes, implicará que esse
gene foi expresso muitas vezes e a intensidade do sinal luminoso
será maior.
O contrário também pode ocorrer, onde uma sequência não
encontra um correspondente no chip, não gerando um sinal
luminoso.
O volume de informações geradas vai depender da quantidade de
spots presentes no chip de microarranjos. O NGS (new generation
sequencing) possui uma alta sensibilidade, conseguindo veri�car,
simultaneamente, a realização da hibridização de mais de 60 mil
genes, ampliando, consideravelmente, as possibilidades de
determinação de possíveis alterações no momento do
processamento dos dados, uma das etapas subsequentes.
Independentemente da técnica utilizada para quanti�car mRNAs, a
informação fornecida é experimental e não uma condição
constante absoluta. Ademais, uma divergência na quantidade de
um mRNA especí�co entre duas amostras biológicas não é
obrigatoriamente retratada por uma diferença na quantidade no
nível da proteína traduzida a partir desse mRNA.
Dessa forma, existem limitações intrínsecas relacionadas à
transcriptômica, como:
a quantidade do
mRNA nem
sempre é bem
correlacionada
com a
quantidade da
proteína;
a sensibilidade
das técnicas
existentes não
permite medir
com facilidade
os mRNAs
menos
abundantes, os
quais podem
estar envolvidos
na codi�cação
de proteínas
regulatórias
importantes;
a função das
proteínas
codi�cadas
pelos mRNAs
apresenta
vários níveis de
regulação após
sua tradução.
Observe, por exemplo, que a localização e/ou extensão em que as
proteínas são modi�cadas pós-tradução não são evidenciadas pela
medição da quantidade do mRNA.
A proteômica, por sua vez, faz parte das ômicas e é usada para
quanti�car a abundância, modi�cação e interação de peptídeos,
além de determinar sua localização subcelular. Através do estudo
de proteomas é possível determinar:
Em contraste com o genoma, o proteoma é extremamente
dinâmico, variando de acordo com as condições micro e
macroambientais.
Atenção! Aqui existe uma videoaula, acesso pelo conteúdo online
Saiba mais
As proteínas são biomoléculas responsáveis por diversas funções
celulares, sendo capazes de conduzir a expressão de genes, catalisar
reações metabólicas, além de fazer parte da estrutura celular.
Alterações genéticas que acarretem a falta de algumas proteínas
ou irregularidades estruturais (afetando sua função), podem
promover doenças ou atuar como marcadores das mesmas, a
exemplo da fenilcetonúria (doença causada pela função diminuída
ou ausente da enzima fenilalanina hidroxilase) e da anemia
falciforme (causada pela substituição do aminoácido ácido
glutâmico pelo aminoácido valina, em uma das cadeias de
hemoglobina, promovendo uma alteração importante na estrutura
terciária da proteína e da forma da hemácia).
Podemos inferir como as proteínas são importantes ao
observarmos que grande parte dos medicamentos disponíveis no
mercado apresentam essas biomoléculas como alvo, como ocorre
com os fármacos inibidores da enzima conversora da angiotensina
(ECA), usados no tratamento da hipertensão. Dessa forma, o
estudo do proteoma, bem como a demonstração da função das
proteínas no contexto em que são expressas são de grande
importância para o prognóstico e terapia de doenças, por exemplo.
 Metabolômica
 Clique no botão acima.
Outra ômica que tem sido utilizada na área da genômica
funcional é a metabolômica, que estuda as mudanças na
expressão de pequenas moléculas orgânicas, conhecidas
como metabólitos.
Importante lembrar que metabólitos são produtos
intermediários ou �nais do metabolismo em uma
amostra biológica. Em outras palavras, o metaboloma
representa o conjunto de todos os metabólitos em uma
célula, �uido biológico, tecido ou organismo, sendo estas
substâncias consideradas os produtos �nais dos
processos celulares.
A metabolômica promete complementar a genômica por
possibilitar análises objetivas de um determinado
fenótipo. Grande destaque tem sido dado para a
associação entre dados de metabolômica, expressão
gênica e proteômica. A metabolômica pode auxiliar na
demonstração de como genótipos e fenótipos estão
associados, além de possibilitar simulações de
processos celulares em larga escala.
O estudo da quantidade de todos os metabólitos
presentes em uma célula pode auxiliar na compreensão
de alguns problemas, por exemplo, os efeitos chamados
pleiotrópicos, em que um único gene estabelece uma
quantidade de características não relacionadas.
Várias são as áreas em que a metabolômica tem sido
empregada. Na área ambiental, por exemplo, a
metabolômica tem sido utilizada para o estudo das
respostas metabólicas de organismos a fatores bióticos
e abióticos.
A aplicação da metabolômica na área ambiental é muito
ampla e envolve o estudo de organismos aquáticos, de
plantas e de como estes respondem a diferentes formas
de estresse e fatores, sejam eles bióticos e/ou abióticos.
São encontradas também pesquisas de exposição de
organismos a poluentes, estudos de toxicidade aplicados
à agricultura, mecanismo de ação de pesticidas,
toxicidade e função de metais em sistemas biológicos,
biodisponibilidade de contaminantes no solo,
biorremediação, entre outros.
No campo da clínica, a metabolômica tem possibilitado
um aumento no entendimento, em nível molecular, de
diversas doenças. Várias são as aplicações clínicas e
tem sido crescente o número de estudos relacionados ao
tema, principalmente no que diz respeito à identi�cação
de biomarcadores e ao desenvolvimento de novas
terapias e métodos diagnósticos.
Na área oncológica, por exemplo, pesquisas têm revelado
modi�cações no metabolismo, contribuindo para o
diagnóstico e acompanhamento de doenças, como no
caso do câncer de próstata, gástrico, colorretal e de
mama.
Outra doença crônica que tem sido amplamente
estudada é a diabetes tipo 2, cuja incidência tem
aumentado ao longo dos anos, requerendo a procura por
biomarcadores que possam ser utilizados no diagnóstico
precoce dessa patologia.
A área clínica também tem se bene�ciado de
investigações focadas em doenças cardiovasculares,
uma das maiores causas de morte no mundo, e na
identi�cação de alterações no metabolismo causadas
pela doença de Alzheimer. Entre outrasáreas
promissoras, destacam-se trabalhos relacionados à
tuberculose, doença celíaca, esclerose múltipla e
doenças renais. Com o crescente número de trabalhos
na área de alimentos sob a perspectiva das ciências
ômicas (transcriptômica, proteômica e metabolômica), e
com o objetivo de relacionar os alimentos e seus
componentes alimentares, a dieta e o indivíduo, a saúde
e as doenças, um novo conceito foi inserido na
comunidade cientí�ca, a foodomics, que é de�nida como
uma nova abordagem que relaciona as tecnologias
ômicas avançadas com a área de alimentos e nutrição,
com o intuito de melhorar o bem-estar, a saúde e
segurança dos consumidores, integrando pesquisadores
de diversas áreas do conhecimento.
Atualmente, muitos trabalhos estão sendo publicados
sob a visão da metabolômica em Ciência de Alimentos e
Nutrição.
Estudos sobre evolução, �siologia e bioquímica de
organismos estão intimamente relacionados aos
sistemas biológicos e, assim, a metabolômica, junto às
demais ômicas, tem um papel fundamental no
entendimento dos fenômenos biológicos ocorridos na
Microbiologia.
A metabolômica tem sido aplicada a microrganismos,
principalmente em estudos relacionados ao metabolismo
da microbiota intestinal e interações organismo-
hospedeiro, bem como marcadores de exposição a
estresse ou alterações ambientais. Como podemos
observar, as áreas de aplicação da metabolômica são
múltiplas.
Mas, as ômicas não param por aí... Além das que vimos até aqui,
uma diversidade de outras ômicas vêm surgindo e uma
sobreposição de objetivo é inevitável.

Clique nos botões para ver as informações.
Objetiva compreender a interação da constituição genética de
um indivíduo com a resposta a drogas. É o ramo da
Farmacologia que trata da in�uência da variação genética na
resposta de fármacos em pacientes, correlacionando a
expressão do gene ou polimor�smos de nucleotídeo único
com a e�cácia e/ou toxicidade de uma substância.
Farmacogenômica 
Tem o intuito de descrever, quantitativamente, as funções
�siológicas de um organismo. Para isto, é necessário predizer
as manifestações visíveis ou detectáveis de um genótipo, o
que é bastante complexo em função das interferências
ambientais e as condições relacionadas ao crescimento e
desenvolvimento, incluindo o aparecimento de doenças. A
intenção é conseguir entender toda a �siologia de um
organismo, abrangendo rotas metabólicas, moléculas
envolvidas e suas interações.
O Projeto Fisioma �gura como uma das iniciativas pioneiras
nessa área, onde seu principal objetivo é compreender o
organismo humano por meio da descrição quantitativa da sua
�siologia e pato�siologia para o melhoramento da saúde
humana, usando até mesmo conhecimentos advindos de
�siomas de outros organismos.
Fisiômica 
Estuda as interações bioquímicas (transcritos e proteínas) que
fazem a regulação da expressão dos genes.
Regulômica 
Tem como objetivo estudar pequenos peptídeos que
apresentam função essencial em diversos processos
biológicos, tais como: Hormônios, citocinas, fatores de
crescimento etc.
Peptidômica 
Utiliza informações obtidas por outras duas ômicas, a
genômica e a proteômica, para identi�cação de proteases e
seus respectivos substratos, de forma a favorecer a
descoberta de novos alvos para o desenvolvimento de
fármacos para o tratamento de doenças.
Degradômica 
Antes de passarmos para a próxima ômica, é importante pontuar o
conceito de epigenética.
A epigenética é uma área da Biologia
que estuda mudanças no
funcionamento de um gene que não
são promovidas por alterações na
sequência de DNA e que se
perpetuam nas divisões celulares,
meióticas ou mitóticas. Tais
mudanças epigenéticas promovem o
surgimento de diferentes
epigenomas.
Mecanismos epigenéticos são responsáveis por vários fenômenos,
incluindo o silenciamento aleatório de um dos cromossomos X em
cada célula somática normal de mamíferos fêmeas e a impressão
genômica, de�nida como a expressão ou repressão de certos
genes de acordo com o seu progenitor origem.
Desde a segunda metade do século passado, a simples adição de
grupos metila ao DNA foi reconhecida como o principal mecanismo
epigenético. Logo, foi cogitado que a metilação do DNA poderia
estar associada de várias formas à expressão gênica, à estabilidade
genômica e às doenças (em particular, a progressão de tumores
malignos).
A descoberta de enzimas especí�cas da metilação foi importante
para corroborar essa hipótese e estabeleceu uma ligação direta
entre a metilação do DNA, expressão gênica e mudanças na
estrutura da cromatina.
O foco agora é entender a função global do gene e investigar a
suscetibilidade a doenças comuns. Portanto, mecanismos que
afetam a expressão gênica estão na linha de frente das
investigações atuais e futuras nesta área. Diante do que foi
mencionado, a epigenômica tenta compreender a �exibilidade do
genoma, uma característica que confere complexidade aos
sistemas biológicos.
Atente-se ao fato de que, por mais que as células de um organismo
tenham o mesmo genoma, a expressão dos genes pode diferir
dependendo de uma dada condição ou momento.
Por tudo que foi dito até aqui, é inegável o papel transformador dos
projetos genoma sobre a Biologia. Entretanto, o maior progresso se
deu por meio do surgimento da Bioinformática e da necessidade
dos cientistas se inteirarem em modernas tecnologias de pesquisa.
Exemplo
Dados biológicos estão sendo produzidos em taxa exponencial. Por
exemplo, em junho de 2019, o repositório GenBank continha
213.383.758 sequências de nucleotídeos. Além disso, desde a
publicação do genoma de Haemophilus in�uenzae, sequências
completas de centenas de organismos foram obtidas, variando entre
450 a mais de 100.000 genes.
Adicione a isso dados de uma vasta gama de projetos que estudam
expressão gênica, estruturas de proteínas codi�cadas pelos genes,
bem como a forma como esses produtos interagem entre si.
Podemos imaginar a enorme quantidade e variedade de
informações que estão constantemente sendo produzidas. Como
resultado desse aumento de dados, os computadores se tornaram
indispensáveis à pesquisa biológica. Hoje, é incabível imaginar
qualquer avanço na área de Biologia Molecular e Biotecnologia que
não envolva a integração das tecnologias de informação e
experimental.
Um projeto experimental pode ter início a partir de sequências
gênicas, sejam conhecidas ou não. Por meio da busca por
similaridade, em bancos de dados, conforme será visto na próxima
aula, sequências não conhecidas podem ter sua identi�cação e
seus papéis preditos.
Para este �m, é imprescindível o acesso à versão atualizada do
conjunto de dados, em bancos de dados mundiais. O problema é
que grande parte dos dados indispensáveis a esta análise encontra-
se pulverizada em diversas fontes, o que di�culta a aquisição, por
parte dos pesquisadores, de informações necessárias para que
ocorra a conversão de dados complexos e divergentes em dados
organizados e úteis, de acordo com a linha de pesquisa seguida.
Para se ter uma ideia, às vezes, para responder uma simples
questão, é necessário acessar diversas fontes de dados e utilizar
so�sticadas técnicas de análise.
Atualmente, existem cerca de 550 bancos de dados, com grande
parte deles ainda construída com enfoque muito limitado para
aplicações restritas, sem haver qualquer preocupação em relação à
compatibilidade e troca de informações com outros sistemas. Além
disso, o acesso a esses dados precisa melhorar em termos de
e�ciência, velocidade e facilidade.
Um conceito que sustenta a maioria das pesquisas de métodos em
Bioinformática é que grande parte dos dados podem ser agrupados
com base em semelhanças biologicamente signi�cativas. Por
exemplo, segmentos de sequência geralmente são repetidos em
diferentes posições genômicas no DNA. Os genes podem ser
agrupados em aqueles com funções especí�cas (por exemplo,
ações enzimáticas) ou de acordo com a via metabólica a qual
pertencem,embora aqui, genes únicos possam apresentar várias
funções.
Além disso, proteínas distintas frequentemente têm sequências
comparáveis e espécies diferentes possuem proteínas equivalentes
ou similares que foram herdadas quando divergiram por meio da
evolução.
Para auxiliar a compreensão dos processos biológicos, é preciso
fazer novas combinações aos dados disponíveis. Por exemplo, o
que é feito em uma via metabólica deve ser generalizado para
outros sistemas biológicos. Dessa forma, a partir de E. coli deve-se
expandir para levedura e avançar em direção à biologia de
organismos mais complexos, como o homem, animais e plantas
economicamente importantes.
Trabalhar toda essa informação de forma conjunta é fundamental para a
geração de novos conhecimentos. Para tanto, é necessário que novas
ferramentas sejam desenvolvidas com intuito de disseminar e analisar
grandes quantidades de dados, bem como a construção de comunidades de
bancos de dados centradas em princípios operacionais padronizados
internacionalmente.
Embora exista um crescente número de centros de Bioinformática,
a maior tendência é que ela esteja presente nos centros de
pesquisa e nas universidades, em cada departamento que envolva
a área das Ciências Biológicas em todo o mundo, o que necessitará
de pro�ssionais especializados em Bioinformática/Biologia
Computacional. Na próxima aula, abordaremos a plataforma NCBI
(National Center of Biotechnology Information) e suas
funcionalidades.
Atividades
1. Diante do que vimos sobre as diversas ômicas, diferencie
genômica e transcriptômica, em relação ao conceito e objetivos.
2. Dentro do contexto de evolução do estudo cientí�co, discuta, de
forma breve, por que a utilização de apenas uma ou outra ômica é
insu�ciente para compreensão dos sistemas biológicos.
3. A abordagem proteômica tem permitido estudos em larga escala
da expressão proteica em diferentes tecidos e �uidos corporais, em
condições e/ou momentos distintos. O recente progresso de
metodologias nessa área tem aberto novas oportunidades para
obtenção de informações relevantes sobre processos normais e
anormais que ocorrem no organismo humano. De�na proteômica.
Notas
Referências
ALMEIDA, Thiago Silva de; CARVALHO, Ana Fontenele Urano. Guia
para a análise transcriptômica: Potencial toxicológico e
mecanismos de ação de produtos de origem natural. In: Ciência
Animal v 28 n 3 p 56-68 2018
Animal, v. 28, n. 3, p.56 68, 2018.
BINNECK, Eliseu. As ômicas: Integrando a Bioinformação. In:
Biotecnologia, Ciência e Desenvolvimento, n. 32, p. 28-37, 2004.
SCHNEIDER, Marta V.; ORCHARD, Sandra. Omics technologies, data
and bioinformatics principles. In: Bernd Mayer (ed.), Bioinformatics
for Omics Data: Methods and Protocols, Methods in Molecular
Biology, vol. 719.
Próxima aula
NCBI e suas funcionalidades;
Alinhamento de sequências;
BLAST e ClustalW;
Construção de primers.
Explore mais
Assista ao vídeo: https://www.youtube.com/watch?
v=9mUcScHdcus
javascript:void(0);
Bioinformática
Aula 7: NCBI e suas funcionalidades
Apresentação
Você já parou para pensar sobre a quantidade de genomas que
são gerados nas pesquisas em Bioinformática? Já pensou
também que deve existir um local virtual onde esses dados
devem estar armazenados? Esse local virtual é chamado de
banco de dados públicos, que permite que os dados gerados em
uma pesquisa estejam acessíveis a toda comunidade cientí�ca.
O avanço das técnicas de sequenciamento permitiu grande
aumento do número de genomas disponíveis em bancos de
dados e com isso foi necessário desenvolver ferramentas
computacionais que fossem capazes de analisar rapidamente
todo este conteúdo, daí surgiriam os alinhamentos genômicos.
Nesta aula, veri�caremos e exploraremos o NCBI, que é um
grande administrador de dados em Bioinformática, e
aprenderemos um pouco sobre a funcionalidade dos
alinhamentos de sequências genômicas. Vamos lá?
Objetivo
Reconhecer o NCBI e suas funcionalidades;
Distinguir os diferentes tipos de alinhamentos genômicos e
suas aplicações;
Experimentar a ferramenta PRIMER 3.
NCBI e suas funcionalidades
Você conhece o NCBI? Não?
A sigla NCBI vem do inglês National Center for Biotechnology Information, no
português equivale a Centro Nacional de Informação em Biotecnologia.
O NCBI nada mais é do que uma plataforma online que é responsável pela
criação e administração de vários bancos de dados públicos.
Criado em 1988 nos EUA, o NCBI faz parte da Biblioteca Nacional de
Medicina dos Estados Unidos (NLM) que pertence ao Instituto de Saúde,
conhecido como NIH.
Atenção! Aqui existe uma videoaula, acesso pelo conteúdo online
O NCBI é formado por vários bancos de dados relacionados com a
área de Biologia Molecular, Biotecnologia e Bioinformática. Esta
plataforma conduz investigação em Biologia Molecular, desenvolve
softwares de análise genômica e divulga toda a informação
biomédica disponível e depositada nela.
Saiba mais
Dentre as ferramentas disponíveis no NCBI, vale a pena destacar os
dois maiores bancos de dados públicos, Pubmed e GenBank, e um
algoritmo computacional de alinhamento genômico, o BLAST. Entre
no NCBI e con�ra estas ferramentas!
Conferiu? Agora, vamos ao que interessa, porque você já deve estar
se perguntando - E aí, para que serve tudo isso? O Pubmed é uma
grande biblioteca virtual da área biomédica con�gurada como um
site de busca. Neste site, você pode buscar artigos cientí�cos,
capítulos de livros e citações disponíveis em diferentes jornais e
revistas espalhados por todo o mundo. Alguns destes conteúdos
estão disponíveis de forma gratuita e outros devem ser pagos para
que o leitor tenha acesso.
Saiba mais
javascript:void(0);
No Pubmed, você pode fazer a busca de conteúdo utilizando �ltros
que vão te auxiliar a encontrar um estudo especí�co. Vamos explorar
o Pubmed? Acesse agora o site , coloque na aba de busca a palavra
HIV e pressione o botão search. Observe e explore a quantidade e a
qualidade de conteúdo disponível. Não é fácil?
O GenBank é outra ferramenta administrada pelo NCBI desde 1992.
Este banco de dados público se destaca por ser uma das mais
importantes ferramentas para área de Biologia Molecular e
Bioinformática. Nele, estão depositadas as sequências gênicas e
anotações de todas as sequências de DNA disponíveis ao público
que foram descritas em diferentes partes do mundo. Por que esta
ferramenta é tão importante? Nela você pode ter acesso a
diferentes sequências de DNA de uma região especí�ca do genoma,
o que permite realizar a comparação entre sequências para
�logenia, construção de primers, descoberta de mutações, dentre
outras aplicações.
Exemplo
javascript:void(0);
Agora, entre no GenBank pelo site , coloque a palavra HIV pol.
Selecione a 2ª sequência que aparecerá como resultado da sua
busca (Human immunode�ciency virus 1 DNA for Gag, Pol, Vif, Vpr,
Tat, Rev, Env, Vpu) e explore as informações deste arquivo.
Você irá observar uma detalhada descrição sobre a sequência, por
exemplo: A origem (localidade), o ano, a região do genoma
correspondente, o artigo em que esta sequência foi publicada, os
autores e outras informações.
Para �nalizar, as principais funcionalidades do NCBI, vamos agora
falar rapidamente do BLAST. O BLAST é um site de busca que usa
algoritmo computacional para identi�car genes e sequências
genéticas especí�cas. Neste site, você consegue executar
pesquisas de sequências contra a base de dados de DNA completa
em menos de 15 segundos!
Achou muito rápida a explicação sobre o BLAST? Não se preocupe,
pois teremos um tópico desta aula apenas para falar sobre ele.
 Alinhamento de sequências genômicas
 Clique no botão acima.
javascript:void(0);
javascript:void(0);
Com o crescimento da quantidade de dados gerados
após o advento dos sequenciadores de DNA/RNA,
veri�cou-se a necessidade de desenvolvimento de
algoritmos computacionais que fosssem capazes de
analisar as sequências biológicas de forma rápida e
objetiva.Desta forma, diversos programas online e de
instalação local foram desenvolvidos com o intuito de
alinhar dezenas ou centenas de sequências em poucos
minutos. Mas, você deve estar se perguntando: O que é
alinhamento de sequências genômicas?
O alinhamento de sequências genômicas são técnicas
utilizadas para a comparação de duas ou mais
sequências gênicas, com o intuito de buscar regiões de
similaridade entre elas, ou seja encontrar a mesma
ordem de nucleotídeos nas sequências analisadas e
arrumá-las na mesma posição dentro dos genomas.
O alinhamento genômico não é realizado exclusivamente
com sequências de DNA, mas pode também ser
realizado com o RNA ou sequências de aminoácidos de
uma proteína.
Apesar do alinhamento parecer uma tarefa relativamente
fácil, a busca por similaridade entre as sequências é uma
tarefa crucial para posterior aplicação das ferramentas
de Bioinformática.
Dentre as aplicações das técnicas de alinhamento,
podemos destacar a possibilidade da realização de
inferências estruturais e funcionais entre diferentes
proteínas, identi�cação de mutações e regiões
polimór�cas, pesquisas de inferência �logenética e de
caráter evolutivo.
Existem diferentes tipos de alinhamentos. A aplicação de
cada um deles depende do objetivo do pesquisador.
Basicamente, os programas mais populares de
alinhamento buscam realizar o melhor alinhamento
possível dentre as diversas combinações. Este
alinhamento é chamado de alinhamento ótimo.
Podemos dividir os alinhamentos de acordo com a
quantidade de sequências e extensão da análise dentro
das sequências. Você deve estar se perguntando: Como
assim? Então, é muito fácil: Existe o alinhamento simples,
que é aquele que busca a similaridade apenas entre duas
sequências, e o alinhamento múltiplo, que busca a
similaridade entre mais de duas sequências. Obviamente,
o alinhamento múltiplo é mais complexo e demorado que
o alinhamente simples, porém, permite realizar
inferências mais robustas.
Além disso, existe o alinhamento global, que é aquele que
busca similaridade levando em consideração toda a
extensão das sequências, enquanto o alinhamento local
busca pequenas regiões de similaridade dentro das
sequências. Tanto o alinhamento global quanto o local
podem ser simples ou múltiplos, o que varia é a
quantidade de sequências analisada.
No alinhamento global, os algoritmos computacionais
buscam o maior número de matches (similaridade) por
toda a extensão da sequência, ou seja, desde o início até
o �nal das sequências analisadas. Para isso, não raro é
necessário inserir lacunas no meio das sequências, para
que as mesmas se apresentem do mesmo tamanho.
Exemplo:
1) Sequências antes do alinhamento
TCCATGCGTAATGCTT
TCATGCGACT
2) Sequências após o alinhamento
TCCATGCGTAATGCTTATTCG
TC–ATGCG – A- -GC-T
No alinhamento local, os algoritmos computacionais
focam a busca em pequenas regiões de alta similaridade.
O alinhamento para logo após o �nal das regiões de
similaridade e substitui as regiões excluídas do
alinhamento por hífenes no resultado �nal.
Exemplo:
TCCATGCGTAATGCTTATTCG
Nos estudos em Bioinformática, os alinhamentos
múltiplos globais são os mais utilizados, pois estes são
capazes de oferecer um panorama mais geral de
similaridade entre as sequências. Um dos softwares de
alinhamento múltiplo global mais usado é o ClustalW.
Nele, são produzidos alinhamentos globais progressivos
que aceleram o tempo de análise.
O ClustalW é um software online baseado em um
algoritmo computacional no qual inicialmente são
realizados alinhamentos par a par, ou seja, entre duas
sequências, de forma que todas as sequências
analisadas possam ser combinadas com todas as
possibilidades. Ficou confuso? Calma! Vamos a um
exemplo simples:
Imagine três pequenas sequências: TCAAC, TGAC,
AACT.
As três possíveis combinações de alinhamento que
seriam inicialmente produzidas no ClustalW:
1) TCAAC
Atenção! Aqui existe uma videoaula, acesso pelo conteúdo online
Atenção! Aqui existe uma videoaula, acesso pelo conteúdo online
TG - AC
2) TCAAC -
- - -AACT
3) TGAC-
- AACT
O alinhamento inicial par a par é realizado para veri�car a
existência de divergência entre as duas sequências
analisadas, ou seja, a distância evolutiva entre elas. Após
este alinhamento, as duas sequências passam a ser
tratadas como uma só, ou seja, uma sequência
consenso, que será alinhada com a próxima sequência
relacionada, ou seja, mais similar. Todas as outras
sequências restantes serão alinhadas baseando-se na
sequência consenso.
O software ClustalW pode ser encontrado em sites ou
dentro de programas baixados de alinhamento e edições
de sequências como Bioedit® ou em versões do
MEGA®.
javascript:void(0);
Para você fazer um alinhamento ClustalW, você necessita
ter um banco de sequências que nós vamos
disponibilizar no link XXXXXXXXX. Acesse o site e na
opção Sequence faça o upload do nosso banco de
sequências. Na opção Submit, aperte o botão send to
ClustalW. Após alguns segundos, será exibida a tela dos
seus resultados. Observe as informações
disponibilizadas do seu alinhamento e baixe as
informações e suas sequências alinhadas em Download
result summary e Download alignment �le.
BLAST
Como nós vimos acima, o BLAST é uma das principais ferramentas
disponíveis na platafoma NCBI.
O software é disponibilizado online e realiza alinhamentos locais
entre a sequência dada pelo pesquisador com todas as sequências
disponíveis no banco de dados do GenBank— aquela ferramenta do
NCBI que já conhecemos.
Saiba mais
O BLAST permite um alinhamento localizado de fragmentos de
sequência a partir da seleção das sequências mais similares. O
resultado da busca é apresentado em valores de score que
expressam a signi�cância do alinhamento.
O algoritmo do BLAST realiza buscas baseadas em alinhamentos
que não são tão �dedignos, porém são con�áveis e rápidos. Isto faz
com que o programa ofereça vantagens em relação a outras
ferramentas de alinhamento.
A rápida velocidade do alinhamento está associada ao mecanismo
de busca pela similaridade realizada pelo algoritmo do BLAST. A
busca no BLAST foca em pequenas sequências comuns existentes
entre a sequência dada e as sequências do banco de dados. Não
entendeu? Observe o exemplo:
Considere a sequência a seguir: CGTACTGCCATT.
Exemplos de sequências que poderiam ser achadas no BLAST
seriam:
Sequência dada: CGTACTGCCATT
Busca 1 CGT
Busca 2 TAC
Busca 3 CCA
Busca 4 CAT
Conseguiu visualizar o funcionamento? Então, podemos seguir!
O software nos permite realizar diferentes tipos de BLAST
(alinhamentos), que podem ser utilizados para diferentes �ns, tudo
dependendo do objetivo do pesquisador.
Basicamente, existem quatro tipos diferentes de BLAST. Vamos a
eles!

Clique nos botões para ver as informações.
Ferramenta utilizada para realizar BLAST de nucleotídeo com
nucleotídeo. Neste BLAST, o pesquisador entra com uma
sequência de DNA (nucleotídeos) e recebe como resultado
sequências de nucleotídeos (DNA) similares à sequência de
entrada.
Nucleotide BLAST 
Ferramenta utilizada para realizar BLAST de sequência de
proteínas (aminoácidos) com proteínas. Neste BLAST, o
pesquisador entra com uma sequência de aminoácidos e
recebe como resultado sequências de aminoácidos similares
à sequência de entrada.
Protein BLAST 
Ferramenta utilizada para realizar BLAST de sequências de
nucleotídeos com as proteínas associadas a esta sequência.
Neste BLAST, o pesquisador recebe como resultado o produto
da tradução das sequências de nucleotídeos de entrada.
blastx 
Ferramenta utilizada para realizar BLAST de proteínas com a
sequência de nucleotídeo associada a ela. Neste BLAST, o
pesquisador recebe como resultado a sequência de DNA que
corresponde a uma dada proteína de entrada.
tblastn 
Saiba mais
Agora, vamos trabalhar! Entre no GenBank e coloque na abade
busca as palavras: insulin human ins, selecione a 6ª sequência que
aparece como resultado (Homo sapiens ins gene, partial). Após abrir
a sequência, role o cursor da tela para a parte de baixo e copie a
primeira linha da sequência de nucleotídeos, excluindo o número 1
que aparece no início da sequência. Agora, entre no site do BLAST e
selecione a ferramenta nucleotide blast, cole a sequência copiada do
GenBank e observe o resultado. E aí? Era mesmo a hemoglobina
humana?
 BLAST X ClustalW
 Clique no botão acima.
javascript:void(0);
javascript:void(0);
Como vimos nos tópicos anteriores, o BLAST e o
CLUSTALW são ferramentas comuns utilizadas nos
estudos de Bioinformática, mas essas ferramentas são
constituídas de algoritmos distintos que vão buscar
parâmetros diferentes.
Recapitulemos rapidamente: O BLAST é um algoritmo de
alinhamento local que busca de forma rápida pequenas
regiões de similaridades, enquanto o ClustalW é um
algoritmo de alinhamento múltiplo global que se baseia
na distância evolutiva.
O BLAST efetua um alinhamento mais simples que
compara apenas regiões de alta similaridade entre duas
sequências, enquanto o ClustalW efetua um alinhamento
mais complexo que estabelece a relação evolutiva entre
todas as sequências utilizadas.
Depois de tanta informação, você deve estar confuso na
escolha de qual ferramenta usará no seu estudo, não é?
Então, a escolha depende exclusivamente do seu
objetivo.
Construção de primers
Ao longo de toda a nossa aula, nós abordamos os alinhamentos e
os algoritmos associados, mas muito antes de obtermos as
sequências de DNA que serão alinhadas, precisamos de�nir que
região do genoma—ou seja, gene— nós iremos trabalhar e como
conseguiremos isolar esse gene.
Para que possamos alcançar o nosso objetivo, é necessário realizar
um desenho cuidadoso dos primers que serão utilizados no nosso
estudo. Viajou? Então, vamos relembrar alguns conceitos...
Para isolar um determinado gene, podemos utilizar uma técnica de
Biologia Molecular chamada de PCR (Polymerase chain reaction),
está lembrado?
Para realizar ua PCR, nós necessitamos de nucleotídeos, da enzima
DNA polimerase, do cofator enzimático e de um par de primers. Os
primers são sequências de oligonucleotídeos sintéticos que vão
hibridizar com regiões especí�cas das �tas moldes de DNA (um
dos primers se liga à �ta 5’-3’ e outro se liga à �ta 3’-5’) para
oferecer uma extremidade 5’ OH livre para a formação da ligação
fosfodiéster e adição do primeiro nucleotídeo da nova �ta de DNA
que será confeccionada. Lembrou agora?
Atenção
Além da função de iniciador do processo de replicação do DNA na
PCR, o primer, também ao se ligar a uma sequência especí�ca do
genoma ao qual ele foi desenhado. Portanto, para se construir
primers, é necessário ter conhecimento sobre a sequência de
nucleotídeos no qual este primer irá hibridizar.
Existem alguns critérios básicos que são importantes para a
construção de um bom primer. Vamos citar e explicar alguns deles:
Tamanho do
primer
Geralmente, os
primers
apresentam
entre 18-24
nucleotídeos,
pois este é o
tamanho ideal
para garantir a
especi�cidade
de ligação do
primer e
também na
e�ciência da
reação de PCR,
evitando a
formação de
estruturas
secundárias,
como
grampos.
Conteúdo de
GC
Os primers
devem
apresentar
cerca de
45%-55% de
CG na sua
composição,
pois isto
aumenta a
estabilidade de
ligação do
primer com a
�ta molde de
DNA, já que CG
fazem 3
pontes de H.
Temperatura
de
hibridização
A temperatura
de ligação do
primer com a
�ta de DNA
deve ser entre
52°C—60°C,
pois esta é a
temperatura
ideal para um
primer 18-24
nucleotídeos,
de tamanho
ideal para
apresentar
especi�cidade
na ligação e
também na
e�ciência da
reação de PCR.
Evitar regiões
homopoliméricas
Repetições de
um ou de
dinucleótidos
consecutivas
(exemplo:
agagagag)
aumenta a
probabilidade
da hibridização
do primer
acontecer em
uma região
inespecí�ca do
genoma.
Baseados nestes parâmetros, nós podemos utilizar o software
online Primer 3. Neste software, o pesquisador poderá de�nir de
forma customizada os primers que serão usados no seu estudo
baseado na sequência alvo dada.
Saiba mais
Vamos construir nosso primer? Abra o site para fazer a construção
do primer. Você deve colar na janela principal uma sequência obtida
do GenBank— Você agora já sabe fazer isso!
javascript:void(0);
Após a colagem da sequência, role a tela para baixo e observe o
item General Primer Picking Conditions, que por lá você encontrará
a sugestão de preenchimento de todos os parâmetros que você
aprendeu. Você pode alterar qualquer parâmetro usando os critérios
que você quiser e o software desenhará para você os primers de
maneira otimizada. Após ajustar seus critérios, clique no botão pick
primers e veja as sugestões de primers criadas. Gostou? Então,
você agora está pronto para iniciar uma pesquisa em
Bioinformática.
Atividades
1. De�na o que é o NCBI e cite uma das suas ferramentas,
explicando-a.
2. Explique a diferença entre o alinhamento global e o local.
Exempli�que cada um deles com as ferramentas apresentadas nesta
aula.
3. A escolha do gene de interesse e o desenho de um primer são as
primeiras etapas a serem pensadas ao se iniciar um estudo em
Biologia Molecular. Dessa forma, cite 3 critérios importantes para o
desenho de um primer.
Notas
Referências
APOSTILA BIOINFORMÁTICA— DA BIOLOGIA À FLEXIBILIDADE
MOLECULAR. E-book. 1. ed. São Paulo: UFRGS, 2014. Disponível
em: https://www.ufrgs.br/bioinfo/ebook/. Acesso em: 22 jan. 2020.
javascript:void(0);
BLAST. NCBI. Disponível em:
https://blast.ncbi.nlm.nih.gov/Blast.cgi. Acesso em: 22 jan. 2020.
GENBANK. NCBI. Disponível em:
https://www.ncbi.nlm.nih.gov/genbank/. Acesso em: 22 jan. 2020.
PRIMER DESIGNER. In: Premier Biosoft. Disponível em
http://www.premierbiosoft.com/tech_notes/PCR_Primer_Design.html
. Acesso em: 22 jan. 2020.
PRIMER 3. In: Bioinfo. Disponível em: http://bioinfo.ut.ee/primer3-
0.4.0/. Acesso em: 22 jan. 2020.
PUBMED. In: NCBI. Disponível em:
https://www.ncbi.nlm.nih.gov/pubmed. Acesso em: 22 jan. 2020.
VIEIRA, Daniel Perez. Técnicas de PCR: Aplicações e Padronização
de Reações. Disponível em: http://www.imt.usp.br/wp-
content/uploads/proto/protocolos/aula4.pdf. Acesso em: 22 jan.
2020.
Próxima aula
BLAST e ClustalW;
Artigos no Pubmed;
javascript:void(0);
javascript:void(0);
javascript:void(0);
javascript:void(0);
javascript:void(0);
javascript:void(0);
Primers.
Explore mais
Leia os textos:
Bioinformatics: An overview and its applications.
Bioinformática: Manual do usuário.
javascript:void(0);
javascript:void(0);
Bioinformática
Aula 8: Alinhamento de sequências e desenho de primers
Apresentação
Nesta aula, abordaremos conceitos sobre o alinhamento de
sequências e desenho de primers, destacando as principais
ferramentas utilizadas.
Conheceremos as aplicações no desenho de primers, sondas,
alinhamento (comparação) de sequências e predição de
resultados de reações de PCR.
Objetivo
Aplicar o conhecimento das aulas anteriores;
Decodi�car a utilização do Blast para elaboração de um
primer;
Esclarecer a aplicação do Blast na sequência de primer
adequada.
NCBI Nucleotide Search
Quando falamos em ferramentas para o desenho de primers,
sondas e a comparação de sequências, três são essenciais. A
primeira delas é o NCBI Nucleotide Search, que procura as
sequências-alvo desejadas incluindo os genes de alguns animais,
do homem, plantas, protozoários, fungos, bactérias e vírus.
 (Fonte: NCBI Nucleotide Search)
A tela inicial tem um campo onde se escreve o nome do gene de
interesse. Após a escolha da sequência, é aberta uma página que
mostra muitas características da sequência: O nome do organismo
e do tipo celular de onde este gene foi isolado, o nome da proteína
proveniente (quando a sequência é uma região codi�cável do
genoma), a classe da proteína (receptor, citocina,proteína estrutural
etc.), o artigo cientí�co em que a sequência foi publicada, a
tradução (sequência de peptídeos da proteína gerada), informações
sobre os locais de início de transcrição e tradução, entre outras.
O tamanho mínimo, ótimo e médio do primer que se deseja criar
Recomenda-se que este número seja maior que 15 pares de bases
e não maior que 35 pares de bases em condições normais.
Primer Tm:
Temperatura mínima, ótima e máxima de melting do par de primers.
Recomenda-se a escolha de números entre 45ºC e 72ºC, para
garantir a especi�cidade da ampli�cação.
Primer GC%
Concentração de bases G e C nas cadeias dos primers. Salvo em
casos especiais, recomenda-se a escolha de valores de até 60%,
pois concentrações mais altas podem causar aumento excessivo
da temperatura de anelamento, di�cultando, assim, a padronização
da reação.
Salt concentration
Refere-se ao conteúdo total de íons metálicos (em nM) na solução.
O valor que o programa oferece (50nM) é adequado na maioria dos
casos. Os demais parâmetros não são utilizados rotineiramente.
Estes parâmetros dizem respeito à estabilidade térmica dos
primers, sua chance de formar dimers, self-dimers, hairpins, sua
energia cinética e outros fatores. Sua utilização não será abordada
aqui por não ser usual. Estes dados são utilizados em casos
especí�cos apenas. Após o preenchimento correto dos parâmetros,
clica-se na tecla Pick Primers, logo abaixo das funções Liberal Base
e Show Debugging Info.
A janela de resultados mostra, a princípio, o par de iniciadores que o
programa julgou mais adequado para a ampli�cação em questão,
levando em conta os parâmetros fornecidos pelo usuário. Mostra
não apenas a sequência de cada primer, mas também a região
onde estes se anelam ao DNA-molde, seu tamanho em pares de
base, o Tm de cada um e os valores de porcentagem de GC. Outros
valores são mostrados, com importância apenas para casos
especí�cos.
Rolando-se a página até o �m, pode-se observar alguns pares
alternativos. Estes pares também podem ser utilizados, porém com
maior parcimônia, pois não são tão adequados à reação quanto o
primeiro par, já visto.
No meio da página, o programa fornece a região ampli�cada,
delimitada por uma série de sinais > representando a região de
anelamento do Sense primer e de sinais“.
Atenção! Aqui existe uma videoaula, acesso pelo conteúdo online
 Blast
 Clique no botão acima.
O BLAST é talvez o melhor programa de alinhamento de
sequências que existe. Pela sua interface, é possível
inserir uma sequência genérica e compará-la com todos
os genes já sequenciados até o momento. Como
veri�cação �nal do processo de idealização de primers,
deve-se inserir a sequência obtida pelo Primer3,
correspondente à ampli�cação de interesse e confrontá-
la com o banco de dados do BLAST.
Este processo elimina erros, impedindo que os primers
ampli�quem uma sequência errada e mostra a
possibilidade de reações cruzadas. O programa estará
disponível após acessar o link Standard nucleotide-
nucleotide BLAST [blastn].
Nesta página, existe o campo de preenchimento, onde
deve-se colocar a sequência obtida pelo Primer3. Feito
isto, basta clicar no botão BLAST!, localizado no pé da
página.
A interface amigável e os controles intuitivos são
provavelmente a maior razão do sucesso deste
programa, que já conta com mais de uma década de
existência.
O programa apresenta uma tela de comando, com
informações sobre o número do pedido de alinhamento
de sequências. Para passar desta etapa, basta clicar em
Format!
A utilização de softwares como BLAST e Primer3 é de
grande valia, poupando tempo e dinheiro na
padronização de reações de PCR e servindo como
referência.
Algumas revistas cientí�cas só aceitam primers cuja
sequência foi veri�cada pelo BLAST e desenhados por
programas como o Primer3. Apesar de reduzir o tempo
de padronização, a experimentação nunca pode ser
substituída pelo uso de simulações em computador.
As temperaturas de anelamento dos primers obtidos por
todo este processo, desde a busca no NCBI até a
veri�cação pelo BLAST, devem ser apuradas
experimentalmente antes de se começar a sua utilização.
Atenção! Aqui existe uma videoaula, acesso pelo conteúdo online
Atenção! Aqui existe uma videoaula, acesso pelo conteúdo online
O uso do desenho de primers no
dia a dia
A PCR (polymerase chain reaction) é uma reação em cadeia da
polimerase que permite a ampli�cação exponencial de segmentos
de DNA in vitro.
A reação se processa em diferentes etapas, cada uma em uma
temperatura controlada por um aparelho denominado
termociclador . A primeira é a etapa de desnaturação térmica do
DNA (~95ºC). Nesta temperatura, as �tas de DNA serão
completamente separadas. Em seguida, a etapa anelamento dos
primers (50~60ºC). Nesta etapa, ocorre o pareamento dos primers
por complementariedade.
A temperatura utilizada dependerá da composição de bases do
primer. E a terceira etapa é a extensão do DNA . A extensão ocorre a
72ºC, temperatura em que a Taq Polimerase (um DNA polimerase)
apresenta melhor atividade. Estas três etapas compõem um ciclo
da PCR e se repetem por várias vezes, permitindo a ampli�cação de
uma região do DNA.
Saiba mais
A de�nição da região a ser ampli�cada é determinada pelo par de
primers, que funcionam como iniciadores da polimerização,
delimitando a região do DNA a ser copiada.
Os primers são oligonucleotídeos que apresentam sequência
complementar à região de anelamento. Cada um dos primers
introduzidos na PCR irá parear com uma das �tas de DNA. Os
primers precisam apresentar algumas características para que se
obtenha sucesso na PCR. Dentre as características, temos:
Conteúdo CG deve estar por volta dos 50%.
Isso garante que o primer apresente uma maior especi�cidade de
interação com a região de complementariedade. Lembre-se que a
etapa de anelamento ocorre em uma temperatura menor que a de
extensão. A elevação da temperatura faz com que a interação entre
o primer e a região de complementariedade do DNA diminua. Se o
conteúdo CG for muito menor que 50%, eles irão se dissociar
completamente.
Não devem conter complementariedade entre suas bases
Um primer não pode conter complementariedade com ele mesmo
ou com o seu par. Se estes eventos ocorrerem, observaremos a
formação de estruturas denominadas de autodímeros e dímeros.
Caso ocorram em temperaturas próximas daquelas utilizadas nas
etapas da PCR, ao invés do primer parear com a região do DNA de
interesse, ele estará pareando com outro primer, reduzindo a
e�ciência do processo. A temperatura de anelamento entre os
primers não deve diferir mais do que 3ºC. Para se determinar a
temperatura de anelamento dos primers, devemos partir da fórmula
do cálculo da temperatura de melting [Tm= 2(A + T) + 4(G + C)ºC],
onde A, T , G e C, devem ser substituídos pela quantidade de vezes
que cada uma das bases aparece no primer. Após a obtenção deste
valor, utilizaremos a seguinte fórmula para a obtenção da
temperatura de anelamento: T anelamento= Tm (primer) – 4 ºC. A
fórmula será utilizada para cada um dos dois primers . Ao �nal, a
diferença entre os primers deverá ser <3 [T anelamento (primer
esquerda) - T anelamento (primer direita) <3]. Isso garante que, no
momento de se determinar a temperatura de anelamento no
termociclador, ambos os primers estarão pareando com o DNA o
mais próximo possível da sua temperatura ótima de anelamento.
Existem outras maneiras de se calcular a temperatura de
anelamento, mas esta será a utilizada em nossa disciplina. Após
análise das características básicas, iremos construir um par de
primers, com o objetivo de ampli�car uma determinada região de
um gene humano de interesse. A primeira etapa a ser realizada é
encontrar a região genômica que apresenta o gene de interesse.
Para isso, iremos realizar uma busca no banco de dados do NCBI
pelo gene de interesse utilizando um banco de dados de genes.
Iremos acessar o gene correspondente em humanos e,a partir
desta busca, acessar a sequência de nucleotídeos do gene clicando
no link RefSeqGene presente na barra lateral direita do site. Ao
acessar, clicando em GenBank, será apresentado.
Atividade
1. O método de sequenciamento Sanger:
a) É baseado na modificação química do DNA utilizando piperidina e foi
inicialmente desenvolvido por Allan Maxam e Walter Gilbert e, mais
tarde, modificado por Sanger.
b) É baseado na incorporação de didesoxinucleotídeos que, ao serem
incorporados, impedem a adição de nucleotídeos adicionais.
c) Requer todas as enzimas necessárias para a replicação de DNA como
helicases, polimerases, porém, não necessita da primase, pois são
adicionados iniciadores artificiais com os nucleotídeos e
didesoxinucleotídeos.
d) Depende do preparo de géis de acrilamida para separar os diferentes
fragmentos de DNA que serão analisados.
e) É limitada pela necessidade do uso de isótopos radioativos para a
marcação dos fragmentos de DNA que serão sequenciados.
2. (FUVEST) Em vez de sequenciar as bases nitrogenadas de todos
os cromossomos de uma planta com um genoma muito grande,
pesquisadores selecionaram partes desse genoma para sequenciar.
Somente as sequências de DNA que correspondem ao conjunto dos
RNA mensageiros transcritos no fruto serão estudadas. O DNA a ser
sequenciado foi sintetizado em laboratório, tendo como molde as
moléculas de RNA extraídas dos frutos.
a) Se os cientistas fossem sequenciar todo o genoma dessa planta,
haveria diferença se o material genético viesse do fruto ou da folha
da planta? Justi�que.
b) No estudo das sequências que tiveram como molde RNA
mensageiro, faria diferença se esse RNA mensageiro fosse extraído
das folhas ou dos frutos? Justi�que.
3. Diversas técnicas são utilizadas para determinar, em genes de
uma célula eucariota, a sequência de bases nitrogenadas
codi�cantes, ou seja, aquela que de�ne a estrutura primária da
proteína a ser sintetizada. A abordagem experimental mais frequente,
hoje, consiste em, primeiramente, extrair os RNA mensageiros da
célula, sintetizar os seus DNA complementares e, então, proceder ao
sequenciamento das bases presentes nesses DNA. Em uma bactéria,
no entanto, é possível determinar a sequência codi�cante
diretamente a partir de seu cromossomo.
Explique o motivo pelo qual, em organismos eucariotas, é preferível
utilizar o RNA-mensageiro para determinar a região codi�cante do
DNA.
4. (PUC-SP) […] De outro lado, o galardão de Química �cou com os
inventores de ferramentas para estudar proteínas, os verdadeiros
atores do drama molecular da vida. É verdade que a Fundação Nobel
ainda fala no DNA como o diretor da cena a comandar a ação das
proteínas, mas talvez não seja pretensioso supor que foi um lapso, e
que o sinal emitido por essas premiações aponta o verdadeiro futuro
das pesquisas biológicas e médicas muito além do genoma e de seu
sequenciamento (uma simples soletração) […].
O autor refere-se às proteínas como atores do drama molecular e ao
DNA como diretor de cena. Essa referência deve-se ao fato de:
a) Não ocorrer uma correlação funcional entre DNA e proteínas no meio
celular.
b) O DNA controlar a produção de proteínas e atuar como catalisador
de reações químicas celulares.
c) O material genético ser constituído por proteínas.
d) As proteínas não terem controle sobre o metabolismo celular.
e) O DNA controlar a produção de proteínas e estas controlarem a
atividade celular.
5. Marque a alternativa que melhor de�ne um gene:
a) O gene é uma porção da molécula de RNA que determina uma
característica.
b) O gene é uma região do DNA que é responsável pela síntese de
carboidratos, determinando nossas características.
c) O gene é uma sequência de nucleotídeos em que está contida a
informação que será usada para a síntese de proteínas.
d) Trecho do RNA que contém sequências de nucleotídeos que são
usados para a síntese de proteínas.
Notas
Referências
BRAMMER, Sandra Patussi. A técnica da eletroforese: Importância e
aplicações em análises genéticas. Documentos Online. Disponível
em: http://www.cnpt.embrapa.br/biblio/p_do06.pdf. Acesso em: 24
jan. 2020.
FAKRUDDIN, M. D.; CHOWDHURY, A.; HOSSAIN, M. D. N.; MANNAN,
K. S. B.; MUZAMDAR, R. M. Pyrosequencing— Principles and
Applications. International Journal of Life Science and Pharma
Research, v. 2, p. L.65-75, 2012. Disponível em:
http://www.ijlpr.com/admin/php/uploads/67_pdf.pdf . Acesso em:
24 jan. 2020.
FIGUEIREDO, Graziella S. et al. Reação de sequenciamento de DNA
e puri�cação— Protocolos otimizados. Circular Técnica, n. 22, dez.
2003. Disponível em:
http://ainfo.cnptia.embrapa.br/digital/bitstream/CENARGEN/24105/1/ct022.pdf
. Acesso em: 24 jan. 2020.
LEITE, Marcelo. De volta ao sequenciamento. Folha de S. Paulo,
São Paulo, 20 out. 2002.
MINOCHE, A. E.; DOHM, J. C.; SCHNEIDER, J.; HOLTGRÄWE, D.;
VIEHÖVER, P.; MONTFORT, M.; HIMMELBAUER, H. (2015). Exploiting
single-molecule transcript sequencing for eukaryotic gene
prediction. Genome Biology, 1–13.
javascript:void(0);
javascript:void(0);
p gy,
PEIXOTO, B. M. Classi�cação de sequência e análise de
diversidade em metagenômica. Tese (Mestrado em
Bioinformática)— Universidade Estadual de Campinas/UNICAMP—
Instituto de Computação, 2013.
QUAIL, M.; SMITH, M. E.; COUPLAND, P.; OTTO, T. D.; HARRIS, S. R.;
CONNOR, T. R.; GU, Y. (2012). A tale of three next generation
sequencing platforms: Comparison of Ion torrent, paci�c
biosciences and illumina MiSeq sequencers. BMC Genomics,
13(1)1. Disponível em: http://doi.org/10.1186/1471-2164-13-341.
Acesso em: 27 jan. 2020.
ROBERTS, R. J.; CARNEIRO, M. O.; SCHATZ, M. C. (2013). The
advantages of SMRT sequencing. Genome biology, 14(6), 405.
STADERMANN, K. B.; WEISSHAAR, B.; HOLTGRÄWE, D. (2015).
SMRT sequencing only assembly of the sugar beet (beta vulgaris)
chloroplast genome. BMC Bioinformatics, 16(1), 295.
Próxima aula
javascript:void(0);
As ômicas e sua importância nos estudos cientí�cos.
Explore mais
Pesquise na internet sites, vídeos e artigos relacionados ao
conteúdo visto. Em caso de dúvidas, converse com seu
professor online por meio dos recursos disponíveis no ambiente
de aprendizagem.
Bioinformática
Aula 9: Anotação gênica
Apresentação
Anotar é tornar um conteúdo mais claro, adicionar informações
que facilitem o entendimento. Quando falamos de anotar uma
sequência gênica, referimo-nos ao processo que dá sentido às
longas sequências de DNA, encontrando os genes e dizendo a
função que eles possuem.
Ao longo dessa aula, grande parte do seu conhecimento
adquirido até aqui será revivido. Para realizar a anotação gênica,
é preciso relembrar a organização do DNA e a função das
biomoléculas, saber o que são bancos de dados biológicos e
como funciona o alinhamento de sequências.
Objetivo
Descrever o que é anotação de genomas;
Explicar a realização da anotação gênica;
Empregar bancos de dados públicos para anotações de
nucleotídeos, proteínas e processos.
O que é anotação gênica
A anotação gênica é uma etapa muito importante das atividades de
um bioinformata. Começaremos de�nindo a palavra anotar. De
acordo com o dicionário Aurélio (2020), anotar é adicionar notas
explicativas a um texto. Eu diria que anotar é tornar um conteúdo
mais claro, adicionar informações que facilitem o entendimento.
Quando você lê um texto e vai anotando algumas frases pelas
beiradas da folha, você espera que isso torne mais fácil a próxima
leitura, não é mesmo?
Formalmente, anotação de um genoma consiste na identi�cação de
suas regiões funcionais ou de relevância biológica.
Atenção! Aqui existe uma videoaula, acesso pelo conteúdo online
A anotação gênica vem logo depois de você determinar as sequências de
nucleotídeos do DNA usando o sequenciamento. Ela se refere ao processo
que dá sentido a essas longas sequências, encontrando os genes e dizendo
a função que eles possuem. Se você vai estudar um organismo que já tem
seu genoma anotado, tudo �ca mais fácil. Você já sabe, por