Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.

Prévia do material em texto

Anotação gênica
Profª. Melise Chaves Silveira
Descrição
Estudo de dados biológicos abordando bancos de dados, anotação
genômica e ciências ômicas.
Propósito
Conhecer os processos pelos quais os dados biológicos passam e onde
é possível acessá-los é essencial para a ampla compreensão das
informações biológicas e para a consulta de fontes confiáveis de
pesquisa. Além disso, a partir do estudo das ciências ômicas o aluno
estará atualizado em relação aos avanços científicos nesta área.
Objetivos
Módulo 1
Banco de dados e anotação genômica
Empregar bancos de dados biológicos para anotação genômica.
19/05/2025, 04:30 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html?brand=estacio# 1/50
Módulo 2
Conceitos e aplicações das ciências ômicas
Reconhecer os conceitos e aplicações das ciências ômicas.
Você lidará frequentemente com dados biológicos, como, por
exemplo, as sequências de aminoácidos, as estruturas
tridimensionais de proteínas ou o esquema de uma via metabólica,
ao desenvolver artigos científicos. É muito importante saber como
podemos ter acesso a fontes confiáveis desses dados e como
utilizá-los. Como a ciência está em constante evolução, novos tipos
de dados são gerados proporcionalmente a esse avanço, e isto em
larga escala.
Neste conteúdo você entenderá o que são bancos de dados
biológicos e como esses dados são empregados, por exemplo, no
processo de anotação genômica. Você também irá se atualizar
quanto às novas tendências de geração de dados biológicos e
como elas podem melhorar, e muito, nossa vida, ajudando no
diagnóstico de doenças, em novos tratamentos e até na melhor
qualidade de vida.
Introdução
19/05/2025, 04:30 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html?brand=estacio# 2/50
1 - Banco de dados e anotação genômica
Ao final deste módulo, você será capaz de empregar bancos de dados biológicos para
anotação genômica.
Banco de dados
Vivemos em uma sociedade que produz uma quantidade gigantesca de
dados. O número dos seus documentos, suas fotos em redes sociais,
seus e-mails, as palavras que você procura em aplicativos de busca, e as
músicas que você escuta são exemplos de dados. Profissionais
conhecidos como cientistas de dados são especializados em “cuidar”
desses registros, desde o armazenamento, passando pela obtenção de
informação, pelo conhecimento, pela visualização, até o descarte.
Provavelmente você já utilizou algum aplicativo de streaming ―
tecnologia de transmissão de dados pela internet, principalmente áudio e
vídeo, sem a necessidade de baixar o conteúdo para seu computador ou
celular.
Esses aplicativos armazenam e reproduzem dados, além de utilizarem
das análises realizadas pelos cientistas de dados para, por exemplo,
sugerir a você um filme que provavelmente irá agradá-lo ou indicar qual
estilo de música que você mais escutou em um respectivo ano.
19/05/2025, 04:30 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html?brand=estacio# 3/50
Dados são fatos coletados que podem ser armazenados. A informação é
o dado que estava armazenado e foi recuperado de acordo com algum
interesse. Por fim, o conhecimento é gerado quando a informação é
interpretada, quando novas conexões são feitas a partir de uma
informação que já existia.
Exemplo
Imagine que eu tenha a sequência de aminoácidos de uma nova proteína
e queira descobrir a estrutura tridimensional (3D) que ela irá assumir.
Uma solução é encontrar uma proteína com a estrutura 3D já descrita
que seja bem parecida com a minha nova proteína. A estrutura dessa
proteína “antiga” é um dado que estava armazenado. A partir do meu
interesse eu recuperei esse dado específico, e agora ele passa a ser a
informação na qual irei me embasar para desvendar a estrutura da nova
proteína, gerando conhecimento, algo novo.
Em bioinformática, os principais tipos de dados produzidos são:
Uma vez que os dados são produzidos, eles precisam ser armazenados
para serem revisitados quando necessários. Logo, bancos de dados são
arquivos de computador que armazenam e organizam dados para que
possam ser recuperados facilmente de acordo com diferentes critérios
de busca.
Exemplo
Vamos pensar em um banco de dados de sequências nucleotídicas.
Cada sequência nesse banco possui informações vinculadas, como sua
descrição, um número de identificação próprio, o organismo do qual o
DNA foi extraído, o tamanho da sequência em pares de bases, a ordem
das bases nitrogenadas, dentre outras. Para gerar um banco de dados
com todos esses registros são usados programas de computador.
Uma das formas de organizar os dados é a partir de arquivos de
computador no formato tabular (tabelas). Esses programas armazenam
Sequências de nucleotídeos
e aminoácidos
Coordenadas de estrutura
de proteínas
19/05/2025, 04:30 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html?brand=estacio# 4/50
as informações sobre cada sequência em diferentes tabelas. Uma das
tabelas poderia ter o número de identificação e a descrição. Outra teria o
número de identificação e os organismos dos quais o número foi obtido.
E assim são organizadas várias tabelas com informações diferentes
sobre um mesmo conjunto de sequências.
Cada informação ocupa uma posição (campo) específica na tabela, e
ganha um índice, uma coordenada de localização. Os campos de
diferentes tabelas estão conectados entre si, relacionados, de modo que
seja possível identificar as conexões entre eles.
Os programas de computador, portanto, podem lidar com os dados de
forma rápida e eficiente. Por meio deles você consegue, em segundos,
acessar e visualizar todas as informações sobre determinada sequência
que estão armazenadas em diferentes tabelas. Pode ser usado como
critério de busca qualquer um dos campos relacionados a essa
sequência, como seu número de identificação. Veja o exemplo a seguir.
Exemplo da organização de um banco de dados de forma tabular.
O primeiro banco de dados biológico foi criado por Margaret Dayhoff e
por seus colaboradores. Ela é considerada uma das criadoras da
bioinformática. Dayhoff foi PhD em Química quântica pela Universidade
de Columbia, nos EUA, onde surgiu um dos primeiros laboratórios de
computação do país. Combinando seus conhecimentos em Química
com as ferramentas computacionais disponíveis, ela liderou um projeto
no qual usava programas de computador para comparar sequências
parciais de peptídeos e, assim, tentar montar proteínas completas.
Após publicar as sequências de algumas proteínas e as suas relações,
Margaret quis reunir todas as sequências disponíveis a fim de que os
19/05/2025, 04:30 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html?brand=estacio# 5/50
pesquisadores pudessem ter acesso a esses dados mais facilmente. Ela
começou a vasculhar registros em papel e a conferir as sequências que
outros colegas já haviam descrito, contando com a ajuda de um
computador para realizar essas verificações.
Após reunir a sequência de 65 proteínas em um computador, Dayhoff
publicou a versão impressa desses dados no Atlas of Protein Sequence
and Structure (Atlas de sequência e estrutura de proteínas), em 1965,
como observado a seguir. Essa iniciativa deu início a uma revolução
científica, que impulsionou a criação dos bancos de dados biológicos
Protein Data Bank e GenBank em 1971 e em 1982, respectivamente,
muito utilizados até os dias atuais e sobre os quais falaremos com
detalhes mais adiante.
Registro da sequência de aminoácidos da proteína citocromo c, feita por Margaret Dayhoff em
seu Atlas.
Classificação dos bancos de dados
Atualmente, existem muitos bancos de dados biológicos disponíveis e
podemos diferenciá-los usando critérios como:
 Disponibilidade de acesso
 Conteúdo armazenado
19/05/2025, 04:30 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html?brand=estacio# 6/50Vamos falar sobre cada um deles?
Acesso
O acesso a um banco de dados on-line é a permissão de uso ou
distribuição dos dados oferecida a qualquer pessoa com internet.
Quanto a essa caraterística, os bancos podem ser classificados como:
Bancos de dados de acesso restrito limitam a capacidade do
usuário de utilizar seus dados. Essas restrições podem ocorrer
por diferentes motivos. Dentre eles estão a natureza da
instituição responsável pelo banco (pública/privada) e a
confidencialidade dos dados.
O Banco Nacional de Perfis Genéticos, criado em 2013 e
coordenado pelo Ministério da Justiça e Segurança Pública do
Brasil, é um exemplo de banco de dados com acesso restrito. É
uma importante ferramenta que auxilia em investigações
criminais, pois contém sequências de DNA relacionadas ao
cometimento de crimes violentos e de abuso sexual, coletadas
diretamente de condenados ou a partir de vestígios recuperados
dos locais dos crimes. Em virtude de sua confidencialidade,
apenas pessoas autorizadas podem ter acesso aos dados
disponíveis nesse banco.
Um dos princípios fundamentais da ciência é que os cientistas
devem mostrar em detalhes os resultados de suas pesquisas e
como chegaram a eles. Essa premissa de compartilhar
informações permite o avanço mais rápido da ciência. Quanto
mais dados disponíveis, maior será a chance de novas
descobertas serem feitas. Considerando isso, os bancos mais
 Qualidade dos dados
Acesso restrito 
Acesso livre 
19/05/2025, 04:30 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html?brand=estacio# 7/50
relevantes para nós e que serão exemplificados ao longo desse
estudo serão os bancos de dados biológicos de acesso livre, que
não impõe restrições quanto ao uso e à distribuição dos dados
armazenados.
O GenBank, um banco de dados do NIH (National Institutes of
Health), equivalente ao Ministério da Saúde do Brasil, “se propõe
a fornecer e incentivar o acesso dentro da comunidade científica
às informações mais atualizadas e abrangentes sobre a
sequência de DNA” (GenBank, 2021). Dessa forma, qualquer
pessoa com acesso à internet pode ver as sequências disponíveis
e analisá-las a partir das ferramentas do portal (por exemplo, a
ferramenta BLAST), além de ser possível fazer o download das
informações sobre as sequências pesquisadas.
Conteúdo
Considerando o conteúdo armazenado, os bancos de dados biológicos
podem ser classificados como:
Guardam dados brutos, que foram produzidos diretamente por
experimentos em laboratório, na bancada. Esses dados são
depositados diretamente pelos cientistas, e são fruto do
sequenciamento de DNA ou de experimentos para identificar a
estrutura 3D de moléculas biológicas.
Contêm dados originados de algum tipo de processamento de
dados brutos. Esse processo pode ter sido feito por programas de
computador ou por profissionais especializados. Programas de
computador podem ser usados, por exemplo, para traduzir
sequências de nucleotídeos em sequências de aminoácidos, além
de sugerir uma função para proteínas. Em outros casos,
cientistas podem revisar manualmente dados brutos, e indicar
aqueles mais confiáveis. Bancos que armazenam os dados
produzidos por esses dois exemplos – programas de computador
ou profissionais especializados – são considerados secundários.
Bancos primários 
Bancos secundários 
19/05/2025, 04:30 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html?brand=estacio# 8/50
São aqueles focados em um determinado interesse de pesquisa.
Imagine que um banco só armazene dados biológicos
relacionados ao vírus HIV. Pesquisadores que trabalham no
desenvolvimento de vacinas, na busca por tratamentos, no
entendimento da relação do vírus com o sistema imune, dentre
outros muitos temas que envolvem o HIV, podem acessar esse
banco para obter informações e gerar conhecimento.
Qualidade
A qualidade dos dados biológicos varia entre os diferentes bancos.
Aqueles classificados como:
São considerados não curado pois contêm dados brutos, não
passaram por uma inspeção de especialistas na área capazes de
realizar a curadoria dos dados. “Pela etimologia, o termo
curadoria, a partir de sua origem no latim curare, significa cuidar,
zelar, tratar” (BARDIN, 2010, p. 138).”
São considerados curados pois contêm dados que passaram por
algum processo de curadoria, o que agregou valor ao conteúdo
disponibilizado. Alguns exemplos de “valores” agregados a
dados primários pela curadoria incluem:
descrição da função biológica, como o papel de uma
determinada proteína na célula;
localização do dado em relação a um processo mais
complexo, por exemplo, dizendo em qual via metabólica
uma determinada enzima participa;
exclusão de dados redundantes, aqueles que trazem
exatamente o mesmo tipo de informação;
integração entre diferentes tipos de dados, disponibilizando
sequência de nucleotídeos e de aminoácidos
Bancos de dados especializados 
Bancos primários (não curado) 
Bancos secundários e especializados (curado) 
19/05/2025, 04:30 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html?brand=estacio# 9/50
correspondentes, por exemplo;
adição de informações obtidas a partir dos artigos em que
os dados foram publicados e descritos.
A curadoria dos dados biológicos pode ser feita apenas por meio de
computador ou de interferência humana. Existem programas de
computador capazes de identificar o início e o fim de um gene dentro de
uma longa sequência de nucleotídeos.
Outros comparam a sequência do gene recém-encontrado com outras já
conhecidas e sugerem uma função. Porém, quando acontecem
situações inesperadas para as quais o computador não foi treinado para
lidar e identificar, a curadoria feita por máquinas gera erros.
A curadoria computacional ainda não substitui aquela feita por
profissionais especialistas. A mente humana é a única capaz de ler
artigos e de extrair os conhecimentos necessários; de inspecionar e
corrigir erros e inconsistências gerados automaticamente pelas
ferramentas computacionais; de interagir com pesquisadores e de ajudar
no momento da submissão de dados ao banco, dentre muitas outras
capacidades.
Atenção
19/05/2025, 04:30 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html?brand=estacio# 10/50
A diferença na qualidade dos dados presentes nos bancos é muito
relevante, e a escolha do banco ideal depende da aplicação que você
pretende dar ao dado. Se você está padronizando um método ou
testando uma ideia, pode ser mais interessante uma pequena
quantidade de dados confiáveis. Em situações em que você deseja
encontrar algum dado raro, ou em que é importante ter uma ideia geral,
do todo, então bancos primários que tenham passado por uma curadoria
simples são mais indicados.
Você pode encontrar diferentes classificações dos bancos de dados
biológicos em outras referências bibliográficas, mas de forma geral elas
vão sempre abordar os critérios que acabamos de ver: acesso, conteúdo
e qualidade dos dados. A seguir, discutiremos exemplos, a fim de que os
conceitos apresentados até aqui façam mais sentido para você.
Principais bancos de dados – funções
e utilização
Bancos de dados primários
Podemos dividir o conteúdo dos bancos biológicos brutos em dois tipos
principais:
sequências de nucleotídeos;
estruturas tridimensionais.
Todos os exemplos de bancos dos quais falaremos agora passaram por
uma curadoria mínima, feita apenas por programas de computador de
forma automatizada. Em todos eles o acesso aos dados é
completamente livre, o usuário pode ler as informações, baixar para seu
próprio computador e analisá-la da melhor forma para atender ao seu
interesse específico.
Atenção
É importante lembrar que esses bancos são “alimentados” por
pesquisadores do mundo todo. Os bancos em si não se responsabilizam
por avaliar situações de patentes, direitos autorais ou outros direitos de
propriedade intelectualdos dados que foram enviados. Portanto, no
portal dos bancos você não vai encontrar comentários ou permissão
irrestrita com relação ao uso, à cópia ou à distribuição das informações
que eles contêm.
19/05/2025, 04:30 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html?brand=estacio# 11/50
Chegou a hora de dar nome aos
bancos!
Os principais bancos de sequências de nucleotídeos com o perfil
apresentado nessa seção são os bancos de sequência mantidos pelo:
Esses bancos colaboram entre si e estão conectados, mesmo sendo
administrados por organizações diferentes. Juntos eles formam a
Colaboração Internacional de Bancos de Dados de Sequências de
Nucleotídeos (International Nucleotide Sequence Database Collaboration,
INSDC). Isso significa que se você procurar por um determinado tipo de
sequência no portal de qualquer um desses bancos terá acesso ao
mesmo conjunto de dados.
Para fazer sua pesquisa basta acessar um site de busca, como o Google,
e digitar a sigla do banco de dados (GenBank, NCBI, ENA e EMBL ou
DDBJ). Um dos primeiros resultados já é o hiperlink que o direcionará
para o portal do banco. Uma das formas de encontrar a sequência de
nucleotídeos que você deseja é por meio do emprego de palavras-chave
que estariam presentes na descrição daquela sequência.
 NCBI (National Center for Biotechnology
Information)
 ENA (European Nucleotide Archive) e EMBL
(European Molecular Biology Laboratory)
 DDBJ (DNA Data Bank of Japan)
19/05/2025, 04:30 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html?brand=estacio# 12/50
Exemplo
O GenBank armazena sequências primárias de nucleotídeos enviadas ao
NCBI por pesquisadores do mundo todo. Após passar pelo crivo de uma
inspeção automática, feita somente por programas de computador, as
sequências recebem um número de acesso exclusivo e são liberadas.
Para ter acesso a essas sequências basta entrar na página inicial do
banco de dados e digitar palavras, siglas ou outro tipo de texto que se
relacione ao seu tema de interesse. Em seguida basta selecionar a opção
“procurar” (search), para que a página com os resultados se abra.
Uma diferença importante entre os bancos de dados que compõe o
INSDC é a forma como seus dados podem ser armazenados. O formato
de um arquivo indica as regras de como o dado armazenado deve ser
“escrito”, registrado. Em bancos de dados de sequências primárias, o
formato FASTA está sempre disponível. Por outro lado, existe a opção de
o usuário obter o dado em outro formato, que seja específico de
determinado banco. Por exemplo, o GenBank é o nome dado a um tipo
de formato de arquivo usado pelo NCBI (o mesmo nome de um dos seus
bancos de dados), e o EMBL é o nome do formato exclusivo da
organização que possui a mesma sigla (EMBL). A seguir, veremos os
formatos disponíveis para a mesma sequência de nucleotídeos.
Formato EMBL
19/05/2025, 04:30 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html?brand=estacio# 13/50
Formato FASTA
Formato GenBank
Vamos falar agora sobre dados brutos da estrutura tridimensional (3D)
de moléculas biológicas. A estrutura 3D é o formato que uma molécula
assume, depois que seus átomos estão interagindo entre si, de acordo
com propriedades físicas e químicas.
Esse tipo de dado primário é obtido a partir de técnicas como
cristalografia de raio-X, espectroscopia por RMN (Ressonância
Magnética Nuclear) e microscopia eletrônica 3D. Podem passar por esse
processo, principalmente, moléculas de proteínas, além de DNA e RNA.
Estrutura 3D da proteína hemoglobina.
v
Atenção
O Banco de Dados de Proteínas, PDB (Protein Data Bank), é o banco
primário que centraliza as informações sobre estrutura 3D de moléculas
19/05/2025, 04:30 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html?brand=estacio# 14/50
biológicas. Ele é administrado pela Pesquisa Colaborativa para
Bioinformática (Estrutural Research Collaboratory for Structural
Bioinformatics, RCSB). Para você ter uma ideia da “soberania” de
estruturas de proteínas no PDB, em agosto de 2021 existiam 158.145
submissões disponíveis de estruturas proteicas, enquanto que para DNA
e RNA eram 2.094 e 1.555 estruturas, respectivamente.
Conhecer a estrutura 3D de uma molécula biológica é importante para
entender com o que ela pode interagir e sua possível localização na
célula. Essas características permitem compreender a sua função
biológica.
A proteína hemoglobina, por exemplo, presente nas hemácias e
responsável pelo transporte de oxigênio pelo corpo, regula a ligação e
liberação dessa molécula de acordo com mudanças na sua estrutura.
As informações estruturais também são muito úteis nas pesquisas sobre
a evolução. Você pode estudar duas proteínas que possuem uma
história evolutiva em comum e não conseguir detectar esse “parentesco”
pela comparação das sequências primárias de aminoácidos. No entanto,
a estrutura ainda irá preservar semelhanças que comprovam a
proximidade entre elas.
Para acessar os dados da estrutura 3D de moléculas biológicas, basta
usar um portal de busca, como o Google, e digitar “PDB RCSB”. Um dos
primeiros hiperlinks o levará para o portal do banco de dados. Na página
inicial, você encontrará uma barra na parte superior, como mostrado na
imagem a seguir, a qual você deverá preencher usando algum termo de
pesquisa relacionado ao seu interesse. Uma opção é usar o nome da
proteína, preferencialmente o termo em inglês.
19/05/2025, 04:30 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html?brand=estacio# 15/50
Página inicial do PDB.
Por exemplo, você pode digitar collagen (colágeno) e em seguida clicar
no símbolo da lupa. A página que se abre contém hiperlinks que vão
levar para a página de diferentes estruturas dessa proteína. Para cada
estrutura você tem acesso a informações como: hiperlink para o artigo
onde foi publicada, detalhes sobre a metodologia usada obter a
estrutura, dentre outros. O principal dado é o arquivo com a localização
de cada átomo relativo aos demais na molécula: na parte superior existe
a opção Download Files (Baixar Arquivos), ao clicar nela você deve
escolher o formato PDB (PDB Format), como mostra a figura a seguir:
Informações sobre a estrutura de um registro da proteína colágeno.
O nome do formato desse arquivo (PDB) é o mesmo nome do banco de
dados. Dentre outras informações, nele encontramos:
 O nome da proteína
19/05/2025, 04:30 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html?brand=estacio# 16/50
Veja a seguir um exemplo de arquivo em formato PDB das coordenadas
atômicas.
Coordenadas atômicas de um arquivo no formato PDB.
Bancos de dados secundários
 O nome do autor que realizou a submissão
 Os detalhes do experimento
 A estrutura secundária
 Os cofatores
 As coordenadas dos átomos
19/05/2025, 04:30 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html?brand=estacio# 17/50
Quando começamos a falar sobre bancos de dados, diferenciamos
dados, informação e conhecimento. A função dos bancos secundários é
justamente agregar informação aos dados presentes nos bancos
primários e assim gerar conhecimentos biológicos mais aprofundados.
A diferença entre os bancos secundários é o quanto os dados foram
processados por programas de computadores e se houve presença do
olhar clínico de um especialista validando essas informações. As
organizações que mantêm esses bancos podem restringir algum tipo de
informação processada, exigindo o pagamento de uma licença para o
acesso integral aos dados, por exemplo. Vamos estudar agora dois
desses bancos.
UniProtKB
O UniProtKB (UniProt Knowledgebase) é o principal banco de dados do
consórcio Recurso Universal de Proteínas (Universal Protein Resource).
Esse banco armazena um amplo conjunto de sequências primárias de
proteínas e suas funções biológicasassociadas. Ao acessá-lo e
pesquisar sobre uma determinada proteína, você terá acesso a
sequências de aminoácidos dessa biomolécula e saberá qual é o seu
papel na célula. O UniProtKB é dividido em dois bancos menores:
TrEMBL
Contém dados da
tradução (Tr) das
proteínas obtidos
automaticamente por
programas de
computador a partir de
sequências de
nucleotídeos EMBL,
além de sua provável
função. Nenhum dos
dados é revisado por
especialistas.
Swiss-Prot
Abrange dados sobre a
sequência e função de
proteínas obtidos a
partir da literatura e
produzidos por
computador, seguidos
pela curadoria manual
de especialistas.
Atenção
O UniProtKB é o principal banco usado quando os cientistas querem ter
acesso a uma ampla coleção de proteínas. Você pode fazer isso
buscando pelo nome do banco em portais de busca e usar o hiperlink
que o levará até a página inicial.

19/05/2025, 04:30 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html?brand=estacio# 18/50
Como mostrado a seguir, na página de entrada você encontra uma barra
em que pode digitar termos para realizar a busca por proteínas. Outra
opção de busca é a ferramenta de alinhamento BLAST, caso você deseje
encontrar similaridade entre uma sequência de proteína de seu interesse
com as proteínas armazenadas no UniProtKB.
Página inicial do UniProt.
Caso você tenha optado pela busca textual e digitado, por exemplo,
“collagen”, o resultado será uma tabela com várias proteínas colágeno
depositadas nesse banco, cada uma recebendo um código de
identificação próprio (Entry). As informações sobre proteínas
armazenadas no Swiss-Prot são mais confiáveis, visto que esse banco é
revisado manualmente, mas se a busca for feita em todo o UniProtKB,
aparecerá resultados tanto do Swiss-Prot quanto do TrEMBL.
Resultado da busca por “collagen” no UniProtKB.
Ao clicar em um desses códigos de identificação, será aberta uma
página com muitas informações sobre aquela proteína, como:
função;
nomenclatura usada;
19/05/2025, 04:30 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html?brand=estacio# 19/50
localização na célula;
associação com doenças;
modificações pós-traducionais pelas quais a proteína possa
passar;
hiperlinks para estruturas 3D associadas.
KEGG
O último banco de dados que vamos abordar aqui será o KEGG (Kyoto
Encyclopedia of Genes and Genomes). Esse banco é bem completo, e
apresenta diferentes tipos de dados, com o intuito de compreender a
função e a utilidade dos sistemas biológicos. Apesar da abrangência
atual do KEGG, ele é mais conhecido como um banco de vias
metabólicas, pois esse foi o propósito da sua criação.
Página inicial do KEGG.
Os dados iniciais utilizados pelo KEGG são principalmente sequências
genômicas, que depois passam por uma série de análises realizadas por
diferentes programas de computador e por profissionais especialistas.
Todos os dados produzidos são então organizados e disponibilizados.
Veja, a seguir, alguns exemplos de coleções de dados que podemos
encontrar nesse banco:
Esquemas manualmente projetados para representar a interação
entre moléculas, como, por exemplo, vias metabólicas.
KEGG Pathway 
19/05/2025, 04:30 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html?brand=estacio# 20/50
Esquema via metabólica da galactose disponível no KEGG Pathmay
Coleção de genes ortólogos, em que genes e proteínas
experimentalmente caracterizados em organismos específicos
são usados para atribuir genes ortólogos em outros organismos
com base na similaridade de sequência. Genes ditos ortólogos
são encontrados em espécies diferentes, mas possuem uma
história evolutiva em comum e tendem a compartilhar a mesma
função.
Captura de tela do resultado da busca usando o termo “lactase” no KEGG Orthology.
Implementa um sistema oficial de identificação de enzimas
chamado de Enzyme Commission number (EC number), usado
para identificar enzimas a partir de números relacionados às
reações químicas das quais elas participam.
KEGG Orthology 
KEGG Enzyme 
19/05/2025, 04:30 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html?brand=estacio# 21/50
Captura de tela do resultado da busca usando o termo “lactase” no KEGG Enzyme.
Outros repositórios que podemos encontrar no KEGG tratam de dados
como doenças, pequenas moléculas, relações entre doenças, drogas,
dentre outros.
Além de dados, no portal do KEGG estão implementadas ferramentas
computacionais que permitem que o usuário faça análises variadas.
Você pode, por exemplo, usar o KEGG Mapper para observar onde uma
proteína que você esteja estudando se encontra dentro de alguma das
vias metabólicas armazenadas no KEGG Pathway.
Usando um site de busca, como o Google, você digita o termo “KEGG” e
um dos primeiros hiperlinks o levará ao portal desse banco de dados. Já
na página inicial, é possível buscar por uma proteína de seu interesse por
meio de termos relacionadas a ela, como seu nome. Ao digitar “lactase”
na barra da página inicial e clicar em “Procurar” (Search), diferentes
dados armazenados nas coleções do KEGG são mostrados. Para saber
mais sobre eles, basta clicar no número de identificação em azul, e uma
próxima página com mais detalhes se abre.
Resultados associados ao registro da proteína “lactase” no KEGG.
Vamos falar agora de como associar os detalhes sobre a função de
proteínas aos dados de sequências de nucleotídeos obtidas por
sequenciamento.
Anotação genômica
A anotação de genomas identifica regiões funcionais ou de relevância
biológica, agregando informações ao DNA sequenciado. Esse processo é
realizado depois que a ordem dos nucleotídeos a partir do
sequenciamento total do DNA de um organismo já foi determinada.
As características biológicas que podem ser identificadas em um
genoma pelo processo de anotação são principalmente genes, mas
19/05/2025, 04:30 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html?brand=estacio# 22/50
também é possível encontrar as regiões regulatórias, a origem de
replicação do DNA, os promotores, dentre outras estruturas.
Imagine a anotação do genoma como a leitura de um texto em um
idioma que você não conhece. A cada palavra você vai precisar usar um
dicionário para descobrir seu significado em português. Feito isso, é
provável que você faça pequenas anotações sobre os significados em
um papel durante a leitura. Da próxima vez que você ou qualquer outra
pessoa utilizar esse papel para a leitura do texto, vai compreendê-lo sem
precisar refazer as traduções. A anotação genômica pode ser dividida
em duas etapas:

Predição gênica
É a etapa na qual se busca onde estão os genes ao longo da sequência
do DNA total.

Anotação funcional
Visa descrever a função biológica da proteína codificada por aquele
determinado gene.
No exemplo do texto em outro idioma você já sabia o início e o fim de
cada palavra, pois existia um espaço entre elas. O genoma sequenciado
é como um “texto corrido”, sem espaço entre as bases nitrogenadas. Por
isso, é necessária a etapa de predição de genes, antes de entender o que
eles “significam” para o organismo estudado.
Predição gênica
Prever um gene é encontrar as bases nitrogenadas que marcam o início
o fim dessa região do DNA. É importante recordarmos que a sequência
de bases nitrogenadas de um gene guarda informações para:
19/05/2025, 04:30 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html?brand=estacio# 23/50
Neste conteúdo, discutiremos como podemos predizer genes que
determinam a sequência de aminoácidos em uma proteína (genes para
RNAs mensageiros), também chamados de sequências codificadoras de
proteínas (CDS, CoDing Sequence).
Existem diferentes programas de computador usados para a predição de
genes ao longo de uma sequência de DNA. As estratégias usadas por
essas ferramentas são variadas, e iremos apresentaralguns exemplos.
A forma mais intuitiva de encontrar um gene codificador de proteína é
localizar os códons de início e de parada. Se você estudou a tradução de
proteínas deve ter visto sobre o código genético: conjunto de códons de
três bases nitrogenadas correspondentes a aminoácidos específicos.
Dentre esses códons existem dois tipos especiais:
Códon de início
É sempre o primeiro
códon a ser traduzido.
Códons de parada (stop)
Determinam o fim do
processo de tradução.
Tabela do código genético com as bases nitrogenadas do DNA.
Sabendo disso, os programadores desenvolveram ferramentas que
encontram seguimentos de DNA que comecem com o códon de início
(ATG) e terminem com algum dos códons de parada (TAA, TAG ou ATA).
Esses segmentos são prováveis genes, também chamados de “fase de
leitura aberta” (Open Reading Frame, ORF). O critério de escolha caso as
ORFs estejam sobrepostas é sempre pela mais longa.
RNAs mensageiros RNAs transportadores

19/05/2025, 04:30 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html?brand=estacio# 24/50
Genoma total do vírus SARS-CoV-2. As barras marrons representam os genes preditos (ORFs).
O código genético é universal, portanto, programas para predição gênica
de procariotos e eucariotos podem usar o “sinal” dos códons de início e
de parada. Por outro lado, esses dois grupos de seres vivos possuem
diferenças quanto à organização de seus genes no genoma, então
“sinais” específicos para cada grupo são adotados durante a predição.
Exemplo
São as sequências no DNA que serão transcritas e usadas para adesão
dos ribossomos ao RNA mensageiro. Em procariotos, essa sequência é
chamada de sequência de Shine-Dalgarno ou RBS (Ribosome Binding
Site), e costuma incluir a sequência AGGAGGT (DNA). Já em eucariotos
os ribossomos se ligam em regiões chamadas de sequência de Kozak, o
que inclui a sequência CCGCCATGG (DNA).
Muitas outras diferenças podem ser destacadas comparando a
organização genética entre esses grupos, como:
a transcrição de genes diferentes em um único RNA mensageiro
nos procariotos (RNAm policistrônico);
a presença de íntrons e ocorrência de splicing nos eucariotos;
a diferença na densidade de genes ao longo do DNA (os genes
estão mais “espaçados” nos eucariotos).
Por isso, existem programas de computador que são específicos para
predição de procariotos ou de eucariotos. Nas figuras a seguir, vemos as
diferenças entre a organização gênica de:
19/05/2025, 04:30 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html?brand=estacio# 25/50
Organização gênica de procariotos
Organização gênica de eucariotos
Anotação funcional
O processo de anotação funcional consiste na atribuição de função aos
genes codificadores de proteínas. Após identificar os possíveis genes e
suas respectivas sequências proteicas, a estratégia adotada para
anotação funcional é a comparação com as sequências disponíveis em
bancos de dados biológicos.
Atenção
Bancos de sequências costumam implementar em seus portais
ferramentas de alinhamento, como o BLAST, e isso permite que o usuário
possa buscar dados usando sequências biológicas como “pergunta”. A
sequência pergunta será, então, comparada às sequências conhecidas e
confiáveis de um banco de dados.
19/05/2025, 04:30 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html?brand=estacio# 26/50
Voltando para a analogia de comparar a anotação funcional à busca
pelo significado de uma palavra desconhecida, você só vai realmente
saber o que a palavra significa se encontrar no dicionário exatamente a
mesma palavra, comparando letra por letra.
A etapa de anotação funcional pode confirmar os resultados da predição
gênica. Caso você encontre no banco de dados uma sequência de
referência bastante similar à sua sequência de interesse, é possível
descrever a função do seu gene com base na função descrita para a
referência.
Você se lembra dos bancos de
dados secundários que discutimos
agora há pouco?
Relembrando
Eles são muito usados na etapa de anotação funcional. Você pode
reproduzir os dados curados presentes no UniProtKB/Swiss-Prot e no
KEGG para descrever a função dos genes que você está estudando. Além
da função biológica, informações como vias metabólicas e localização
subcelular das proteínas codificadas fornecem uma visão geral das
características bioquímicas do genoma, que podem estar relacionadas
aos caracteres detectáveis de uma espécie.
Suponha que você está estudando um organismo com genoma recém-
sequenciado. A partir do alinhamento de sequência no UniProtKB/Swiss-
Prot, a tradução de um dos seus genes é 99% idêntica à uma proteína
com a função de "transferência fotossintética de elétrons C". No KEGG,
é possível observar que essa função está inserida no metabolismo da
fotossíntese, e assim você pode sugerir que seu organismo de interesse é
autotrófico, isto é, capaz de transformar gás carbônico em glicose e
oxigênio.
Atenção
Um critério comumente adotado para que possa ocorrer a “cópia” da
função da proteína do banco de dados para a sua proteína de interesse é
o valor de similaridade igual ou maior que 70%. É possível que ao
realizar a busca por sequências similares você não encontre nenhum
resultado aceitável segundo esse critério. Se isso acontecer, você irá
anotar sua proteína como hipotética ou predita.
Uma proteína hipotética é aquela cuja respectiva sequência tem todas
as características de uma região codificadora, detectada na etapa de
19/05/2025, 04:30 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html?brand=estacio# 27/50
predição gênica. Porém, nenhuma referência suficientemente similar foi
encontrada no banco de dados durante a anotação funcional. Nesse
caso, a segunda etapa da anotação genômica não confirma o que foi
encontrado na primeira.
Observe o fluxo de informação a seguir.
Fluxo de ideias da anotação genômica.
As informações obtidas durante a anotação funcional podem ser
guardadas em arquivos com formatos específicos. Um exemplo de
arquivo que contém informações da anotação genômica é o GenBank
(mesmo nome do banco de dados presente no NCBI), como observado
na imagem a seguir. No arquivo GenBank encontramos as coordenadas
de cada uma das características anotadas ao longo da sequência de
DNA.
Parte de um arquivo no formato GenBank, gerado pela plataforma NCBI.
Exemplo
Ao observar um arquivo anotado de um plasmídeo bacteriano, você pode
encontrar que entre as bases nitrogenadas 2.652 e 3.532 está presente o
gene kpc. Sobre esse gene também podem estar registradas
informações como o seu produto ou proteína correspondente (no caso, a
enzima KPC que destrói antibióticos), o código de acesso para o registro
da proteína em outro banco de dados e a sequência traduzida de
aminoácidos.
19/05/2025, 04:30 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html?brand=estacio# 28/50
Anotação genômica utilizando
bancos de dados biológicos
Neste vídeo, a especialista Melise Chaves Silveira mostra as etapas de
anotação genômica, utilizando bancos secundários na etapa de
anotação funcional.

19/05/2025, 04:30 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html?brand=estacio# 29/50
Falta pouco para atingir seus objetivos.
Vamos praticar alguns conceitos?
Questão 1
Biólogos estruturais usam métodos como cristalografia de raios-X,
espectroscopia de ressonância magnética nuclear e microscopia
crioeletrônica para determinar a localização de cada átomo em
relação aos outros na molécula de proteína. Em seguida, eles
depositam esses dados brutos em forma de arquivo com as
coordenadas dos átomos em um banco de dados biológico. Um
banco de dados biológico que armazena a informação descrita no
enunciado é classificado como:
A Curado.
B Especializado.
C De acesso restrito.
D Secundário.
19/05/2025, 04:30 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html?brand=estacio#30/50
Parabéns! A alternativa E está correta.
Bancos de dados primários armazenam dados brutos originados de
experimentos na bancada, que é a situação descrita no enunciado.
Os dados de um banco curado devem passar pelo crivo de
especialistas. Bancos especializados tratam de um interesse de
pesquisa em particular. Acesso restrito é o caso de bancos que
exigem pagamento para acesso. Já o banco secundário é
construído a partir de análises dos dados primários.
Questão 2
Para compreender a complexidade de um organismo podemos usar
técnicas de biologia molecular aliadas a ferramentas de
bioinformática. Sobre essa abordagem, escolha a sequência que
representa a ordem correta das etapas que devem ser realizadas do
início ao final do processo.
Parabéns! A alternativa A está correta.
Primeiro é necessário extrair e purificar o DNA do restante dos
componentes celulares, e só então usá-lo como matéria-prima para
E Primário.
A
Extração do DNA -> sequenciamento genômico ->
predição gênica -> anotação funcional.
B
Sequenciamento genômico -> predição gênica ->
anotação funcional -> extração do DNA.
C
Extração do DNA -> predição gênica ->
sequenciamento genômico -> anotação funcional.
D
Predição gênica -> extração do DNA -> anotação
funcional -> sequenciamento genômico.
E
Extração do DNA -> sequenciamento genômico ->
anotação funcional -> predição gênica.
19/05/2025, 04:30 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html?brand=estacio# 31/50
o sequenciamento. Determinada a ordem de nucleotídeos pelo
sequenciamento, primeiro as regiões de genes são identificadas e
depois é atribuída uma função para esse gene.
2 - Conceitos e aplicações das ciências ômicas
Ao final deste módulo, você será capaz de reconhecer os conceitos e aplicações das ciências
ômicas.
Introdução às ciências ômicas
A matéria-prima do trabalho da bioinformática são os dados biológicos.
Em relação a esses dados, os esforços dos profissionais especializados
nessa área são voltados para:
 Organizar
 Armazenar
19/05/2025, 04:30 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html?brand=estacio# 32/50
Um grande avanço da bioinformática aconteceu durante a execução do
Projeto Genoma Humano, que durou mais de 10 anos e teve como
objetivo principal determinar a ordem dos nucleotídeos de todo genoma
da nossa espécie. Essa empreitada científica estimulou o aprimoramento
de computadores e de programas para lidar com a grande quantidade de
dados que começou a ser gerada.
Ter acesso às sequências de nucleotídeos de todo o DNA de um
organismo é fantástico, e estudá-las trouxe respostas para questões
importantes. Hoje conhecemos a “cartilha” que as células seguem para
gerar todas as características de um indivíduo. No entanto, essa
“cartilha” deixa no ar perguntas que surgiram a partir dos estudos do
genoma.
Resposta
 Analisar
 Visualizar
 Interpretar
O que diferencia a célula da
pele e o neurônio de um
mesmo indivíduo se a
sequência do DNA é igual?
Como o homem e o
chimpanzé são
fenotipicamente tão
distintos se 99% de seu
DNA são idênticos?
19/05/2025, 04:30 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html?brand=estacio# 33/50
A resposta para essas perguntas está nas outras moléculas biológicas
presentes na célula, como RNAs, proteínas e metabólitos. Hoje vivemos o
que é chamado de “era pós-genômica”, com o desenvolvimento e o
aperfeiçoamento de técnicas e de programas que nos permitem estudar
outras ciências ômicas.
Principais conceitos das ciências
ômicas
O termo “ômica” se refere à análise global de um determinado tipo de
informação biológica. Veja a seguir alguns exemplos de ciências
ômicas:
Genômica
Chamamos de genômica a análise completa de todo o DNA de
um organismo, também chamado de genoma. Essa mesma
lógica segue para os demais tipos de informação, e daí
surgiram termos como transcriptômica, proteômica e
metabolômica.
Transcriptômica
Após compreender que o DNA guarda todas as informações
hereditárias de um organismo, é importante lembrar que a
expressão dessa informação é regulada pelas condições do
meio onde a célula está inserida. O produto da expressão dos
genes no DNA são os transcritos, moléculas de RNAs. A
transcriptômica tem como alvo o conjunto de RNAs produzidos
por uma célula sob determinadas condições. Na prática, o RNA
mensageiro é o tipo de RNA mais estudado aqui.
Proteômica
Quando desejamos uma abordagem mais direta para
compreender as funções celulares é indicado estudar o
conjunto de proteínas. São elas que efetivamente “trabalham
duro” na célula, realizando transporte de moléculas, catalisando
reações químicas, recebendo mensagens, formando estruturas
e desempenhando muitas outras funções. A proteômica é o
19/05/2025, 04:30 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html?brand=estacio# 34/50
estudo do conjunto de proteínas produzidos por uma célula
num dado momento.
Metabolômica
Os produtos intermediários ou finais das reações químicas que
acontecem numa célula são chamados de metabólitos. Em
geral, quando falamos do metaboloma, estamos nos referindo
a moléculas pequenas, de baixa massa molecular, como
aminoácidos, nucleotídeos, ácidos biliares, ácidos graxos e
hormônios. O termo metabolômica abrange o estudo dos
metabólitos de uma célula sob determinadas perturbações.
Veja na imagem a seguir a relação entre as ciências.
Relação entre as ciências ômicas.
Novas áreas ômicas surgem a todo momento, com o aumento da
especificidade dos estudos biomédicos. Já existe, por exemplo:
Farmacogenômica
Com objetivo de determinar alterações genéticas responsáveis
pela resposta dos pacientes a medicamentos.
Lipidômica
Avalia o perfil de lipídeos da célula.
Toxicogenômica
Estuda a resposta do organismo a determinadas substâncias.
19/05/2025, 04:30 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html?brand=estacio# 35/50
Técnicas utilizadas
Os dados brutos processados pelos programas de computador são
obtidos a partir de técnicas experimentais. Cada área ômica foca em um
tipo de dado. Portanto, as técnicas usadas não serão as mesmas. Veja
as abordagens mais utilizadas em cada área.
Dados genômicos são obtidos a partir do sequenciamento de DNA. A
primeira técnica amplamente utilizada para esse propósito foi o
sequenciamento de Sanger. Essa estratégia permite que regiões do DNA,
em torno de 1.000 pares de bases, sejam sequenciadas. É possível
sequenciar o genoma total de um organismo a partir do sequenciamento
de Sanger, porém o processo é muito trabalhoso e envolve outras
técnicas, como clonagem usando plasmídeos bacterianos.
Método de sequenciamento de Sanger.
A genômica evoluiu muito mais rápido com o surgimento dos
sequenciadores de nova geração. Esses aparelhos permitem fazer a
leitura da ordem dos nucleotídeos de vários fragmentos de DNA ao
mesmo tempo. No final do processo, o resultado é um arquivo com todas
as leituras da sua amostra. Existem diferentes tecnologias de
sequenciamento de nova geração, que buscam a precisão dos
resultados e o barateamento do custo total.
Exemplo
Imagine uma versão gratuita e outra paga de um aplicativo que faça
tradução de textos. Na versão gratuita, você só pode traduzir uma página
por dia, mas na paga você pode colocar o livro inteiro de uma vez e ele
vai devolver todas as páginas traduzidas em um único dia. Nessa
analogia, o sequenciamento de Sanger seria a versão gratuita, e os
sequenciadores de nova geração, a versão paga.
Para estudar o conjunto de transcritos de uma célula podemos usar as
mesmas técnicas de sequenciamento de DNA. No entanto, é necessário
um passo muito importante antes de iniciar o sequenciamento:
transformar as moléculas de RNA em seu DNA complementar (cDNA).
19/05/2025, 04:30 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html?brand=estacio#36/50
Como esse procedimento de
transformar as moléculas de RNA
em seu DNA complementar seria
realizado?
Esse procedimento é realizado usando-se uma enzima bem famosa na
biologia molecular, a transcriptase reversa. Essa enzima é capaz de
realizar a transcrição ao avesso, usando moldes de RNA para produzir
seu DNA correspondente. Isso é feito a partir da complementaridade das
bases nitrogenadas, ou seja, se a ordem de nucleotídeos do RNA é AUGA,
o seu DNA complementar será TACT. Além do sequenciamento, outra
técnica que permite estudar o RNA é o microarranjo. Nessa técnica
continua sendo necessário sintetizar os cDNA, pois o RNA é uma
molécula muito frágil e instável.
A ideia geral do microarranjo é usar uma lâmina de vidro com pequenos
segmentos de DNA aderidos, chamados de sondas. Também é
necessário que os cDNAs da amostra a ser estudada estejam marcados
com corantes fluorescentes. O profissional que estiver “montando” a
lâmina deverá saber exatamente a sequência das sondas de DNAs, que
vão funcionar como um “ímã”, atraindo sequências de cDNA
correspondentes. Por exemplo, se uma sonda tem a sequência TGAG, o
cDNA que se ligará a ela será ACTC. No final, um aparelho detecta as
posições fluorescentes da lâmina, e o profissional descobre para quais
sondas os cDNA foram complementares. Veja a seguir o esquema da
análise de microarranjo.
Esquema da análise de microarranjo.
Até aqui estávamos falando da análise de ácidos nucleicos: DNA e RNA.
Para estudar o proteoma, precisamos de outra abordagem, uma vez que
ácidos nucleicos são constituídos de nucleotídeos, enquanto proteínas
são formadas pela união de aminoácidos.
19/05/2025, 04:30 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html?brand=estacio# 37/50
A primeira técnica que vamos comentar é a eletroforese bidimensional
em gel de poliacrilamida (2D-PAGE). Nessa abordagem, as proteínas
purificadas a partir de uma amostra são separadas de acordo com duas
propriedades químicas:
Potencial isoelétrico
Massa molecular
Comentário
Por isso, o gel é bidimensional, pois o movimento das proteínas é
estimulado em duas direções.
Milhares de proteínas podem ser separadas simultaneamente por essa
técnica. Isso é possível, pois ― desde que as proteínas tenham
potenciais isoelétricos e/ou tamanhos diferentes ― elas estarão
localizadas em posições diferentes do gel no final do experimento.
A foto final do gel pode ser analisada por programas de computador, que
são capazes de detectar a “mancha” de cada proteína, quantificá-la de
acordo com suas dimensões, além de comparar diferentes géis e
armazená-los em bancos de dados de 2D-PAGE. Dessa forma, é possível,
por exemplo, identificar alterações na produção de proteínas entre duas
ou mais condições experimentais diferentes.
Atenção
Se nessa comparação alguma “mancha” específica chamar sua atenção,
podendo ser uma proteína-chave para sua pesquisa proteômica, você
pode caracterizá-la com mais detalhes. É possível cortar essa “mancha”
no gel e depois digeri-la com uma enzima específica, que quebra a
proteína em pedaços menores.
A mistura de peptídeos (pequenas sequências de aminoácidos) pode ser
analisada por Espectrometria de Massas (MS), como mostrado na
19/05/2025, 04:30 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html?brand=estacio# 38/50
imagem a seguir. Ela é utilizada para obter a massa molecular dos
peptídeos gerados pela digestão enzimática.
Esquema da Espectrometria de Massas.
Resumindo
Primeiro os fragmentos proteicos são carregados com íons positivos, e
depois são “empurrados” para um tubo com campo magnético.
Peptídeos menores sofrem maiores desvios se comparados aos maiores,
e assim pode ser determinada a massa de cada um. Os valores obtidos
podem, então, ser comparados em um banco de dados específico para
essa técnica, e assim determinar qual é a sua proteína de interesse.
Existem muito mais bancos de dados biológicos do que você imagina!
Falando resumidamente de proteômica citamos dois tipos. A
comparação do resultado final do 2D-PAGE e da MS contra registros em
bancos de dados exemplifica como a bioinformática está inserida nas
análises proteômicas.
A diversidade química dos metabólitos é milhares de vezes maior que a
de DNAs, RNAs ou proteínas. Ácidos nucleicos são formados apenas por
nucleotídeos, e proteínas são sequências de aminoácidos. Quando
estamos falando de metabólitos, o estudo se torna mais desafiador.
A complexidade dos metabólitos produzidos por uma célula sob
determinada condição é muito grande, uma vez que eles possuem uma
grande diversidade química e estão em concentrações diferentes. O
preparo da amostra depende do seu tipo e de que técnicas serão usadas
para análise.
As amostras podem ter consistência diferentes (sólida, semissólida ou
líquida); é possível realizar uma análise global ou focada em um grupo
específico de metabólitos (só lipídeos, por exemplo); e as técnicas
utilizadas podem ser, principalmente, variações da espectrometria de
massas e ressonância magnética nuclear.
19/05/2025, 04:30 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html?brand=estacio# 39/50
Análises metabolômicas geram grande quantidade e complexidade de
dados. Variadas ferramentas computacionais e estatísticas são
necessárias para produzir informação e conhecimento nesse campo.
Nosso próximo passo agora será discutir que tipo de resultado todo esse
trabalho de análises ômicas pode gerar.
Técnicas aplicadas nas ciências
ômicas
Neste vídeo, a especialista Melise Chaves Silveira revisa os conceitos
das principais técnicas usadas parar gerar dados ômicos.
Aplicações das ciências ômicas
Veja quatro exemplos reais de contribuição efetiva das ciências ômicas.
Caso 1
O primeiro deles é o caso dos gêmeos Noah e Alexis Beery. Com 13 anos
de idade Alexis Beery desenvolveu um problema respiratório muito
preocupante. Ela tossia tão forte que chegava a vomitar, e era necessário
administrar adrenalina para que ela conseguisse continuar respirando.

19/05/2025, 04:30 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html?brand=estacio# 40/50
Quando tinham 5 anos, os gêmeos foram diagnosticados com um
distúrbio genético chamado “distonia responsiva à dopamina”, que
causava movimentos anormais como dificuldade de andar e tremor
postural que varia durante o dia. Eles tomavam precursores de dopamina
e reagiam bem ao tratamento, por isso quando Alexis manifestou os
problemas respiratórios os médicos não suspeitaram que poderia ter
alguma relação. O pai dos gêmeos trabalhava em uma empresa de
tecnologia naquele período, por volta de 2011. Com os conhecimentos
prévios que a família tinha, eles insistiram para que o genoma total dos
filhos fosse sequenciado.
Foi a partir dos resultados do sequenciamento total, usando um
sequenciador de nova geração, que uma mutação específica no gene
SPR foi identificada. Esse gene codifica a enzima sepiapterina redutase,
uma enzima que participa na biossíntese de um cofator importante para
atividade da enzima que sintetiza os neurotransmissores dopamina e
serotonina. A mutação no gene impede a produção desses
neurotransmissores e leva ao desenvolvimento da doença. Assim, como
eles já tomavam o precursor da dopamina, após esse resultado os
médicos administraram o precursor da serotonina. Um mês após o início
do tratamento os sintomas respiratórios de Alexis desapareceram!
Além da detecção de mutações associadas a doenças genéticas raras,
as análises genômicas possibilitam determinar marcadores genéticos
que diferenciem indivíduos ou populações, descobrir genes exclusivos de
determinadas espécies, sugerir relações de ancestralidade entre genes,
dentre outras importantes contribuições.
Caso 2
Relembrando
19/05/2025, 04:30 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html?brand=estacio# 41/50
As análisestranscriptômicas dizem respeito ao estado da célula em um
determinado momento, sob certas condições. Isso é possível devido ao
fato de muitos genes terem sua expressão controlada. A célula possui
mecanismos para “ligar” ou “desligar” os genes: quando estão ligados,
RNAs são transcritos a partir deles, mas, quando desligados, não ocorre
produção dos RNAs correspondentes.
A maior parte das mortes entre pacientes que desenvolvem câncer de
mama ocorre devido à metástase, sendo os pulmões um dos principais
sítios desse processo. Cientes disso, pesquisadores da Universidade de
Tel Aviv, em Israel, começaram a buscar por moléculas biológicas que
pudessem indicar muito precocemente a metástase do câncer de mama
no tecido pulmonar, para que ela pudesse ser evitada.
A estratégia usada foi o estudo do transcriptoma. As células alvo-foram
os fibroblastos do pulmão de camundongos, e as amostras foram
divididas em grupos:
fibroblastos de camundongos saudáveis;
fibroblastos de camundongos com micrometástase;
fibroblastos com grandes metástases.
Micrometástase
Pequeno conjunto de células do tumor que se espalham pelo
organismo.
Camundongos de laboratório.
O conjunto de todo RNAm dessas células foi obtido, transformado em
cDNA e em seguida sequenciado por tecnologias de nova geração. As
análises comparativas do transcriptoma de cada grupo de fibroblastos
identificaram Myc como um regulador central da reconfiguração de
fibroblastos em situação de metástase. Descobriu-se que o aumento da
transcrição desse gene está associado ao avanço da doença.
Resumindo
Os resultados dessa pesquisa foram divulgados em 2021, e os
pesquisadores esperam usar suas descobertas para auxiliar no
diagnóstico do processo metastático de câncer de mama humano, antes
19/05/2025, 04:30 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html?brand=estacio# 42/50
mesmo que as células metastáticas se estabeleçam nos órgãos-alvo.
Com a detecção precoce, medidas profiláticas poderiam ser tomadas a
tempo de evitar a metástase. Torcemos para que essa descoberta possa
em breve salvar a vida de milhares de pessoas no mundo todo, não é
mesmo?
Caso 3
O estudo da proteômica contribui ainda mais para entendermos o estado
da célula. Transcriptoma e proteoma não são redundantes, mas
oferecem tipos diferentes de informações. Os RNAs podem ser editados
por splicing alternativo e, por modificações pós-transcricionais, as
proteínas também podem sofrer modificações logo após serem
traduzidas, além da possibilidade de interagirem com outras proteínas.
Só com o RNA não é possível prever as proteínas que serão produzidas
pela célula. Portanto, é preciso detectar diretamente o proteoma.
Um estudo do conjunto de proteínas presentes no sangue de pacientes
com Covid-19 verificou que a proteína OAS1 está presente em grandes
quantidades em pacientes com a forma mais branda da doença. Os
pesquisadores do Canadá que desenvolveram essa pesquisa e a
publicaram em 2021 sugerem que essa proteína tenha um efeito protetor
contra a doença.
A partir dos resultados dessa análise proteômica, os cientistas propõem
que drogas que impulsionem a produção de OAS1 devem ser testadas
como tratamento da Covid-19. Já existem moléculas em fase de testes
clínicos que aumentam os níveis de uma proteína bem parecida, a
OAS151. Essas moléculas poderiam ser otimizadas, por exemplo.
Atenção
A vacinação é muitíssimo importante como medida preventiva, mas a
busca por formas de tratamento de pacientes já doentes também é
19/05/2025, 04:30 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html?brand=estacio# 43/50
essencial para diminuir ainda mais a mortalidade dessa doença pelo
mundo.
Estudos proteômicos tornam possível responder perguntas sobre “como,
onde, quando e por que” proteínas são produzidas. São análises amplas,
envolvendo a identificação e quantificação das proteínas, a sua
localização celular e a determinação de modificações, interações e
funções.
Caso 4
A metabolômica, área ômica que estuda todo conjunto de metabólitos
produzidos pelas células, permitiu constatar que exercícios físicos
aeróbicos podem prevenir o aparecimento da doença de Alzheimer em
adultos de meia-idade.
Pesquisadores dos EUA, em trabalho publicado em 2021, usaram
amostras de sangue de adultos sem sintomas de Alzheimer, mas com
risco familiar e genético. Os voluntários realizaram 26 semanas de
exercício supervisionado, divididos em dois grupos: atividade física
usual e atividade física intensificada.
Comparando as amostras de sangue antes e ao final do período de
atividades, os níveis do biomarcador de memória catepsina mioquina B
(CTSB) aumentaram no grupo de voluntários sob atividade intensa. Além
disso, analisando a função cognitiva desses voluntários, o aumento de
CTSB estava associado ao aumento dessa habilidade.
Saiba mais
Outro resultado importante foi que o exercício físico alterou
positivamente metabólitos lipídicos associados a doença de Alzheimer, o
que pode oferecer um efeito protetor aos neurônios. Esse estudo mostra
como a metabolômica pode auxiliar na identificação de moléculas que
19/05/2025, 04:30 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html?brand=estacio# 44/50
ajudem a acompanhar o estado de saúde dos indivíduos. Essa área
ômica é uma ferramenta fundamental no diagnóstico, prognóstico e
tratamento de doenças e na compreensão de outras condições
específicas do organismo.
19/05/2025, 04:30 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html?brand=estacio# 45/50
Falta pouco para atingir seus objetivos.
Vamos praticar alguns conceitos?
Questão 1
Estudar em larga escala um conjunto de moléculas com o objetivo
de entender mecanismos celulares é uma estratégia muito usada
atualmente na pesquisa. Nesse contexto, diferencie um estudo
genômico de um estudo metabolômico quanto ao tipo de molécula
estudada.
Parabéns! A alternativa A está correta.
As ciências ômicas estudam todo o conjunto de determinado tipo de
moléculas produzido pelas células. O nome dado a cada uma
dessas áreas é atribuído de acordo com o tipo de molécula
estudada, por isso: a genômica estuda todo o DNA de uma célula; a
A
A genômica estudo todo conteúdo de DNA, enquanto
a metabolômica abrange o estudo de metabólitos.
B
Estudo genômico é aquele que analisa todos os
RNAs, já a metabolômica aborda os metabólitos.
C
O genoma, ou seja, todo conteúdo de DNA, é o alvo
da genômica. Enquanto isso, a metabolômica tem
como alvo os RNAs.
D
O conjunto de DNAs é estudado pela genômica, e os
conjuntos de proteínas são alvo da metabolômica.
E
Todo conjunto de RNAs e DNAs são o alvo da
genômica, por outro lado, metabólitos e proteínas
totais são o objeto de estudo da metabolômica.
19/05/2025, 04:30 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html?brand=estacio# 46/50
transcriptômica, os transcritos (RNAs); a proteômica, as proteínas; e
a metabolômica, os metabólitos.
Questão 2
A transcriptômica é o estudo do conjunto completo de transcrito de
um dado organismo, órgão, tecido ou linhagem celular. Podemos
saber a sequência de todo conjunto de RNAs extraído de um
determinado tecido utilizando qual das técnicas seguintes?
Parabéns! A alternativa D está correta.
O microarranjo é a técnica de escolha para saber a sequência de
todo conjunto de RNAs extraído de um determinado tecido. As
demais técnicas são usadas para o estudo de outras moléculas
biológicas: cristalografia de raio-X para estrutura de proteínas,
espectrometria de massas e eletroforese bidimensional em gel de
poliacrilamida para proteômica, e ressonância magnética nuclear
para metabolômica ou estrutura de proteínas.
Considerações finais
A Eletroforese bidimensional em gel de poliacrilamida.
B Espectrometria de massas.
C Ressonância magnética nuclear.
D Microarranjo.
E Cristalografia de raio-X.19/05/2025, 04:30 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html?brand=estacio# 47/50
Os dados biológicos são o início de todo conhecimento científico. É
preciso gerar dados a partir de experimentos científicos e depois
organizá-los, analisá-los e processá-los. Vimos como os bancos
permitem o acesso a todo esse trabalho, e que é preciso entender o
propósito de cada um, para usá-lo da melhor forma. Por exemplo, após
identificar os genes em um genoma, na etapa seguinte de anotação
funcional é importante escolher um banco secundário, cujos dados
sejam curados por especialistas, o que trará mais qualidade ao nosso
trabalho.
Além disso, conseguimos perceber que a ciência nunca para e que novas
formas de gerar cada vez mais dados surgem a todo momento.
Conhecer as ciências ômicas abre nossos olhos para o presente e para o
futuro, e desperta a vontade de poder participar de toda essa evolução
do conhecimento que traz muitos benefícios para a vida de todos.
Podcast
Neste podcast, a especialista Melise Chaves Silveira trás exemplos reais
de novas áreas ômicas e suas contribuições.

Explore +
Saiba mais sobre busca em bancos de dados assistindo ao vídeo Aula 4
- Coletando biodados públicos, no canal DataSciBR, YouTube.
19/05/2025, 04:30 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html?brand=estacio# 48/50
Convidamos você a fazer um teste usando seu computador ou
smartphone e ver quanta coisa é possível saber sobre uma proteína
acessando o UniProtKB. Além disso, não deixe de visitar os outros
bancos de dados que abordamos ao longo do conteúdo.
Referências
BARDIN, L. Análise de conteúdo. Ed. Revista e Atualizada. Lisboa:
Edições 70, 2010.
BRASIL. Banco Nacional de Perfis Genéticos atinge a marca de 100 mil
perfis cadastrados. 2021. Consultado na internet em: 27 ago. 2021.
CANUTO, G., et al. Metabolômica: definições, estado-da-arte e aplicações
representativas. 2018. Quím. Nova. Consultado na internet em: 20 set.
2021.
DAYHOFF, M.O et al. Atlas of protein sequence and structure. 1972. The
National Biomedical Research Foundation. Consultado na internet em:
18 ago. 2021.
GAITÁN J.M., et al. Effects of Aerobic Exercise Training on Systemic
Biomarkers and Cognition in Late Middle-Aged Adults at Risk for
Alzheimer’s Disease. 2021. Front. Endocrinol. Consultado na internet em:
20 ago. 2021.
GENBANK. GenBank Overview: what is genbank? Consultado na internet
em: 20 ago. 2021.
HAYDEN, E. C. Genome study solves twins' mystery condition. 2011.
Nature. Consultado na internet em: 20 set. 2021.
McNEILL L. How Margaret Dayhoff Brought Modern Computing to
Biology. 2019. Consultado na internet em: 20 set. 2021.
MOUNT, D.W. Bioinformatics: sequence and genome analysis.
Huntington: Cold Spring Harbor Laboratory Press, 2004.
SHANI, O, et al. Evolution of fibroblasts in the lung metastatic
microenvironment is driven by stage-specific transcriptional plasticity.
eLife. 2021. jun. 25. Consultado na internet em: 20 set. 2021.
SIRUI, Z., et al. A Neanderthal OAS1 isoform protects individuals of
European ancestry against COVID-19 susceptibility and severity. Nature
Medicine. 2021. v. 27, pages 659-667. Consultado na internet em: 20 set.
2021.
19/05/2025, 04:30 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html?brand=estacio# 49/50
SILVA, S.A.; NOTARI, D.L.; DALL’ALBA, G. Bioinformática: contexto
computacional e aplicações. Caxias do Sul: Educs. 2020.
XIONG J. Essential Bioinformatics. 1. ed. Cambridge: Cambridge
University Press, 2006.
Material para download
Clique no botão abaixo para fazer o download do
conteúdo completo em formato PDF.
Download material
O que você achou do conteúdo?
Relatar problema
19/05/2025, 04:30 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html?brand=estacio# 50/50
javascript:CriaPDF()

Mais conteúdos dessa disciplina