Anotação gênica

•

ESTÁCIO EAD

Alex Sandro

11/03/2023

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 44 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 44 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 44 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Bioinformática

2.072 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

11/03/2023, 12:58 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html# 1/44
Anotação gênica
Profª. Melise Chaves Silveira
Descrição
Estudo de dados biológicos abordando bancos de dados, anotação genômica e ciências ômicas.
Propósito
Conhecer os processos pelos quais os dados biológicos passam e onde é possível acessá-los é essencial para a ampla
compreensão das informações biológicas e para a consulta de fontes confiáveis de pesquisa. Além disso, a partir do
estudo das ciências ômicas o aluno estará atualizado em relação aos avanços científicos nesta área.
Objetivos
Módulo 1
Banco de dados e anotação genômica
Empregar bancos de dados biológicos para anotação genômica.
Salvar
11/03/2023, 12:58 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html# 2/44
Módulo 2
Conceitos e aplicações das ciências ômicas
Reconhecer os conceitos e aplicações das ciências ômicas.
1 - Banco de dados e anotação genômica
Você lidará frequentemente com dados biológicos, como, por exemplo, as sequências de aminoácidos, as
estruturas tridimensionais de proteínas ou o esquema de uma via metabólica, ao desenvolver artigos científicos. É
muito importante saber como podemos ter acesso a fontes confiáveis desses dados e como utilizá-los. Como a
ciência está em constante evolução, novos tipos de dados são gerados proporcionalmente a esse avanço, e isto
em larga escala.
Neste conteúdo você entenderá o que são bancos de dados biológicos e como esses dados são empregados, por
exemplo, no processo de anotação genômica. Você também irá se atualizar quanto às novas tendências de
geração de dados biológicos e como elas podem melhorar, e muito, nossa vida, ajudando no diagnóstico de
doenças, em novos tratamentos e até na melhor qualidade de vida.
Introdução
11/03/2023, 12:58 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html# 3/44
Ao �nal deste módulo, você será capaz de empregar bancos de dados biológicos para anotação
genômica.
Banco de dados
Vivemos em uma sociedade que produz uma quantidade gigantesca de dados. O número dos seus documentos, suas
fotos em redes sociais, seus e-mails, as palavras que você procura em aplicativos de busca, e as músicas que você
escuta são exemplos de dados. Profissionais conhecidos como cientistas de dados são especializados em “cuidar”
desses registros, desde o armazenamento, passando pela obtenção de informação, pelo conhecimento, pela
visualização, até o descarte.
Provavelmente você já utilizou algum aplicativo de streaming ― tecnologia de transmissão de dados pela internet,
principalmente áudio e vídeo, sem a necessidade de baixar o conteúdo para seu computador ou celular.
Esses aplicativos armazenam e reproduzem dados, além de utilizarem das análises realizadas pelos cientistas de dados
para, por exemplo, sugerir a você um filme que provavelmente irá agradá-lo ou indicar qual estilo de música que você
mais escutou em um respectivo ano.
Dados são fatos coletados que podem ser armazenados. A informação é o dado que estava armazenado e foi
recuperado de acordo com algum interesse. Por fim, o conhecimento é gerado quando a informação é interpretada,
quando novas conexões são feitas a partir de uma informação que já existia.
Exemplo
Imagine que eu tenha a sequência de aminoácidos de uma nova proteína e queira descobrir a estrutura tridimensional
(3D) que ela irá assumir. Uma solução é encontrar uma proteína com a estrutura 3D já descrita que seja bem parecida
com a minha nova proteína. A estrutura dessa proteína “antiga” é um dado que estava armazenado. A partir do meu
interesse eu recuperei esse dado específico, e agora ele passa a ser a informação na qual irei me embasar para
desvendar a estrutura da nova proteína, gerando conhecimento, algo novo.
Em bioinformática, os principais tipos de dados produzidos são:
Sequências de nucleotídeos
e aminoácidos
Coordenadas de estrutura
de proteínas
Anotações sobre a função
biológica de moléculas
11/03/2023, 12:58 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html# 4/44
Uma vez que os dados são produzidos, eles precisam ser armazenados para serem revisitados quando necessários.
Logo, bancos de dados são arquivos de computador que armazenam e organizam dados para que possam ser
recuperados facilmente de acordo com diferentes critérios de busca.
Exemplo
Vamos pensar em um banco de dados de sequências nucleotídicas. Cada sequência nesse banco possui informações
vinculadas, como sua descrição, um número de identificação próprio, o organismo do qual o DNA foi extraído, o tamanho
da sequência em pares de bases, a ordem das bases nitrogenadas, dentre outras. Para gerar um banco de dados com
todos esses registros são usados programas de computador.
Uma das formas de organizar os dados é a partir de arquivos de computador no formato tabular (tabelas). Esses
programas armazenam as informações sobre cada sequência em diferentes tabelas. Uma das tabelas poderia ter o
número de identificação e a descrição. Outra teria o número de identificação e os organismos dos quais o número foi
obtido. E assim são organizadas várias tabelas com informações diferentes sobre um mesmo conjunto de sequências.
Cada informação ocupa uma posição (campo) específica na tabela, e ganha um índice, uma coordenada de localização.
Os campos de diferentes tabelas estão conectados entre si, relacionados, de modo que seja possível identificar as
conexões entre eles.
Os programas de computador, portanto, podem lidar com os dados de forma rápida e eficiente. Por meio deles você
consegue, em segundos, acessar e visualizar todas as informações sobre determinada sequência que estão
armazenadas em diferentes tabelas. Pode ser usado como critério de busca qualquer um dos campos relacionados a
essa sequência, como seu número de identificação. Veja o exemplo a seguir.
Exemplo da organização de um banco de dados de forma tabular.
11/03/2023, 12:58 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html# 5/44
O primeiro banco de dados biológico foi criado por Margaret Dayhoff e por seus colaboradores. Ela é considerada uma
das criadoras da bioinformática. Dayhoff foi PhD em Química quântica pela Universidade de Columbia, nos EUA, onde
surgiu um dos primeiros laboratórios de computação do país. Combinando seus conhecimentos em Química com as
ferramentas computacionais disponíveis, ela liderou um projeto no qual usava programas de computador para comparar
sequências parciais de peptídeos e, assim, tentar montar proteínas completas.
Após publicar as sequências de algumas proteínas e as suas relações, Margaret quis reunir todas as sequências
disponíveis a fim de que os pesquisadores pudessem ter acesso a esses dados mais facilmente. Ela começou a
vasculhar registros em papel e a conferir as sequências que outros colegas já haviam descrito, contando com a ajuda de
um computador para realizar essas verificações.
Após reunir a sequência de 65 proteínas em um computador, Dayhoff publicou a versão impressa desses dados no Atlas
of Protein Sequence and Structure (Atlas de sequência e estrutura de proteínas), em 1965, como observado a seguir. Essa
iniciativa deu início a uma revolução científica, que impulsionou a criação dos bancos de dados biológicos Protein Data
Bank e GenBank em 1971 e em 1982, respectivamente, muito utilizados até os dias atuais e sobre os quais falaremos
com detalhes mais adiante.
Registro da sequência de aminoácidos da proteína citocromo c, feita por Margaret Dayhoff em seu Atlas.
Classi�cação dos bancos de dados
Atualmente, existem muitos bancos de dados biológicos disponíveis e podemos diferenciá-los usando critérios como:
11/03/2023, 12:58 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html# 6/44
Vamos falar sobre cada um deles?
Acesso
O acesso a um banco de dados on-line é a permissão de uso ou distribuição dosdados oferecida a qualquer pessoa com
internet. Quanto a essa caraterística, os bancos podem ser classificados como:
Bancos de dados de acesso restrito limitam a capacidade do usuário de utilizar seus dados. Essas restrições
podem ocorrer por diferentes motivos. Dentre eles estão a natureza da instituição responsável pelo banco
(pública/privada) e a confidencialidade dos dados.
O Banco Nacional de Perfis Genéticos, criado em 2013 e coordenado pelo Ministério da Justiça e Segurança
Pública do Brasil, é um exemplo de banco de dados com acesso restrito. É uma importante ferramenta que auxilia
em investigações criminais, pois contém sequências de DNA relacionadas ao cometimento de crimes violentos e
de abuso sexual, coletadas diretamente de condenados ou a partir de vestígios recuperados dos locais dos
crimes. Em virtude de sua confidencialidade, apenas pessoas autorizadas podem ter acesso aos dados
disponíveis nesse banco.
Disponibilidade de acesso
Conteúdo armazenado
Qualidade dos dados
Acesso restrito 
Acesso livre 
11/03/2023, 12:58 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html# 7/44
Um dos princípios fundamentais da ciência é que os cientistas devem mostrar em detalhes os resultados de suas
pesquisas e como chegaram a eles. Essa premissa de compartilhar informações permite o avanço mais rápido da
ciência. Quanto mais dados disponíveis, maior será a chance de novas descobertas serem feitas. Considerando
isso, os bancos mais relevantes para nós e que serão exemplificados ao longo desse estudo serão os bancos de
dados biológicos de acesso livre, que não impõe restrições quanto ao uso e à distribuição dos dados
armazenados.
O GenBank, um banco de dados do NIH (National Institutes of Health), equivalente ao Ministério da Saúde do
Brasil, “se propõe a fornecer e incentivar o acesso dentro da comunidade científica às informações mais
atualizadas e abrangentes sobre a sequência de DNA” (GenBank, 2021). Dessa forma, qualquer pessoa com
acesso à internet pode ver as sequências disponíveis e analisá-las a partir das ferramentas do portal (por
exemplo, a ferramenta BLAST), além de ser possível fazer o download das informações sobre as sequências
pesquisadas.
Conteúdo
Considerando o conteúdo armazenado, os bancos de dados biológicos podem ser classificados como:
Guardam dados brutos, que foram produzidos diretamente por experimentos em laboratório, na bancada. Esses
dados são depositados diretamente pelos cientistas, e são fruto do sequenciamento de DNA ou de experimentos
para identificar a estrutura 3D de moléculas biológicas.
Contêm dados originados de algum tipo de processamento de dados brutos. Esse processo pode ter sido feito
por programas de computador ou por profissionais especializados. Programas de computador podem ser usados,
por exemplo, para traduzir sequências de nucleotídeos em sequências de aminoácidos, além de sugerir uma
função para proteínas. Em outros casos, cientistas podem revisar manualmente dados brutos, e indicar aqueles
mais confiáveis. Bancos que armazenam os dados produzidos por esses dois exemplos – programas de
computador ou profissionais especializados – são considerados secundários.
São aqueles focados em um determinado interesse de pesquisa. Imagine que um banco só armazene dados
biológicos relacionados ao vírus HIV. Pesquisadores que trabalham no desenvolvimento de vacinas, na busca por
Bancos primários 
Bancos secundários 
Bancos de dados especializados 
11/03/2023, 12:58 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html# 8/44
tratamentos, no entendimento da relação do vírus com o sistema imune, dentre outros muitos temas que
envolvem o HIV, podem acessar esse banco para obter informações e gerar conhecimento.
Qualidade
A qualidade dos dados biológicos varia entre os diferentes bancos. Aqueles classificados como:
São considerados não curado pois contêm dados brutos, não passaram por uma inspeção de especialistas na
área capazes de realizar a curadoria dos dados. “Pela etimologia, o termo curadoria, a partir de sua origem no
latim curare, significa cuidar, zelar, tratar” (BARDIN, 2010, p. 138).”
São considerados curados pois contêm dados que passaram por algum processo de curadoria, o que agregou
valor ao conteúdo disponibilizado. Alguns exemplos de “valores” agregados a dados primários pela curadoria
incluem:
descrição da função biológica, como o papel de uma determinada proteína na célula;
localização do dado em relação a um processo mais complexo, por exemplo, dizendo em qual via metabólica
uma determinada enzima participa;
exclusão de dados redundantes, aqueles que trazem exatamente o mesmo tipo de informação;
integração entre diferentes tipos de dados, disponibilizando sequência de nucleotídeos e de aminoácidos
correspondentes, por exemplo;
adição de informações obtidas a partir dos artigos em que os dados foram publicados e descritos.
A curadoria dos dados biológicos pode ser feita apenas por meio de computador ou de interferência humana. Existem
programas de computador capazes de identificar o início e o fim de um gene dentro de uma longa sequência de
nucleotídeos.
Bancos primários (não curado) 
Bancos secundários e especializados (curado) 
11/03/2023, 12:58 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html# 9/44
Outros comparam a sequência do gene recém-encontrado com outras já conhecidas e sugerem uma função. Porém,
quando acontecem situações inesperadas para as quais o computador não foi treinado para lidar e identificar, a curadoria
feita por máquinas gera erros.
A curadoria computacional ainda não substitui aquela feita por profissionais especialistas. A mente humana é a única
capaz de ler artigos e de extrair os conhecimentos necessários; de inspecionar e corrigir erros e inconsistências gerados
automaticamente pelas ferramentas computacionais; de interagir com pesquisadores e de ajudar no momento da
submissão de dados ao banco, dentre muitas outras capacidades.
Atenção
A diferença na qualidade dos dados presentes nos bancos é muito relevante, e a escolha do banco ideal depende da
aplicação que você pretende dar ao dado. Se você está padronizando um método ou testando uma ideia, pode ser mais
interessante uma pequena quantidade de dados confiáveis. Em situações em que você deseja encontrar algum dado raro,
ou em que é importante ter uma ideia geral, do todo, então bancos primários que tenham passado por uma curadoria
simples são mais indicados.
Você pode encontrar diferentes classificações dos bancos de dados biológicos em outras referências bibliográficas, mas
de forma geral elas vão sempre abordar os critérios que acabamos de ver: acesso, conteúdo e qualidade dos dados. A
seguir, discutiremos exemplos, a fim de que os conceitos apresentados até aqui façam mais sentido para você.
Principais bancos de dados – funções e utilização
Bancos de dados primários
Podemos dividir o conteúdo dos bancos biológicos brutos em dois tipos principais:
11/03/2023, 12:58 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html# 10/44
sequências de nucleotídeos;
estruturas tridimensionais.
Todos os exemplos de bancos dos quais falaremos agora passaram por uma curadoria mínima, feita apenas por
programas de computador de forma automatizada. Em todos eles o acesso aos dados é completamente livre, o usuário
pode ler as informações, baixar para seu próprio computador e analisá-la da melhor forma para atender ao seu interesse
específico.
Atenção
É importante lembrar que esses bancos são “alimentados” por pesquisadores do mundo todo. Os bancos em si não se
responsabilizam por avaliar situações de patentes, direitos autorais ou outros direitos de propriedade intelectual dos
dados que foram enviados. Portanto, no portal dos bancos você não vai encontrar comentários ou permissão irrestrita
com relação ao uso, à cópia ou à distribuição das informaçõesque eles contêm.
Chegou a hora de dar nome aos bancos!
Os principais bancos de sequências de nucleotídeos com o perfil apresentado nessa seção são os bancos de sequência
mantidos pelo:
Esses bancos colaboram entre si e estão conectados, mesmo sendo administrados por organizações diferentes. Juntos
eles formam a Colaboração Internacional de Bancos de Dados de Sequências de Nucleotídeos (International Nucleotide
Sequence Database Collaboration, INSDC). Isso significa que se você procurar por um determinado tipo de sequência no
portal de qualquer um desses bancos terá acesso ao mesmo conjunto de dados.
Para fazer sua pesquisa basta acessar um site de busca, como o Google, e digitar a sigla do banco de dados (GenBank,
NCBI, ENA e EMBL ou DDBJ). Um dos primeiros resultados já é o hiperlink que o direcionará para o portal do banco. Uma
NCBI (National Center for Biotechnology Information)
ENA (European Nucleotide Archive) e EMBL (European Molecular Biology Laboratory)
DDBJ (DNA Data Bank of Japan)
11/03/2023, 12:58 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html# 11/44
das formas de encontrar a sequência de nucleotídeos que você deseja é por meio do emprego de palavras-chave que
estariam presentes na descrição daquela sequência.
Exemplo
O GenBank armazena sequências primárias de nucleotídeos enviadas ao NCBI por pesquisadores do mundo todo. Após
passar pelo crivo de uma inspeção automática, feita somente por programas de computador, as sequências recebem um
número de acesso exclusivo e são liberadas. Para ter acesso a essas sequências basta entrar na página inicial do banco
de dados e digitar palavras, siglas ou outro tipo de texto que se relacione ao seu tema de interesse. Em seguida basta
selecionar a opção “procurar” (search), para que a página com os resultados se abra.
Uma diferença importante entre os bancos de dados que compõe o INSDC é a forma como seus dados podem ser
armazenados. O formato de um arquivo indica as regras de como o dado armazenado deve ser “escrito”, registrado. Em
bancos de dados de sequências primárias, o formato FASTA está sempre disponível. Por outro lado, existe a opção de o
usuário obter o dado em outro formato, que seja específico de determinado banco. Por exemplo, o GenBank é o nome
dado a um tipo de formato de arquivo usado pelo NCBI (o mesmo nome de um dos seus bancos de dados), e o EMBL é o
nome do formato exclusivo da organização que possui a mesma sigla (EMBL). A seguir, veremos os formatos disponíveis
para a mesma sequência de nucleotídeos.
Formato EMBL
11/03/2023, 12:58 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html# 12/44
Formato FASTA
Formato GenBank
Vamos falar agora sobre dados brutos da estrutura tridimensional (3D) de moléculas biológicas. A estrutura 3D é o
formato que uma molécula assume, depois que seus átomos estão interagindo entre si, de acordo com propriedades
físicas e químicas.
Esse tipo de dado primário é obtido a partir de técnicas como cristalografia de raio-X, espectroscopia por RMN
(Ressonância Magnética Nuclear) e microscopia eletrônica 3D. Podem passar por esse processo, principalmente,
moléculas de proteínas, além de DNA e RNA.
Estrutura 3D da proteína hemoglobina.
v
Atenção
O Banco de Dados de Proteínas, PDB (Protein Data Bank), é o banco primário que centraliza as informações sobre
estrutura 3D de moléculas biológicas. Ele é administrado pela Pesquisa Colaborativa para Bioinformática (Estrutural
Research Collaboratory for Structural Bioinformatics, RCSB). Para você ter uma ideia da “soberania” de estruturas de
proteínas no PDB, em agosto de 2021 existiam 158.145 submissões disponíveis de estruturas proteicas, enquanto que
para DNA e RNA eram 2.094 e 1.555 estruturas, respectivamente.
11/03/2023, 12:58 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html# 13/44
Conhecer a estrutura 3D de uma molécula biológica é importante para entender com o que ela pode interagir e sua
possível localização na célula. Essas características permitem compreender a sua função biológica.
A proteína hemoglobina, por exemplo, presente nas hemácias e responsável pelo transporte de oxigênio pelo corpo,
regula a ligação e liberação dessa molécula de acordo com mudanças na sua estrutura.
As informações estruturais também são muito úteis nas pesquisas sobre a evolução. Você pode estudar duas proteínas
que possuem uma história evolutiva em comum e não conseguir detectar esse “parentesco” pela comparação das
sequências primárias de aminoácidos. No entanto, a estrutura ainda irá preservar semelhanças que comprovam a
proximidade entre elas.
Para acessar os dados da estrutura 3D de moléculas biológicas, basta usar um portal de busca, como o Google, e digitar
“PDB RCSB”. Um dos primeiros hiperlinks o levará para o portal do banco de dados. Na página inicial, você encontrará
uma barra na parte superior, como mostrado na imagem a seguir, a qual você deverá preencher usando algum termo de
pesquisa relacionado ao seu interesse. Uma opção é usar o nome da proteína, preferencialmente o termo em inglês.
Página inicial do PDB.
11/03/2023, 12:58 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html# 14/44
Por exemplo, você pode digitar collagen (colágeno) e em seguida clicar no símbolo da lupa. A página que se abre contém
hiperlinks que vão levar para a página de diferentes estruturas dessa proteína. Para cada estrutura você tem acesso a
informações como: hiperlink para o artigo onde foi publicada, detalhes sobre a metodologia usada obter a estrutura,
dentre outros. O principal dado é o arquivo com a localização de cada átomo relativo aos demais na molécula: na parte
superior existe a opção Download Files (Baixar Arquivos), ao clicar nela você deve escolher o formato PDB (PDB Format),
como mostra a figura a seguir:
Informações sobre a estrutura de um registro da proteína colágeno.
O nome do formato desse arquivo (PDB) é o mesmo nome do banco de dados. Dentre outras informações, nele
encontramos:
O nome da proteína
O nome do autor que realizou a submissão
Os detalhes do experimento
A estrutura secundária
11/03/2023, 12:58 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html# 15/44
Veja a seguir um exemplo de arquivo em formato PDB das coordenadas atômicas.
Coordenadas atômicas de um arquivo no formato PDB.
Bancos de dados secundários
Quando começamos a falar sobre bancos de dados, diferenciamos dados, informação e conhecimento. A função dos
bancos secundários é justamente agregar informação aos dados presentes nos bancos primários e assim gerar
conhecimentos biológicos mais aprofundados.
A diferença entre os bancos secundários é o quanto os dados foram processados por programas de computadores e se
houve presença do olhar clínico de um especialista validando essas informações. As organizações que mantêm esses
bancos podem restringir algum tipo de informação processada, exigindo o pagamento de uma licença para o acesso
integral aos dados, por exemplo. Vamos estudar agora dois desses bancos.
UniProtKB
O UniProtKB (UniProt Knowledgebase) é o principal banco de dados do consórcio Recurso Universal de Proteínas
(Universal Protein Resource). Esse banco armazena um amplo conjunto de sequências primárias de proteínas e suas
funções biológicas associadas. Ao acessá-lo e pesquisar sobre uma determinada proteína, você terá acesso a
sequências de aminoácidos dessa biomolécula e saberá qual é o seu papel na célula. O UniProtKB é dividido em dois
bancos menores:
Os cofatores
As coordenadas dos átomos
11/03/2023, 12:58 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html# 16/44
TrEMBL
Contém dados da tradução (Tr) das proteínas obtidos automaticamente por programas de computador a partir de
sequências de nucleotídeos EMBL, além de sua provável função. Nenhum dos dados é revisado por especialistas.Swiss-Prot
Abrange dados sobre a sequência e função de proteínas obtidos a partir da literatura e produzidos por computador,
seguidos pela curadoria manual de especialistas.
Atenção
O UniProtKB é o principal banco usado quando os cientistas querem ter acesso a uma ampla coleção de proteínas. Você
pode fazer isso buscando pelo nome do banco em portais de busca e usar o hiperlink que o levará até a página inicial.
Como mostrado a seguir, na página de entrada você encontra uma barra em que pode digitar termos para realizar a busca
por proteínas. Outra opção de busca é a ferramenta de alinhamento BLAST, caso você deseje encontrar similaridade entre
uma sequência de proteína de seu interesse com as proteínas armazenadas no UniProtKB.
Página inicial do UniProt.
Caso você tenha optado pela busca textual e digitado, por exemplo, “collagen”, o resultado será uma tabela com várias
proteínas colágeno depositadas nesse banco, cada uma recebendo um código de identificação próprio (Entry). As
informações sobre proteínas armazenadas no Swiss-Prot são mais confiáveis, visto que esse banco é revisado
manualmente, mas se a busca for feita em todo o UniProtKB, aparecerá resultados tanto do Swiss-Prot quanto do
TrEMBL.

11/03/2023, 12:58 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html# 17/44
Resultado da busca por “collagen” no UniProtKB.
Ao clicar em um desses códigos de identificação, será aberta uma página com muitas informações sobre aquela
proteína, como:
função;
nomenclatura usada;
localização na célula;
associação com doenças;
modificações pós-traducionais pelas quais a proteína possa passar;
hiperlinks para estruturas 3D associadas.
KEGG
O último banco de dados que vamos abordar aqui será o KEGG (Kyoto Encyclopedia of Genes and Genomes). Esse banco
é bem completo, e apresenta diferentes tipos de dados, com o intuito de compreender a função e a utilidade dos
sistemas biológicos. Apesar da abrangência atual do KEGG, ele é mais conhecido como um banco de vias metabólicas,
pois esse foi o propósito da sua criação.
11/03/2023, 12:58 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html# 18/44
Página inicial do KEGG.
Os dados iniciais utilizados pelo KEGG são principalmente sequências genômicas, que depois passam por uma série de
análises realizadas por diferentes programas de computador e por profissionais especialistas. Todos os dados
produzidos são então organizados e disponibilizados. Veja, a seguir, alguns exemplos de coleções de dados que
podemos encontrar nesse banco:
Esquemas manualmente projetados para representar a interação entre moléculas, como, por exemplo, vias
metabólicas.
Esquema via metabólica da galactose disponível no KEGG Pathmay
Coleção de genes ortólogos, em que genes e proteínas experimentalmente caracterizados em organismos
específicos são usados para atribuir genes ortólogos em outros organismos com base na similaridade de
sequência. Genes ditos ortólogos são encontrados em espécies diferentes, mas possuem uma história evolutiva
em comum e tendem a compartilhar a mesma função.
Captura de tela do resultado da busca usando o termo “lactase” no KEGG Orthology.
KEGG Pathway 
KEGG Orthology 
KEGG Enzyme 
11/03/2023, 12:58 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html# 19/44
Implementa um sistema oficial de identificação de enzimas chamado de Enzyme Commission number (EC
number), usado para identificar enzimas a partir de números relacionados às reações químicas das quais elas
participam.
Captura de tela do resultado da busca usando o termo “lactase” no KEGG Enzyme.
Outros repositórios que podemos encontrar no KEGG tratam de dados como doenças, pequenas moléculas, relações
entre doenças, drogas, dentre outros.
Além de dados, no portal do KEGG estão implementadas ferramentas computacionais que permitem que o usuário faça
análises variadas. Você pode, por exemplo, usar o KEGG Mapper para observar onde uma proteína que você esteja
estudando se encontra dentro de alguma das vias metabólicas armazenadas no KEGG Pathway.
Usando um site de busca, como o Google, você digita o termo “KEGG” e um dos primeiros hiperlinks o levará ao portal
desse banco de dados. Já na página inicial, é possível buscar por uma proteína de seu interesse por meio de termos
relacionadas a ela, como seu nome. Ao digitar “lactase” na barra da página inicial e clicar em “Procurar” (Search),
diferentes dados armazenados nas coleções do KEGG são mostrados. Para saber mais sobre eles, basta clicar no
número de identificação em azul, e uma próxima página com mais detalhes se abre.
Resultados associados ao registro da proteína “lactase” no KEGG.
Vamos falar agora de como associar os detalhes sobre a função de proteínas aos dados de sequências de nucleotídeos
obtidas por sequenciamento.
11/03/2023, 12:58 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html# 20/44
Anotação genômica
A anotação de genomas identifica regiões funcionais ou de relevância biológica, agregando informações ao DNA
sequenciado. Esse processo é realizado depois que a ordem dos nucleotídeos a partir do sequenciamento total do DNA
de um organismo já foi determinada.
As características biológicas que podem ser identificadas em um genoma pelo processo de anotação são principalmente
genes, mas também é possível encontrar as regiões regulatórias, a origem de replicação do DNA, os promotores, dentre
outras estruturas.
Imagine a anotação do genoma como a leitura de um texto em um idioma que você não conhece. A cada palavra você vai
precisar usar um dicionário para descobrir seu significado em português. Feito isso, é provável que você faça pequenas
anotações sobre os significados em um papel durante a leitura. Da próxima vez que você ou qualquer outra pessoa
utilizar esse papel para a leitura do texto, vai compreendê-lo sem precisar refazer as traduções. A anotação genômica
pode ser dividida em duas etapas:

Predição gênica
É a etapa na qual se busca onde estão os genes ao longo da sequência do DNA total.

Anotação funcional
Visa descrever a função biológica da proteína codificada por aquele determinado gene.
No exemplo do texto em outro idioma você já sabia o início e o fim de cada palavra, pois existia um espaço entre elas. O
genoma sequenciado é como um “texto corrido”, sem espaço entre as bases nitrogenadas. Por isso, é necessária a etapa
de predição de genes, antes de entender o que eles “significam” para o organismo estudado.
11/03/2023, 12:58 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html# 21/44
Predição gênica
Prever um gene é encontrar as bases nitrogenadas que marcam o início o fim dessa região do DNA. É importante
recordarmos que a sequência de bases nitrogenadas de um gene guarda informações para:
Neste conteúdo, discutiremos como podemos predizer genes que determinam a sequência de aminoácidos em uma
proteína (genes para RNAs mensageiros), também chamados de sequências codificadoras de proteínas (CDS, CoDing
Sequence).
Existem diferentes programas de computador usados para a predição de genes ao longo de uma sequência de DNA. As
estratégias usadas por essas ferramentas são variadas, e iremos apresentar alguns exemplos.
A forma mais intuitiva de encontrar um gene codificador de proteína é localizar os códons de início e de parada. Se você
estudou a tradução de proteínas deve ter visto sobre o código genético: conjunto de códons de três bases nitrogenadas
correspondentes a aminoácidos específicos. Dentre esses códons existem dois tipos especiais:
Códon de início
É sempre o primeiro códon a ser traduzido.
Códons de parada (stop)
Determinam o fim do processo de tradução.
RNAs mensageiros RNAs transportadores RNAs ribossômicos Peque

11/03/2023, 12:58 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html# 22/44
Tabela do código genético com as basesnitrogenadas do DNA.
Sabendo disso, os programadores desenvolveram ferramentas que encontram seguimentos de DNA que comecem com
o códon de início (ATG) e terminem com algum dos códons de parada (TAA, TAG ou ATA). Esses segmentos são
prováveis genes, também chamados de “fase de leitura aberta” (Open Reading Frame, ORF). O critério de escolha caso as
ORFs estejam sobrepostas é sempre pela mais longa.
Genoma total do vírus SARS-CoV-2. As barras marrons representam os genes preditos (ORFs).
O código genético é universal, portanto, programas para predição gênica de procariotos e eucariotos podem usar o “sinal”
dos códons de início e de parada. Por outro lado, esses dois grupos de seres vivos possuem diferenças quanto à
organização de seus genes no genoma, então “sinais” específicos para cada grupo são adotados durante a predição.
Exemplo
São as sequências no DNA que serão transcritas e usadas para adesão dos ribossomos ao RNA mensageiro. Em
procariotos, essa sequência é chamada de sequência de Shine-Dalgarno ou RBS (Ribosome Binding Site), e costuma
incluir a sequência AGGAGGT (DNA). Já em eucariotos os ribossomos se ligam em regiões chamadas de sequência de
Kozak, o que inclui a sequência CCGCCATGG (DNA).
Muitas outras diferenças podem ser destacadas comparando a organização genética entre esses grupos, como:
a transcrição de genes diferentes em um único RNA mensageiro nos procariotos (RNAm policistrônico);
a presença de íntrons e ocorrência de splicing nos eucariotos;
a diferença na densidade de genes ao longo do DNA (os genes estão mais “espaçados” nos eucariotos).
Por isso, existem programas de computador que são específicos para predição de procariotos ou de eucariotos. Nas
figuras a seguir, vemos as diferenças entre a organização gênica de:
11/03/2023, 12:58 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html# 23/44
Organização gênica de procariotos
Organização gênica de eucariotos
Anotação funcional
O processo de anotação funcional consiste na atribuição de função aos genes codificadores de proteínas. Após
identificar os possíveis genes e suas respectivas sequências proteicas, a estratégia adotada para anotação funcional é a
comparação com as sequências disponíveis em bancos de dados biológicos.
Atenção
Bancos de sequências costumam implementar em seus portais ferramentas de alinhamento, como o BLAST, e isso
permite que o usuário possa buscar dados usando sequências biológicas como “pergunta”. A sequência pergunta será,
então, comparada às sequências conhecidas e confiáveis de um banco de dados.
Voltando para a analogia de comparar a anotação funcional à busca pelo significado de uma palavra desconhecida, você
só vai realmente saber o que a palavra significa se encontrar no dicionário exatamente a mesma palavra, comparando
11/03/2023, 12:58 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html# 24/44
letra por letra.
A etapa de anotação funcional pode confirmar os resultados da predição gênica. Caso você encontre no banco de dados
uma sequência de referência bastante similar à sua sequência de interesse, é possível descrever a função do seu gene
com base na função descrita para a referência.
Você se lembra dos bancos de dados secundários que
discutimos agora há pouco?
Relembrando
Eles são muito usados na etapa de anotação funcional. Você pode reproduzir os dados curados presentes no
UniProtKB/Swiss-Prot e no KEGG para descrever a função dos genes que você está estudando. Além da função biológica,
informações como vias metabólicas e localização subcelular das proteínas codificadas fornecem uma visão geral das
características bioquímicas do genoma, que podem estar relacionadas aos caracteres detectáveis de uma espécie.
Suponha que você está estudando um organismo com genoma recém-sequenciado. A partir do alinhamento de
sequência no UniProtKB/Swiss-Prot, a tradução de um dos seus genes é 99% idêntica à uma proteína com a função de
"transferência fotossintética de elétrons C". No KEGG, é possível observar que essa função está inserida no metabolismo
da fotossíntese, e assim você pode sugerir que seu organismo de interesse é autotrófico, isto é, capaz de transformar
gás carbônico em glicose e oxigênio.
Atenção
Um critério comumente adotado para que possa ocorrer a “cópia” da função da proteína do banco de dados para a sua
proteína de interesse é o valor de similaridade igual ou maior que 70%. É possível que ao realizar a busca por sequências
similares você não encontre nenhum resultado aceitável segundo esse critério. Se isso acontecer, você irá anotar sua
proteína como hipotética ou predita.
Uma proteína hipotética é aquela cuja respectiva sequência tem todas as características de uma região codificadora,
detectada na etapa de predição gênica. Porém, nenhuma referência suficientemente similar foi encontrada no banco de
dados durante a anotação funcional. Nesse caso, a segunda etapa da anotação genômica não confirma o que foi
encontrado na primeira.
Observe o fluxo de informação a seguir.
11/03/2023, 12:58 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html# 25/44
Fluxo de ideias da anotação genômica.
As informações obtidas durante a anotação funcional podem ser guardadas em arquivos com formatos específicos. Um
exemplo de arquivo que contém informações da anotação genômica é o GenBank (mesmo nome do banco de dados
presente no NCBI), como observado na imagem a seguir. No arquivo GenBank encontramos as coordenadas de cada
uma das características anotadas ao longo da sequência de DNA.
Parte de um arquivo no formato GenBank, gerado pela plataforma NCBI.
Exemplo
Ao observar um arquivo anotado de um plasmídeo bacteriano, você pode encontrar que entre as bases nitrogenadas
2.652 e 3.532 está presente o gene kpc. Sobre esse gene também podem estar registradas informações como o seu
produto ou proteína correspondente (no caso, a enzima KPC que destrói antibióticos), o código de acesso para o registro
da proteína em outro banco de dados e a sequência traduzida de aminoácidos.
Anotação genômica utilizando bancos de dados biológicos
Neste vídeo, a especialista Melise Chaves Silveira mostra as etapas de anotação genômica, utilizando bancos
secundários na etapa de anotação funcional.

11/03/2023, 12:58 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html# 26/44
Falta pouco para atingir seus objetivos.
Vamos praticar alguns conceitos?
Questão 1
11/03/2023, 12:58 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html# 27/44
Biólogos estruturais usam métodos como cristalografia de raios-X, espectroscopia de ressonância magnética
nuclear e microscopia crioeletrônica para determinar a localização de cada átomo em relação aos outros na
molécula de proteína. Em seguida, eles depositam esses dados brutos em forma de arquivo com as coordenadas
dos átomos em um banco de dados biológico. Um banco de dados biológico que armazena a informação descrita no
enunciado é classificado como:
Parabéns! A alternativa E está correta.
Bancos de dados primários armazenam dados brutos originados de experimentos na bancada, que é a situação
descrita no enunciado. Os dados de um banco curado devem passar pelo crivo de especialistas. Bancos
especializados tratam de um interesse de pesquisa em particular. Acesso restrito é o caso de bancos que exigem
pagamento para acesso. Já o banco secundário é construído a partir de análises dos dados primários.
Questão 2
Para compreender a complexidade de um organismo podemos usar técnicas de biologia molecular aliadas a
ferramentas de bioinformática. Sobre essa abordagem, escolha a sequência que representa a ordem correta das
etapas que devem ser realizadas do início ao final do processo.
A Curado.
B Especializado.
C De acesso restrito.
D Secundário.
E Primário.
A Extração do DNA -> sequenciamento genômico -> predição gênica -> anotação funcional.B Sequenciamento genômico -> predição gênica -> anotação funcional -> extração do DNA.
11/03/2023, 12:58 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html# 28/44
Parabéns! A alternativa A está correta.
Primeiro é necessário extrair e purificar o DNA do restante dos componentes celulares, e só então usá-lo como
matéria-prima para o sequenciamento. Determinada a ordem de nucleotídeos pelo sequenciamento, primeiro as
regiões de genes são identificadas e depois é atribuída uma função para esse gene.
2 - Conceitos e aplicações das ciências ômicas
Ao �nal deste módulo, você será capaz de reconhecer os conceitos e aplicações das ciências ômicas.
Introdução às ciências ômicas
C Extração do DNA -> predição gênica -> sequenciamento genômico -> anotação funcional.
D Predição gênica -> extração do DNA -> anotação funcional -> sequenciamento genômico.
E Extração do DNA -> sequenciamento genômico -> anotação funcional -> predição gênica.
11/03/2023, 12:58 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html# 29/44
A matéria-prima do trabalho da bioinformática são os dados biológicos. Em relação a esses dados, os esforços dos
profissionais especializados nessa área são voltados para:
Um grande avanço da bioinformática aconteceu durante a execução do Projeto Genoma Humano, que durou mais de 10
anos e teve como objetivo principal determinar a ordem dos nucleotídeos de todo genoma da nossa espécie. Essa
empreitada científica estimulou o aprimoramento de computadores e de programas para lidar com a grande quantidade
de dados que começou a ser gerada.
Organizar
Armazenar
Analisar
Visualizar
Interpretar
11/03/2023, 12:58 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html# 30/44
Ter acesso às sequências de nucleotídeos de todo o DNA de um organismo é fantástico, e estudá-las trouxe respostas
para questões importantes. Hoje conhecemos a “cartilha” que as células seguem para gerar todas as características de
um indivíduo. No entanto, essa “cartilha” deixa no ar perguntas que surgiram a partir dos estudos do genoma.
Resposta
A resposta para essas perguntas está nas outras moléculas biológicas presentes na célula, como RNAs, proteínas e
metabólitos. Hoje vivemos o que é chamado de “era pós-genômica”, com o desenvolvimento e o aperfeiçoamento de
técnicas e de programas que nos permitem estudar outras ciências ômicas.
Principais conceitos das ciências ômicas
O termo “ômica” se refere à análise global de um determinado tipo de informação biológica. Veja a seguir alguns
exemplos de ciências ômicas:
Genômica
Chamamos de genômica a análise completa de todo o DNA de um organismo, também chamado de genoma. Essa
mesma lógica segue para os demais tipos de informação, e daí surgiram termos como transcriptômica, proteômica e
metabolômica.
Transcriptômica
Após compreender que o DNA guarda todas as informações hereditárias de um organismo, é importante lembrar que a
expressão dessa informação é regulada pelas condições do meio onde a célula está inserida. O produto da expressão
dos genes no DNA são os transcritos, moléculas de RNAs. A transcriptômica tem como alvo o conjunto de RNAs
produzidos por uma célula sob determinadas condições. Na prática, o RNA mensageiro é o tipo de RNA mais estudado
aqui.
O que diferencia a célula da
pele e o neurônio de um
mesmo indivíduo se a
sequência do DNA é igual?
Como o homem e o
chimpanzé são
fenotipicamente tão
distintos se 99% de seu
DNA são idênticos?
Por que gêmeos
univitelinos, formados a
partir do mesmo zigoto,
manifestam características
físicas diferentes?
11/03/2023, 12:58 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html# 31/44
Proteômica
Quando desejamos uma abordagem mais direta para compreender as funções celulares é indicado estudar o conjunto
de proteínas. São elas que efetivamente “trabalham duro” na célula, realizando transporte de moléculas, catalisando
reações químicas, recebendo mensagens, formando estruturas e desempenhando muitas outras funções. A
proteômica é o estudo do conjunto de proteínas produzidos por uma célula num dado momento.
Metabolômica
Os produtos intermediários ou finais das reações químicas que acontecem numa célula são chamados de metabólitos.
Em geral, quando falamos do metaboloma, estamos nos referindo a moléculas pequenas, de baixa massa molecular,
como aminoácidos, nucleotídeos, ácidos biliares, ácidos graxos e hormônios. O termo metabolômica abrange o estudo
dos metabólitos de uma célula sob determinadas perturbações.
Veja na imagem a seguir a relação entre as ciências.
Relação entre as ciências ômicas.
Novas áreas ômicas surgem a todo momento, com o aumento da especificidade dos estudos biomédicos. Já existe, por
exemplo:
Farmacogenômica
Com objetivo de determinar alterações genéticas responsáveis pela resposta dos pacientes a medicamentos.
Lipidômica
Avalia o perfil de lipídeos da célula.
11/03/2023, 12:58 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html# 32/44
Toxicogenômica
Estuda a resposta do organismo a determinadas substâncias.
Técnicas utilizadas
Os dados brutos processados pelos programas de computador são obtidos a partir de técnicas experimentais. Cada área
ômica foca em um tipo de dado. Portanto, as técnicas usadas não serão as mesmas. Veja as abordagens mais utilizadas
em cada área.
Dados genômicos são obtidos a partir do sequenciamento de DNA. A primeira técnica amplamente utilizada para esse
propósito foi o sequenciamento de Sanger. Essa estratégia permite que regiões do DNA, em torno de 1.000 pares de
bases, sejam sequenciadas. É possível sequenciar o genoma total de um organismo a partir do sequenciamento de
Sanger, porém o processo é muito trabalhoso e envolve outras técnicas, como clonagem usando plasmídeos
bacterianos.
Método de sequenciamento de Sanger.
A genômica evoluiu muito mais rápido com o surgimento dos sequenciadores de nova geração. Esses aparelhos
permitem fazer a leitura da ordem dos nucleotídeos de vários fragmentos de DNA ao mesmo tempo. No final do
processo, o resultado é um arquivo com todas as leituras da sua amostra. Existem diferentes tecnologias de
sequenciamento de nova geração, que buscam a precisão dos resultados e o barateamento do custo total.
Exemplo
Imagine uma versão gratuita e outra paga de um aplicativo que faça tradução de textos. Na versão gratuita, você só pode
traduzir uma página por dia, mas na paga você pode colocar o livro inteiro de uma vez e ele vai devolver todas as páginas
traduzidas em um único dia. Nessa analogia, o sequenciamento de Sanger seria a versão gratuita, e os sequenciadores
de nova geração, a versão paga.
Para estudar o conjunto de transcritos de uma célula podemos usar as mesmas técnicas de sequenciamento de DNA. No
entanto, é necessário um passo muito importante antes de iniciar o sequenciamento: transformar as moléculas de RNA
em seu DNA complementar (cDNA).
11/03/2023, 12:58 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html# 33/44
Como esse procedimento de transformar as moléculas de
RNA em seu DNA complementar seria realizado?
Esse procedimento é realizado usando-se uma enzima bem famosa na biologia molecular, a transcriptase reversa. Essa
enzima é capaz de realizar a transcrição ao avesso, usando moldes de RNA para produzir seu DNA correspondente. Isso
é feito a partir da complementaridade das bases nitrogenadas, ou seja, se a ordem de nucleotídeos do RNA é AUGA, o
seu DNA complementar será TACT. Além do sequenciamento, outra técnica que permite estudar o RNA é o microarranjo.
Nessa técnica continua sendo necessário sintetizar os cDNA, pois o RNA é uma molécula muito frágil e instável.
A ideia geral do microarranjo é usar uma lâmina de vidro com pequenos segmentos de DNA aderidos, chamados de
sondas. Também é necessário que os cDNAs da amostra a ser estudada estejam marcadoscom corantes fluorescentes.
O profissional que estiver “montando” a lâmina deverá saber exatamente a sequência das sondas de DNAs, que vão
funcionar como um “ímã”, atraindo sequências de cDNA correspondentes. Por exemplo, se uma sonda tem a sequência
TGAG, o cDNA que se ligará a ela será ACTC. No final, um aparelho detecta as posições fluorescentes da lâmina, e o
profissional descobre para quais sondas os cDNA foram complementares. Veja a seguir o esquema da análise de
microarranjo.
Esquema da análise de microarranjo.
Até aqui estávamos falando da análise de ácidos nucleicos: DNA e RNA. Para estudar o proteoma, precisamos de outra
abordagem, uma vez que ácidos nucleicos são constituídos de nucleotídeos, enquanto proteínas são formadas pela
união de aminoácidos.
A primeira técnica que vamos comentar é a eletroforese bidimensional em gel de poliacrilamida (2D-PAGE). Nessa
abordagem, as proteínas purificadas a partir de uma amostra são separadas de acordo com duas propriedades químicas:
Potencial isoelétrico
11/03/2023, 12:58 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html# 34/44
Massa molecular
Comentário
Por isso, o gel é bidimensional, pois o movimento das proteínas é estimulado em duas direções.
Milhares de proteínas podem ser separadas simultaneamente por essa técnica. Isso é possível, pois ― desde que as
proteínas tenham potenciais isoelétricos e/ou tamanhos diferentes ― elas estarão localizadas em posições diferentes do
gel no final do experimento.
A foto final do gel pode ser analisada por programas de computador, que são capazes de detectar a “mancha” de cada
proteína, quantificá-la de acordo com suas dimensões, além de comparar diferentes géis e armazená-los em bancos de
dados de 2D-PAGE. Dessa forma, é possível, por exemplo, identificar alterações na produção de proteínas entre duas ou
mais condições experimentais diferentes.
Atenção
Se nessa comparação alguma “mancha” específica chamar sua atenção, podendo ser uma proteína-chave para sua
pesquisa proteômica, você pode caracterizá-la com mais detalhes. É possível cortar essa “mancha” no gel e depois
digeri-la com uma enzima específica, que quebra a proteína em pedaços menores.
A mistura de peptídeos (pequenas sequências de aminoácidos) pode ser analisada por Espectrometria de Massas (MS),
como mostrado na imagem a seguir. Ela é utilizada para obter a massa molecular dos peptídeos gerados pela digestão
enzimática.
Esquema da Espectrometria de Massas.
Resumindo
Primeiro os fragmentos proteicos são carregados com íons positivos, e depois são “empurrados” para um tubo com
campo magnético. Peptídeos menores sofrem maiores desvios se comparados aos maiores, e assim pode ser
determinada a massa de cada um. Os valores obtidos podem, então, ser comparados em um banco de dados específico
para essa técnica, e assim determinar qual é a sua proteína de interesse.
11/03/2023, 12:58 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html# 35/44
Existem muito mais bancos de dados biológicos do que você imagina! Falando resumidamente de proteômica citamos
dois tipos. A comparação do resultado final do 2D-PAGE e da MS contra registros em bancos de dados exemplifica como
a bioinformática está inserida nas análises proteômicas.
A diversidade química dos metabólitos é milhares de vezes maior que a de DNAs, RNAs ou proteínas. Ácidos nucleicos
são formados apenas por nucleotídeos, e proteínas são sequências de aminoácidos. Quando estamos falando de
metabólitos, o estudo se torna mais desafiador.
A complexidade dos metabólitos produzidos por uma célula sob determinada condição é muito grande, uma vez que eles
possuem uma grande diversidade química e estão em concentrações diferentes. O preparo da amostra depende do seu
tipo e de que técnicas serão usadas para análise.
As amostras podem ter consistência diferentes (sólida, semissólida ou líquida); é possível realizar uma análise global ou
focada em um grupo específico de metabólitos (só lipídeos, por exemplo); e as técnicas utilizadas podem ser,
principalmente, variações da espectrometria de massas e ressonância magnética nuclear.
Análises metabolômicas geram grande quantidade e complexidade de dados. Variadas ferramentas computacionais e
estatísticas são necessárias para produzir informação e conhecimento nesse campo. Nosso próximo passo agora será
discutir que tipo de resultado todo esse trabalho de análises ômicas pode gerar.
Técnicas aplicadas nas ciências ômicas
Neste vídeo, a especialista Melise Chaves Silveira revisa os conceitos das principais técnicas usadas parar gerar dados
ômicos.

11/03/2023, 12:58 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html# 36/44
Aplicações das ciências ômicas
Veja quatro exemplos reais de contribuição efetiva das ciências ômicas.
Caso 1
O primeiro deles é o caso dos gêmeos Noah e Alexis Beery. Com 13 anos de idade Alexis Beery desenvolveu um
problema respiratório muito preocupante. Ela tossia tão forte que chegava a vomitar, e era necessário administrar
adrenalina para que ela conseguisse continuar respirando.
Quando tinham 5 anos, os gêmeos foram diagnosticados com um distúrbio genético chamado “distonia responsiva à
dopamina”, que causava movimentos anormais como dificuldade de andar e tremor postural que varia durante o dia. Eles
tomavam precursores de dopamina e reagiam bem ao tratamento, por isso quando Alexis manifestou os problemas
respiratórios os médicos não suspeitaram que poderia ter alguma relação. O pai dos gêmeos trabalhava em uma
empresa de tecnologia naquele período, por volta de 2011. Com os conhecimentos prévios que a família tinha, eles
insistiram para que o genoma total dos filhos fosse sequenciado.
Foi a partir dos resultados do sequenciamento total, usando um sequenciador de nova geração, que uma mutação
específica no gene SPR foi identificada. Esse gene codifica a enzima sepiapterina redutase, uma enzima que participa na
biossíntese de um cofator importante para atividade da enzima que sintetiza os neurotransmissores dopamina e
serotonina. A mutação no gene impede a produção desses neurotransmissores e leva ao desenvolvimento da doença.
Assim, como eles já tomavam o precursor da dopamina, após esse resultado os médicos administraram o precursor da
serotonina. Um mês após o início do tratamento os sintomas respiratórios de Alexis desapareceram!
Além da detecção de mutações associadas a doenças genéticas raras, as análises genômicas possibilitam determinar
marcadores genéticos que diferenciem indivíduos ou populações, descobrir genes exclusivos de determinadas espécies,
sugerir relações de ancestralidade entre genes, dentre outras importantes contribuições.
11/03/2023, 12:58 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html# 37/44
Caso 2
Relembrando
As análises transcriptômicas dizem respeito ao estado da célula em um determinado momento, sob certas condições.
Isso é possível devido ao fato de muitos genes terem sua expressão controlada. A célula possui mecanismos para “ligar”
ou “desligar” os genes: quando estão ligados, RNAs são transcritos a partir deles, mas, quando desligados, não ocorre
produção dos RNAs correspondentes.
A maior parte das mortes entre pacientes que desenvolvem câncer de mama ocorre devido à metástase, sendo os
pulmões um dos principais sítios desse processo. Cientes disso, pesquisadores da Universidade de Tel Aviv, em Israel,
começaram a buscar por moléculas biológicas que pudessem indicar muito precocemente a metástase do câncer de
mama no tecido pulmonar, para que ela pudesse ser evitada.
A estratégia usada foi o estudo do transcriptoma. As células alvo-foram os fibroblastos do pulmão de camundongos, e as
amostras foram divididas em grupos:
fibroblastos de camundongos saudáveis;
fibroblastos de camundongos com micrometástase;
fibroblastos com grandes metástases.
icrometástase
Pequeno conjunto de célulasdo tumor que se espalham pelo organismo.
Camundongos de laboratório.
11/03/2023, 12:58 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html# 38/44
O conjunto de todo RNAm dessas células foi obtido, transformado em cDNA e em seguida sequenciado por tecnologias
de nova geração. As análises comparativas do transcriptoma de cada grupo de fibroblastos identificaram Myc como um
regulador central da reconfiguração de fibroblastos em situação de metástase. Descobriu-se que o aumento da
transcrição desse gene está associado ao avanço da doença.
Resumindo
Os resultados dessa pesquisa foram divulgados em 2021, e os pesquisadores esperam usar suas descobertas para
auxiliar no diagnóstico do processo metastático de câncer de mama humano, antes mesmo que as células metastáticas
se estabeleçam nos órgãos-alvo. Com a detecção precoce, medidas profiláticas poderiam ser tomadas a tempo de evitar
a metástase. Torcemos para que essa descoberta possa em breve salvar a vida de milhares de pessoas no mundo todo,
não é mesmo?
Caso 3
O estudo da proteômica contribui ainda mais para entendermos o estado da célula. Transcriptoma e proteoma não são
redundantes, mas oferecem tipos diferentes de informações. Os RNAs podem ser editados por splicing alternativo e, por
modificações pós-transcricionais, as proteínas também podem sofrer modificações logo após serem traduzidas, além da
possibilidade de interagirem com outras proteínas. Só com o RNA não é possível prever as proteínas que serão
produzidas pela célula. Portanto, é preciso detectar diretamente o proteoma.
Um estudo do conjunto de proteínas presentes no sangue de pacientes com Covid-19 verificou que a proteína OAS1 está
presente em grandes quantidades em pacientes com a forma mais branda da doença. Os pesquisadores do Canadá que
desenvolveram essa pesquisa e a publicaram em 2021 sugerem que essa proteína tenha um efeito protetor contra a
doença.
A partir dos resultados dessa análise proteômica, os cientistas propõem que drogas que impulsionem a produção de
OAS1 devem ser testadas como tratamento da Covid-19. Já existem moléculas em fase de testes clínicos que aumentam
os níveis de uma proteína bem parecida, a OAS151. Essas moléculas poderiam ser otimizadas, por exemplo.
Atenção
11/03/2023, 12:58 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html# 39/44
A vacinação é muitíssimo importante como medida preventiva, mas a busca por formas de tratamento de pacientes já
doentes também é essencial para diminuir ainda mais a mortalidade dessa doença pelo mundo.
Estudos proteômicos tornam possível responder perguntas sobre “como, onde, quando e por que” proteínas são
produzidas. São análises amplas, envolvendo a identificação e quantificação das proteínas, a sua localização celular e a
determinação de modificações, interações e funções.
Caso 4
A metabolômica, área ômica que estuda todo conjunto de metabólitos produzidos pelas células, permitiu constatar que
exercícios físicos aeróbicos podem prevenir o aparecimento da doença de Alzheimer em adultos de meia-idade.
Pesquisadores dos EUA, em trabalho publicado em 2021, usaram amostras de sangue de adultos sem sintomas de
Alzheimer, mas com risco familiar e genético. Os voluntários realizaram 26 semanas de exercício supervisionado,
divididos em dois grupos: atividade física usual e atividade física intensificada.
Comparando as amostras de sangue antes e ao final do período de atividades, os níveis do biomarcador de memória
catepsina mioquina B (CTSB) aumentaram no grupo de voluntários sob atividade intensa. Além disso, analisando a
função cognitiva desses voluntários, o aumento de CTSB estava associado ao aumento dessa habilidade.
Saiba mais
Outro resultado importante foi que o exercício físico alterou positivamente metabólitos lipídicos associados a doença de
Alzheimer, o que pode oferecer um efeito protetor aos neurônios. Esse estudo mostra como a metabolômica pode
auxiliar na identificação de moléculas que ajudem a acompanhar o estado de saúde dos indivíduos. Essa área ômica é
uma ferramenta fundamental no diagnóstico, prognóstico e tratamento de doenças e na compreensão de outras
condições específicas do organismo.
11/03/2023, 12:58 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html# 40/44
Falta pouco para atingir seus objetivos.
Vamos praticar alguns conceitos?
Questão 1
Estudar em larga escala um conjunto de moléculas com o objetivo de entender mecanismos celulares é uma
estratégia muito usada atualmente na pesquisa. Nesse contexto, diferencie um estudo genômico de um estudo
11/03/2023, 12:58 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html# 41/44
metabolômico quanto ao tipo de molécula estudada.
Parabéns! A alternativa A está correta.
As ciências ômicas estudam todo o conjunto de determinado tipo de moléculas produzido pelas células. O nome
dado a cada uma dessas áreas é atribuído de acordo com o tipo de molécula estudada, por isso: a genômica estuda
todo o DNA de uma célula; a transcriptômica, os transcritos (RNAs); a proteômica, as proteínas; e a metabolômica,
os metabólitos.
Questão 2
A transcriptômica é o estudo do conjunto completo de transcrito de um dado organismo, órgão, tecido ou linhagem
celular. Podemos saber a sequência de todo conjunto de RNAs extraído de um determinado tecido utilizando qual
das técnicas seguintes?
A
A genômica estudo todo conteúdo de DNA, enquanto a metabolômica abrange o estudo de
metabólitos.
B Estudo genômico é aquele que analisa todos os RNAs, já a metabolômica aborda os metabólitos.
C
O genoma, ou seja, todo conteúdo de DNA, é o alvo da genômica. Enquanto isso, a metabolômica
tem como alvo os RNAs.
D
O conjunto de DNAs é estudado pela genômica, e os conjuntos de proteínas são alvo da
metabolômica.
E
Todo conjunto de RNAs e DNAs são o alvo da genômica, por outro lado, metabólitos e proteínas
totais são o objeto de estudo da metabolômica.
A Eletroforese bidimensional em gel de poliacrilamida.
B Espectrometria de massas.
11/03/2023, 12:58 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html# 42/44
Parabéns! A alternativa D está correta.
O microarranjo é a técnica de escolha para saber a sequência de todo conjunto de RNAs extraído de um determinado
tecido. As demais técnicas são usadas para o estudo de outras moléculas biológicas: cristalografia de raio-X para
estrutura de proteínas, espectrometria de massas e eletroforese bidimensional em gel de poliacrilamida para
proteômica, e ressonância magnética nuclear para metabolômica ou estrutura de proteínas.
Considerações �nais
Os dados biológicos são o início de todo conhecimento científico. É preciso gerar dados a partir de experimentos
científicos e depois organizá-los, analisá-los e processá-los. Vimos como os bancos permitem o acesso a todo esse
trabalho, e que é preciso entender o propósito de cada um, para usá-lo da melhor forma. Por exemplo, após identificar os
genes em um genoma, na etapa seguinte de anotação funcional é importante escolher um banco secundário, cujos
dados sejam curados por especialistas, o que trará mais qualidade ao nosso trabalho.
Além disso, conseguimos perceber que a ciência nunca para e que novas formas de gerar cada vez mais dados surgem a
todo momento. Conhecer as ciências ômicas abre nossos olhos para o presente e para o futuro, e desperta a vontade de
poder participar de toda essa evolução do conhecimento que traz muitos benefícios para a vida de todos.
Podcast
Neste podcast, a especialista Melise Chaves Silveira trás exemplos reais de novas áreas ômicas e suas contribuições.
C Ressonância magnética nuclear.
D Microarranjo.
E Cristalografia de raio-X.

11/03/2023, 12:58 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html# 43/44
Referências
BARDIN, L. Análise de conteúdo. Ed. Revista e Atualizada. Lisboa: Edições70, 2010.
BRASIL. Banco Nacional de Perfis Genéticos atinge a marca de 100 mil perfis cadastrados. 2021. Consultado na internet
em: 27 ago. 2021.
CANUTO, G., et al. Metabolômica: definições, estado-da-arte e aplicações representativas. 2018. Quím. Nova. Consultado
na internet em: 20 set. 2021.
DAYHOFF, M.O et al. Atlas of protein sequence and structure. 1972. The National Biomedical Research Foundation.
Consultado na internet em: 18 ago. 2021.
GAITÁN J.M., et al. Effects of Aerobic Exercise Training on Systemic Biomarkers and Cognition in Late Middle-Aged
Adults at Risk for Alzheimer’s Disease. 2021. Front. Endocrinol. Consultado na internet em: 20 ago. 2021.
GENBANK. GenBank Overview: what is genbank? Consultado na internet em: 20 ago. 2021.
HAYDEN, E. C. Genome study solves twins' mystery condition. 2011. Nature. Consultado na internet em: 20 set. 2021.
McNEILL L. How Margaret Dayhoff Brought Modern Computing to Biology. 2019. Consultado na internet em: 20 set.
2021.
MOUNT, D.W. Bioinformatics: sequence and genome analysis. Huntington: Cold Spring Harbor Laboratory Press, 2004.
SHANI, O, et al. Evolution of fibroblasts in the lung metastatic microenvironment is driven by stage-specific
transcriptional plasticity. eLife. 2021. jun. 25. Consultado na internet em: 20 set. 2021.
SIRUI, Z., et al. A Neanderthal OAS1 isoform protects individuals of European ancestry against COVID-19 susceptibility
and severity. Nature Medicine. 2021. v. 27, pages 659-667. Consultado na internet em: 20 set. 2021.
SILVA, S.A.; NOTARI, D.L.; DALL’ALBA, G. Bioinformática: contexto computacional e aplicações. Caxias do Sul: Educs.
2020.
XIONG J. Essential Bioinformatics. 1. ed. Cambridge: Cambridge University Press, 2006.
11/03/2023, 12:58 Anotação gênica
https://stecine.azureedge.net/repositorio/00212sa/03015/index.html# 44/44
Explore +
Saiba mais sobre busca em bancos de dados assistindo ao vídeo Aula 4 - Coletando biodados públicos, no canal
DataSciBR, YouTube.
Convidamos você a fazer um teste usando seu computador ou smartphone e ver quanta coisa é possível saber sobre
uma proteína acessando o UniProtKB. Além disso, não deixe de visitar os outros bancos de dados que abordamos ao
longo do conteúdo.