Resumão-Bioinfo (1)

•

UFPEL

Isadora Guidotti

11/07/2020

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 15 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 15 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 15 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Bioinformática

2.050 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

BIOINFORMÁTICA
 O que é bioinformática?
É uma ciência que nos ajuda a resolver problemas biológicos, usando técnicas
computacionais, facilitando o trabalho. A bioinformática surgiu para ser possível resolver
problemas biológicos de uma forma rápida e segura.
 Principais problemas biológicos abordados pela bioinformática
 Como surgiu a bioinformática?
A partir da possibilidade de comparar sequencias
de insulina. Disso, surgiu a possibilidade de utilizar métodos estatísticos para fazer o
alinhamento e analisar as sequencias.
 O que é preciso saber para ser um bioinformata??
Multidisciplinaridade. A bioinformática é multidisciplinar.
 Tipos de bioinformata:
1) Usuário: Usa os programas desenvolvidos para resolver os problemas biológicos, entende
um pouco de tudo;
2) Desenvolvedor: Aquele que, a partir de problemas do usuário, consegue desenvolver
ferramentas que agilizem o trabalho do usuário. Ele sabe algo de programação e dos
problemas biológicos;
3)"Matemágico": Desenvolve os algoritmos para que os programas feitos pelo desenvolvedor
funcionem. Reúne todos os conhecimentos. Possibilita a criação de uma ferramenta.
 Aplicações da Bioinformática:
No sequenciamento do DNA, lentamente, usando uma reação de polimerase em
cadeia, evoluindo para sequenciamentos mais rápidos; Montagem de sequencias;
anotação e análise de genomas. Modelagem molecular (modelar RNAm, proteína,
fazendo um modelo tridimensional, de uma determinada sequencia); Encontrar padrões,
desenvolver bancos de dados, e melhorar a nalise de sequencias.
- Sequenciamento de DNA: Fazer um software compatível com o equipamento
utilizado; Anotação: Pegar o resultado e procurar a informação contida na sequencia.
Após montagem, procurar qual é, se gera uma proteína,etc;
 Banco de Dados:
Um banco de dados pode ser consideradoumacoleção de dados inter-relacionados,
projetado para suprir as necessidades de um grupo específico de aplicações e usuários.
Um banco de dados organiza e estrutura as informações de modo a facilitar
consultas, atualizações e deleções de dados.
Os principais bancos de dados primários são o GenBank,oEBI (European Bioinformatics
Institute), o DDBJ (DNA Data Bank of Japan) e o PDB (Protein Data Bank).
 Matriz de Substituição:
Matrizes de substituição são uma alternativa aos valores fixos de pontuação para
matches e mismatches. Estas matrizes indicam os diferentes valores a serem
contabilizados para cada par de unidades. As matrizes de substituição são normalmente
utilizadas no alinhamento de seqüências protéicas. Assim o valor de cada uma de suas
células indica a
chance da ocorrência da substituição correspondente ao par de aminoácidos deste
mismatch.
As matrizes de substituição mais utilizadas são aquelas pertencentes às famílias
de matrizes PAM (Point Accepted Mutation) e BLOSUM. A matriz PAM1foi construída
através da análise de mutações entre proteínas homólogas com 1% de divergência (1%
dos aminoácidos diferentes).
PAM1. As matrizes BLOSUM foram construídas tendo como base os alinhamentos do
banco de motivos BLOCKS. Uma matriz BLOSUM62 é definida através da análise das
substituições nas seqüências de BLOCKS que possuem menos que 62% de similaridade.
Valores positivos são mutações que ocorrem com frequências, enquanto valores
negativos são mutações que ocorrem com baixa frequência.
Homologia: Refere-se a relação de duas sequencias, que possuem a mesma origem e a
mesma função. Possuem um ancestral em comum.
 Sequenciamento de DNA:
Tipos de sequenciamento de DNA:
Os métodos clássicos, e métodos de nova geração.
Os clássicos são como o Método de Sanger, conhecido como método de
terminação de cadeia, pois em algum momento da polimerização, uma base sem hidroxila
se incorpora, parando a reação. Era um método baseado na síntese, e era necessário
correr um gel. Depois, fazia-se a leitura de baixo para cima (pois quem corre primeiro são
mais leves). Fazia-se tudo numa reação só, em um tubo. Cada base dá uma luz de uma
cor diferente, em um comprimento de onda diferente. Assim, desenvolveu-se um sistema
ótica e software para fazer a leitura disso.
Os Métodos de Nova geração: Ilumina, Solid, 454, ...
O método clássico é muito lento. E, apesar de ter evoluído para a automação do
processo de sequenciamento, ainda é muito lento.
O 454 é um processo também por síntese, e foi o primeiro sequenciador de nova
geração realmente aplicado, em que há uma fita simples para ser polimerizada, e uma
DNA polimerase para a reação. Na reação, em algum momento, há a incorporação dos
ddNTPs, e a reação para.
(procurar na internet vídeo sobre pirosequenciamento)
O problema da nova geração é que o volume de dados é grande, mas os
sequenciamentos são curtos. A terceira geração tem tamanho intermediário, e possui
leituras longas. Na hora de montar uma sequencia, é muito mais trabalhoso, a partir de
sequencias curtas. É difícil saber de onde saiu cada fragmento.O solid gera os menores
fragmentos.
 Estratégias de montagem de sequência:
Montagem por referência, que exige que já haja uma sequencia já montada, e
alinha-se uma nova sequencia, identificando o que se difere, sendo útil para quando se
quer identificar características ou mutações de cada grupo. A montagem "De novo" é útil
quando vai- se trabalhar com organismos novos que não foram sequenciados ainda, ou
em organismos que diferem muito dentro de uma mesma espécie, como ocorre
rearranjos. Para fazer a montagem, é necessário fazer comparações para identificar
sobreposições, gerando contigs.
 Alinhamento de Sequências:
Este método de comparação procura determinar o grau de similaridade entre duas
ou mais seqüências, ou a similaridade entre fragmentos destas seqüências. No caso de
mais de duas seqüências o processo é denominado alinhamento múltiplo. É bom lembrar
que similaridade e homologia são conceitos diferentes.O alinhamento indica o grau de
similaridade entre seqüências, já a homologia é uma hipótese de cunho evolutivo, e não
possui gradação: duas seqüências são homólogas caso derivem de um ancestral comum
ou, caso esta hipótese não se comprove, simplesmente não são homólogas.
A qualidade de um alinhamento é determinada pela soma dos pontos obtidos por
cada unidade pareada (match) menos as penalidades pela introdução de gaps e posições
não pareadas (mismatch).
Quando há duas sequencias, utilizamos um alinhamento global, pois é o tipo de
sequencia ótima. Se usasse o alinhamento local, usaria uma heurística, utilizando apenas
probabilidades, mudando o score. Sempre que há mais de duas sequencias, e melhor
utilizar um alinhamento local, ou uma heurística pra isso.
Relógio molecular: quanto tempo e preciso na escala evolutiva para a mudança
de nucleotídeos.
determinação exata de sequências que flanqueiam uma determinada sequência de
repetição. Em experimentos tradicionais associados ao sequenciamento de Sanger, um
protocolo paired-end inicia-se com longos fragmentos de DNA clonados em vetores para
sua replicação em Escherichia coli. As extremidades destes fragmentos poderiam assim
ser facilmente determinadas por sequenciamento.Utilizar uma heurística facilita um
alinhamento, facilitando a interpretação.
Blossum 62 é adequada para utilizar com proteinas (no Blast).
- Heurística: Os algoritmos de busca heurística procuram pela melhor filogenia em um
subconjunto de todas as filogenias possíveis.
- Paired-Ends: Dados de sequenciamento paired-end oferecem a possibilidade da
- Single-Ends: Quando o fragmento de nucleotídeo só foi sequenciado em uma
extremidade.
- Orfs (Open Reading Frame): É uma parte de um fragmento de leitura que pode ser
codificado em proteínas ou peptídeo. É uma sequência entre um códon iniciador e um
stop-códon.

Conteúdo da Prova 2:
BANCO DE DADOS BIOLÓGICOS PARA ANÁLISES DE SEQUENCIAS
O objetivo de um banco de dados biológico é obter o maior número de informações
possíveis deuma sequencia.
As informações que os bancos de dados permitem incluem: arquivos contendo as
informações (por exemplo, só sequencias); a organização lógica estrutural dessas
informações; ferramentas para ter acesso às informações (encontrar o maior numero de
informações no menor tempo possível).
Dados biológicos são necessários porque, ao trabalhar com um organismo, é
necessário conhecer toda a informação possível sobre o assunto.
São importantes para disponibilizar dados biológicos para os cientistas (espécie,
cepa, taxonomia, etc). O máximo possível de um tipo particular de informação deve estar
disponível em um único lugar. Dados publicados podem ser difíceis de encontrar ou
acessar(um banco de dados em que é possível de coletar informações até de artigos e
revistas de menor impacto) e coletá-los da literatura consume muito tempo. Logo, é
necessáriodisponibilizar dados em formato que possa ser lido por um computador.
Banco de dados biológicos: Constitui um grande conjunto de dados persistentes
(não pode desaparecer, tem que ser mantido por um longo tempo), geralmente associado
a um software projetado para atualizar, consultar e recuperar componentes dos dados
armazenados no sistema. Eficácia: \ser de fácil acesso às informações; Objetivo: Métodos
para extrair somente informações necessárias para responder uma específica pergunta
biológica.
O conceito de bancos de dados pode ser resumido como qualquer conjunto
organizado de dados, ou seja, é o local onde determinados dados serão armazenados de
forma planejada e lógica, aumentando sua confiabilidade e facilitando o acesso das
informações. Com base neste conceito, pode ser dito que Bancos de Dados Biológicos
são bancos de dados que possuem conteúdo de caráter biológico.
Nestes bancos podem ser encontrados diversos tipos de informações sobre o
organismo ou micro-organimos de interesse, tais como: família, domínios, localização
celular, enzimas, mutações, funções biológicas, dentre outras.
Deve haver um local de integração, um de distribuição das informações, e vários
usuários podem acessar esses dados rapidamente. Há um data center: local onde as
informações são armazenadas, e um fluxo de dados onde ocorre a seleção, transformação,
e data mining (mineração) das informações. Ao lapidar as informações, é possível obter o
conhecimento. Data mining é a mineração dos dados, é o processo de explorar grandes
quantidades de dados.
O que se pode descobrir sobre um gene por meio de uma busca a um banco de
dados: Informações evolutivas, informações genômicas, informações estruturais,
informações de expressão, e informação funcional, tudo o que for possivel e existir sobre.
A partir das informações básicas é possivel delegar outras informações a respeito daquela
proteína, molécula, ou organismo, integrando conhecimento.
Algumas informações associadas ao gene: Perfis metabólicos, co-fatores e
metabólitos, inferencias filogenéticas, sequencias homólogas e outros genomas,
sequencias,, informações de expressão, dados experimentais, etc.
Realidade e problemas comuns:
Muitas bases de dados são construídas pelos próprios biólogos, e isso acaba
causando a não padronização da taxonomia, dificuldade na adoção de um vocabulário entre
os grupos de pesquisa, termos diferentes para conceitos iguais ou conceitos diferentes para
termos iguais.
Qualidade dos dados disponíveis na web: Grupos de pesquisa submetem suas
descobertas, algumas bases aceitam de qualquer maneira, e muitas bases não verificam a
qualidade dos dados. Outras bases preocupam-se com a qualidade dos dados, onde um
comitê valida-os. Estas bases ganham destaque na comunidade científica. O software
oferecido por órgãos públicos como o NCBI e o PDB podem ainda estar em
desenvolvimento. Grande parte deles é de boa qualidade. Treinar a ferramenta é
importante, para que melhore a versão de seus dados.
Versionamento dos dados: Dados não acurados podem ser melhorados; novas versões
sobre a anotação de uma sequencia são submetidas às bases de dados. O custo de
armazenamento e do tratamento das versões pode levar algumas bases de dados à simples
atualização da "versão".
Curadoria: saber se as informações fornecidas são relevantes e corretas.
Repositórios de dados biológicos: O primeiro banco de dados que se instituiu com
sequencias biológicas é o construído pela Dayhoff, em 1965, que depositou as sequencias
de insulina. Depois surgiram outros bancos de dados, como o GenBank (1988),
EMBL(1997) e DDBJ (1996). Os bancos de dados mantinham uma integração entre eles,
compartilhando informações. Os bancos de dados são públicos e facilmente acessáveis.
Se quiser trabalhar com sequências de nucleotídeos e DNA, é melhor pesquisar no
GenBank, no NCBI. Para proteínas, o banco europeu (EMBL). Porém, é possível fazer tudo
nos dois bancos.
 Bancos de dados primários: a pessoa deposita a sequencia de nucleotídeos e elas
não recebem nenhum tipo de tratamento, existindo muita redundância nesse tipo de banco
de dados. Ex: NCBI.
- Meta-databases: Todas as informações possíveis. Ex: Entrez.
- Bancos de dados de proteínas, ex: Swissprot.
- Bancos de dados de estruturas de proteínas, ex: PDB.
- Bancos de domínios e motivos proteicos, Ex: SMART.
- Bancos de vias metabólicas, ex: KEGG.
- Bancos de dados Genômicos, ex: WormBase, AceDB, FlyBase
 Classificação de bancos de dados:
Bancos de dados primários: deposição direta de sequencia sem qualquer processamento
ou análise, não curados. Ex: GenBank, EMBL, DDBJ.
Bancos de dados Secundários: derivam dos primários, mas possuem alguns tipos de
análises, geralmente curados. Ex: Swiss-prot, trEMBL,Uniprot, PROSITE, blocks, PDB, etc.
A curadoria envolve, por exemplo, olhar artigos relacionados, informações
biológicas depositadas,o que há de informações sobre aquela sequência, etc. Há um
grande intervalo entre o depósito da sequência e a sua curadoria. Há informações que
demoram a chegar aos bancos secundário, o que faz com que talvez haja perda de
informações sobre algo entre um banco de dados primário e o secundário.
Busca das Informações:
Como acessar e recuperar as informações dos bancos de dados?
Todos os bancos de dados são composto por entradas: pacotes discretos e
coerentes de informações. Um software de recuperação de informação identifica entradas
relevantes para o seu interesse.Para que a pesquisa seja bem-sucedida, é necessário ser
o mais específico possível.
A informação aumenta, os genes evoluem, e os bancos de dados devem se adequar
e evoluir: Aumentando o recurso computacional para o arquivamento e interpretação de
dados, aumentando do número de bancos especializados, surgindo sites "guarda-chuva"
(tipo portal, com várias ferramentas), e com o aumento da interatividade.
GI: Código de identificação de uma sequência.
A principal entrada de dados sobre DNA é o genbank do NCBI, que com o
desenvolvimento de nova geração, cresceram rapidamente. Com o banco de dados de
proteínas não foi diferente: O primeiro banco de dados criado foi de proteínas, feito por
Dayhoff. Com proteínas, deve-se isolar o proteoma para poder sequenciar.
Trabalhar com proteínas é mais lento, e demora mais pra ser construído. Para
sequenciar proteína, é necessário ter ela isolada, o que dá mais trabalho que sequenciar
DNA.
Bancos de dados primários são os que aceitam sequências de DNA que pode ser
passada para uma sequencia de proteínas, e depois pode ser passada para um banco
secundário (de proteínas). Toda sequência de DNA depositada é traduzida e compõe um
banco secundário. As sequencias de proteínas são trabalhadas, fazendo curadoria:
Pessoas analisam a sequência e, utilizam referencias e coisas assim para sua curadoria.
A maior parte das sequencias de proteínas são derivadas do banco primário, compondo
um banco de dado secundário.
O banco secundário leva em consideração a informação de alguma atividade já
demonstrada, e quanto mais informações tiverem, melhor esse banco secundário.O
tempo de processamento para sequência do banco primário e secundário é diferente. No
banco primário, após depositar, a sequência fica um tempo sendo analisada, e não cai em
banco secundário (ainda). Bancos de dados secundários demoram mais para que a
sequencia seja analizada, pois é necessário o processo de curadoria.
Quando se faz anotação de genoma, preferencialmente se usa o banco de dado
secundário, pois é mais confiável e tem informações que já foram curadas, mas é
necessário olhar o banco primário pois podem haver sequencias e informações que ainda
não foram depositadas no banco secundário. O banco secundário possui um número
menor de sequencias. Os bancos primários aceitam tudo, já os bancos de dados
secundários não aceitam tão fácil, pois precisa passar por uma curadoria.
O que acontece também é que pode ter informações que nem sempre vão gerar
uma proteína. O genoma não dá informações de processamento pós transducional.
Quando se sequencia um genoma, a informação do genoma pode não mostrar regiões
reguladoras, ou processamento pós-traducional.
Pró-proteína: ainda não foi transformada para ser uma proteína madura. Quando
passa por um processamento pós-traducional, forma uma proteína madura.
Para conseguir chegar nas proteínas isoladas de um organismo, se faz uma
eletroforese 2D, que separa as proteínas. Eletroforese de proteína é feita em gel de
poliacrilamida. Proteína madura não tem peptideo sinal, que só serve pra levar ela até
onde ela deve atuar.
Análises em que se olha o proteoma, servem também para fazer um "proteoma
comparativo ou diferencial", comparando as diferenças entre os proteomas, em condições
diferentes. Após isso, se corta a proteína analisada desejada. Todas as informações
possíveis sobre um gene ou proteoma são importantes, e depois se analisa SNPs,
microarranjos, vias metabólicas, etc.
Bancos de dados de proteínas: vários pesquisadores foram construindo bancos de
dados e ferramentas de bioinformática. Os bancos de dados foram evoluindo.
Busca de informações:
Qual a informação que é necessária ter para proteínas: há modelos conceituais de
estruturas de proteínas: Tipos de estruturas e modelo conceituais ,proteínas globulares,
estruturas secundária, terciaria, quarternária, etc...
Os modelos conceituais podem dar informação de que:
- Proteínas globulares são solúveis em solventes predominantemente aquosos, tal
como o citosol e fluídos extra-celulares;
- Proteínas integrais de membranas existem dentro de ambientes dominados por
lipídeos das membranas biológicas;
- Modelos concentuais de estruturas de proteínas são importantes para o
entendimento da bioinformática de proteínas.
PDB: Banco de dados de estrutura de proteínas. Não há outro banco de dados de
estrutura de proteínas. É o único repositório de distribuição de informações. Possui vários
recursos e ferramentos para entender como a proteína vai funcionar. Ele não possui nada
dos bancos de dados primários e secundários depositados. Só possui dados sobre
estruturas reais, derivados de estudos de bancadas e dados experimentais, feitos por
critalografia de raio-x e NMR.
FERRAMENTAS:
INSDC (International Nucleotide Sequence Database Colaboration): Banco de
dados onde os principais repositores de dados biológicos compartilham as informações
entre si.
PDBSum: um dos principais recursos pra obtenção de informações estruturais.
Contém resumos e análises de todas estrutras do PDB. Cada resumo fornece a descrição
da resolução, número de cadeias de proteínas, ligantes e ions metálicas, estruturas
secundárias, etc.
RESOLUÇÃO: Quanto menor for, melhor é a qualidade da estrutura.
SCOP: Olha classificação de estruturas. Tem por objetivo descrever as relações
estruturais e evolutivas entre proteínas de estruturas conhecidas.
SOSUI: Analisa sequências de proteínas com a finalidade de predizer estruturas
secundárias em proteínas de membrana, baseando-se nas propriedades fisico-quimicas
dos AAs.
PROSITE: Contém sequências-modelos associadas com membros de famílias de
protéinas, funções específicas de modifcações pós-traducionais.
PRODOM: Dá de olhar domínios de famílias.
INTERPRO procura em todos os bancos de dados e ferramentas para receber o
maior número de dados possíveis, contendo informações como: domínios, famílias,
funções, dentre outras;
InterProScan: pode ser usado para procurar por “motifs” na seqüência da proteína
de interesse. Os “motifs” ou motivos estruturais são oriundos do arranjo dos elementos da
estrutura secundária dentro de um mesmo domínio.
O que caracteriza um sítio de glicosilação é um NxTx.
O UNIPROT também possui outras subdivisões, como grupos de sequências
(Sequence Clusters) que possuem o mesmo grau de identidade. Clusters são sequências
muito parecidas, agrupadas.
GO - ligação à algo.
Peptídeo sinal: Pequena porção no início da sequência que vai direcionar a proteína
para um compartimento especíifco. Proteínas que são secretadas por uma célula possuem
um peptídeo sinal.
O domínio de uma proteína está relacioando com alguma função estrutural ou algo
assim.
Além das proteínas, existem famílias de proteínas definidas com regiões
conservadas. Estas regiões conservadas e características de cada família são chamadas
de motivos ou domínios. Os bancos de dados que armazenam estas informações são:
CDD, PROSITEM, PFAM, PRODOM.
PFAM: É um banco de dados de modelos de domínios, podendo extrair do
alinhamento multiplo uma representação geral.
SMART: Integra o PFAM e SignalP para fazer a caracterização, além de identificar
sequências de baixa complexidade, com sequências repetitivas ou AAs pequenos que
ocorrem várias vezes na mesma região.
CDD NCBI: É um banco de dados curado.
NETNGLYC: Banco de dado por onde é possível identificar sítios de glicosilação.

ANOTAÇÃO DE GENOMAS
Anotação consiste na identificação de suas regiões funcionais ou de relevância
biológico, podendo incluir regiões codificantes, regiões funcionais em proteínas, genes de
ncRNA (tRNAs, rRNAs, etc), regiões de DNA repetitivo, promotores, terminadores,
operons, riboswitches e outras regiões regulatórias.
Poucas informações biológicas podem ser extraídas se analisando unicamente a
sequência de um genoma. Entretanto, em alguns casos, estes dados podem ser usados
para análises comparativas.
Além disso, genomas inteiros, da mesma forma que sequências pequenas, também
podem ser alinhados (análise de sintenia, através dos blocos de sintenia). Mesmo assim
não é poossível saber ao certo as alterações. A análise de sintenia pode demonstrar
rearranjos e deve-se verificar se os genes presentes ali podem determinar alguma função.
Ilhas de patogenicidade em bactérias são identificáveis através de análises.
Etapas de Análise de Genoma:
- Sequenciamento: Sanger, ngs, etc
- Montagem:
Montagem de novo: Quando se sequencia do zero, sem referências
Montagem por referência: Quando já se tem o genoma anotado para aquela
espécie
- Anotação: Genes, ncRNAs, CDS, etc
- Submissão: Submeter ao banco de dados, ex: GenBank.
 PREDIÇÃO DE GENES
Os genes de procariotos são fáceis de ser identificados, pois não possuem
sequencias de íntrons. Há RNAs policistrônicos, estrutura gênica simples, de fácil predição.
Em eucariotos, há interrupção por íntrons e estrutura gênica complexa. Difícil predição, e
pouco confiável fazer identificação do zero.
Conceitos importantes:
ORF: Sequência de DNA constituída por códons, sendo o primeiro códon de
iniciação (normalmente ATG), e que termina com um códon de terminação. ORFS podem
ser, mas não necessariamente são, regiões codificantes de fato. Bactérias possuem códon
de iniciação diferentes (3 ou 4).
CDS(Coding DNA Sequence): Sequencia de DNA codificante para uma proteína.
Uma CDS pode ser uma ORF, mas nem toda ORF é CDS. CDS podem ser
constutidas também pela soma de regiões de éxons de um gene de eucariotos.
PSEUDOGENE: Uma região do genoma que, durante o processoevolutivo, deixou
de ser um gene normalmente por conta de frameshifts (alteração de case de leitura). São
genes que perderam uma função.
 PREDIÇÃO DE GENES EM PROCARIOTOS
A identificação de genes em genomas de procariotos normamente é realizadas por
softwares chamados “gene finders”. Devido à estrutura simples dos genes, os gene
finders mais modernos costumam apresentar uma boa acurácia na identificação dos
genes. Ex: PRODIGAL, GLIMMER, GENEMARK, FGENESB. Às vezes, possuem muitos
falsos positivos. Por isso, é importante comparar com o banco de dados depois do
resultado.
Quadro de leitura: Divisão da sequencia em vários quadros diferentes, em códons.
Possuem três fases de leitura. A primeira fase nas leituras de genes é identificar as ORF,
depois comparar com bancos de dados para saber se há uma proteína presente ali.
Nem todas as ORFs são genes, então, algunas delas são classificadas como
“spurious ORF” (orfs identificadas erroneamente pelos programas, como codificantes). As
spurious ORF são “falsos positivos”, e são conceitualmente similares, porém não iguais,
as proteínas hipotéticas.
Proteínas hipotéticas: ORFs que não apresentam similaridades a nenhuma
sequência de proteínas que possui uma caracterização muito confiável.
Spurious ORF: Uma sequência que definitivamente não pode ser uma região
codificante. Exemplos incluem ORFs que estão sobrepostas a RNAs transportadores,
RNAs ribossomais, sequências de DNA repetitivo.
AntiFAM: Banco de dados criado com base em todos as “regiões codificadoras”
identificadas erroneamente, os falsos positivos.
 PREDIÇÃO DE GENES EM EUCARIOTOS
É muito mais complicada. A predição de genes em eucariotos é um processo
complexo e que apresenta baixa acurácia mesmo em organismos bem caracterizados,
sobretudo devido à ocorrência de éxons/íntrons, e de fenômenos como o splicing
alternativo.
A maioria dos softwares usa os chamados HMM (Hidden markov models), para
gerar um “modelo de gene” com base em um organismo próximo já anotado. Depois, este
modelo é usado para buscar genes. Os HMMs usam uma abordagem mais matemática.
A principal alternativa à predição de genes em eucariotos é o uso de dados
experimentais para a identificação de genes. Exemplos de dados que podem ser usados
incluem: Sequências de proteínas (MS/MS ou sequenciamento de EDMAn), sequências
de ESTs (expressed sequence tags) (sequenciamento por Sanger), e dados de RNA-seq
(NGS). Diversos softwares podem ser usados para combinar estes dados, e após isso, é
possível fazer uma anotação consenso com base em diferentes evidências, e ainda
combinar estes dados de predição.
 IDENTIFICAÇÃO DE PROTEÍNAS
É importante se realizar a identificação das proteínas correspondentes a cada gene
encontrado, sendo esse processo normalmente realizado através do alinhamento da
sequência contra um banco de dados de referência. UNIPROT, GENBANK, PFAM E
GENE ONTOLOGY, COG (CLUSTER OF ORTHOLOGOUS GROUPS) são os principais
bancos de dados para se realizar a identificação de uma proteína. Para esta comparação,
as ferramentas mais usadas são: BLAST (Busca de sequências simiares através de
alinhamento local) e HMMER (busca de sequências similares através de HMMs).
 IDENTIFICAÇÃO DE RNAS NÃO CODIFICANTES
Sequências de RNA que não codificam para uma proteína, mas que apresentam
função biológica. Exemplos incluem: RNAs transportadores, RNAs ribosomais, RNAs
transportadores-mensageiros, micro-RNAS, etc.
SOFTWARES:
Diferentes ferramentas podem ser usadas para a busca de ncRNAS em um
genoma. A forma mais simples, porém menos especifica, é usando o BLAST, mas seu uso
pode resultar em um alto número de falsos positivos. Na busca de ncRNAs é importante
se considerar a estrutura secundaria da molécula.
Alinhamento local( ex:blast): Usa uma sequência como base para identificação.
É pouco recomendada devido a acurácia.
HMMs: Usa um modelo construído a partir do alinhamento múltiplo de moléculas
de uma mesma classe. Possui acurácia maior que o alinhamento local nesse caso, e é
usado por ferramentas como o RNAmmer.
Modelos de covariância: Combina os HMMs com análises estruturais e gera uma
predição mais acurada dos RNAs.
Ferramentas usadas para identificar NCRNAS: Rnammer: predição de RNAs
através de HMMs, Aragorn, Infernal,Trnascan-se.
O rfam é um banco de dados curado de família de RNAs que inclui diversos
modelos de covariância. Os dados do rfam podem ser importados na ferramenta infernal e
usados para a busca de diversas famílias de ncRNAs. O rfam pertence a iniciativa xfam,
que agrega também o pfam e o antifam, dentro de outros bancos pra famílias de
sequências.
 ANOTAÇÃO AUTOMÁTICA
Em informática, pipelines são conjuntos de ferramentas que são executadas em
uma sequência lógica, onde a saída (output) de uma é a entrada (input) de outra.
Diversas pipelines estão disponíveis para a anotação de genomas, e são capazes de
identificar diversos tipos de regiões funcionais.
Procariotos: PROKKA, RAST, EUGENE-PP, Basys, NCBI genome annotation
pipeline.
Eucariotos: MAKER, EUGENE.
Pipelines locais VS. Web
Algumas pipelines, denominadas de uso local, são programas instaláveis e podem
ser baixadas nos sites de seus desenvolvedores. Prokka, Eugene-pp e maker são um
exemplo.
Já os pipelines web estão dispiníveis na forma de servidores online, onde os
genomas são submetidos em seus respectivos sites. O uso é facilitado, mas uma
anotação pode demorar horas, dias ou até semana dependendo da demanda. RAST,
BASYS, NCBI GENOME ANOTATTION PIPELINE e XBASE são exemplos de pipelines
de uso web.
FERRAMENTAS DE BIOINFORMÁTICA PARA A CONSTRUÇÃO E ANÁLISE DE
PRIMERS E VETORES
Para construir um primer, é preciso amplificar um fragmento de DNA a partir de uma
reação de polimerase em cadeia (PCR). É possível fazer à mão, mas também é possível
fazer in silico com ferramentas de bioinformática onde é possivel simular com o plasmídeo
como vai ficar e qual a temperatura ideal de anelamento pro primer. Antes de desenhar os
primers:
Existe um monte de bancos de dados de primers. Ex: Probe, do NCBI; qPrimerDepot
- para PCR quantitativo; Primer/bank, do Harvard medical school.
Deve-se conhecer bem a sequência que se deseja trabalhar, suas peculiaridades, o
organismo de onde provém, e suas características. Peptídeo sinal não faz parte do gene,
e por isso, ele deve ser retirado. Genes de procariotos não possuem íntrons, porém, os
genes de eucariotos possuem. Logo, é necessário pegar apenas partes da sequência que
não possuam íntrons.
Primers podem ser desenhados por diversas ferramentas - Software podem variar
em:
- Conceitos e abordagens gerais;
- Critério para desenho e configurações gerais;
- Usabilidade;
- Acessibilidade e velocidade;
Considere uma segunda opinião quando: Tu és novo na área ou usando o software
e não tens confiança no resultado inicial.
Amplicon: Pedaço de DNA que será amplificado na PCR.
O tamanho do primer determina a especificidade e afeta o anelamento ao DNA molde:
Muito curto: baixa especificidade, resultando em amplicon não-específico;
Muito longo: diminui a eficiência de ligação ao DNA molde em temperaturas normais de
alinhamento, principalmente pela maior chance de estruturas secundárias (hairpins –
grampo de cabelo – quando há anelamento por primer no próprio primer. Assim, gastará o
primer fazendo uma estrutura secundária, ao invés de anelar com uma sequência).
Tamanho ótimo do primer: 10-30 no geral; 30-35 para multiplex;
Tamanho ótimo do amplicon: Depende da aplicação e da reação em si;
- 300-1000 pb no geral, evitando >3000 pb;
- 50-150 pb para Real Time PCR, evitando >400 pb;
Especificidade dos primers: Determinado pela sequencia e tamanho do primer.
Sequência usada para desenhar primers deve ser a mesma usada como molde para
PCR! O primer vai se ligar apenas na sequencia que foi desenhado para ligar.
Homologia cruzada: Amplificação de uma sequência diferente, mas parecida coma sequência alvo. A sequência amplificada é parecida com a sequência alvo, mas não é a
sequência que deveria anelar. Pode ocorrer quando o DNA molde é gDNA ou amostra
complexa (mistura de gDNAs);
Para evitar amplificação cruzada, basta Blastear a sequência dos primers contra o
banco de dados não-redundantes do NCBI; Desenhar os primers de forma a anelá-los
sobre junções de éxons (gDNA x cDNA);
 Melting temperature (Tm) vs. Temperatura de anelamento (Ta)
- TM é a temperatura em que 50% da duplex de DNA se dissocia a fita simples;
- TA é a temperatura em que o primer se anela ao DNA alvo;
Dependem do tamanho e composição do primer, sal, concentrações de buffers e
reagentes, etc. A TM ótima para primers é 50-65°C.A temperatura dos dois primers (forward
e reverso) não podem diferenciar muito, devem ser muito próximas, e suas diferenças não
podem ser maiores do que 3ºC. TA depende da TM do primer e do amplicon.
Regra geral: TA é 5°C menor que TM. As TAs dos primers usados numa reação
devem ser muito próximas! < 3 °C de diferença! TA maiores aumentam a especificidade,
mas podem reduzir rendimento. TA menores aumentam amplificação inespecífica.
Estruturas secundárias no primer:
ΔG aceitáveis:
> -2 kcal/mol para hairpins na ext. 3’
> -3 kcal/mol para hairpins internos
ΔG aceitáveis:
> -5 kcal/mol para dímeros na ext. 3’
> -6 kcal/mol para dímeros internos.

 Homodímeros ou heterodímeros
Homodímero: Dímero do mesmo primer.
Heterodímero: Dímero de anelamento forward e reverso (tanto de um, como do
outro).
Algumas estruturas secundárias são mais danosas para a PCR, principalmente as
que envolvem o anelamento da porção 3' do primer.
DNA polimerase pode estender o primer, precisando de: uma porção 3'OH livre com
porção do DNA pareada, precisa de um primer que esteja pareado, e DNA não pareado
para que a DNA polimerase adicione nucleotídeos.
Um dímero que forma uma estrutura capaz de ser estendida é mais danoso para
uma PCR do que um dímero que forma uma estrutura que não é danosa ao PCR. Quando
uma estrutura tem uma anelamento grande, mas a porção 3' não anela, também é danoso,
pois gasta muita energia para estender o primer. Há duas formas de formar uma estrutura
danosa: uma em que se forma uma estrutura capaz de ser amplificada, e a outra em que
se forma um dímero forte o suficiente, e precisará de muita energia para que ele se solte
(TM). Quanto mais negativa a TM, mais energia necessária para desmanchar essa
estrutura e soltar o dímero, separando as moléculas.
Conteúdo C-G: 40-60%;
Sequências repetitivas devem ser evitadas;
Bases iguais em sequencia <4;
3’ clamp ("braçadeira", referente à característica de ter uma extremidade 3'OH ligado
a uma sequência de DNA. A presilha, o clamp, diz respeito à potência de ligação, que deve
ser alta para formar uma ligação forte): deve haver C/G entre os últimos 4 pb (evitar >3);
Evitar ΔG < -9 nas ultimas 5 bases;
Cumprindo todas estas exigências, a extremidade 5’ pode ficar não pareada à
sequência alvo, ficando livre para adição de características interessantes (sítio para enzima
de restrição, fusão de genes, mutação sítio-dirigida por PCR, marcadores fluorescentes...)
‘Colinha’ para desenho de primers em geral
10-30 pb anelando ao DNA alvo; Amplicon <3000 pb; TM e TA entre 55 e 65 °C e
com < 3 °C de diferença; CG entre 40 e 60%;
Sem estruturas secundárias significativas (ΔGs altos), bases repetidas ou regiões
repetitivas longas; Terminando em CG; Específico. Existem inúmeras ferramentas on line
para desenhar primers para as mais diversas finalidades, como por exemplo, o "Primer 3"
Vetor de clonagem
Possui: Origem de replicação, marcador de seleção, sítio de múltipla clonagem
Vetor de expressão
Mesmas características do vetor de clonagem, mas com promotor forte e induzível,
ATG, RBS (em procarioto), Sequência de Kozak, enhancers e sinal poli-A (em eucarioto),
sinais de secreção e proteínas carreadoras, fusão a peptídeos específicos para purificação.
Escolha teu vetor baseado na aplicação.
Na bancada, posso fazer a digestão com ambas as enzimas ao mesmo tempo?
Depende das enzimas! Importa qual o nucleotídeo que adicionei no primer, antes (ou
depois, no caso da outra extremidade) do sítio da enzima de restrição? Não, mas podes
variar, para mudar a TM do primer (AT vs. CG). Isso muda meu primer? Sim. Isso muda
meu produto de PCR? Sim. Isso muda meu plasmídeo recombinante? NÃO! Durante a
digestão estes nucleotídeos adicionais serão removidos e não farão parte da molécula final.
E se e eu quiser clonar usando uma única enzima de restrição, posso? Pode, desde
que investigue se a inserção ocorreu no sentido horário ou anti-horário. O mesmo se aplica
a vetores TOPO! Precisamos escolher uma enzima que corte o vetor e o inserto, e no
inserto o corte deve ser assimétrico em relação à molécula.
A característica mais forte e universalmente presente em uma CDS (sequência
codificadora) é ter um ATG (start codon) no início. Enzimas de restrição reconhecem as
sequências específicas. São endonucleases de restrição. Seu sítio precisa estar no meio
da sequência de DNA.

ESTUDO DE PROTEÍNAS E BIOINFORMÁTICA ESTRUTURAL
Estudo de proteínas
 Níveis organizacionais das estruturas das proteínas:
Estrutura primária: sequência de aminoácidos na cadeia polipeptídica
Estrutura secundária: enovelamento de partes das cadeias, formada somente
pelas interações dos átomos da ligação peptídica.
Estrutura terciária: Enovelamento de uma cadeia como um todo. Ligações entre
átomos dos radicais R de todos os aminácidos da molécula
Estrutura quarternária: Associação de mais de uma cadeia polipeptídica A
estrutura de uma proteína madura tem a ver com a primeira cadeia/primeira estrutura. O
arranjo dos peptídeos na cadeia primária pode fazer com que as proteínas com as mesmas
características químicas sejam proteínas diferentes. Aminácidos que têm muita
aproximação se atraem mais, e outros se repulsam mais.
O conjunto de atração e repulsão faz com que haja a montagem de estruturas, de
um modelo bidimensional e tridimensional da proteína. Essas estruturas levam em
consideração o molde da proteína, e porque razão essa proteína faz isso. Arranjos
homodimeros possuem a mesma proteína, enquanto que arranjos heterodímeros possuem
proteínas diferentes.
As funções hoje em uma célula têm, a ver com a estrutura da proteína, que é mantida
pela força dela e pelas interações que ela faz com o meio dela. Modelar proteína é
importante. As principais características que mantém a estrutura da proteína são as
interações que ela faz: pontes de hidrogênio (aminoácidos polares), ligações
ionicas(aminoácidos carregados), interações hidrofóbicas (aminoácidos apolares), e forças
de Van der Waals (qualquer aminoácido). Isso é diretamente relacionado com o ambinte
em que ela está. A principal forma de estudar uma proteína é cristalizando ela, e outra é
fazendo ressonância magnética nuclear, e outra é a forma da bioinformática: a partir de
modelamento por homologia ou similaridade, ou por cálculos que levam em consideração
as interações e características das aminoácidos.
INTRODUÇÃO À BIOINFORMÁTICA ESTRUTURAL:
O que é bioinformática estrutural? É a área da bioinformática responsável pela
análise de dados de estruturas moleculares, sobretudo de DNA e proteínas, mas também
se estendendo a outros tipos de moléculas. Há diferentes forças e tipos de interações que
são responsáveis por coordenar as estruturas: interações eletróstaticas, forças de
dispersão, interação covalente, pontes de hidrogênio. É importante saber qual força atua
em regiões da estrutura, afetando sua atividade.
Otimização geométrica: A otimização geométrica é um procedimento utilizado para
a determinação da melhor conformação para uma determinada molécula, considerando as
interações inter-atômicas. As interações covalentes eletrósticas possuem distâncias e
energias que devem ser obedecidas.
 Nível deorganização estrutural:
- Primária: Sequência de aminoácidos.
- Secundária: alfa-hélice, folha-beta, e loops.
- Terciária: estrutura 3D de uma cadeia.
- Quarternária: estrutura 3D com mais de uma cadeia.
Folding: Dobramento de uma proteína é um processo dinâmico, sendo regido por
um grande número de fatores internos(interações entre cadeias laterais) e externos
(condiçoes do meio, enzimas chaperonas, etc)
Forma nativa: forma em que é normalmente encontrada. É um processo rápido.
Rotação de angulos Phi e Psi: A ligação peptidica é bastante rígida, apesar de não
ser dupla, e não consegue ser rotacionada. Mas, entre o carbono central e o hidrogênio, e
o outro carbono, há ângulos em que podem ser rotacionados. Há uma grande variedade de
combinações de ângulos que podem gerar, mas é limitado, nem todos ângulos são
possíveis, e por isso alguns não são permitidos.
 Métodos de determinação de estruturas moleculares:
Métodos experimentais: cristalografia por difração de raio x e ressonância
magnética nuclear.
Métodos teóricos: modelagem por homologia, cálculo ab initio e dinâmica
molecular.
Métodos experimentais: As abordagens laboratoriais que permitem a determinação
da estrutura de uma molécula. Tem um respaldo maior em relação aos modelos teóricos
por refletirem a realidade para uma determinada condição. Servem de base para os
modelos de homologia, e geralmente possuem grande confiabiliade Cristalografia
por difração de Raio X: Construir um cristal a partir de uma molécula de interesse, um
arranjo de várias estruturas iguais em um arranjo periódico. Formados em condições muito
específicas para uma proteína cristalizar, precisa de condições necessárias. Há varias
limitações, pois cada proteína possue sua condição ideal. Refletem o estado em menor
energia.
Ressonância Magnética Nuclear: Permite analisar a estrutura em solução, e
possue limitações como o tamanho da estrutura.
 Cristalografia:
Neste procedimento, a molécula de interesse é purificada, formando em condições
ideais um cristal. Um feixe de ondas eletromagnéticas (raio-x) é incidido sobre o cristal. A
densidade eletrônica do material desvia o feixe (processo de difração = um cristal recebe
um feixe de raio X, que quando passa pelo cristal, bate na eletrosfera dos átomos,
difratando).
Os resultados da difração são captados por uma câmera CCD (antigamente filme
fotográfico), e levados para a análise no computador. Com os dados da difração é feita a
resolução da estrutura. Forma uma silhueta da proteína, e depois é possível analisar e
construir. A densidade possue diferentes resoluções. Quanto melhor, mais fácil montar a
estrutura.
Vantagens: Permite a resolução de moléculas de diversos tamanhos. A cristalização
dificulta a presença de outras moléculas que não as de interesse. Desvantagens: Nem
todas as proteínas cristalizam. Algumas regiões podem apresentar densidade eletrônica
falhada devido à flexibilidade e/ou vibração.
 Ressonância magnética Nuclear:
É uma tecnica baseada na propriedade de mesmo nome presente em átomos
pesados. A rotação do núcleo atômico gera um campo magnético de baixíssima intensidade
que pode ser medido com determinados dispositivos. Este mesmo campo pode ser afetado
por um campo magnético externo, sendo o efeito dessa alteração também passível de
medicação.
Neste procedimento, uma solução da molécula de interesse é submetida a campos
magnéticos de alta-intensidade, sendo feita uma análise para identificação da posição
relativa de cada atomo alternando o campo magnético.
Vantagens: Usa soluções, não cristais, permitindo a resolução de proteínas não
cristalizáveis. O fato de usar soluções também permite uma conformação mais próxima do
real.
Desvantagens: Quanto maior a proteína, maior o campo magnético necessário. Por
isso, só é aplicada em alguns casos. É muito caro para ter em uma instituição normal.
 Métodos Teóricos:
Métodos teóricos são aqueles que partem de análises in silico, ou seja, usando
dados meramente computacionais, e não diretamente experimentais. Podem se basear em
dados obtidos experimentalmente a fim de se predizer novas estruturas. Caso não se
baseiem em dados experimentais, partindo apenas de simulações computacionais, são
denominados ab initio ou de novo. Ambas as expressões podem ser traduzidas como "do
começo". Cálculo que leva em consideração cada interação e estrutura da molécula.
Modelagem por homologia: Baseia-se no princípio de que as sequências
semelhantes apresentaram estruturas semelhantes. Usa alinhamentos globais e/ou locais
para identificar proteínas homólogas ou regiões conservadas em um banco de dados. As
estruturas das proteínas semelhantes serão usadas como molde para a construção de um
novo modelo. Estruturas pouco definidas como alças podem ser preditas também por
homologia ou por simulações ab initio.
SWISS-MODEL: é um servidor online para modelagem por homologia. Possui um
sistema de banca de trabalho onde o usuário pode manter seus dados no próprio site.
MODELLER: é um software de uso local, ou seja, diferente dos preditores que ficam
hospedados em um servidor online, seu uso necessita de instalação e capacidade de
processamento adequada. Apesar de muitas vezes os servidores onlines serem mais
práticos e rápidos para os usuários convencionais, em alguns casos os preditores locais
podem ser mais interessantes.
Modelagem ab initio: construção de modelos teóricos e ferramentas para se simular
in silico de forma minuciosa o folding de proteinas via ab initio. Entretanto um dos principais
problemas para este tipo de simulação é o grande número de variáveis a serem
considerados o que exige uma capacidade computacional imensurável.
No ano 2000 a universidade de Stanford iniciou o projeto Folding@home, que usa
computação distribuída para resolver esse problema. O projeto disponibiliza um software
para download em seu site que "rouba" um pouco da capacidade de processamento do
usuário. A plataforma usada para gerir este processo é chamada BOINC. O software pode
ser rodado em diversos sistemas operacionais. Cada usuário se torna parte de um
gigantesco cluster de computadores que processam simultaneamente pacotes de
informação para as simulações do projeto.
Além dos folding@home, alguns muitos outros sistemas de modelagem ab initio
estão sendo desenvolvidos e/utilizados (apesar de não contarem com o poder de
processamento do mesmo). Alguns destes projetos inclusive disponibilizam interfaces web
para que usuários possam simular o dobramento de suas proteínas.
FOLDIT: O foldit é um jogo de computador do tipo MMO do tipo puzzle. O objetivo
do jogo é a resolução de estruturas proteicas que apresenta crash (erros ou inconsistências
que não poderia ocorrer na realidade). Apesar de ser um jogo, o Foldit já se mostrou uma
ferramenta útil na solução de estruturas anteriormente não resolviveis por outros métodos.
Durante o transcorrer do jogo, o usuário é desafiado a encontrar a melhor conformação pra
um determinado fragmento, sendo conferido um score para cada solução.
CASP é um experimento realizado a cada dois anos por uma comunidade mundial
de grupos de pesquisa que visa avaliar os métodos de predição estrutural disponíveis.
Neste caso, diversas proteínas com caracteristicas estruturais complexas são usadas como
paramentro.
 BANCOS DE DADOS DE ESTRUTURAS:
É importante submeter a estrutura para um banco de dados. Bancos de dados de
pequenas molécula - ligantes: agregam informações de moléculas inorgânicas e orgânicas
sintéticas ou naturais, além de poderem fornecer dados como: atividade biológica, rotas
metabólicas, métodos de síntese, estrutura 3D, preço. - zinc.
Bancos de dados de estruturas de proteínas: O principal banco de dados para
estruturas de proteínas é o PDB, fundado em 1969 como sistema de análise para uso
interlaboratório de dados e ferramentas de análise e representação de coordenadas
atômicas.
Bancos dedados de dominios: pfam, prodom, scop (com dominios
tridimensionais)
VISUALIZAÇÃO DE MOLÉCULAS
- Visualizadores: Permitem a visualização de moléculas, podendo suportar diferentes
formatos. Os principais formatos para moléculas são o .pdb (natural protein data bank), o
.mol (mais usado para moléculas pequenas) e o .cif/.mtz (usado em cristalografia para
dados de densidade eletrônica)
- Representações : Linhas (backbone), sticks, cartoons/ribons (estruturas
secundárias), surface (superfície eletrônica).
PyMOL: ferramenta de uso livre para fins acadêmicos, desenvolvida em linguagem
Python. Garante imagens de ótima qualidade aos seus renderizadores.
MOLECULAR DOCKING
Técnica que permite se determinar como duas moléculas interagem estruturalmente,
sendo normalmente aplicado a casos de proteínas + ligante, proteína + proteína, proteína+
DNA/rna, ETC.
Virtual screening & drug design: Possível para saber como uma droga atuaria, e
através da estrutura de uma proteína alvo e uma biblitoeca de ligantes, qual seria o ligante
que se liga com maior afinidade à proteína, e em qual local aquela molécula se liga com
maior energia.
Exercício, passos: ncbi - fasta (protein) - swiss model - Rampage Ramachandram - SolvX
protein (only chain yes) (quanto mais negativo o resultado, melhor) - dfire protein (dfire/dfire
2)analiza a energia total do sistema.