Buscar

Resumão-Bioinfo (1)

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 15 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 15 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 15 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

BIOINFORMÁTICA 
 O que é bioinformática? 
 É uma ciência que nos ajuda a resolver problemas biológicos, usando técnicas 
computacionais, facilitando o trabalho. A bioinformática surgiu para ser possível resolver 
problemas biológicos de uma forma rápida e segura. 
 Principais problemas biológicos abordados pela bioinformática 
 Como surgiu a bioinformática? 
A partir da possibilidade de comparar sequencias 
de insulina. Disso, surgiu a possibilidade de utilizar métodos estatísticos para fazer o 
alinhamento e analisar as sequencias. 
 O que é preciso saber para ser um bioinformata?? 
 Multidisciplinaridade. A bioinformática é multidisciplinar. 
 Tipos de bioinformata: 
1) Usuário: Usa os programas desenvolvidos para resolver os problemas biológicos, entende 
um pouco de tudo; 
2) Desenvolvedor: Aquele que, a partir de problemas do usuário, consegue desenvolver 
ferramentas que agilizem o trabalho do usuário. Ele sabe algo de programação e dos 
problemas biológicos; 
3)"Matemágico": Desenvolve os algoritmos para que os programas feitos pelo desenvolvedor 
funcionem. Reúne todos os conhecimentos. Possibilita a criação de uma ferramenta. 
 Aplicações da Bioinformática: 
 No sequenciamento do DNA, lentamente, usando uma reação de polimerase em 
cadeia, evoluindo para sequenciamentos mais rápidos; Montagem de sequencias; 
anotação e análise de genomas. Modelagem molecular (modelar RNAm, proteína, 
fazendo um modelo tridimensional, de uma determinada sequencia); Encontrar padrões, 
desenvolver bancos de dados, e melhorar a nalise de sequencias. 
 - Sequenciamento de DNA: Fazer um software compatível com o equipamento 
utilizado; Anotação: Pegar o resultado e procurar a informação contida na sequencia. 
Após montagem, procurar qual é, se gera uma proteína,etc; 
 Banco de Dados: 
 Um banco de dados pode ser consideradoumacoleção de dados inter-relacionados, 
projetado para suprir as necessidades de um grupo específico de aplicações e usuários. 
 Um banco de dados organiza e estrutura as informações de modo a facilitar 
consultas, atualizações e deleções de dados. 
Os principais bancos de dados primários são o GenBank,oEBI (European Bioinformatics 
Institute), o DDBJ (DNA Data Bank of Japan) e o PDB (Protein Data Bank). 
 Matriz de Substituição: 
 Matrizes de substituição são uma alternativa aos valores fixos de pontuação para 
matches e mismatches. Estas matrizes indicam os diferentes valores a serem 
contabilizados para cada par de unidades. As matrizes de substituição são normalmente 
utilizadas no alinhamento de seqüências protéicas. Assim o valor de cada uma de suas 
células indica a 
chance da ocorrência da substituição correspondente ao par de aminoácidos deste 
mismatch. 
 As matrizes de substituição mais utilizadas são aquelas pertencentes às famílias 
de matrizes PAM (Point Accepted Mutation) e BLOSUM. A matriz PAM1foi construída 
através da análise de mutações entre proteínas homólogas com 1% de divergência (1% 
dos aminoácidos diferentes). 
PAM1. As matrizes BLOSUM foram construídas tendo como base os alinhamentos do 
banco de motivos BLOCKS. Uma matriz BLOSUM62 é definida através da análise das 
substituições nas seqüências de BLOCKS que possuem menos que 62% de similaridade. 
Valores positivos são mutações que ocorrem com frequências, enquanto valores 
negativos são mutações que ocorrem com baixa frequência. 
Homologia: Refere-se a relação de duas sequencias, que possuem a mesma origem e a 
mesma função. Possuem um ancestral em comum. 
 Sequenciamento de DNA: 
Tipos de sequenciamento de DNA: 
 Os métodos clássicos, e métodos de nova geração. 
 Os clássicos são como o Método de Sanger, conhecido como método de 
terminação de cadeia, pois em algum momento da polimerização, uma base sem hidroxila 
se incorpora, parando a reação. Era um método baseado na síntese, e era necessário 
correr um gel. Depois, fazia-se a leitura de baixo para cima (pois quem corre primeiro são 
mais leves). Fazia-se tudo numa reação só, em um tubo. Cada base dá uma luz de uma 
cor diferente, em um comprimento de onda diferente. Assim, desenvolveu-se um sistema 
ótica e software para fazer a leitura disso. 
 Os Métodos de Nova geração: Ilumina, Solid, 454, ... 
 O método clássico é muito lento. E, apesar de ter evoluído para a automação do 
processo de sequenciamento, ainda é muito lento. 
 O 454 é um processo também por síntese, e foi o primeiro sequenciador de nova 
geração realmente aplicado, em que há uma fita simples para ser polimerizada, e uma 
DNA polimerase para a reação. Na reação, em algum momento, há a incorporação dos 
ddNTPs, e a reação para. 
(procurar na internet vídeo sobre pirosequenciamento) 
 O problema da nova geração é que o volume de dados é grande, mas os 
sequenciamentos são curtos. A terceira geração tem tamanho intermediário, e possui 
leituras longas. Na hora de montar uma sequencia, é muito mais trabalhoso, a partir de 
sequencias curtas. É difícil saber de onde saiu cada fragmento.O solid gera os menores 
fragmentos. 
 Estratégias de montagem de sequência: 
 Montagem por referência, que exige que já haja uma sequencia já montada, e 
alinha-se uma nova sequencia, identificando o que se difere, sendo útil para quando se 
quer identificar características ou mutações de cada grupo. A montagem "De novo" é útil 
quando vai- se trabalhar com organismos novos que não foram sequenciados ainda, ou 
em organismos que diferem muito dentro de uma mesma espécie, como ocorre 
rearranjos. Para fazer a montagem, é necessário fazer comparações para identificar 
sobreposições, gerando contigs. 
 Alinhamento de Sequências: 
 Este método de comparação procura determinar o grau de similaridade entre duas 
ou mais seqüências, ou a similaridade entre fragmentos destas seqüências. No caso de 
mais de duas seqüências o processo é denominado alinhamento múltiplo. É bom lembrar 
que similaridade e homologia são conceitos diferentes.O alinhamento indica o grau de 
similaridade entre seqüências, já a homologia é uma hipótese de cunho evolutivo, e não 
possui gradação: duas seqüências são homólogas caso derivem de um ancestral comum 
ou, caso esta hipótese não se comprove, simplesmente não são homólogas. 
 A qualidade de um alinhamento é determinada pela soma dos pontos obtidos por 
cada unidade pareada (match) menos as penalidades pela introdução de gaps e posições 
não pareadas (mismatch). 
 Quando há duas sequencias, utilizamos um alinhamento global, pois é o tipo de 
sequencia ótima. Se usasse o alinhamento local, usaria uma heurística, utilizando apenas 
probabilidades, mudando o score. Sempre que há mais de duas sequencias, e melhor 
utilizar um alinhamento local, ou uma heurística pra isso. 
 Relógio molecular: quanto tempo e preciso na escala evolutiva para a mudança 
de nucleotídeos. 
determinação exata de sequências que flanqueiam uma determinada sequência de 
repetição. Em experimentos tradicionais associados ao sequenciamento de Sanger, um 
protocolo paired-end inicia-se com longos fragmentos de DNA clonados em vetores para 
sua replicação em Escherichia coli. As extremidades destes fragmentos poderiam assim 
ser facilmente determinadas por sequenciamento.Utilizar uma heurística facilita um 
alinhamento, facilitando a interpretação. 
Blossum 62 é adequada para utilizar com proteinas (no Blast). 
- Heurística: Os algoritmos de busca heurística procuram pela melhor filogenia em um 
subconjunto de todas as filogenias possíveis. 
- Paired-Ends: Dados de sequenciamento paired-end oferecem a possibilidade da 
- Single-Ends: Quando o fragmento de nucleotídeo só foi sequenciado em uma 
extremidade. 
- Orfs (Open Reading Frame): É uma parte de um fragmento de leitura que pode ser 
codificado em proteínas ou peptídeo. É uma sequência entre um códon iniciador e um 
stop-códon. 
 
 
Conteúdo da Prova 2: 
BANCO DE DADOS BIOLÓGICOS PARA ANÁLISES DE SEQUENCIAS 
 O objetivo de um banco de dados biológico é obter o maior número de informações 
possíveis deuma sequencia. 
 As informações que os bancos de dados permitem incluem: arquivos contendo as 
informações (por exemplo, só sequencias); a organização lógica estrutural dessas 
informações; ferramentas para ter acesso às informações (encontrar o maior numero de 
informações no menor tempo possível). 
 Dados biológicos são necessários porque, ao trabalhar com um organismo, é 
necessário conhecer toda a informação possível sobre o assunto. 
 São importantes para disponibilizar dados biológicos para os cientistas (espécie, 
cepa, taxonomia, etc). O máximo possível de um tipo particular de informação deve estar 
disponível em um único lugar. Dados publicados podem ser difíceis de encontrar ou 
acessar(um banco de dados em que é possível de coletar informações até de artigos e 
revistas de menor impacto) e coletá-los da literatura consume muito tempo. Logo, é 
necessáriodisponibilizar dados em formato que possa ser lido por um computador. 
 Banco de dados biológicos: Constitui um grande conjunto de dados persistentes 
(não pode desaparecer, tem que ser mantido por um longo tempo), geralmente associado 
a um software projetado para atualizar, consultar e recuperar componentes dos dados 
armazenados no sistema. Eficácia: \ser de fácil acesso às informações; Objetivo: Métodos 
para extrair somente informações necessárias para responder uma específica pergunta 
biológica. 
 O conceito de bancos de dados pode ser resumido como qualquer conjunto 
organizado de dados, ou seja, é o local onde determinados dados serão armazenados de 
forma planejada e lógica, aumentando sua confiabilidade e facilitando o acesso das 
informações. Com base neste conceito, pode ser dito que Bancos de Dados Biológicos 
são bancos de dados que possuem conteúdo de caráter biológico. 
 Nestes bancos podem ser encontrados diversos tipos de informações sobre o 
organismo ou micro-organimos de interesse, tais como: família, domínios, localização 
celular, enzimas, mutações, funções biológicas, dentre outras. 
 Deve haver um local de integração, um de distribuição das informações, e vários 
usuários podem acessar esses dados rapidamente. Há um data center: local onde as 
informações são armazenadas, e um fluxo de dados onde ocorre a seleção, transformação, 
e data mining (mineração) das informações. Ao lapidar as informações, é possível obter o 
conhecimento. Data mining é a mineração dos dados, é o processo de explorar grandes 
quantidades de dados. 
 O que se pode descobrir sobre um gene por meio de uma busca a um banco de 
dados: Informações evolutivas, informações genômicas, informações estruturais, 
informações de expressão, e informação funcional, tudo o que for possivel e existir sobre. 
A partir das informações básicas é possivel delegar outras informações a respeito daquela 
proteína, molécula, ou organismo, integrando conhecimento. 
 Algumas informações associadas ao gene: Perfis metabólicos, co-fatores e 
metabólitos, inferencias filogenéticas, sequencias homólogas e outros genomas, 
sequencias,, informações de expressão, dados experimentais, etc. 
 Realidade e problemas comuns: 
 Muitas bases de dados são construídas pelos próprios biólogos, e isso acaba 
causando a não padronização da taxonomia, dificuldade na adoção de um vocabulário entre 
os grupos de pesquisa, termos diferentes para conceitos iguais ou conceitos diferentes para 
termos iguais. 
 Qualidade dos dados disponíveis na web: Grupos de pesquisa submetem suas 
descobertas, algumas bases aceitam de qualquer maneira, e muitas bases não verificam a 
qualidade dos dados. Outras bases preocupam-se com a qualidade dos dados, onde um 
comitê valida-os. Estas bases ganham destaque na comunidade científica. O software 
oferecido por órgãos públicos como o NCBI e o PDB podem ainda estar em 
desenvolvimento. Grande parte deles é de boa qualidade. Treinar a ferramenta é 
importante, para que melhore a versão de seus dados. 
Versionamento dos dados: Dados não acurados podem ser melhorados; novas versões 
sobre a anotação de uma sequencia são submetidas às bases de dados. O custo de 
armazenamento e do tratamento das versões pode levar algumas bases de dados à simples 
atualização da "versão". 
Curadoria: saber se as informações fornecidas são relevantes e corretas. 
Repositórios de dados biológicos: O primeiro banco de dados que se instituiu com 
sequencias biológicas é o construído pela Dayhoff, em 1965, que depositou as sequencias 
de insulina. Depois surgiram outros bancos de dados, como o GenBank (1988), 
EMBL(1997) e DDBJ (1996). Os bancos de dados mantinham uma integração entre eles, 
compartilhando informações. Os bancos de dados são públicos e facilmente acessáveis. 
Se quiser trabalhar com sequências de nucleotídeos e DNA, é melhor pesquisar no 
GenBank, no NCBI. Para proteínas, o banco europeu (EMBL). Porém, é possível fazer tudo 
nos dois bancos. 
 Bancos de dados primários: a pessoa deposita a sequencia de nucleotídeos e elas 
não recebem nenhum tipo de tratamento, existindo muita redundância nesse tipo de banco 
de dados. Ex: NCBI. 
- Meta-databases: Todas as informações possíveis. Ex: Entrez. 
- Bancos de dados de proteínas, ex: Swissprot. 
- Bancos de dados de estruturas de proteínas, ex: PDB. 
- Bancos de domínios e motivos proteicos, Ex: SMART. 
- Bancos de vias metabólicas, ex: KEGG. 
- Bancos de dados Genômicos, ex: WormBase, AceDB, FlyBase 
 Classificação de bancos de dados: 
Bancos de dados primários: deposição direta de sequencia sem qualquer processamento 
ou análise, não curados. Ex: GenBank, EMBL, DDBJ. 
Bancos de dados Secundários: derivam dos primários, mas possuem alguns tipos de 
análises, geralmente curados. Ex: Swiss-prot, trEMBL,Uniprot, PROSITE, blocks, PDB, etc. 
 A curadoria envolve, por exemplo, olhar artigos relacionados, informações 
biológicas depositadas,o que há de informações sobre aquela sequência, etc. Há um 
grande intervalo entre o depósito da sequência e a sua curadoria. Há informações que 
demoram a chegar aos bancos secundário, o que faz com que talvez haja perda de 
informações sobre algo entre um banco de dados primário e o secundário. 
 Busca das Informações: 
 Como acessar e recuperar as informações dos bancos de dados? 
 Todos os bancos de dados são composto por entradas: pacotes discretos e 
coerentes de informações. Um software de recuperação de informação identifica entradas 
relevantes para o seu interesse.Para que a pesquisa seja bem-sucedida, é necessário ser 
o mais específico possível. 
 A informação aumenta, os genes evoluem, e os bancos de dados devem se adequar 
e evoluir: Aumentando o recurso computacional para o arquivamento e interpretação de 
dados, aumentando do número de bancos especializados, surgindo sites "guarda-chuva" 
(tipo portal, com várias ferramentas), e com o aumento da interatividade. 
 GI: Código de identificação de uma sequência. 
 A principal entrada de dados sobre DNA é o genbank do NCBI, que com o 
desenvolvimento de nova geração, cresceram rapidamente. Com o banco de dados de 
proteínas não foi diferente: O primeiro banco de dados criado foi de proteínas, feito por 
Dayhoff. Com proteínas, deve-se isolar o proteoma para poder sequenciar. 
 Trabalhar com proteínas é mais lento, e demora mais pra ser construído. Para 
sequenciar proteína, é necessário ter ela isolada, o que dá mais trabalho que sequenciar 
DNA. 
 Bancos de dados primários são os que aceitam sequências de DNA que pode ser 
passada para uma sequencia de proteínas, e depois pode ser passada para um banco 
secundário (de proteínas). Toda sequência de DNA depositada é traduzida e compõe um 
banco secundário. As sequencias de proteínas são trabalhadas, fazendo curadoria: 
Pessoas analisam a sequência e, utilizam referencias e coisas assim para sua curadoria. 
A maior parte das sequencias de proteínas são derivadas do banco primário, compondo 
um banco de dado secundário. 
 O banco secundário leva em consideração a informação de alguma atividade já 
demonstrada, e quanto mais informações tiverem, melhor esse banco secundário.O 
tempo de processamento para sequência do banco primário e secundário é diferente. No 
banco primário, após depositar, a sequência fica um tempo sendo analisada, e não cai em 
banco secundário (ainda). Bancos de dados secundários demoram mais para que a 
sequencia seja analizada, pois é necessário o processo de curadoria. 
 Quando se faz anotação de genoma, preferencialmente se usa o banco de dado 
secundário, pois é mais confiável e tem informações que já foram curadas, mas é 
necessário olhar o banco primário pois podem haver sequencias e informações que ainda 
não foram depositadas no banco secundário. O banco secundário possui um número 
menor de sequencias. Os bancos primários aceitam tudo, já os bancos de dados 
secundários não aceitam tão fácil, pois precisa passar por uma curadoria. 
 O que acontece também é que pode ter informações que nem sempre vão gerar 
uma proteína. O genoma não dá informações de processamento pós transducional. 
Quando se sequencia um genoma, a informação do genoma pode não mostrar regiões 
reguladoras, ou processamento pós-traducional. 
 Pró-proteína: ainda não foi transformada para ser uma proteína madura. Quando 
passa por um processamento pós-traducional, forma uma proteína madura. 
 Para conseguir chegar nas proteínas isoladas de um organismo, se faz uma 
eletroforese 2D, que separa as proteínas. Eletroforese de proteína é feita em gel de 
poliacrilamida. Proteína madura não tem peptideo sinal, que só serve pra levar ela até 
onde ela deve atuar. 
 Análises em que se olha o proteoma, servem também para fazer um "proteoma 
comparativo ou diferencial", comparando as diferenças entre os proteomas, em condições 
diferentes. Após isso, se corta a proteína analisada desejada. Todas as informações 
possíveis sobre um gene ou proteoma são importantes, e depois se analisa SNPs, 
microarranjos, vias metabólicas, etc. 
 Bancos de dados de proteínas: vários pesquisadores foram construindo bancos de 
dados e ferramentas de bioinformática. Os bancos de dados foram evoluindo. 
 Busca de informações: 
 Qual a informação que é necessária ter para proteínas: há modelos conceituais de 
estruturas de proteínas: Tipos de estruturas e modelo conceituais ,proteínas globulares, 
estruturas secundária, terciaria, quarternária, etc... 
 Os modelos conceituais podem dar informação de que: 
 - Proteínas globulares são solúveis em solventes predominantemente aquosos, tal 
como o citosol e fluídos extra-celulares; 
 - Proteínas integrais de membranas existem dentro de ambientes dominados por 
lipídeos das membranas biológicas; 
 - Modelos concentuais de estruturas de proteínas são importantes para o 
entendimento da bioinformática de proteínas. 
 PDB: Banco de dados de estrutura de proteínas. Não há outro banco de dados de 
estrutura de proteínas. É o único repositório de distribuição de informações. Possui vários 
recursos e ferramentos para entender como a proteína vai funcionar. Ele não possui nada 
dos bancos de dados primários e secundários depositados. Só possui dados sobre 
estruturas reais, derivados de estudos de bancadas e dados experimentais, feitos por 
critalografia de raio-x e NMR. 
 FERRAMENTAS: 
 INSDC (International Nucleotide Sequence Database Colaboration): Banco de 
dados onde os principais repositores de dados biológicos compartilham as informações 
entre si. 
 PDBSum: um dos principais recursos pra obtenção de informações estruturais. 
Contém resumos e análises de todas estrutras do PDB. Cada resumo fornece a descrição 
da resolução, número de cadeias de proteínas, ligantes e ions metálicas, estruturas 
secundárias, etc. 
 RESOLUÇÃO: Quanto menor for, melhor é a qualidade da estrutura. 
 SCOP: Olha classificação de estruturas. Tem por objetivo descrever as relações 
estruturais e evolutivas entre proteínas de estruturas conhecidas. 
 SOSUI: Analisa sequências de proteínas com a finalidade de predizer estruturas 
secundárias em proteínas de membrana, baseando-se nas propriedades fisico-quimicas 
dos AAs. 
 PROSITE: Contém sequências-modelos associadas com membros de famílias de 
protéinas, funções específicas de modifcações pós-traducionais. 
 PRODOM: Dá de olhar domínios de famílias. 
 INTERPRO procura em todos os bancos de dados e ferramentas para receber o 
maior número de dados possíveis, contendo informações como: domínios, famílias, 
funções, dentre outras; 
 InterProScan: pode ser usado para procurar por “motifs” na seqüência da proteína 
de interesse. Os “motifs” ou motivos estruturais são oriundos do arranjo dos elementos da 
estrutura secundária dentro de um mesmo domínio. 
 O que caracteriza um sítio de glicosilação é um NxTx. 
 O UNIPROT também possui outras subdivisões, como grupos de sequências 
(Sequence Clusters) que possuem o mesmo grau de identidade. Clusters são sequências 
muito parecidas, agrupadas. 
 GO - ligação à algo. 
 Peptídeo sinal: Pequena porção no início da sequência que vai direcionar a proteína 
para um compartimento especíifco. Proteínas que são secretadas por uma célula possuem 
um peptídeo sinal. 
 O domínio de uma proteína está relacioando com alguma função estrutural ou algo 
assim. 
Além das proteínas, existem famílias de proteínas definidas com regiões 
conservadas. Estas regiões conservadas e características de cada família são chamadas 
de motivos ou domínios. Os bancos de dados que armazenam estas informações são: 
CDD, PROSITEM, PFAM, PRODOM. 
 PFAM: É um banco de dados de modelos de domínios, podendo extrair do 
alinhamento multiplo uma representação geral. 
 SMART: Integra o PFAM e SignalP para fazer a caracterização, além de identificar 
sequências de baixa complexidade, com sequências repetitivas ou AAs pequenos que 
ocorrem várias vezes na mesma região. 
 CDD NCBI: É um banco de dados curado. 
 NETNGLYC: Banco de dado por onde é possível identificar sítios de glicosilação. 
 
ANOTAÇÃO DE GENOMAS 
 Anotação consiste na identificação de suas regiões funcionais ou de relevância 
biológico, podendo incluir regiões codificantes, regiões funcionais em proteínas, genes de 
ncRNA (tRNAs, rRNAs, etc), regiões de DNA repetitivo, promotores, terminadores, 
operons, riboswitches e outras regiões regulatórias. 
 Poucas informações biológicas podem ser extraídas se analisando unicamente a 
sequência de um genoma. Entretanto, em alguns casos, estes dados podem ser usados 
para análises comparativas. 
 Além disso, genomas inteiros, da mesma forma que sequências pequenas, também 
podem ser alinhados (análise de sintenia, através dos blocos de sintenia). Mesmo assim 
não é poossível saber ao certo as alterações. A análise de sintenia pode demonstrar 
rearranjos e deve-se verificar se os genes presentes ali podem determinar alguma função. 
 Ilhas de patogenicidade em bactérias são identificáveis através de análises. 
 Etapas de Análise de Genoma: 
 - Sequenciamento: Sanger, ngs, etc 
 - Montagem: 
 Montagem de novo: Quando se sequencia do zero, sem referências 
 Montagem por referência: Quando já se tem o genoma anotado para aquela 
espécie 
 - Anotação: Genes, ncRNAs, CDS, etc 
 - Submissão: Submeter ao banco de dados, ex: GenBank. 
 PREDIÇÃO DE GENES 
 Os genes de procariotos são fáceis de ser identificados, pois não possuem 
sequencias de íntrons. Há RNAs policistrônicos, estrutura gênica simples, de fácil predição. 
Em eucariotos, há interrupção por íntrons e estrutura gênica complexa. Difícil predição, e 
pouco confiável fazer identificação do zero. 
 Conceitos importantes: 
 ORF: Sequência de DNA constituída por códons, sendo o primeiro códon de 
iniciação (normalmente ATG), e que termina com um códon de terminação. ORFS podem 
ser, mas não necessariamente são, regiões codificantes de fato. Bactérias possuem códon 
de iniciação diferentes (3 ou 4). 
 CDS(Coding DNA Sequence): Sequencia de DNA codificante para uma proteína. 
 Uma CDS pode ser uma ORF, mas nem toda ORF é CDS. CDS podem ser 
constutidas também pela soma de regiões de éxons de um gene de eucariotos. 
 PSEUDOGENE: Uma região do genoma que, durante o processoevolutivo, deixou 
de ser um gene normalmente por conta de frameshifts (alteração de case de leitura). São 
genes que perderam uma função. 
 PREDIÇÃO DE GENES EM PROCARIOTOS 
 A identificação de genes em genomas de procariotos normamente é realizadas por 
softwares chamados “gene finders”. Devido à estrutura simples dos genes, os gene 
finders mais modernos costumam apresentar uma boa acurácia na identificação dos 
genes. Ex: PRODIGAL, GLIMMER, GENEMARK, FGENESB. Às vezes, possuem muitos 
falsos positivos. Por isso, é importante comparar com o banco de dados depois do 
resultado. 
 Quadro de leitura: Divisão da sequencia em vários quadros diferentes, em códons. 
Possuem três fases de leitura. A primeira fase nas leituras de genes é identificar as ORF, 
depois comparar com bancos de dados para saber se há uma proteína presente ali. 
 Nem todas as ORFs são genes, então, algunas delas são classificadas como 
“spurious ORF” (orfs identificadas erroneamente pelos programas, como codificantes). As 
spurious ORF são “falsos positivos”, e são conceitualmente similares, porém não iguais, 
as proteínas hipotéticas. 
 Proteínas hipotéticas: ORFs que não apresentam similaridades a nenhuma 
sequência de proteínas que possui uma caracterização muito confiável. 
 Spurious ORF: Uma sequência que definitivamente não pode ser uma região 
codificante. Exemplos incluem ORFs que estão sobrepostas a RNAs transportadores, 
RNAs ribossomais, sequências de DNA repetitivo. 
 AntiFAM: Banco de dados criado com base em todos as “regiões codificadoras” 
identificadas erroneamente, os falsos positivos. 
 PREDIÇÃO DE GENES EM EUCARIOTOS 
 É muito mais complicada. A predição de genes em eucariotos é um processo 
complexo e que apresenta baixa acurácia mesmo em organismos bem caracterizados, 
sobretudo devido à ocorrência de éxons/íntrons, e de fenômenos como o splicing 
alternativo. 
 A maioria dos softwares usa os chamados HMM (Hidden markov models), para 
gerar um “modelo de gene” com base em um organismo próximo já anotado. Depois, este 
modelo é usado para buscar genes. Os HMMs usam uma abordagem mais matemática. 
 A principal alternativa à predição de genes em eucariotos é o uso de dados 
experimentais para a identificação de genes. Exemplos de dados que podem ser usados 
incluem: Sequências de proteínas (MS/MS ou sequenciamento de EDMAn), sequências 
de ESTs (expressed sequence tags) (sequenciamento por Sanger), e dados de RNA-seq 
(NGS). Diversos softwares podem ser usados para combinar estes dados, e após isso, é 
possível fazer uma anotação consenso com base em diferentes evidências, e ainda 
combinar estes dados de predição. 
 IDENTIFICAÇÃO DE PROTEÍNAS 
 É importante se realizar a identificação das proteínas correspondentes a cada gene 
encontrado, sendo esse processo normalmente realizado através do alinhamento da 
sequência contra um banco de dados de referência. UNIPROT, GENBANK, PFAM E 
GENE ONTOLOGY, COG (CLUSTER OF ORTHOLOGOUS GROUPS) são os principais 
bancos de dados para se realizar a identificação de uma proteína. Para esta comparação, 
as ferramentas mais usadas são: BLAST (Busca de sequências simiares através de 
alinhamento local) e HMMER (busca de sequências similares através de HMMs). 
 IDENTIFICAÇÃO DE RNAS NÃO CODIFICANTES 
 Sequências de RNA que não codificam para uma proteína, mas que apresentam 
função biológica. Exemplos incluem: RNAs transportadores, RNAs ribosomais, RNAs 
transportadores-mensageiros, micro-RNAS, etc. 
SOFTWARES: 
 Diferentes ferramentas podem ser usadas para a busca de ncRNAS em um 
genoma. A forma mais simples, porém menos especifica, é usando o BLAST, mas seu uso 
pode resultar em um alto número de falsos positivos. Na busca de ncRNAs é importante 
se considerar a estrutura secundaria da molécula. 
 Alinhamento local( ex:blast): Usa uma sequência como base para identificação. 
É pouco recomendada devido a acurácia. 
 HMMs: Usa um modelo construído a partir do alinhamento múltiplo de moléculas 
de uma mesma classe. Possui acurácia maior que o alinhamento local nesse caso, e é 
usado por ferramentas como o RNAmmer. 
 Modelos de covariância: Combina os HMMs com análises estruturais e gera uma 
predição mais acurada dos RNAs. 
 Ferramentas usadas para identificar NCRNAS: Rnammer: predição de RNAs 
através de HMMs, Aragorn, Infernal,Trnascan-se. 
 O rfam é um banco de dados curado de família de RNAs que inclui diversos 
modelos de covariância. Os dados do rfam podem ser importados na ferramenta infernal e 
usados para a busca de diversas famílias de ncRNAs. O rfam pertence a iniciativa xfam, 
que agrega também o pfam e o antifam, dentro de outros bancos pra famílias de 
sequências. 
 ANOTAÇÃO AUTOMÁTICA 
 Em informática, pipelines são conjuntos de ferramentas que são executadas em 
uma sequência lógica, onde a saída (output) de uma é a entrada (input) de outra. 
Diversas pipelines estão disponíveis para a anotação de genomas, e são capazes de 
identificar diversos tipos de regiões funcionais. 
 Procariotos: PROKKA, RAST, EUGENE-PP, Basys, NCBI genome annotation 
pipeline. 
 Eucariotos: MAKER, EUGENE. 
 Pipelines locais VS. Web 
 Algumas pipelines, denominadas de uso local, são programas instaláveis e podem 
ser baixadas nos sites de seus desenvolvedores. Prokka, Eugene-pp e maker são um 
exemplo. 
 Já os pipelines web estão dispiníveis na forma de servidores online, onde os 
genomas são submetidos em seus respectivos sites. O uso é facilitado, mas uma 
anotação pode demorar horas, dias ou até semana dependendo da demanda. RAST, 
BASYS, NCBI GENOME ANOTATTION PIPELINE e XBASE são exemplos de pipelines 
de uso web. 
FERRAMENTAS DE BIOINFORMÁTICA PARA A CONSTRUÇÃO E ANÁLISE DE 
PRIMERS E VETORES 
 Para construir um primer, é preciso amplificar um fragmento de DNA a partir de uma 
reação de polimerase em cadeia (PCR). É possível fazer à mão, mas também é possível 
fazer in silico com ferramentas de bioinformática onde é possivel simular com o plasmídeo 
como vai ficar e qual a temperatura ideal de anelamento pro primer. Antes de desenhar os 
primers: 
 Existe um monte de bancos de dados de primers. Ex: Probe, do NCBI; qPrimerDepot 
- para PCR quantitativo; Primer/bank, do Harvard medical school. 
Deve-se conhecer bem a sequência que se deseja trabalhar, suas peculiaridades, o 
organismo de onde provém, e suas características. Peptídeo sinal não faz parte do gene, 
e por isso, ele deve ser retirado. Genes de procariotos não possuem íntrons, porém, os 
genes de eucariotos possuem. Logo, é necessário pegar apenas partes da sequência que 
não possuam íntrons. 
 Primers podem ser desenhados por diversas ferramentas - Software podem variar 
em: 
 - Conceitos e abordagens gerais; 
 - Critério para desenho e configurações gerais; 
 - Usabilidade; 
 - Acessibilidade e velocidade; 
 Considere uma segunda opinião quando: Tu és novo na área ou usando o software 
e não tens confiança no resultado inicial. 
 Amplicon: Pedaço de DNA que será amplificado na PCR. 
O tamanho do primer determina a especificidade e afeta o anelamento ao DNA molde: 
Muito curto: baixa especificidade, resultando em amplicon não-específico; 
Muito longo: diminui a eficiência de ligação ao DNA molde em temperaturas normais de 
alinhamento, principalmente pela maior chance de estruturas secundárias (hairpins – 
grampo de cabelo – quando há anelamento por primer no próprio primer. Assim, gastará o 
primer fazendo uma estrutura secundária, ao invés de anelar com uma sequência). 
Tamanho ótimo do primer: 10-30 no geral; 30-35 para multiplex; 
Tamanho ótimo do amplicon: Depende da aplicação e da reação em si; 
- 300-1000 pb no geral, evitando >3000 pb; 
- 50-150 pb para Real Time PCR, evitando >400 pb; 
 Especificidade dos primers: Determinado pela sequencia e tamanho do primer. 
Sequência usada para desenhar primers deve ser a mesma usada como molde para 
PCR! O primer vai se ligar apenas na sequencia que foi desenhado para ligar. 
 Homologia cruzada: Amplificação de uma sequência diferente, mas parecida coma sequência alvo. A sequência amplificada é parecida com a sequência alvo, mas não é a 
sequência que deveria anelar. Pode ocorrer quando o DNA molde é gDNA ou amostra 
complexa (mistura de gDNAs); 
 Para evitar amplificação cruzada, basta Blastear a sequência dos primers contra o 
banco de dados não-redundantes do NCBI; Desenhar os primers de forma a anelá-los 
sobre junções de éxons (gDNA x cDNA); 
 Melting temperature (Tm) vs. Temperatura de anelamento (Ta) 
 - TM é a temperatura em que 50% da duplex de DNA se dissocia a fita simples; 
 - TA é a temperatura em que o primer se anela ao DNA alvo; 
 Dependem do tamanho e composição do primer, sal, concentrações de buffers e 
reagentes, etc. A TM ótima para primers é 50-65°C.A temperatura dos dois primers (forward 
e reverso) não podem diferenciar muito, devem ser muito próximas, e suas diferenças não 
podem ser maiores do que 3ºC. TA depende da TM do primer e do amplicon. 
 Regra geral: TA é 5°C menor que TM. As TAs dos primers usados numa reação 
devem ser muito próximas! < 3 °C de diferença! TA maiores aumentam a especificidade, 
mas podem reduzir rendimento. TA menores aumentam amplificação inespecífica. 
 Estruturas secundárias no primer: 
 ΔG aceitáveis: 
> -2 kcal/mol para hairpins na ext. 3’ 
> -3 kcal/mol para hairpins internos 
 ΔG aceitáveis: 
> -5 kcal/mol para dímeros na ext. 3’ 
> -6 kcal/mol para dímeros internos. 
 
 Homodímeros ou heterodímeros 
 Homodímero: Dímero do mesmo primer. 
 Heterodímero: Dímero de anelamento forward e reverso (tanto de um, como do 
outro). 
 Algumas estruturas secundárias são mais danosas para a PCR, principalmente as 
que envolvem o anelamento da porção 3' do primer. 
 DNA polimerase pode estender o primer, precisando de: uma porção 3'OH livre com 
porção do DNA pareada, precisa de um primer que esteja pareado, e DNA não pareado 
para que a DNA polimerase adicione nucleotídeos. 
 Um dímero que forma uma estrutura capaz de ser estendida é mais danoso para 
uma PCR do que um dímero que forma uma estrutura que não é danosa ao PCR. Quando 
uma estrutura tem uma anelamento grande, mas a porção 3' não anela, também é danoso, 
pois gasta muita energia para estender o primer. Há duas formas de formar uma estrutura 
danosa: uma em que se forma uma estrutura capaz de ser amplificada, e a outra em que 
se forma um dímero forte o suficiente, e precisará de muita energia para que ele se solte 
(TM). Quanto mais negativa a TM, mais energia necessária para desmanchar essa 
estrutura e soltar o dímero, separando as moléculas. 
 Conteúdo C-G: 40-60%; 
 Sequências repetitivas devem ser evitadas; 
 Bases iguais em sequencia <4; 
 3’ clamp ("braçadeira", referente à característica de ter uma extremidade 3'OH ligado 
a uma sequência de DNA. A presilha, o clamp, diz respeito à potência de ligação, que deve 
ser alta para formar uma ligação forte): deve haver C/G entre os últimos 4 pb (evitar >3); 
 Evitar ΔG < -9 nas ultimas 5 bases; 
 Cumprindo todas estas exigências, a extremidade 5’ pode ficar não pareada à 
sequência alvo, ficando livre para adição de características interessantes (sítio para enzima 
de restrição, fusão de genes, mutação sítio-dirigida por PCR, marcadores fluorescentes...) 
 ‘Colinha’ para desenho de primers em geral 
 10-30 pb anelando ao DNA alvo; Amplicon <3000 pb; TM e TA entre 55 e 65 °C e 
com < 3 °C de diferença; CG entre 40 e 60%; 
 Sem estruturas secundárias significativas (ΔGs altos), bases repetidas ou regiões 
repetitivas longas; Terminando em CG; Específico. Existem inúmeras ferramentas on line 
para desenhar primers para as mais diversas finalidades, como por exemplo, o "Primer 3" 
 Vetor de clonagem 
 Possui: Origem de replicação, marcador de seleção, sítio de múltipla clonagem 
 Vetor de expressão 
 Mesmas características do vetor de clonagem, mas com promotor forte e induzível, 
ATG, RBS (em procarioto), Sequência de Kozak, enhancers e sinal poli-A (em eucarioto), 
sinais de secreção e proteínas carreadoras, fusão a peptídeos específicos para purificação. 
Escolha teu vetor baseado na aplicação. 
 Na bancada, posso fazer a digestão com ambas as enzimas ao mesmo tempo? 
Depende das enzimas! Importa qual o nucleotídeo que adicionei no primer, antes (ou 
depois, no caso da outra extremidade) do sítio da enzima de restrição? Não, mas podes 
variar, para mudar a TM do primer (AT vs. CG). Isso muda meu primer? Sim. Isso muda 
meu produto de PCR? Sim. Isso muda meu plasmídeo recombinante? NÃO! Durante a 
digestão estes nucleotídeos adicionais serão removidos e não farão parte da molécula final. 
 E se e eu quiser clonar usando uma única enzima de restrição, posso? Pode, desde 
que investigue se a inserção ocorreu no sentido horário ou anti-horário. O mesmo se aplica 
a vetores TOPO! Precisamos escolher uma enzima que corte o vetor e o inserto, e no 
inserto o corte deve ser assimétrico em relação à molécula. 
 A característica mais forte e universalmente presente em uma CDS (sequência 
codificadora) é ter um ATG (start codon) no início. Enzimas de restrição reconhecem as 
sequências específicas. São endonucleases de restrição. Seu sítio precisa estar no meio 
da sequência de DNA. 
 
ESTUDO DE PROTEÍNAS E BIOINFORMÁTICA ESTRUTURAL 
 Estudo de proteínas 
 Níveis organizacionais das estruturas das proteínas: 
 Estrutura primária: sequência de aminoácidos na cadeia polipeptídica 
 Estrutura secundária: enovelamento de partes das cadeias, formada somente 
pelas interações dos átomos da ligação peptídica. 
 Estrutura terciária: Enovelamento de uma cadeia como um todo. Ligações entre 
átomos dos radicais R de todos os aminácidos da molécula 
 Estrutura quarternária: Associação de mais de uma cadeia polipeptídica A 
estrutura de uma proteína madura tem a ver com a primeira cadeia/primeira estrutura. O 
arranjo dos peptídeos na cadeia primária pode fazer com que as proteínas com as mesmas 
características químicas sejam proteínas diferentes. Aminácidos que têm muita 
aproximação se atraem mais, e outros se repulsam mais. 
 O conjunto de atração e repulsão faz com que haja a montagem de estruturas, de 
um modelo bidimensional e tridimensional da proteína. Essas estruturas levam em 
consideração o molde da proteína, e porque razão essa proteína faz isso. Arranjos 
homodimeros possuem a mesma proteína, enquanto que arranjos heterodímeros possuem 
proteínas diferentes. 
 As funções hoje em uma célula têm, a ver com a estrutura da proteína, que é mantida 
pela força dela e pelas interações que ela faz com o meio dela. Modelar proteína é 
importante. As principais características que mantém a estrutura da proteína são as 
interações que ela faz: pontes de hidrogênio (aminoácidos polares), ligações 
ionicas(aminoácidos carregados), interações hidrofóbicas (aminoácidos apolares), e forças 
de Van der Waals (qualquer aminoácido). Isso é diretamente relacionado com o ambinte 
em que ela está. A principal forma de estudar uma proteína é cristalizando ela, e outra é 
fazendo ressonância magnética nuclear, e outra é a forma da bioinformática: a partir de 
modelamento por homologia ou similaridade, ou por cálculos que levam em consideração 
as interações e características das aminoácidos. 
INTRODUÇÃO À BIOINFORMÁTICA ESTRUTURAL: 
 O que é bioinformática estrutural? É a área da bioinformática responsável pela 
análise de dados de estruturas moleculares, sobretudo de DNA e proteínas, mas também 
se estendendo a outros tipos de moléculas. Há diferentes forças e tipos de interações que 
são responsáveis por coordenar as estruturas: interações eletróstaticas, forças de 
dispersão, interação covalente, pontes de hidrogênio. É importante saber qual força atua 
em regiões da estrutura, afetando sua atividade. 
 Otimização geométrica: A otimização geométrica é um procedimento utilizado para 
a determinação da melhor conformação para uma determinada molécula, considerando as 
interações inter-atômicas. As interações covalentes eletrósticas possuem distâncias e 
energias que devem ser obedecidas. 
 Nível deorganização estrutural: 
- Primária: Sequência de aminoácidos. 
- Secundária: alfa-hélice, folha-beta, e loops. 
- Terciária: estrutura 3D de uma cadeia. 
- Quarternária: estrutura 3D com mais de uma cadeia. 
 Folding: Dobramento de uma proteína é um processo dinâmico, sendo regido por 
um grande número de fatores internos(interações entre cadeias laterais) e externos 
(condiçoes do meio, enzimas chaperonas, etc) 
 Forma nativa: forma em que é normalmente encontrada. É um processo rápido. 
 Rotação de angulos Phi e Psi: A ligação peptidica é bastante rígida, apesar de não 
ser dupla, e não consegue ser rotacionada. Mas, entre o carbono central e o hidrogênio, e 
o outro carbono, há ângulos em que podem ser rotacionados. Há uma grande variedade de 
combinações de ângulos que podem gerar, mas é limitado, nem todos ângulos são 
possíveis, e por isso alguns não são permitidos. 
 Métodos de determinação de estruturas moleculares: 
 Métodos experimentais: cristalografia por difração de raio x e ressonância 
magnética nuclear. 
 Métodos teóricos: modelagem por homologia, cálculo ab initio e dinâmica 
molecular. 
 Métodos experimentais: As abordagens laboratoriais que permitem a determinação 
da estrutura de uma molécula. Tem um respaldo maior em relação aos modelos teóricos 
por refletirem a realidade para uma determinada condição. Servem de base para os 
modelos de homologia, e geralmente possuem grande confiabiliade Cristalografia 
por difração de Raio X: Construir um cristal a partir de uma molécula de interesse, um 
arranjo de várias estruturas iguais em um arranjo periódico. Formados em condições muito 
específicas para uma proteína cristalizar, precisa de condições necessárias. Há varias 
limitações, pois cada proteína possue sua condição ideal. Refletem o estado em menor 
energia. 
 Ressonância Magnética Nuclear: Permite analisar a estrutura em solução, e 
possue limitações como o tamanho da estrutura. 
 Cristalografia: 
 Neste procedimento, a molécula de interesse é purificada, formando em condições 
ideais um cristal. Um feixe de ondas eletromagnéticas (raio-x) é incidido sobre o cristal. A 
densidade eletrônica do material desvia o feixe (processo de difração = um cristal recebe 
um feixe de raio X, que quando passa pelo cristal, bate na eletrosfera dos átomos, 
difratando). 
 Os resultados da difração são captados por uma câmera CCD (antigamente filme 
fotográfico), e levados para a análise no computador. Com os dados da difração é feita a 
resolução da estrutura. Forma uma silhueta da proteína, e depois é possível analisar e 
construir. A densidade possue diferentes resoluções. Quanto melhor, mais fácil montar a 
estrutura. 
 Vantagens: Permite a resolução de moléculas de diversos tamanhos. A cristalização 
dificulta a presença de outras moléculas que não as de interesse. Desvantagens: Nem 
todas as proteínas cristalizam. Algumas regiões podem apresentar densidade eletrônica 
falhada devido à flexibilidade e/ou vibração. 
 Ressonância magnética Nuclear: 
 É uma tecnica baseada na propriedade de mesmo nome presente em átomos 
pesados. A rotação do núcleo atômico gera um campo magnético de baixíssima intensidade 
que pode ser medido com determinados dispositivos. Este mesmo campo pode ser afetado 
por um campo magnético externo, sendo o efeito dessa alteração também passível de 
medicação. 
 Neste procedimento, uma solução da molécula de interesse é submetida a campos 
magnéticos de alta-intensidade, sendo feita uma análise para identificação da posição 
relativa de cada atomo alternando o campo magnético. 
 Vantagens: Usa soluções, não cristais, permitindo a resolução de proteínas não 
cristalizáveis. O fato de usar soluções também permite uma conformação mais próxima do 
real. 
 Desvantagens: Quanto maior a proteína, maior o campo magnético necessário. Por 
isso, só é aplicada em alguns casos. É muito caro para ter em uma instituição normal. 
 Métodos Teóricos: 
 Métodos teóricos são aqueles que partem de análises in silico, ou seja, usando 
dados meramente computacionais, e não diretamente experimentais. Podem se basear em 
dados obtidos experimentalmente a fim de se predizer novas estruturas. Caso não se 
baseiem em dados experimentais, partindo apenas de simulações computacionais, são 
denominados ab initio ou de novo. Ambas as expressões podem ser traduzidas como "do 
começo". Cálculo que leva em consideração cada interação e estrutura da molécula. 
 Modelagem por homologia: Baseia-se no princípio de que as sequências 
semelhantes apresentaram estruturas semelhantes. Usa alinhamentos globais e/ou locais 
para identificar proteínas homólogas ou regiões conservadas em um banco de dados. As 
estruturas das proteínas semelhantes serão usadas como molde para a construção de um 
novo modelo. Estruturas pouco definidas como alças podem ser preditas também por 
homologia ou por simulações ab initio. 
 SWISS-MODEL: é um servidor online para modelagem por homologia. Possui um 
sistema de banca de trabalho onde o usuário pode manter seus dados no próprio site. 
 MODELLER: é um software de uso local, ou seja, diferente dos preditores que ficam 
hospedados em um servidor online, seu uso necessita de instalação e capacidade de 
processamento adequada. Apesar de muitas vezes os servidores onlines serem mais 
práticos e rápidos para os usuários convencionais, em alguns casos os preditores locais 
podem ser mais interessantes. 
 Modelagem ab initio: construção de modelos teóricos e ferramentas para se simular 
in silico de forma minuciosa o folding de proteinas via ab initio. Entretanto um dos principais 
problemas para este tipo de simulação é o grande número de variáveis a serem 
considerados o que exige uma capacidade computacional imensurável. 
 No ano 2000 a universidade de Stanford iniciou o projeto Folding@home, que usa 
computação distribuída para resolver esse problema. O projeto disponibiliza um software 
para download em seu site que "rouba" um pouco da capacidade de processamento do 
usuário. A plataforma usada para gerir este processo é chamada BOINC. O software pode 
ser rodado em diversos sistemas operacionais. Cada usuário se torna parte de um 
gigantesco cluster de computadores que processam simultaneamente pacotes de 
informação para as simulações do projeto. 
 Além dos folding@home, alguns muitos outros sistemas de modelagem ab initio 
estão sendo desenvolvidos e/utilizados (apesar de não contarem com o poder de 
processamento do mesmo). Alguns destes projetos inclusive disponibilizam interfaces web 
para que usuários possam simular o dobramento de suas proteínas. 
 FOLDIT: O foldit é um jogo de computador do tipo MMO do tipo puzzle. O objetivo 
do jogo é a resolução de estruturas proteicas que apresenta crash (erros ou inconsistências 
que não poderia ocorrer na realidade). Apesar de ser um jogo, o Foldit já se mostrou uma 
ferramenta útil na solução de estruturas anteriormente não resolviveis por outros métodos. 
Durante o transcorrer do jogo, o usuário é desafiado a encontrar a melhor conformação pra 
um determinado fragmento, sendo conferido um score para cada solução. 
 CASP é um experimento realizado a cada dois anos por uma comunidade mundial 
de grupos de pesquisa que visa avaliar os métodos de predição estrutural disponíveis. 
Neste caso, diversas proteínas com caracteristicas estruturais complexas são usadas como 
paramentro. 
 BANCOS DE DADOS DE ESTRUTURAS: 
 É importante submeter a estrutura para um banco de dados. Bancos de dados de 
pequenas molécula - ligantes: agregam informações de moléculas inorgânicas e orgânicas 
sintéticas ou naturais, além de poderem fornecer dados como: atividade biológica, rotas 
metabólicas, métodos de síntese, estrutura 3D, preço. - zinc. 
 Bancos de dados de estruturas de proteínas: O principal banco de dados para 
estruturas de proteínas é o PDB, fundado em 1969 como sistema de análise para uso 
interlaboratório de dados e ferramentas de análise e representação de coordenadas 
atômicas. 
 Bancos dedados de dominios: pfam, prodom, scop (com dominios 
tridimensionais) 
 VISUALIZAÇÃO DE MOLÉCULAS 
- Visualizadores: Permitem a visualização de moléculas, podendo suportar diferentes 
formatos. Os principais formatos para moléculas são o .pdb (natural protein data bank), o 
.mol (mais usado para moléculas pequenas) e o .cif/.mtz (usado em cristalografia para 
dados de densidade eletrônica) 
 - Representações : Linhas (backbone), sticks, cartoons/ribons (estruturas 
secundárias), surface (superfície eletrônica). 
 PyMOL: ferramenta de uso livre para fins acadêmicos, desenvolvida em linguagem 
Python. Garante imagens de ótima qualidade aos seus renderizadores. 
 MOLECULAR DOCKING 
 Técnica que permite se determinar como duas moléculas interagem estruturalmente, 
sendo normalmente aplicado a casos de proteínas + ligante, proteína + proteína, proteína+ 
DNA/rna, ETC. 
 Virtual screening & drug design: Possível para saber como uma droga atuaria, e 
através da estrutura de uma proteína alvo e uma biblitoeca de ligantes, qual seria o ligante 
que se liga com maior afinidade à proteína, e em qual local aquela molécula se liga com 
maior energia. 
Exercício, passos: ncbi - fasta (protein) - swiss model - Rampage Ramachandram - SolvX 
protein (only chain yes) (quanto mais negativo o resultado, melhor) - dfire protein (dfire/dfire 
2)analiza a energia total do sistema.

Continue navegando