Buscar

Identificação de peptídeos antimicrobianos através de predições estruturais por meio de Threading e Ab Initio

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 105 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 105 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 105 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

z 
1. li
Pró-Reitoria Acadêmica 
Escola de Saúde 
Programa de Pós-Graduação Stricto Sensu em Ciências Genômicas e 
Biotecnologia 
 
 
 
IDENTIFICAÇÃO DE PEPTÍDEOS ANTIMICROBIANOS 
ATRAVÉS DE PREDIÇÕES ESTRUTURAIS POR MEIO DE 
THREADING E AB INITIO 
 
Brasília - DF 
2017 
 
Autor: Állan Pires da Silva 
Orientador: Prof. Dr. Octávio Luiz Franco 
 
 
 
 
 
 
 
 
ÁLLAN PIRES DA SILVA 
 
 
 
 
 
 
 
 
 
IDENTIFICAÇÃO DE PEPTÍDEOS ANTIMICROBIANOS ATRAVÉS DE 
PREDIÇÕES ESTRUTURAIS POR MEIO DE THREADING E AB INITIO 
 
 
 
 
 
 
Dissertação apresentada ao Programa de Pós-
Graduação Strictu Sensu em Ciências 
Genômicas e Biotecnologia da Universidade 
Católica de Brasília, como requisito parcial 
para obtenção do Título de Mestre em 
Biotecnologia. 
Orientador: Prof. Dr. Octávio Luiz Franco 
 
 
 
 
Brasília 
2017
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Ficha elaborada pela Biblioteca Pós-Graduação da UCB 
 
 
 
S586i Silva, Állan Pires da. 
Identificação de peptídeos antimicrobianos através de predições 
estruturais por meio de Threading e Ab Initio / Állan Pires da Silva – 2017. 
103 f. : il.; 30 cm 
 
Dissertação (Mestrado) – Universidade Católica de Brasília, 2017. 
 Orientação: Prof. Dr. Octávio Luiz Franco 
 
1. Bancos de dados. 2. STP. 3. Peptídeos antimicrobianos. 4. 
Transcriptoma. 5. Dinâmica molecular. I. Franco, Octávio Luiz, orient. II. 
Título. 
 
 
CDU 606 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Dedico este trabalho primeiramente a 
Deus que me deu as ferramentas e as 
oportunidades necessárias para o feito. 
Dedico também esse trabalho à Ciência, 
 
 
 
 
que ele possa ser de importância e valia 
à evolução da mesma. 
 
 
 
 
 
AGRADECIMENTO 
 
Agradeço inicialmente a Deus pelos mesmos motivos que dedico este 
trabalho a Ele. Agradeço também à minha família, pois ela é o alicerce 
fundamental da vida de qualquer pessoa. Em especial, agradeço, à minha irmã 
e minha mãe que sempre me apoiam e me admiram pelo que eu faço, mesmo 
não entendendo muitas vezes. Agradeço à minha namorada e futura esposa, 
Karen, que sempre me apoiou e me deu forças para permanecer firme nos meus 
propósitos, colocando, às vezes, até seus próprios sonhos de lado para que eu 
possa conquistar os meus. 
Agradeço também aos meus fiéis companheiros de caminhada Julia, 
Fábio e Rayssa que sempre me encheram o saco para que eu pudesse me 
esforçar mais e ser alguém na vida. Agradeço aos meus amigos que sempre 
ficam me chamando para sair mesmo quando eu tenho um prazo apertado para 
entregar meus trabalhos. Agradeço aos meus colegas de laboratório que me 
ampararam na aterrorizante bancada, onde nada dá certo. Em especial o grupo 
do CAPB que sempre me auxilia nos meus experimentos e aos alunos da 
professora Cristine Barreto, que sempre me tiraram dúvidas e até pararam seus 
próprios trabalhos para me auxiliarem. 
Agradeço de forma especial ao Will, que, apesar de ser bem mau 
humorado às vezes e sem paciência, sempre me ajudou em tudo que eu tentei 
fazer e me ensinou uma grande parcela do que sei. Agradeço a menino Marx 
(baiano) por ser humilhado no SuperTuxKart. Agradeço ao meu orientador 
Octávio que acreditou em mim e me deu suporte e uma chance de conhecer o 
mundo da Ciência, a ele eu devo boa parte do que sou hoje, tanto 
intelectualmente quanto profissionalmente. Disseram-me uma vez que gentileza 
gera gentileza e por tudo que o professor Octávio me proporcionou eu aprendi o 
que é ser humilde e ajudar os outros, e com certeza, no futuro, eu me lembrarei 
da forma em que fui tratado quando tratar os outros. Obrigado, professor. 
Agradeço também aos membros da banca, sem os senhores nada disso 
seria possível. E por fim, mas não menos importante, agradeço a todo corpo 
docente da UCB que sempre foi cordial e atencioso em atender as necessidades 
 
 
 
 
dos alunos e à secretária do programa, Mara, que sempre nos ajuda a fazer 
escolhas acertadas e resolver os problemas em que nos colocamos com a 
Universidade. Por último e não menos importante, o Sci-Hub, provedor de 
artigos de todo pós-graduando.
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
“Sabe-se que há um número infinito de 
mundos, simplesmente porque há um espaço 
infinito para que os haja. Todavia, nem todos 
são habitados. Assim, deve haver um número 
finito de mundos habitados. Qualquer número 
finito dividido pelo infinito é tão perto de zero 
que não faz diferença, de forma que a 
população de todos os planetas do Universo 
pode ser considerada igual a zero. Daí segue 
que a população de todo o Universo também é 
zero, e que quaisquer pessoas que você possa 
encontrar de vez em quando são meramente 
produtos de uma imaginação perturbada. ” 
 Guia do Mochileiro das Galáxias, 
Douglas Adams
 
 
 
 
RESUMO 
Referência: PIRES, Állan da Silva. Identificação de peptídeos 
antimicrobianos através de predições estruturais por meio de threading e 
ab initio. 
Atualmente, várias bactérias podem ser prejudiciais à saúde humana. Além 
disso, com o uso contínuo de antibióticos, e desenvolvimento de resistência por 
parte desses microrganismos, muitas infecções se tornaram preocupantes, sem 
tratamentos eficazes disponíveis gerando a necessidade de desenvolvimento de 
outras moléculas de combate. Nesse âmbito, os peptídeos antimicrobianos 
(PAMs) têm sido propostos como uma alternativa no controle de infecções 
causadas por microrganismos resistentes. Apesar da variabilidade nas 
sequências, os PAMs podem apresentar grande conservação estrutural em 
famílias específicas, principalmente em peptídeos estabilizados por pontes 
dissulfeto. De forma canônica, a identificação de PAMs se dá pela exploração de 
extratos naturais bioativos e posterior análise e purificação dos mesmos. Na era 
pós-genômica, por sua vez, a identificação de PAMs pode ser feita a partir de 
bancos de dados utilizando modelagem molecular na busca direta de peptídeos. 
Nesse trabalho foram selecionados PAMs sem estrutura no PDB, a partir do 
banco de dados de peptídeos antimicrobianos (APD) 
(http://aps.unmc.edu/AP/main.php). Desta forma, as sequências foram pré-
filtradas, sendo selecionados dois PAMs (miticina B e MiAMP-2b) de classes 
descritas com variação na disposição ou padrão de pontes dissulfeto. Além 
disso, o banco original foi submetido à identificação de STPs. Para tal, o servidor 
PredSTP foi utilizado como avaliação adicional. Ao final das etapas de pré-
filtragem, um novo potencial STP (CRS4C-2b) com uma nova topologia estrutural 
foi modelado pelo QUARK e simulado em dinâmica molecular, mantendo a 
estrutura inicial. A metodologia foi então aplicada para identificação de PAMs no 
transcriptoma de Zantedeschia aethiopica onde foram encontrados dois novos 
potenciais PAMs que foram preditos como ativos pelo CAMP. Dessa forma, as 
duas metodologias desenvolvidas aqui podem ser aplicadas com sucesso na 
identificação de novos PAMs e na análise de diversidade estrutural de famílias 
antimicrobianas. 
Palavras-chave: Bancos de dados. STP. Peptídeos Antimicrobianos. 
Transcriptoma. Dinâmica molecular.
http://aps.unmc.edu/AP/main.php
 
 
 
 
 
ABSTRACT 
Reference: PIRES, Állan da Silva. Identification of antimicrobial peptides 
throug structural prediction by threading and ab initio. 
Currently, various bacteria can be harmful to human health. Moreover, with 
continued use of antibiotics and development of resistance bythese 
microorganisms, many infections became worrying, with no effective treatments 
available generating the need for development of other fighting molecules. In this 
context, the antimicrobial peptides (AMPs) have been proposed as an alternative 
in the control of infections caused by resistant microorganisms. Despite the 
variation in sequence levels, AMPs may present high structural conservation in 
specific families, especially peptides stabilized by disulfide bonds. Canonically, 
the identification of PAMs is by exploitation of bioactive natural extracts and 
subsequent analysis and purification thereof. In the post genomics era, in turn, 
identifying PAMs could be made from databases using molecular modeling of 
peptides in direct search. In this work were selected AMPs without structure in 
PDB, from antimicrobial peptide database (APD) 
(http://aps.unmc.edu/AP/main.php). The sequences were pre-filtered, being 
selected two AMPs (myticin B and MiAMP-2b) of classes described with 
modifications in disulfide bonds pattern arrangement. Additionally, the original 
bank was submitted to STPs identification. PredSTP was used as an additional 
evaluation. After prefiltering phases, a new potential STP (CRS4C-2b) with a new 
hypothetical structural topology was modelled by QUARK and simulated at 300 
ns molecular dynamics, maintaining the initial structure. The methodology was 
then applied to identify PAMs in the Zantedeschia aethiopica transcriptome 
where two new potential PAMs were found that were predicted to be active by 
CAMP. Thus, the two methodologies developed here can be successfully applied 
in the identification of new PAMs and in the analysis of the structural diversity of 
antimicrobial families. 
Keywords: Database. STP. Antimicrobial Peptides. Transcriptome. Molecular 
dynamics.
 
 
 
 
LISTA DE ILUSTRAÇÕES 
 
Figura 1: Número de antibióticos desenvolvidos e aprovados para 
comercialização pelo FDA no intervalo de 1980-2014. No eixo horizontal estão 
representados os intervalos de quatro anos e no eixo vertical está representado 
o número de moléculas desenvolvidas e aprovadas para comercialização. 
Adaptado de Ventola (2015)............................................................................. 21 
Figura 2: Divisão dos PAMs em grupos utilizando estrutura terciaria. Estrutura 
em Hélice α: LL-23 (PDB ID: 2LMF), uma catelicidina humana; Fita β: HD5 (PDB 
ID: 2LXZ), uma α-defensina humana. Estrutura Mista: AhPDF1 (PDB ID: 2M8B), 
uma CSαβ-defensina de Arabidopsis halleri; estrutura mista: Indolicidina (PDB 
ID: 1QXQ), peptídeo de estrutura desordenada proveniente de Bos taurus. As 
pontes dissulfeto são mostradas em esferas e varetas. ................................... 23 
Figura 3: Diversidade estrutural de STPs. As três diferentes famílias estruturais 
de STPs: “STPs não atados” representada por lucifesina (PDB ID: 2LLD); 
ciclótides representada por cicloviolacina O1 (PDB ID: 1NBJ); e ICKs 
representada por conotoxina GS (PDB ID: 1AG7). .......................................... 25 
Figura 4: Dois principais tipos de metodologias de identificação por 
correspondência de padrão. À esquerda a representação de uma RegEx dividida 
em caractere coringa, que representa qualquer aminoácido; caractere fixo, onde 
só há correspondência ao aminoácido representado; e caractere Ambíguo, onde 
há correspondência a qualquer dos aminoácidos entre colchetes. Entre 
parênteses está representada a extensão do caractere coringa, sendo, nesse 
caso de 5-6 aminoácidos. À direita a representação gráfica de um HMM, onde, 
de forma semelhante à RegEx há caracteres coringa, ambíguos e fixos. 
 
 
 
 
Entretanto há probabilidade atribuída à cada posição, neste caso representado 
pelo tamanho da letra, ou seja, aminoácidos representados por letras mais 
extensas têm maior probabilidade. O modelo de HMM foi obtido do Pfam. ..... 27 
Figura 5: Semelhança estrutural entre diferentes classes de PAMs. À esquerda 
no topo é mostrada a estrutura da Esnaquina-1 (PDB ID: 5E5Q), no centro a 
estrutura da α-1-purotionina (PDB ID: 2PLH) e à direita a EcAMP1 (PDB ID: 
2L2R). Tais estruturas apresentam um motivo estrutural helix-turn-helix 
estabilizado por pontes dissulfeto sequenciais. À esquerda abaixo a estrutura da 
Laterosporulina (PDB ID: 4OZK) e à direita a HD5 (PDB ID: 2LXZ). Ambas 
apresentam a estrutura dobrada em fitas β, formando uma folha β estabilizada 
por pontes dissulfeto. As pontes são apresentadas no modelo de esferas e 
varetas do Pymol v1.6. ..................................................................................... 40 
Figura 6: Alinhamento de diferentes membros de três classes de PAMs com 
conservação estrutural apesar da variação na sequência. As pontes dissulfeto 
variáveis são mostradas em vermelho. Em laranja estão assinaladas as pontes 
classe-específicas. ........................................................................................... 42 
Figura 7: Sumário de etapas de pré-filtragem do banco. O número de sequências 
resultante está descrito à direita de seu respectivo passo. As etapas estão 
numeradas na ordem de conclusão. ................................................................ 47 
Figura 8: Sumário de etapas de avaliação automática do banco. O número de 
sequências resultante está descrito à direita de seu respectivo passo. O passo 7 
se refere a avaliação manual das sequências remanescentes. As etapas estão 
numeradas na ordem de conclusão. ................................................................ 49 
Figura 9: Estrutura final dos peptídeos após fechamento das pontes. À esquerda 
miticina B, defensina de molusco e a direita MiAMP-2b, alpha helical hairpin. As 
 
 
 
 
pontes dissulfeto são mostradas no modelo de esferas e varetas. A imagem foi 
gerada através do Pymol 1.6............................................................................ 54 
Figura 10: RMSD do backbone durante o tempo de simulação de 300ns. A 
variação foi plotada tendo como ponto inicial a estrutura em 0ns dos respectivos 
peptídeos. À esquerda miticina B, defensina de molusco e a direita MiAMP-2b, 
alpha helical hairpin. ......................................................................................... 55 
Figura 11: Ratio mean square frequence (RMSF) da estrutura após 300ns. A 
variação foi plotada na estrutura à 0ns dos respectivos peptídeos. À esquerda 
miticina B, defensina de molusco e a direita MiAMP-2b, alpha helical hairpin. O 
grau de movimentação está representado pela cor, sendo que, quando mais 
próximo de vermelho, maior a variação. Sendo assim, cores quentes 
reprensentam maior variação. A imagem foi gerada através do Pymol 1.6. .... 56 
Figura 12: Estrutura final após 300ns de simulação (Parte superior) de miticina 
B (Parte superior esquerda) e MiAMP-2b (Parte superior direita). As pontes 
dissulfeto são mostradas em esferas e varetas. A visualizações foram feitas por 
meio do Pymol v1.6. Variação estrutural de miticina B e MiAMP-2b no decorrer 
do tempo de simulação (Parte inferior). As cores representam diferentes tipos de 
estrtura secundária que são representados no seguinte padrão: coil em branco; 
Fitas β em vermelho; β bridges em preto; bends em verde; turns em amarelo; α-
hélices em azul, hélices π em roxo e hélices 3-10 em cinza. ............................. 58 
Figura 13: Estrutura final após fechamento das pontes. As cisteínas estão 
assinaladas por cores correspondentes às pontes, ou seja, as cisteínas 
assinaladas na mesma cor formam pontes entre si. A císteína na posição 35 
pode ser responsável pela conexão com a outra subunidade do dímero. Na parte 
 
 
 
 
inferior é ilustrado o duplo padrão STP. A imagem foi gerada através do Pymol 
1.6. ................................................................................................................... 61 
Figura 14: Análise do RMSD do backbone deCRS4C-2b durante o tempo de 
simulação de 300ns. A variação foi plotada tendo como ponto inicial a estrutura 
em 0ns dos respectivos peptídeos. .................................................................. 62 
Figura 15: RMSF da estrutura de CRS4C-2b após 300ns. A variação foi plotada 
na estrutura à 0ns do peptídeo (esquerda). O grau de movimentação é 
representado pela cor, sendo que, quando mais próximo de vermelho, maior a 
variação. Sendo assim, cores quentes reprensentam maior variação. A imagem 
foi gerada através do Pymol 1.6. Gráfico de movimentação por resíduos (direita). 
A movimentação é mostrada em angstroms. ................................................... 63 
Figura 16: Variação estrutural do peptídeo no decorrer do tempo de simulação 
(esquerda). As cores represntam diferentes tipos de estrtura secundária que são 
representados no seguinte padrão: coil em branco; Fitas β em vermelho; β 
bridges em preto; bends em verde; turns em amarelo; α-hélices em azul, hélices 
 em roxo e hélices 3-10 em cinza. Estrutura final após 300ns de simulação 
(direita). As pontes dissulfeto são mostradas em esferas e varetas. A 
visualizações foram feitas por meio do Pymol v1.6. ......................................... 64 
Figura 17: Estrutura final de Za-LTP4 e Za-BB1. À esquerda Za-LTP4, LTP com 
apenas três pontes e a Za-BB1, β-barrelina com uma só ponte. No caso de Za-
LTP4 o lipídeo (Lisofosfatidilglicerol) utilizado é proveniente do modelo usado 
como molde e é mostrado no modelo de varetas. As pontes dissulfeto são 
mostradas no modelo de esferas e varetas. A imagem foi gerada através do 
Pymol 1.6. ........................................................................................................ 67 
 
 
 
 
Figura 18: RMSD do backbone de Za-LTP4 e Za-BB1 durante o tempo de 
simulação de 300ns. A variação foi plotada tendo como ponto inicial a estrutura 
em 0ns dos respectivos peptídeos. À esquerda Za-LTP4 e a direita Za-BB1. . 68 
Figura 19: RMSF de todos os resíduos de Za-LTP4 e Za-BB1 durante o tempo 
de simulação de 300ns. A variação foi plotada tendo como ponto inicial a 
estrutura em 0ns dos respectivos peptídeos. À esquerda Za-LTP4 e a direita Za-
BB1. ................................................................................................................. 68 
Figura 20: Estrutura final após 300ns de simulação de Za-LTP4 e Za-BB1. 
Variação estrutural dos peptídeos Za-LTP4 (cima) e Za-BB1 (baixo) no decorrer 
do tempo de simulação. As cores representam diferentes tipos de estrutura 
secundária que são representados no seguinte padrão: coil em branco; Fitas β 
em vermelho; β bridges em preto; bends em verde; turns em amarelo; α-hélices 
em azul, hélices em roxo e hélices 3-10 em cinza. Estrutura final após 300ns de 
simulação (direita). As pontes dissulfeto são mostradas em esferas e varetas. A 
visualizações foram feitas por meio do Pymol v1.6. ......................................... 69 
 
 
 
 
 
 
LISTA DE TABELAS 
 
Tabela 1: Principais servidores e programas para predição de atividade 
antimicrobiana e seus respectivos treinamentos e 
acurácia.............................................................................................................31
Tabela 2: Principais servidores de modelagem por threading e ab initio e 
descrição dos seus respectivos métodos..................................................34 
Tabela 3: Resumo de metodologias que utilizaram modelagem e/ou dinâmica 
molecular para identificação de proteínas em bancos de dados....................37 
Tabela 4: Resumo das validações da modelagem molecular de miticina B e 
MiAMP-2b..........................................................................................................51 
Tabela 5: Resumo das validações da modelagem molecular de Za-LTP4 e Za-
BB1....................................................................................................................63 
Tabela 6: Scores de predição de atividade antimicrobiana de Za-LTP4 e Za-BB1 
gerados pelos quatro algorítmos de CAMP. Valores acima de 0,5 caracterizam o 
peptídeo como PAM. As siglas se referem, respectivamente, a Support Vector 
machine, Random Forest, Artificial Neural Network e Discriminant Analysis......67 
 
 
. 
 
 
 
 
 
 
SUMÁRIO 
1. INTRODUÇÃO ...................................................................................................... 18 
2. REVISÃO DA LITERATURA ............................................................................. 20 
2.1 RESISTÊNCIA BACTERIANA .................................................................... 20 
2.2 PEPTÍDEOS ANTIMICROBIANOS ............................................................ 22 
2.3 PEPTÍDEOS CONTENDO TRÊS PONTES SEQUENCIAIS ................. 24 
2.4 IDENTIFICAÇÃO DE PAMS EM BANCOS DE DADOS ........................ 25 
2.4.1 Identificação direta no banco de dados ........................................ 26 
2.4.2 Predições de atividade antimicrobiana ......................................... 30 
2.4.3 Predições estruturais ......................................................................... 34 
3. JUSTIFICATIVAS ................................................................................................ 44 
4. OBJETIVO ............................................................................................................. 45 
4.1 OBJETIVO GERAL ....................................................................................... 45 
4.2 OBJETIVOS ESPECÍFICOS ....................................................................... 45 
5. METODOLOGIA ................................................................................................... 46 
5.1 IDENTIFICAÇÃO DE VARIANTES POR THREADING .......................... 46 
5.1.1 PRÉ-FILTRAGEM DOS DADOS ......................................................... 46 
5.1.2 MODELAGEM MOLECULAR .............................................................. 47 
5.1.3 SIMULAÇÕES DE DINÂMICA MOLECULAR ................................... 47 
5.2 IDENTIFICAÇÃO DE STPS ........................................................................ 48 
5.2.1 PRÉ-FILTRAGEM DOS BANCOS DADOS ....................................... 48 
 
 
 
 
5.2.2 MODELAGEM MOLECULAR .............................................................. 49 
5.3 APLICAÇÃO DAS METODOLOGIAS NO TRANSCRIPTOMA DE 
ZANTEDESCHIA AETHIOPICA ............................................................................ 50 
5.3.1 PRÉ-FILTRAGEM DOS DADOS ......................................................... 50 
5.3.2 MODELAGEM MOLECULAR E AVALIAÇÃO DE CONSERVAÇÃO 
ESTRUTURAL ...................................................................................................... 51 
5.3.3 PREDIÇÃO DE ATIVIDADE ANTIMICROBIANA ............................. 51 
6. RESULTADOS ..................................................................................................... 52 
6.1 IDENTIFICAÇÃO DE VARIANTES ............................................................ 52 
6.1.1 PRÉ-FILTRAGEM DO BANCO ........................................................... 52 
6.1.2 SIMULAÇÕES DE DINÂMICA MOLECULAR ................................... 54 
6.2 IDENTIFICAÇÃO DE STPS ........................................................................ 59 
6.2.1 SCREENING COMPUTACIONAL ...................................................... 59 
6.2.2 MODELAGEM MOLECULAR E PADRÃO DE PONTES ................ 60 
6.2.3 MANUTENÇÃO ESTRUTURAL DURANTE AS SIMULAÇÕES DE 
DINÂMICA MOLECULAR ................................................................................... 61 
6.3 APLICAÇÃO DAS METODOLOGIAS NO TRANSCRIPTOMA DE 
ZANTEDESCHIA AETHIOPICA ............................................................................ 65 
6.3.1 PRÉ-FILTRAGEM DOS DADOS ......................................................... 65 
6.3.2 BUSCAPOR PAMS NO TRANSCRIPTOMA DE Z. AETHIOPICA65 
6.3.3 SIMULAÇÕES DE DINÂMICA MOLECULAR ................................... 67 
6.3.4 PREDIÇÕES DE ATIVIDADE ANTIMICROBIANA .......................... 70 
 
 
 
 
7. DISCUSSÃO ......................................................................................................... 71 
8. CONCLUSÃO ....................................................................................................... 80 
9. REFERÊNCIAS .................................................................................................... 81 
10. APÊNDICE A – PRODUÇÃO ACADÊMICA ............................................... 93 
11. APÊNDICE B – ARTIGOS SUBMETIDOS PARA PUBLICAÇÃO .......... 99 
12. APÊNDICE C – PRÉ-FILTRAGEM DOS DADOS (SIMULAÇÕES DE 
50NS) ........................................................................................................................... 100 
13. APÊNDICE D – SEQUÊNCIAS SELECIONADAS APÓS AS ETAPAS 
DE PRÉ-FILTRAGEM DOS DADOS ..................................................................... 103 
18 
 
 
 
1. INTRODUÇÃO 
Diversas bactérias podem ser prejudiciais à saúde humana, seja pela 
produção de metabólitos e toxinas ou pelo contágio direto (CDC, 2015). Devido 
ao uso contínuo de antibióticos e o desenvolvimento de resistência por parte 
desses microrganismos, atualmente não existem tratamentos eficazes para 
muitas infecções, gerando a necessidade de desenvolvimento de novas 
moléculas de controle e combate (CORONA; MARTINEZ, 2013). Nesse âmbito, 
os peptídeos antimicrobianos (PAMs) têm sido propostos como uma alternativa 
no controle de infecções causadas por microrganismos resistentes. Os PAMs 
são, geralmente, moléculas anfipáticas, de carga líquida positiva (de +3 a +9) e 
com tamanho de até 100 aminoácidos. Essas moléculas podem estar presentes 
em quase todos os organismos e são tidos como a primeira linha de combate às 
infecções, atuando como parte da defesa inata dos seres vivos, sendo ativos 
contra, por exemplo, bactérias, fungos e vírus (GANZ, 2003). 
Dentre os diferentes PAMs destacam-se os STPs (Sequential Tri-disulfide 
peptides), peptídeos estabilizados por pontes dissulfeto conhecidas por sua 
toxicidade à diversos organismos, funcionando como defesa natural em seus 
hospedeiros nativos contra potenciais patógenos (LEWIS; GARCIA, 2003). Essa 
classe de peptídeos inclui ciclótides, toxinas, knottins e CSαβ-defensinas, 
compreendendo uma grande parcela de famílias de PAMs, estando presente em 
vários grupos de seres vivos como plantas, fungos e insetos. Apesar da grande 
distância entre os membros dos STPs, esse grupo apresenta um motivo de 
cisteína compacto formado por três pontes sequenciais (Cys1-Cys4, Cys2-Cys5, 
Cys3-Cys6), conferindo estabilidade às moléculas (ISLAM et al., 2015). Além 
dessas três pontes, esse grupo pode apresentar pontes adicionais, as quais 
variam em quantidade e posição, dependendo do organismo de origem (ZHU et 
al., 2008). Apesar da variação em nível de sequência e das pontes adicionais, 
esse grupo apresenta grande conservação estrutural. Essas moléculas 
apresentam grande atividade contra bactérias Gram-positivas, sendo candidatos 
a novos fármacos. Existe também a possibilidade de alguns desses peptídeos 
apresentarem outros tipos de atividades, caracterizando-os como multifuncionais 
(FRANCO et al., 2011). 
19 
 
 
 
Na era pós-genômica, com o aumento do número de sequências 
depositadas em bancos públicos, bem como o desenvolvimento de diversas 
técnicas de análise desses dados, a identificação de PAMs a partir de bancos de 
dados tem ganhado atenção, se tornando uma ramificação da genômica 
estrutural e bioinformática. Ainda assim, a maior parte das sequências 
depositadas em bancos permanece sem qualquer tipo de avaliação funcional. 
Isto se deve, em parte, ao fato de a maioria das buscas e avaliações em bancos 
se basearem apenas na busca pela sequência (MULVENNA et al., 2006; ZHU et 
al., 2006; PORTO et al., 2014), sendo as informações estruturais apenas usadas 
como validação adicional (MULVENNA et al., 2006; PORTO et al., 2012; 2014). 
Entretanto, a modelagem molecular pode ser utilizada na busca direta de 
peptídeos que pertencem às classes já descritas, além de proporcionar a 
identificação de homólogos distantes. Isso pode ser possível uma vez que em 
diversas famílias de PAMs, apesar da grande variação em nível de sequência, 
há conservação estrutural (ZHU et al., 2005). Desta forma, o objetivo do presente 
trabalho consiste em desenvolver duas novas metodologias de identificação de 
PAMs por meio de predições estruturais para a identificação em bancos de 
sequências, incluindo dados genômicos e transcriptômicos. 
 
20 
 
 
 
2. REVISÃO DA LITERATURA 
2.1 RESISTÊNCIA BACTERIANA 
Bactérias são microrganismos versáteis que participam de diversas 
interações biológicas com quase todos os tipos de seres vivos (TORTORA et al., 
2012). Estes organismos podem viver em condições variadas e desempenhar 
papéis importantes na sobrevivência de seus hospedeiros, gerando interações 
consideradas harmônicas por trazerem benefícios a ambos os indivíduos 
participantes. Entretanto, uma grande parcela de bactérias pode ser patogênica 
a seres humanos, gerando infecções, que, em alguns casos, podem até levar 
seus hospedeiros a óbito. Por esse motivo, vários têm sido os esforços em gerar 
substâncias capazes de combater e prevenir o desenvolvimento de infecções. 
Os antibióticos surgiram como uma forma de combate a microrganismos 
patogênicos. A partir da descoberta da penicilina em 1929, uma gama de 
antibióticos foi desenvolvida (e.g. estreptomicina, neomicina e eritromicina) 
(WAKSMAN; WOODRUFF, 1943; WAKSMAN; LECHEVALIER, 1949; 
MCGUIRE et al., 1949). Entretanto, o uso contínuo desses antibióticos 
combinado à capacidade de adaptação bacteriana, aos poucos geraram 
patógenos resistentes a essas moléculas (CORONA; MARTINEZ, 2013). 
A resistência a antibióticos pode ser definida como a capacidade de um 
organismo em resistir a moléculas originalmente efetivas no tratamento de 
infecções causadas por ele, segundo a Organização Mundial da Saúde (World 
Health Organization; WHO, 2015). Essa resistência consiste em um mecanismo 
natural de sobrevivência. Entretanto, o uso de antibióticos de forma inadequada 
ou indiscriminada gera uma pressão seletiva, acelerando o processo e 
favorecendo o desenvolvimento e proliferação de bactérias resistentes. 
Ademais, o desenvolvimento e propagação de resistência por parte de bactérias 
se agrava pela capacidade desses microrganismos de compartilhar plasmídeos 
e outros fragmentos de DNA com outras bactérias, assim como sua alta taxa de 
mutação e inserções de material genético por bacteriófagos (ALEKSHUN; LEVY, 
2007). Tais mecanismos se tornam ainda mais preocupantes, se analisada a 
taxa de novos antibióticos que chegam ao mercado (Figura 1). Em 2014, por 
21 
 
 
 
exemplo, somente quatro novos antibióticos foram aprovados para 
comercialização pelo FDA (Food and Drug Administration, EUA) (VENTOLA, 
2015). Em contraste, a resistência antimicrobiana tem evoluído rapidamente, 
sendo um problema constante em tratamentos a infecções (PFEIFER et al., 
2010), sendo necessárias, cada vez mais, altas doses de antibióticos e, por 
vezes, combinações de diferentes compostos para maior eficácia do tratamento. 
Figura 1: Número de antibióticos desenvolvidos e aprovados para 
comercialização pelo FDA no intervalo de 1980-2014. No eixo horizontal estão 
representados os intervalos de quatro anos e no eixo vertical está representado 
o número de moléculas desenvolvidas e aprovadas para comercialização. 
Adaptado de Ventola (2015). 
 
Atualmente existem bactérias que podem ser resistentes a vários 
antibióticos. Dentre estas podem ser citadas como cepas de Staphylococcus 
aureus e Klebsiella sp. resistentes à aminoglicosídeose β-lactâmicos, 
respectivamente (BUSH et al., 2001; BREIDENSTEIN et al, 2011), bem como 
cepas resistentes à carbapenêmicos como KPCs (Klebsiella pneumoniae 
carbapnemase) e algumas cepas de Escherichia coli (CDC, 2016) ou resistentes 
à vancomicina como cepas de S. aureus (CETINKAYA et al., 2000). Esses 
microrganismos podem causar morbidade e óbitos, além do agravamento do 
quadro clínico de vários pacientes. Nos Estados Unidos, por ano, 23 mil pessoas 
vão a óbito, infectadas por bactérias resistentes, segundo dados do CDC (Center 
for disease control and prevention) (CDC, 2015). Isso se repete na União 
Europeia, onde tem sido estimado que cerca de 25 mil pessoas sejam vítimas 
22 
 
 
 
fatais de infecções por bactérias resistentes por ano, segundo o ECDC 
(European Center for Disease Prevention and Control) (ECDC, 2015). No Brasil, 
vários casos com Klebsiella sp. e Staphylococcus sp. resistentes causam várias 
mortes em hospitais (OLIVEIRA et al., 2010). Outro fator que pode acarretar 
maior preocupação são os pacientes em Unidades de Tratamento Intensivo 
(UTIs). Entre 2005 e 2008, aproximadamente 20% desses pacientes sofreram 
infecção hospitalar e, destes, 10% foram a óbito (OLIVEIRA et al., 2010). Isso 
ocorre devido ao fato de pacientes em unidades de tratamento se encontram 
mais susceptíveis a esses patógenos devido a sua baixa imunidade, fomentando 
o fato de 60% dos surtos infecciosos iniciarem em UTIs (OLIVEIRA et al., 2010). 
Além dos riscos à saúde, os gastos com tratamentos podem chegar a 20 bilhões 
de dólares no mundo segundo Ventola (2015). Deste modo, novas alternativas 
de combate a esses microrganismos são necessárias. 
2.2 PEPTÍDEOS ANTIMICROBIANOS 
Nesse cenário, os peptídeos antimicrobianos (PAMs) têm sido propostos 
como uma alternativa no controle de bactérias resistentes. Os PAMs podem ser 
considerados a primeira linha de combate às infecções, atuando como parte da 
defesa inata de diversos organismos como plantas, animais e fungos (GANZ, 
2003). Essas moléculas atuam protegendo as superfícies internas e externas do 
hospedeiro, tendo sido demonstradas atividades contra vários tipos de 
microrganismos como bactérias, vírus e fungos além de atividade 
imunomodulatória e antitumoral (NIJNIK; HANCOCK, 2009). Em relação às 
características físico-químicas, os PAMs podem ser anfipáticos, com carga 
líquida positiva de +3 a +9 e tamanho variando entre 12 e 100 aminoácidos 
(SILVA et al., 2011). 
Os PAMs podem ser divididos em grupos, que são organizados 
baseando-se em suas estruturas (SILVA et al. 2011) ou na presença/ausência 
de pontes dissulfeto (BROGDEN, 2005) (Figura 2). Estruturalmente, podemos 
dividir os PAMs em quatro grupos: (i) hélices α, como as catelicidinas (WANG, 
2012); (ii) folha β, como α-defensinas (WOMMACK et al., 2012); (iii) estruturas 
estendidas, como a indocidina (ROZEK et al., 2003) e (iv) estruturas mistas como 
23 
 
 
 
CSαβ-defensinas (MEINDRE et al., 20143), compostas por mais de um tipo de 
estrutura (Figura 2). 
Figura 2: Divisão dos PAMs em grupos utilizando estrutura terciaria. Estrutura 
em Hélice α: LL-23 (PDB ID: 2LMF), uma catelicidina humana; Fita β: HD5 (PDB 
ID: 2LXZ), uma α-defensina humana. Estrutura Mista: AhPDF1 (PDB ID: 2M8B), 
uma CSαβ-defensina de Arabidopsis halleri; estrutura mista: Indolicidina (PDB 
ID: 1QXQ), peptídeo de estrutura desordenada proveniente de Bos taurus. As 
pontes dissulfeto são mostradas em esferas e varetas. 
 
Os PAMs, segundo Brand et al. (2012), podem ainda ser divididos em: 
encriptados, que correspondem a trechos de sequências maiores que podem ou 
não ser clivados por meio de proteólise (BRAND et al., 2012); naturais, que 
correspondem a peptídeos produzidos por genes dedicados em organismos 
(CÂNDIDO et al., 2011; PINTO et al., 2011; RIBEIRO et al., 2012); e artificiais, 
que correspondem a peptídeos desenhados por diferentes tipos de metodologia 
(LOOSE et al., 2006; CHERKASOV et al., 2009; CARDOSO et al., 2016). 
24 
 
 
 
Os PAMs têm diversos mecanismos de ação intracelular e/ou extracelular, 
variando de acordo com as características físico-químicas, alvo, bem como 
relacionado à concentração do peptídeo (PAREDES-GAMERO et al., 2012). 
Entre os mecanismos extracelulares estão degradação e/ou formação de 
diferentes tipos de poros na membrana e outros danos à membrana celular 
(BROGDEN, 2005). Já de forma intracelular pode-se destacar a inibição de 
formação de parede celular (YOUNT; YEAMAN, 2013) e a inibição da síntese de 
proteínas e material genético (CHO et al., 2009). Além dessas características, 
essas moléculas podem se apresentar na forma de monômeros, dímeros ou até 
outros oligômeros (RAJABI et al., 2012). 
Atualmente apenas dois antibióticos comercializados são derivados de 
PAMs. A polimixina B, derivado de fonte bacteriana e a gramicidina S 
(BRADSHAW, 2003). A polimixina B tem sido usada em conjunto com outros 
antibióticos como gramicidina, neomicina ou bacitracina; e pode ser aplicada em 
tratamentos de conjuntivite e outras doenças nos olhos, sendo de uso tópico, 
apesar de também demonstrar atividade quando administrado via oral 
(BRADSHAW, 2003). Já a gramicidina S apresenta uso tópico e tem sido 
aplicada para tratamentos de feridas superficiais e úlceras genitais. Esse 
fármaco apresenta mais efetividade contra bactérias Gram-positivas, mas 
também é ativo contra Gram-negativas (BRADSHAW, 2003). Ainda assim, PAMs 
têm algumas limitações, como a degradação proteolítica e a toxicidade, sendo 
os peptídeos ou desativados pelo organismo ou causadores de reações 
adversas ao paciente (BRADSHAW et al., 2003). Além disso, algumas dessas 
moléculas podem causar alergias, como a polimixina B, por exemplo, tornando 
inviável sua aplicação de forma ampla, podendo ser uma limitação do uso. 
2.3 PEPTÍDEOS CONTENDO TRÊS PONTES SEQUENCIAIS 
Dentre os peptídeos antimicrobianos com conservação de características 
estruturais apesar da variação nas sequências podemos citar os peptídeos de 
três pontes sequenciais (Sequential tri-disulfide peptides, STP). Essas moléculas 
podem ser conhecidas por sua toxicidade à diversos tipos de organismos, 
funcionando como defesa natural em seus hospedeiros nativos contra potenciais 
patógenos (LEWIS; GARCIA, 2003). Essa classe de peptídeos inclui ciclótides, 
25 
 
 
 
toxinas de artrópodes, knottinas e CSαβ-defensinas, compreendendo uma 
grande parcela de famílias de PAMs (Figura 3). Apesar de bastante diferentes 
entre si, todos os membros dos STPs apresentam um motivo de cisteína 
compacto formado por três pontes sequenciais (Cys1-Cys4, Cys2-Cys5, Cys3-
Cys6), característica que confere estabilidade e adaptação às moléculas (ISLAM 
et al., 2015). STPs podem ainda ser divididos em três grupos principais incluindo 
os ciclotídeos, com N- e C-terminal ligados (COLGRAVE; CRAIK, 2004); ICKs 
(Inhibitor cysteine knotts) ou knotinas, onde a disposição das pontes forma uma 
espécie de nó, uma vez que a terceira ponte penetra entre as duas outras 
(MATSUMARA et al., 1989); e “STPs não atados” que apresentam as pontes 
sem a formação de “nós” na disposição (POSSANI et al., 1999) (Figura 3). 
 
Figura 3: Diversidade estrutural de STPs. As três diferentes famílias estruturais 
de STPs: “STPs não atados” representada por lucifesina (PDB ID: 2LLD); 
ciclótides representada por cicloviolacina O1 (PDB ID: 1NBJ); e ICKs 
representada por conotoxina GS (PDB ID: 1AG7). 
 
2.4 IDENTIFICAÇÃO DE PAMS EM BANCOS DE DADOS 
De forma canônica, a identificação de PAMs se dá pela exploração de 
extratos naturais bioativos e posterior análise e purificação dos mesmos. 
26 
 
 
 
Todavia, os custos e o tempo gasto com screenings e análises desses extratos 
podem dificultar a busca e prospecção dessas moléculas. Com o aumento do 
número de sequências depositadas em bancos públicos, bem como o 
desenvolvimento de diversas técnicas deanálise desses dados, a identificação 
de PAMs a partir de bancos de dados tem ganhado atenção, se tornando uma 
ramificação da genômica estrutural e bioinformática. Na era pós genômica, 
grandes quantidades de dados têm sido depositadas em diferentes bancos, 
disponibilizado um número exorbitante de sequências de diferentes origens. 
Ainda assim, pouco dessas novas informações chegam a gerar conhecimento, 
sendo a maior parte das sequências depositadas de forma automática e sem 
qualquer tipo de avaliação funcional. No UniProt (Universal Protein Resource) 
(http://www.uniprot.org/), por exemplo, um dos maiores bancos públicos de 
proteínas do mundo, 98,9% das sequências permanecem anotadas 
automaticamente, e destas, muitas estão descritas como hipotéticas, não 
nomeadas ou desconhecidas (Dados referentes a maio de 2016). As abordagens 
utilizadas para a identificação de PAMs em bancos de dados podem ser divididas 
em dois grupos: (i) buscas baseadas na similaridade de sequência, como 
alinhamentos locais e correspondência de padrão; e (ii) uso de preditores de 
atividade baseados em métodos de aprendizado de máquina. 
 
2.4.1 Identificação direta no banco de dados 
Dentre as buscas baseadas na sequência destacam-se as expressões 
regulares (RegEx), que identificam conjuntos de caracteres através de uma 
expressão de padrão em caracteres fixos, ambíguos e coringa (Figura 4), e os 
perfis HMM (Hidden Markov Model), que, de forma similar às RegEx, identificam 
conjuntos de caracteres, porém com atribuição de probabilidades às posições 
variáveis (Figura 4) (EDDY, 1998). Essas abordagens têm sido úteis na anotação 
de tais sequências e uma ferramenta valiosa, diminuindo custos e tempo na 
descoberta de novos agentes antimicrobianos promissores. 
http://www.uniprot.org/
27 
 
 
 
Figura 4: Dois principais tipos de metodologias de identificação por 
correspondência de padrão. À esquerda a representação de uma RegEx dividida 
em caractere coringa, que representa qualquer aminoácido; caractere fixo, onde 
só há correspondência ao aminoácido representado; e caractere Ambíguo, onde 
há correspondência a qualquer dos aminoácidos entre colchetes. Entre 
parênteses está representada a extensão do caractere coringa, sendo, nesse 
caso de 5-6 aminoácidos. À direita a representação gráfica de um HMM, onde, 
de forma semelhante à RegEx há caracteres coringa, ambíguos e fixos. 
Entretanto há probabilidade atribuída à cada posição, neste caso representado 
pelo tamanho da letra, ou seja, aminoácidos representados por letras mais 
extensas têm maior probabilidade. O modelo de HMM foi obtido do Pfam. 
 
 
Dentre as metodologias de identificação de PAMs em bancos de dados, 
a busca pela sequência tem sido a abordagem mais utilizada e também a mais 
conveniente. Isso ocorre uma vez que as proteínas estão depositadas nos 
bancos como sequências além da disponibilidade de várias ferramentas de 
comparação como BLAST (ALTSCHUL, et al. 1996), FASTA (PEARSON, 1990) 
e BLAT (KENT, 2002). Os tipos de busca por sequência podem ser divididos em 
dois grupos principais: alinhamentos locais e buscas por correspondência de 
padrão, sendo a metodologia mais comum o alinhamento local. Nessa 
abordagem podem ser utilizadas múltiplas iterações de alinhamentos locais até 
que nenhuma nova sequência seja encontrada. Além disso, outros filtros podem 
ser utilizados incluindo presença de peptídeo sinal e/ou padrões nas sequências. 
Através dessa metodologia, Mulvenna e colaboradores (2006) 
identificaram novas ciclótides a partir do banco de proteínas não redundantes do 
28 
 
 
 
NCBI. Para tal, os autores fizeram buscas automáticas através do BLAST. Essa 
metodologia foi combinada à predição de peptídeo sinal e buscas por expressão 
regular (CX3,6CX4,6CX4,7XCXCX4,7CX1,10 e todas as cinco possíveis 
permutações) (MULVENNA et al., 2006). Nesse estudo, 265 sequências foram 
preditas como ciclotide-like e dessas, 22 pertencentes à Poaceae (MULVENNA 
et al., 2006). Além disso, esse trabalho demonstrou a distribuição de ciclotídeos 
nas diversas famílias de plantas, em especial em Poaceae, na qual só havia sido 
descrito anteriormente por Basse et al. (2005). Entretanto, não foram feitos testes 
ou predições quanto de atividade antimicrobiana dos peptídeos identificados. 
De forma similar, Zhu (2008) identificou seis novas famílias de defensin-
like peptides em fungos). Neste trabalho, por sua vez, a busca foi feita através 
do TBLASTN em um banco com 53 espécies de fungos, usando a sequência da 
plectasina como query (ZHU, 2008). Foram então selecionadas todas as 
sequências com peptídeo sinal e a assinatura da superfamília de CS-αβ 
defensinas (CX2,18CX3CX2,10[GAPSIDERYW]XCX4,17CXC) previamente descrita 
por Zhu et al. (2005). As etapas resultaram na predição de 25 defensin-like 
codificados por 18 genes, destes, cinco estavam anteriormente anotados como 
hipotéticos (ZHU, 2008). Assim como no trabalho de Mulvenna et al. (2006), não 
foram feitas predições de atividade antimicrobiana, sendo inferido apenas a 
distribuição de genes semelhantes à defensinas em fungos (ZHU, 2008). Apesar 
disso, alguns anos após, o mesmo procedimento foi aplicado pelo autor e 
colaboradores em um banco atualizado (134 espécies de fungos) sendo inferidos 
outros 17 genes codantes de 13 novos peptídeos defensin-like (ZHU et al., 
2012). Desses novos peptídeos a micasina, proveniente do fungo Microsporum 
canis, foi sintetizada e testada, sendo capaz de inibir o crescimento bacteriano 
(ZHU et al., 2012). 
Estes trabalhos demonstraram a eficácia de alinhamentos locais na 
identificação de PAMs em bancos de dados. Apesar disso, essa abordagem não 
se mostra eficaz em buscas mais profundas, sendo necessário o uso de outras 
metodologias baseadas em correspondência de padrão (PORTO et al., 2012). 
Ambas as metodologias têm sido aplicadas de forma semelhante na 
identificação de PAMs, sendo necessário um alinhamento entre sequências 
homólogas e posterior submissão deste em ferramentas como PRATT 
29 
 
 
 
(JONASSEN, 1997) e TEIRESIAS (RIGOUTSOS; FLORATOS, 1998), e 
HHMMER (FINN et al., 2011), para elaboração de RegEx, perfis HMM, 
respectivamente. Os padrões podem ainda ser gerados ou editados 
manualmente (no caso de RegEx), e/ou selecionados a partir de bancos como 
Pfam (FINN et al., 2014) e PROSITE (SIGRIST et al., 2013), para HMM e RegEx, 
respectivamente. As buscas podem ser feitas com adição de validações 
adicionais, tais como predição de domínios conservados e predições de peptídeo 
sinal. Essas abordagens têm sido utilizadas amplamente para identificação de 
PAMs estabilizados por pontes dissulfeto (MULVENNA et al., 2006; 
SILVERSTEIN et al., 2007; PORTO et al., 2012). 
Essa estratégia foi utilizada por Porto et al. (2012) para identificação de 
peptídeos hevein-like. Neste estudo uma busca por alinhamento local foi feita 
inicialmente, mas não revelou novas sequências. Dessa forma, os resultados do 
alinhamento local foram utilizados para construção de uma RegEx através do 
Pratt que foi combinada ao motivo heveína do PROSITE gerando a expressão: 
CX4,5CC[GS]X2GXCGX[GST]X2,3[FWY]C[GS]X[AGS] (PORTO et al., 2012). 
Todas as sequências coletadas pela busca foram submetidas à predição de 
domínios conservados através do InterPro Scan. Quatro novas heveínas foram 
encontradas, sendo uma delas proveniente do fungo fitopatógeno 
Phaeosphaeria nodorum, a primeira proveniente de fungo. De forma adicional, 
todas as sequências preditas foram analisadas quanto à atividade 
antimicrobiana através de métodos de aprendizagem de máquina (PORTO et al., 
2012). Em outro estudo, Silverstein e colaboradores (2007) construíram perfis 
HMM para buscas de várias famílias de peptídeos estabilizados por pontes 
dissulfeto em plantas, como esnaquinas, tioninas e defensinas (SILVERSTEIN 
et al., 2007). A busca foi feita em um banco de ESTs (expressionsequence tag) 
de 33 espécies de plantas, totalizando 4.801.711 sequências. Cada sequência 
selecionada foi manualmente analisada quanto a presença de peptídeo sinal e 
extensão, sendo selecionadas sequências com menos de 111 aminoácidos 
(sequência madura) e com peptídeo sinal. Foram também selecionadas 
sequências com clara correspondência com sub-regiões dos alinhamentos 
gerados para a construção dos perfis HMM (SILVERSTEIN et al., 2007). Foram 
obtidas ao final das etapas 145.721 sequências que foram utilizadas para a 
30 
 
 
 
criação de diferentes HMMs para as classes analisadas (SILVERSTEIN et al., 
2007). Entretanto, buscas por correspondência de padrão se mostram mais 
sensíveis que alinhamentos locais para a identificação de PAMs em bancos de 
dados (PORTO et al., 2012). Entretanto, tais buscas apresentam menos 
seletividade, podendo haver múltiplos matches à mesma sequência 
(SILVERSTEIN et al., 2007). Sendo assim, são necessárias metodologias 
adicionais às buscas como predição de atividade antimicrobiana e predições 
estruturais para maior seletividade. 
Além de dados depositados em bancos públicos, essa metodologia pode 
ser utilizada para a busca e identificação de potenciais PAMs em transcriptomas 
e dados provenientes desse tipo de análise. Cândido e colaboradores (2014), 
por exemplo, identificaram, utilizado os padrões gerados por Silverstein et al. 
(2007), peptídeos antimicrobianos no transcriptoma de Zantedeschia aethiopica. 
Nesse trabalho, predições estruturais e predição de atividade antimicrobiana 
foram utilizados como validações adicionais à busca por correspondência de 
padrão (CÂNDIDO et al., 2014). De forma semelhante, Zhang e colaboradores 
(2015) identificaram, com o uso de RegEx 9.687 peptídeos ricos em cisteína no 
transcriptoma de Viola baoshanensis, incluindo ciclotídeos, taumatinas e 
proteínas de transferência de lipídeos. Ambos os trabalhos evidenciam a 
aplicabilidade de tais metodologias para a busca de PAMs em dados genômicos 
e trasncriptômicos. 
 
2.4.2 Predições de atividade antimicrobiana 
Os testes de atividade antimicrobiana têm sido a metodologia mais 
adequada para a seleção de moléculas bioativas. Entretanto, devido ao grande 
número de sequências coletadas em bancos, essa metodologia se torna 
impraticável. Sendo necessária uma pré-avaliação das sequências por meio de 
ferramentas computacionais. Nesse contexto, métodos de aprendizagem 
supervisionada de máquina têm sido usados para desenvolver modelos para 
predição de atividade antimicrobiana, pré-selecionando sequências com 
possível atividade. Atualmente, existem três sistemas de predição disponíveis 
31 
 
 
 
como programas autônomos ou hospedados em servidores online incluindo 
AntiBP, CAMP e CS-AMPPred (Tabela 1). 
32 
 
 
 
 
Tabela 1: Principais servidores e programas para predição de atividade antimicrobiana e seus respectivos treinamentos e acurácia. 
Preditor Descrição da metodologia Desvantagens Disponível em Referência 
AntiBP Esse preditor consiste em um modelo de máquina de vetor de 
suporte (SVM, Support Vector Machine) que utiliza os dados 
do N- e C-terminal para a predição de atividade antimicrobiana. 
O treinamento do sistema foi feito por meio de dois bancos, um 
positivo, com sequências de peptídeos antibacterianos de 15 
a 60 resíduos retirados do Swiss-Prot e um negativo, de 
peptídeos não secretados com a mesma variação de resíduos. 
Além desses, para o treinamento, foram retiradas sequências 
de N- e C-terminal de tamanhos variados (sequências de 5, 10 
e 15 resíduos) dos bancos iniciais. Em 2010, o sistema foi 
melhorado com ampliação do número de sequências no 
treinamento, ampliando a acurácia para 91,64%. 
Esse preditor leva em 
consideração somente sequências 
curtas (até 15 resíduos), o que o 
limita quando utilizado para busca 
de peptídeos naturais, sendo mais 
aplicável à procura de peptídeos 
encripitados. 
http://www.imtech.res.i
n/raghava/antibp/ 
LATA et al., 
2007;2010 
CAMP Preditor capaz de analisar sequências de tamanhos variáveis. 
Nesse trabalho foram utilizadas 275 características físico-
químicas para o treinamento do sistema. Quanto aos métodos 
de predição, CAMP utiliza random forest (RF), análise 
discriminante (Discriminant Analysis; DA) e SVM, sendo RF a 
de maior acurácia. Esse sistema também foi aprimorado 
recentemente, com um pequeno aumento de acurácia de 0,2% 
para RF, resultando em uma acurácia de 93,4%. 
Apesar de analisar sequências de 
tamanhos variáveis, este preditor 
apresenta duas limitações, a 
primeira delas é relacionada à 
ordem da sequência, que se for 
embaralhada terá a mesma 
predição da sequência original com 
um score levemente diferente e a 
segunda consiste no fato desse 
preditor ser demasiado generalista, 
perdendo acurácia em algumas 
classes (PORTO et al., 2012a). 
 
http://www.camp.bicnirr
h.res.in/ 
THOMAS 
et al., 2010; 
WAGHU et 
al., 2014 
33 
 
 
 
CS-
AMPPred 
Modelo de SVM desenvolvido utilizando características físico-
químicas para predição de atividade antimicrobiana de 
peptídeos exclusivamente estabilizados por cisteína. O 
sistema foi treinado com um banco de dados positivo, 
constituído de sequências contendo quatro ou mais resíduos 
de cisteína, com atividade antimicrobiana retirados do APD 
(Antimicrobial Peptides Database; WANG et al., 2009), 
formando um banco de 385 sequências de 16 a 90 resíduos, e 
um banco negativo retirado do PDB (Protein Data Bank) 
(PORTO et al., 2012b). Para a composição dos parâmetros de 
predição antimicrobiana foram selecionadas inicialmente nove 
características estruturais e físico-químicas que foram 
analisadas através de componente deixando cinco 
remanescentes, selecionadas por relevância estatística no 
banco positivo (PORTO et al., 2012a). A acurácia desse 
preditor consiste em90%. 
Esse preditor é específico para 
sequências com cisteínas que 
fazem pontes dissulfeto, fazendo 
com que as sequências inseridas 
para análise necessitem contê-las, 
aumentando a acurácia para esse 
grupo específico, sendo o modelo 
de maior acurácia para esse grupo 
(PORTO et al., 2012a). 
http://sourceforge.net/p
rojects/csamppred/ 
PORTO et 
al., 2012a 
 
 
34 
 
 
 
Os vários métodos de predição podem ser utilizados como etapa adicional 
na busca de PAMs em bancos, podendo ser determinantes na seleção de 
peptídeos promissores para testes in vitro e in vivo. Ainda assim, PAMs são 
moléculas bastante versáteis, variando tanto em relação à composição e 
características físico-químicas quanto em mecanismos de ação e alvo, sendo a 
predição antimicrobiana utilizada geralmente apenas como etapa adicional de 
buscas como descrito em PORTO et al. (2012b). Entretanto Brand e 
colaboradores (2012) utilizaram Kumal v1.0 para a identificação de PAMs 
encriptados em bancos de dados, sendo posteriormente sintetizados e testados 
in vivo. 
2.4.3 Predições estruturais 
Além das metodologias citadas, a modelagem molecular também pode 
ser utilizada para busca de PAMs em bancos de dados. Entretanto, essa 
metodologia não tem sido usada para busca direta em bancos de dados, sendo 
utilizada somente como validação adicional às buscas por padrão e/ou 
alinhamentos locais (MULVENNA et al., 2006; ZHU, 2008; ZHU et al, 2012). 
Através dessa abordagem é possível a identificação de homólogos distantes 
com baixa identidade à nível de sequência, desde que haja alta conservação 
estrutural (TOMCZAK et al., 2012). Baseando-se nisso, a modelagem possibilita 
a identificação de similaridades estruturais apesar da variação da estrutura 
primária e pode ser uma ferramenta útil na identificação de PAMs em bancos de 
dados (PORTO et al., 2014a). Para esse propósito existem duas técnicas 
incluindo a modelagem por threading e por ab initio (KHOR et al., 2015). 
Técnicas de threading predizem a estrutura 3D de uma sequência usando 
estruturas experimentalmente determinadas como molde. Essa abordagemindepende da similaridade entre as sequências, baseando-se na similaridade 
estrutural (GILLE et al., 2000). Enquanto isso a modelagem ab initio (também 
chamada de novo, livre ou modelagem baseada em parâmetros físicos) prediz 
estruturas usando uma função energética como guia da busca conformacional 
(LEE et al., 2009). Os principais recursos para modelagem ab initio e threading 
estão descritos no Tabela 2. 
35 
 
 
 
Tabela 2: Principais servidores de modelagem por threading e ab initio e descrição dos seus respectivos métodos. 
Método de 
Modelagem 
Servidor Descrição do Método Referência 
Threading 
FUGUE 
Utiliza perfis estruturais retirados do HOMSTRAD (MIZUGUEHI et al. 1998) para 
selecionar o melhor alinhamento com a sequência. O melhor template é 
selecionado para um algoritmo de programação dinâmica. 
SHI et al., 
2001 
PROSPECT2 
Utiliza a propensão de estrutura secundária, acessibilidade ao solvente, mutação 
de resíduos e potencial de contato par a par para otimização dos alinhamentos. 
XU; XU, 
2000 
SPARKS2 
Potencial estatístico de corpo único juntamente com alinhamentos de sequência. 
ZHOU; 
ZHOU, 
2004 
SP3 
Utiliza fragmentos da sequência para gerar perfis da sequência. Esses perfis são 
usados para gerar uma estrutura derivada que é utilizada para melhorar os 
alinhamentos. 
ZHOU; 
ZHOU, 
2005 
SAM-T02 
Faz um PSI-BLAST a partir da sequência query. Gera um HMM a partir dos 
alinhamentos múltiplos obtidos e seleciona o melhor molde através do algoritmo 
Viterbi. 
KARPLUS 
et al. 2003 
HHSEARCH 
Gera um perfil HMM para a sequência a ser predita e para os moldes. Os perfis 
são então alinhados e o melhor alinhamento é selecionado para a modelagem. 
SODING, 
2005 
LOMETS 
Utiliza todos os métodos de threading descritos acima além de mais três 
desenvolvidos para integrar o próprio servidor (PAINT, PPA-I e PPA-II). A 
seleção do melhor molde estrutural é feita por consenso estrutural de todos os 
WU; 
ZHANG, 
2007 
36 
 
 
 
métodos usados. A similaridade entre as estruturas é avaliada pelo TM-Score 
(ZHANG; SKOLNICK, 2004) 
I-TASSER 
Inicialmente utiliza o LOMETS para encontrar os melhores moldes estruturais. 
Essas estruturas são fragmentas e formam uma biblioteca de fragmentos. Esses 
fragmentos são montados gerando os modelos preditos. Após isso o BioLiP 
(YANG et al. 2013) é usado para fazer as predições funcionais. 
ZHANG, 
2008 
3D-Jury 
Utiliza vários servidores para gerar o banco de estruturas inicial. Essas estruturas 
iniciais são comparadas pelo Cα par a par até encontrar a melhor sobreposição. 
As melhores sobreposições são então analisadas pela ferramenta MaxSub tool 
(SIEW et al. 2000) para encontrar os pares de mesma folding. 
GINALSKI 
et al. 2003 
Ab initio 
QUARK 
A sequência avaliada é fragmentada em sequências de até 20 resíduos que são 
modelados separadamente a partir de estruturas elucidadas. Replica-exchange e 
simulações de Monte Carlo são utilizados para montar os fragmentos e gerar as 
estruturas completes. 
XU; 
ZHANG, 
2012 
ROSETTA 
A sequência a ser modelada e as estruturas elucidadas são fragmentadas e os 
fragmentos gerados alinhados. Os alinhamentos são então avaliados através de 
similaridade e distância para gerar as estruturas finais. 
SIMONS et 
al. 1997 
PEP-FOLD 
Faz simulações para gerar vários modelos da sequência alvo. Esses modelos 
são agrupados em clusters e os cinco melhores clusters são selecionados. 
MAUPETIT 
et al. 2009 
37 
 
 
 
Vale ressaltar que para modelagens ab initio parece ser necessário o uso 
de recursos adicionais para verificar a similaridade com outras estruturas, tais 
como DALI Server (HOLM, 2010) e/ou COFACTOR (ROY et al. 2012) para 
comparações entre as estruturas preditas e resolvidas, gerando hipóteses sobre 
a função das proteínas, proporcionando a identificação de homólogos distantes 
pelos alinhamentos estruturais. 
Para ambos os métodos de modelagem, tem sido crucial o uso de 
simulações de dinâmica molecular para avaliação dos modelos moleculares, 
adicionando mais confiabilidade às predições funcionais (PORTO et al., 2014a), 
principalmente no caso de modelos ab initio, onde apenas cerca de 20-25% se 
mantém após simulações de dinâmica molecular (RIGDEN, 2011; PORTO et al., 
2014a). Simulações de dinâmica molecular podem ser definidas como 
simulações computacionais de moléculas utilizando parâmetros baseados em 
leis da física mecânica. Na prática, essa metodologia proporciona a avaliação de 
modificações estruturais ao longo do tempo, bem como mudanças de 
flexibilidade e o movimento de diferentes átomos ou moléculas, tornando 
possível acessar estados temporais da estrutura. Assim, essa metodologia pode 
ser amplamente aplicada adicionando mais confiabilidade aos dados gerados 
(TOMCZAK et al., 2012; PORTO et al., 2012; 2014a; 2014b). Ainda assim, essa 
metodologia requer grande poder de processamento, necessitando de bastante 
tempo computacional, o que limita as simulações à apenas alguns nano ou 
microssegundos (KLEPEIS et al., 2009). 
Apesar das limitações, diversos trabalhos têm usado modelagem (ab 
initio/threading), alinhamento estrutural e dinâmica molecular para prever e 
avaliar estruturas a fim de elucidar a atividade de proteínas (Tabela 3). 
38 
 
 
 
Tabela 3: Resumo de metodologias que utilizaram modelagem e/ou dinâmica molecular para identificação de proteínas em bancos 
de dados. 
Abordagem Descrição da metodologia Resultado Referência 
Identificação de 
DUF’s com 
propriedades de 
ligação a DNA 
através de 
modelagem ab initio. 
Inicialmente todos os DUFs (Domain of Unknown Function) do Pfam foram 
coletados; foram selecionadas todas as sequências sem regiões 
transmembranares, tamanho de 30 a 100 aminoácidos e com domínios 
relacionados à ligação de DNA; a predição estrutural foi feita através do 
ROSETTA [56]; e a função foi predita através da análise do software 
DNA_BIND analyses (SZILAGYI; SKOLNICK, 2006). 
Trinta e duas proteínas 
com domínio de 
ligação a DNA. 
RIGDEN, 2011 
Identificação de 
quimiocinas humana 
através de 
modelagem por 
threading. 
Foram selecionadas, a partir do banco UniProt Knowledgebase (Realease 
14.9), sequências de Homo sapiens sem anotação functional e duas ou mais 
cisteínas; dessas foram selecionadas sequências: menos de 30% de 
similaridade com proteínas do PDB, com peptídeo sinal, sem regiões 
transmembranares e mais de 55 aminoácidos; foram feitos alinhamentos por 
threading com todas as 270 estruturas elucidadas com folding de quimiocina 
IL8-like, sendo selecionadas somente sequências que alinhavam com as 
estruturas; as sequências remanescentes foram analisadas pelo 
InterproScan; a modelagem molecular foi feita através do Modeller; e 
simulações de dinâmica molecular foram usadas para validação estrutural. 
Duas novas 
quimiocinas. 
TOMCZAK et 
al. 2012 
Identificação 
funcional de 
proteínas 
hipotéticas de 
Escherichia coli 
através de 
modelagem por 
threading e ab initio. 
Foi utilizado o banco de sequências não redundantes (nr) do NCBI; foram 
selecionadas sequências com: 30 a 100 aminoácidos, sem regiões 
transmembranares, sem similaridade com estruturas no PDB (menos de 30% 
de identidade), similaridade com proteínas de eucariotos (mais de 40% de 
identidade), ausência de domínios conservados, preditas para serem 
expressas e sem regiões desordenadas; a modelagem molecular (threading 
ou ab initio) foi feita através do LOMETS (WU; ZHANG, 2007) e QUARK (XU; 
ZHANG, 2012 ); alinhamentos estruturais foram feitos utilizando DALI Server 
Três sequências: uma 
com homologia 
distante com 
cupredoxinas, uma β-
barrel family e uma 
proteína de ligação à 
lipídeos. Entretanto só 
uma manteve a 
estrutura após 
PORTO et al., 
2014a 
39 
 
 
 
e COFACTOR; e simulações de dinâmica molecular foi utilizada para 
validação estrutural. 
simulação de dinâmica 
molecular em água 
40 
 
 
 
Tendo isso em consideração pode serpossível a aplicação dessas 
técnicas na busca também de PAMs, uma vez que, vários trabalhos têm 
mostrado que algumas classes de PAMs apresentam semelhanças estruturais 
entre si (SINGH et al., 2014; YEUNG et al. 2016) (Figura 5). 
Figura 5: Semelhança estrutural entre diferentes classes de PAMs. À esquerda 
no topo é mostrada a estrutura da Esnaquina-1 (PDB ID: 5E5Q), no centro a 
estrutura da α-1-purotionina (PDB ID: 2PLH) e à direita a EcAMP1 (PDB ID: 
2L2R). Tais estruturas apresentam um motivo estrutural helix-turn-helix 
estabilizado por pontes dissulfeto sequenciais. À esquerda abaixo a estrutura da 
Laterosporulina (PDB ID: 4OZK) e à direita a HD5 (PDB ID: 2LXZ). Ambas 
apresentam a estrutura dobrada em fitas β, formando uma folha β estabilizada 
por pontes dissulfeto. As pontes são apresentadas no modelo de esferas e 
varetas do Pymol v1.6. 
 
 
41 
 
 
 
Ademais, estudos têm demonstrado que apesar da variação nas 
sequências, em muitos casos a estrutura é conservada. Em CSαβ-defensinas, 
por exemplo, foi demonstrado que podem existir três, quatro ou cinco pontes 
dissulfeto. Essas pontes adicionais são variáveis e podem ser entre diferentes 
cisteínas pela estrutura, dependendo do peptídeo (Figura 6) (ZHU, 2008). 
42 
 
 
 
 Figura 6: Alinhamento de diferentes membros de três classes de PAMs com conservação estrutural apesar da variação na 
sequência. As pontes dissulfeto variáveis são mostradas em vermelho. Em laranja estão assinaladas as pontes classe-específicas. 
 
 
43 
 
 
 
Contudo, apesar da variação nas sequências não se observa diferença 
estrutural, sendo os motivos estruturais da família mantidos (ZHU, 2008). De 
forma semelhante, outras famílias de PAMs apresentam congruência estrutural 
apesar da variação na sequência. Thioninas, por exemplo, apresentam 
dobramento similar apesar dos mismatchs nas sequências, podendo ter três ou 
quatro pontes dissulfeto, mas sem alteração estrutural (Figura 6). Enquanto isso, 
ciclotídeos e inibidores de tripsina, como MCOTI-II, apresentam além da 
similaridade estrutural, o mesmo padrão de pontes (Figura 6). Tomando isso em 
consideração, seria possível identificar novos peptídeos estabilizados por pontes 
dissulfeto através da metodologia descrita por Tomczak et al. (2012) (Tabela 3). 
Dessa forma, as metodologias de busca por predições estruturais 
poderiam ser aplicadas para identificação de novos membros de STPs em 
bancos de dados, uma vez que apresentam grande conservação estrutural. Além 
disso, esses peptídeos apresentam grande variação no que concerne a 
sequência, o que dificulta a identificação de novos STPs através das 
metodologias tradicionais, tais como alinhamentos locais. Sendo assim, essa 
abordagem ampliaria a identificação de novas moléculas com esse potencial. 
Além disso, é possível e factível o desenvolvimento e aplicação dessas técnicas 
na identificação de novos PAMs em genomas e transcriptomas. 
 
 
44 
 
 
 
3. JUSTIFICATIVAS 
O desenvolvimento de resistência por parte de microrganismos 
patogênicos a antibióticos pode dificultar o tratamento de infecções gerando 
grandes problemas à saúde pública e gastos com tratamentos e internações. Os 
PAMs podem ser uma opção para tais casos, podendo ser uma alternativa no 
controle desses patógenos. Entretanto, a identificação convencional dessas 
moléculas muitas vezes requer dinheiro e tempo. Através de metodologias 
computacionais aliadas às grandes quantidades de dados depositados em 
bancos públicos pode ser possível selecionar sequências potenciais, encurtando 
o processo. Atualmente a identificação de PAMs em bancos se dá 
prioritariamente através da estrutura primária, não havendo o uso de predições 
estruturais para identificação direta dessas moléculas. Sendo assim, o uso 
modelagem molecular na identificação de PAMs pode ajudar na seleção de 
peptídeos potencias com implicações de tempo e gasto na identificação de novas 
moléculas bioativas. 
 
 
45 
 
 
 
4. OBJETIVO 
4.1 OBJETIVO GERAL 
O presente trabalho objetiva o desenvolvimento de uma nova metodologia 
de identificação de PAMs em transcriptomas e bancos de dados por meio da 
aplicação direta de predição estrutural em bancos de dados. 
4.2 OBJETIVOS ESPECÍFICOS 
• Desenvolver scripts para seleção de sequências em bancos de dados; 
• Predizer a presença do motivo STP de ligação de cisteínas; 
• Analisar as sequências quanto à domínios conservados; 
• Analisar a identidade das sequências selecionadas com estruturas do PDB; 
• Gerar modelos estruturais por meio de metodologias ab initio; 
• Predizer o padrão de ligação de pontes; 
• Realizar simulações de dinâmica molecular para avaliação estrutural; 
• Identificar AMPs potenciais em Zantedeschia aethiopica por meio de 
alinhamentos estruturais; 
 
46 
 
 
 
5. METODOLOGIA 
5.1 IDENTIFICAÇÃO DE VARIANTES POR THREADING 
5.1.1 Pré-filtragem dos dados 
Inicialmente foram coletadas todas as sequências sem estrutura 
tridimensional resolvida do Antimicrobial Peptides Database (APD – maio de 
2015) (http://aps.unmc.edu/AP/main.php; WANG et al., 2009). Este banco 
contém sequências de atividade antimicrobiana validada em testes in vitro e/ou 
in vivo. Desse conjunto inicial foram coletadas sequências com seis ou mais 
resíduos de cisteína, que foram subsequentemente avaliadas quanto à 
redundância através do CD-HIT (LI; GODZIK, 2006), sendo retiradas sequências 
de 70% de identidade ou mais. As sequências resultantes foram utilizadas para 
buscas por meio da ferramenta HHPred (http://toolkit.tuebingen.mpg.de/hhpred; 
SÖDING, 2005), sendo selecionadas sequências com similaridade estrutural 
com PAMs e variação na disposição ou padrão de pontes dissulfeto. Nessa etapa 
foram descartados todos os lantibióticos e sequências com modificações pós-
traducionais que inviabilizassem a modelagem molecular. Após essa pré-
filtragem, o programa LOMETS foi utilizado para a seleção do melhor molde 
estrutural, sendo mantidos somente peptídeos que atendessem aos mesmos 
requisitos usados na etapa anterior. As sequências resultantes foram então 
modeladas (ver sessão 5.1.2) e avaliadas em dinâmicas 50 ns (ver sessão 5.1.3), 
sendo descartados todos os peptídeos que perdessem a topologia característica 
no período de simulação. O resumo da análise pré-filtragem dos bancos está 
descrito na Figura 7. 
 
 
 
 
 
 
http://aps.unmc.edu/AP/main.php
http://toolkit.tuebingen.mpg.de/hhpred
47 
 
 
 
Figura 7: Sumário de etapas de pré-filtragem do banco. O número de sequências 
resultante está descrito à direita de seu respectivo passo. As etapas estão 
numeradas na ordem de conclusão. 
 
5.1.2 Modelagem molecular 
A modelagem molecular dos peptídeos foi feita através do programa 
MODELLER 9.16 (FISER et al., 2000). Para fechamento das pontes adicionais 
ou sem cobertura no alinhamento, foram utilizadas as classes de automodel 
endêmicas do MODELLER. Foram gerados 100 modelos para cada peptídeo 
avaliado, sendo selecionado o melhor modelo através do menor DOPE (Discrete 
Optimized Protein Structure) score. Os modelos finais foram submetidos a 
análises de qualidade. A avaliação foi feita através dos servidores ProSA II 
(WIEDERSTEIN, 2007) e PROCHECK (LASKOWSKI et al., 2007). O software 
ProSA II avalia a qualidade do dobramento do modelo através do Z-score, onde 
são considerados aceitáveis modelos que apresentem um Z-score semelhante 
ao de estruturas resolvidas; enquanto o PROCHECK avalia a qualidade 
estereoquímica do modelo analisando a geometria de cada resíduo pelo mapa 
de Ramachandran, onde os modelos de melhor qualidade apresentam mais de 
90% dos resíduos em regiões favoráveis e permitidas sendo desconsiderados 
resíduos de Prolina e Glicina. 
5.1.3 Simulações de dinâmica molecular 
Os modelos finais foram submetidos a simulações de dinâmica molecular 
de 300 ns através do software GROMACS 4.6 a fim deavaliar a manutenção 
estrutural. As simulações foram conduzidas utilizando o campo de força 
48 
 
 
 
GROMOS96 43A1 (HESS et al., 2008). Cada estrutura foi imersa em uma caixa 
cúbica de água, com distância de 8 Å para os limites da mesma. A caixa foi 
preenchida com o modelo de água single point charge (BERENDSEN et al., 
1981). Íons cloro foram adicionados aos sistemas para neutralizar as cargas 
positivas. A geometria das moléculas de água foi forçada através do algoritmo 
SETTLE (MIYAMOTO, KOLLMAN, 1992). As ligações atômicas foram feitas 
através do algoritmo LINCS (HESS et al., 1997). As correlações eletrostáticas 
foram calculadas pelo algoritmo Particle Mesh Ewald (DARDEN et al., 1993), 
com um limiar de 1,4 nm. O mesmo limiar foi aplicado para interações de van der 
Waals. O algoritmo de steepest descent foi aplicado para minimizar a energia do 
sistema por 50.000 passos. Após a minimização de energia, a temperatura 
(conjunto NVT) e a pressão (conjunto NPT) do sistema foram normalizadas para 
300 K e 1 bar, respectivamente, por 100 ps cada. As simulações completas foram 
feitas utilizando o algoritmo leap-frog como integrador. As simulações foram 
avaliadas por meio do desvio de raiz quadrada média (RMSD) do backbone das 
estruturas ao longo da simulação em relação à estrutura inicial (0 ns) com o uso 
do software g_rms do pacote GROMACS. A conservação da estrutura 
secundária foi avaliada através do DSSP 2.0.4. As visualizações foram feitas 
através do Pymol Molecular Graphics System, Version 1.6 Schrödinger, LLC. 
5.2 Identificação de STPs 
5.2.1 Pré-filtragem dos bancos dados 
Para essa etapa foi utilizado o mesmo banco inicial do tópico 5.1.1. Este 
conjunto de dados foi avaliado quanto à redundância através do CD-HIT (LI; 
GODZIK, 2006), sendo retiradas sequências de 80% de identidade ou mais. 
Após essa avaliação preliminar foram selecionados todos os peptídeos com seis 
ou mais resíduos de cisteína e 130 resíduos de aminoácidos ou menos. Todas 
as sequências resultantes foram submetidas ao PredSTP (ISLAM et al., 2015), 
sendo selecionadas todas as sequências preditas como STP. As sequências 
remanescentes foram analisadas quanto à presença de domínios conservados 
e similaridade com estruturas depositadas no PDB (Protein Data Bank; 
http://www.rcsb.org/pdb/home/home.do). A verificação de domínios conservados 
foi feita através do InterPro Scan (https://www.ebi.ac.uk/interpro) (JONES et al., 
http://www.rcsb.org/pdb/home/home.do
https://www.ebi.ac.uk/interpro
49 
 
 
 
2014) e RPS-BLAST (Reversed Position Specific BLAST) 
(www.ncbi.nlm.nig.gov/cdd), sendo descartadas todas as sequências com 
domínios conservados. Já a avaliação de similaridade com sequências de 
estrutura resolvida foi feita através do BLAST, foram aceitas sequências com 
menos de 30% de identidade com qualquer sequência depositada no PDB. Das 
sequências resultantes foram avaliadas somente as sequências que pudessem 
ser modeladas e simuladas em dinâmica molecular. O resumo da análise 
automática dos bancos está descrito na Figura 8. 
 
Figura 8: Sumário de etapas de avaliação automática do banco. O número de 
sequências resultante está descrito à direita de seu respectivo passo. O passo 7 
se refere a avaliação manual das sequências remanescentes. As etapas estão 
numeradas na ordem de conclusão. 
 
 
5.2.2 Modelagem molecular 
Após os passos descritos acima a sequência resultante foi submetida à 
busca de moldes para modelagem comparativa. Entretanto, por ausência de um 
molde adequado a modelagem foi gerado um modelo ab initio, utilizando a 
ferramenta web QUARK (XU; ZHANG, 2012). O QUARK foi selecionado uma 
vez que se mostrou eficaz em fazer predições estruturais, sendo considerado o 
melhor servidor de modelagem ab initio por dois anos consecutivos no CASP 
http://www.ncbi.nlm.nig.gov/cdd
50 
 
 
 
(Critical Assessment of protein Structure Prediction). O modelo resultante foi 
utilizado como modelo inicial para predição do padrão de pontes dissulfeto. A 
predição das conexões entre as cisteínas foi feita conforme Tomczak et al. 
(2012), onde todos os pares possíveis foram verificados seguindo os seguintes 
critérios: (i) a distância entre os Carbonos α (Cα) e β (Cβ) sendo menor ou igual 
10 Å e menor ou igual 9 Å, respectivamente; (ii) a diferença entre distância entre 
os Cβ e a distância entre os Cα sendo ≤ 1 Å; e (iii) haverem, pelo menos, três 
aminoácidos entre as cisteínas (TOMCZAK et al., 2012). Todas as pontes que 
cumpriram esses requisitos foram consideradas possíveis. O padrão final de 
pontes foi selecionado levando em consideração o pareamento que mantivesse 
o motivo STP. O modelo final foi gerado através do programa Swiss PDB Viewer 
(SPDBV; GUEX; PEITSCH, 1996), onde foi feita a conexão das pontes. O 
algoritmo de steepest descent foi aplicado para minimizar a energia do sistema 
usando o campo de força GROMOS95, a energia foi minimizada por 2.000 
passos. O modelo final foi analisado quanto à semelhança estrutural com 
proteínas resolvidas do PDB através do DALI Server (HOLM, 2010) e capacidade 
de interação com ligantes por meio do COFACTOR (ROY et al. 2012). 
5.3 APLICAÇÃO DAS METODOLOGIAS NO TRANSCRIPTOMA DE 
ZANTEDESCHIA AETHIOPICA 
5.3.1 Pré-filtragem dos dados 
As sequências provenientes do transcriptoma de Zantedeschia aethiopica 
foram obtidas dos bancos do nosso laboratório, uma vez que, esse transcriptoma 
foi sequenciado e montado pelo mesmo. Além disso, esse grupo de dados foi 
analisado quanto a presença de PAMs por meio de RegEx (CÂNDIDO et al., 
2012). Sendo assim, esse set de sequências compõe um bom candidato a 
comparações entre a metodologia proposta e buscas por correspondência de 
padrão; para tal, foi feito um screening para a identificação de PAMs a título de 
comparação entre as metodologias. Não foi feita uma nova montagem do 
transcriptoma. A pré-filtragem dos dados foi realizada em dois passos conforme 
Cândido et al. (2012), onde: (i) foram coletadas dentre as 29.509 sequências, 
peptídeos de até 350 resíduos de aminoácidos com quatro ou mais resíduos de 
51 
 
 
 
cisteína; e (ii) selecionadas somente sequências com peptídeo sinal e sem 
regiões transmembranares. 
5.3.2 Modelagem molecular e avaliação de conservação estrutural 
Após a pré-filtragem as sequências foram submetidas ao mesmos passos 
de avaliação descritos nos tópicos 5.1 e 5.2; as sequências foram avaliadas por 
meio do HHPred e LOMETS e posteriormente modeladas e simuladas por 50 ns 
(ver sessão 5.1.1). As estruturas geradas que mantiveram a estrutura após a 
simulação foram simuladas por mais 250 ns totalizando 300ns de simulação. 
Além disso, as sequências foram submetidas ao PredSTP e posteriormente ao 
HHPred conforme tópico 5.2.1; entretanto, nenhuma sequência foi selecionada. 
As etapas de modelagem e simulações de dinâmica molecular foram realizadas 
conforme tópicos sessões 5.1.2 e 5.1.3, respectivamente. 
5.3.3 Predição de atividade antimicrobiana 
Os dois peptídeos selecionados como potenciais PAMs foram analisados 
por meio algoritmos de predição de atividade antimicrobiana. Os algoritmos 
utilizados estão disponíveis na plataforma online do CAMP 
(http://www.camp.bicnirrh.res.in/) (WAGHU et al., 2016). Foram utilizados os 
quatro algoritmos disponíveis na plataforma: SVM, RF, ANN e DA. 
 
 
52 
 
 
 
6. RESULTADOS 
6.1 IDENTIFICAÇÃO DE VARIANTES 
6.1.1 Pré-filtragem do banco 
A fim de validar a identificação de PAMs por comparações estruturais 
foram selecionados peptídeos de atividade antimicrobiana comprovada do APD. 
Inicialmente, foram baixadas 1502 sequências sem estrutura resolvida 
depositada no PDB (Figura 7, Etapa 1). Após essa etapa as sequências foram 
selecionadas pelo número de cisteínas e tamanho das sequências, onde foram 
descartadas todas as sequências com menos de 6 cisteínas e mais de 150 
resíduos de aminoácido (Figura

Outros materiais