Identificação de peptídeos antimicrobianos através de predições estruturais por meio de Threading e Ab Initio

•

USP-SP

Fernanda Lara Santos

25/02/2024

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 105 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 105 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 105 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Saúde Pública

9.530 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

z
1. li
Pró-Reitoria Acadêmica
Escola de Saúde
Programa de Pós-Graduação Stricto Sensu em Ciências Genômicas e
Biotecnologia

IDENTIFICAÇÃO DE PEPTÍDEOS ANTIMICROBIANOS
ATRAVÉS DE PREDIÇÕES ESTRUTURAIS POR MEIO DE
THREADING E AB INITIO

Brasília - DF
2017

Autor: Állan Pires da Silva
Orientador: Prof. Dr. Octávio Luiz Franco

ÁLLAN PIRES DA SILVA

IDENTIFICAÇÃO DE PEPTÍDEOS ANTIMICROBIANOS ATRAVÉS DE
PREDIÇÕES ESTRUTURAIS POR MEIO DE THREADING E AB INITIO

Dissertação apresentada ao Programa de Pós-
Graduação Strictu Sensu em Ciências
Genômicas e Biotecnologia da Universidade
Católica de Brasília, como requisito parcial
para obtenção do Título de Mestre em
Biotecnologia.
Orientador: Prof. Dr. Octávio Luiz Franco

Brasília
2017

Ficha elaborada pela Biblioteca Pós-Graduação da UCB

S586i Silva, Állan Pires da.
Identificação de peptídeos antimicrobianos através de predições
estruturais por meio de Threading e Ab Initio / Állan Pires da Silva – 2017.
103 f. : il.; 30 cm

Dissertação (Mestrado) – Universidade Católica de Brasília, 2017.
Orientação: Prof. Dr. Octávio Luiz Franco

1. Bancos de dados. 2. STP. 3. Peptídeos antimicrobianos. 4.
Transcriptoma. 5. Dinâmica molecular. I. Franco, Octávio Luiz, orient. II.
Título.

CDU 606

Dedico este trabalho primeiramente a
Deus que me deu as ferramentas e as
oportunidades necessárias para o feito.
Dedico também esse trabalho à Ciência,

que ele possa ser de importância e valia
à evolução da mesma.

AGRADECIMENTO

Agradeço inicialmente a Deus pelos mesmos motivos que dedico este
trabalho a Ele. Agradeço também à minha família, pois ela é o alicerce
fundamental da vida de qualquer pessoa. Em especial, agradeço, à minha irmã
e minha mãe que sempre me apoiam e me admiram pelo que eu faço, mesmo
não entendendo muitas vezes. Agradeço à minha namorada e futura esposa,
Karen, que sempre me apoiou e me deu forças para permanecer firme nos meus
propósitos, colocando, às vezes, até seus próprios sonhos de lado para que eu
possa conquistar os meus.
Agradeço também aos meus fiéis companheiros de caminhada Julia,
Fábio e Rayssa que sempre me encheram o saco para que eu pudesse me
esforçar mais e ser alguém na vida. Agradeço aos meus amigos que sempre
ficam me chamando para sair mesmo quando eu tenho um prazo apertado para
entregar meus trabalhos. Agradeço aos meus colegas de laboratório que me
ampararam na aterrorizante bancada, onde nada dá certo. Em especial o grupo
do CAPB que sempre me auxilia nos meus experimentos e aos alunos da
professora Cristine Barreto, que sempre me tiraram dúvidas e até pararam seus
próprios trabalhos para me auxiliarem.
Agradeço de forma especial ao Will, que, apesar de ser bem mau
humorado às vezes e sem paciência, sempre me ajudou em tudo que eu tentei
fazer e me ensinou uma grande parcela do que sei. Agradeço a menino Marx
(baiano) por ser humilhado no SuperTuxKart. Agradeço ao meu orientador
Octávio que acreditou em mim e me deu suporte e uma chance de conhecer o
mundo da Ciência, a ele eu devo boa parte do que sou hoje, tanto
intelectualmente quanto profissionalmente. Disseram-me uma vez que gentileza
gera gentileza e por tudo que o professor Octávio me proporcionou eu aprendi o
que é ser humilde e ajudar os outros, e com certeza, no futuro, eu me lembrarei
da forma em que fui tratado quando tratar os outros. Obrigado, professor.
Agradeço também aos membros da banca, sem os senhores nada disso
seria possível. E por fim, mas não menos importante, agradeço a todo corpo
docente da UCB que sempre foi cordial e atencioso em atender as necessidades

dos alunos e à secretária do programa, Mara, que sempre nos ajuda a fazer
escolhas acertadas e resolver os problemas em que nos colocamos com a
Universidade. Por último e não menos importante, o Sci-Hub, provedor de
artigos de todo pós-graduando.

“Sabe-se que há um número infinito de
mundos, simplesmente porque há um espaço
infinito para que os haja. Todavia, nem todos
são habitados. Assim, deve haver um número
finito de mundos habitados. Qualquer número
finito dividido pelo infinito é tão perto de zero
que não faz diferença, de forma que a
população de todos os planetas do Universo
pode ser considerada igual a zero. Daí segue
que a população de todo o Universo também é
zero, e que quaisquer pessoas que você possa
encontrar de vez em quando são meramente
produtos de uma imaginação perturbada. ”
Guia do Mochileiro das Galáxias,
Douglas Adams

RESUMO
Referência: PIRES, Állan da Silva. Identificação de peptídeos
antimicrobianos através de predições estruturais por meio de threading e
ab initio.
Atualmente, várias bactérias podem ser prejudiciais à saúde humana. Além
disso, com o uso contínuo de antibióticos, e desenvolvimento de resistência por
parte desses microrganismos, muitas infecções se tornaram preocupantes, sem
tratamentos eficazes disponíveis gerando a necessidade de desenvolvimento de
outras moléculas de combate. Nesse âmbito, os peptídeos antimicrobianos
(PAMs) têm sido propostos como uma alternativa no controle de infecções
causadas por microrganismos resistentes. Apesar da variabilidade nas
sequências, os PAMs podem apresentar grande conservação estrutural em
famílias específicas, principalmente em peptídeos estabilizados por pontes
dissulfeto. De forma canônica, a identificação de PAMs se dá pela exploração de
extratos naturais bioativos e posterior análise e purificação dos mesmos. Na era
pós-genômica, por sua vez, a identificação de PAMs pode ser feita a partir de
bancos de dados utilizando modelagem molecular na busca direta de peptídeos.
Nesse trabalho foram selecionados PAMs sem estrutura no PDB, a partir do
banco de dados de peptídeos antimicrobianos (APD)
(http://aps.unmc.edu/AP/main.php). Desta forma, as sequências foram pré-
filtradas, sendo selecionados dois PAMs (miticina B e MiAMP-2b) de classes
descritas com variação na disposição ou padrão de pontes dissulfeto. Além
disso, o banco original foi submetido à identificação de STPs. Para tal, o servidor
PredSTP foi utilizado como avaliação adicional. Ao final das etapas de pré-
filtragem, um novo potencial STP (CRS4C-2b) com uma nova topologia estrutural
foi modelado pelo QUARK e simulado em dinâmica molecular, mantendo a
estrutura inicial. A metodologia foi então aplicada para identificação de PAMs no
transcriptoma de Zantedeschia aethiopica onde foram encontrados dois novos
potenciais PAMs que foram preditos como ativos pelo CAMP. Dessa forma, as
duas metodologias desenvolvidas aqui podem ser aplicadas com sucesso na
identificação de novos PAMs e na análise de diversidade estrutural de famílias
antimicrobianas.
Palavras-chave: Bancos de dados. STP. Peptídeos Antimicrobianos.
Transcriptoma. Dinâmica molecular.
http://aps.unmc.edu/AP/main.php

ABSTRACT
Reference: PIRES, Állan da Silva. Identification of antimicrobial peptides
throug structural prediction by threading and ab initio.
Currently, various bacteria can be harmful to human health. Moreover, with
continued use of antibiotics and development of resistance bythese
microorganisms, many infections became worrying, with no effective treatments
available generating the need for development of other fighting molecules. In this
context, the antimicrobial peptides (AMPs) have been proposed as an alternative
in the control of infections caused by resistant microorganisms. Despite the
variation in sequence levels, AMPs may present high structural conservation in
specific families, especially peptides stabilized by disulfide bonds. Canonically,
the identification of PAMs is by exploitation of bioactive natural extracts and
subsequent analysis and purification thereof. In the post genomics era, in turn,
identifying PAMs could be made from databases using molecular modeling of
peptides in direct search. In this work were selected AMPs without structure in
PDB, from antimicrobial peptide database (APD)
(http://aps.unmc.edu/AP/main.php). The sequences were pre-filtered, being
selected two AMPs (myticin B and MiAMP-2b) of classes described with
modifications in disulfide bonds pattern arrangement. Additionally, the original
bank was submitted to STPs identification. PredSTP was used as an additional
evaluation. After prefiltering phases, a new potential STP (CRS4C-2b) with a new
hypothetical structural topology was modelled by QUARK and simulated at 300
ns molecular dynamics, maintaining the initial structure. The methodology was
then applied to identify PAMs in the Zantedeschia aethiopica transcriptome
where two new potential PAMs were found that were predicted to be active by
CAMP. Thus, the two methodologies developed here can be successfully applied
in the identification of new PAMs and in the analysis of the structural diversity of
antimicrobial families.
Keywords: Database. STP. Antimicrobial Peptides. Transcriptome. Molecular
dynamics.

LISTA DE ILUSTRAÇÕES

Figura 1: Número de antibióticos desenvolvidos e aprovados para
comercialização pelo FDA no intervalo de 1980-2014. No eixo horizontal estão
representados os intervalos de quatro anos e no eixo vertical está representado
o número de moléculas desenvolvidas e aprovadas para comercialização.
Adaptado de Ventola (2015)............................................................................. 21
Figura 2: Divisão dos PAMs em grupos utilizando estrutura terciaria. Estrutura
em Hélice α: LL-23 (PDB ID: 2LMF), uma catelicidina humana; Fita β: HD5 (PDB
ID: 2LXZ), uma α-defensina humana. Estrutura Mista: AhPDF1 (PDB ID: 2M8B),
uma CSαβ-defensina de Arabidopsis halleri; estrutura mista: Indolicidina (PDB
ID: 1QXQ), peptídeo de estrutura desordenada proveniente de Bos taurus. As
pontes dissulfeto são mostradas em esferas e varetas. ................................... 23
Figura 3: Diversidade estrutural de STPs. As três diferentes famílias estruturais
de STPs: “STPs não atados” representada por lucifesina (PDB ID: 2LLD);
ciclótides representada por cicloviolacina O1 (PDB ID: 1NBJ); e ICKs
representada por conotoxina GS (PDB ID: 1AG7). .......................................... 25
Figura 4: Dois principais tipos de metodologias de identificação por
correspondência de padrão. À esquerda a representação de uma RegEx dividida
em caractere coringa, que representa qualquer aminoácido; caractere fixo, onde
só há correspondência ao aminoácido representado; e caractere Ambíguo, onde
há correspondência a qualquer dos aminoácidos entre colchetes. Entre
parênteses está representada a extensão do caractere coringa, sendo, nesse
caso de 5-6 aminoácidos. À direita a representação gráfica de um HMM, onde,
de forma semelhante à RegEx há caracteres coringa, ambíguos e fixos.

Entretanto há probabilidade atribuída à cada posição, neste caso representado
pelo tamanho da letra, ou seja, aminoácidos representados por letras mais
extensas têm maior probabilidade. O modelo de HMM foi obtido do Pfam. ..... 27
Figura 5: Semelhança estrutural entre diferentes classes de PAMs. À esquerda
no topo é mostrada a estrutura da Esnaquina-1 (PDB ID: 5E5Q), no centro a
estrutura da α-1-purotionina (PDB ID: 2PLH) e à direita a EcAMP1 (PDB ID:
2L2R). Tais estruturas apresentam um motivo estrutural helix-turn-helix
estabilizado por pontes dissulfeto sequenciais. À esquerda abaixo a estrutura da
Laterosporulina (PDB ID: 4OZK) e à direita a HD5 (PDB ID: 2LXZ). Ambas
apresentam a estrutura dobrada em fitas β, formando uma folha β estabilizada
por pontes dissulfeto. As pontes são apresentadas no modelo de esferas e
varetas do Pymol v1.6. ..................................................................................... 40
Figura 6: Alinhamento de diferentes membros de três classes de PAMs com
conservação estrutural apesar da variação na sequência. As pontes dissulfeto
variáveis são mostradas em vermelho. Em laranja estão assinaladas as pontes
classe-específicas. ........................................................................................... 42
Figura 7: Sumário de etapas de pré-filtragem do banco. O número de sequências
resultante está descrito à direita de seu respectivo passo. As etapas estão
numeradas na ordem de conclusão. ................................................................ 47
Figura 8: Sumário de etapas de avaliação automática do banco. O número de
sequências resultante está descrito à direita de seu respectivo passo. O passo 7
se refere a avaliação manual das sequências remanescentes. As etapas estão
numeradas na ordem de conclusão. ................................................................ 49
Figura 9: Estrutura final dos peptídeos após fechamento das pontes. À esquerda
miticina B, defensina de molusco e a direita MiAMP-2b, alpha helical hairpin. As

pontes dissulfeto são mostradas no modelo de esferas e varetas. A imagem foi
gerada através do Pymol 1.6............................................................................ 54
Figura 10: RMSD do backbone durante o tempo de simulação de 300ns. A
variação foi plotada tendo como ponto inicial a estrutura em 0ns dos respectivos
peptídeos. À esquerda miticina B, defensina de molusco e a direita MiAMP-2b,
alpha helical hairpin. ......................................................................................... 55
Figura 11: Ratio mean square frequence (RMSF) da estrutura após 300ns. A
variação foi plotada na estrutura à 0ns dos respectivos peptídeos. À esquerda
miticina B, defensina de molusco e a direita MiAMP-2b, alpha helical hairpin. O
grau de movimentação está representado pela cor, sendo que, quando mais
próximo de vermelho, maior a variação. Sendo assim, cores quentes
reprensentam maior variação. A imagem foi gerada através do Pymol 1.6. .... 56
Figura 12: Estrutura final após 300ns de simulação (Parte superior) de miticina
B (Parte superior esquerda) e MiAMP-2b (Parte superior direita). As pontes
dissulfeto são mostradas em esferas e varetas. A visualizações foram feitas por
meio do Pymol v1.6. Variação estrutural de miticina B e MiAMP-2b no decorrer
do tempo de simulação (Parte inferior). As cores representam diferentes tipos de
estrtura secundária que são representados no seguinte padrão: coil em branco;
Fitas β em vermelho; β bridges em preto; bends em verde; turns em amarelo; α-
hélices em azul, hélices π em roxo e hélices 3-10 em cinza. ............................. 58
Figura 13: Estrutura final após fechamento das pontes. As cisteínas estão
assinaladas por cores correspondentes às pontes, ou seja, as cisteínas
assinaladas na mesma cor formam pontes entre si. A císteína na posição 35
pode ser responsável pela conexão com a outra subunidade do dímero. Na parte

inferior é ilustrado o duplo padrão STP. A imagem foi gerada através do Pymol
1.6. ................................................................................................................... 61
Figura 14: Análise do RMSD do backbone deCRS4C-2b durante o tempo de
simulação de 300ns. A variação foi plotada tendo como ponto inicial a estrutura
em 0ns dos respectivos peptídeos. .................................................................. 62
Figura 15: RMSF da estrutura de CRS4C-2b após 300ns. A variação foi plotada
na estrutura à 0ns do peptídeo (esquerda). O grau de movimentação é
representado pela cor, sendo que, quando mais próximo de vermelho, maior a
variação. Sendo assim, cores quentes reprensentam maior variação. A imagem
foi gerada através do Pymol 1.6. Gráfico de movimentação por resíduos (direita).
A movimentação é mostrada em angstroms. ................................................... 63
Figura 16: Variação estrutural do peptídeo no decorrer do tempo de simulação
(esquerda). As cores represntam diferentes tipos de estrtura secundária que são
representados no seguinte padrão: coil em branco; Fitas β em vermelho; β
bridges em preto; bends em verde; turns em amarelo; α-hélices em azul, hélices
em roxo e hélices 3-10 em cinza. Estrutura final após 300ns de simulação
(direita). As pontes dissulfeto são mostradas em esferas e varetas. A
visualizações foram feitas por meio do Pymol v1.6. ......................................... 64
Figura 17: Estrutura final de Za-LTP4 e Za-BB1. À esquerda Za-LTP4, LTP com
apenas três pontes e a Za-BB1, β-barrelina com uma só ponte. No caso de Za-
LTP4 o lipídeo (Lisofosfatidilglicerol) utilizado é proveniente do modelo usado
como molde e é mostrado no modelo de varetas. As pontes dissulfeto são
mostradas no modelo de esferas e varetas. A imagem foi gerada através do
Pymol 1.6. ........................................................................................................ 67

Figura 18: RMSD do backbone de Za-LTP4 e Za-BB1 durante o tempo de
simulação de 300ns. A variação foi plotada tendo como ponto inicial a estrutura
em 0ns dos respectivos peptídeos. À esquerda Za-LTP4 e a direita Za-BB1. . 68
Figura 19: RMSF de todos os resíduos de Za-LTP4 e Za-BB1 durante o tempo
de simulação de 300ns. A variação foi plotada tendo como ponto inicial a
estrutura em 0ns dos respectivos peptídeos. À esquerda Za-LTP4 e a direita Za-
BB1. ................................................................................................................. 68
Figura 20: Estrutura final após 300ns de simulação de Za-LTP4 e Za-BB1.
Variação estrutural dos peptídeos Za-LTP4 (cima) e Za-BB1 (baixo) no decorrer
do tempo de simulação. As cores representam diferentes tipos de estrutura
secundária que são representados no seguinte padrão: coil em branco; Fitas β
em vermelho; β bridges em preto; bends em verde; turns em amarelo; α-hélices
em azul, hélices em roxo e hélices 3-10 em cinza. Estrutura final após 300ns de
simulação (direita). As pontes dissulfeto são mostradas em esferas e varetas. A
visualizações foram feitas por meio do Pymol v1.6. ......................................... 69

LISTA DE TABELAS

Tabela 1: Principais servidores e programas para predição de atividade
antimicrobiana e seus respectivos treinamentos e
acurácia.............................................................................................................31
Tabela 2: Principais servidores de modelagem por threading e ab initio e
descrição dos seus respectivos métodos..................................................34
Tabela 3: Resumo de metodologias que utilizaram modelagem e/ou dinâmica
molecular para identificação de proteínas em bancos de dados....................37
Tabela 4: Resumo das validações da modelagem molecular de miticina B e
MiAMP-2b..........................................................................................................51
Tabela 5: Resumo das validações da modelagem molecular de Za-LTP4 e Za-
BB1....................................................................................................................63
Tabela 6: Scores de predição de atividade antimicrobiana de Za-LTP4 e Za-BB1
gerados pelos quatro algorítmos de CAMP. Valores acima de 0,5 caracterizam o
peptídeo como PAM. As siglas se referem, respectivamente, a Support Vector
machine, Random Forest, Artificial Neural Network e Discriminant Analysis......67

SUMÁRIO
1. INTRODUÇÃO ...................................................................................................... 18
2. REVISÃO DA LITERATURA ............................................................................. 20
2.1 RESISTÊNCIA BACTERIANA .................................................................... 20
2.2 PEPTÍDEOS ANTIMICROBIANOS ............................................................ 22
2.3 PEPTÍDEOS CONTENDO TRÊS PONTES SEQUENCIAIS ................. 24
2.4 IDENTIFICAÇÃO DE PAMS EM BANCOS DE DADOS ........................ 25
2.4.1 Identificação direta no banco de dados ........................................ 26
2.4.2 Predições de atividade antimicrobiana ......................................... 30
2.4.3 Predições estruturais ......................................................................... 34
3. JUSTIFICATIVAS ................................................................................................ 44
4. OBJETIVO ............................................................................................................. 45
4.1 OBJETIVO GERAL ....................................................................................... 45
4.2 OBJETIVOS ESPECÍFICOS ....................................................................... 45
5. METODOLOGIA ................................................................................................... 46
5.1 IDENTIFICAÇÃO DE VARIANTES POR THREADING .......................... 46
5.1.1 PRÉ-FILTRAGEM DOS DADOS ......................................................... 46
5.1.2 MODELAGEM MOLECULAR .............................................................. 47
5.1.3 SIMULAÇÕES DE DINÂMICA MOLECULAR ................................... 47
5.2 IDENTIFICAÇÃO DE STPS ........................................................................ 48
5.2.1 PRÉ-FILTRAGEM DOS BANCOS DADOS ....................................... 48

5.2.2 MODELAGEM MOLECULAR .............................................................. 49
5.3 APLICAÇÃO DAS METODOLOGIAS NO TRANSCRIPTOMA DE
ZANTEDESCHIA AETHIOPICA ............................................................................ 50
5.3.1 PRÉ-FILTRAGEM DOS DADOS ......................................................... 50
5.3.2 MODELAGEM MOLECULAR E AVALIAÇÃO DE CONSERVAÇÃO
ESTRUTURAL ...................................................................................................... 51
5.3.3 PREDIÇÃO DE ATIVIDADE ANTIMICROBIANA ............................. 51
6. RESULTADOS ..................................................................................................... 52
6.1 IDENTIFICAÇÃO DE VARIANTES ............................................................ 52
6.1.1 PRÉ-FILTRAGEM DO BANCO ........................................................... 52
6.1.2 SIMULAÇÕES DE DINÂMICA MOLECULAR ................................... 54
6.2 IDENTIFICAÇÃO DE STPS ........................................................................ 59
6.2.1 SCREENING COMPUTACIONAL ...................................................... 59
6.2.2 MODELAGEM MOLECULAR E PADRÃO DE PONTES ................ 60
6.2.3 MANUTENÇÃO ESTRUTURAL DURANTE AS SIMULAÇÕES DE
DINÂMICA MOLECULAR ................................................................................... 61
6.3 APLICAÇÃO DAS METODOLOGIAS NO TRANSCRIPTOMA DE
ZANTEDESCHIA AETHIOPICA ............................................................................ 65
6.3.1 PRÉ-FILTRAGEM DOS DADOS ......................................................... 65
6.3.2 BUSCAPOR PAMS NO TRANSCRIPTOMA DE Z. AETHIOPICA65
6.3.3 SIMULAÇÕES DE DINÂMICA MOLECULAR ................................... 67
6.3.4 PREDIÇÕES DE ATIVIDADE ANTIMICROBIANA .......................... 70

7. DISCUSSÃO ......................................................................................................... 71
8. CONCLUSÃO ....................................................................................................... 80
9. REFERÊNCIAS .................................................................................................... 81
10. APÊNDICE A – PRODUÇÃO ACADÊMICA ............................................... 93
11. APÊNDICE B – ARTIGOS SUBMETIDOS PARA PUBLICAÇÃO .......... 99
12. APÊNDICE C – PRÉ-FILTRAGEM DOS DADOS (SIMULAÇÕES DE
50NS) ........................................................................................................................... 100
13. APÊNDICE D – SEQUÊNCIAS SELECIONADAS APÓS AS ETAPAS
DE PRÉ-FILTRAGEM DOS DADOS ..................................................................... 103
18

1. INTRODUÇÃO
Diversas bactérias podem ser prejudiciais à saúde humana, seja pela
produção de metabólitos e toxinas ou pelo contágio direto (CDC, 2015). Devido
ao uso contínuo de antibióticos e o desenvolvimento de resistência por parte
desses microrganismos, atualmente não existem tratamentos eficazes para
muitas infecções, gerando a necessidade de desenvolvimento de novas
moléculas de controle e combate (CORONA; MARTINEZ, 2013). Nesse âmbito,
os peptídeos antimicrobianos (PAMs) têm sido propostos como uma alternativa
no controle de infecções causadas por microrganismos resistentes. Os PAMs
são, geralmente, moléculas anfipáticas, de carga líquida positiva (de +3 a +9) e
com tamanho de até 100 aminoácidos. Essas moléculas podem estar presentes
em quase todos os organismos e são tidos como a primeira linha de combate às
infecções, atuando como parte da defesa inata dos seres vivos, sendo ativos
contra, por exemplo, bactérias, fungos e vírus (GANZ, 2003).
Dentre os diferentes PAMs destacam-se os STPs (Sequential Tri-disulfide
peptides), peptídeos estabilizados por pontes dissulfeto conhecidas por sua
toxicidade à diversos organismos, funcionando como defesa natural em seus
hospedeiros nativos contra potenciais patógenos (LEWIS; GARCIA, 2003). Essa
classe de peptídeos inclui ciclótides, toxinas, knottins e CSαβ-defensinas,
compreendendo uma grande parcela de famílias de PAMs, estando presente em
vários grupos de seres vivos como plantas, fungos e insetos. Apesar da grande
distância entre os membros dos STPs, esse grupo apresenta um motivo de
cisteína compacto formado por três pontes sequenciais (Cys1-Cys4, Cys2-Cys5,
Cys3-Cys6), conferindo estabilidade às moléculas (ISLAM et al., 2015). Além
dessas três pontes, esse grupo pode apresentar pontes adicionais, as quais
variam em quantidade e posição, dependendo do organismo de origem (ZHU et
al., 2008). Apesar da variação em nível de sequência e das pontes adicionais,
esse grupo apresenta grande conservação estrutural. Essas moléculas
apresentam grande atividade contra bactérias Gram-positivas, sendo candidatos
a novos fármacos. Existe também a possibilidade de alguns desses peptídeos
apresentarem outros tipos de atividades, caracterizando-os como multifuncionais
(FRANCO et al., 2011).
19

Na era pós-genômica, com o aumento do número de sequências
depositadas em bancos públicos, bem como o desenvolvimento de diversas
técnicas de análise desses dados, a identificação de PAMs a partir de bancos de
dados tem ganhado atenção, se tornando uma ramificação da genômica
estrutural e bioinformática. Ainda assim, a maior parte das sequências
depositadas em bancos permanece sem qualquer tipo de avaliação funcional.
Isto se deve, em parte, ao fato de a maioria das buscas e avaliações em bancos
se basearem apenas na busca pela sequência (MULVENNA et al., 2006; ZHU et
al., 2006; PORTO et al., 2014), sendo as informações estruturais apenas usadas
como validação adicional (MULVENNA et al., 2006; PORTO et al., 2012; 2014).
Entretanto, a modelagem molecular pode ser utilizada na busca direta de
peptídeos que pertencem às classes já descritas, além de proporcionar a
identificação de homólogos distantes. Isso pode ser possível uma vez que em
diversas famílias de PAMs, apesar da grande variação em nível de sequência,
há conservação estrutural (ZHU et al., 2005). Desta forma, o objetivo do presente
trabalho consiste em desenvolver duas novas metodologias de identificação de
PAMs por meio de predições estruturais para a identificação em bancos de
sequências, incluindo dados genômicos e transcriptômicos.

2. REVISÃO DA LITERATURA
2.1 RESISTÊNCIA BACTERIANA
Bactérias são microrganismos versáteis que participam de diversas
interações biológicas com quase todos os tipos de seres vivos (TORTORA et al.,
2012). Estes organismos podem viver em condições variadas e desempenhar
papéis importantes na sobrevivência de seus hospedeiros, gerando interações
consideradas harmônicas por trazerem benefícios a ambos os indivíduos
participantes. Entretanto, uma grande parcela de bactérias pode ser patogênica
a seres humanos, gerando infecções, que, em alguns casos, podem até levar
seus hospedeiros a óbito. Por esse motivo, vários têm sido os esforços em gerar
substâncias capazes de combater e prevenir o desenvolvimento de infecções.
Os antibióticos surgiram como uma forma de combate a microrganismos
patogênicos. A partir da descoberta da penicilina em 1929, uma gama de
antibióticos foi desenvolvida (e.g. estreptomicina, neomicina e eritromicina)
(WAKSMAN; WOODRUFF, 1943; WAKSMAN; LECHEVALIER, 1949;
MCGUIRE et al., 1949). Entretanto, o uso contínuo desses antibióticos
combinado à capacidade de adaptação bacteriana, aos poucos geraram
patógenos resistentes a essas moléculas (CORONA; MARTINEZ, 2013).
A resistência a antibióticos pode ser definida como a capacidade de um
organismo em resistir a moléculas originalmente efetivas no tratamento de
infecções causadas por ele, segundo a Organização Mundial da Saúde (World
Health Organization; WHO, 2015). Essa resistência consiste em um mecanismo
natural de sobrevivência. Entretanto, o uso de antibióticos de forma inadequada
ou indiscriminada gera uma pressão seletiva, acelerando o processo e
favorecendo o desenvolvimento e proliferação de bactérias resistentes.
Ademais, o desenvolvimento e propagação de resistência por parte de bactérias
se agrava pela capacidade desses microrganismos de compartilhar plasmídeos
e outros fragmentos de DNA com outras bactérias, assim como sua alta taxa de
mutação e inserções de material genético por bacteriófagos (ALEKSHUN; LEVY,
2007). Tais mecanismos se tornam ainda mais preocupantes, se analisada a
taxa de novos antibióticos que chegam ao mercado (Figura 1). Em 2014, por
21

exemplo, somente quatro novos antibióticos foram aprovados para
comercialização pelo FDA (Food and Drug Administration, EUA) (VENTOLA,
2015). Em contraste, a resistência antimicrobiana tem evoluído rapidamente,
sendo um problema constante em tratamentos a infecções (PFEIFER et al.,
2010), sendo necessárias, cada vez mais, altas doses de antibióticos e, por
vezes, combinações de diferentes compostos para maior eficácia do tratamento.
Figura 1: Número de antibióticos desenvolvidos e aprovados para
comercialização pelo FDA no intervalo de 1980-2014. No eixo horizontal estão
representados os intervalos de quatro anos e no eixo vertical está representado
o número de moléculas desenvolvidas e aprovadas para comercialização.
Adaptado de Ventola (2015).

Atualmente existem bactérias que podem ser resistentes a vários
antibióticos. Dentre estas podem ser citadas como cepas de Staphylococcus
aureus e Klebsiella sp. resistentes à aminoglicosídeose β-lactâmicos,
respectivamente (BUSH et al., 2001; BREIDENSTEIN et al, 2011), bem como
cepas resistentes à carbapenêmicos como KPCs (Klebsiella pneumoniae
carbapnemase) e algumas cepas de Escherichia coli (CDC, 2016) ou resistentes
à vancomicina como cepas de S. aureus (CETINKAYA et al., 2000). Esses
microrganismos podem causar morbidade e óbitos, além do agravamento do
quadro clínico de vários pacientes. Nos Estados Unidos, por ano, 23 mil pessoas
vão a óbito, infectadas por bactérias resistentes, segundo dados do CDC (Center
for disease control and prevention) (CDC, 2015). Isso se repete na União
Europeia, onde tem sido estimado que cerca de 25 mil pessoas sejam vítimas
22

fatais de infecções por bactérias resistentes por ano, segundo o ECDC
(European Center for Disease Prevention and Control) (ECDC, 2015). No Brasil,
vários casos com Klebsiella sp. e Staphylococcus sp. resistentes causam várias
mortes em hospitais (OLIVEIRA et al., 2010). Outro fator que pode acarretar
maior preocupação são os pacientes em Unidades de Tratamento Intensivo
(UTIs). Entre 2005 e 2008, aproximadamente 20% desses pacientes sofreram
infecção hospitalar e, destes, 10% foram a óbito (OLIVEIRA et al., 2010). Isso
ocorre devido ao fato de pacientes em unidades de tratamento se encontram
mais susceptíveis a esses patógenos devido a sua baixa imunidade, fomentando
o fato de 60% dos surtos infecciosos iniciarem em UTIs (OLIVEIRA et al., 2010).
Além dos riscos à saúde, os gastos com tratamentos podem chegar a 20 bilhões
de dólares no mundo segundo Ventola (2015). Deste modo, novas alternativas
de combate a esses microrganismos são necessárias.
2.2 PEPTÍDEOS ANTIMICROBIANOS
Nesse cenário, os peptídeos antimicrobianos (PAMs) têm sido propostos
como uma alternativa no controle de bactérias resistentes. Os PAMs podem ser
considerados a primeira linha de combate às infecções, atuando como parte da
defesa inata de diversos organismos como plantas, animais e fungos (GANZ,
2003). Essas moléculas atuam protegendo as superfícies internas e externas do
hospedeiro, tendo sido demonstradas atividades contra vários tipos de
microrganismos como bactérias, vírus e fungos além de atividade
imunomodulatória e antitumoral (NIJNIK; HANCOCK, 2009). Em relação às
características físico-químicas, os PAMs podem ser anfipáticos, com carga
líquida positiva de +3 a +9 e tamanho variando entre 12 e 100 aminoácidos
(SILVA et al., 2011).
Os PAMs podem ser divididos em grupos, que são organizados
baseando-se em suas estruturas (SILVA et al. 2011) ou na presença/ausência
de pontes dissulfeto (BROGDEN, 2005) (Figura 2). Estruturalmente, podemos
dividir os PAMs em quatro grupos: (i) hélices α, como as catelicidinas (WANG,
2012); (ii) folha β, como α-defensinas (WOMMACK et al., 2012); (iii) estruturas
estendidas, como a indocidina (ROZEK et al., 2003) e (iv) estruturas mistas como
23

CSαβ-defensinas (MEINDRE et al., 20143), compostas por mais de um tipo de
estrutura (Figura 2).
Figura 2: Divisão dos PAMs em grupos utilizando estrutura terciaria. Estrutura
em Hélice α: LL-23 (PDB ID: 2LMF), uma catelicidina humana; Fita β: HD5 (PDB
ID: 2LXZ), uma α-defensina humana. Estrutura Mista: AhPDF1 (PDB ID: 2M8B),
uma CSαβ-defensina de Arabidopsis halleri; estrutura mista: Indolicidina (PDB
ID: 1QXQ), peptídeo de estrutura desordenada proveniente de Bos taurus. As
pontes dissulfeto são mostradas em esferas e varetas.

Os PAMs, segundo Brand et al. (2012), podem ainda ser divididos em:
encriptados, que correspondem a trechos de sequências maiores que podem ou
não ser clivados por meio de proteólise (BRAND et al., 2012); naturais, que
correspondem a peptídeos produzidos por genes dedicados em organismos
(CÂNDIDO et al., 2011; PINTO et al., 2011; RIBEIRO et al., 2012); e artificiais,
que correspondem a peptídeos desenhados por diferentes tipos de metodologia
(LOOSE et al., 2006; CHERKASOV et al., 2009; CARDOSO et al., 2016).
24

Os PAMs têm diversos mecanismos de ação intracelular e/ou extracelular,
variando de acordo com as características físico-químicas, alvo, bem como
relacionado à concentração do peptídeo (PAREDES-GAMERO et al., 2012).
Entre os mecanismos extracelulares estão degradação e/ou formação de
diferentes tipos de poros na membrana e outros danos à membrana celular
(BROGDEN, 2005). Já de forma intracelular pode-se destacar a inibição de
formação de parede celular (YOUNT; YEAMAN, 2013) e a inibição da síntese de
proteínas e material genético (CHO et al., 2009). Além dessas características,
essas moléculas podem se apresentar na forma de monômeros, dímeros ou até
outros oligômeros (RAJABI et al., 2012).
Atualmente apenas dois antibióticos comercializados são derivados de
PAMs. A polimixina B, derivado de fonte bacteriana e a gramicidina S
(BRADSHAW, 2003). A polimixina B tem sido usada em conjunto com outros
antibióticos como gramicidina, neomicina ou bacitracina; e pode ser aplicada em
tratamentos de conjuntivite e outras doenças nos olhos, sendo de uso tópico,
apesar de também demonstrar atividade quando administrado via oral
(BRADSHAW, 2003). Já a gramicidina S apresenta uso tópico e tem sido
aplicada para tratamentos de feridas superficiais e úlceras genitais. Esse
fármaco apresenta mais efetividade contra bactérias Gram-positivas, mas
também é ativo contra Gram-negativas (BRADSHAW, 2003). Ainda assim, PAMs
têm algumas limitações, como a degradação proteolítica e a toxicidade, sendo
os peptídeos ou desativados pelo organismo ou causadores de reações
adversas ao paciente (BRADSHAW et al., 2003). Além disso, algumas dessas
moléculas podem causar alergias, como a polimixina B, por exemplo, tornando
inviável sua aplicação de forma ampla, podendo ser uma limitação do uso.
2.3 PEPTÍDEOS CONTENDO TRÊS PONTES SEQUENCIAIS
Dentre os peptídeos antimicrobianos com conservação de características
estruturais apesar da variação nas sequências podemos citar os peptídeos de
três pontes sequenciais (Sequential tri-disulfide peptides, STP). Essas moléculas
podem ser conhecidas por sua toxicidade à diversos tipos de organismos,
funcionando como defesa natural em seus hospedeiros nativos contra potenciais
patógenos (LEWIS; GARCIA, 2003). Essa classe de peptídeos inclui ciclótides,
25

toxinas de artrópodes, knottinas e CSαβ-defensinas, compreendendo uma
grande parcela de famílias de PAMs (Figura 3). Apesar de bastante diferentes
entre si, todos os membros dos STPs apresentam um motivo de cisteína
compacto formado por três pontes sequenciais (Cys1-Cys4, Cys2-Cys5, Cys3-
Cys6), característica que confere estabilidade e adaptação às moléculas (ISLAM
et al., 2015). STPs podem ainda ser divididos em três grupos principais incluindo
os ciclotídeos, com N- e C-terminal ligados (COLGRAVE; CRAIK, 2004); ICKs
(Inhibitor cysteine knotts) ou knotinas, onde a disposição das pontes forma uma
espécie de nó, uma vez que a terceira ponte penetra entre as duas outras
(MATSUMARA et al., 1989); e “STPs não atados” que apresentam as pontes
sem a formação de “nós” na disposição (POSSANI et al., 1999) (Figura 3).

Figura 3: Diversidade estrutural de STPs. As três diferentes famílias estruturais
de STPs: “STPs não atados” representada por lucifesina (PDB ID: 2LLD);
ciclótides representada por cicloviolacina O1 (PDB ID: 1NBJ); e ICKs
representada por conotoxina GS (PDB ID: 1AG7).

2.4 IDENTIFICAÇÃO DE PAMS EM BANCOS DE DADOS
De forma canônica, a identificação de PAMs se dá pela exploração de
extratos naturais bioativos e posterior análise e purificação dos mesmos.
26

Todavia, os custos e o tempo gasto com screenings e análises desses extratos
podem dificultar a busca e prospecção dessas moléculas. Com o aumento do
número de sequências depositadas em bancos públicos, bem como o
desenvolvimento de diversas técnicas deanálise desses dados, a identificação
de PAMs a partir de bancos de dados tem ganhado atenção, se tornando uma
ramificação da genômica estrutural e bioinformática. Na era pós genômica,
grandes quantidades de dados têm sido depositadas em diferentes bancos,
disponibilizado um número exorbitante de sequências de diferentes origens.
Ainda assim, pouco dessas novas informações chegam a gerar conhecimento,
sendo a maior parte das sequências depositadas de forma automática e sem
qualquer tipo de avaliação funcional. No UniProt (Universal Protein Resource)
(http://www.uniprot.org/), por exemplo, um dos maiores bancos públicos de
proteínas do mundo, 98,9% das sequências permanecem anotadas
automaticamente, e destas, muitas estão descritas como hipotéticas, não
nomeadas ou desconhecidas (Dados referentes a maio de 2016). As abordagens
utilizadas para a identificação de PAMs em bancos de dados podem ser divididas
em dois grupos: (i) buscas baseadas na similaridade de sequência, como
alinhamentos locais e correspondência de padrão; e (ii) uso de preditores de
atividade baseados em métodos de aprendizado de máquina.

2.4.1 Identificação direta no banco de dados
Dentre as buscas baseadas na sequência destacam-se as expressões
regulares (RegEx), que identificam conjuntos de caracteres através de uma
expressão de padrão em caracteres fixos, ambíguos e coringa (Figura 4), e os
perfis HMM (Hidden Markov Model), que, de forma similar às RegEx, identificam
conjuntos de caracteres, porém com atribuição de probabilidades às posições
variáveis (Figura 4) (EDDY, 1998). Essas abordagens têm sido úteis na anotação
de tais sequências e uma ferramenta valiosa, diminuindo custos e tempo na
descoberta de novos agentes antimicrobianos promissores.
http://www.uniprot.org/
27

Figura 4: Dois principais tipos de metodologias de identificação por
correspondência de padrão. À esquerda a representação de uma RegEx dividida
em caractere coringa, que representa qualquer aminoácido; caractere fixo, onde
só há correspondência ao aminoácido representado; e caractere Ambíguo, onde
há correspondência a qualquer dos aminoácidos entre colchetes. Entre
parênteses está representada a extensão do caractere coringa, sendo, nesse
caso de 5-6 aminoácidos. À direita a representação gráfica de um HMM, onde,
de forma semelhante à RegEx há caracteres coringa, ambíguos e fixos.
Entretanto há probabilidade atribuída à cada posição, neste caso representado
pelo tamanho da letra, ou seja, aminoácidos representados por letras mais
extensas têm maior probabilidade. O modelo de HMM foi obtido do Pfam.

Dentre as metodologias de identificação de PAMs em bancos de dados,
a busca pela sequência tem sido a abordagem mais utilizada e também a mais
conveniente. Isso ocorre uma vez que as proteínas estão depositadas nos
bancos como sequências além da disponibilidade de várias ferramentas de
comparação como BLAST (ALTSCHUL, et al. 1996), FASTA (PEARSON, 1990)
e BLAT (KENT, 2002). Os tipos de busca por sequência podem ser divididos em
dois grupos principais: alinhamentos locais e buscas por correspondência de
padrão, sendo a metodologia mais comum o alinhamento local. Nessa
abordagem podem ser utilizadas múltiplas iterações de alinhamentos locais até
que nenhuma nova sequência seja encontrada. Além disso, outros filtros podem
ser utilizados incluindo presença de peptídeo sinal e/ou padrões nas sequências.
Através dessa metodologia, Mulvenna e colaboradores (2006)
identificaram novas ciclótides a partir do banco de proteínas não redundantes do
28

NCBI. Para tal, os autores fizeram buscas automáticas através do BLAST. Essa
metodologia foi combinada à predição de peptídeo sinal e buscas por expressão
regular (CX3,6CX4,6CX4,7XCXCX4,7CX1,10 e todas as cinco possíveis
permutações) (MULVENNA et al., 2006). Nesse estudo, 265 sequências foram
preditas como ciclotide-like e dessas, 22 pertencentes à Poaceae (MULVENNA
et al., 2006). Além disso, esse trabalho demonstrou a distribuição de ciclotídeos
nas diversas famílias de plantas, em especial em Poaceae, na qual só havia sido
descrito anteriormente por Basse et al. (2005). Entretanto, não foram feitos testes
ou predições quanto de atividade antimicrobiana dos peptídeos identificados.
De forma similar, Zhu (2008) identificou seis novas famílias de defensin-
like peptides em fungos). Neste trabalho, por sua vez, a busca foi feita através
do TBLASTN em um banco com 53 espécies de fungos, usando a sequência da
plectasina como query (ZHU, 2008). Foram então selecionadas todas as
sequências com peptídeo sinal e a assinatura da superfamília de CS-αβ
defensinas (CX2,18CX3CX2,10[GAPSIDERYW]XCX4,17CXC) previamente descrita
por Zhu et al. (2005). As etapas resultaram na predição de 25 defensin-like
codificados por 18 genes, destes, cinco estavam anteriormente anotados como
hipotéticos (ZHU, 2008). Assim como no trabalho de Mulvenna et al. (2006), não
foram feitas predições de atividade antimicrobiana, sendo inferido apenas a
distribuição de genes semelhantes à defensinas em fungos (ZHU, 2008). Apesar
disso, alguns anos após, o mesmo procedimento foi aplicado pelo autor e
colaboradores em um banco atualizado (134 espécies de fungos) sendo inferidos
outros 17 genes codantes de 13 novos peptídeos defensin-like (ZHU et al.,
2012). Desses novos peptídeos a micasina, proveniente do fungo Microsporum
canis, foi sintetizada e testada, sendo capaz de inibir o crescimento bacteriano
(ZHU et al., 2012).
Estes trabalhos demonstraram a eficácia de alinhamentos locais na
identificação de PAMs em bancos de dados. Apesar disso, essa abordagem não
se mostra eficaz em buscas mais profundas, sendo necessário o uso de outras
metodologias baseadas em correspondência de padrão (PORTO et al., 2012).
Ambas as metodologias têm sido aplicadas de forma semelhante na
identificação de PAMs, sendo necessário um alinhamento entre sequências
homólogas e posterior submissão deste em ferramentas como PRATT
29

(JONASSEN, 1997) e TEIRESIAS (RIGOUTSOS; FLORATOS, 1998), e
HHMMER (FINN et al., 2011), para elaboração de RegEx, perfis HMM,
respectivamente. Os padrões podem ainda ser gerados ou editados
manualmente (no caso de RegEx), e/ou selecionados a partir de bancos como
Pfam (FINN et al., 2014) e PROSITE (SIGRIST et al., 2013), para HMM e RegEx,
respectivamente. As buscas podem ser feitas com adição de validações
adicionais, tais como predição de domínios conservados e predições de peptídeo
sinal. Essas abordagens têm sido utilizadas amplamente para identificação de
PAMs estabilizados por pontes dissulfeto (MULVENNA et al., 2006;
SILVERSTEIN et al., 2007; PORTO et al., 2012).
Essa estratégia foi utilizada por Porto et al. (2012) para identificação de
peptídeos hevein-like. Neste estudo uma busca por alinhamento local foi feita
inicialmente, mas não revelou novas sequências. Dessa forma, os resultados do
alinhamento local foram utilizados para construção de uma RegEx através do
Pratt que foi combinada ao motivo heveína do PROSITE gerando a expressão:
CX4,5CC[GS]X2GXCGX[GST]X2,3[FWY]C[GS]X[AGS] (PORTO et al., 2012).
Todas as sequências coletadas pela busca foram submetidas à predição de
domínios conservados através do InterPro Scan. Quatro novas heveínas foram
encontradas, sendo uma delas proveniente do fungo fitopatógeno
Phaeosphaeria nodorum, a primeira proveniente de fungo. De forma adicional,
todas as sequências preditas foram analisadas quanto à atividade
antimicrobiana através de métodos de aprendizagem de máquina (PORTO et al.,
2012). Em outro estudo, Silverstein e colaboradores (2007) construíram perfis
HMM para buscas de várias famílias de peptídeos estabilizados por pontes
dissulfeto em plantas, como esnaquinas, tioninas e defensinas (SILVERSTEIN
et al., 2007). A busca foi feita em um banco de ESTs (expressionsequence tag)
de 33 espécies de plantas, totalizando 4.801.711 sequências. Cada sequência
selecionada foi manualmente analisada quanto a presença de peptídeo sinal e
extensão, sendo selecionadas sequências com menos de 111 aminoácidos
(sequência madura) e com peptídeo sinal. Foram também selecionadas
sequências com clara correspondência com sub-regiões dos alinhamentos
gerados para a construção dos perfis HMM (SILVERSTEIN et al., 2007). Foram
obtidas ao final das etapas 145.721 sequências que foram utilizadas para a
30

criação de diferentes HMMs para as classes analisadas (SILVERSTEIN et al.,
2007). Entretanto, buscas por correspondência de padrão se mostram mais
sensíveis que alinhamentos locais para a identificação de PAMs em bancos de
dados (PORTO et al., 2012). Entretanto, tais buscas apresentam menos
seletividade, podendo haver múltiplos matches à mesma sequência
(SILVERSTEIN et al., 2007). Sendo assim, são necessárias metodologias
adicionais às buscas como predição de atividade antimicrobiana e predições
estruturais para maior seletividade.
Além de dados depositados em bancos públicos, essa metodologia pode
ser utilizada para a busca e identificação de potenciais PAMs em transcriptomas
e dados provenientes desse tipo de análise. Cândido e colaboradores (2014),
por exemplo, identificaram, utilizado os padrões gerados por Silverstein et al.
(2007), peptídeos antimicrobianos no transcriptoma de Zantedeschia aethiopica.
Nesse trabalho, predições estruturais e predição de atividade antimicrobiana
foram utilizados como validações adicionais à busca por correspondência de
padrão (CÂNDIDO et al., 2014). De forma semelhante, Zhang e colaboradores
(2015) identificaram, com o uso de RegEx 9.687 peptídeos ricos em cisteína no
transcriptoma de Viola baoshanensis, incluindo ciclotídeos, taumatinas e
proteínas de transferência de lipídeos. Ambos os trabalhos evidenciam a
aplicabilidade de tais metodologias para a busca de PAMs em dados genômicos
e trasncriptômicos.

2.4.2 Predições de atividade antimicrobiana
Os testes de atividade antimicrobiana têm sido a metodologia mais
adequada para a seleção de moléculas bioativas. Entretanto, devido ao grande
número de sequências coletadas em bancos, essa metodologia se torna
impraticável. Sendo necessária uma pré-avaliação das sequências por meio de
ferramentas computacionais. Nesse contexto, métodos de aprendizagem
supervisionada de máquina têm sido usados para desenvolver modelos para
predição de atividade antimicrobiana, pré-selecionando sequências com
possível atividade. Atualmente, existem três sistemas de predição disponíveis
31

como programas autônomos ou hospedados em servidores online incluindo
AntiBP, CAMP e CS-AMPPred (Tabela 1).
32

Tabela 1: Principais servidores e programas para predição de atividade antimicrobiana e seus respectivos treinamentos e acurácia.
Preditor Descrição da metodologia Desvantagens Disponível em Referência
AntiBP Esse preditor consiste em um modelo de máquina de vetor de
suporte (SVM, Support Vector Machine) que utiliza os dados
do N- e C-terminal para a predição de atividade antimicrobiana.
O treinamento do sistema foi feito por meio de dois bancos, um
positivo, com sequências de peptídeos antibacterianos de 15
a 60 resíduos retirados do Swiss-Prot e um negativo, de
peptídeos não secretados com a mesma variação de resíduos.
Além desses, para o treinamento, foram retiradas sequências
de N- e C-terminal de tamanhos variados (sequências de 5, 10
e 15 resíduos) dos bancos iniciais. Em 2010, o sistema foi
melhorado com ampliação do número de sequências no
treinamento, ampliando a acurácia para 91,64%.
Esse preditor leva em
consideração somente sequências
curtas (até 15 resíduos), o que o
limita quando utilizado para busca
de peptídeos naturais, sendo mais
aplicável à procura de peptídeos
encripitados.
http://www.imtech.res.i
n/raghava/antibp/
LATA et al.,
2007;2010
CAMP Preditor capaz de analisar sequências de tamanhos variáveis.
Nesse trabalho foram utilizadas 275 características físico-
químicas para o treinamento do sistema. Quanto aos métodos
de predição, CAMP utiliza random forest (RF), análise
discriminante (Discriminant Analysis; DA) e SVM, sendo RF a
de maior acurácia. Esse sistema também foi aprimorado
recentemente, com um pequeno aumento de acurácia de 0,2%
para RF, resultando em uma acurácia de 93,4%.
Apesar de analisar sequências de
tamanhos variáveis, este preditor
apresenta duas limitações, a
primeira delas é relacionada à
ordem da sequência, que se for
embaralhada terá a mesma
predição da sequência original com
um score levemente diferente e a
segunda consiste no fato desse
preditor ser demasiado generalista,
perdendo acurácia em algumas
classes (PORTO et al., 2012a).

http://www.camp.bicnirr
h.res.in/
THOMAS
et al., 2010;
WAGHU et
al., 2014
33

CS-
AMPPred
Modelo de SVM desenvolvido utilizando características físico-
químicas para predição de atividade antimicrobiana de
peptídeos exclusivamente estabilizados por cisteína. O
sistema foi treinado com um banco de dados positivo,
constituído de sequências contendo quatro ou mais resíduos
de cisteína, com atividade antimicrobiana retirados do APD
(Antimicrobial Peptides Database; WANG et al., 2009),
formando um banco de 385 sequências de 16 a 90 resíduos, e
um banco negativo retirado do PDB (Protein Data Bank)
(PORTO et al., 2012b). Para a composição dos parâmetros de
predição antimicrobiana foram selecionadas inicialmente nove
características estruturais e físico-químicas que foram
analisadas através de componente deixando cinco
remanescentes, selecionadas por relevância estatística no
banco positivo (PORTO et al., 2012a). A acurácia desse
preditor consiste em90%.
Esse preditor é específico para
sequências com cisteínas que
fazem pontes dissulfeto, fazendo
com que as sequências inseridas
para análise necessitem contê-las,
aumentando a acurácia para esse
grupo específico, sendo o modelo
de maior acurácia para esse grupo
(PORTO et al., 2012a).
http://sourceforge.net/p
rojects/csamppred/
PORTO et
al., 2012a

Os vários métodos de predição podem ser utilizados como etapa adicional
na busca de PAMs em bancos, podendo ser determinantes na seleção de
peptídeos promissores para testes in vitro e in vivo. Ainda assim, PAMs são
moléculas bastante versáteis, variando tanto em relação à composição e
características físico-químicas quanto em mecanismos de ação e alvo, sendo a
predição antimicrobiana utilizada geralmente apenas como etapa adicional de
buscas como descrito em PORTO et al. (2012b). Entretanto Brand e
colaboradores (2012) utilizaram Kumal v1.0 para a identificação de PAMs
encriptados em bancos de dados, sendo posteriormente sintetizados e testados
in vivo.
2.4.3 Predições estruturais
Além das metodologias citadas, a modelagem molecular também pode
ser utilizada para busca de PAMs em bancos de dados. Entretanto, essa
metodologia não tem sido usada para busca direta em bancos de dados, sendo
utilizada somente como validação adicional às buscas por padrão e/ou
alinhamentos locais (MULVENNA et al., 2006; ZHU, 2008; ZHU et al, 2012).
Através dessa abordagem é possível a identificação de homólogos distantes
com baixa identidade à nível de sequência, desde que haja alta conservação
estrutural (TOMCZAK et al., 2012). Baseando-se nisso, a modelagem possibilita
a identificação de similaridades estruturais apesar da variação da estrutura
primária e pode ser uma ferramenta útil na identificação de PAMs em bancos de
dados (PORTO et al., 2014a). Para esse propósito existem duas técnicas
incluindo a modelagem por threading e por ab initio (KHOR et al., 2015).
Técnicas de threading predizem a estrutura 3D de uma sequência usando
estruturas experimentalmente determinadas como molde. Essa abordagemindepende da similaridade entre as sequências, baseando-se na similaridade
estrutural (GILLE et al., 2000). Enquanto isso a modelagem ab initio (também
chamada de novo, livre ou modelagem baseada em parâmetros físicos) prediz
estruturas usando uma função energética como guia da busca conformacional
(LEE et al., 2009). Os principais recursos para modelagem ab initio e threading
estão descritos no Tabela 2.
35

Tabela 2: Principais servidores de modelagem por threading e ab initio e descrição dos seus respectivos métodos.
Método de
Modelagem
Servidor Descrição do Método Referência
Threading
FUGUE
Utiliza perfis estruturais retirados do HOMSTRAD (MIZUGUEHI et al. 1998) para
selecionar o melhor alinhamento com a sequência. O melhor template é
selecionado para um algoritmo de programação dinâmica.
SHI et al.,
2001
PROSPECT2
Utiliza a propensão de estrutura secundária, acessibilidade ao solvente, mutação
de resíduos e potencial de contato par a par para otimização dos alinhamentos.
XU; XU,
2000
SPARKS2
Potencial estatístico de corpo único juntamente com alinhamentos de sequência.
ZHOU;
ZHOU,
2004
SP3
Utiliza fragmentos da sequência para gerar perfis da sequência. Esses perfis são
usados para gerar uma estrutura derivada que é utilizada para melhorar os
alinhamentos.
ZHOU;
ZHOU,
2005
SAM-T02
Faz um PSI-BLAST a partir da sequência query. Gera um HMM a partir dos
alinhamentos múltiplos obtidos e seleciona o melhor molde através do algoritmo
Viterbi.
KARPLUS
et al. 2003
HHSEARCH
Gera um perfil HMM para a sequência a ser predita e para os moldes. Os perfis
são então alinhados e o melhor alinhamento é selecionado para a modelagem.
SODING,
2005
LOMETS
Utiliza todos os métodos de threading descritos acima além de mais três
desenvolvidos para integrar o próprio servidor (PAINT, PPA-I e PPA-II). A
seleção do melhor molde estrutural é feita por consenso estrutural de todos os
WU;
ZHANG,
2007
36

métodos usados. A similaridade entre as estruturas é avaliada pelo TM-Score
(ZHANG; SKOLNICK, 2004)
I-TASSER
Inicialmente utiliza o LOMETS para encontrar os melhores moldes estruturais.
Essas estruturas são fragmentas e formam uma biblioteca de fragmentos. Esses
fragmentos são montados gerando os modelos preditos. Após isso o BioLiP
(YANG et al. 2013) é usado para fazer as predições funcionais.
ZHANG,
2008
3D-Jury
Utiliza vários servidores para gerar o banco de estruturas inicial. Essas estruturas
iniciais são comparadas pelo Cα par a par até encontrar a melhor sobreposição.
As melhores sobreposições são então analisadas pela ferramenta MaxSub tool
(SIEW et al. 2000) para encontrar os pares de mesma folding.
GINALSKI
et al. 2003
Ab initio
QUARK
A sequência avaliada é fragmentada em sequências de até 20 resíduos que são
modelados separadamente a partir de estruturas elucidadas. Replica-exchange e
simulações de Monte Carlo são utilizados para montar os fragmentos e gerar as
estruturas completes.
XU;
ZHANG,
2012
ROSETTA
A sequência a ser modelada e as estruturas elucidadas são fragmentadas e os
fragmentos gerados alinhados. Os alinhamentos são então avaliados através de
similaridade e distância para gerar as estruturas finais.
SIMONS et
al. 1997
PEP-FOLD
Faz simulações para gerar vários modelos da sequência alvo. Esses modelos
são agrupados em clusters e os cinco melhores clusters são selecionados.
MAUPETIT
et al. 2009
37

Vale ressaltar que para modelagens ab initio parece ser necessário o uso
de recursos adicionais para verificar a similaridade com outras estruturas, tais
como DALI Server (HOLM, 2010) e/ou COFACTOR (ROY et al. 2012) para
comparações entre as estruturas preditas e resolvidas, gerando hipóteses sobre
a função das proteínas, proporcionando a identificação de homólogos distantes
pelos alinhamentos estruturais.
Para ambos os métodos de modelagem, tem sido crucial o uso de
simulações de dinâmica molecular para avaliação dos modelos moleculares,
adicionando mais confiabilidade às predições funcionais (PORTO et al., 2014a),
principalmente no caso de modelos ab initio, onde apenas cerca de 20-25% se
mantém após simulações de dinâmica molecular (RIGDEN, 2011; PORTO et al.,
2014a). Simulações de dinâmica molecular podem ser definidas como
simulações computacionais de moléculas utilizando parâmetros baseados em
leis da física mecânica. Na prática, essa metodologia proporciona a avaliação de
modificações estruturais ao longo do tempo, bem como mudanças de
flexibilidade e o movimento de diferentes átomos ou moléculas, tornando
possível acessar estados temporais da estrutura. Assim, essa metodologia pode
ser amplamente aplicada adicionando mais confiabilidade aos dados gerados
(TOMCZAK et al., 2012; PORTO et al., 2012; 2014a; 2014b). Ainda assim, essa
metodologia requer grande poder de processamento, necessitando de bastante
tempo computacional, o que limita as simulações à apenas alguns nano ou
microssegundos (KLEPEIS et al., 2009).
Apesar das limitações, diversos trabalhos têm usado modelagem (ab
initio/threading), alinhamento estrutural e dinâmica molecular para prever e
avaliar estruturas a fim de elucidar a atividade de proteínas (Tabela 3).
38

Tabela 3: Resumo de metodologias que utilizaram modelagem e/ou dinâmica molecular para identificação de proteínas em bancos
de dados.
Abordagem Descrição da metodologia Resultado Referência
Identificação de
DUF’s com
propriedades de
ligação a DNA
através de
modelagem ab initio.
Inicialmente todos os DUFs (Domain of Unknown Function) do Pfam foram
coletados; foram selecionadas todas as sequências sem regiões
transmembranares, tamanho de 30 a 100 aminoácidos e com domínios
relacionados à ligação de DNA; a predição estrutural foi feita através do
ROSETTA [56]; e a função foi predita através da análise do software
DNA_BIND analyses (SZILAGYI; SKOLNICK, 2006).
Trinta e duas proteínas
com domínio de
ligação a DNA.
RIGDEN, 2011
Identificação de
quimiocinas humana
através de
modelagem por
threading.
Foram selecionadas, a partir do banco UniProt Knowledgebase (Realease
14.9), sequências de Homo sapiens sem anotação functional e duas ou mais
cisteínas; dessas foram selecionadas sequências: menos de 30% de
similaridade com proteínas do PDB, com peptídeo sinal, sem regiões
transmembranares e mais de 55 aminoácidos; foram feitos alinhamentos por
threading com todas as 270 estruturas elucidadas com folding de quimiocina
IL8-like, sendo selecionadas somente sequências que alinhavam com as
estruturas; as sequências remanescentes foram analisadas pelo
InterproScan; a modelagem molecular foi feita através do Modeller; e
simulações de dinâmica molecular foram usadas para validação estrutural.
Duas novas
quimiocinas.
TOMCZAK et
al. 2012
Identificação
funcional de
proteínas
hipotéticas de
Escherichia coli
através de
modelagem por
threading e ab initio.
Foi utilizado o banco de sequências não redundantes (nr) do NCBI; foram
selecionadas sequências com: 30 a 100 aminoácidos, sem regiões
transmembranares, sem similaridade com estruturas no PDB (menos de 30%
de identidade), similaridade com proteínas de eucariotos (mais de 40% de
identidade), ausência de domínios conservados, preditas para serem
expressas e sem regiões desordenadas; a modelagem molecular (threading
ou ab initio) foi feita através do LOMETS (WU; ZHANG, 2007) e QUARK (XU;
ZHANG, 2012 ); alinhamentos estruturais foram feitos utilizando DALI Server
Três sequências: uma
com homologia
distante com
cupredoxinas, uma β-
barrel family e uma
proteína de ligação à
lipídeos. Entretanto só
uma manteve a
estrutura após
PORTO et al.,
2014a
39

e COFACTOR; e simulações de dinâmica molecular foi utilizada para
validação estrutural.
simulação de dinâmica
molecular em água
40

Tendo isso em consideração pode serpossível a aplicação dessas
técnicas na busca também de PAMs, uma vez que, vários trabalhos têm
mostrado que algumas classes de PAMs apresentam semelhanças estruturais
entre si (SINGH et al., 2014; YEUNG et al. 2016) (Figura 5).
Figura 5: Semelhança estrutural entre diferentes classes de PAMs. À esquerda
no topo é mostrada a estrutura da Esnaquina-1 (PDB ID: 5E5Q), no centro a
estrutura da α-1-purotionina (PDB ID: 2PLH) e à direita a EcAMP1 (PDB ID:
2L2R). Tais estruturas apresentam um motivo estrutural helix-turn-helix
estabilizado por pontes dissulfeto sequenciais. À esquerda abaixo a estrutura da
Laterosporulina (PDB ID: 4OZK) e à direita a HD5 (PDB ID: 2LXZ). Ambas
apresentam a estrutura dobrada em fitas β, formando uma folha β estabilizada
por pontes dissulfeto. As pontes são apresentadas no modelo de esferas e
varetas do Pymol v1.6.

Ademais, estudos têm demonstrado que apesar da variação nas
sequências, em muitos casos a estrutura é conservada. Em CSαβ-defensinas,
por exemplo, foi demonstrado que podem existir três, quatro ou cinco pontes
dissulfeto. Essas pontes adicionais são variáveis e podem ser entre diferentes
cisteínas pela estrutura, dependendo do peptídeo (Figura 6) (ZHU, 2008).
42

Figura 6: Alinhamento de diferentes membros de três classes de PAMs com conservação estrutural apesar da variação na
sequência. As pontes dissulfeto variáveis são mostradas em vermelho. Em laranja estão assinaladas as pontes classe-específicas.

Contudo, apesar da variação nas sequências não se observa diferença
estrutural, sendo os motivos estruturais da família mantidos (ZHU, 2008). De
forma semelhante, outras famílias de PAMs apresentam congruência estrutural
apesar da variação na sequência. Thioninas, por exemplo, apresentam
dobramento similar apesar dos mismatchs nas sequências, podendo ter três ou
quatro pontes dissulfeto, mas sem alteração estrutural (Figura 6). Enquanto isso,
ciclotídeos e inibidores de tripsina, como MCOTI-II, apresentam além da
similaridade estrutural, o mesmo padrão de pontes (Figura 6). Tomando isso em
consideração, seria possível identificar novos peptídeos estabilizados por pontes
dissulfeto através da metodologia descrita por Tomczak et al. (2012) (Tabela 3).
Dessa forma, as metodologias de busca por predições estruturais
poderiam ser aplicadas para identificação de novos membros de STPs em
bancos de dados, uma vez que apresentam grande conservação estrutural. Além
disso, esses peptídeos apresentam grande variação no que concerne a
sequência, o que dificulta a identificação de novos STPs através das
metodologias tradicionais, tais como alinhamentos locais. Sendo assim, essa
abordagem ampliaria a identificação de novas moléculas com esse potencial.
Além disso, é possível e factível o desenvolvimento e aplicação dessas técnicas
na identificação de novos PAMs em genomas e transcriptomas.

3. JUSTIFICATIVAS
O desenvolvimento de resistência por parte de microrganismos
patogênicos a antibióticos pode dificultar o tratamento de infecções gerando
grandes problemas à saúde pública e gastos com tratamentos e internações. Os
PAMs podem ser uma opção para tais casos, podendo ser uma alternativa no
controle desses patógenos. Entretanto, a identificação convencional dessas
moléculas muitas vezes requer dinheiro e tempo. Através de metodologias
computacionais aliadas às grandes quantidades de dados depositados em
bancos públicos pode ser possível selecionar sequências potenciais, encurtando
o processo. Atualmente a identificação de PAMs em bancos se dá
prioritariamente através da estrutura primária, não havendo o uso de predições
estruturais para identificação direta dessas moléculas. Sendo assim, o uso
modelagem molecular na identificação de PAMs pode ajudar na seleção de
peptídeos potencias com implicações de tempo e gasto na identificação de novas
moléculas bioativas.

4. OBJETIVO
4.1 OBJETIVO GERAL
O presente trabalho objetiva o desenvolvimento de uma nova metodologia
de identificação de PAMs em transcriptomas e bancos de dados por meio da
aplicação direta de predição estrutural em bancos de dados.
4.2 OBJETIVOS ESPECÍFICOS
• Desenvolver scripts para seleção de sequências em bancos de dados;
• Predizer a presença do motivo STP de ligação de cisteínas;
• Analisar as sequências quanto à domínios conservados;
• Analisar a identidade das sequências selecionadas com estruturas do PDB;
• Gerar modelos estruturais por meio de metodologias ab initio;
• Predizer o padrão de ligação de pontes;
• Realizar simulações de dinâmica molecular para avaliação estrutural;
• Identificar AMPs potenciais em Zantedeschia aethiopica por meio de
alinhamentos estruturais;

5. METODOLOGIA
5.1 IDENTIFICAÇÃO DE VARIANTES POR THREADING
5.1.1 Pré-filtragem dos dados
Inicialmente foram coletadas todas as sequências sem estrutura
tridimensional resolvida do Antimicrobial Peptides Database (APD – maio de
2015) (http://aps.unmc.edu/AP/main.php; WANG et al., 2009). Este banco
contém sequências de atividade antimicrobiana validada em testes in vitro e/ou
in vivo. Desse conjunto inicial foram coletadas sequências com seis ou mais
resíduos de cisteína, que foram subsequentemente avaliadas quanto à
redundância através do CD-HIT (LI; GODZIK, 2006), sendo retiradas sequências
de 70% de identidade ou mais. As sequências resultantes foram utilizadas para
buscas por meio da ferramenta HHPred (http://toolkit.tuebingen.mpg.de/hhpred;
SÖDING, 2005), sendo selecionadas sequências com similaridade estrutural
com PAMs e variação na disposição ou padrão de pontes dissulfeto. Nessa etapa
foram descartados todos os lantibióticos e sequências com modificações pós-
traducionais que inviabilizassem a modelagem molecular. Após essa pré-
filtragem, o programa LOMETS foi utilizado para a seleção do melhor molde
estrutural, sendo mantidos somente peptídeos que atendessem aos mesmos
requisitos usados na etapa anterior. As sequências resultantes foram então
modeladas (ver sessão 5.1.2) e avaliadas em dinâmicas 50 ns (ver sessão 5.1.3),
sendo descartados todos os peptídeos que perdessem a topologia característica
no período de simulação. O resumo da análise pré-filtragem dos bancos está
descrito na Figura 7.

http://aps.unmc.edu/AP/main.php
http://toolkit.tuebingen.mpg.de/hhpred
47

Figura 7: Sumário de etapas de pré-filtragem do banco. O número de sequências
resultante está descrito à direita de seu respectivo passo. As etapas estão
numeradas na ordem de conclusão.

5.1.2 Modelagem molecular
A modelagem molecular dos peptídeos foi feita através do programa
MODELLER 9.16 (FISER et al., 2000). Para fechamento das pontes adicionais
ou sem cobertura no alinhamento, foram utilizadas as classes de automodel
endêmicas do MODELLER. Foram gerados 100 modelos para cada peptídeo
avaliado, sendo selecionado o melhor modelo através do menor DOPE (Discrete
Optimized Protein Structure) score. Os modelos finais foram submetidos a
análises de qualidade. A avaliação foi feita através dos servidores ProSA II
(WIEDERSTEIN, 2007) e PROCHECK (LASKOWSKI et al., 2007). O software
ProSA II avalia a qualidade do dobramento do modelo através do Z-score, onde
são considerados aceitáveis modelos que apresentem um Z-score semelhante
ao de estruturas resolvidas; enquanto o PROCHECK avalia a qualidade
estereoquímica do modelo analisando a geometria de cada resíduo pelo mapa
de Ramachandran, onde os modelos de melhor qualidade apresentam mais de
90% dos resíduos em regiões favoráveis e permitidas sendo desconsiderados
resíduos de Prolina e Glicina.
5.1.3 Simulações de dinâmica molecular
Os modelos finais foram submetidos a simulações de dinâmica molecular
de 300 ns através do software GROMACS 4.6 a fim deavaliar a manutenção
estrutural. As simulações foram conduzidas utilizando o campo de força
48

GROMOS96 43A1 (HESS et al., 2008). Cada estrutura foi imersa em uma caixa
cúbica de água, com distância de 8 Å para os limites da mesma. A caixa foi
preenchida com o modelo de água single point charge (BERENDSEN et al.,
1981). Íons cloro foram adicionados aos sistemas para neutralizar as cargas
positivas. A geometria das moléculas de água foi forçada através do algoritmo
SETTLE (MIYAMOTO, KOLLMAN, 1992). As ligações atômicas foram feitas
através do algoritmo LINCS (HESS et al., 1997). As correlações eletrostáticas
foram calculadas pelo algoritmo Particle Mesh Ewald (DARDEN et al., 1993),
com um limiar de 1,4 nm. O mesmo limiar foi aplicado para interações de van der
Waals. O algoritmo de steepest descent foi aplicado para minimizar a energia do
sistema por 50.000 passos. Após a minimização de energia, a temperatura
(conjunto NVT) e a pressão (conjunto NPT) do sistema foram normalizadas para
300 K e 1 bar, respectivamente, por 100 ps cada. As simulações completas foram
feitas utilizando o algoritmo leap-frog como integrador. As simulações foram
avaliadas por meio do desvio de raiz quadrada média (RMSD) do backbone das
estruturas ao longo da simulação em relação à estrutura inicial (0 ns) com o uso
do software g_rms do pacote GROMACS. A conservação da estrutura
secundária foi avaliada através do DSSP 2.0.4. As visualizações foram feitas
através do Pymol Molecular Graphics System, Version 1.6 Schrödinger, LLC.
5.2 Identificação de STPs
5.2.1 Pré-filtragem dos bancos dados
Para essa etapa foi utilizado o mesmo banco inicial do tópico 5.1.1. Este
conjunto de dados foi avaliado quanto à redundância através do CD-HIT (LI;
GODZIK, 2006), sendo retiradas sequências de 80% de identidade ou mais.
Após essa avaliação preliminar foram selecionados todos os peptídeos com seis
ou mais resíduos de cisteína e 130 resíduos de aminoácidos ou menos. Todas
as sequências resultantes foram submetidas ao PredSTP (ISLAM et al., 2015),
sendo selecionadas todas as sequências preditas como STP. As sequências
remanescentes foram analisadas quanto à presença de domínios conservados
e similaridade com estruturas depositadas no PDB (Protein Data Bank;
http://www.rcsb.org/pdb/home/home.do). A verificação de domínios conservados
foi feita através do InterPro Scan (https://www.ebi.ac.uk/interpro) (JONES et al.,
http://www.rcsb.org/pdb/home/home.do
https://www.ebi.ac.uk/interpro
49

2014) e RPS-BLAST (Reversed Position Specific BLAST)
(www.ncbi.nlm.nig.gov/cdd), sendo descartadas todas as sequências com
domínios conservados. Já a avaliação de similaridade com sequências de
estrutura resolvida foi feita através do BLAST, foram aceitas sequências com
menos de 30% de identidade com qualquer sequência depositada no PDB. Das
sequências resultantes foram avaliadas somente as sequências que pudessem
ser modeladas e simuladas em dinâmica molecular. O resumo da análise
automática dos bancos está descrito na Figura 8.

Figura 8: Sumário de etapas de avaliação automática do banco. O número de
sequências resultante está descrito à direita de seu respectivo passo. O passo 7
se refere a avaliação manual das sequências remanescentes. As etapas estão
numeradas na ordem de conclusão.

5.2.2 Modelagem molecular
Após os passos descritos acima a sequência resultante foi submetida à
busca de moldes para modelagem comparativa. Entretanto, por ausência de um
molde adequado a modelagem foi gerado um modelo ab initio, utilizando a
ferramenta web QUARK (XU; ZHANG, 2012). O QUARK foi selecionado uma
vez que se mostrou eficaz em fazer predições estruturais, sendo considerado o
melhor servidor de modelagem ab initio por dois anos consecutivos no CASP
http://www.ncbi.nlm.nig.gov/cdd
50

(Critical Assessment of protein Structure Prediction). O modelo resultante foi
utilizado como modelo inicial para predição do padrão de pontes dissulfeto. A
predição das conexões entre as cisteínas foi feita conforme Tomczak et al.
(2012), onde todos os pares possíveis foram verificados seguindo os seguintes
critérios: (i) a distância entre os Carbonos α (Cα) e β (Cβ) sendo menor ou igual
10 Å e menor ou igual 9 Å, respectivamente; (ii) a diferença entre distância entre
os Cβ e a distância entre os Cα sendo ≤ 1 Å; e (iii) haverem, pelo menos, três
aminoácidos entre as cisteínas (TOMCZAK et al., 2012). Todas as pontes que
cumpriram esses requisitos foram consideradas possíveis. O padrão final de
pontes foi selecionado levando em consideração o pareamento que mantivesse
o motivo STP. O modelo final foi gerado através do programa Swiss PDB Viewer
(SPDBV; GUEX; PEITSCH, 1996), onde foi feita a conexão das pontes. O
algoritmo de steepest descent foi aplicado para minimizar a energia do sistema
usando o campo de força GROMOS95, a energia foi minimizada por 2.000
passos. O modelo final foi analisado quanto à semelhança estrutural com
proteínas resolvidas do PDB através do DALI Server (HOLM, 2010) e capacidade
de interação com ligantes por meio do COFACTOR (ROY et al. 2012).
5.3 APLICAÇÃO DAS METODOLOGIAS NO TRANSCRIPTOMA DE
ZANTEDESCHIA AETHIOPICA
5.3.1 Pré-filtragem dos dados
As sequências provenientes do transcriptoma de Zantedeschia aethiopica
foram obtidas dos bancos do nosso laboratório, uma vez que, esse transcriptoma
foi sequenciado e montado pelo mesmo. Além disso, esse grupo de dados foi
analisado quanto a presença de PAMs por meio de RegEx (CÂNDIDO et al.,
2012). Sendo assim, esse set de sequências compõe um bom candidato a
comparações entre a metodologia proposta e buscas por correspondência de
padrão; para tal, foi feito um screening para a identificação de PAMs a título de
comparação entre as metodologias. Não foi feita uma nova montagem do
transcriptoma. A pré-filtragem dos dados foi realizada em dois passos conforme
Cândido et al. (2012), onde: (i) foram coletadas dentre as 29.509 sequências,
peptídeos de até 350 resíduos de aminoácidos com quatro ou mais resíduos de
51

cisteína; e (ii) selecionadas somente sequências com peptídeo sinal e sem
regiões transmembranares.
5.3.2 Modelagem molecular e avaliação de conservação estrutural
Após a pré-filtragem as sequências foram submetidas ao mesmos passos
de avaliação descritos nos tópicos 5.1 e 5.2; as sequências foram avaliadas por
meio do HHPred e LOMETS e posteriormente modeladas e simuladas por 50 ns
(ver sessão 5.1.1). As estruturas geradas que mantiveram a estrutura após a
simulação foram simuladas por mais 250 ns totalizando 300ns de simulação.
Além disso, as sequências foram submetidas ao PredSTP e posteriormente ao
HHPred conforme tópico 5.2.1; entretanto, nenhuma sequência foi selecionada.
As etapas de modelagem e simulações de dinâmica molecular foram realizadas
conforme tópicos sessões 5.1.2 e 5.1.3, respectivamente.
5.3.3 Predição de atividade antimicrobiana
Os dois peptídeos selecionados como potenciais PAMs foram analisados
por meio algoritmos de predição de atividade antimicrobiana. Os algoritmos
utilizados estão disponíveis na plataforma online do CAMP
(http://www.camp.bicnirrh.res.in/) (WAGHU et al., 2016). Foram utilizados os
quatro algoritmos disponíveis na plataforma: SVM, RF, ANN e DA.

6. RESULTADOS
6.1 IDENTIFICAÇÃO DE VARIANTES
6.1.1 Pré-filtragem do banco
A fim de validar a identificação de PAMs por comparações estruturais
foram selecionados peptídeos de atividade antimicrobiana comprovada do APD.
Inicialmente, foram baixadas 1502 sequências sem estrutura resolvida
depositada no PDB (Figura 7, Etapa 1). Após essa etapa as sequências foram
selecionadas pelo número de cisteínas e tamanho das sequências, onde foram
descartadas todas as sequências com menos de 6 cisteínas e mais de 150
resíduos de aminoácido (Figura