Baixe o app para aproveitar ainda mais
Prévia do material em texto
z 1. li Pró-Reitoria Acadêmica Escola de Saúde Programa de Pós-Graduação Stricto Sensu em Ciências Genômicas e Biotecnologia IDENTIFICAÇÃO DE PEPTÍDEOS ANTIMICROBIANOS ATRAVÉS DE PREDIÇÕES ESTRUTURAIS POR MEIO DE THREADING E AB INITIO Brasília - DF 2017 Autor: Állan Pires da Silva Orientador: Prof. Dr. Octávio Luiz Franco ÁLLAN PIRES DA SILVA IDENTIFICAÇÃO DE PEPTÍDEOS ANTIMICROBIANOS ATRAVÉS DE PREDIÇÕES ESTRUTURAIS POR MEIO DE THREADING E AB INITIO Dissertação apresentada ao Programa de Pós- Graduação Strictu Sensu em Ciências Genômicas e Biotecnologia da Universidade Católica de Brasília, como requisito parcial para obtenção do Título de Mestre em Biotecnologia. Orientador: Prof. Dr. Octávio Luiz Franco Brasília 2017 Ficha elaborada pela Biblioteca Pós-Graduação da UCB S586i Silva, Állan Pires da. Identificação de peptídeos antimicrobianos através de predições estruturais por meio de Threading e Ab Initio / Állan Pires da Silva – 2017. 103 f. : il.; 30 cm Dissertação (Mestrado) – Universidade Católica de Brasília, 2017. Orientação: Prof. Dr. Octávio Luiz Franco 1. Bancos de dados. 2. STP. 3. Peptídeos antimicrobianos. 4. Transcriptoma. 5. Dinâmica molecular. I. Franco, Octávio Luiz, orient. II. Título. CDU 606 Dedico este trabalho primeiramente a Deus que me deu as ferramentas e as oportunidades necessárias para o feito. Dedico também esse trabalho à Ciência, que ele possa ser de importância e valia à evolução da mesma. AGRADECIMENTO Agradeço inicialmente a Deus pelos mesmos motivos que dedico este trabalho a Ele. Agradeço também à minha família, pois ela é o alicerce fundamental da vida de qualquer pessoa. Em especial, agradeço, à minha irmã e minha mãe que sempre me apoiam e me admiram pelo que eu faço, mesmo não entendendo muitas vezes. Agradeço à minha namorada e futura esposa, Karen, que sempre me apoiou e me deu forças para permanecer firme nos meus propósitos, colocando, às vezes, até seus próprios sonhos de lado para que eu possa conquistar os meus. Agradeço também aos meus fiéis companheiros de caminhada Julia, Fábio e Rayssa que sempre me encheram o saco para que eu pudesse me esforçar mais e ser alguém na vida. Agradeço aos meus amigos que sempre ficam me chamando para sair mesmo quando eu tenho um prazo apertado para entregar meus trabalhos. Agradeço aos meus colegas de laboratório que me ampararam na aterrorizante bancada, onde nada dá certo. Em especial o grupo do CAPB que sempre me auxilia nos meus experimentos e aos alunos da professora Cristine Barreto, que sempre me tiraram dúvidas e até pararam seus próprios trabalhos para me auxiliarem. Agradeço de forma especial ao Will, que, apesar de ser bem mau humorado às vezes e sem paciência, sempre me ajudou em tudo que eu tentei fazer e me ensinou uma grande parcela do que sei. Agradeço a menino Marx (baiano) por ser humilhado no SuperTuxKart. Agradeço ao meu orientador Octávio que acreditou em mim e me deu suporte e uma chance de conhecer o mundo da Ciência, a ele eu devo boa parte do que sou hoje, tanto intelectualmente quanto profissionalmente. Disseram-me uma vez que gentileza gera gentileza e por tudo que o professor Octávio me proporcionou eu aprendi o que é ser humilde e ajudar os outros, e com certeza, no futuro, eu me lembrarei da forma em que fui tratado quando tratar os outros. Obrigado, professor. Agradeço também aos membros da banca, sem os senhores nada disso seria possível. E por fim, mas não menos importante, agradeço a todo corpo docente da UCB que sempre foi cordial e atencioso em atender as necessidades dos alunos e à secretária do programa, Mara, que sempre nos ajuda a fazer escolhas acertadas e resolver os problemas em que nos colocamos com a Universidade. Por último e não menos importante, o Sci-Hub, provedor de artigos de todo pós-graduando. “Sabe-se que há um número infinito de mundos, simplesmente porque há um espaço infinito para que os haja. Todavia, nem todos são habitados. Assim, deve haver um número finito de mundos habitados. Qualquer número finito dividido pelo infinito é tão perto de zero que não faz diferença, de forma que a população de todos os planetas do Universo pode ser considerada igual a zero. Daí segue que a população de todo o Universo também é zero, e que quaisquer pessoas que você possa encontrar de vez em quando são meramente produtos de uma imaginação perturbada. ” Guia do Mochileiro das Galáxias, Douglas Adams RESUMO Referência: PIRES, Állan da Silva. Identificação de peptídeos antimicrobianos através de predições estruturais por meio de threading e ab initio. Atualmente, várias bactérias podem ser prejudiciais à saúde humana. Além disso, com o uso contínuo de antibióticos, e desenvolvimento de resistência por parte desses microrganismos, muitas infecções se tornaram preocupantes, sem tratamentos eficazes disponíveis gerando a necessidade de desenvolvimento de outras moléculas de combate. Nesse âmbito, os peptídeos antimicrobianos (PAMs) têm sido propostos como uma alternativa no controle de infecções causadas por microrganismos resistentes. Apesar da variabilidade nas sequências, os PAMs podem apresentar grande conservação estrutural em famílias específicas, principalmente em peptídeos estabilizados por pontes dissulfeto. De forma canônica, a identificação de PAMs se dá pela exploração de extratos naturais bioativos e posterior análise e purificação dos mesmos. Na era pós-genômica, por sua vez, a identificação de PAMs pode ser feita a partir de bancos de dados utilizando modelagem molecular na busca direta de peptídeos. Nesse trabalho foram selecionados PAMs sem estrutura no PDB, a partir do banco de dados de peptídeos antimicrobianos (APD) (http://aps.unmc.edu/AP/main.php). Desta forma, as sequências foram pré- filtradas, sendo selecionados dois PAMs (miticina B e MiAMP-2b) de classes descritas com variação na disposição ou padrão de pontes dissulfeto. Além disso, o banco original foi submetido à identificação de STPs. Para tal, o servidor PredSTP foi utilizado como avaliação adicional. Ao final das etapas de pré- filtragem, um novo potencial STP (CRS4C-2b) com uma nova topologia estrutural foi modelado pelo QUARK e simulado em dinâmica molecular, mantendo a estrutura inicial. A metodologia foi então aplicada para identificação de PAMs no transcriptoma de Zantedeschia aethiopica onde foram encontrados dois novos potenciais PAMs que foram preditos como ativos pelo CAMP. Dessa forma, as duas metodologias desenvolvidas aqui podem ser aplicadas com sucesso na identificação de novos PAMs e na análise de diversidade estrutural de famílias antimicrobianas. Palavras-chave: Bancos de dados. STP. Peptídeos Antimicrobianos. Transcriptoma. Dinâmica molecular. http://aps.unmc.edu/AP/main.php ABSTRACT Reference: PIRES, Állan da Silva. Identification of antimicrobial peptides throug structural prediction by threading and ab initio. Currently, various bacteria can be harmful to human health. Moreover, with continued use of antibiotics and development of resistance bythese microorganisms, many infections became worrying, with no effective treatments available generating the need for development of other fighting molecules. In this context, the antimicrobial peptides (AMPs) have been proposed as an alternative in the control of infections caused by resistant microorganisms. Despite the variation in sequence levels, AMPs may present high structural conservation in specific families, especially peptides stabilized by disulfide bonds. Canonically, the identification of PAMs is by exploitation of bioactive natural extracts and subsequent analysis and purification thereof. In the post genomics era, in turn, identifying PAMs could be made from databases using molecular modeling of peptides in direct search. In this work were selected AMPs without structure in PDB, from antimicrobial peptide database (APD) (http://aps.unmc.edu/AP/main.php). The sequences were pre-filtered, being selected two AMPs (myticin B and MiAMP-2b) of classes described with modifications in disulfide bonds pattern arrangement. Additionally, the original bank was submitted to STPs identification. PredSTP was used as an additional evaluation. After prefiltering phases, a new potential STP (CRS4C-2b) with a new hypothetical structural topology was modelled by QUARK and simulated at 300 ns molecular dynamics, maintaining the initial structure. The methodology was then applied to identify PAMs in the Zantedeschia aethiopica transcriptome where two new potential PAMs were found that were predicted to be active by CAMP. Thus, the two methodologies developed here can be successfully applied in the identification of new PAMs and in the analysis of the structural diversity of antimicrobial families. Keywords: Database. STP. Antimicrobial Peptides. Transcriptome. Molecular dynamics. LISTA DE ILUSTRAÇÕES Figura 1: Número de antibióticos desenvolvidos e aprovados para comercialização pelo FDA no intervalo de 1980-2014. No eixo horizontal estão representados os intervalos de quatro anos e no eixo vertical está representado o número de moléculas desenvolvidas e aprovadas para comercialização. Adaptado de Ventola (2015)............................................................................. 21 Figura 2: Divisão dos PAMs em grupos utilizando estrutura terciaria. Estrutura em Hélice α: LL-23 (PDB ID: 2LMF), uma catelicidina humana; Fita β: HD5 (PDB ID: 2LXZ), uma α-defensina humana. Estrutura Mista: AhPDF1 (PDB ID: 2M8B), uma CSαβ-defensina de Arabidopsis halleri; estrutura mista: Indolicidina (PDB ID: 1QXQ), peptídeo de estrutura desordenada proveniente de Bos taurus. As pontes dissulfeto são mostradas em esferas e varetas. ................................... 23 Figura 3: Diversidade estrutural de STPs. As três diferentes famílias estruturais de STPs: “STPs não atados” representada por lucifesina (PDB ID: 2LLD); ciclótides representada por cicloviolacina O1 (PDB ID: 1NBJ); e ICKs representada por conotoxina GS (PDB ID: 1AG7). .......................................... 25 Figura 4: Dois principais tipos de metodologias de identificação por correspondência de padrão. À esquerda a representação de uma RegEx dividida em caractere coringa, que representa qualquer aminoácido; caractere fixo, onde só há correspondência ao aminoácido representado; e caractere Ambíguo, onde há correspondência a qualquer dos aminoácidos entre colchetes. Entre parênteses está representada a extensão do caractere coringa, sendo, nesse caso de 5-6 aminoácidos. À direita a representação gráfica de um HMM, onde, de forma semelhante à RegEx há caracteres coringa, ambíguos e fixos. Entretanto há probabilidade atribuída à cada posição, neste caso representado pelo tamanho da letra, ou seja, aminoácidos representados por letras mais extensas têm maior probabilidade. O modelo de HMM foi obtido do Pfam. ..... 27 Figura 5: Semelhança estrutural entre diferentes classes de PAMs. À esquerda no topo é mostrada a estrutura da Esnaquina-1 (PDB ID: 5E5Q), no centro a estrutura da α-1-purotionina (PDB ID: 2PLH) e à direita a EcAMP1 (PDB ID: 2L2R). Tais estruturas apresentam um motivo estrutural helix-turn-helix estabilizado por pontes dissulfeto sequenciais. À esquerda abaixo a estrutura da Laterosporulina (PDB ID: 4OZK) e à direita a HD5 (PDB ID: 2LXZ). Ambas apresentam a estrutura dobrada em fitas β, formando uma folha β estabilizada por pontes dissulfeto. As pontes são apresentadas no modelo de esferas e varetas do Pymol v1.6. ..................................................................................... 40 Figura 6: Alinhamento de diferentes membros de três classes de PAMs com conservação estrutural apesar da variação na sequência. As pontes dissulfeto variáveis são mostradas em vermelho. Em laranja estão assinaladas as pontes classe-específicas. ........................................................................................... 42 Figura 7: Sumário de etapas de pré-filtragem do banco. O número de sequências resultante está descrito à direita de seu respectivo passo. As etapas estão numeradas na ordem de conclusão. ................................................................ 47 Figura 8: Sumário de etapas de avaliação automática do banco. O número de sequências resultante está descrito à direita de seu respectivo passo. O passo 7 se refere a avaliação manual das sequências remanescentes. As etapas estão numeradas na ordem de conclusão. ................................................................ 49 Figura 9: Estrutura final dos peptídeos após fechamento das pontes. À esquerda miticina B, defensina de molusco e a direita MiAMP-2b, alpha helical hairpin. As pontes dissulfeto são mostradas no modelo de esferas e varetas. A imagem foi gerada através do Pymol 1.6............................................................................ 54 Figura 10: RMSD do backbone durante o tempo de simulação de 300ns. A variação foi plotada tendo como ponto inicial a estrutura em 0ns dos respectivos peptídeos. À esquerda miticina B, defensina de molusco e a direita MiAMP-2b, alpha helical hairpin. ......................................................................................... 55 Figura 11: Ratio mean square frequence (RMSF) da estrutura após 300ns. A variação foi plotada na estrutura à 0ns dos respectivos peptídeos. À esquerda miticina B, defensina de molusco e a direita MiAMP-2b, alpha helical hairpin. O grau de movimentação está representado pela cor, sendo que, quando mais próximo de vermelho, maior a variação. Sendo assim, cores quentes reprensentam maior variação. A imagem foi gerada através do Pymol 1.6. .... 56 Figura 12: Estrutura final após 300ns de simulação (Parte superior) de miticina B (Parte superior esquerda) e MiAMP-2b (Parte superior direita). As pontes dissulfeto são mostradas em esferas e varetas. A visualizações foram feitas por meio do Pymol v1.6. Variação estrutural de miticina B e MiAMP-2b no decorrer do tempo de simulação (Parte inferior). As cores representam diferentes tipos de estrtura secundária que são representados no seguinte padrão: coil em branco; Fitas β em vermelho; β bridges em preto; bends em verde; turns em amarelo; α- hélices em azul, hélices π em roxo e hélices 3-10 em cinza. ............................. 58 Figura 13: Estrutura final após fechamento das pontes. As cisteínas estão assinaladas por cores correspondentes às pontes, ou seja, as cisteínas assinaladas na mesma cor formam pontes entre si. A císteína na posição 35 pode ser responsável pela conexão com a outra subunidade do dímero. Na parte inferior é ilustrado o duplo padrão STP. A imagem foi gerada através do Pymol 1.6. ................................................................................................................... 61 Figura 14: Análise do RMSD do backbone deCRS4C-2b durante o tempo de simulação de 300ns. A variação foi plotada tendo como ponto inicial a estrutura em 0ns dos respectivos peptídeos. .................................................................. 62 Figura 15: RMSF da estrutura de CRS4C-2b após 300ns. A variação foi plotada na estrutura à 0ns do peptídeo (esquerda). O grau de movimentação é representado pela cor, sendo que, quando mais próximo de vermelho, maior a variação. Sendo assim, cores quentes reprensentam maior variação. A imagem foi gerada através do Pymol 1.6. Gráfico de movimentação por resíduos (direita). A movimentação é mostrada em angstroms. ................................................... 63 Figura 16: Variação estrutural do peptídeo no decorrer do tempo de simulação (esquerda). As cores represntam diferentes tipos de estrtura secundária que são representados no seguinte padrão: coil em branco; Fitas β em vermelho; β bridges em preto; bends em verde; turns em amarelo; α-hélices em azul, hélices em roxo e hélices 3-10 em cinza. Estrutura final após 300ns de simulação (direita). As pontes dissulfeto são mostradas em esferas e varetas. A visualizações foram feitas por meio do Pymol v1.6. ......................................... 64 Figura 17: Estrutura final de Za-LTP4 e Za-BB1. À esquerda Za-LTP4, LTP com apenas três pontes e a Za-BB1, β-barrelina com uma só ponte. No caso de Za- LTP4 o lipídeo (Lisofosfatidilglicerol) utilizado é proveniente do modelo usado como molde e é mostrado no modelo de varetas. As pontes dissulfeto são mostradas no modelo de esferas e varetas. A imagem foi gerada através do Pymol 1.6. ........................................................................................................ 67 Figura 18: RMSD do backbone de Za-LTP4 e Za-BB1 durante o tempo de simulação de 300ns. A variação foi plotada tendo como ponto inicial a estrutura em 0ns dos respectivos peptídeos. À esquerda Za-LTP4 e a direita Za-BB1. . 68 Figura 19: RMSF de todos os resíduos de Za-LTP4 e Za-BB1 durante o tempo de simulação de 300ns. A variação foi plotada tendo como ponto inicial a estrutura em 0ns dos respectivos peptídeos. À esquerda Za-LTP4 e a direita Za- BB1. ................................................................................................................. 68 Figura 20: Estrutura final após 300ns de simulação de Za-LTP4 e Za-BB1. Variação estrutural dos peptídeos Za-LTP4 (cima) e Za-BB1 (baixo) no decorrer do tempo de simulação. As cores representam diferentes tipos de estrutura secundária que são representados no seguinte padrão: coil em branco; Fitas β em vermelho; β bridges em preto; bends em verde; turns em amarelo; α-hélices em azul, hélices em roxo e hélices 3-10 em cinza. Estrutura final após 300ns de simulação (direita). As pontes dissulfeto são mostradas em esferas e varetas. A visualizações foram feitas por meio do Pymol v1.6. ......................................... 69 LISTA DE TABELAS Tabela 1: Principais servidores e programas para predição de atividade antimicrobiana e seus respectivos treinamentos e acurácia.............................................................................................................31 Tabela 2: Principais servidores de modelagem por threading e ab initio e descrição dos seus respectivos métodos..................................................34 Tabela 3: Resumo de metodologias que utilizaram modelagem e/ou dinâmica molecular para identificação de proteínas em bancos de dados....................37 Tabela 4: Resumo das validações da modelagem molecular de miticina B e MiAMP-2b..........................................................................................................51 Tabela 5: Resumo das validações da modelagem molecular de Za-LTP4 e Za- BB1....................................................................................................................63 Tabela 6: Scores de predição de atividade antimicrobiana de Za-LTP4 e Za-BB1 gerados pelos quatro algorítmos de CAMP. Valores acima de 0,5 caracterizam o peptídeo como PAM. As siglas se referem, respectivamente, a Support Vector machine, Random Forest, Artificial Neural Network e Discriminant Analysis......67 . SUMÁRIO 1. INTRODUÇÃO ...................................................................................................... 18 2. REVISÃO DA LITERATURA ............................................................................. 20 2.1 RESISTÊNCIA BACTERIANA .................................................................... 20 2.2 PEPTÍDEOS ANTIMICROBIANOS ............................................................ 22 2.3 PEPTÍDEOS CONTENDO TRÊS PONTES SEQUENCIAIS ................. 24 2.4 IDENTIFICAÇÃO DE PAMS EM BANCOS DE DADOS ........................ 25 2.4.1 Identificação direta no banco de dados ........................................ 26 2.4.2 Predições de atividade antimicrobiana ......................................... 30 2.4.3 Predições estruturais ......................................................................... 34 3. JUSTIFICATIVAS ................................................................................................ 44 4. OBJETIVO ............................................................................................................. 45 4.1 OBJETIVO GERAL ....................................................................................... 45 4.2 OBJETIVOS ESPECÍFICOS ....................................................................... 45 5. METODOLOGIA ................................................................................................... 46 5.1 IDENTIFICAÇÃO DE VARIANTES POR THREADING .......................... 46 5.1.1 PRÉ-FILTRAGEM DOS DADOS ......................................................... 46 5.1.2 MODELAGEM MOLECULAR .............................................................. 47 5.1.3 SIMULAÇÕES DE DINÂMICA MOLECULAR ................................... 47 5.2 IDENTIFICAÇÃO DE STPS ........................................................................ 48 5.2.1 PRÉ-FILTRAGEM DOS BANCOS DADOS ....................................... 48 5.2.2 MODELAGEM MOLECULAR .............................................................. 49 5.3 APLICAÇÃO DAS METODOLOGIAS NO TRANSCRIPTOMA DE ZANTEDESCHIA AETHIOPICA ............................................................................ 50 5.3.1 PRÉ-FILTRAGEM DOS DADOS ......................................................... 50 5.3.2 MODELAGEM MOLECULAR E AVALIAÇÃO DE CONSERVAÇÃO ESTRUTURAL ...................................................................................................... 51 5.3.3 PREDIÇÃO DE ATIVIDADE ANTIMICROBIANA ............................. 51 6. RESULTADOS ..................................................................................................... 52 6.1 IDENTIFICAÇÃO DE VARIANTES ............................................................ 52 6.1.1 PRÉ-FILTRAGEM DO BANCO ........................................................... 52 6.1.2 SIMULAÇÕES DE DINÂMICA MOLECULAR ................................... 54 6.2 IDENTIFICAÇÃO DE STPS ........................................................................ 59 6.2.1 SCREENING COMPUTACIONAL ...................................................... 59 6.2.2 MODELAGEM MOLECULAR E PADRÃO DE PONTES ................ 60 6.2.3 MANUTENÇÃO ESTRUTURAL DURANTE AS SIMULAÇÕES DE DINÂMICA MOLECULAR ................................................................................... 61 6.3 APLICAÇÃO DAS METODOLOGIAS NO TRANSCRIPTOMA DE ZANTEDESCHIA AETHIOPICA ............................................................................ 65 6.3.1 PRÉ-FILTRAGEM DOS DADOS ......................................................... 65 6.3.2 BUSCAPOR PAMS NO TRANSCRIPTOMA DE Z. AETHIOPICA65 6.3.3 SIMULAÇÕES DE DINÂMICA MOLECULAR ................................... 67 6.3.4 PREDIÇÕES DE ATIVIDADE ANTIMICROBIANA .......................... 70 7. DISCUSSÃO ......................................................................................................... 71 8. CONCLUSÃO ....................................................................................................... 80 9. REFERÊNCIAS .................................................................................................... 81 10. APÊNDICE A – PRODUÇÃO ACADÊMICA ............................................... 93 11. APÊNDICE B – ARTIGOS SUBMETIDOS PARA PUBLICAÇÃO .......... 99 12. APÊNDICE C – PRÉ-FILTRAGEM DOS DADOS (SIMULAÇÕES DE 50NS) ........................................................................................................................... 100 13. APÊNDICE D – SEQUÊNCIAS SELECIONADAS APÓS AS ETAPAS DE PRÉ-FILTRAGEM DOS DADOS ..................................................................... 103 18 1. INTRODUÇÃO Diversas bactérias podem ser prejudiciais à saúde humana, seja pela produção de metabólitos e toxinas ou pelo contágio direto (CDC, 2015). Devido ao uso contínuo de antibióticos e o desenvolvimento de resistência por parte desses microrganismos, atualmente não existem tratamentos eficazes para muitas infecções, gerando a necessidade de desenvolvimento de novas moléculas de controle e combate (CORONA; MARTINEZ, 2013). Nesse âmbito, os peptídeos antimicrobianos (PAMs) têm sido propostos como uma alternativa no controle de infecções causadas por microrganismos resistentes. Os PAMs são, geralmente, moléculas anfipáticas, de carga líquida positiva (de +3 a +9) e com tamanho de até 100 aminoácidos. Essas moléculas podem estar presentes em quase todos os organismos e são tidos como a primeira linha de combate às infecções, atuando como parte da defesa inata dos seres vivos, sendo ativos contra, por exemplo, bactérias, fungos e vírus (GANZ, 2003). Dentre os diferentes PAMs destacam-se os STPs (Sequential Tri-disulfide peptides), peptídeos estabilizados por pontes dissulfeto conhecidas por sua toxicidade à diversos organismos, funcionando como defesa natural em seus hospedeiros nativos contra potenciais patógenos (LEWIS; GARCIA, 2003). Essa classe de peptídeos inclui ciclótides, toxinas, knottins e CSαβ-defensinas, compreendendo uma grande parcela de famílias de PAMs, estando presente em vários grupos de seres vivos como plantas, fungos e insetos. Apesar da grande distância entre os membros dos STPs, esse grupo apresenta um motivo de cisteína compacto formado por três pontes sequenciais (Cys1-Cys4, Cys2-Cys5, Cys3-Cys6), conferindo estabilidade às moléculas (ISLAM et al., 2015). Além dessas três pontes, esse grupo pode apresentar pontes adicionais, as quais variam em quantidade e posição, dependendo do organismo de origem (ZHU et al., 2008). Apesar da variação em nível de sequência e das pontes adicionais, esse grupo apresenta grande conservação estrutural. Essas moléculas apresentam grande atividade contra bactérias Gram-positivas, sendo candidatos a novos fármacos. Existe também a possibilidade de alguns desses peptídeos apresentarem outros tipos de atividades, caracterizando-os como multifuncionais (FRANCO et al., 2011). 19 Na era pós-genômica, com o aumento do número de sequências depositadas em bancos públicos, bem como o desenvolvimento de diversas técnicas de análise desses dados, a identificação de PAMs a partir de bancos de dados tem ganhado atenção, se tornando uma ramificação da genômica estrutural e bioinformática. Ainda assim, a maior parte das sequências depositadas em bancos permanece sem qualquer tipo de avaliação funcional. Isto se deve, em parte, ao fato de a maioria das buscas e avaliações em bancos se basearem apenas na busca pela sequência (MULVENNA et al., 2006; ZHU et al., 2006; PORTO et al., 2014), sendo as informações estruturais apenas usadas como validação adicional (MULVENNA et al., 2006; PORTO et al., 2012; 2014). Entretanto, a modelagem molecular pode ser utilizada na busca direta de peptídeos que pertencem às classes já descritas, além de proporcionar a identificação de homólogos distantes. Isso pode ser possível uma vez que em diversas famílias de PAMs, apesar da grande variação em nível de sequência, há conservação estrutural (ZHU et al., 2005). Desta forma, o objetivo do presente trabalho consiste em desenvolver duas novas metodologias de identificação de PAMs por meio de predições estruturais para a identificação em bancos de sequências, incluindo dados genômicos e transcriptômicos. 20 2. REVISÃO DA LITERATURA 2.1 RESISTÊNCIA BACTERIANA Bactérias são microrganismos versáteis que participam de diversas interações biológicas com quase todos os tipos de seres vivos (TORTORA et al., 2012). Estes organismos podem viver em condições variadas e desempenhar papéis importantes na sobrevivência de seus hospedeiros, gerando interações consideradas harmônicas por trazerem benefícios a ambos os indivíduos participantes. Entretanto, uma grande parcela de bactérias pode ser patogênica a seres humanos, gerando infecções, que, em alguns casos, podem até levar seus hospedeiros a óbito. Por esse motivo, vários têm sido os esforços em gerar substâncias capazes de combater e prevenir o desenvolvimento de infecções. Os antibióticos surgiram como uma forma de combate a microrganismos patogênicos. A partir da descoberta da penicilina em 1929, uma gama de antibióticos foi desenvolvida (e.g. estreptomicina, neomicina e eritromicina) (WAKSMAN; WOODRUFF, 1943; WAKSMAN; LECHEVALIER, 1949; MCGUIRE et al., 1949). Entretanto, o uso contínuo desses antibióticos combinado à capacidade de adaptação bacteriana, aos poucos geraram patógenos resistentes a essas moléculas (CORONA; MARTINEZ, 2013). A resistência a antibióticos pode ser definida como a capacidade de um organismo em resistir a moléculas originalmente efetivas no tratamento de infecções causadas por ele, segundo a Organização Mundial da Saúde (World Health Organization; WHO, 2015). Essa resistência consiste em um mecanismo natural de sobrevivência. Entretanto, o uso de antibióticos de forma inadequada ou indiscriminada gera uma pressão seletiva, acelerando o processo e favorecendo o desenvolvimento e proliferação de bactérias resistentes. Ademais, o desenvolvimento e propagação de resistência por parte de bactérias se agrava pela capacidade desses microrganismos de compartilhar plasmídeos e outros fragmentos de DNA com outras bactérias, assim como sua alta taxa de mutação e inserções de material genético por bacteriófagos (ALEKSHUN; LEVY, 2007). Tais mecanismos se tornam ainda mais preocupantes, se analisada a taxa de novos antibióticos que chegam ao mercado (Figura 1). Em 2014, por 21 exemplo, somente quatro novos antibióticos foram aprovados para comercialização pelo FDA (Food and Drug Administration, EUA) (VENTOLA, 2015). Em contraste, a resistência antimicrobiana tem evoluído rapidamente, sendo um problema constante em tratamentos a infecções (PFEIFER et al., 2010), sendo necessárias, cada vez mais, altas doses de antibióticos e, por vezes, combinações de diferentes compostos para maior eficácia do tratamento. Figura 1: Número de antibióticos desenvolvidos e aprovados para comercialização pelo FDA no intervalo de 1980-2014. No eixo horizontal estão representados os intervalos de quatro anos e no eixo vertical está representado o número de moléculas desenvolvidas e aprovadas para comercialização. Adaptado de Ventola (2015). Atualmente existem bactérias que podem ser resistentes a vários antibióticos. Dentre estas podem ser citadas como cepas de Staphylococcus aureus e Klebsiella sp. resistentes à aminoglicosídeose β-lactâmicos, respectivamente (BUSH et al., 2001; BREIDENSTEIN et al, 2011), bem como cepas resistentes à carbapenêmicos como KPCs (Klebsiella pneumoniae carbapnemase) e algumas cepas de Escherichia coli (CDC, 2016) ou resistentes à vancomicina como cepas de S. aureus (CETINKAYA et al., 2000). Esses microrganismos podem causar morbidade e óbitos, além do agravamento do quadro clínico de vários pacientes. Nos Estados Unidos, por ano, 23 mil pessoas vão a óbito, infectadas por bactérias resistentes, segundo dados do CDC (Center for disease control and prevention) (CDC, 2015). Isso se repete na União Europeia, onde tem sido estimado que cerca de 25 mil pessoas sejam vítimas 22 fatais de infecções por bactérias resistentes por ano, segundo o ECDC (European Center for Disease Prevention and Control) (ECDC, 2015). No Brasil, vários casos com Klebsiella sp. e Staphylococcus sp. resistentes causam várias mortes em hospitais (OLIVEIRA et al., 2010). Outro fator que pode acarretar maior preocupação são os pacientes em Unidades de Tratamento Intensivo (UTIs). Entre 2005 e 2008, aproximadamente 20% desses pacientes sofreram infecção hospitalar e, destes, 10% foram a óbito (OLIVEIRA et al., 2010). Isso ocorre devido ao fato de pacientes em unidades de tratamento se encontram mais susceptíveis a esses patógenos devido a sua baixa imunidade, fomentando o fato de 60% dos surtos infecciosos iniciarem em UTIs (OLIVEIRA et al., 2010). Além dos riscos à saúde, os gastos com tratamentos podem chegar a 20 bilhões de dólares no mundo segundo Ventola (2015). Deste modo, novas alternativas de combate a esses microrganismos são necessárias. 2.2 PEPTÍDEOS ANTIMICROBIANOS Nesse cenário, os peptídeos antimicrobianos (PAMs) têm sido propostos como uma alternativa no controle de bactérias resistentes. Os PAMs podem ser considerados a primeira linha de combate às infecções, atuando como parte da defesa inata de diversos organismos como plantas, animais e fungos (GANZ, 2003). Essas moléculas atuam protegendo as superfícies internas e externas do hospedeiro, tendo sido demonstradas atividades contra vários tipos de microrganismos como bactérias, vírus e fungos além de atividade imunomodulatória e antitumoral (NIJNIK; HANCOCK, 2009). Em relação às características físico-químicas, os PAMs podem ser anfipáticos, com carga líquida positiva de +3 a +9 e tamanho variando entre 12 e 100 aminoácidos (SILVA et al., 2011). Os PAMs podem ser divididos em grupos, que são organizados baseando-se em suas estruturas (SILVA et al. 2011) ou na presença/ausência de pontes dissulfeto (BROGDEN, 2005) (Figura 2). Estruturalmente, podemos dividir os PAMs em quatro grupos: (i) hélices α, como as catelicidinas (WANG, 2012); (ii) folha β, como α-defensinas (WOMMACK et al., 2012); (iii) estruturas estendidas, como a indocidina (ROZEK et al., 2003) e (iv) estruturas mistas como 23 CSαβ-defensinas (MEINDRE et al., 20143), compostas por mais de um tipo de estrutura (Figura 2). Figura 2: Divisão dos PAMs em grupos utilizando estrutura terciaria. Estrutura em Hélice α: LL-23 (PDB ID: 2LMF), uma catelicidina humana; Fita β: HD5 (PDB ID: 2LXZ), uma α-defensina humana. Estrutura Mista: AhPDF1 (PDB ID: 2M8B), uma CSαβ-defensina de Arabidopsis halleri; estrutura mista: Indolicidina (PDB ID: 1QXQ), peptídeo de estrutura desordenada proveniente de Bos taurus. As pontes dissulfeto são mostradas em esferas e varetas. Os PAMs, segundo Brand et al. (2012), podem ainda ser divididos em: encriptados, que correspondem a trechos de sequências maiores que podem ou não ser clivados por meio de proteólise (BRAND et al., 2012); naturais, que correspondem a peptídeos produzidos por genes dedicados em organismos (CÂNDIDO et al., 2011; PINTO et al., 2011; RIBEIRO et al., 2012); e artificiais, que correspondem a peptídeos desenhados por diferentes tipos de metodologia (LOOSE et al., 2006; CHERKASOV et al., 2009; CARDOSO et al., 2016). 24 Os PAMs têm diversos mecanismos de ação intracelular e/ou extracelular, variando de acordo com as características físico-químicas, alvo, bem como relacionado à concentração do peptídeo (PAREDES-GAMERO et al., 2012). Entre os mecanismos extracelulares estão degradação e/ou formação de diferentes tipos de poros na membrana e outros danos à membrana celular (BROGDEN, 2005). Já de forma intracelular pode-se destacar a inibição de formação de parede celular (YOUNT; YEAMAN, 2013) e a inibição da síntese de proteínas e material genético (CHO et al., 2009). Além dessas características, essas moléculas podem se apresentar na forma de monômeros, dímeros ou até outros oligômeros (RAJABI et al., 2012). Atualmente apenas dois antibióticos comercializados são derivados de PAMs. A polimixina B, derivado de fonte bacteriana e a gramicidina S (BRADSHAW, 2003). A polimixina B tem sido usada em conjunto com outros antibióticos como gramicidina, neomicina ou bacitracina; e pode ser aplicada em tratamentos de conjuntivite e outras doenças nos olhos, sendo de uso tópico, apesar de também demonstrar atividade quando administrado via oral (BRADSHAW, 2003). Já a gramicidina S apresenta uso tópico e tem sido aplicada para tratamentos de feridas superficiais e úlceras genitais. Esse fármaco apresenta mais efetividade contra bactérias Gram-positivas, mas também é ativo contra Gram-negativas (BRADSHAW, 2003). Ainda assim, PAMs têm algumas limitações, como a degradação proteolítica e a toxicidade, sendo os peptídeos ou desativados pelo organismo ou causadores de reações adversas ao paciente (BRADSHAW et al., 2003). Além disso, algumas dessas moléculas podem causar alergias, como a polimixina B, por exemplo, tornando inviável sua aplicação de forma ampla, podendo ser uma limitação do uso. 2.3 PEPTÍDEOS CONTENDO TRÊS PONTES SEQUENCIAIS Dentre os peptídeos antimicrobianos com conservação de características estruturais apesar da variação nas sequências podemos citar os peptídeos de três pontes sequenciais (Sequential tri-disulfide peptides, STP). Essas moléculas podem ser conhecidas por sua toxicidade à diversos tipos de organismos, funcionando como defesa natural em seus hospedeiros nativos contra potenciais patógenos (LEWIS; GARCIA, 2003). Essa classe de peptídeos inclui ciclótides, 25 toxinas de artrópodes, knottinas e CSαβ-defensinas, compreendendo uma grande parcela de famílias de PAMs (Figura 3). Apesar de bastante diferentes entre si, todos os membros dos STPs apresentam um motivo de cisteína compacto formado por três pontes sequenciais (Cys1-Cys4, Cys2-Cys5, Cys3- Cys6), característica que confere estabilidade e adaptação às moléculas (ISLAM et al., 2015). STPs podem ainda ser divididos em três grupos principais incluindo os ciclotídeos, com N- e C-terminal ligados (COLGRAVE; CRAIK, 2004); ICKs (Inhibitor cysteine knotts) ou knotinas, onde a disposição das pontes forma uma espécie de nó, uma vez que a terceira ponte penetra entre as duas outras (MATSUMARA et al., 1989); e “STPs não atados” que apresentam as pontes sem a formação de “nós” na disposição (POSSANI et al., 1999) (Figura 3). Figura 3: Diversidade estrutural de STPs. As três diferentes famílias estruturais de STPs: “STPs não atados” representada por lucifesina (PDB ID: 2LLD); ciclótides representada por cicloviolacina O1 (PDB ID: 1NBJ); e ICKs representada por conotoxina GS (PDB ID: 1AG7). 2.4 IDENTIFICAÇÃO DE PAMS EM BANCOS DE DADOS De forma canônica, a identificação de PAMs se dá pela exploração de extratos naturais bioativos e posterior análise e purificação dos mesmos. 26 Todavia, os custos e o tempo gasto com screenings e análises desses extratos podem dificultar a busca e prospecção dessas moléculas. Com o aumento do número de sequências depositadas em bancos públicos, bem como o desenvolvimento de diversas técnicas deanálise desses dados, a identificação de PAMs a partir de bancos de dados tem ganhado atenção, se tornando uma ramificação da genômica estrutural e bioinformática. Na era pós genômica, grandes quantidades de dados têm sido depositadas em diferentes bancos, disponibilizado um número exorbitante de sequências de diferentes origens. Ainda assim, pouco dessas novas informações chegam a gerar conhecimento, sendo a maior parte das sequências depositadas de forma automática e sem qualquer tipo de avaliação funcional. No UniProt (Universal Protein Resource) (http://www.uniprot.org/), por exemplo, um dos maiores bancos públicos de proteínas do mundo, 98,9% das sequências permanecem anotadas automaticamente, e destas, muitas estão descritas como hipotéticas, não nomeadas ou desconhecidas (Dados referentes a maio de 2016). As abordagens utilizadas para a identificação de PAMs em bancos de dados podem ser divididas em dois grupos: (i) buscas baseadas na similaridade de sequência, como alinhamentos locais e correspondência de padrão; e (ii) uso de preditores de atividade baseados em métodos de aprendizado de máquina. 2.4.1 Identificação direta no banco de dados Dentre as buscas baseadas na sequência destacam-se as expressões regulares (RegEx), que identificam conjuntos de caracteres através de uma expressão de padrão em caracteres fixos, ambíguos e coringa (Figura 4), e os perfis HMM (Hidden Markov Model), que, de forma similar às RegEx, identificam conjuntos de caracteres, porém com atribuição de probabilidades às posições variáveis (Figura 4) (EDDY, 1998). Essas abordagens têm sido úteis na anotação de tais sequências e uma ferramenta valiosa, diminuindo custos e tempo na descoberta de novos agentes antimicrobianos promissores. http://www.uniprot.org/ 27 Figura 4: Dois principais tipos de metodologias de identificação por correspondência de padrão. À esquerda a representação de uma RegEx dividida em caractere coringa, que representa qualquer aminoácido; caractere fixo, onde só há correspondência ao aminoácido representado; e caractere Ambíguo, onde há correspondência a qualquer dos aminoácidos entre colchetes. Entre parênteses está representada a extensão do caractere coringa, sendo, nesse caso de 5-6 aminoácidos. À direita a representação gráfica de um HMM, onde, de forma semelhante à RegEx há caracteres coringa, ambíguos e fixos. Entretanto há probabilidade atribuída à cada posição, neste caso representado pelo tamanho da letra, ou seja, aminoácidos representados por letras mais extensas têm maior probabilidade. O modelo de HMM foi obtido do Pfam. Dentre as metodologias de identificação de PAMs em bancos de dados, a busca pela sequência tem sido a abordagem mais utilizada e também a mais conveniente. Isso ocorre uma vez que as proteínas estão depositadas nos bancos como sequências além da disponibilidade de várias ferramentas de comparação como BLAST (ALTSCHUL, et al. 1996), FASTA (PEARSON, 1990) e BLAT (KENT, 2002). Os tipos de busca por sequência podem ser divididos em dois grupos principais: alinhamentos locais e buscas por correspondência de padrão, sendo a metodologia mais comum o alinhamento local. Nessa abordagem podem ser utilizadas múltiplas iterações de alinhamentos locais até que nenhuma nova sequência seja encontrada. Além disso, outros filtros podem ser utilizados incluindo presença de peptídeo sinal e/ou padrões nas sequências. Através dessa metodologia, Mulvenna e colaboradores (2006) identificaram novas ciclótides a partir do banco de proteínas não redundantes do 28 NCBI. Para tal, os autores fizeram buscas automáticas através do BLAST. Essa metodologia foi combinada à predição de peptídeo sinal e buscas por expressão regular (CX3,6CX4,6CX4,7XCXCX4,7CX1,10 e todas as cinco possíveis permutações) (MULVENNA et al., 2006). Nesse estudo, 265 sequências foram preditas como ciclotide-like e dessas, 22 pertencentes à Poaceae (MULVENNA et al., 2006). Além disso, esse trabalho demonstrou a distribuição de ciclotídeos nas diversas famílias de plantas, em especial em Poaceae, na qual só havia sido descrito anteriormente por Basse et al. (2005). Entretanto, não foram feitos testes ou predições quanto de atividade antimicrobiana dos peptídeos identificados. De forma similar, Zhu (2008) identificou seis novas famílias de defensin- like peptides em fungos). Neste trabalho, por sua vez, a busca foi feita através do TBLASTN em um banco com 53 espécies de fungos, usando a sequência da plectasina como query (ZHU, 2008). Foram então selecionadas todas as sequências com peptídeo sinal e a assinatura da superfamília de CS-αβ defensinas (CX2,18CX3CX2,10[GAPSIDERYW]XCX4,17CXC) previamente descrita por Zhu et al. (2005). As etapas resultaram na predição de 25 defensin-like codificados por 18 genes, destes, cinco estavam anteriormente anotados como hipotéticos (ZHU, 2008). Assim como no trabalho de Mulvenna et al. (2006), não foram feitas predições de atividade antimicrobiana, sendo inferido apenas a distribuição de genes semelhantes à defensinas em fungos (ZHU, 2008). Apesar disso, alguns anos após, o mesmo procedimento foi aplicado pelo autor e colaboradores em um banco atualizado (134 espécies de fungos) sendo inferidos outros 17 genes codantes de 13 novos peptídeos defensin-like (ZHU et al., 2012). Desses novos peptídeos a micasina, proveniente do fungo Microsporum canis, foi sintetizada e testada, sendo capaz de inibir o crescimento bacteriano (ZHU et al., 2012). Estes trabalhos demonstraram a eficácia de alinhamentos locais na identificação de PAMs em bancos de dados. Apesar disso, essa abordagem não se mostra eficaz em buscas mais profundas, sendo necessário o uso de outras metodologias baseadas em correspondência de padrão (PORTO et al., 2012). Ambas as metodologias têm sido aplicadas de forma semelhante na identificação de PAMs, sendo necessário um alinhamento entre sequências homólogas e posterior submissão deste em ferramentas como PRATT 29 (JONASSEN, 1997) e TEIRESIAS (RIGOUTSOS; FLORATOS, 1998), e HHMMER (FINN et al., 2011), para elaboração de RegEx, perfis HMM, respectivamente. Os padrões podem ainda ser gerados ou editados manualmente (no caso de RegEx), e/ou selecionados a partir de bancos como Pfam (FINN et al., 2014) e PROSITE (SIGRIST et al., 2013), para HMM e RegEx, respectivamente. As buscas podem ser feitas com adição de validações adicionais, tais como predição de domínios conservados e predições de peptídeo sinal. Essas abordagens têm sido utilizadas amplamente para identificação de PAMs estabilizados por pontes dissulfeto (MULVENNA et al., 2006; SILVERSTEIN et al., 2007; PORTO et al., 2012). Essa estratégia foi utilizada por Porto et al. (2012) para identificação de peptídeos hevein-like. Neste estudo uma busca por alinhamento local foi feita inicialmente, mas não revelou novas sequências. Dessa forma, os resultados do alinhamento local foram utilizados para construção de uma RegEx através do Pratt que foi combinada ao motivo heveína do PROSITE gerando a expressão: CX4,5CC[GS]X2GXCGX[GST]X2,3[FWY]C[GS]X[AGS] (PORTO et al., 2012). Todas as sequências coletadas pela busca foram submetidas à predição de domínios conservados através do InterPro Scan. Quatro novas heveínas foram encontradas, sendo uma delas proveniente do fungo fitopatógeno Phaeosphaeria nodorum, a primeira proveniente de fungo. De forma adicional, todas as sequências preditas foram analisadas quanto à atividade antimicrobiana através de métodos de aprendizagem de máquina (PORTO et al., 2012). Em outro estudo, Silverstein e colaboradores (2007) construíram perfis HMM para buscas de várias famílias de peptídeos estabilizados por pontes dissulfeto em plantas, como esnaquinas, tioninas e defensinas (SILVERSTEIN et al., 2007). A busca foi feita em um banco de ESTs (expressionsequence tag) de 33 espécies de plantas, totalizando 4.801.711 sequências. Cada sequência selecionada foi manualmente analisada quanto a presença de peptídeo sinal e extensão, sendo selecionadas sequências com menos de 111 aminoácidos (sequência madura) e com peptídeo sinal. Foram também selecionadas sequências com clara correspondência com sub-regiões dos alinhamentos gerados para a construção dos perfis HMM (SILVERSTEIN et al., 2007). Foram obtidas ao final das etapas 145.721 sequências que foram utilizadas para a 30 criação de diferentes HMMs para as classes analisadas (SILVERSTEIN et al., 2007). Entretanto, buscas por correspondência de padrão se mostram mais sensíveis que alinhamentos locais para a identificação de PAMs em bancos de dados (PORTO et al., 2012). Entretanto, tais buscas apresentam menos seletividade, podendo haver múltiplos matches à mesma sequência (SILVERSTEIN et al., 2007). Sendo assim, são necessárias metodologias adicionais às buscas como predição de atividade antimicrobiana e predições estruturais para maior seletividade. Além de dados depositados em bancos públicos, essa metodologia pode ser utilizada para a busca e identificação de potenciais PAMs em transcriptomas e dados provenientes desse tipo de análise. Cândido e colaboradores (2014), por exemplo, identificaram, utilizado os padrões gerados por Silverstein et al. (2007), peptídeos antimicrobianos no transcriptoma de Zantedeschia aethiopica. Nesse trabalho, predições estruturais e predição de atividade antimicrobiana foram utilizados como validações adicionais à busca por correspondência de padrão (CÂNDIDO et al., 2014). De forma semelhante, Zhang e colaboradores (2015) identificaram, com o uso de RegEx 9.687 peptídeos ricos em cisteína no transcriptoma de Viola baoshanensis, incluindo ciclotídeos, taumatinas e proteínas de transferência de lipídeos. Ambos os trabalhos evidenciam a aplicabilidade de tais metodologias para a busca de PAMs em dados genômicos e trasncriptômicos. 2.4.2 Predições de atividade antimicrobiana Os testes de atividade antimicrobiana têm sido a metodologia mais adequada para a seleção de moléculas bioativas. Entretanto, devido ao grande número de sequências coletadas em bancos, essa metodologia se torna impraticável. Sendo necessária uma pré-avaliação das sequências por meio de ferramentas computacionais. Nesse contexto, métodos de aprendizagem supervisionada de máquina têm sido usados para desenvolver modelos para predição de atividade antimicrobiana, pré-selecionando sequências com possível atividade. Atualmente, existem três sistemas de predição disponíveis 31 como programas autônomos ou hospedados em servidores online incluindo AntiBP, CAMP e CS-AMPPred (Tabela 1). 32 Tabela 1: Principais servidores e programas para predição de atividade antimicrobiana e seus respectivos treinamentos e acurácia. Preditor Descrição da metodologia Desvantagens Disponível em Referência AntiBP Esse preditor consiste em um modelo de máquina de vetor de suporte (SVM, Support Vector Machine) que utiliza os dados do N- e C-terminal para a predição de atividade antimicrobiana. O treinamento do sistema foi feito por meio de dois bancos, um positivo, com sequências de peptídeos antibacterianos de 15 a 60 resíduos retirados do Swiss-Prot e um negativo, de peptídeos não secretados com a mesma variação de resíduos. Além desses, para o treinamento, foram retiradas sequências de N- e C-terminal de tamanhos variados (sequências de 5, 10 e 15 resíduos) dos bancos iniciais. Em 2010, o sistema foi melhorado com ampliação do número de sequências no treinamento, ampliando a acurácia para 91,64%. Esse preditor leva em consideração somente sequências curtas (até 15 resíduos), o que o limita quando utilizado para busca de peptídeos naturais, sendo mais aplicável à procura de peptídeos encripitados. http://www.imtech.res.i n/raghava/antibp/ LATA et al., 2007;2010 CAMP Preditor capaz de analisar sequências de tamanhos variáveis. Nesse trabalho foram utilizadas 275 características físico- químicas para o treinamento do sistema. Quanto aos métodos de predição, CAMP utiliza random forest (RF), análise discriminante (Discriminant Analysis; DA) e SVM, sendo RF a de maior acurácia. Esse sistema também foi aprimorado recentemente, com um pequeno aumento de acurácia de 0,2% para RF, resultando em uma acurácia de 93,4%. Apesar de analisar sequências de tamanhos variáveis, este preditor apresenta duas limitações, a primeira delas é relacionada à ordem da sequência, que se for embaralhada terá a mesma predição da sequência original com um score levemente diferente e a segunda consiste no fato desse preditor ser demasiado generalista, perdendo acurácia em algumas classes (PORTO et al., 2012a). http://www.camp.bicnirr h.res.in/ THOMAS et al., 2010; WAGHU et al., 2014 33 CS- AMPPred Modelo de SVM desenvolvido utilizando características físico- químicas para predição de atividade antimicrobiana de peptídeos exclusivamente estabilizados por cisteína. O sistema foi treinado com um banco de dados positivo, constituído de sequências contendo quatro ou mais resíduos de cisteína, com atividade antimicrobiana retirados do APD (Antimicrobial Peptides Database; WANG et al., 2009), formando um banco de 385 sequências de 16 a 90 resíduos, e um banco negativo retirado do PDB (Protein Data Bank) (PORTO et al., 2012b). Para a composição dos parâmetros de predição antimicrobiana foram selecionadas inicialmente nove características estruturais e físico-químicas que foram analisadas através de componente deixando cinco remanescentes, selecionadas por relevância estatística no banco positivo (PORTO et al., 2012a). A acurácia desse preditor consiste em90%. Esse preditor é específico para sequências com cisteínas que fazem pontes dissulfeto, fazendo com que as sequências inseridas para análise necessitem contê-las, aumentando a acurácia para esse grupo específico, sendo o modelo de maior acurácia para esse grupo (PORTO et al., 2012a). http://sourceforge.net/p rojects/csamppred/ PORTO et al., 2012a 34 Os vários métodos de predição podem ser utilizados como etapa adicional na busca de PAMs em bancos, podendo ser determinantes na seleção de peptídeos promissores para testes in vitro e in vivo. Ainda assim, PAMs são moléculas bastante versáteis, variando tanto em relação à composição e características físico-químicas quanto em mecanismos de ação e alvo, sendo a predição antimicrobiana utilizada geralmente apenas como etapa adicional de buscas como descrito em PORTO et al. (2012b). Entretanto Brand e colaboradores (2012) utilizaram Kumal v1.0 para a identificação de PAMs encriptados em bancos de dados, sendo posteriormente sintetizados e testados in vivo. 2.4.3 Predições estruturais Além das metodologias citadas, a modelagem molecular também pode ser utilizada para busca de PAMs em bancos de dados. Entretanto, essa metodologia não tem sido usada para busca direta em bancos de dados, sendo utilizada somente como validação adicional às buscas por padrão e/ou alinhamentos locais (MULVENNA et al., 2006; ZHU, 2008; ZHU et al, 2012). Através dessa abordagem é possível a identificação de homólogos distantes com baixa identidade à nível de sequência, desde que haja alta conservação estrutural (TOMCZAK et al., 2012). Baseando-se nisso, a modelagem possibilita a identificação de similaridades estruturais apesar da variação da estrutura primária e pode ser uma ferramenta útil na identificação de PAMs em bancos de dados (PORTO et al., 2014a). Para esse propósito existem duas técnicas incluindo a modelagem por threading e por ab initio (KHOR et al., 2015). Técnicas de threading predizem a estrutura 3D de uma sequência usando estruturas experimentalmente determinadas como molde. Essa abordagemindepende da similaridade entre as sequências, baseando-se na similaridade estrutural (GILLE et al., 2000). Enquanto isso a modelagem ab initio (também chamada de novo, livre ou modelagem baseada em parâmetros físicos) prediz estruturas usando uma função energética como guia da busca conformacional (LEE et al., 2009). Os principais recursos para modelagem ab initio e threading estão descritos no Tabela 2. 35 Tabela 2: Principais servidores de modelagem por threading e ab initio e descrição dos seus respectivos métodos. Método de Modelagem Servidor Descrição do Método Referência Threading FUGUE Utiliza perfis estruturais retirados do HOMSTRAD (MIZUGUEHI et al. 1998) para selecionar o melhor alinhamento com a sequência. O melhor template é selecionado para um algoritmo de programação dinâmica. SHI et al., 2001 PROSPECT2 Utiliza a propensão de estrutura secundária, acessibilidade ao solvente, mutação de resíduos e potencial de contato par a par para otimização dos alinhamentos. XU; XU, 2000 SPARKS2 Potencial estatístico de corpo único juntamente com alinhamentos de sequência. ZHOU; ZHOU, 2004 SP3 Utiliza fragmentos da sequência para gerar perfis da sequência. Esses perfis são usados para gerar uma estrutura derivada que é utilizada para melhorar os alinhamentos. ZHOU; ZHOU, 2005 SAM-T02 Faz um PSI-BLAST a partir da sequência query. Gera um HMM a partir dos alinhamentos múltiplos obtidos e seleciona o melhor molde através do algoritmo Viterbi. KARPLUS et al. 2003 HHSEARCH Gera um perfil HMM para a sequência a ser predita e para os moldes. Os perfis são então alinhados e o melhor alinhamento é selecionado para a modelagem. SODING, 2005 LOMETS Utiliza todos os métodos de threading descritos acima além de mais três desenvolvidos para integrar o próprio servidor (PAINT, PPA-I e PPA-II). A seleção do melhor molde estrutural é feita por consenso estrutural de todos os WU; ZHANG, 2007 36 métodos usados. A similaridade entre as estruturas é avaliada pelo TM-Score (ZHANG; SKOLNICK, 2004) I-TASSER Inicialmente utiliza o LOMETS para encontrar os melhores moldes estruturais. Essas estruturas são fragmentas e formam uma biblioteca de fragmentos. Esses fragmentos são montados gerando os modelos preditos. Após isso o BioLiP (YANG et al. 2013) é usado para fazer as predições funcionais. ZHANG, 2008 3D-Jury Utiliza vários servidores para gerar o banco de estruturas inicial. Essas estruturas iniciais são comparadas pelo Cα par a par até encontrar a melhor sobreposição. As melhores sobreposições são então analisadas pela ferramenta MaxSub tool (SIEW et al. 2000) para encontrar os pares de mesma folding. GINALSKI et al. 2003 Ab initio QUARK A sequência avaliada é fragmentada em sequências de até 20 resíduos que são modelados separadamente a partir de estruturas elucidadas. Replica-exchange e simulações de Monte Carlo são utilizados para montar os fragmentos e gerar as estruturas completes. XU; ZHANG, 2012 ROSETTA A sequência a ser modelada e as estruturas elucidadas são fragmentadas e os fragmentos gerados alinhados. Os alinhamentos são então avaliados através de similaridade e distância para gerar as estruturas finais. SIMONS et al. 1997 PEP-FOLD Faz simulações para gerar vários modelos da sequência alvo. Esses modelos são agrupados em clusters e os cinco melhores clusters são selecionados. MAUPETIT et al. 2009 37 Vale ressaltar que para modelagens ab initio parece ser necessário o uso de recursos adicionais para verificar a similaridade com outras estruturas, tais como DALI Server (HOLM, 2010) e/ou COFACTOR (ROY et al. 2012) para comparações entre as estruturas preditas e resolvidas, gerando hipóteses sobre a função das proteínas, proporcionando a identificação de homólogos distantes pelos alinhamentos estruturais. Para ambos os métodos de modelagem, tem sido crucial o uso de simulações de dinâmica molecular para avaliação dos modelos moleculares, adicionando mais confiabilidade às predições funcionais (PORTO et al., 2014a), principalmente no caso de modelos ab initio, onde apenas cerca de 20-25% se mantém após simulações de dinâmica molecular (RIGDEN, 2011; PORTO et al., 2014a). Simulações de dinâmica molecular podem ser definidas como simulações computacionais de moléculas utilizando parâmetros baseados em leis da física mecânica. Na prática, essa metodologia proporciona a avaliação de modificações estruturais ao longo do tempo, bem como mudanças de flexibilidade e o movimento de diferentes átomos ou moléculas, tornando possível acessar estados temporais da estrutura. Assim, essa metodologia pode ser amplamente aplicada adicionando mais confiabilidade aos dados gerados (TOMCZAK et al., 2012; PORTO et al., 2012; 2014a; 2014b). Ainda assim, essa metodologia requer grande poder de processamento, necessitando de bastante tempo computacional, o que limita as simulações à apenas alguns nano ou microssegundos (KLEPEIS et al., 2009). Apesar das limitações, diversos trabalhos têm usado modelagem (ab initio/threading), alinhamento estrutural e dinâmica molecular para prever e avaliar estruturas a fim de elucidar a atividade de proteínas (Tabela 3). 38 Tabela 3: Resumo de metodologias que utilizaram modelagem e/ou dinâmica molecular para identificação de proteínas em bancos de dados. Abordagem Descrição da metodologia Resultado Referência Identificação de DUF’s com propriedades de ligação a DNA através de modelagem ab initio. Inicialmente todos os DUFs (Domain of Unknown Function) do Pfam foram coletados; foram selecionadas todas as sequências sem regiões transmembranares, tamanho de 30 a 100 aminoácidos e com domínios relacionados à ligação de DNA; a predição estrutural foi feita através do ROSETTA [56]; e a função foi predita através da análise do software DNA_BIND analyses (SZILAGYI; SKOLNICK, 2006). Trinta e duas proteínas com domínio de ligação a DNA. RIGDEN, 2011 Identificação de quimiocinas humana através de modelagem por threading. Foram selecionadas, a partir do banco UniProt Knowledgebase (Realease 14.9), sequências de Homo sapiens sem anotação functional e duas ou mais cisteínas; dessas foram selecionadas sequências: menos de 30% de similaridade com proteínas do PDB, com peptídeo sinal, sem regiões transmembranares e mais de 55 aminoácidos; foram feitos alinhamentos por threading com todas as 270 estruturas elucidadas com folding de quimiocina IL8-like, sendo selecionadas somente sequências que alinhavam com as estruturas; as sequências remanescentes foram analisadas pelo InterproScan; a modelagem molecular foi feita através do Modeller; e simulações de dinâmica molecular foram usadas para validação estrutural. Duas novas quimiocinas. TOMCZAK et al. 2012 Identificação funcional de proteínas hipotéticas de Escherichia coli através de modelagem por threading e ab initio. Foi utilizado o banco de sequências não redundantes (nr) do NCBI; foram selecionadas sequências com: 30 a 100 aminoácidos, sem regiões transmembranares, sem similaridade com estruturas no PDB (menos de 30% de identidade), similaridade com proteínas de eucariotos (mais de 40% de identidade), ausência de domínios conservados, preditas para serem expressas e sem regiões desordenadas; a modelagem molecular (threading ou ab initio) foi feita através do LOMETS (WU; ZHANG, 2007) e QUARK (XU; ZHANG, 2012 ); alinhamentos estruturais foram feitos utilizando DALI Server Três sequências: uma com homologia distante com cupredoxinas, uma β- barrel family e uma proteína de ligação à lipídeos. Entretanto só uma manteve a estrutura após PORTO et al., 2014a 39 e COFACTOR; e simulações de dinâmica molecular foi utilizada para validação estrutural. simulação de dinâmica molecular em água 40 Tendo isso em consideração pode serpossível a aplicação dessas técnicas na busca também de PAMs, uma vez que, vários trabalhos têm mostrado que algumas classes de PAMs apresentam semelhanças estruturais entre si (SINGH et al., 2014; YEUNG et al. 2016) (Figura 5). Figura 5: Semelhança estrutural entre diferentes classes de PAMs. À esquerda no topo é mostrada a estrutura da Esnaquina-1 (PDB ID: 5E5Q), no centro a estrutura da α-1-purotionina (PDB ID: 2PLH) e à direita a EcAMP1 (PDB ID: 2L2R). Tais estruturas apresentam um motivo estrutural helix-turn-helix estabilizado por pontes dissulfeto sequenciais. À esquerda abaixo a estrutura da Laterosporulina (PDB ID: 4OZK) e à direita a HD5 (PDB ID: 2LXZ). Ambas apresentam a estrutura dobrada em fitas β, formando uma folha β estabilizada por pontes dissulfeto. As pontes são apresentadas no modelo de esferas e varetas do Pymol v1.6. 41 Ademais, estudos têm demonstrado que apesar da variação nas sequências, em muitos casos a estrutura é conservada. Em CSαβ-defensinas, por exemplo, foi demonstrado que podem existir três, quatro ou cinco pontes dissulfeto. Essas pontes adicionais são variáveis e podem ser entre diferentes cisteínas pela estrutura, dependendo do peptídeo (Figura 6) (ZHU, 2008). 42 Figura 6: Alinhamento de diferentes membros de três classes de PAMs com conservação estrutural apesar da variação na sequência. As pontes dissulfeto variáveis são mostradas em vermelho. Em laranja estão assinaladas as pontes classe-específicas. 43 Contudo, apesar da variação nas sequências não se observa diferença estrutural, sendo os motivos estruturais da família mantidos (ZHU, 2008). De forma semelhante, outras famílias de PAMs apresentam congruência estrutural apesar da variação na sequência. Thioninas, por exemplo, apresentam dobramento similar apesar dos mismatchs nas sequências, podendo ter três ou quatro pontes dissulfeto, mas sem alteração estrutural (Figura 6). Enquanto isso, ciclotídeos e inibidores de tripsina, como MCOTI-II, apresentam além da similaridade estrutural, o mesmo padrão de pontes (Figura 6). Tomando isso em consideração, seria possível identificar novos peptídeos estabilizados por pontes dissulfeto através da metodologia descrita por Tomczak et al. (2012) (Tabela 3). Dessa forma, as metodologias de busca por predições estruturais poderiam ser aplicadas para identificação de novos membros de STPs em bancos de dados, uma vez que apresentam grande conservação estrutural. Além disso, esses peptídeos apresentam grande variação no que concerne a sequência, o que dificulta a identificação de novos STPs através das metodologias tradicionais, tais como alinhamentos locais. Sendo assim, essa abordagem ampliaria a identificação de novas moléculas com esse potencial. Além disso, é possível e factível o desenvolvimento e aplicação dessas técnicas na identificação de novos PAMs em genomas e transcriptomas. 44 3. JUSTIFICATIVAS O desenvolvimento de resistência por parte de microrganismos patogênicos a antibióticos pode dificultar o tratamento de infecções gerando grandes problemas à saúde pública e gastos com tratamentos e internações. Os PAMs podem ser uma opção para tais casos, podendo ser uma alternativa no controle desses patógenos. Entretanto, a identificação convencional dessas moléculas muitas vezes requer dinheiro e tempo. Através de metodologias computacionais aliadas às grandes quantidades de dados depositados em bancos públicos pode ser possível selecionar sequências potenciais, encurtando o processo. Atualmente a identificação de PAMs em bancos se dá prioritariamente através da estrutura primária, não havendo o uso de predições estruturais para identificação direta dessas moléculas. Sendo assim, o uso modelagem molecular na identificação de PAMs pode ajudar na seleção de peptídeos potencias com implicações de tempo e gasto na identificação de novas moléculas bioativas. 45 4. OBJETIVO 4.1 OBJETIVO GERAL O presente trabalho objetiva o desenvolvimento de uma nova metodologia de identificação de PAMs em transcriptomas e bancos de dados por meio da aplicação direta de predição estrutural em bancos de dados. 4.2 OBJETIVOS ESPECÍFICOS • Desenvolver scripts para seleção de sequências em bancos de dados; • Predizer a presença do motivo STP de ligação de cisteínas; • Analisar as sequências quanto à domínios conservados; • Analisar a identidade das sequências selecionadas com estruturas do PDB; • Gerar modelos estruturais por meio de metodologias ab initio; • Predizer o padrão de ligação de pontes; • Realizar simulações de dinâmica molecular para avaliação estrutural; • Identificar AMPs potenciais em Zantedeschia aethiopica por meio de alinhamentos estruturais; 46 5. METODOLOGIA 5.1 IDENTIFICAÇÃO DE VARIANTES POR THREADING 5.1.1 Pré-filtragem dos dados Inicialmente foram coletadas todas as sequências sem estrutura tridimensional resolvida do Antimicrobial Peptides Database (APD – maio de 2015) (http://aps.unmc.edu/AP/main.php; WANG et al., 2009). Este banco contém sequências de atividade antimicrobiana validada em testes in vitro e/ou in vivo. Desse conjunto inicial foram coletadas sequências com seis ou mais resíduos de cisteína, que foram subsequentemente avaliadas quanto à redundância através do CD-HIT (LI; GODZIK, 2006), sendo retiradas sequências de 70% de identidade ou mais. As sequências resultantes foram utilizadas para buscas por meio da ferramenta HHPred (http://toolkit.tuebingen.mpg.de/hhpred; SÖDING, 2005), sendo selecionadas sequências com similaridade estrutural com PAMs e variação na disposição ou padrão de pontes dissulfeto. Nessa etapa foram descartados todos os lantibióticos e sequências com modificações pós- traducionais que inviabilizassem a modelagem molecular. Após essa pré- filtragem, o programa LOMETS foi utilizado para a seleção do melhor molde estrutural, sendo mantidos somente peptídeos que atendessem aos mesmos requisitos usados na etapa anterior. As sequências resultantes foram então modeladas (ver sessão 5.1.2) e avaliadas em dinâmicas 50 ns (ver sessão 5.1.3), sendo descartados todos os peptídeos que perdessem a topologia característica no período de simulação. O resumo da análise pré-filtragem dos bancos está descrito na Figura 7. http://aps.unmc.edu/AP/main.php http://toolkit.tuebingen.mpg.de/hhpred 47 Figura 7: Sumário de etapas de pré-filtragem do banco. O número de sequências resultante está descrito à direita de seu respectivo passo. As etapas estão numeradas na ordem de conclusão. 5.1.2 Modelagem molecular A modelagem molecular dos peptídeos foi feita através do programa MODELLER 9.16 (FISER et al., 2000). Para fechamento das pontes adicionais ou sem cobertura no alinhamento, foram utilizadas as classes de automodel endêmicas do MODELLER. Foram gerados 100 modelos para cada peptídeo avaliado, sendo selecionado o melhor modelo através do menor DOPE (Discrete Optimized Protein Structure) score. Os modelos finais foram submetidos a análises de qualidade. A avaliação foi feita através dos servidores ProSA II (WIEDERSTEIN, 2007) e PROCHECK (LASKOWSKI et al., 2007). O software ProSA II avalia a qualidade do dobramento do modelo através do Z-score, onde são considerados aceitáveis modelos que apresentem um Z-score semelhante ao de estruturas resolvidas; enquanto o PROCHECK avalia a qualidade estereoquímica do modelo analisando a geometria de cada resíduo pelo mapa de Ramachandran, onde os modelos de melhor qualidade apresentam mais de 90% dos resíduos em regiões favoráveis e permitidas sendo desconsiderados resíduos de Prolina e Glicina. 5.1.3 Simulações de dinâmica molecular Os modelos finais foram submetidos a simulações de dinâmica molecular de 300 ns através do software GROMACS 4.6 a fim deavaliar a manutenção estrutural. As simulações foram conduzidas utilizando o campo de força 48 GROMOS96 43A1 (HESS et al., 2008). Cada estrutura foi imersa em uma caixa cúbica de água, com distância de 8 Å para os limites da mesma. A caixa foi preenchida com o modelo de água single point charge (BERENDSEN et al., 1981). Íons cloro foram adicionados aos sistemas para neutralizar as cargas positivas. A geometria das moléculas de água foi forçada através do algoritmo SETTLE (MIYAMOTO, KOLLMAN, 1992). As ligações atômicas foram feitas através do algoritmo LINCS (HESS et al., 1997). As correlações eletrostáticas foram calculadas pelo algoritmo Particle Mesh Ewald (DARDEN et al., 1993), com um limiar de 1,4 nm. O mesmo limiar foi aplicado para interações de van der Waals. O algoritmo de steepest descent foi aplicado para minimizar a energia do sistema por 50.000 passos. Após a minimização de energia, a temperatura (conjunto NVT) e a pressão (conjunto NPT) do sistema foram normalizadas para 300 K e 1 bar, respectivamente, por 100 ps cada. As simulações completas foram feitas utilizando o algoritmo leap-frog como integrador. As simulações foram avaliadas por meio do desvio de raiz quadrada média (RMSD) do backbone das estruturas ao longo da simulação em relação à estrutura inicial (0 ns) com o uso do software g_rms do pacote GROMACS. A conservação da estrutura secundária foi avaliada através do DSSP 2.0.4. As visualizações foram feitas através do Pymol Molecular Graphics System, Version 1.6 Schrödinger, LLC. 5.2 Identificação de STPs 5.2.1 Pré-filtragem dos bancos dados Para essa etapa foi utilizado o mesmo banco inicial do tópico 5.1.1. Este conjunto de dados foi avaliado quanto à redundância através do CD-HIT (LI; GODZIK, 2006), sendo retiradas sequências de 80% de identidade ou mais. Após essa avaliação preliminar foram selecionados todos os peptídeos com seis ou mais resíduos de cisteína e 130 resíduos de aminoácidos ou menos. Todas as sequências resultantes foram submetidas ao PredSTP (ISLAM et al., 2015), sendo selecionadas todas as sequências preditas como STP. As sequências remanescentes foram analisadas quanto à presença de domínios conservados e similaridade com estruturas depositadas no PDB (Protein Data Bank; http://www.rcsb.org/pdb/home/home.do). A verificação de domínios conservados foi feita através do InterPro Scan (https://www.ebi.ac.uk/interpro) (JONES et al., http://www.rcsb.org/pdb/home/home.do https://www.ebi.ac.uk/interpro 49 2014) e RPS-BLAST (Reversed Position Specific BLAST) (www.ncbi.nlm.nig.gov/cdd), sendo descartadas todas as sequências com domínios conservados. Já a avaliação de similaridade com sequências de estrutura resolvida foi feita através do BLAST, foram aceitas sequências com menos de 30% de identidade com qualquer sequência depositada no PDB. Das sequências resultantes foram avaliadas somente as sequências que pudessem ser modeladas e simuladas em dinâmica molecular. O resumo da análise automática dos bancos está descrito na Figura 8. Figura 8: Sumário de etapas de avaliação automática do banco. O número de sequências resultante está descrito à direita de seu respectivo passo. O passo 7 se refere a avaliação manual das sequências remanescentes. As etapas estão numeradas na ordem de conclusão. 5.2.2 Modelagem molecular Após os passos descritos acima a sequência resultante foi submetida à busca de moldes para modelagem comparativa. Entretanto, por ausência de um molde adequado a modelagem foi gerado um modelo ab initio, utilizando a ferramenta web QUARK (XU; ZHANG, 2012). O QUARK foi selecionado uma vez que se mostrou eficaz em fazer predições estruturais, sendo considerado o melhor servidor de modelagem ab initio por dois anos consecutivos no CASP http://www.ncbi.nlm.nig.gov/cdd 50 (Critical Assessment of protein Structure Prediction). O modelo resultante foi utilizado como modelo inicial para predição do padrão de pontes dissulfeto. A predição das conexões entre as cisteínas foi feita conforme Tomczak et al. (2012), onde todos os pares possíveis foram verificados seguindo os seguintes critérios: (i) a distância entre os Carbonos α (Cα) e β (Cβ) sendo menor ou igual 10 Å e menor ou igual 9 Å, respectivamente; (ii) a diferença entre distância entre os Cβ e a distância entre os Cα sendo ≤ 1 Å; e (iii) haverem, pelo menos, três aminoácidos entre as cisteínas (TOMCZAK et al., 2012). Todas as pontes que cumpriram esses requisitos foram consideradas possíveis. O padrão final de pontes foi selecionado levando em consideração o pareamento que mantivesse o motivo STP. O modelo final foi gerado através do programa Swiss PDB Viewer (SPDBV; GUEX; PEITSCH, 1996), onde foi feita a conexão das pontes. O algoritmo de steepest descent foi aplicado para minimizar a energia do sistema usando o campo de força GROMOS95, a energia foi minimizada por 2.000 passos. O modelo final foi analisado quanto à semelhança estrutural com proteínas resolvidas do PDB através do DALI Server (HOLM, 2010) e capacidade de interação com ligantes por meio do COFACTOR (ROY et al. 2012). 5.3 APLICAÇÃO DAS METODOLOGIAS NO TRANSCRIPTOMA DE ZANTEDESCHIA AETHIOPICA 5.3.1 Pré-filtragem dos dados As sequências provenientes do transcriptoma de Zantedeschia aethiopica foram obtidas dos bancos do nosso laboratório, uma vez que, esse transcriptoma foi sequenciado e montado pelo mesmo. Além disso, esse grupo de dados foi analisado quanto a presença de PAMs por meio de RegEx (CÂNDIDO et al., 2012). Sendo assim, esse set de sequências compõe um bom candidato a comparações entre a metodologia proposta e buscas por correspondência de padrão; para tal, foi feito um screening para a identificação de PAMs a título de comparação entre as metodologias. Não foi feita uma nova montagem do transcriptoma. A pré-filtragem dos dados foi realizada em dois passos conforme Cândido et al. (2012), onde: (i) foram coletadas dentre as 29.509 sequências, peptídeos de até 350 resíduos de aminoácidos com quatro ou mais resíduos de 51 cisteína; e (ii) selecionadas somente sequências com peptídeo sinal e sem regiões transmembranares. 5.3.2 Modelagem molecular e avaliação de conservação estrutural Após a pré-filtragem as sequências foram submetidas ao mesmos passos de avaliação descritos nos tópicos 5.1 e 5.2; as sequências foram avaliadas por meio do HHPred e LOMETS e posteriormente modeladas e simuladas por 50 ns (ver sessão 5.1.1). As estruturas geradas que mantiveram a estrutura após a simulação foram simuladas por mais 250 ns totalizando 300ns de simulação. Além disso, as sequências foram submetidas ao PredSTP e posteriormente ao HHPred conforme tópico 5.2.1; entretanto, nenhuma sequência foi selecionada. As etapas de modelagem e simulações de dinâmica molecular foram realizadas conforme tópicos sessões 5.1.2 e 5.1.3, respectivamente. 5.3.3 Predição de atividade antimicrobiana Os dois peptídeos selecionados como potenciais PAMs foram analisados por meio algoritmos de predição de atividade antimicrobiana. Os algoritmos utilizados estão disponíveis na plataforma online do CAMP (http://www.camp.bicnirrh.res.in/) (WAGHU et al., 2016). Foram utilizados os quatro algoritmos disponíveis na plataforma: SVM, RF, ANN e DA. 52 6. RESULTADOS 6.1 IDENTIFICAÇÃO DE VARIANTES 6.1.1 Pré-filtragem do banco A fim de validar a identificação de PAMs por comparações estruturais foram selecionados peptídeos de atividade antimicrobiana comprovada do APD. Inicialmente, foram baixadas 1502 sequências sem estrutura resolvida depositada no PDB (Figura 7, Etapa 1). Após essa etapa as sequências foram selecionadas pelo número de cisteínas e tamanho das sequências, onde foram descartadas todas as sequências com menos de 6 cisteínas e mais de 150 resíduos de aminoácido (Figura
Compartilhar