Buscar

2018pitta-jllp

Prévia do material em texto

FUNDAÇÃO OSWALDO CRUZ 
INSTITUTO AGGEU MAGALHÃES 
MESTRADO ACADÊMICO EM BIOCIÊNCIAS E BIOTECNOLOGIA EM SAÚDE 
 
 
 
 
 
 
JOÃO LUIZ DE LEMOS PADILHA PITTA 
 
 
 
 
PREDIÇÃO IN SILICO DE REDES DE INTERAÇÃO PROTEICA INTERESPÉCIE 
ENTRE ZIKA VÍRUS E SEUS HOSPEDEIROS VERTEBRADOS E 
INVERTEBRADOS 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
RECIFE 
2018 
 
 
JOÃO LUIZ DE LEMOS PADILHA PITTA 
 
 
 
 
PREDIÇÃO IN SILICO DE REDES DE INTERAÇÃO PROTEICA INTERESPÉCIE 
ENTRE ZIKA VÍRUS E SEUS HOSPEDEIROS VERTEBRADOS E 
INVERTEBRADOS 
 
 
 
Dissertação apresentada ao Curso de 
Mestrado Acadêmico em Biociências e 
Biotecnologia em Saúde do Instituto Aggeu 
Magalhães, Fundação Oswaldo Cruz, 
como um dos requisitos para a obtenção 
do título de Mestre em Ciências. 
 
 
 
 
 
Orientador: Dr. Antonio Mauro Rezende 
Coorientador: Dr. Gabriel da Luz Wallau 
 
 
 
 
 
 
 
 
 
RECIFE 
2018 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Catalogação na fonte: Biblioteca do Centro de Pesquisas Aggeu Magalhães 
 
 
P688p 
 
Pitta, João Luiz de Lemos Padilha. 
Predição in silico de redes de interação proteica 
interespécie entre Zika vírus e seus hospedeiros 
vertebrados e invertebrados / João Luiz de Lemos 
Padilha Pitta. - Recife: [s.n.], 2018. 
69 p. : ilus. 
Dissertação (Mestrado em Biociências e 
Biotecnologia em Saúde) - Instituto Aggeu 
Magalhães, Fundação Oswaldo Cruz. 
Orientador: Antonio Mauro Rezende. 
Coorientador: Gabriel da Luz Wallau. 
 
1. Zika virus. 2. Aprendizado de máquina. 3. 
Proteoma. I. Rezende, Antonio Mauro. II. Wallau, 
Gabriel da Luz. III. Título. 
 
CDU 616.921 
 
 
 
 
 
JOÃO LUIZ DE LEMOS PADILHA PITTA 
 
PREDIÇÃO IN SILICO DE REDES DE INTERAÇÃO PROTEICA INTERESPÉCIE 
ENTRE ZIKA VÍRUS E SEUS HOSPEDEIROS VERTEBRADOS E 
INVERTEBRADOS 
 
 
 
 
Dissertação apresentada ao Curso de 
Mestrado em Biociências e Biotecnologia 
em Saúde do Instituto Aggeu Magalhães, 
Fundação Oswaldo Cruz, como um dos 
requisitos para a obtenção do título de 
Mestre em Ciências. 
 
Aprovada em: 01/10/2018 
 
BANCA EXAMINADORA 
 
 
________________________________________________ 
Dr. Antonio Mauro Rezende 
Instituto Aggeu Magalhães/FIOCRUZ-PE 
 
 
________________________________________________ 
Dr. Rafael Freitas de Oliveira França 
Instituto Aggeu Magalhães/FIOCRUZ-PE 
 
 
________________________________________________ 
Dra. Flávia Figueira Aburjaile 
Universidade Federal de Pernambuco 
 
 
AGRADECIMENTOS 
 
Muitas pessoas contribuíram das mais diversas formas para a realização deste 
trabalho, mas em especial faço os seguintes agradecimentos: 
 
Aos meus orientadores Antonio Rezende e Gabriel Wallau por aceitarem o desafio de 
orientar um aluno vindo de outra área do conhecimento e por toda a disponibilidade, 
ensinamentos e paciência fundamentais para a conclusão do curso. 
 
A Beatriz Toscano por toda a ajuda nas disciplinas, todo o material de estudo para a 
seleção do mestrado, toda a paciência para responder perguntas, toda atenção e 
amizade que foram muito importantes dentro e fora do mestrado. Tenho uma dívida 
eterna. 
 
A Crhisllane Vasconcelos, a primeira de seu nome, por toda a ajuda com ferramentas 
e códigos, eternas discussões sobre meu projeto e ciência em geral além da amizade 
sempre regada com café. Outra dívida que não vou conseguir pagar. 
 
A Túlio Campos por toda a ajuda com R e machine learning. 
 
A Larissa Paiva por todo o incentivo dado para ingressar no nível superior, toda a 
torcida ao longo da graduação e durante o mestrado. Vou carregar tudo sempre com 
muito carinho. 
 
A Josane Lemos por ter feito todo o possível para que eu tivesse acesso a uma boa 
educação e conseguisse me desenvolver como pessoa e profissional. 
 
Aos amigos Michelle Barros, Rodrigo Loyo, Lays Trajano, Carol Luz, Morgana Costa, 
Larissa Maciel, Camila Fernandes e Virgínia Lorena. 
 
 
Às minhas colegas de turma 2016.2, Marjorie Freire, Iany França, Yury Yzabella e 
Marcela Melo por todo o apoio e troca de informações ao longo desses dois anos. 
 
A Marcelo Lima por viabilizar meus horários de trabalho para que fosse possível 
frequentar as disciplinas do curso. 
 
A Aldrey Galindo e Igor Oliveira, pela amizade e ajuda com shell script, fundamentais 
em vários momentos ao longo do projeto. 
 
Aos membros da banca examinadora que gentilmente aceitaram o convite para 
contribuir neste trabalho. 
 
Ao Instituto Aggeu Magalhães – Fiocruz-PE pelos recursos para o desenvolvimento 
deste trabalho e a todos os seus funcionários pelo suporte científico. 
 
 
 
 
PITTA, João Luiz de Lemos Padilha. Predição in silico de redes de interação 
proteica interespécie entre Zika vírus e seus hospedeiros vertebrados e 
invertebrados. 2018. Dissertação (Mestrado Acadêmico em Biociências e 
Biotecnologia em Saúde) – Instituto Aggeu Magalhães, Fundação Oswaldo Cruz, 
Recife, 2018. 
 
RESUMO 
 
O ZIKA vírus (ZIKV) é um membro da família Flaviviridae, isolado pela primeira vez 
na década de 40 e que foi negligenciado por autoridades de saúde e pela ciência 
durante várias décadas. A recente epidemia mundial, conforme declarada pela 
Organização Mundial de Saúde (OMS) em fevereiro de 2016, e o aumento do número 
de casos de microcefalia e síndrome de Guillain-Barré (SGB) associados ao ZIKV 
colocaram o mesmo em evidência. Entender os mecanismos moleculares da infecção 
viral nos diversos hospedeiros é necessário para o desenvolvimento de tratamentos e 
medidas preventivas. As abordagens experimentais apresentam várias dificuldades 
para este tipo de estudo quando aplicadas em larga escala, fazendo com que os 
métodos computacionais surjam como importantes ferramentas de auxílio às 
abordagens tradicionais. As interações proteína-proteína (ou PPI, do acrônimo inglês 
Protein-Protein Interactions) podem ser usadas para estudar os mecanismos da 
infecção viral. Através do uso de algoritmos de aprendizado de máquinas, como 
Random Forest, aplicados aos proteomas investigados neste estudo, predições de 
interações proteicas entre ZIKV e seus diversos hospedeiros foram realizadas. Este 
estudo mostrou que a metodologia aqui empregada trouxe níveis de predição 
semelhantes à outras abordagens, porém foi aplicado à vários hospedeiros. Foi 
possível demonstrar em grafos bipartidos a importância das proteínas virais 
associadas a mecanismos de escape imunológico ou na transmissão do vírus por 
vetores, baseado nos números de interações realizadas e indicar possibilidades de 
malformação no sistema nervoso, especialmente na fase embrionária, em outras 
espécies além do H. sapiens. 
 
Palavras-chave: ZIKV. Aprendizado de máquina. Interação proteína-proteína. 
 
 
 
PITTA, João Luiz de Lemos Padilha. In silico prediction of interspecies protein 
interaction networks between Zika virus and their vertebrate and invertebrate 
hosts 2018. Dissertation (Academic Master in Bioscience and Biotechnology for 
Health) – Aggeu Magalhães Research Center, Oswaldo Cruz Foundation, Recife, 
2018. 
 
ABSTRACT 
 
The ZIKA virus (ZIKV) is a member of the Flaviviridae family, first isolated in the 1940s 
and neglected by health authorities and science for several decades. The recent global 
epidemic, as declared by the World Health Organization (WHO) in February 2016, and 
the increase in the number of cases of microcephaly and Guillain-Barré syndrome 
(GBS) associated with ZIKV have made the same. Understanding the molecular 
mechanisms of viral infection in various hosts is necessary for the development of 
preventive treatments and measures. Experimental approaches present several 
difficulties for this type of study when applied on a large scale, making computational 
methods appear as important tools to aid traditional approaches. Protein-protein 
interactions (or PPI) can be used to study the mechanismsof viral infection. Through 
the use of machine learning algorithms, such as Random Forest, applied to the 
proteomes investigated in this study, predictions of protein interactions between ZIKV 
and its several hosts were performed. This study showed that the methodology used 
here brought prediction levels similar to other approaches, but it was applied to several 
hosts. It was possible to demonstrate in bipartite graphs the importance of viral proteins 
associated with immune escape mechanisms or virus transmission by vectors based 
on the number of interactions performed and indicate possibilities of malformation in 
the nervous system, especially in the embryonic phase, in other species besides H. 
sapiens. 
 
Keywords: ZIKV. Machine learning. Protein-protein interaction. 
 
 
 
LISTA DE ILUSTRAÇÕES 
 
Figura 1 - Representação do genoma do Zika Vírus ................................................. 16 
Figura 2 - Estrutura icosaédrica do envelope do ZIKV .............................................. 17 
Figura 3 - Lacunas de conhecimento do ZIKV .......................................................... 18 
Figura 4 - Visão geral de algoritmos de aprendizado de máquina ............................ 24 
Figura 5 - Representação do Hiperplano de Classificação ....................................... 25 
Figura 6 - Visão geral dos algoritmos de aprendizado de máquina do tipo Random 
Forest ........................................................................................................................ 26 
Figura 7 - Estrutura inicial do banco de dados .......................................................... 33 
Figura 8 - Modelo de obtenção de pares negativos .................................................. 36 
Figura 9 - Fórmula de Normalização ......................................................................... 39 
Figura 10 - Montagem do arquivo de grupo controle para treinamento ..................... 40 
Figura 11 - Resultado da primeira validação do algoritmo de Random Forest .......... 48 
Figura 12 - Resultado da segunda validação do algoritmo de Random Forest ......... 48 
Figura 13 - Resultado da terceira validação do algoritmo de Random Forest ........... 49 
Figura 14 - Resultado da validação com validação cruzada de 10 vezes ................. 49 
Figura 15 - Representação visual das redes modeladas .......................................... 51 
 
 
 
 
LISTA DE QUADROS 
 
Quadro 1 – Espécies estudadas e respectivas bases de dados ............................... 31 
Quadro 2 – Aminoácidos agrupados pelas características físico-químicas ............... 39 
Quadro 3 – Principais dados de enriquecimento encontrados .................................. 53 
 
 
 
 
LISTA DE TABELAS 
 
Tabela 1 – Números de pares analisados pelo modelo ............................................ 50 
Tabela 2 – Espécies estudadas e respectivos números de interações preditas ....... 50 
Tabela 3 – Números de proteínas virais de cada cepa preditas por espécie ............ 52 
 
 
 
 
LISTA DE ABREVIATURAS E SIGLAS 
 
AUC - Area Under the Curve 
CHIKV - Chikungunya 
CSV - Comma-Separated Values 
DAVID - Database for Annotation, Visualization and Integrated 
Discovery 
DENV - Dengue Vírus 
OMS - Organização Mundial de Saúde 
ORF - Open Reading Frame 
Pb - Pares de base 
PPI - Protein-Protein Interaction 
SGB - Síndrome de Guillain-Barré 
SGBD - Sistema de Gerenciamento de Banco de Dados 
SQL - Structured Query Language 
SVM - Support Vector Machine 
UTR - Untranslated region 
WNV - Vírus do Oeste do Nilo 
ZIKV - Zika Vírus 
 
 
 
 
SUMÁRIO 
 
1 INTRODUÇÃO ................................................................................................... 12 
2 REFERENCIAL TEÓRICO ................................................................................. 15 
2.1 Zika Vírus ........................................................................................................... 15 
2.2 Hospedeiros Vertebrados ................................................................................ 19 
2.3 Hospedeiros Invertebrados .............................................................................. 20 
2.3.1 Mosquitos do gênero Aedes ............................................................................. 20 
2.3.2 Culex quinquefasciatus ..................................................................................... 21 
2.4 Métodos de predição de interações de proteínas in silico. ........................... 22 
3 JUSTIFICATIVA ................................................................................................. 27 
4 PERGUNTA CONDUTORA ............................................................................... 28 
5 HIPÓTESE .......................................................................................................... 29 
6 OBJETIVOS ....................................................................................................... 30 
6.1 Objetivo Geral ................................................................................................... 30 
6.2 Objetivos Específicos ....................................................................................... 30 
7 MATERIAIS E MÉTODOS .................................................................................. 31 
7.1 Obtenção de dados ........................................................................................... 31 
7.2 Banco de dados do projeto .............................................................................. 33 
7.2.1 Tabela de interações positivas .......................................................................... 34 
7.2.2 Tabela de proteomas ........................................................................................ 34 
7.2.3 Tabela de resultados do alinhamento ............................................................... 35 
7.2.4 Tabela interações negativas ............................................................................. 35 
7.3 Treinamento dos Algoritmos ........................................................................... 37 
7.3.1 Carga de dados para o RStudio........................................................................ 38 
7.3.2 Extração de características físico-químicas ...................................................... 38 
7.3.3 Divisão de grupos de treinamento e teste ......................................................... 40 
7.3.4 Treinamento dos algoritmos ............................................................................. 41 
7.3.5 Validação cruzada ............................................................................................ 41 
7.4 Classificação dos pares de proteínas ............................................................. 42 
7.4.1 Preparação de dados para classificação por Random Forest .......................... 43 
7.4.2 Predições e armazenamento de resultados ...................................................... 43 
7.5 Modelagem da rede de interações .................................................................. 43 
7.6 Análise de enriquecimento funcional.............................................................. 44 
 
 
8 CONSIDERAÇÕES ÉTICAS .............................................................................. 45 
9 RESULTADOS ................................................................................................... 46 
10 DISCUSSÃO ...................................................................................................... 54 
11 CONCLUSÕES .................................................................................................. 58 
REFERÊNCIAS ......................................................................................................... 59 
12 
 
 
1 INTRODUÇÃO 
 
Atualmente existem aproximadamente 80 espécies de arbovírus que possuem 
a capacidade deinfectar os seres humanos. Estes vírus possuem como vetor 
espécies de artrópodes em sua maioria pertencentes à família Culicidae, sendo as 
espécies pertencentes aos gêneros Aedes e Culex as mais associadas à transmissão 
de arbovírus. Os arbovírus patogênicos produzem anualmente um grande impacto 
para a saúde humana em países tropicais, como exemplo disso, podemos citar os 
casos sazonais de Dengue (DENV). Além disso, novos arbovírus estão emergindo 
constantemente como o vírus Zika (ZIKV), Chikungunya (CHIKV) e Vírus do Oeste do 
Nilo (WNV). 
 Recentemente, a partir de 2015, o vírus ZIKV ganhou grande destaque devido 
ao grande número de infecções no Brasil, e também devido aos graves problemas de 
saúde produzidos e relacionados à sua infecção, notoriamente a Síndrome de 
Guillain-Barré e os casos de microcefalia em recém-nascidos. O crescimento rápido 
do número de casos e os sérios problemas de saúde relacionados à infecção do ZIKV 
levaram a Organização Mundial da Saúde (OMS) a declarar, no dia 1 de fevereiro de 
2016, o ZIKV como um problema de saúde mundial, tendo sido reportados até aquele 
momento mais de 4.000 casos de microcefalia em recém-nascidos e desordens 
neurológicas em pacientes residentes em áreas mais afetadas pelo vírus. 
 Em relação a biologia do ZIKV, este é um vírus de RNA fita simples senso 
positivo pertencente ao gênero Flavivirus, com genoma de 10794 pb que codifica uma 
poliproteína de aproximadamente 3400 aminoácidos. Em sua fase madura, a 
poliproteína é clivada em três proteínas estruturais e sete não estruturais. 
 Agências de saúde e institutos de pesquisa de vários países desenvolveram 
muitos trabalhos sobre a temática, analisando inicialmente as fortes evidências 
clínicas que ligavam a infecção por ZIKV ao desenvolvimento da microcefalia. Foram 
investigadas também as possibilidades de transmissões do vírus por via sexual em 
humanos, entre animais domésticos e humanos e outros possíveis vetores além dos 
já conhecidos. Vários desses estudos conseguiram comprovar ou refutar essas 
possibilidades, mas ainda existem diversas lacunas no conhecimento e a necessidade 
de se aprofundar o entendimento dos mecanismos moleculares que levam ao 
surgimento dessa patologia, isto é, quais proteínas do vírus e dos vários hospedeiros 
13 
 
 
possíveis que estão envolvidas nesse processo. A partir desse entendimento será 
possível elaborar ou aprimorar as estratégias mais eficientes de combate à esta 
patologia. 
 Em relação aos vetores do ZIKV, a primeira vez que este vírus foi isolado em 
um mosquito, este pertencia a espécie Aedes africanus. Atualmente há um consenso 
no meio acadêmico e agências de saúde sobre a espécie Aedes aegypti como 
principal vetor do vírus, contudo insetos culicídeos de outras espécies podem estar 
envolvidos na transmissão do ZIKV e precisam ser investigados, visto que outros 
surtos fora do território brasileiro já ocorreram no passado, inclusive em regiões com 
ausência do mosquito A. aegypti. Para um efetivo controle da transmissão deste vírus, 
é importante identificar os vetores de importância epidemiológica, e quais os 
mecanismos moleculares utilizados pelo vírus para infectar seus hospedeiros 
invertebrados. Desta forma, será possível também elaborar estratégias para atacar 
diretamente os vetores de maior importância e influenciar no curso da infecção viral 
dentro do mosquito. Os mecanismos moleculares de interação proteica envolvidos na 
infecção viral podem fornecer informações valiosas no combate à transmissão do 
ZIKV. 
 A identificação de uma interação proteica por métodos experimentais tais como 
técnica de duplo-híbrido, espectrometria de massa, imunopreciptação e pull-down é 
um processo laborioso, de custo elevado e sujeito a erros sistemáticos, principalmente 
quando essas técnicas são aplicadas em larga escala. Desta forma, devido a estes 
desafios, vários métodos computacionais estão sendo desenvolvidos com o objetivo 
de construir redes de interação proteica com baixo custo e de maneira eficiente para 
a descoberta de interações proteína-proteína com alta probabilidade, funcionando 
como uma ferramenta de apoio aos métodos experimentais tradicionais. Dentre estes 
métodos, podem ser citados os métodos de interalog-mapping, mineração de textos e 
métodos que utilizam algoritmos de aprendizado de máquina tais com Support Vector 
Machine (SVM), Artificial Neural Networks (ANN) e Random Forest. Paralelamente, a 
crescente disponibilidade sequências genômicas e de informações funcionais em 
nível transcricional (transcriptomas) e de proteínas (proteomas) tanto para humanos 
quanto para outros primatas e espécies de culicídeos vetores, possibilita a aplicação 
de metodologias do tipo “top-down”, onde as informações sobre todas as proteínas 
que estão sendo produzidas em um determinado momento fisiológico são utilizadas 
14 
 
 
para identificar as interações proteína-proteína críticas para o estabelecimento da 
infecção viral, tanto nas espécies vetoras como na espécie humana. 
 Portanto, neste estudo são empregados métodos computacionais para predizer 
interações proteicas entre o ZIKV e seus hospedeiros vertebrados (Homo sapiens e 
Callithrix jacchus) e invertebrados (Aedes aegypti, Aedes albopictus e Culex 
quinquefasciatus) utilizando dados genômicos e proteômicos existentes para estes 
organismos. Uma base de dados de interações conhecidas entre vírus e hospedeiros 
foi utilizada como dado controle para o treinamento de algoritmos de aprendizado de 
máquina. Esses algoritmos foram treinados com base nas propriedade físico-químicas 
das proteínas envolvidas nas interações do grupo controle e então aplicados na 
predição das interações entre as proteínas do ZIKV e hospedeiros. 
 
15 
 
 
2 REFERENCIAL TEÓRICO 
 
2.1 Zika Vírus 
 
O vírus Zika é um arbovírus conhecido desde a década de 40, mas que ganhou 
destaque mundial apenas nos últimos anos. O vírus foi isolado pela primeira vez a 
partir do sangue de macacos Rhesus na floresta Zika, no ano de 1947 em Uganda, e 
no ano seguinte em mosquitos da espécie Aedes africanus (DICK; KITCHEN; 
HADDOW, 1952; FAYE et al., 2014; SAIZ et al., 2016). Entre a descoberta do vírus 
em 1947 e a primeira epidemia fora da África em 2007, poucos casos de infecção por 
ZIKV em humanos foram reportados, e os números relatados antes de 2007 são 
divergentes na literatura, onde alguns autores apontam 13 casos (FRANKEL et al., 
2017) enquanto outros apontam 14 casos (FAYE et al., 2014). 
Após o primeiro surto em 2007, foi verificado que a infecção em humanos é 
assintomática em aproximadamente 80% dos casos, e que a febre, erupção cutânea, 
artralgia e conjuntivite são os sintomas mais comuns (SAIZ et al., 2016; ZAMMARCHI 
et al., 2015). A doença é autolimitada, apresenta um período de incubação em torno 
de 10 dias, e os sintomas costumam sumir entre 3 e 7 dias com exceção da artralgia 
que pode durar mais de um mês (SAIZ et al., 2016). Os sintomas mais comuns fazem 
com que a infecção por Zika vírus muitas vezes seja confundida com Dengue ou 
Chikungunya, mas os desdobramentos associados ao vírus, como a síndrome de 
Guillain–Barré (SGB) e microcefalia, foram os principais responsáveis por evidenciar 
o ZIKV. A SGB causa uma paralisia que pode levar à morte, e na epidemia de ZIKV 
na Polinésia Francesa, em 2007, a incidência de SGB aumentou em 20 vezes dada a 
incidência previamente estabelecida (OEHLER et al., 2014; SAIZ et al., 2016). Já a 
microcefalia é uma condição na qual o bebê nasce com a cabeça muito menor quando 
comparado com outros bebês da mesma idade e sexo, e pode apresentar sintomas 
como epilepsia, dificuldades de aprendizados e deficiências visual e auditiva 
(ORGANIZAÇÃO MUNDIAL DA SAÚDE, 2016). 
Sobre a biologia do ZIKV, pode-se afirmar que é um arbovírus pertencente à 
família Flaviviridae e é caracterizado por ser um vírus de RNA fita simples sensopositivo, onde o genoma é envolvido pelo capsídeo que por sua vez é recoberto pelo 
envelope (FAYE et al., 2014; SAIZ et al., 2016; SIROHI et al., 2016). O genoma é 
16 
 
 
relativamente pequeno, possuindo apenas 10794 pares de bases (pb), possui ainda 
uma estrutura CAP na extremidade 5’ e uma única fase aberta de leitura (ou ORF, 
acrônimo do inglês para Open Reading Frame). Além disso, ele não possui cauda poli-
A na extremidade 3’ (SAIZ et al., 2016). A ORF é flanqueada por duas regiões não 
codificantes ou untranslated region (UTR) nas extremidades 5’ e 3’ que possuem 
respectivamente 106 e 428 nucleotídeos (KUNO; CHANG, 2007; SAIZ et al., 2016). 
Uma representação do genoma da cepa PE243 do ZIKV está presente na Figura 1. 
 
Figura 1 - Representação do genoma do Zika Vírus 
 
Fonte: Virus Pathogen Resource (2015). 
Nota: Ilustração do genoma da cepa PE243 do ZIKV. A barra em azul representa a poliproteína gerada 
que posteriormente é clivada nas proteínas virais. A barra amarela representa as proteínas virais em 
fase madura. 
 
Assim como outros Flavivírus, o genoma do ZIKV codifica uma poliproteína que 
posteriormente é clivada por proteases celulares e virais em três proteínas estruturais 
(capsídeo, prM/M e envelope), em sete proteínas não estruturais (NS1, NS2A, NS2B, 
NS3, NS4A, NS4B e NS5) (SAIZ et al., 2016; SIROHI et al., 2016) e no peptídeo não 
estrutural 2k (GURUMAYUM et al., 2018). As proteínas estruturais formam a camada 
mais externa do vírus, envolvendo o genoma viral enquanto as proteínas não 
estruturais estão envolvidas na replicação, montagem e evasão do sistema imune 
(FONTES-GARFIAS et al., 2017). 
As três proteínas estruturais participam do processo de montagem do vírus. O 
envelope é a proteína mais externa e é associado à virulência do vírus, sendo 
responsável por mediar a fusão do vírus com a membrana celular e 
consequentemente permitindo a entrada na célula por endocitose (FONTES-
GARFIAS et al., 2017). Do ponto de vista morfológico o envelope é em formato 
icosaédrico conforme é possível observar na Figura 2. 
 
17 
 
 
Figura 2 - Estrutura icosaédrica do envelope do ZIKV 
 
Fonte: Sirohi et al. (2016) 
 
 A proteína do capsídeo se associa ao RNA viral formando o núcleo do vírus 
(SAIZ et al., 2016). A proteína prM previne a fusão prematura do envelope antes da 
liberação na célula infectada e após ser clivada em proteína M promove a maturação 
das partículas virais (SAIZ et al., 2016). 
Entre as proteínas não estruturais, pode-se destacar às proteínas NS1 e NS5, 
que participam do processo de replicação viral e tem importantes papeis nos 
mecanismos de escape do sistema imunológico (XIA et al., 2018). As demais 
proteínas possuem principalmente atividades relativas à replicação e montagem, 
como nos casos da NS2A e NS2B (YOON et al., 2017) ou atividades enzimáticas 
como (LIANG et al., 2016). Algumas das funções das proteínas não estruturais são 
inferidas por similaridade com outros flavivírus relacionados, como a indução de 
rearranjos de membrana associados a replicação (NS4A), imunomodulação (NS1, 
NS2A) ou regulação da replicação de RNA e montagem viral (NS2A). 
O ciclo de replicação do ZIKV é apresentado em Saiz et al. (2016) com uma 
divisão em quatro etapas, sendo a primeira etapa a ligação do vírus a receptores 
celulares, permitindo que a partícula viral entre na célula por endocitose. O envelope 
viral inicia então uma fusão com a membrana do endossomo permitindo a liberação 
do genoma do vírus no citoplasma. O genoma é então traduzido e replicado e novas 
partículas virais são montadas até que são liberadas da célula para repetir o ciclo em 
outras células. 
18 
 
 
Dados epidemiológicos da literatura apontam para uma grande distribuição do 
vírus, com presença de casos na África, Ásia, Oceania, América e Europa (PAIXÃO 
et al., 2016). Desde o primeiro isolamento na África, casos foram reportados em vários 
países daquele continente ao longo dos anos, mas atualmente apenas Cabo Verde 
vem apresentando novos casos (SAIZ et al., 2016). Ásia e Europa apresentam poucos 
relatos de infecção e, especificamente na Europa, os relatos são de pessoas 
retornando de outros países onde existe um grande número de casos (SAIZ et al., 
2016). A Oceania foi o cenário do primeiro grande surto de ZIKV com uma incidência 
20 vezes maior que a esperada para casos de infecção com complicação para a SGB. 
Já o continente Americano foi o mais afetado nos últimos anos. Casos reportados de 
Zika vírus associados com SGB e casos de microcefalia congênita levaram a OMS a 
declarar o ZIKV como um problema de saúde pública internacional (SIROHI et al., 
2016). 
 Várias lacunas do conhecimento sobre o ZIKV permanecem sob investigação 
da comunidade científica apesar de todo o conhecimento já produzido nos últimos 
anos. Essas lacunas recaem sobre a epidemiologia, evolução clínica, virologia, 
incluindo o potencial de animais domésticos e selvagens como repositórios, 
hospedeiros amplificadores, capacidades vetoriais, e rotas não vetoriais alternativas 
de transmissão (LOWE et al., 2018). A Figura 3 resume essas lacunas de 
conhecimento. 
 
Figura 3 - Lacunas de conhecimento do ZIKV 
 
Fonte: Adaptado de Lowe et al. (2018) 
Nota: Ilustração de pontos que estão sob estudo em relação ao ZIKV como o papel de animais 
domésticos e silvestres no ciclo de transmissão viral, capacidade vetorial de outros mosquitos além do 
A. aegypti e transmissão do vírus por via sexual. 
19 
 
 
 No Brasil, especialmente no estado de Pernambuco, houve um aumento 
significativo de casos de microcefalia. Inicialmente o ministério da saúde adotou como 
critério para alerta de microcefalia recém-nascidos com 37 semanas ou mais de idade 
gestacional e com um perímetro cefálico menor que 33cm (SOUZA et al., 2016b). Este 
critério foi posteriormente alterado para um perímetro cefálico menor que 32cm, pois 
o critério anterior estava gerando um número excessivo de notificações sem respaldo 
na literatura (SOUZA et al., 2016b). Contudo, o número de casos de microcefalia em 
recém-nascidos ainda foi considerado muito superior quando comparado com o 
número de casos para o mesmo período anteriormente. 
 Apesar dos dados encontrados em Pernambuco, a Colômbia apresentava 
dados que contradiziam a associação do ZIKV com a microcefalia, visto que foram 
reportados mais de 5000 casos de mulheres grávidas infectadas por ZIKV, porém um 
único caso de microcefalia congênita (SAIZ et al., 2016). Novos estudos porém vieram 
a confirmar a associação entre infecção por ZIKV e o desenvolvimento de microcefalia 
em recém nascidos (ARAUJO et al., 2017). 
 
2.2 Hospedeiros Vertebrados 
 
Desde o primeiro isolamento até o primeiro surto em 2007, o Zika Vírus 
permaneceu infectando principalmente macacos e mosquitos, e apenas 
ocasionalmente infectando humanos (BUENO et al., 2016). O panorama mudou a 
partir do surto na Micronésia em 2007, onde vários casos de infecção passaram a ser 
reportados, seguido de um surto na Polinésia Francesa em 2013 e o mais recente 
ocorrido no Brasil a partir de 2015 (BUENO et al., 2016). Este último trouxe um grande 
destaque ao vírus devido aos graves impactos de saúde causados pela infecção, 
especialmente nos casos associados à microcefalia. 
O Homo sapiens é apontado em vários estudos como um importante 
hospedeiro do ZIKV (AYRES, 2016; BOORMAN; PORTERFIELD, 1956; FRANKEL et 
al., 2017; GUEDES et al., 2017; OEHLER et al., 2014; PAVITHRA L. CHAVALI et al., 
2017; SAIZ et al., 2016). Mecanismos de escape do sistema imunológico humano 
relacionados a mutações do ZIKV (VOSSEN et al., 2002; WELTMAN, 2016), 
especialmente na proteína NS1 (XIA et al., 2018), adaptações de importantes vetores 
virais (DYE, 1992) e falhas no controle de vetores (FORATTINI, 1995; ZARA et al., 
20 
 
 
2016), junto com outros fatores, permitiram o surgimentos dos surtos de ZIKV em H.sapiens a partir de 2007. 
O C. jacchus, pequeno primata popularmente conhecido como Sagui, encontra-
se amplamente distribuído na região nordeste do Brasil onde habita os mais diversos 
tipos de vegetação como dunas, restingas, mangues e passando pelas várias formas 
de matas (úmida, seca, serrana, etc) às zonas do Agreste e das Caatingas do Sertão 
(SILVA; CRUZ, 1993). Apesar do surto de ZIKV de 2015 no Brasil ter casos notificados 
nos mais diversos estados, a maior parte esteve concentrada na região Nordeste, e o 
trabalho de Favoretto et al. (2016) identificou infecção por ZIKV em C. jacchus no 
estado do Ceará. Este estudo ainda demonstrou através de sequenciamento que o 
ZIKV encontrado tem 100% de identidade com vírus encontrados na América do Sul. 
Por fim este trabalho aponta a possibilidade do C. jacchus servir como repositório para 
o vírus, corroborando com outros estudos que indicam a importância de avaliar 
diferentes animais no ciclo do ZIKV, visto que outros estudos encontraram anticorpos 
para o vírus em caprinos e roedores (BUENO et al., 2016). 
Os dados reportados por Favoretto et al. (2016) indicam que o estudo molecular 
do ZIKV em C. jacchus assim como em H. sapiens podem incrementar o entendimento 
dos mecanismos moleculares associados à infecção. 
 
2.3 Hospedeiros Invertebrados 
 
2.3.1 Mosquitos do gênero Aedes 
 
Os mosquitos do gênero Aedes são conhecidos por serem os principais vetores 
de várias doenças que afetam os humanos, especialmente doenças relacionas aos 
Flavivírus como Febre Amarela, Dengue, Chikungunya e Zika (HUANG et al., 2014; 
PAIXÃO et al., 2016; POWELL; TABACHNICK, 2013). 
O ZIKV já foi isolado em várias espécies do gênero Aedes como A. africanus, 
Aedes luteocephalus, Aedes aegypti, Aedes albopictus, Aedes furcifer e Aedes vittatus 
(PAIXÃO et al., 2016), sendo as espécies A. aegypti e A. albopictus consideradas as 
principais espécies transmissoras do ZIKV (ZARA et al., 2016). 
O A. aegypti é amplamente distribuído em regiões tropicais e subtropicais e 
tipicamente em meios urbanos, sendo raramente encontrado em ambientes silvestres 
21 
 
 
ou com pouca presença do homem (ZARA et al., 2016). Acredita-se que o mosquito 
foi introduzido no Brasil durante o comércio de escravos (FORATTINI, 1995; ZARA et 
al., 2016), e atualmente está presente em todos os estados do país (MARCONDES; 
XIMENES, 2015). A predominância urbana é devida a etologia do mosquito, que utiliza 
recipientes artificiais como criadouros e a presença de humanos, que é uma 
importante fonte de alimentação (KRAEMER et al., 2015; ZARA et al., 2016). 
Adaptações do mosquito levaram a um aumento da sua população e deslocamento 
em áreas de concentração urbana, o que o levou a uma maior competência vetorial 
(DYE, 1992). Os ovos do mosquito podem permanecer viáveis até 492 dias de seca e 
eclodir após contato com água (SILVA; SILVA, 1999) ajudando a garantir o ciclo de 
reprodução do mosquito. Sua competência vetorial para ZIKV colocam essa espécie 
como principal vetor do vírus (HUANG et al., 2014; PAIXÃO et al., 2016) e novos 
estudos apontam a possibilidade de transmissão sexual entre mosquitos (PEREIRA-
SILVA et al., 2018), podendo ser outro favor de disseminação viral. 
Outro vetor importante do ZIKV, o A. albopictus, é um mosquito de origem 
asiática, e que apresenta importantes diferenças em relação ao A. aegypti. O A. 
albopictus é capaz de tolerar baixas temperaturas (KRAEMER et al., 2015; ZARA et 
al., 2016), e é comumente encontrado em ambiente rurais, silvestres e semi-silvestres, 
e pode se alimentar de humanos. Na ausência de humanos, o mosquito pode se 
alimentar de animais silvestres ou até de néctar e sua reprodução ocorre em 
recipientes naturais (MOORE et al., 1988). Os registros históricos do A. albopictus no 
Brasil são relativamente recentes, tendo o primeiro registro datado de 1986 no Rio de 
Janeiro (ZARA et al., 2016), e dados de 2014 apontam a presença do mosquito em 
quase todos os estados do país (CARVALHO; LOURENÇO-DE-OLIVEIRA; BRAGA, 
2014) . 
 
2.3.2 Culex quinquefasciatus 
 
O Cx. quinquefasciatus é um mosquito amplamente distribuído nas regiões 
tropicais e subtropicais (FORATTINI, 1995), sendo sua distribuição fortemente ligada 
à presença de aglomerações humanas em áreas urbanas (AMORIM et al., 2013; 
FERNANDES et al., 2016; FORATTINI, 1995; GUEDES et al., 2016; GUO et al., 2016) 
similar, portanto, à distribuição de A. aegypti. 
22 
 
 
O consenso da academia e das agências de saúde aponta o A. aegypti como 
principal vetor do ZIKV (GUEDES et al., 2016). Esse consenso pode estar associado 
à competência vetorial dos mosquitos do gênero Aedes para transmissão do ZIKV, o 
que direcionou vários estudos, após o isolamento do vírus, a analisarem apenas 
mosquitos desse gênero (BOORMAN; PORTERFIELD, 1956; GUEDES et al., 2016; 
LI et al., 2012). Apesar da consonância acadêmica em torno dos mosquitos do gênero 
Aedes, alguns estudos indicam pouca ou nenhuma taxa de transmissão de ZIKV por 
mosquitos desse gênero (BEARCROFT, 1956; CHOUIN-CARNEIRO et al., 2016; 
DIAGNE et al., 2015; GUEDES et al., 2017; RICHARD; PAOAAFAITE; CAO-
LORMEAU, 2016) e outros trabalhos investigam a possibilidade de transmissão do 
vírus através de outros vetores como os mosquitos do gênero Culex (FERNANDES et 
al., 2016; GUEDES et al., 2017; GUO et al., 2016). 
Durante o primeiro surto de ZIKV em humanos, em 2007 na Micronésia, 
mosquitos coletados em campo não apresentaram amostras de contaminação pelo 
vírus (DUFFY et al., 2009). Além disso, o A. aegypti está ausente de algumas ilhas da 
região que apresentaram casos de infecção (DUFFY et al., 2009; SAVAGE et al., 
1998). Esses dados corroboram com os trabalhos que alegam negligência da 
pesquisa em relação ao papel de outros possíveis vetores para o ZIKV como o Cx. 
quinquefasciatus que coexistem em espaços urbanos (GUEDES et al., 2017). 
 
2.4 Métodos de predição de interações de proteínas in silico. 
 
Os métodos experimentais tradicionais para avaliar uma interação proteica, tais 
como técnica de duplo-híbrido, espectrometria de massa, imunopreciptação e pull-
down são laboriosos, de custo elevado e sujeito a erros sistemáticos, principalmente 
se essas técnicas forem aplicadas em larga escala (HARRINGTON; JENSEN; BORK, 
2008; JANSEN; GERSTEIN, 2004). Tais desafios unidos a uma necessidade 
crescente de análise de dados com volume cada vez maior, colocam os métodos 
computacionais como ferramentas importantes complementares aos métodos 
tradicionais, a um custo relativamente baixo para análise em larga escala. 
Existem várias abordagens computacionais para predição de interação entre 
proteínas como interalog-mapping (MATTHEWS et al., 2001), método envolvendo 
mineração de textos (KOYABU; PHAN; OHKAWA, 2015; PAPANIKOLAOU et al., 
23 
 
 
2015), métodos utilizando informações de perfis de presença e ausência de proteínas 
em diversos proteomas de interesse (PELLEGRINI et al., 1999), métodos utilizando o 
contexto de vizinhança genômica (LEES et al., 2011) e métodos utilizando algoritmos 
de aprendizado de máquina tais com Support Vector Machine (SVM), Artificial Neural 
Networks (ANN) e Random Forest (GUO et al., 2008; HUANG et al., 2015; LIU; SHEN; 
YU, 2015; QI; KLEIN-SEETHARAMAN; BAR-JOSEPH, 2005). 
Transferência de conhecimento, mineração de dados e aprendizado de 
máquina são as três principais abordagens com heurística utilizadas na predição de 
redes de interações proteicas (EID; ELHEFNAWI; HEATH, 2015). Uma vez que as 
famílias de vírus têm muitas dissimilaridades entre si, mineração de dados e 
transferência conhecimento tornam-se abordagens inapropriadas (EID; ELHEFNAWI; 
HEATH, 2015). Além disso os vírus possuem poucos domínios e suas estruturas são 
difíceis de predizer por modelagem comparativa, portanto os métodos tradicionais de 
predição de interação, baseados em homologia, podem não funcionarpara sistemas 
de interação de proteínas vírus-hospedeiros (ZHANG; HE; WANG, 2017). As 
abordagens que utilizam aprendizado de máquina para predição de interação de 
proteína partem de interações conhecidas para treinamento do algoritmo, e podem 
ser usadas para classificação de interações ou não interações (NOURANI; 
KHUNJUSH; DURMUS, 2015). O modelo geral de funcionamento de um algoritmo de 
aprendizado de máquina, partindo de amostras conhecidas para o treinamento do 
algoritmo e a posterior classificação, são apresentados na Figura 4. 
Os primeiros algoritmos de aprendizado de máquina surgiram ainda nos anos 
70, e desde então estão cada vez mais comuns graças ao aumento de poder 
computacional, que vem permitindo aplicar técnicas de aprendizado de máquina em 
problema cada vez mais complexos e nos mais variados campos de estudos 
(LOURIDAS; EBERT, 2016). Os esforços de vários pesquisadores levaram a uma 
camada de abstração entre a complexidade dos algoritmos e suas implementações, 
de forma que atualmente não é necessário entender profundamente o formalismo 
estatístico por baixo dos algoritmos para conseguir utilizar as ferramentas 
desenvolvidas e aplicar aos dados do mundo real (RAMASUBRAMANIAN; SINGH, 
2017). 
 
24 
 
 
Figura 4 - Visão geral de algoritmos de aprendizado de máquina 
 
Fonte: Adaptado de Tan (2005) 
Nota: Visão geral de um algoritmo de aprendizado de máquina. Um conjunto de dados com uma classe 
conhecida é usado para treinar o algoritmo, gerando um modelo que é aplicado a um conjunto de dados 
com classe desconhecida para classificar com base nas informações extraídas durante o treinamento. 
 
Várias dessas implementações para aprendizado de máquina foram 
desenvolvidos para tratar problemas de classificação de dados, sendo SVM uma das 
mais conhecidas e úteis para tal finalidade. Esta abordagem parte de um conjunto de 
dados que é dividido em treinamento e teste com um valor de alvo que serve para 
classificação (HSU; CHANG; LIN, 2008). A ideia básica do SVM é gerar um hiperplano 
que separa o conjunto de dados em duas classes, maximizando a margem entre os 
pontos mais próximos (RAMASUBRAMANIAN; SINGH, 2017). A ideia geral do 
hiperplano é ilustrada na Figura 5. 
Uma vez que o modelo do SVM é construído durante o treinamento, novos 
dados podem ser submetidos para classificação. 
 
 
25 
 
 
Figura 5 - Representação do Hiperplano de Classificação 
 
Fonte: Adaptado de Ramasubramanian e Singh (2017) 
Nota: Visão geral de um algoritmo de hiperplano do SVM. Um vetor central serve como divisão entre 
as classes. Quanto maior o espaço entre as amostras e o vetor, melhor a classificação. 
 
 Outra abordagem muito comum de aprendizado de máquina para problemas 
de classificação é o Random Forest, sendo este o mais popular algoritmo de decisão 
baseado em árvores com modelos de conjuntos (RAMASUBRAMANIAN; SINGH, 
2017). Este algoritmo faz uma combinação de árvores de decisão onde cada árvore 
depende de amostras aleatórias independentes, mas de mesma distribuição, 
permitindo um alto grau de generalização (BREIMAN, 2001). A construção de cada 
árvore de decisão se dá a partir da seleção aleatória de amostras do conjunto de 
treinamento (dados de controle), e assim várias árvores de mesmo tamanho, ou seja, 
mesmo número de amostras do conjunto de treinamento são montadas 
(RAMASUBRAMANIAN; SINGH, 2017). Uma vez que os vários modelos de decisão 
(as árvores) estão montados, cada amostra testada é submetida à classificação por 
todos os modelos de decisão construídos previamente e cada modelo dá uma 
classificação para a amostra testada. Por fim, é feita uma contagem das várias 
classificações dadas para a amostra por cada árvore, processo conhecido por 
votação, e a classificação final é dada pela classificação mais votada (LOUPPE, 
2014). O modelo geral do Random Forest é mostrado na Figura 6. 
 
26 
 
 
Figura 6 - Visão geral dos algoritmos de aprendizado de máquina do tipo Random Forest 
 
Fonte: Adaptado de Ramasubramanian e Singh (2017) 
Nota: Visão geral de um algoritmo de Random Forest. Estruturas de árvores de dados aleatórias são 
montadas e testados todos os ramos, seguida de uma análise dos resultas. Após encontrar o consenso, 
o resultado é coloca como classe. 
 
Tanto SVM quanto Random Forest são algoritmos comumente encontrados na 
literatura para problemas envolvendo predição de interações de proteínas ( BREIMAN, 
2001; CUI; FANG; HAN, 2012; HSU; CHANG; LIN, 2008; MEYER, 2001; QI; KLEIN-
SEETHARAMAN; BAR-JOSEPH, 2005). 
 
27 
 
 
3 JUSTIFICATIVA 
 
A recente epidemia do ZIKV atingiu diversas populações em vários países. O 
aumento no número de casos de microcefalia e síndrome de Guillain-Barré e suas 
graves consequências, associados à infecção por ZIKV, trouxeram urgência na busca 
por tratamentos para a doença. 
Apesar do volume de conhecimento gerado pela ciência sobre o ZIKV, ainda 
existem lacunas de conhecimento sobre as bases moleculares que permitem que a 
infecção do vírus ocorra nos hospedeiros e os efeitos desenvolvidos pela doença. A 
confirmação da associação entre a infecção viral e os problemas neurológicos 
desenvolvidos abre novas frentes de pesquisas para compreender os mecanismos 
moleculares envolvidos. O estudo das redes de interação de proteínas pode fornecer 
informações que ajudem a elucidar os mecanismos moleculares. 
 Devido a capacidade de processamento de dados em larga escala, as 
abordagens in silico vem se apresentando como importantes ferramentas para auxiliar 
os métodos experimentais. O uso de aprendizado de máquina para predizer 
interações de redes de proteínas pode portando aumentar o entendimento dos 
mecanismos moleculares que levam à infeção do vírus nos hospedeiros e seus 
desdobramentos. 
 
28 
 
 
4 PERGUNTA CONDUTORA 
 
Quais as interações proteicas entre ZIKV e seus hospedeiros que podem ser 
preditas in silico utilizando aprendizado de máquinas? 
 
29 
 
 
5 HIPÓTESE 
 
É possível predizer in silico interações proteicas entre ZIKV e seus hospedeiros, 
a partir das informações do proteoma, utilizando algoritmos de aprendizado de 
máquinas. 
 
30 
 
 
6 OBJETIVOS 
 
6.1 Objetivo Geral 
 
Empregar uma abordagem in silico capaz de identificar interações proteicas 
interespecíficas para incrementar o entendimento molecular da infecção do ZIKV nos 
seus hospedeiros vertebrados e invertebrados. 
 
6.2 Objetivos Específicos 
 
a) Construir bases de dados com informações de pares de proteínas que interagem 
e pares que não interagem para treinar os algoritmos de classificação; 
b) Treinar algoritmos de aprendizado de máquinas capazes de predizer interações de 
proteínas baseado nas suas características físico-químicas; 
c) Comparar o modelo construído com outras abordagens de predição de proteínas 
in silico encontradas na literatura; 
d) Analizar as interações das proteínas do ZIKV com os hospedeiros preditas pelo 
modelo; 
e) Visualizar e realizar análise topológica das redes de interação proteica modeladas 
para cada hospedeiro analisado; 
f) Executar análise de enriquecimento de dados das proteínas presentes nas redes 
de interações proteicas modeladas. 
 
 
31 
 
 
7 MATERIAIS E MÉTODOS 
 
7.1 Obtenção de dados 
 
Para o desenvolvimento do presente estudo, bases de dados públicas para 
obtenção de informações relativas aos proteomas das espécies analisadas foram 
selecionadas. Além dos proteomas do ZIKV, foram adquiridos os proteomas dos 
hospedeiros vertebrados H. sapiens e C. jacchus assim como os invertebrados A. 
aegypti, A. albopictus e C. quinquefasciatus, componentes do escopo deste estudo. 
Uma base de dados de interações positivas entre vírus e hospedeiros, com dados 
obtidos experimentalmente, foi utilizada para fins de treinamento dos algoritmos de 
classificação utilizados neste trabalho. A relação completa das bases de dados, 
respectivasespécies e dos sites com os repositórios dos proteomas adquiridos pode 
ser verificada no Quadro 1. 
 
Quadro 1 – Espécies estudadas e respectivas bases de dados 
Espécies Base de Dados Website 
ZIKV Virus Pathogen www.viprbrc.org 
H. sapiens Ensembl 
www.ensembl.org 
C. jacchus NCBI www.ncbi.nlm.nih.gov 
A. aegypti Vector Base www.vectorbase.org 
A. albopictus Vector Base www.vectorbase.org 
C. quinquefasciatus Vector Base 
www.vectorbase.org 
Vírus x Hospedeiros VirusMentha https://virusmentha.uniroma2.it/ 
Fonte: O autor 
Nota: A tabela mostra as espécies analisadas no projeto e as bases de dados onde os proteomas 
foram baixados. São mostrados também os endereços eletrônicos das bases de dados. 
 
A base de dados Virus Pathogen Resource (disponível em: 
https://www.viprbrc.org) é uma base de dados integrada com ferramentas de análise 
para várias famílias virais (PICKETT et al., 2012). Existem na base de dados 
(atualizados em 3 de junho de 2017), 438 genomas completos de ZIKV. Esta base foi 
escolhida para obter os dados referentes ao proteoma do ZIKV, sendo baixados dois 
proteomas completos referente às cepas PE243 e BeH823339. 
As informações relativas aos hospedeiros vertebrados foram obtidas de duas 
bases de dados, sendo a base Ensembl (disponível em: http://www.ensembl.org/) para 
32 
 
 
o proteoma da espécie H. sapiens e a base de dados do NCBI (disponível em: 
www.ncbi.nlm.nih.gov) para as proteínas referentes à espécie C. jacchus. 
Todas as informações pertinentes aos proteomas dos hospedeiros 
invertebrados foram obtidas a partir da base Vector Base (disponível em: 
www.vectorbase.org). O Vector Base é um centro de recursos e bioinformática 
(Bioinformatics Resource Center - BRC) que tem como missão prover suporte para 
pesquisas com vetores invertebrados, provendo diversas informações genéticas de 
vários vetores (GIRALDO-CALDERÓN et al., 2015). A partir desta base foram obtidos 
os proteomas dos vetores A. aegypti, A. albopictus e C. quinquefasciatus. 
Todos os proteomas foram obtidos em arquivos no formato FASTA. O 
carregamento de todas as informações contidas nos arquivos FASTA para os 
servidores de alto desempenho do Instituto Aggeu Magalhães (IAM/Fiocruz) foi 
realizado para formar o banco de dados inicial, onde as tabelas foram montadas para 
refletir todas as informações contidas nos arquivos FASTA. Para o treinamento dos 
algoritmos de aprendizado de máquina utilizados neste trabalho, foi feito o 
carregamento do arquivo de interações entre vírus e hospedeiros da base de dados 
VirusMentha (http://virusmentha.uniroma2.it), que é uma base de interações vírus-
vírus e vírus-hospedeiro obtida de forma experimental e curada seguindo protocolos 
bem definidos (CALDERONE; LICATA; CESARENI, 2015). 
As informações desta base servem como grupo controle na fase de construção 
e validação do modelo, onde é feita a validação cruzada de 5 vezes. Os dados das 
interações proteicas são obtidos através de arquivo em formato tabular, contendo dois 
identificadores de proteínas que interagem (vírus-hospedeiro) no padrão da base de 
dados UniProt (disponível em: https://www.uniprot.org/), e informações adicionais 
sobre cada proteína como gênero, família, identificador da espécie e valor de score a 
confiabilidade da interação. Como os dados da base VirusMentha trazem apenas as 
interações, mas não as sequências das proteínas, foi escrito o script chamado 
script_2_v0.sh, em linguagem shell script, para automatizar o download das 
sequências das proteínas relativas as interações do VirusMentha. O script recebeu 
como entrada uma lista com todos os identificadores das proteínas constantes no 
arquivo de interações do VirusMentha, já tratado e com remoção das redundâncias, e 
realizou o download das sequências de proteínas de forma automatizada utilizando o 
webservice do UniProt. 
33 
 
 
7.2 Banco de dados do projeto 
 
Para armazenar de forma conveniente, e facilitar as manipulações de dados de 
todas as informações adquiridas das bases de dados públicas previamente citadas, 
além das novas informações provenientes dos desdobramentos do projeto, foi 
desenvolvida, uma base de dados que foi hospedada no servidor de banco de dados 
do IAM/Fiocruz. A base de dados foi desenvolvido utilizando o banco de dados 
MySQL, na versão 5, como sistema gerenciador de banco de dados (SGBD), em 
modelo relacional e com utilização de chaves de registros, visando evitar duplicidades 
ou registros nulos e manter a integridade das informações ao longo das tabelas, visto 
que registros de chave estrangeira precisam estar de acordo com os registros das 
chaves primárias correspondentes (JAYANTHI; PREMA, 2011). O modelo da base de 
dados foi projetado utilizando a ferramenta de modelagem de base de dados MySQL 
Workbench, gerando o script inicial da base na linguagem chamada Structured Query 
Language (SQL). O modelo geral do banco pode ser visualizado na Figura 7. 
 
Figura 7 - Estrutura inicial do banco de dados 
 
Fonte: O autor 
Nota: Visão geral do banco de dados. As tabelas são conectadas por linhas que representam os 
relacionamentos entre as tabelas. Os campos marcados por quadriláteros vermelhos são chaves 
estrangeiras das tabelas ligadas através das linhas. A visão vw_remove_outliers é uma consulta 
armazenada da tabela resultBlast. 
34 
 
 
7.2.1 Tabela de interações positivas 
 
Conforme dito anteriormente, os dados de interações positivas foram obtidos 
da base de dados VirusMentha e em formato de arquivo tabular. Para armazenar de 
forma conveniente os dados e para manipulação dos mesmos em etapas futuras, foi 
criada a tabela InteracoesPositivas no banco de dados do projeto. Para inserir as 
informações do arquivo tabular para o banco, foi desenvolvido um script em linguagem 
Perl chamado de populaInteracoesPositivas-0.6-RC.pl. Esse script lê o arquivo 
tabular, linha a linha, obtendo cada informação separada por ponto e vírgula e insere 
o dado de interação na tabela do banco no campo apropriado. 
 
7.2.2 Tabela de proteomas 
 
Os dados de sequência das proteínas carregados da base UniProt, baseados 
no arquivo de interações positivas do VirusMentha, foram armazenados na tabela 
proteoma_completo. Os dados armazenados nesta tabela contêm as sequências e 
identificadores de proteínas do grupo controle e foram utilizados como tabela primária 
para o controle da integridade dos dados, através das chaves, das tabelas de 
interações positivas e negativas. Portanto, as sequências nela armazenadas são 
utilizadas na fase de construção do modelo, especificamente no treinamento dos 
algoritmos de aprendizado de máquina utilizados. Foi escrito em linguagem Perl, o 
script denominado populaProteomaCompleto.pl, que recebe como entrada uma lista 
com todos os arquivos fasta, extrai as informações referentes ao identificador, 
descrição e sequência de cada proteína e armazena no banco dados do projeto. Para 
extrair as informações dos arquivos em formato FASTA, foi usado o módulo de 
programação em linguagem PERL chamado Bio::SeqIO, que lida com vários formatos 
de arquivos de uso comum no campo da bioinformática. Foram obtidas informações 
relativas a 5235 proteínas que são usadas nas interações positivas e negativas do 
conjunto de dados de treinamento e de teste dos algoritmos de aprendizado de 
máquina. 
 
35 
 
 
7.2.3 Tabela de resultados do alinhamento 
 
Para gerar o conjunto de dados de interações negativas, com informações 
derivadas do conjunto de dados de interações positivas, foi realizado um alinhamento 
local de sequência de “todas contra todas” entre as sequências de proteínas do 
conjunto de interações positivas. O alinhamento foi realizado utilizando o programa 
Blastp do pacote BLAST+ (CAMACHO et al., 2009), o qual lida especificamente com 
alinhamentos de proteínas. O resultado do alinhamento foi tratado com o script em 
Perl recuperaBlast.pl, desenvolvidopara este projeto, com o objetivo gerar um arquivo 
contendo apenas os dados do alinhamento das proteínas de interação positivas que 
são usados na montagem do conjunto de dados negativos. Além dos dados do Blastp, 
o script faz o cálculo da cobertura pois essa informação é usada para gerar o conjunto 
de dados negativos. Foi então desenvolvido um script em Perl chamado de 
populaTabelaBlast.pl que recebeu como entrada o arquivo com os dados do resultado 
do alinhamento e os carregou para tabela resultBlast do banco. A tabela resultBlast 
tem chave estrangeira para a tabela proteoma_completo, de forma que todas as 
proteínas estejam validadas no banco. 
 
7.2.4 Tabela interações negativas 
 
As técnicas computacionais de classificação envolvendo algoritmos de 
aprendizado de máquina tipicamente precisam de um conjunto de dados positivos e 
outro negativo para que ocorra o treinamento do algoritmo, e consequentemente a 
classificação do conjunto de dados desconhecido. O conjunto de dados negativos do 
presente projeto foi derivado do conjunto de dados positivos, ou seja, da mesma base 
do VirusMentha. 
Em trabalhos relativos a predição de interação de proteínas, uma abordagem 
comum e mais simples para a geração do conjunto de dados de interações negativas 
é utilizar proteínas aleatoriamente do conjunto positivo desde que as proteínas em 
análise não interajam uma com a outra (BEN-HUR; NOBLE, 2005; EID; ELHEFNAWI; 
HEATH, 2015. Esta abordagem tende a gerar um número significativo de falsos-
negativos no conjunto de dados negativo, pois o fato de tais proteínas não constarem 
como interativas no conjunto de dados positivos pode se dar apenas por falta de 
36 
 
 
conhecimento de tal interação. Outras abordagens visam, portanto, adicionar alguma 
heurística na geração do conjunto de interações negativas. Neste trabalho foi utilizada 
como base, a metodologia utilizada no trabalho de Eid, Elhefnawi e Heath, (2015) com 
algumas modificações. A metodologia de Eid et al. (2015) faz uso de alinhamento 
global entre todas as proteínas do conjunto positivo de dados para calcular o bit-score 
entre elas, e por fim analisar a dissimilaridade das proteínas. Esse cálculo é utilizado 
com base em duas premissas, sendo a primeira a de que quando o percentual de 
similaridade entre duas proteínas é menor que 20%, a similaridade estrutural é mínima 
(ROST, 1999) e a segunda que se origina no dogma central da genômica que afirma 
que sequência determina a estrutura e esta determina a função (EID; ELHEFNAWI; 
HEATH, 2015). 
Diferente da metodologia apresentada por Eid, Elhefnawi e Heath, (2015), este 
projeto utilizou alinhamento local pois no alinhamento global podem escapar 
estruturas que apesar de ter pequenas porções alinhadas são importantes sítios de 
interação. Outra diferença é que neste projeto foram usados apenas alinhamentos 
com cobertura acima de 80% visando o aumento da confiabilidade dos dados 
atribuídos como não interativos. A Figura 8 apresenta de forma geral como duas 
proteínas são apresentadas como par não interativo neste projeto. 
 
Figura 8 - Modelo de obtenção de pares negativos 
 
Fonte: O autor 
Nota: Montagem de par de proteínas não interativas. Para que sejam consideradas como um par de 
proteínas não interativo, uma proteína viral “X” e uma proteína do hospedeiro “A” não podem ter 
interação conhecida no conjunto de pares de interações positivas. A proteína “A” do hospedeiro também 
não pode ter interação conhecida com outra proteína do vírus que tenha ao menos 20% de similaridade 
com a proteínas “X” e a proteína “X” não pode interagir com outra proteína do hospedeiro que tenha ao 
menos 20% de similaridade com “A”. Caso as proteínas “X” e “A” atendam esses requisitos, são 
colocadas como par no conjunto de pares não interativos. 
 
37 
 
 
Para montar a tabela InteracoesNegativas foi desenvolvido um script em 
linguagem PERL chamado de geraInteracoesNegativas-0.6.pl. O script recebe como 
entrada dois arquivos de texto sendo um com a lista de proteínas de vírus e outros 
com a lista de proteínas de hospedeiros, depois o mesmo realiza uma consulta no 
banco de dados para verificar se o par está na tabela de interações positivas e, em 
caso negativo, assumindo o par como possível par negativo. A proteína do hospedeiro 
em questão é verificada na tabela de interações positivas com outras proteínas virais 
que ela interage e, caso interaja com outra proteína viral, é feita a verificação do grau 
de similaridade dessa proteína viral com a proteína viral em questão, sendo esta 
consulta feita através uma consulta previamente processada (recurso também 
conhecido como “view”) chamada vw_remove_outliers, onde estão apenas 
alinhamentos com cobertura maior que 80%. O bit-score é normalizado conforme a 
metodologia apresentada por Eid, Elhefnawi e Heath, (2015) e é verificado se a 
proteína viral que interage com a proteína do hospedeiro em questão tem similaridade 
maior de que 20% com a proteína viral que está sendo considerada para par negativo. 
O mesmo critério é então adotado em relação à proteína viral em questão, ou seja, é 
feita uma verificação se a proteína viral em questão interage com outra proteína do 
hospedeiro que tenha mais de 20% de similaridade com a proteína do hospedeiro em 
questão. Se todos os critérios forem atendidos, as proteínas viral e do hospedeiro em 
questão são adicionadas na tabela Interações negativas. 
 
7.3 Treinamento dos Algoritmos 
 
A predição da interação de proteínas é realizada neste trabalho através do 
emprego de técnicas e algoritmos de aprendizado de máquina. O projeto foi 
desenvolvido usando a linguagem de programação R, através da interface de 
desenvolvimento RStudio, e pacotes desenvolvidos em R visando preparar os dados 
para o treinamento e teste do algoritmo de aprendizado de máquina. Os pacotes em 
R permitiram a extração de características físico-químicas das proteínas, baseado nas 
sequências de aminoácidos, e normalização dos dados para o uso de algoritmo de 
aprendizado de máquina. A linguagem R também foi usada para a aplicação do 
algoritmo Random Forest, através da sua implementação no pacote Caret (KUHN, 
2013). 
38 
 
 
7.3.1 Carga de dados para o RStudio 
 
A carga inicial de dados para o RStudio consiste em colocar as informações 
dos pares de interações, tanto as positivas quanto as negativas, em estrutura de 
dados na memória do servidor para tratamento dos dados através de comandos em 
linguagem R. Foram gerados no servidor, usando comandos em linguagem Shell 
Script e SQL, dois arquivos para as interações positivas e mais dois arquivos para as 
interações negativas, refletindo os pares positivos e negativos. Cada arquivo contém 
as informações (identificador da proteína e sua respectiva sequência de aminoácidos) 
de um dos membros do par de interação, mantendo a ordem dos pares. Foi escrito o 
script em linguagem R chamado protCheckExtractFeatures.R que carrega os arquivos 
de interações em matrizes na memória e faz a extração das características físico-
químicas das proteínas e normalização dos dados. 
 
7.3.2 Extração de características físico-químicas 
 
Para fazer a extração das características físico-químicas das proteínas, 
conforme metodologia utilizada em Eid, Elhefnawi e Heath, (2015), foi utilizado o 
pacote protR (XIAO et al., 2015). O protR é uma pacote em R que gera esquemas de 
representações numéricas de proteínas e peptídeos a partir de sequências de 
aminoácidos (XIAO et al., 2015; XIAO; XU; CAO, 2014). O pacote implementa o 
esquema de extração de características físico-químicas desenvolvido por Shen et al. 
(2007). 
A primeira etapa consiste em checar se todas as proteínas carregadas na 
matriz estão no padrão contendo apenas letras que representam os 20 aminoácidos. 
Esta verificação é realizada usando a função protcheck do protR. As proteínas que 
estão fora do padrão, e as respectivasinterações, são descartadas nesta esta etapa. 
Em seguida os aminoácidos de cada proteína são separados em 7 grupos baseados 
nas similaridades físico-químicas conhecidas por guiar as interações entre duas 
proteínas (dipolos e volume da cadeia lateral). Cada grupo de aminoácidos recebe um 
número conforme o Quadro 2. 
 
39 
 
 
Quadro 2 – Aminoácidos agrupados pelas características físico-químicas 
Aminoácidos Grupo 
{A,V,G} 1 
{I,L,F,P} 2 
{Y,M,T,S} 3 
{H,N,Q,W} 4 
{R,K} 5 
{D,E} 6 
{C} 7 
Fonte: O autor 
Nota: Grupos de aminoácidos e os respectivos rótulos de grupo durante a verificação de padrão e 
normalização do protR. 
 
A sequência de aminoácidos é então mapeada para um vetor de números 
correspondentes aos grupos para cada aminoácido. O vetor com os números dos 
grupos é então separado em trincas e a frequência de cada trinca é calculada para 
cada proteína, formando um vetor de características de tamanho igual a 343 (73 = 
343). Esta etapa permite que proteínas com sequências de tamanhos variados sejam 
colocadas em vetores de tamanhos iguais para possibilitar a comparação. Cada vetor 
de proteína tem seus elementos de características físico-químicas normalizados 
conforme a fórmula apresentada na Figura 9, ficando cada elemento com um valor 
numérico entre “0” e “1”. 
 
Figura 9 - Fórmula de Normalização 
 
Fonte: Eid, Elhefnawi e Heath (2015) 
Nota: O valor normalizado da característica em avalição é representado por 𝑓′𝑖, onde calcula-se o valor 
não normalizado da característica em avaliação 𝑓𝑖 subtraído do valor mínimo do vetor e divide-se este 
valor pela diferença entre o valor máximo do vetor e o valor mínimo do vetor. 
 
Com todas as proteínas normalizadas, foram montados os pares de interações. 
Os vetores gerados na etapa anterior foram salvos em arquivos Comma-Separated 
Values (CSV), que são arquivos com vários valores separados por algum caractere 
definido, chamado de separador. Em seguida esses arquivos CSV foram carregados 
40 
 
 
como matrizes, representando as proteínas na forma normalizada. As quatro matrizes 
que representam as proteínas dos pares foram unidas utilizando comando em R para 
alinhar as matrizes lado a lado, positivas com positivas e negativas com negativas, 
formando então duas matrizes com os pares de interações, uma para os positivos e 
outra para os negativos. Por fim, as duas matrizes foram unificadas em uma única 
matriz, com a matriz de pares positivos seguida da matriz de pares negativos, 
formando uma única matriz com todos os pares de interações, positiva e negativas, 
que serviu para o treinamento, teste e validação cruzada do modelo. A Figura 10 
apresenta as etapas desta montagem. 
 
Figura 10 - Montagem do arquivo de grupo controle para treinamento 
 
Fonte: O autor 
Nota: Após a normalização dos dados, são gerados quatro arquivos com os membros dos pares, sendo 
dois para as interações positivas e dois para as negativas. Esses arquivos são unidos lado a lado 
formando dois arquivos, um com os pares positivos e outro com os pares negativos. Os arquivos com 
os pares são então unidos um abaixo do outro, gerando o arquivo final de interações do grupo controle. 
 
7.3.3 Divisão de grupos de treinamento e teste 
 
Com as matrizes de interações positivas e negativas devidamente carregadas 
na memória do RStudio, foi realizada integração de ambas matrizes gerando uma 
única matriz com todas as interações positivas e negativas. O algoritmo de 
aprendizado de máquina aplicado aos problemas de classificação precisa de uma 
identificação das amostras, no caso do grupo de controle ou treinamento, para a 
devida identificação dos exemplos positivos e dos negativos. Para o algoritmo de 
41 
 
 
Random Forest implementado no pacote Caret, é preciso colocar o valor “0” para as 
amostras negativas e “1” para as amostras positivas. 
 Os testes realizados com a técnica de Random Forest, foi criada com a função 
label do R uma marcação para adicionar um “0” nas interações negativas e um “1” nas 
interações positivas. A etapa seguinte consiste em pegar o conjunto de dados 
controle, já normalizado e com as amostras previamente identificadas conforme as 
etapas anteriores, e dividir em grupo de treinamento e grupo de teste. 
Para o uso do Random Forest foi desenvolvido o script em linguagem R 
lerCSVDivideDados_RF.R, que carrega a matriz com os dados controle para a 
memória do RStudio, adiciona o alvo que identifica as amostras como positivas ou 
negativas e em seguida separa um percentual dos dados em treinamento e coloca a 
diferença no subconjunto de teste. O percentual de amostra que vai para os conjuntos 
de treinamento e teste pode ser definido no código do script e as amostras são 
colocadas de forma randômica em cada conjunto, porém mantendo o equilíbrio entre 
o número de amostras positivas e negativas em cada conjunto para evitar viés no 
treinamento. 
 
7.3.4 Treinamento dos algoritmos 
 
A fase de treinamento foi realizada de acordo com as características da 
implementação do algoritmo. Random Forest tem como único parâmetro passado o 
número de validação cruzada. A treinamento ocorre, junto com o carregamento dos 
dados e a validação cruzada, no script lerCSVDivideDados_RF.R. Após a execução 
do script, um arquivo “.RData” é gerado e salvo no servidor. Este arquivo contém o 
modelo treinado com todos os valores carregados na memória do RStudio e que são 
posteriormente usados na classificação dos dados. 
 
7.3.5 Validação cruzada 
 
Visando fazer a validação do modelo, foi realizada a validação cruzada de 5-
vezes para o treinamento do Random Forest. Foi escolhido o valor de 5 vezes para a 
validação por ser um valor amplamente encontrado na literatura nos estudos e 
aplicação de aprendizado de máquina. 
42 
 
 
A aplicação de validação cruzada no Random Forest é realizada durante o 
treinamento através do parâmetro “cv.fold” da implementação do Random Forest do 
pacote Caret, sendo esta função chamada no script lerCSVDivideDados_RF.R, logo 
após a divisão dos conjuntos de treinamento e teste feitas pelo mesmo script. Foram 
testados vários cenários para analisar a robustez do modelo gerado. 
O primeiro teste usou 75% das interações no conjunto de treinamento e 25% 
no conjunto de teste, posteriormente a validação foi realizada utilizada o esquema de 
validação cruzada em 5 vezes. Para fazer comparações com os resultados obtidos, 
foram realizados novos testes alterando as proporções dos conjuntos de treinamento 
e teste, onde na segunda rodada de treinamento o conjunto de treinamento ficou com 
25% das interações e o de teste com 75%, a terceira com 5% para treinamento e 95% 
para teste e a última rodada com 75% em treinamento e 25% em teste, como na 
primeira rodada, mas com uma validação cruzada de 10 vezes. 
 
7.4 Classificação dos pares de proteínas 
 
Com o modelo devidamente treinado, foi iniciada a fase seguinte que consiste 
em entregar para o algoritmo os pares de proteínas que não se sabe a priori se 
interagem ou não. Esses pares de proteínas são formados por uma proteína do ZIKV 
mais uma proteína de um dos hospedeiros do escopo deste estudo. 
Para que seja feita a classificação, os dados referentes as proteínas precisam 
ficar no mesmo padrão que as usadas para o treinamento. Todos os proteomas foram 
adquiridos no formato FASTA, que contém um identificador e a sequência de 
aminoácidos. Novamente o ProtR foi utilizado através do script 
protCheckExtractFeatures.R para extrair as características físico-químicas baseado 
nas sequências de aminoácidos, sendo utilizadas as mesmas características 
extraídas no conjunto controle. Este procedimento foi aplicado em todas as espécies 
analisadas. Os dados por fim são normalizados em vetores de mesmo tamanho e com 
valores entre “0” e “1”. 
Com os dados das características físico-químicas normalizados, os arquivos 
contendo as informações de cadaorganismo foram alocados no banco de dados para 
armazenar de forma mais conveniente visando a posterior manipulação dos dados. 
Utilizando comandos SQL, foi possível fazer todas as combinações possíveis de pares 
43 
 
 
de proteínas de ZIKV contra todas dos hospedeiros, e essas combinações foram 
colocadas em arquivos CSV. 
 
7.4.1 Preparação de dados para classificação por Random Forest 
 
Para fazer a classificação dos pares de ZIKV contra hospedeiros utilizando o 
Random Forest, foi necessário carregar na memória do RStudio os arquivos CSV. 
Devido ao fato do Random Forest carregar todo o arquivo de interações na memória 
para iniciar a classificação e ao tamanho dos arquivos, as interações de ZIKV com C. 
jacchus e ZIKV com H. sapiens foram divididas em arquivos menores para fazer a 
classificação, evitando estouro de memória no servidor. Cada uma das partes desses 
arquivos foi separadamente, e uma por vez, executada para fazer a classificação. 
Após o processo de classificação, os resultados das partes foram colocados no 
mesmo arquivo de forma a representar a mesma ordem inicial. Para os demais 
organismos (A. aegypti, A. albopictus e C. quinquefasciatus) não foi necessário dividir 
o arquivo pois a memória do servidor usado foi suficiente para comportar os arquivos. 
Os resultados são gravados em disco como arquivos CSV e é gravado também o 
estado do ambiente do RStudio, com os valores de variáveis e estruturas de dados 
que estavam na memória naquele momento, em um arquivo RData. 
 
7.4.2 Predições e armazenamento de resultados 
 
O Random Forest apresenta o resultado como um valor “0” para interações 
negativas e “1” para interações positivas. Foram criadas tabelas apropriadas no banco 
de dados do projeto para armazenar os dados de classificação. Todos os arquivos 
com os resultados da classificação além dos identificadores das proteínas de cada 
espécie são devidamente armazenados no banco. 
 
7.5 Modelagem da rede de interações 
 
Os dados das predições geradas, devidamente armazenados no banco de 
dados do projeto são usados para gerar as redes de interações de proteínas. Foram 
gerados cinco arquivos, através de consulta no banco com comando em linguagem 
44 
 
 
SQL, para representar as interações entre ZIKV e cada um dos hospedeiros. Os 
arquivos contêm apenas interações preditas como positivas. 
Os dados de Random Forest tiveram interações consideradas como positivas 
quando o valor de predição foi igual a “1”. Esse valor foi obtido através do script 
lerCSVDivideDados_RF.R e baseado nos dados usados para treinamento durante a 
construção do modelo. Os dados de resultado do script são usados para gerar 
arquivos tabulares que são em seguida passados como entrada para o Cytoscape, na 
versão 3.6.1, para gerar os grafos das redes de interações, sendo as proteínas de 
ZIKV colocadas como nó fonte e as dos hospedeiros como alvo. Esta configuração de 
rede gera grafos bipartidos, com as interações saindo dos nós que representam as 
proteínas do ZIKV para os nós que presentam as proteínas dos hospedeiros. 
 
7.6 Análise de enriquecimento funcional 
 
Os dados das predições geradas foram submetidos à análise de 
enriquecimento funcional utilizando o DAVID (acrônimo em inglês para Database for 
Annotation, Visualization and Integrated Discovery) na versão 6.8 (JIAO et al., 2012). 
Esta análise consiste identificar genes ou proteínas que compartilham atributos 
biologicamente relevantes ou associados com fenótipos de doenças (TIPNEY; 
HUNTER, 2010). A base de dados contém várias bases com informações de 
anotações funcionais. As informações de anotações funcionais são de processos 
biológicos, função molecular e via metabólica e são usadas para elencar sentidos 
biológicos para as predições realizadas. 
45 
 
 
8 CONSIDERAÇÕES ÉTICAS 
 
Os dados obtidos e utilizados ao longo do projeto são provenientes de bancos 
de dados públicos de instituições ligadas à pesquisa, disponibilizados abertamente na 
internet para consulta e uso científico. Não há nas amostras, especialmente às 
relacionadas aos humanos, qualquer tipo de identificação que possa ser relacionada 
a um paciente. Não foram utilizados humanos ou animais em nenhuma das etapas do 
projeto. Todos os softwares usados no projeto, incluindo sistemas operacionais, banco 
de dados, bibliotecas, scripts e demais aplicativos são baseados em software livre ou 
foram desenvolvidos para este trabalho. 
 
46 
 
 
9 RESULTADOS 
 
A partir dos dados obtidos na base VirusMentha relativos às interações entre 
proteínas, foram montados arquivos em formato FASTA, separados por espécie, com 
as sequências de aminoácidos das proteínas. Essas sequências foram baixadas de 
forma automatizada a partir do Uniprot, utilizando as listas de identificadores contidos 
nos dados do VirusMentha através do script script_2_v0.sh. Foi construído um banco 
de dados relacional com informações referentes a 5206 proteínas, que tem seus 
identificadores usados como chaves estrangeiras nas demais tabelas para garantir a 
confiabilidade dos dados e evitar que outra tabela tenha uma proteína inválida no 
conjunto das proteínas do projeto. 
Os arquivos em formato FASTA com as informações das 5206 proteínas foram 
usados para gerar um único arquivo que foi utilizado para realizar alinhamento local 
entre todas as proteínas. Com o resultado do Blastp, foram obtidos os valores de e-
value, identidade, similaridade, de coordenadas de início e fim do alinhamento e bit-
score. O script recuperaBlast.pl feito para recuperação dos dados do alinhamento foi 
programado também com uma função que calculou e obteve a cobertura dos 
alinhamentos. Os resultados gerados no alinhamento foram armazenados no banco e 
são utilizados na elaboração do conjunto de dados de interações negativas. 
Com os dados do alinhamento carregados no banco de dados, foi criada uma 
estrutura de dados do tipo visão da tabela resultBlast contendo apenas dados de 
alinhamento com a cobertura igual ou maior que 80%. Os dados contidos nesta visão 
são usados na elaboração do conjunto de dados de interações negativas. 
Dois arquivos de texto, um contendo a lista de identificadores dos vírus e outro 
contendo a lista de identificadores de hospedeiros, foram montados a partir de 
consultas SQL dos dados armazenados nas etapas anteriores. Esses arquivos foram 
usados como entrada do script geraInteracoesNegativas-0.6.pl que, seguindo a 
metodologia previamente apresentada para este projeto, gerou um conjunto de 
5.362.606 de pares de proteínas tidas como não interativas. Os dados gerados nesta 
etapa foram devidamente armazenados no banco de dados do projeto. 
Consultas no banco de dados do projeto foram realizadas para gerar quatro 
arquivos do tipo FASTA referentes as proteínas das interações. Foram montados dois 
arquivos para as interações positivas, onde o primeiro arquivo continha uma lista das 
47 
 
 
proteínas de interação e o segundo continha a lista dos respectivos pares das 
interações, e outros dois arquivos montados da mesma forma para as interações 
negativas. Esses arquivos formam carregados no RStudio para fazer a extração das 
características físico-química das proteínas. Durante o processo de checagem de 
padrão de proteínas foram eliminadas 16 proteínas do conjunto total de proteínas do 
projeto. Foi gerada uma lista de proteínas validadas pela checagem do ProtR. Esse 
arquivo foi colocado como entrada no script montaFastaR.sh que gerou novamente 
os quatro arquivos fasta contendo apenas interações com proteínas validadas. Esses 
arquivos foram submetidos novamente ao ProtR no RStudio onde foram geradas 
quatro matrizes, duas para as proteínas das interações positivas e mais duas para as 
interações negativas. Essas matrizes contém as informações das proteínas já com as 
características físico-químicas extraídas e devidamente normalizadas em valores

Mais conteúdos dessa disciplina