2018pitta-jllp

Biologia

Diana Maldonado

17/05/2024

Prévia do material em texto

FUNDAÇÃO OSWALDO CRUZ
INSTITUTO AGGEU MAGALHÃES
MESTRADO ACADÊMICO EM BIOCIÊNCIAS E BIOTECNOLOGIA EM SAÚDE

JOÃO LUIZ DE LEMOS PADILHA PITTA

PREDIÇÃO IN SILICO DE REDES DE INTERAÇÃO PROTEICA INTERESPÉCIE
ENTRE ZIKA VÍRUS E SEUS HOSPEDEIROS VERTEBRADOS E
INVERTEBRADOS

RECIFE
2018

JOÃO LUIZ DE LEMOS PADILHA PITTA

PREDIÇÃO IN SILICO DE REDES DE INTERAÇÃO PROTEICA INTERESPÉCIE
ENTRE ZIKA VÍRUS E SEUS HOSPEDEIROS VERTEBRADOS E
INVERTEBRADOS

Dissertação apresentada ao Curso de
Mestrado Acadêmico em Biociências e
Biotecnologia em Saúde do Instituto Aggeu
Magalhães, Fundação Oswaldo Cruz,
como um dos requisitos para a obtenção
do título de Mestre em Ciências.

Orientador: Dr. Antonio Mauro Rezende
Coorientador: Dr. Gabriel da Luz Wallau

RECIFE
2018

Catalogação na fonte: Biblioteca do Centro de Pesquisas Aggeu Magalhães

P688p

Pitta, João Luiz de Lemos Padilha.
Predição in silico de redes de interação proteica
interespécie entre Zika vírus e seus hospedeiros
vertebrados e invertebrados / João Luiz de Lemos
Padilha Pitta. - Recife: [s.n.], 2018.
69 p. : ilus.
Dissertação (Mestrado em Biociências e
Biotecnologia em Saúde) - Instituto Aggeu
Magalhães, Fundação Oswaldo Cruz.
Orientador: Antonio Mauro Rezende.
Coorientador: Gabriel da Luz Wallau.

1. Zika virus. 2. Aprendizado de máquina. 3.
Proteoma. I. Rezende, Antonio Mauro. II. Wallau,
Gabriel da Luz. III. Título.

CDU 616.921

JOÃO LUIZ DE LEMOS PADILHA PITTA

PREDIÇÃO IN SILICO DE REDES DE INTERAÇÃO PROTEICA INTERESPÉCIE
ENTRE ZIKA VÍRUS E SEUS HOSPEDEIROS VERTEBRADOS E
INVERTEBRADOS

Dissertação apresentada ao Curso de
Mestrado em Biociências e Biotecnologia
em Saúde do Instituto Aggeu Magalhães,
Fundação Oswaldo Cruz, como um dos
requisitos para a obtenção do título de
Mestre em Ciências.

Aprovada em: 01/10/2018

BANCA EXAMINADORA

________________________________________________
Dr. Antonio Mauro Rezende
Instituto Aggeu Magalhães/FIOCRUZ-PE

________________________________________________
Dr. Rafael Freitas de Oliveira França
Instituto Aggeu Magalhães/FIOCRUZ-PE

________________________________________________
Dra. Flávia Figueira Aburjaile
Universidade Federal de Pernambuco

AGRADECIMENTOS

Muitas pessoas contribuíram das mais diversas formas para a realização deste
trabalho, mas em especial faço os seguintes agradecimentos:

Aos meus orientadores Antonio Rezende e Gabriel Wallau por aceitarem o desafio de
orientar um aluno vindo de outra área do conhecimento e por toda a disponibilidade,
ensinamentos e paciência fundamentais para a conclusão do curso.

A Beatriz Toscano por toda a ajuda nas disciplinas, todo o material de estudo para a
seleção do mestrado, toda a paciência para responder perguntas, toda atenção e
amizade que foram muito importantes dentro e fora do mestrado. Tenho uma dívida
eterna.

A Crhisllane Vasconcelos, a primeira de seu nome, por toda a ajuda com ferramentas
e códigos, eternas discussões sobre meu projeto e ciência em geral além da amizade
sempre regada com café. Outra dívida que não vou conseguir pagar.

A Túlio Campos por toda a ajuda com R e machine learning.

A Larissa Paiva por todo o incentivo dado para ingressar no nível superior, toda a
torcida ao longo da graduação e durante o mestrado. Vou carregar tudo sempre com
muito carinho.

A Josane Lemos por ter feito todo o possível para que eu tivesse acesso a uma boa
educação e conseguisse me desenvolver como pessoa e profissional.

Aos amigos Michelle Barros, Rodrigo Loyo, Lays Trajano, Carol Luz, Morgana Costa,
Larissa Maciel, Camila Fernandes e Virgínia Lorena.

Às minhas colegas de turma 2016.2, Marjorie Freire, Iany França, Yury Yzabella e
Marcela Melo por todo o apoio e troca de informações ao longo desses dois anos.

A Marcelo Lima por viabilizar meus horários de trabalho para que fosse possível
frequentar as disciplinas do curso.

A Aldrey Galindo e Igor Oliveira, pela amizade e ajuda com shell script, fundamentais
em vários momentos ao longo do projeto.

Aos membros da banca examinadora que gentilmente aceitaram o convite para
contribuir neste trabalho.

Ao Instituto Aggeu Magalhães – Fiocruz-PE pelos recursos para o desenvolvimento
deste trabalho e a todos os seus funcionários pelo suporte científico.

PITTA, João Luiz de Lemos Padilha. Predição in silico de redes de interação
proteica interespécie entre Zika vírus e seus hospedeiros vertebrados e
invertebrados. 2018. Dissertação (Mestrado Acadêmico em Biociências e
Biotecnologia em Saúde) – Instituto Aggeu Magalhães, Fundação Oswaldo Cruz,
Recife, 2018.

RESUMO

O ZIKA vírus (ZIKV) é um membro da família Flaviviridae, isolado pela primeira vez
na década de 40 e que foi negligenciado por autoridades de saúde e pela ciência
durante várias décadas. A recente epidemia mundial, conforme declarada pela
Organização Mundial de Saúde (OMS) em fevereiro de 2016, e o aumento do número
de casos de microcefalia e síndrome de Guillain-Barré (SGB) associados ao ZIKV
colocaram o mesmo em evidência. Entender os mecanismos moleculares da infecção
viral nos diversos hospedeiros é necessário para o desenvolvimento de tratamentos e
medidas preventivas. As abordagens experimentais apresentam várias dificuldades
para este tipo de estudo quando aplicadas em larga escala, fazendo com que os
métodos computacionais surjam como importantes ferramentas de auxílio às
abordagens tradicionais. As interações proteína-proteína (ou PPI, do acrônimo inglês
Protein-Protein Interactions) podem ser usadas para estudar os mecanismos da
infecção viral. Através do uso de algoritmos de aprendizado de máquinas, como
Random Forest, aplicados aos proteomas investigados neste estudo, predições de
interações proteicas entre ZIKV e seus diversos hospedeiros foram realizadas. Este
estudo mostrou que a metodologia aqui empregada trouxe níveis de predição
semelhantes à outras abordagens, porém foi aplicado à vários hospedeiros. Foi
possível demonstrar em grafos bipartidos a importância das proteínas virais
associadas a mecanismos de escape imunológico ou na transmissão do vírus por
vetores, baseado nos números de interações realizadas e indicar possibilidades de
malformação no sistema nervoso, especialmente na fase embrionária, em outras
espécies além do H. sapiens.

Palavras-chave: ZIKV. Aprendizado de máquina. Interação proteína-proteína.

PITTA, João Luiz de Lemos Padilha. In silico prediction of interspecies protein
interaction networks between Zika virus and their vertebrate and invertebrate
hosts 2018. Dissertation (Academic Master in Bioscience and Biotechnology for
Health) – Aggeu Magalhães Research Center, Oswaldo Cruz Foundation, Recife,
2018.

ABSTRACT

The ZIKA virus (ZIKV) is a member of the Flaviviridae family, first isolated in the 1940s
and neglected by health authorities and science for several decades. The recent global
epidemic, as declared by the World Health Organization (WHO) in February 2016, and
the increase in the number of cases of microcephaly and Guillain-Barré syndrome
(GBS) associated with ZIKV have made the same. Understanding the molecular
mechanisms of viral infection in various hosts is necessary for the development of
preventive treatments and measures. Experimental approaches present several
difficulties for this type of study when applied on a large scale, making computational
methods appear as important tools to aid traditional approaches. Protein-protein
interactions (or PPI) can be used to study the mechanismsof viral infection. Through
the use of machine learning algorithms, such as Random Forest, applied to the
proteomes investigated in this study, predictions of protein interactions between ZIKV
and its several hosts were performed. This study showed that the methodology used
here brought prediction levels similar to other approaches, but it was applied to several
hosts. It was possible to demonstrate in bipartite graphs the importance of viral proteins
associated with immune escape mechanisms or virus transmission by vectors based
on the number of interactions performed and indicate possibilities of malformation in
the nervous system, especially in the embryonic phase, in other species besides H.
sapiens.

Keywords: ZIKV. Machine learning. Protein-protein interaction.

LISTA DE ILUSTRAÇÕES

Figura 1 - Representação do genoma do Zika Vírus ................................................. 16
Figura 2 - Estrutura icosaédrica do envelope do ZIKV .............................................. 17
Figura 3 - Lacunas de conhecimento do ZIKV .......................................................... 18
Figura 4 - Visão geral de algoritmos de aprendizado de máquina ............................ 24
Figura 5 - Representação do Hiperplano de Classificação ....................................... 25
Figura 6 - Visão geral dos algoritmos de aprendizado de máquina do tipo Random
Forest ........................................................................................................................ 26
Figura 7 - Estrutura inicial do banco de dados .......................................................... 33
Figura 8 - Modelo de obtenção de pares negativos .................................................. 36
Figura 9 - Fórmula de Normalização ......................................................................... 39
Figura 10 - Montagem do arquivo de grupo controle para treinamento ..................... 40
Figura 11 - Resultado da primeira validação do algoritmo de Random Forest .......... 48
Figura 12 - Resultado da segunda validação do algoritmo de Random Forest ......... 48
Figura 13 - Resultado da terceira validação do algoritmo de Random Forest ........... 49
Figura 14 - Resultado da validação com validação cruzada de 10 vezes ................. 49
Figura 15 - Representação visual das redes modeladas .......................................... 51

LISTA DE QUADROS

Quadro 1 – Espécies estudadas e respectivas bases de dados ............................... 31
Quadro 2 – Aminoácidos agrupados pelas características físico-químicas ............... 39
Quadro 3 – Principais dados de enriquecimento encontrados .................................. 53

LISTA DE TABELAS

Tabela 1 – Números de pares analisados pelo modelo ............................................ 50
Tabela 2 – Espécies estudadas e respectivos números de interações preditas ....... 50
Tabela 3 – Números de proteínas virais de cada cepa preditas por espécie ............ 52

LISTA DE ABREVIATURAS E SIGLAS

AUC - Area Under the Curve
CHIKV - Chikungunya
CSV - Comma-Separated Values
DAVID - Database for Annotation, Visualization and Integrated
Discovery
DENV - Dengue Vírus
OMS - Organização Mundial de Saúde
ORF - Open Reading Frame
Pb - Pares de base
PPI - Protein-Protein Interaction
SGB - Síndrome de Guillain-Barré
SGBD - Sistema de Gerenciamento de Banco de Dados
SQL - Structured Query Language
SVM - Support Vector Machine
UTR - Untranslated region
WNV - Vírus do Oeste do Nilo
ZIKV - Zika Vírus

SUMÁRIO

1 INTRODUÇÃO ................................................................................................... 12
2 REFERENCIAL TEÓRICO ................................................................................. 15
2.1 Zika Vírus ........................................................................................................... 15
2.2 Hospedeiros Vertebrados ................................................................................ 19
2.3 Hospedeiros Invertebrados .............................................................................. 20
2.3.1 Mosquitos do gênero Aedes ............................................................................. 20
2.3.2 Culex quinquefasciatus ..................................................................................... 21
2.4 Métodos de predição de interações de proteínas in silico. ........................... 22
3 JUSTIFICATIVA ................................................................................................. 27
4 PERGUNTA CONDUTORA ............................................................................... 28
5 HIPÓTESE .......................................................................................................... 29
6 OBJETIVOS ....................................................................................................... 30
6.1 Objetivo Geral ................................................................................................... 30
6.2 Objetivos Específicos ....................................................................................... 30
7 MATERIAIS E MÉTODOS .................................................................................. 31
7.1 Obtenção de dados ........................................................................................... 31
7.2 Banco de dados do projeto .............................................................................. 33
7.2.1 Tabela de interações positivas .......................................................................... 34
7.2.2 Tabela de proteomas ........................................................................................ 34
7.2.3 Tabela de resultados do alinhamento ............................................................... 35
7.2.4 Tabela interações negativas ............................................................................. 35
7.3 Treinamento dos Algoritmos ........................................................................... 37
7.3.1 Carga de dados para o RStudio........................................................................ 38
7.3.2 Extração de características físico-químicas ...................................................... 38
7.3.3 Divisão de grupos de treinamento e teste ......................................................... 40
7.3.4 Treinamento dos algoritmos ............................................................................. 41
7.3.5 Validação cruzada ............................................................................................ 41
7.4 Classificação dos pares de proteínas ............................................................. 42
7.4.1 Preparação de dados para classificação por Random Forest .......................... 43
7.4.2 Predições e armazenamento de resultados ...................................................... 43
7.5 Modelagem da rede de interações .................................................................. 43
7.6 Análise de enriquecimento funcional.............................................................. 44

8 CONSIDERAÇÕES ÉTICAS .............................................................................. 45
9 RESULTADOS ................................................................................................... 46
10 DISCUSSÃO ...................................................................................................... 54
11 CONCLUSÕES .................................................................................................. 58
REFERÊNCIAS ......................................................................................................... 59
12

1 INTRODUÇÃO

Atualmente existem aproximadamente 80 espécies de arbovírus que possuem
a capacidade deinfectar os seres humanos. Estes vírus possuem como vetor
espécies de artrópodes em sua maioria pertencentes à família Culicidae, sendo as
espécies pertencentes aos gêneros Aedes e Culex as mais associadas à transmissão
de arbovírus. Os arbovírus patogênicos produzem anualmente um grande impacto
para a saúde humana em países tropicais, como exemplo disso, podemos citar os
casos sazonais de Dengue (DENV). Além disso, novos arbovírus estão emergindo
constantemente como o vírus Zika (ZIKV), Chikungunya (CHIKV) e Vírus do Oeste do
Nilo (WNV).
Recentemente, a partir de 2015, o vírus ZIKV ganhou grande destaque devido
ao grande número de infecções no Brasil, e também devido aos graves problemas de
saúde produzidos e relacionados à sua infecção, notoriamente a Síndrome de
Guillain-Barré e os casos de microcefalia em recém-nascidos. O crescimento rápido
do número de casos e os sérios problemas de saúde relacionados à infecção do ZIKV
levaram a Organização Mundial da Saúde (OMS) a declarar, no dia 1 de fevereiro de
2016, o ZIKV como um problema de saúde mundial, tendo sido reportados até aquele
momento mais de 4.000 casos de microcefalia em recém-nascidos e desordens
neurológicas em pacientes residentes em áreas mais afetadas pelo vírus.
Em relação a biologia do ZIKV, este é um vírus de RNA fita simples senso
positivo pertencente ao gênero Flavivirus, com genoma de 10794 pb que codifica uma
poliproteína de aproximadamente 3400 aminoácidos. Em sua fase madura, a
poliproteína é clivada em três proteínas estruturais e sete não estruturais.
Agências de saúde e institutos de pesquisa de vários países desenvolveram
muitos trabalhos sobre a temática, analisando inicialmente as fortes evidências
clínicas que ligavam a infecção por ZIKV ao desenvolvimento da microcefalia. Foram
investigadas também as possibilidades de transmissões do vírus por via sexual em
humanos, entre animais domésticos e humanos e outros possíveis vetores além dos
já conhecidos. Vários desses estudos conseguiram comprovar ou refutar essas
possibilidades, mas ainda existem diversas lacunas no conhecimento e a necessidade
de se aprofundar o entendimento dos mecanismos moleculares que levam ao
surgimento dessa patologia, isto é, quais proteínas do vírus e dos vários hospedeiros
13

possíveis que estão envolvidas nesse processo. A partir desse entendimento será
possível elaborar ou aprimorar as estratégias mais eficientes de combate à esta
patologia.
Em relação aos vetores do ZIKV, a primeira vez que este vírus foi isolado em
um mosquito, este pertencia a espécie Aedes africanus. Atualmente há um consenso
no meio acadêmico e agências de saúde sobre a espécie Aedes aegypti como
principal vetor do vírus, contudo insetos culicídeos de outras espécies podem estar
envolvidos na transmissão do ZIKV e precisam ser investigados, visto que outros
surtos fora do território brasileiro já ocorreram no passado, inclusive em regiões com
ausência do mosquito A. aegypti. Para um efetivo controle da transmissão deste vírus,
é importante identificar os vetores de importância epidemiológica, e quais os
mecanismos moleculares utilizados pelo vírus para infectar seus hospedeiros
invertebrados. Desta forma, será possível também elaborar estratégias para atacar
diretamente os vetores de maior importância e influenciar no curso da infecção viral
dentro do mosquito. Os mecanismos moleculares de interação proteica envolvidos na
infecção viral podem fornecer informações valiosas no combate à transmissão do
ZIKV.
A identificação de uma interação proteica por métodos experimentais tais como
técnica de duplo-híbrido, espectrometria de massa, imunopreciptação e pull-down é
um processo laborioso, de custo elevado e sujeito a erros sistemáticos, principalmente
quando essas técnicas são aplicadas em larga escala. Desta forma, devido a estes
desafios, vários métodos computacionais estão sendo desenvolvidos com o objetivo
de construir redes de interação proteica com baixo custo e de maneira eficiente para
a descoberta de interações proteína-proteína com alta probabilidade, funcionando
como uma ferramenta de apoio aos métodos experimentais tradicionais. Dentre estes
métodos, podem ser citados os métodos de interalog-mapping, mineração de textos e
métodos que utilizam algoritmos de aprendizado de máquina tais com Support Vector
Machine (SVM), Artificial Neural Networks (ANN) e Random Forest. Paralelamente, a
crescente disponibilidade sequências genômicas e de informações funcionais em
nível transcricional (transcriptomas) e de proteínas (proteomas) tanto para humanos
quanto para outros primatas e espécies de culicídeos vetores, possibilita a aplicação
de metodologias do tipo “top-down”, onde as informações sobre todas as proteínas
que estão sendo produzidas em um determinado momento fisiológico são utilizadas
14

para identificar as interações proteína-proteína críticas para o estabelecimento da
infecção viral, tanto nas espécies vetoras como na espécie humana.
Portanto, neste estudo são empregados métodos computacionais para predizer
interações proteicas entre o ZIKV e seus hospedeiros vertebrados (Homo sapiens e
Callithrix jacchus) e invertebrados (Aedes aegypti, Aedes albopictus e Culex
quinquefasciatus) utilizando dados genômicos e proteômicos existentes para estes
organismos. Uma base de dados de interações conhecidas entre vírus e hospedeiros
foi utilizada como dado controle para o treinamento de algoritmos de aprendizado de
máquina. Esses algoritmos foram treinados com base nas propriedade físico-químicas
das proteínas envolvidas nas interações do grupo controle e então aplicados na
predição das interações entre as proteínas do ZIKV e hospedeiros.

2 REFERENCIAL TEÓRICO

2.1 Zika Vírus

O vírus Zika é um arbovírus conhecido desde a década de 40, mas que ganhou
destaque mundial apenas nos últimos anos. O vírus foi isolado pela primeira vez a
partir do sangue de macacos Rhesus na floresta Zika, no ano de 1947 em Uganda, e
no ano seguinte em mosquitos da espécie Aedes africanus (DICK; KITCHEN;
HADDOW, 1952; FAYE et al., 2014; SAIZ et al., 2016). Entre a descoberta do vírus
em 1947 e a primeira epidemia fora da África em 2007, poucos casos de infecção por
ZIKV em humanos foram reportados, e os números relatados antes de 2007 são
divergentes na literatura, onde alguns autores apontam 13 casos (FRANKEL et al.,
2017) enquanto outros apontam 14 casos (FAYE et al., 2014).
Após o primeiro surto em 2007, foi verificado que a infecção em humanos é
assintomática em aproximadamente 80% dos casos, e que a febre, erupção cutânea,
artralgia e conjuntivite são os sintomas mais comuns (SAIZ et al., 2016; ZAMMARCHI
et al., 2015). A doença é autolimitada, apresenta um período de incubação em torno
de 10 dias, e os sintomas costumam sumir entre 3 e 7 dias com exceção da artralgia
que pode durar mais de um mês (SAIZ et al., 2016). Os sintomas mais comuns fazem
com que a infecção por Zika vírus muitas vezes seja confundida com Dengue ou
Chikungunya, mas os desdobramentos associados ao vírus, como a síndrome de
Guillain–Barré (SGB) e microcefalia, foram os principais responsáveis por evidenciar
o ZIKV. A SGB causa uma paralisia que pode levar à morte, e na epidemia de ZIKV
na Polinésia Francesa, em 2007, a incidência de SGB aumentou em 20 vezes dada a
incidência previamente estabelecida (OEHLER et al., 2014; SAIZ et al., 2016). Já a
microcefalia é uma condição na qual o bebê nasce com a cabeça muito menor quando
comparado com outros bebês da mesma idade e sexo, e pode apresentar sintomas
como epilepsia, dificuldades de aprendizados e deficiências visual e auditiva
(ORGANIZAÇÃO MUNDIAL DA SAÚDE, 2016).
Sobre a biologia do ZIKV, pode-se afirmar que é um arbovírus pertencente à
família Flaviviridae e é caracterizado por ser um vírus de RNA fita simples sensopositivo, onde o genoma é envolvido pelo capsídeo que por sua vez é recoberto pelo
envelope (FAYE et al., 2014; SAIZ et al., 2016; SIROHI et al., 2016). O genoma é
16

relativamente pequeno, possuindo apenas 10794 pares de bases (pb), possui ainda
uma estrutura CAP na extremidade 5’ e uma única fase aberta de leitura (ou ORF,
acrônimo do inglês para Open Reading Frame). Além disso, ele não possui cauda poli-
A na extremidade 3’ (SAIZ et al., 2016). A ORF é flanqueada por duas regiões não
codificantes ou untranslated region (UTR) nas extremidades 5’ e 3’ que possuem
respectivamente 106 e 428 nucleotídeos (KUNO; CHANG, 2007; SAIZ et al., 2016).
Uma representação do genoma da cepa PE243 do ZIKV está presente na Figura 1.

Figura 1 - Representação do genoma do Zika Vírus

Fonte: Virus Pathogen Resource (2015).
Nota: Ilustração do genoma da cepa PE243 do ZIKV. A barra em azul representa a poliproteína gerada
que posteriormente é clivada nas proteínas virais. A barra amarela representa as proteínas virais em
fase madura.

Assim como outros Flavivírus, o genoma do ZIKV codifica uma poliproteína que
posteriormente é clivada por proteases celulares e virais em três proteínas estruturais
(capsídeo, prM/M e envelope), em sete proteínas não estruturais (NS1, NS2A, NS2B,
NS3, NS4A, NS4B e NS5) (SAIZ et al., 2016; SIROHI et al., 2016) e no peptídeo não
estrutural 2k (GURUMAYUM et al., 2018). As proteínas estruturais formam a camada
mais externa do vírus, envolvendo o genoma viral enquanto as proteínas não
estruturais estão envolvidas na replicação, montagem e evasão do sistema imune
(FONTES-GARFIAS et al., 2017).
As três proteínas estruturais participam do processo de montagem do vírus. O
envelope é a proteína mais externa e é associado à virulência do vírus, sendo
responsável por mediar a fusão do vírus com a membrana celular e
consequentemente permitindo a entrada na célula por endocitose (FONTES-
GARFIAS et al., 2017). Do ponto de vista morfológico o envelope é em formato
icosaédrico conforme é possível observar na Figura 2.

Figura 2 - Estrutura icosaédrica do envelope do ZIKV

Fonte: Sirohi et al. (2016)

A proteína do capsídeo se associa ao RNA viral formando o núcleo do vírus
(SAIZ et al., 2016). A proteína prM previne a fusão prematura do envelope antes da
liberação na célula infectada e após ser clivada em proteína M promove a maturação
das partículas virais (SAIZ et al., 2016).
Entre as proteínas não estruturais, pode-se destacar às proteínas NS1 e NS5,
que participam do processo de replicação viral e tem importantes papeis nos
mecanismos de escape do sistema imunológico (XIA et al., 2018). As demais
proteínas possuem principalmente atividades relativas à replicação e montagem,
como nos casos da NS2A e NS2B (YOON et al., 2017) ou atividades enzimáticas
como (LIANG et al., 2016). Algumas das funções das proteínas não estruturais são
inferidas por similaridade com outros flavivírus relacionados, como a indução de
rearranjos de membrana associados a replicação (NS4A), imunomodulação (NS1,
NS2A) ou regulação da replicação de RNA e montagem viral (NS2A).
O ciclo de replicação do ZIKV é apresentado em Saiz et al. (2016) com uma
divisão em quatro etapas, sendo a primeira etapa a ligação do vírus a receptores
celulares, permitindo que a partícula viral entre na célula por endocitose. O envelope
viral inicia então uma fusão com a membrana do endossomo permitindo a liberação
do genoma do vírus no citoplasma. O genoma é então traduzido e replicado e novas
partículas virais são montadas até que são liberadas da célula para repetir o ciclo em
outras células.
18

Dados epidemiológicos da literatura apontam para uma grande distribuição do
vírus, com presença de casos na África, Ásia, Oceania, América e Europa (PAIXÃO
et al., 2016). Desde o primeiro isolamento na África, casos foram reportados em vários
países daquele continente ao longo dos anos, mas atualmente apenas Cabo Verde
vem apresentando novos casos (SAIZ et al., 2016). Ásia e Europa apresentam poucos
relatos de infecção e, especificamente na Europa, os relatos são de pessoas
retornando de outros países onde existe um grande número de casos (SAIZ et al.,
2016). A Oceania foi o cenário do primeiro grande surto de ZIKV com uma incidência
20 vezes maior que a esperada para casos de infecção com complicação para a SGB.
Já o continente Americano foi o mais afetado nos últimos anos. Casos reportados de
Zika vírus associados com SGB e casos de microcefalia congênita levaram a OMS a
declarar o ZIKV como um problema de saúde pública internacional (SIROHI et al.,
2016).
Várias lacunas do conhecimento sobre o ZIKV permanecem sob investigação
da comunidade científica apesar de todo o conhecimento já produzido nos últimos
anos. Essas lacunas recaem sobre a epidemiologia, evolução clínica, virologia,
incluindo o potencial de animais domésticos e selvagens como repositórios,
hospedeiros amplificadores, capacidades vetoriais, e rotas não vetoriais alternativas
de transmissão (LOWE et al., 2018). A Figura 3 resume essas lacunas de
conhecimento.

Figura 3 - Lacunas de conhecimento do ZIKV

Fonte: Adaptado de Lowe et al. (2018)
Nota: Ilustração de pontos que estão sob estudo em relação ao ZIKV como o papel de animais
domésticos e silvestres no ciclo de transmissão viral, capacidade vetorial de outros mosquitos além do
A. aegypti e transmissão do vírus por via sexual.
19

No Brasil, especialmente no estado de Pernambuco, houve um aumento
significativo de casos de microcefalia. Inicialmente o ministério da saúde adotou como
critério para alerta de microcefalia recém-nascidos com 37 semanas ou mais de idade
gestacional e com um perímetro cefálico menor que 33cm (SOUZA et al., 2016b). Este
critério foi posteriormente alterado para um perímetro cefálico menor que 32cm, pois
o critério anterior estava gerando um número excessivo de notificações sem respaldo
na literatura (SOUZA et al., 2016b). Contudo, o número de casos de microcefalia em
recém-nascidos ainda foi considerado muito superior quando comparado com o
número de casos para o mesmo período anteriormente.
Apesar dos dados encontrados em Pernambuco, a Colômbia apresentava
dados que contradiziam a associação do ZIKV com a microcefalia, visto que foram
reportados mais de 5000 casos de mulheres grávidas infectadas por ZIKV, porém um
único caso de microcefalia congênita (SAIZ et al., 2016). Novos estudos porém vieram
a confirmar a associação entre infecção por ZIKV e o desenvolvimento de microcefalia
em recém nascidos (ARAUJO et al., 2017).

2.2 Hospedeiros Vertebrados

Desde o primeiro isolamento até o primeiro surto em 2007, o Zika Vírus
permaneceu infectando principalmente macacos e mosquitos, e apenas
ocasionalmente infectando humanos (BUENO et al., 2016). O panorama mudou a
partir do surto na Micronésia em 2007, onde vários casos de infecção passaram a ser
reportados, seguido de um surto na Polinésia Francesa em 2013 e o mais recente
ocorrido no Brasil a partir de 2015 (BUENO et al., 2016). Este último trouxe um grande
destaque ao vírus devido aos graves impactos de saúde causados pela infecção,
especialmente nos casos associados à microcefalia.
O Homo sapiens é apontado em vários estudos como um importante
hospedeiro do ZIKV (AYRES, 2016; BOORMAN; PORTERFIELD, 1956; FRANKEL et
al., 2017; GUEDES et al., 2017; OEHLER et al., 2014; PAVITHRA L. CHAVALI et al.,
2017; SAIZ et al., 2016). Mecanismos de escape do sistema imunológico humano
relacionados a mutações do ZIKV (VOSSEN et al., 2002; WELTMAN, 2016),
especialmente na proteína NS1 (XIA et al., 2018), adaptações de importantes vetores
virais (DYE, 1992) e falhas no controle de vetores (FORATTINI, 1995; ZARA et al.,
20

2016), junto com outros fatores, permitiram o surgimentos dos surtos de ZIKV em H.sapiens a partir de 2007.
O C. jacchus, pequeno primata popularmente conhecido como Sagui, encontra-
se amplamente distribuído na região nordeste do Brasil onde habita os mais diversos
tipos de vegetação como dunas, restingas, mangues e passando pelas várias formas
de matas (úmida, seca, serrana, etc) às zonas do Agreste e das Caatingas do Sertão
(SILVA; CRUZ, 1993). Apesar do surto de ZIKV de 2015 no Brasil ter casos notificados
nos mais diversos estados, a maior parte esteve concentrada na região Nordeste, e o
trabalho de Favoretto et al. (2016) identificou infecção por ZIKV em C. jacchus no
estado do Ceará. Este estudo ainda demonstrou através de sequenciamento que o
ZIKV encontrado tem 100% de identidade com vírus encontrados na América do Sul.
Por fim este trabalho aponta a possibilidade do C. jacchus servir como repositório para
o vírus, corroborando com outros estudos que indicam a importância de avaliar
diferentes animais no ciclo do ZIKV, visto que outros estudos encontraram anticorpos
para o vírus em caprinos e roedores (BUENO et al., 2016).
Os dados reportados por Favoretto et al. (2016) indicam que o estudo molecular
do ZIKV em C. jacchus assim como em H. sapiens podem incrementar o entendimento
dos mecanismos moleculares associados à infecção.

2.3 Hospedeiros Invertebrados

2.3.1 Mosquitos do gênero Aedes

Os mosquitos do gênero Aedes são conhecidos por serem os principais vetores
de várias doenças que afetam os humanos, especialmente doenças relacionas aos
Flavivírus como Febre Amarela, Dengue, Chikungunya e Zika (HUANG et al., 2014;
PAIXÃO et al., 2016; POWELL; TABACHNICK, 2013).
O ZIKV já foi isolado em várias espécies do gênero Aedes como A. africanus,
Aedes luteocephalus, Aedes aegypti, Aedes albopictus, Aedes furcifer e Aedes vittatus
(PAIXÃO et al., 2016), sendo as espécies A. aegypti e A. albopictus consideradas as
principais espécies transmissoras do ZIKV (ZARA et al., 2016).
O A. aegypti é amplamente distribuído em regiões tropicais e subtropicais e
tipicamente em meios urbanos, sendo raramente encontrado em ambientes silvestres
21

ou com pouca presença do homem (ZARA et al., 2016). Acredita-se que o mosquito
foi introduzido no Brasil durante o comércio de escravos (FORATTINI, 1995; ZARA et
al., 2016), e atualmente está presente em todos os estados do país (MARCONDES;
XIMENES, 2015). A predominância urbana é devida a etologia do mosquito, que utiliza
recipientes artificiais como criadouros e a presença de humanos, que é uma
importante fonte de alimentação (KRAEMER et al., 2015; ZARA et al., 2016).
Adaptações do mosquito levaram a um aumento da sua população e deslocamento
em áreas de concentração urbana, o que o levou a uma maior competência vetorial
(DYE, 1992). Os ovos do mosquito podem permanecer viáveis até 492 dias de seca e
eclodir após contato com água (SILVA; SILVA, 1999) ajudando a garantir o ciclo de
reprodução do mosquito. Sua competência vetorial para ZIKV colocam essa espécie
como principal vetor do vírus (HUANG et al., 2014; PAIXÃO et al., 2016) e novos
estudos apontam a possibilidade de transmissão sexual entre mosquitos (PEREIRA-
SILVA et al., 2018), podendo ser outro favor de disseminação viral.
Outro vetor importante do ZIKV, o A. albopictus, é um mosquito de origem
asiática, e que apresenta importantes diferenças em relação ao A. aegypti. O A.
albopictus é capaz de tolerar baixas temperaturas (KRAEMER et al., 2015; ZARA et
al., 2016), e é comumente encontrado em ambiente rurais, silvestres e semi-silvestres,
e pode se alimentar de humanos. Na ausência de humanos, o mosquito pode se
alimentar de animais silvestres ou até de néctar e sua reprodução ocorre em
recipientes naturais (MOORE et al., 1988). Os registros históricos do A. albopictus no
Brasil são relativamente recentes, tendo o primeiro registro datado de 1986 no Rio de
Janeiro (ZARA et al., 2016), e dados de 2014 apontam a presença do mosquito em
quase todos os estados do país (CARVALHO; LOURENÇO-DE-OLIVEIRA; BRAGA,
2014) .

2.3.2 Culex quinquefasciatus

O Cx. quinquefasciatus é um mosquito amplamente distribuído nas regiões
tropicais e subtropicais (FORATTINI, 1995), sendo sua distribuição fortemente ligada
à presença de aglomerações humanas em áreas urbanas (AMORIM et al., 2013;
FERNANDES et al., 2016; FORATTINI, 1995; GUEDES et al., 2016; GUO et al., 2016)
similar, portanto, à distribuição de A. aegypti.
22

O consenso da academia e das agências de saúde aponta o A. aegypti como
principal vetor do ZIKV (GUEDES et al., 2016). Esse consenso pode estar associado
à competência vetorial dos mosquitos do gênero Aedes para transmissão do ZIKV, o
que direcionou vários estudos, após o isolamento do vírus, a analisarem apenas
mosquitos desse gênero (BOORMAN; PORTERFIELD, 1956; GUEDES et al., 2016;
LI et al., 2012). Apesar da consonância acadêmica em torno dos mosquitos do gênero
Aedes, alguns estudos indicam pouca ou nenhuma taxa de transmissão de ZIKV por
mosquitos desse gênero (BEARCROFT, 1956; CHOUIN-CARNEIRO et al., 2016;
DIAGNE et al., 2015; GUEDES et al., 2017; RICHARD; PAOAAFAITE; CAO-
LORMEAU, 2016) e outros trabalhos investigam a possibilidade de transmissão do
vírus através de outros vetores como os mosquitos do gênero Culex (FERNANDES et
al., 2016; GUEDES et al., 2017; GUO et al., 2016).
Durante o primeiro surto de ZIKV em humanos, em 2007 na Micronésia,
mosquitos coletados em campo não apresentaram amostras de contaminação pelo
vírus (DUFFY et al., 2009). Além disso, o A. aegypti está ausente de algumas ilhas da
região que apresentaram casos de infecção (DUFFY et al., 2009; SAVAGE et al.,
1998). Esses dados corroboram com os trabalhos que alegam negligência da
pesquisa em relação ao papel de outros possíveis vetores para o ZIKV como o Cx.
quinquefasciatus que coexistem em espaços urbanos (GUEDES et al., 2017).

2.4 Métodos de predição de interações de proteínas in silico.

Os métodos experimentais tradicionais para avaliar uma interação proteica, tais
como técnica de duplo-híbrido, espectrometria de massa, imunopreciptação e pull-
down são laboriosos, de custo elevado e sujeito a erros sistemáticos, principalmente
se essas técnicas forem aplicadas em larga escala (HARRINGTON; JENSEN; BORK,
2008; JANSEN; GERSTEIN, 2004). Tais desafios unidos a uma necessidade
crescente de análise de dados com volume cada vez maior, colocam os métodos
computacionais como ferramentas importantes complementares aos métodos
tradicionais, a um custo relativamente baixo para análise em larga escala.
Existem várias abordagens computacionais para predição de interação entre
proteínas como interalog-mapping (MATTHEWS et al., 2001), método envolvendo
mineração de textos (KOYABU; PHAN; OHKAWA, 2015; PAPANIKOLAOU et al.,
23

2015), métodos utilizando informações de perfis de presença e ausência de proteínas
em diversos proteomas de interesse (PELLEGRINI et al., 1999), métodos utilizando o
contexto de vizinhança genômica (LEES et al., 2011) e métodos utilizando algoritmos
de aprendizado de máquina tais com Support Vector Machine (SVM), Artificial Neural
Networks (ANN) e Random Forest (GUO et al., 2008; HUANG et al., 2015; LIU; SHEN;
YU, 2015; QI; KLEIN-SEETHARAMAN; BAR-JOSEPH, 2005).
Transferência de conhecimento, mineração de dados e aprendizado de
máquina são as três principais abordagens com heurística utilizadas na predição de
redes de interações proteicas (EID; ELHEFNAWI; HEATH, 2015). Uma vez que as
famílias de vírus têm muitas dissimilaridades entre si, mineração de dados e
transferência conhecimento tornam-se abordagens inapropriadas (EID; ELHEFNAWI;
HEATH, 2015). Além disso os vírus possuem poucos domínios e suas estruturas são
difíceis de predizer por modelagem comparativa, portanto os métodos tradicionais de
predição de interação, baseados em homologia, podem não funcionarpara sistemas
de interação de proteínas vírus-hospedeiros (ZHANG; HE; WANG, 2017). As
abordagens que utilizam aprendizado de máquina para predição de interação de
proteína partem de interações conhecidas para treinamento do algoritmo, e podem
ser usadas para classificação de interações ou não interações (NOURANI;
KHUNJUSH; DURMUS, 2015). O modelo geral de funcionamento de um algoritmo de
aprendizado de máquina, partindo de amostras conhecidas para o treinamento do
algoritmo e a posterior classificação, são apresentados na Figura 4.
Os primeiros algoritmos de aprendizado de máquina surgiram ainda nos anos
70, e desde então estão cada vez mais comuns graças ao aumento de poder
computacional, que vem permitindo aplicar técnicas de aprendizado de máquina em
problema cada vez mais complexos e nos mais variados campos de estudos
(LOURIDAS; EBERT, 2016). Os esforços de vários pesquisadores levaram a uma
camada de abstração entre a complexidade dos algoritmos e suas implementações,
de forma que atualmente não é necessário entender profundamente o formalismo
estatístico por baixo dos algoritmos para conseguir utilizar as ferramentas
desenvolvidas e aplicar aos dados do mundo real (RAMASUBRAMANIAN; SINGH,
2017).

Figura 4 - Visão geral de algoritmos de aprendizado de máquina

Fonte: Adaptado de Tan (2005)
Nota: Visão geral de um algoritmo de aprendizado de máquina. Um conjunto de dados com uma classe
conhecida é usado para treinar o algoritmo, gerando um modelo que é aplicado a um conjunto de dados
com classe desconhecida para classificar com base nas informações extraídas durante o treinamento.

Várias dessas implementações para aprendizado de máquina foram
desenvolvidos para tratar problemas de classificação de dados, sendo SVM uma das
mais conhecidas e úteis para tal finalidade. Esta abordagem parte de um conjunto de
dados que é dividido em treinamento e teste com um valor de alvo que serve para
classificação (HSU; CHANG; LIN, 2008). A ideia básica do SVM é gerar um hiperplano
que separa o conjunto de dados em duas classes, maximizando a margem entre os
pontos mais próximos (RAMASUBRAMANIAN; SINGH, 2017). A ideia geral do
hiperplano é ilustrada na Figura 5.
Uma vez que o modelo do SVM é construído durante o treinamento, novos
dados podem ser submetidos para classificação.

Figura 5 - Representação do Hiperplano de Classificação

Fonte: Adaptado de Ramasubramanian e Singh (2017)
Nota: Visão geral de um algoritmo de hiperplano do SVM. Um vetor central serve como divisão entre
as classes. Quanto maior o espaço entre as amostras e o vetor, melhor a classificação.

Outra abordagem muito comum de aprendizado de máquina para problemas
de classificação é o Random Forest, sendo este o mais popular algoritmo de decisão
baseado em árvores com modelos de conjuntos (RAMASUBRAMANIAN; SINGH,
2017). Este algoritmo faz uma combinação de árvores de decisão onde cada árvore
depende de amostras aleatórias independentes, mas de mesma distribuição,
permitindo um alto grau de generalização (BREIMAN, 2001). A construção de cada
árvore de decisão se dá a partir da seleção aleatória de amostras do conjunto de
treinamento (dados de controle), e assim várias árvores de mesmo tamanho, ou seja,
mesmo número de amostras do conjunto de treinamento são montadas
(RAMASUBRAMANIAN; SINGH, 2017). Uma vez que os vários modelos de decisão
(as árvores) estão montados, cada amostra testada é submetida à classificação por
todos os modelos de decisão construídos previamente e cada modelo dá uma
classificação para a amostra testada. Por fim, é feita uma contagem das várias
classificações dadas para a amostra por cada árvore, processo conhecido por
votação, e a classificação final é dada pela classificação mais votada (LOUPPE,
2014). O modelo geral do Random Forest é mostrado na Figura 6.

Figura 6 - Visão geral dos algoritmos de aprendizado de máquina do tipo Random Forest

Fonte: Adaptado de Ramasubramanian e Singh (2017)
Nota: Visão geral de um algoritmo de Random Forest. Estruturas de árvores de dados aleatórias são
montadas e testados todos os ramos, seguida de uma análise dos resultas. Após encontrar o consenso,
o resultado é coloca como classe.

Tanto SVM quanto Random Forest são algoritmos comumente encontrados na
literatura para problemas envolvendo predição de interações de proteínas ( BREIMAN,
2001; CUI; FANG; HAN, 2012; HSU; CHANG; LIN, 2008; MEYER, 2001; QI; KLEIN-
SEETHARAMAN; BAR-JOSEPH, 2005).

3 JUSTIFICATIVA

A recente epidemia do ZIKV atingiu diversas populações em vários países. O
aumento no número de casos de microcefalia e síndrome de Guillain-Barré e suas
graves consequências, associados à infecção por ZIKV, trouxeram urgência na busca
por tratamentos para a doença.
Apesar do volume de conhecimento gerado pela ciência sobre o ZIKV, ainda
existem lacunas de conhecimento sobre as bases moleculares que permitem que a
infecção do vírus ocorra nos hospedeiros e os efeitos desenvolvidos pela doença. A
confirmação da associação entre a infecção viral e os problemas neurológicos
desenvolvidos abre novas frentes de pesquisas para compreender os mecanismos
moleculares envolvidos. O estudo das redes de interação de proteínas pode fornecer
informações que ajudem a elucidar os mecanismos moleculares.
Devido a capacidade de processamento de dados em larga escala, as
abordagens in silico vem se apresentando como importantes ferramentas para auxiliar
os métodos experimentais. O uso de aprendizado de máquina para predizer
interações de redes de proteínas pode portando aumentar o entendimento dos
mecanismos moleculares que levam à infeção do vírus nos hospedeiros e seus
desdobramentos.

4 PERGUNTA CONDUTORA

Quais as interações proteicas entre ZIKV e seus hospedeiros que podem ser
preditas in silico utilizando aprendizado de máquinas?

5 HIPÓTESE

É possível predizer in silico interações proteicas entre ZIKV e seus hospedeiros,
a partir das informações do proteoma, utilizando algoritmos de aprendizado de
máquinas.

6 OBJETIVOS

6.1 Objetivo Geral

Empregar uma abordagem in silico capaz de identificar interações proteicas
interespecíficas para incrementar o entendimento molecular da infecção do ZIKV nos
seus hospedeiros vertebrados e invertebrados.

6.2 Objetivos Específicos

a) Construir bases de dados com informações de pares de proteínas que interagem
e pares que não interagem para treinar os algoritmos de classificação;
b) Treinar algoritmos de aprendizado de máquinas capazes de predizer interações de
proteínas baseado nas suas características físico-químicas;
c) Comparar o modelo construído com outras abordagens de predição de proteínas
in silico encontradas na literatura;
d) Analizar as interações das proteínas do ZIKV com os hospedeiros preditas pelo
modelo;
e) Visualizar e realizar análise topológica das redes de interação proteica modeladas
para cada hospedeiro analisado;
f) Executar análise de enriquecimento de dados das proteínas presentes nas redes
de interações proteicas modeladas.

7 MATERIAIS E MÉTODOS

7.1 Obtenção de dados

Para o desenvolvimento do presente estudo, bases de dados públicas para
obtenção de informações relativas aos proteomas das espécies analisadas foram
selecionadas. Além dos proteomas do ZIKV, foram adquiridos os proteomas dos
hospedeiros vertebrados H. sapiens e C. jacchus assim como os invertebrados A.
aegypti, A. albopictus e C. quinquefasciatus, componentes do escopo deste estudo.
Uma base de dados de interações positivas entre vírus e hospedeiros, com dados
obtidos experimentalmente, foi utilizada para fins de treinamento dos algoritmos de
classificação utilizados neste trabalho. A relação completa das bases de dados,
respectivasespécies e dos sites com os repositórios dos proteomas adquiridos pode
ser verificada no Quadro 1.

Quadro 1 – Espécies estudadas e respectivas bases de dados
Espécies Base de Dados Website
ZIKV Virus Pathogen www.viprbrc.org
H. sapiens Ensembl
www.ensembl.org
C. jacchus NCBI www.ncbi.nlm.nih.gov
A. aegypti Vector Base www.vectorbase.org
A. albopictus Vector Base www.vectorbase.org
C. quinquefasciatus Vector Base
www.vectorbase.org
Vírus x Hospedeiros VirusMentha https://virusmentha.uniroma2.it/
Fonte: O autor
Nota: A tabela mostra as espécies analisadas no projeto e as bases de dados onde os proteomas
foram baixados. São mostrados também os endereços eletrônicos das bases de dados.

A base de dados Virus Pathogen Resource (disponível em:
https://www.viprbrc.org) é uma base de dados integrada com ferramentas de análise
para várias famílias virais (PICKETT et al., 2012). Existem na base de dados
(atualizados em 3 de junho de 2017), 438 genomas completos de ZIKV. Esta base foi
escolhida para obter os dados referentes ao proteoma do ZIKV, sendo baixados dois
proteomas completos referente às cepas PE243 e BeH823339.
As informações relativas aos hospedeiros vertebrados foram obtidas de duas
bases de dados, sendo a base Ensembl (disponível em: http://www.ensembl.org/) para
32

o proteoma da espécie H. sapiens e a base de dados do NCBI (disponível em:
www.ncbi.nlm.nih.gov) para as proteínas referentes à espécie C. jacchus.
Todas as informações pertinentes aos proteomas dos hospedeiros
invertebrados foram obtidas a partir da base Vector Base (disponível em:
www.vectorbase.org). O Vector Base é um centro de recursos e bioinformática
(Bioinformatics Resource Center - BRC) que tem como missão prover suporte para
pesquisas com vetores invertebrados, provendo diversas informações genéticas de
vários vetores (GIRALDO-CALDERÓN et al., 2015). A partir desta base foram obtidos
os proteomas dos vetores A. aegypti, A. albopictus e C. quinquefasciatus.
Todos os proteomas foram obtidos em arquivos no formato FASTA. O
carregamento de todas as informações contidas nos arquivos FASTA para os
servidores de alto desempenho do Instituto Aggeu Magalhães (IAM/Fiocruz) foi
realizado para formar o banco de dados inicial, onde as tabelas foram montadas para
refletir todas as informações contidas nos arquivos FASTA. Para o treinamento dos
algoritmos de aprendizado de máquina utilizados neste trabalho, foi feito o
carregamento do arquivo de interações entre vírus e hospedeiros da base de dados
VirusMentha (http://virusmentha.uniroma2.it), que é uma base de interações vírus-
vírus e vírus-hospedeiro obtida de forma experimental e curada seguindo protocolos
bem definidos (CALDERONE; LICATA; CESARENI, 2015).
As informações desta base servem como grupo controle na fase de construção
e validação do modelo, onde é feita a validação cruzada de 5 vezes. Os dados das
interações proteicas são obtidos através de arquivo em formato tabular, contendo dois
identificadores de proteínas que interagem (vírus-hospedeiro) no padrão da base de
dados UniProt (disponível em: https://www.uniprot.org/), e informações adicionais
sobre cada proteína como gênero, família, identificador da espécie e valor de score a
confiabilidade da interação. Como os dados da base VirusMentha trazem apenas as
interações, mas não as sequências das proteínas, foi escrito o script chamado
script_2_v0.sh, em linguagem shell script, para automatizar o download das
sequências das proteínas relativas as interações do VirusMentha. O script recebeu
como entrada uma lista com todos os identificadores das proteínas constantes no
arquivo de interações do VirusMentha, já tratado e com remoção das redundâncias, e
realizou o download das sequências de proteínas de forma automatizada utilizando o
webservice do UniProt.
33

7.2 Banco de dados do projeto

Para armazenar de forma conveniente, e facilitar as manipulações de dados de
todas as informações adquiridas das bases de dados públicas previamente citadas,
além das novas informações provenientes dos desdobramentos do projeto, foi
desenvolvida, uma base de dados que foi hospedada no servidor de banco de dados
do IAM/Fiocruz. A base de dados foi desenvolvido utilizando o banco de dados
MySQL, na versão 5, como sistema gerenciador de banco de dados (SGBD), em
modelo relacional e com utilização de chaves de registros, visando evitar duplicidades
ou registros nulos e manter a integridade das informações ao longo das tabelas, visto
que registros de chave estrangeira precisam estar de acordo com os registros das
chaves primárias correspondentes (JAYANTHI; PREMA, 2011). O modelo da base de
dados foi projetado utilizando a ferramenta de modelagem de base de dados MySQL
Workbench, gerando o script inicial da base na linguagem chamada Structured Query
Language (SQL). O modelo geral do banco pode ser visualizado na Figura 7.

Figura 7 - Estrutura inicial do banco de dados

Fonte: O autor
Nota: Visão geral do banco de dados. As tabelas são conectadas por linhas que representam os
relacionamentos entre as tabelas. Os campos marcados por quadriláteros vermelhos são chaves
estrangeiras das tabelas ligadas através das linhas. A visão vw_remove_outliers é uma consulta
armazenada da tabela resultBlast.
34

7.2.1 Tabela de interações positivas

Conforme dito anteriormente, os dados de interações positivas foram obtidos
da base de dados VirusMentha e em formato de arquivo tabular. Para armazenar de
forma conveniente os dados e para manipulação dos mesmos em etapas futuras, foi
criada a tabela InteracoesPositivas no banco de dados do projeto. Para inserir as
informações do arquivo tabular para o banco, foi desenvolvido um script em linguagem
Perl chamado de populaInteracoesPositivas-0.6-RC.pl. Esse script lê o arquivo
tabular, linha a linha, obtendo cada informação separada por ponto e vírgula e insere
o dado de interação na tabela do banco no campo apropriado.

7.2.2 Tabela de proteomas

Os dados de sequência das proteínas carregados da base UniProt, baseados
no arquivo de interações positivas do VirusMentha, foram armazenados na tabela
proteoma_completo. Os dados armazenados nesta tabela contêm as sequências e
identificadores de proteínas do grupo controle e foram utilizados como tabela primária
para o controle da integridade dos dados, através das chaves, das tabelas de
interações positivas e negativas. Portanto, as sequências nela armazenadas são
utilizadas na fase de construção do modelo, especificamente no treinamento dos
algoritmos de aprendizado de máquina utilizados. Foi escrito em linguagem Perl, o
script denominado populaProteomaCompleto.pl, que recebe como entrada uma lista
com todos os arquivos fasta, extrai as informações referentes ao identificador,
descrição e sequência de cada proteína e armazena no banco dados do projeto. Para
extrair as informações dos arquivos em formato FASTA, foi usado o módulo de
programação em linguagem PERL chamado Bio::SeqIO, que lida com vários formatos
de arquivos de uso comum no campo da bioinformática. Foram obtidas informações
relativas a 5235 proteínas que são usadas nas interações positivas e negativas do
conjunto de dados de treinamento e de teste dos algoritmos de aprendizado de
máquina.

7.2.3 Tabela de resultados do alinhamento

Para gerar o conjunto de dados de interações negativas, com informações
derivadas do conjunto de dados de interações positivas, foi realizado um alinhamento
local de sequência de “todas contra todas” entre as sequências de proteínas do
conjunto de interações positivas. O alinhamento foi realizado utilizando o programa
Blastp do pacote BLAST+ (CAMACHO et al., 2009), o qual lida especificamente com
alinhamentos de proteínas. O resultado do alinhamento foi tratado com o script em
Perl recuperaBlast.pl, desenvolvidopara este projeto, com o objetivo gerar um arquivo
contendo apenas os dados do alinhamento das proteínas de interação positivas que
são usados na montagem do conjunto de dados negativos. Além dos dados do Blastp,
o script faz o cálculo da cobertura pois essa informação é usada para gerar o conjunto
de dados negativos. Foi então desenvolvido um script em Perl chamado de
populaTabelaBlast.pl que recebeu como entrada o arquivo com os dados do resultado
do alinhamento e os carregou para tabela resultBlast do banco. A tabela resultBlast
tem chave estrangeira para a tabela proteoma_completo, de forma que todas as
proteínas estejam validadas no banco.

7.2.4 Tabela interações negativas

As técnicas computacionais de classificação envolvendo algoritmos de
aprendizado de máquina tipicamente precisam de um conjunto de dados positivos e
outro negativo para que ocorra o treinamento do algoritmo, e consequentemente a
classificação do conjunto de dados desconhecido. O conjunto de dados negativos do
presente projeto foi derivado do conjunto de dados positivos, ou seja, da mesma base
do VirusMentha.
Em trabalhos relativos a predição de interação de proteínas, uma abordagem
comum e mais simples para a geração do conjunto de dados de interações negativas
é utilizar proteínas aleatoriamente do conjunto positivo desde que as proteínas em
análise não interajam uma com a outra (BEN-HUR; NOBLE, 2005; EID; ELHEFNAWI;
HEATH, 2015. Esta abordagem tende a gerar um número significativo de falsos-
negativos no conjunto de dados negativo, pois o fato de tais proteínas não constarem
como interativas no conjunto de dados positivos pode se dar apenas por falta de
36

conhecimento de tal interação. Outras abordagens visam, portanto, adicionar alguma
heurística na geração do conjunto de interações negativas. Neste trabalho foi utilizada
como base, a metodologia utilizada no trabalho de Eid, Elhefnawi e Heath, (2015) com
algumas modificações. A metodologia de Eid et al. (2015) faz uso de alinhamento
global entre todas as proteínas do conjunto positivo de dados para calcular o bit-score
entre elas, e por fim analisar a dissimilaridade das proteínas. Esse cálculo é utilizado
com base em duas premissas, sendo a primeira a de que quando o percentual de
similaridade entre duas proteínas é menor que 20%, a similaridade estrutural é mínima
(ROST, 1999) e a segunda que se origina no dogma central da genômica que afirma
que sequência determina a estrutura e esta determina a função (EID; ELHEFNAWI;
HEATH, 2015).
Diferente da metodologia apresentada por Eid, Elhefnawi e Heath, (2015), este
projeto utilizou alinhamento local pois no alinhamento global podem escapar
estruturas que apesar de ter pequenas porções alinhadas são importantes sítios de
interação. Outra diferença é que neste projeto foram usados apenas alinhamentos
com cobertura acima de 80% visando o aumento da confiabilidade dos dados
atribuídos como não interativos. A Figura 8 apresenta de forma geral como duas
proteínas são apresentadas como par não interativo neste projeto.

Figura 8 - Modelo de obtenção de pares negativos

Fonte: O autor
Nota: Montagem de par de proteínas não interativas. Para que sejam consideradas como um par de
proteínas não interativo, uma proteína viral “X” e uma proteína do hospedeiro “A” não podem ter
interação conhecida no conjunto de pares de interações positivas. A proteína “A” do hospedeiro também
não pode ter interação conhecida com outra proteína do vírus que tenha ao menos 20% de similaridade
com a proteínas “X” e a proteína “X” não pode interagir com outra proteína do hospedeiro que tenha ao
menos 20% de similaridade com “A”. Caso as proteínas “X” e “A” atendam esses requisitos, são
colocadas como par no conjunto de pares não interativos.

Para montar a tabela InteracoesNegativas foi desenvolvido um script em
linguagem PERL chamado de geraInteracoesNegativas-0.6.pl. O script recebe como
entrada dois arquivos de texto sendo um com a lista de proteínas de vírus e outros
com a lista de proteínas de hospedeiros, depois o mesmo realiza uma consulta no
banco de dados para verificar se o par está na tabela de interações positivas e, em
caso negativo, assumindo o par como possível par negativo. A proteína do hospedeiro
em questão é verificada na tabela de interações positivas com outras proteínas virais
que ela interage e, caso interaja com outra proteína viral, é feita a verificação do grau
de similaridade dessa proteína viral com a proteína viral em questão, sendo esta
consulta feita através uma consulta previamente processada (recurso também
conhecido como “view”) chamada vw_remove_outliers, onde estão apenas
alinhamentos com cobertura maior que 80%. O bit-score é normalizado conforme a
metodologia apresentada por Eid, Elhefnawi e Heath, (2015) e é verificado se a
proteína viral que interage com a proteína do hospedeiro em questão tem similaridade
maior de que 20% com a proteína viral que está sendo considerada para par negativo.
O mesmo critério é então adotado em relação à proteína viral em questão, ou seja, é
feita uma verificação se a proteína viral em questão interage com outra proteína do
hospedeiro que tenha mais de 20% de similaridade com a proteína do hospedeiro em
questão. Se todos os critérios forem atendidos, as proteínas viral e do hospedeiro em
questão são adicionadas na tabela Interações negativas.

7.3 Treinamento dos Algoritmos

A predição da interação de proteínas é realizada neste trabalho através do
emprego de técnicas e algoritmos de aprendizado de máquina. O projeto foi
desenvolvido usando a linguagem de programação R, através da interface de
desenvolvimento RStudio, e pacotes desenvolvidos em R visando preparar os dados
para o treinamento e teste do algoritmo de aprendizado de máquina. Os pacotes em
R permitiram a extração de características físico-químicas das proteínas, baseado nas
sequências de aminoácidos, e normalização dos dados para o uso de algoritmo de
aprendizado de máquina. A linguagem R também foi usada para a aplicação do
algoritmo Random Forest, através da sua implementação no pacote Caret (KUHN,
2013).
38

7.3.1 Carga de dados para o RStudio

A carga inicial de dados para o RStudio consiste em colocar as informações
dos pares de interações, tanto as positivas quanto as negativas, em estrutura de
dados na memória do servidor para tratamento dos dados através de comandos em
linguagem R. Foram gerados no servidor, usando comandos em linguagem Shell
Script e SQL, dois arquivos para as interações positivas e mais dois arquivos para as
interações negativas, refletindo os pares positivos e negativos. Cada arquivo contém
as informações (identificador da proteína e sua respectiva sequência de aminoácidos)
de um dos membros do par de interação, mantendo a ordem dos pares. Foi escrito o
script em linguagem R chamado protCheckExtractFeatures.R que carrega os arquivos
de interações em matrizes na memória e faz a extração das características físico-
químicas das proteínas e normalização dos dados.

7.3.2 Extração de características físico-químicas

Para fazer a extração das características físico-químicas das proteínas,
conforme metodologia utilizada em Eid, Elhefnawi e Heath, (2015), foi utilizado o
pacote protR (XIAO et al., 2015). O protR é uma pacote em R que gera esquemas de
representações numéricas de proteínas e peptídeos a partir de sequências de
aminoácidos (XIAO et al., 2015; XIAO; XU; CAO, 2014). O pacote implementa o
esquema de extração de características físico-químicas desenvolvido por Shen et al.
(2007).
A primeira etapa consiste em checar se todas as proteínas carregadas na
matriz estão no padrão contendo apenas letras que representam os 20 aminoácidos.
Esta verificação é realizada usando a função protcheck do protR. As proteínas que
estão fora do padrão, e as respectivasinterações, são descartadas nesta esta etapa.
Em seguida os aminoácidos de cada proteína são separados em 7 grupos baseados
nas similaridades físico-químicas conhecidas por guiar as interações entre duas
proteínas (dipolos e volume da cadeia lateral). Cada grupo de aminoácidos recebe um
número conforme o Quadro 2.

Quadro 2 – Aminoácidos agrupados pelas características físico-químicas
Aminoácidos Grupo
{A,V,G} 1
{I,L,F,P} 2
{Y,M,T,S} 3
{H,N,Q,W} 4
{R,K} 5
{D,E} 6
{C} 7
Fonte: O autor
Nota: Grupos de aminoácidos e os respectivos rótulos de grupo durante a verificação de padrão e
normalização do protR.

A sequência de aminoácidos é então mapeada para um vetor de números
correspondentes aos grupos para cada aminoácido. O vetor com os números dos
grupos é então separado em trincas e a frequência de cada trinca é calculada para
cada proteína, formando um vetor de características de tamanho igual a 343 (73 =
343). Esta etapa permite que proteínas com sequências de tamanhos variados sejam
colocadas em vetores de tamanhos iguais para possibilitar a comparação. Cada vetor
de proteína tem seus elementos de características físico-químicas normalizados
conforme a fórmula apresentada na Figura 9, ficando cada elemento com um valor
numérico entre “0” e “1”.

Figura 9 - Fórmula de Normalização

Fonte: Eid, Elhefnawi e Heath (2015)
Nota: O valor normalizado da característica em avalição é representado por 𝑓′𝑖, onde calcula-se o valor
não normalizado da característica em avaliação 𝑓𝑖 subtraído do valor mínimo do vetor e divide-se este
valor pela diferença entre o valor máximo do vetor e o valor mínimo do vetor.

Com todas as proteínas normalizadas, foram montados os pares de interações.
Os vetores gerados na etapa anterior foram salvos em arquivos Comma-Separated
Values (CSV), que são arquivos com vários valores separados por algum caractere
definido, chamado de separador. Em seguida esses arquivos CSV foram carregados
40

como matrizes, representando as proteínas na forma normalizada. As quatro matrizes
que representam as proteínas dos pares foram unidas utilizando comando em R para
alinhar as matrizes lado a lado, positivas com positivas e negativas com negativas,
formando então duas matrizes com os pares de interações, uma para os positivos e
outra para os negativos. Por fim, as duas matrizes foram unificadas em uma única
matriz, com a matriz de pares positivos seguida da matriz de pares negativos,
formando uma única matriz com todos os pares de interações, positiva e negativas,
que serviu para o treinamento, teste e validação cruzada do modelo. A Figura 10
apresenta as etapas desta montagem.

Figura 10 - Montagem do arquivo de grupo controle para treinamento

Fonte: O autor
Nota: Após a normalização dos dados, são gerados quatro arquivos com os membros dos pares, sendo
dois para as interações positivas e dois para as negativas. Esses arquivos são unidos lado a lado
formando dois arquivos, um com os pares positivos e outro com os pares negativos. Os arquivos com
os pares são então unidos um abaixo do outro, gerando o arquivo final de interações do grupo controle.

7.3.3 Divisão de grupos de treinamento e teste

Com as matrizes de interações positivas e negativas devidamente carregadas
na memória do RStudio, foi realizada integração de ambas matrizes gerando uma
única matriz com todas as interações positivas e negativas. O algoritmo de
aprendizado de máquina aplicado aos problemas de classificação precisa de uma
identificação das amostras, no caso do grupo de controle ou treinamento, para a
devida identificação dos exemplos positivos e dos negativos. Para o algoritmo de
41

Random Forest implementado no pacote Caret, é preciso colocar o valor “0” para as
amostras negativas e “1” para as amostras positivas.
Os testes realizados com a técnica de Random Forest, foi criada com a função
label do R uma marcação para adicionar um “0” nas interações negativas e um “1” nas
interações positivas. A etapa seguinte consiste em pegar o conjunto de dados
controle, já normalizado e com as amostras previamente identificadas conforme as
etapas anteriores, e dividir em grupo de treinamento e grupo de teste.
Para o uso do Random Forest foi desenvolvido o script em linguagem R
lerCSVDivideDados_RF.R, que carrega a matriz com os dados controle para a
memória do RStudio, adiciona o alvo que identifica as amostras como positivas ou
negativas e em seguida separa um percentual dos dados em treinamento e coloca a
diferença no subconjunto de teste. O percentual de amostra que vai para os conjuntos
de treinamento e teste pode ser definido no código do script e as amostras são
colocadas de forma randômica em cada conjunto, porém mantendo o equilíbrio entre
o número de amostras positivas e negativas em cada conjunto para evitar viés no
treinamento.

7.3.4 Treinamento dos algoritmos

A fase de treinamento foi realizada de acordo com as características da
implementação do algoritmo. Random Forest tem como único parâmetro passado o
número de validação cruzada. A treinamento ocorre, junto com o carregamento dos
dados e a validação cruzada, no script lerCSVDivideDados_RF.R. Após a execução
do script, um arquivo “.RData” é gerado e salvo no servidor. Este arquivo contém o
modelo treinado com todos os valores carregados na memória do RStudio e que são
posteriormente usados na classificação dos dados.

7.3.5 Validação cruzada

Visando fazer a validação do modelo, foi realizada a validação cruzada de 5-
vezes para o treinamento do Random Forest. Foi escolhido o valor de 5 vezes para a
validação por ser um valor amplamente encontrado na literatura nos estudos e
aplicação de aprendizado de máquina.
42

A aplicação de validação cruzada no Random Forest é realizada durante o
treinamento através do parâmetro “cv.fold” da implementação do Random Forest do
pacote Caret, sendo esta função chamada no script lerCSVDivideDados_RF.R, logo
após a divisão dos conjuntos de treinamento e teste feitas pelo mesmo script. Foram
testados vários cenários para analisar a robustez do modelo gerado.
O primeiro teste usou 75% das interações no conjunto de treinamento e 25%
no conjunto de teste, posteriormente a validação foi realizada utilizada o esquema de
validação cruzada em 5 vezes. Para fazer comparações com os resultados obtidos,
foram realizados novos testes alterando as proporções dos conjuntos de treinamento
e teste, onde na segunda rodada de treinamento o conjunto de treinamento ficou com
25% das interações e o de teste com 75%, a terceira com 5% para treinamento e 95%
para teste e a última rodada com 75% em treinamento e 25% em teste, como na
primeira rodada, mas com uma validação cruzada de 10 vezes.

7.4 Classificação dos pares de proteínas

Com o modelo devidamente treinado, foi iniciada a fase seguinte que consiste
em entregar para o algoritmo os pares de proteínas que não se sabe a priori se
interagem ou não. Esses pares de proteínas são formados por uma proteína do ZIKV
mais uma proteína de um dos hospedeiros do escopo deste estudo.
Para que seja feita a classificação, os dados referentes as proteínas precisam
ficar no mesmo padrão que as usadas para o treinamento. Todos os proteomas foram
adquiridos no formato FASTA, que contém um identificador e a sequência de
aminoácidos. Novamente o ProtR foi utilizado através do script
protCheckExtractFeatures.R para extrair as características físico-químicas baseado
nas sequências de aminoácidos, sendo utilizadas as mesmas características
extraídas no conjunto controle. Este procedimento foi aplicado em todas as espécies
analisadas. Os dados por fim são normalizados em vetores de mesmo tamanho e com
valores entre “0” e “1”.
Com os dados das características físico-químicas normalizados, os arquivos
contendo as informações de cadaorganismo foram alocados no banco de dados para
armazenar de forma mais conveniente visando a posterior manipulação dos dados.
Utilizando comandos SQL, foi possível fazer todas as combinações possíveis de pares
43

de proteínas de ZIKV contra todas dos hospedeiros, e essas combinações foram
colocadas em arquivos CSV.

7.4.1 Preparação de dados para classificação por Random Forest

Para fazer a classificação dos pares de ZIKV contra hospedeiros utilizando o
Random Forest, foi necessário carregar na memória do RStudio os arquivos CSV.
Devido ao fato do Random Forest carregar todo o arquivo de interações na memória
para iniciar a classificação e ao tamanho dos arquivos, as interações de ZIKV com C.
jacchus e ZIKV com H. sapiens foram divididas em arquivos menores para fazer a
classificação, evitando estouro de memória no servidor. Cada uma das partes desses
arquivos foi separadamente, e uma por vez, executada para fazer a classificação.
Após o processo de classificação, os resultados das partes foram colocados no
mesmo arquivo de forma a representar a mesma ordem inicial. Para os demais
organismos (A. aegypti, A. albopictus e C. quinquefasciatus) não foi necessário dividir
o arquivo pois a memória do servidor usado foi suficiente para comportar os arquivos.
Os resultados são gravados em disco como arquivos CSV e é gravado também o
estado do ambiente do RStudio, com os valores de variáveis e estruturas de dados
que estavam na memória naquele momento, em um arquivo RData.

7.4.2 Predições e armazenamento de resultados

O Random Forest apresenta o resultado como um valor “0” para interações
negativas e “1” para interações positivas. Foram criadas tabelas apropriadas no banco
de dados do projeto para armazenar os dados de classificação. Todos os arquivos
com os resultados da classificação além dos identificadores das proteínas de cada
espécie são devidamente armazenados no banco.

7.5 Modelagem da rede de interações

Os dados das predições geradas, devidamente armazenados no banco de
dados do projeto são usados para gerar as redes de interações de proteínas. Foram
gerados cinco arquivos, através de consulta no banco com comando em linguagem
44

SQL, para representar as interações entre ZIKV e cada um dos hospedeiros. Os
arquivos contêm apenas interações preditas como positivas.
Os dados de Random Forest tiveram interações consideradas como positivas
quando o valor de predição foi igual a “1”. Esse valor foi obtido através do script
lerCSVDivideDados_RF.R e baseado nos dados usados para treinamento durante a
construção do modelo. Os dados de resultado do script são usados para gerar
arquivos tabulares que são em seguida passados como entrada para o Cytoscape, na
versão 3.6.1, para gerar os grafos das redes de interações, sendo as proteínas de
ZIKV colocadas como nó fonte e as dos hospedeiros como alvo. Esta configuração de
rede gera grafos bipartidos, com as interações saindo dos nós que representam as
proteínas do ZIKV para os nós que presentam as proteínas dos hospedeiros.

7.6 Análise de enriquecimento funcional

Os dados das predições geradas foram submetidos à análise de
enriquecimento funcional utilizando o DAVID (acrônimo em inglês para Database for
Annotation, Visualization and Integrated Discovery) na versão 6.8 (JIAO et al., 2012).
Esta análise consiste identificar genes ou proteínas que compartilham atributos
biologicamente relevantes ou associados com fenótipos de doenças (TIPNEY;
HUNTER, 2010). A base de dados contém várias bases com informações de
anotações funcionais. As informações de anotações funcionais são de processos
biológicos, função molecular e via metabólica e são usadas para elencar sentidos
biológicos para as predições realizadas.
45

8 CONSIDERAÇÕES ÉTICAS

Os dados obtidos e utilizados ao longo do projeto são provenientes de bancos
de dados públicos de instituições ligadas à pesquisa, disponibilizados abertamente na
internet para consulta e uso científico. Não há nas amostras, especialmente às
relacionadas aos humanos, qualquer tipo de identificação que possa ser relacionada
a um paciente. Não foram utilizados humanos ou animais em nenhuma das etapas do
projeto. Todos os softwares usados no projeto, incluindo sistemas operacionais, banco
de dados, bibliotecas, scripts e demais aplicativos são baseados em software livre ou
foram desenvolvidos para este trabalho.

9 RESULTADOS

A partir dos dados obtidos na base VirusMentha relativos às interações entre
proteínas, foram montados arquivos em formato FASTA, separados por espécie, com
as sequências de aminoácidos das proteínas. Essas sequências foram baixadas de
forma automatizada a partir do Uniprot, utilizando as listas de identificadores contidos
nos dados do VirusMentha através do script script_2_v0.sh. Foi construído um banco
de dados relacional com informações referentes a 5206 proteínas, que tem seus
identificadores usados como chaves estrangeiras nas demais tabelas para garantir a
confiabilidade dos dados e evitar que outra tabela tenha uma proteína inválida no
conjunto das proteínas do projeto.
Os arquivos em formato FASTA com as informações das 5206 proteínas foram
usados para gerar um único arquivo que foi utilizado para realizar alinhamento local
entre todas as proteínas. Com o resultado do Blastp, foram obtidos os valores de e-
value, identidade, similaridade, de coordenadas de início e fim do alinhamento e bit-
score. O script recuperaBlast.pl feito para recuperação dos dados do alinhamento foi
programado também com uma função que calculou e obteve a cobertura dos
alinhamentos. Os resultados gerados no alinhamento foram armazenados no banco e
são utilizados na elaboração do conjunto de dados de interações negativas.
Com os dados do alinhamento carregados no banco de dados, foi criada uma
estrutura de dados do tipo visão da tabela resultBlast contendo apenas dados de
alinhamento com a cobertura igual ou maior que 80%. Os dados contidos nesta visão
são usados na elaboração do conjunto de dados de interações negativas.
Dois arquivos de texto, um contendo a lista de identificadores dos vírus e outro
contendo a lista de identificadores de hospedeiros, foram montados a partir de
consultas SQL dos dados armazenados nas etapas anteriores. Esses arquivos foram
usados como entrada do script geraInteracoesNegativas-0.6.pl que, seguindo a
metodologia previamente apresentada para este projeto, gerou um conjunto de
5.362.606 de pares de proteínas tidas como não interativas. Os dados gerados nesta
etapa foram devidamente armazenados no banco de dados do projeto.
Consultas no banco de dados do projeto foram realizadas para gerar quatro
arquivos do tipo FASTA referentes as proteínas das interações. Foram montados dois
arquivos para as interações positivas, onde o primeiro arquivo continha uma lista das
47

proteínas de interação e o segundo continha a lista dos respectivos pares das
interações, e outros dois arquivos montados da mesma forma para as interações
negativas. Esses arquivos formam carregados no RStudio para fazer a extração das
características físico-química das proteínas. Durante o processo de checagem de
padrão de proteínas foram eliminadas 16 proteínas do conjunto total de proteínas do
projeto. Foi gerada uma lista de proteínas validadas pela checagem do ProtR. Esse
arquivo foi colocado como entrada no script montaFastaR.sh que gerou novamente
os quatro arquivos fasta contendo apenas interações com proteínas validadas. Esses
arquivos foram submetidos novamente ao ProtR no RStudio onde foram geradas
quatro matrizes, duas para as proteínas das interações positivas e mais duas para as
interações negativas. Essas matrizes contém as informações das proteínas já com as
características físico-químicas extraídas e devidamente normalizadas em valores

Conteúdos escolhidos para você

48 pág.

2018pitta-jllp

Biologia

Mais conteúdos dessa disciplina

Conteúdos escolhidos para você

Anotação gênica

Anotação gênica t3

Anotação gênica

Definição do Banco de Dados DOG para Obtenção de Ortologia em Múltiplos Proteomas

TCC siRNA - Douglas Matheus Trindade Guimarães

Perguntas dessa disciplina

O estabelecimento de uma infecção, em um hospedeiro susceptível, envolve vários mecanismos, sendo um dos mais relevantes o modo de interação do mic...

Quais os principais componentes do sistema imunológico inato?

2. Quais são as categorias de meios de cultura e qual o objetivo de utilização destes meios?

4. Quais são as estratégias ou mecanismos efetores de defesa principais da imunidade adquirida para combater a maioria dos microrganismos?

Quais são os processos responsáveis pela transferência de material genético de uma célula bacteriana para outra?