REDES COMPLEXAS PARA COMPARAR PADRÕES DE EXPRESSÃO DE VIAS E PROTEÍNAS ASSOCIADAS AO DESENVOLVIMENTO E TRATAMENTO DO GLIOBLASTOMA MULTIFORME

•

Artes

Luiza Helena Brondani Cabral

28/12/2020

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Biotecnologia e Bioinformática

208 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

UNIVERSIDADE FRANCISCANA
PRÓ-REITORIA DE PÓS-GRADUAÇÃO E PESQUISA
ÁREA DE CIÊNCIAS TECNOLÓGICAS
Programa de Pós-Graduação em Nanociências

HELENO CARMO BORGES CABRAL

REDES COMPLEXAS PARA COMPARAR PADRÕES DE EXPRESSÃO DE
VIAS E PROTEÍNAS ASSOCIADAS AO DESENVOLVIMENTO E
TRATAMENTO DO GLIOBLASTOMA MULTIFORME

Santa Maria, RS
2020

HELENO CARMO BORGES CABRAL

REDES COMPLEXAS PARA COMPARAR PADRÕES
DE EXPRESSÃO DE VIAS E PROTEÍNAS ASSOCIADAS AO
DESENVOLVIMENTO E TRATAMENTO DO
GLIOBLASTOMA MULTIFORME

Tese apresentada ao Programa de Pós-
Graduação em Nanociências da Universidade
Franciscana de Santa Maria, como parte das
exigências para obtenção do título de Doutor
em Nanociências, na área de Biociências e
Nanomateriais.

Orientador: Prof. Dr. ÉDER MAIQUEL SIMÃO
Co-orientador: Prof. Dr. JOSÉ LUIZ RYBARCZYK FILHO

Santa Maria, RS
2020

Elaborada pela Bibliotecária Eunice de Olivera CRB 10/1491

C117r Cabral, Heleno Carmo Borges
Redes complexas para comparar padrões de expressão de
vias e proteínas associadas ao desenvolvimento e tratamento do
Glioblastoma Multiforme / Heleno Carmo Borges Cabral ;
orientação Éder Maiquel Simão ; coorientação José Luiz
Rybarczyk Filho – Santa Maria : Universidade Franciscana –
UFN, 2020.
95 f. : il.

Tese (Doutorado em Nanociências) Programa de Pós-
Graduação em Nanociências – Universidade Franciscana UFN

1. Rede de vias metabólicas 2. Análise de vias 3. Câncer
I. Simão, Éder Maiquel II. Rybarczyk Filho, José Luiz
III.Título
CDU 62

Se vi mais longe, foi por estar
sobre os ombros de gigantes.
(Isaac Newton)

AGRADECIMENTOS

Dedico meus agradecimentos a todos que, de alguma forma, colaboraram com a realização
deste trabalho:
– a Deus, sou grato por todas as oportunidades que me foram dadas;
– aos colegas de pós-graduação da UFN;
– aos demais professores do doutorado em Nanociências, que colaboraram na minha
formação acadêmica;
– aos meus familiares, pelo apoio em minhas decisões. Um agradecimento especial a minha
esposa, Maíra, e a minha filha, Luiza Helena, pelo apoio incondicional nas horas de
incertezas;
– ao Prof. Dr. José Luiz Rybarczyk Filho, pela co-orientação neste trabalho. Também
agradeço à Profa. Dra. Agnes Takeda. Estendo meu muito obrigado, ainda à André Molan, à
Giordano Seco e a todos os amigos que fiz no laboratório de Biocomplexidade do Depto. de
Física e Biofísica da UNESP, campus Botucatu, que tiveram paciência em me transmitir o
conhecimento em R que foi de fundamental importância: sem o auxílio dessas pessoas eu
não teria êxito neste trabalho;
– ao Prof. Dr. Éder Maiquel Simão, pela orientação, tolerância, paciência, amizade e
ensinamentos;
- aos ex-coordenadores do Programa de Pós-Graduação em Nanociências, profa. Dra. Ivana
Zanella e prof. Dr. Sérgo Mortari, e ao coordenador, prof. Dr. Alencar Kolinski, por todo o
apoio que recebi ao longo deste doutoramento.
- aos colegas e amigos Ana Júlia Dalmolin, Bruna Guerino, Bruna Pedrolo e aos profs. Dr.
Giovani Rubert Librelotto e Dra. Michele Rorato Sagrillo pela constante ajuda e participação
neste trabalho.

RESUMO
O grande desafio da era pós-genômica na Biologia é a compreensão da estrutura e do
comportamento de redes complexas de interações moleculares que controlam o desempenho
das células. Isto impõe a procura por métodos inovadores para tratar estes dados, com a
finalidade de melhorar o entendimento dos processos biológicos que ocorrem intra e
extracelularmente. Na presença de doenças, há variações dos fenótipos celulares, o que acaba
por modificar todo o processo de análise. Este varia também na presença de fármacos
distintos: medicamentos que, além de promoverem alterações celulares, provocam efeitos
clínicos que poderão ser analisadas por diferentes métodos. Por consequência, pode-se
identificar quais vias metabólicas estão expressas em um organismo que apresenta uma
doença genética. Esse procedimento engloba métodos analíticos que incluem, por exemplo,
a atividade dessas vias: verifica-se sua interação com outras vias, identificando, assim, os
genes presentes em determinadas situações. Neste contexto, é possível interligar as vias e
melhorar a compreensão das interações biológicas na ausência ou na presença de uma
determinada doença. Para isso, utilizam-se ferramentas como a linguagem R, seus pacotes e
scripts disponíveis. Cabe ressaltar que, mesmo com a emergência das novas tecnologias,
ainda se percebe obstáculos na terapia. Um dos exemplos desses empecilhos é a barreira
sangue-cérebro, que impede a livre difusão da maioria das moléculas com propriedades de
antígenos, incluindo os medicamentos quimioterápicos. O objetivo deste trabalho é promover
o estudo de redes de interação, no intuito de dar subsídios para o entendimento de como as
vias se comportam quando induzidas a diferentes tipos de tratamentos e métodos. Pretende-
se, com isso, contribuir para o desenvolvimento de novos fármacos nanoencapsulados. Para
a concretização deste estudo, foram utilizadas amostras de glioblastoma multiforme versus
normal, extraídas de microarranjos do banco de dados Gene Expression Omnibus. As análises
de expressão e o desenvolvimento da ferramenta foram obtidos através de códigos utilizando
a linguagem R. Dentre as amostras, destacam-se o uso dos fármacos Bevacizumabe (BEV),
Dibenzazepina (DBZ) e Temozolomida (TMZ), administrados juntamente ao tratamento com
radioterapia. Os resultados preliminares consistiram na construção de uma rede basal com
104 vias metabólicas, selecionadas a partir de critérios pré-estabelecidos. Com a análise de
expressão do glioblastoma tratado, observou-se que a via receptora de quimiocinas está
diretamente ligada à presença do fármaco no glioblastoma.

Palavras-chave: Rede de vias metabólicas, análise de vias, câncer.

ABSTRACT

The great challenge of the post-genomic era in biology is the understanding of the structure
and behavior of complex networks of molecular interactions that control the behavior of cells.
This imposes, the search for innovative methods to treat these data in order to improve the
understanding of the biological processes that occur intra and extracellular. In the presence
of diseases, there are variations in cellular phenotypes, which changes the entire analysis
process, as this process also varies in the presence of different drugs, involving drugs that, in
addition to promoting cellular changes, cause clinical consequences that can be analyzed by
different methods. Consequently, in an organism that has a genetic disease, it is possible to
identify which metabolic pathways are inhibited through analytical methods that involve, for
example, the activity of metabolic pathways, verifying their interaction with other pathways,
thus identifying the genes present in certain situations In this context, it is possible to
interconnect the pathways and improve the understanding of biological interactions in theabsence or presence of a certain disease, using tools such as the R language and its available
packages and scripts. Even with the use of new technologies, obstacles in therapy are still
perceived, such as the blood-brain barrier, which prevents the free diffusion of most
molecules with antigen properties, including chemotherapy drugs. The objective of this work
is to promote the study of interaction networks, proposing to provide support for
understanding how the pathways behave when induced to different types of treatments and
methods, thus contributing to the development of new nanoencapsulated drugs. For the
development of this study, samples of glioblastoma multiforme versus normal extracted from
microarrays in the Gene Expression Omnibus database were used. The analysis of expression
and the development of the tool were obtained through codes using the language R. Among
the samples, the use of the drugs Bevacizumab, Dibenzazepine and Temozolomide
(administered together with the treatment with radiotherapy) stands out. The preliminary
results consisted of the construction of a basal network with 104 metabolic pathways selected
from pre-established criteria. With the analysis of expression of the treated glioblastoma, it
was observed that the chemokine receptor pathway is directly linked to the presence of the
drug in the glioblastoma.

Keywords: network of pathways, analysis of pathways, metabolic pathways, cancer

LISTA DE FIGURAS

Figura 1 – Estrutura do DNA. As faixas cinzas representam as duas cadeias de açúcar-
fosfato, os pares de bases (Adenina e Timina, Guanina e Citosina) formam conexões
horizontais entre as cadeias, as quais correm em direções opostas ...................................... 23
Figura 2 – Tipos de RNA: Mensageiro, Ribossômico e Transportador .............................. 24
Figura 3 – Fluxo de informação na célula. No processo de replicação do DNA, envolve a
participação de várias enzimas, dentre elas a polimerase, que atuam no processo de uma nova
molécula de DNA; a transcrição é processo onde o DNA é copiado (transcrito); o processo
de tradução consiste em unir os aminoácidos de acordo com a sequência de códons do RNA
mensageiro ............................................................................................................................ 25
Figura 4 – Código genético padrão. A matriz apresenta as três bases do códon, sendo que a
metionina indica o início da codificação de uma proteína (detalhe em verde) e outros três
códons indicam o final dessa codificação (detalhe em vermelho) ....................................... 26
Figura 5 – Representação gráfica proposta por Barabási e Oltvai (2004) da rede metabólica
onde os nós representam os substratos que estão ligados uns aos outros através de conexões
que são as reações metabólicas ............................................................................................. 28
Figura 6 – Rede PPI (Interação Proteína-Proteína) dos genes significativos no glioblastoma
multiforme gerada através do banco de dados online STRING, onde foram selecionados 113
genes para construir a rede ................................................................................................... 30
Figura 7 – Redes genéticas demonstrando o risco de câncer de mama, representadas pelo
método de Bonferroni, através dos valores de P obtidos para cada regulon ........................ 31
Figura 8 – Glioblastoma Multiforme (GBM): Fases e Alterações ...................................... 33
Figura 9 – A fase G1 (do inglês gap, que significa lacuna) é o intervalo entre o término da
fase M e início da fase S. Na fase S (de síntese) ocorre a replicação do DNA nuclear, e G2 é
a fase de intervalo entre as fases S e M. A fase M é compreendida pela mitose, em que ocorre
a divisão nuclear e a citocinese, a partir da qual acontece a divisão celular ........................ 35
Figura 10 – Metodologia utilizada, que parte da seleção de microarranjos em bancos de
dados biológicos com amostras de tecidos doentes e saudáveis, fazendo o cruzamento
(normalização) dessas vias, realizando os cálculos estatísticos, concretizando o
ranqueamento e exibição da rede de interações através de grafos ....................................... 41
Figura 11 – Representação da rede basal – A formação de módulos permite observar que há
aglomerações por tipo de via, nas quais as vias de apoptose (nós vermelhos) se concentram

à esquerda, separadas das vias de reparo (amarelo) à direita pelas vias do ciclo celular (verde)
.............................................................................................................................................. 42
Figura 12 – Representação do PATHChange – quatro funções estruturam o pacote, sendo
elas: PATHChangeDat, responsável pelo pré-processamento dos dados; PATHChangeList,
que faz a seleção das vias estudadas; PATHChange, função principal do pacote que realiza
os cálculos da atividade da via aplicando os testes estatísticos; e PATHChangeVenn, que
apresenta os resultados da análise da função PATHChange em forma de diagramas de Venn
.............................................................................................................................................. 44
Figura 13 – Representação do pacote ADAM. A primeira coluna, à esquerda, representa os
módulos principais, enquanto a segunda coluna apresenta quadros explicando cada um dos
módulos ................................................................................................................................ 46
Figura 14 – Estrutura da metodologia. Serão usadas amostras normalizadas de GBM e
controle extraídas do banco de dados GEO, além de amostras de vias extraídas do banco de
dados Reactome. As amostras serão analisadas com um pacote de dados e, em seguida, será
construída uma rede de interações de vias ............................................................................ 53
Figura 15 – Detalhamento dos processos realizados através ferramenta ............................ 56
Figura 16 – Arquitetura estrutural da Ferramenta em R desenvolvida................................ 59
Figura 17 – Representação da rede basal, sem interação de doenças, no seu estado puro, na
qual percebe-se que os nós mais conectados estão mais próximos e os vértices de ligação
mais espessos ........................................................................................................................ 60
Figura 18 – Representação da rede de vias da amostra de Glioblastoma tratado com
Bevacizumabe, gerada através do pacote igraph da ferramenta R. Nela, R-HSA-380108
corresponde a Chemokine receptors bind chemokines; (R-HSA-6783783): Interleukin-10
signaling; (R-HSA-1592389): Activation of Matrix Metalloproteinases; (R-HSA-1566948):
Elastic fibre formation; e (R-HSA-210991): Basigin interactions ....................................... 67
Figura 19 – Representação da rede da amostra de Glioblastoma tratado com Bevacizumabe,
gerado através do pacote igraph da ferramenta R. Nesta, R-HSA-1461973 corresponde a via
Defensins; R-HSA-6783783: Interleukin-10 signaling; e R-HSA-380108: Chemokine
receptors bind chemokines ................................................................................................... 69
Figura 20 – Representação da rede da amostra de Glioblastoma tratado com Dibenzazepina,
gerado através do pacote igraph da ferramenta R, com suas respectivas vias envolvidas ... 70
Figura 21 – Representação da rede da amostra de cérebro normal versus Astrocitoma ..... 71
Figura 22 – Representação da rede da amostra de cérebro normal versus Glioblastoma ... 72

Figura 23 – Representação da rede basal, sem interação de doenças, no seu estado puro, na
qual percebe-se que os nós mais conectados estão mais próximos e os vérticesde ligação
mais espessos ........................................................................................................................ 90
Figura 24 – Representação da rede da amostra de Glioblastoma tratado com Bevacizumabe,
gerado através do pacote igraph da ferramenta R. Nela, R-HSA-380108 corresponde a
Chemokine receptors bind chemokines; (R-HSA-6783783): Interleukin-10 signaling; (R-
HSA-1592389): Activation of Matrix Metalloproteinases; (R-HSA-1566948): Elastic fibre
formation; e (R-HSA-210991): Basigin interactions ............................................................ 91
Figura 25 – Representação da rede da amostra de Glioblastoma tratado com Bevacizumabe,
gerado através do pacote igraph da ferramenta R. Nela, R-HSA-1461973 corresponde a via
Defensins; R-HSA-6783783: Interleukin-10 signaling; e R-HSA-380108: Chemokine
receptors bind chemokines ................................................................................................... 92
Figura 26 – Representação da rede da amostra de Glioblastoma tratado com Dibenzazepina,
gerado através do pacote igraph da ferramenta R com suas respectivas vias envolvidas .... 93
Figura 27 – Representação da rede da amostra de Cérebro Normal versus Astrocitoma ... 94
Figura 28 – Representação da rede da amostra de Cérebro Normal versus Glioblastoma .. 95

LISTA DE TABELAS

Tabela 1 – Relação das 104 vias ......................................................................................... 61
Tabela 2 – Arquivo gerado com os P-Valores extraídos através do pacote Limma ............ 65
Tabela 3 – Arquivo gerado com os enriquecimentos estatísticos através do pacote ADAM
.............................................................................................................................................. 66

LISTA DE ABREVIATURAS E SIGLAS1

BER Reparo de Excisão de Base
BioPax Biological Pathway Exchange
BVZ Bevacizumabe
CRAN Comprehensive R Archive Network
DBZ Dibenzazepina
DDR Resposta ao dano de DNA
DEG Differential Expression Genes
FDA Food and Drug Administration
FDR Taxa de Falso Positivo
GBM Glioblastoma Multiforme
GEO Gene Expression Omnibus
GFAG Grupos de Genes Funcionalmente Associados
GO Gene Ontology
HUGO Human Genome Organization
KB KiloBytes
KEEG Kyoto Encyclopedia of Genes and Genomes
LogME Logaritmo de Mudança de Expressão (fold change)
MMR Reparo de Bases Mal Pareadas
NER Reparo por Excisão de Nucleotídeos
NGS Sequenciamento de Nova Geração
PCL Policaprolactona
PCR Reação em Cadeia da Polimerase
PDT Terapia Fotodinâmica
PHP Hipertexto Pré-Processado
PLA Poliácido Lático
PLGA Poliácido Lático-co-ácido Glicólico
PPI Redes de Interações de Proteínas
PTT Terapia Fototérmica
RMA Média Robusta para Múltiplos Chips
ROS Espécies Reativas ao Oxigênio

1
A lista com as vias está no Anexo I.

SBML System Biology Markup Language
SGBD Sistema Gerencial de Banco de Dados
SNC Sistema Nervoso Central
TMZ Temozolomide

SUMÁRIO

1 INTRODUÇÃO ............................................................................................................... 16
1.2 JUSTIFICATIVA ...........................................................................................................18
1.2 INTERDISCIPLINARIDADE .......................................................................................19
1.3 OBJETIVOS .................................................................................................................. 19
1.3.1 Objetivo Geral ........................................................................................................... 19
1.3.2 Objetivos específicos ................................................................................................. 19
2 REVISÃO BIBLIOGRÁFICA .......................................................................................20
2.1 GENÉTICA .................................................................................................................... 20
2.1.1 Expressão Gênica ...................................................................................................... 20
2.1.2 Síntese Proteica ..........................................................................................................22
2.1.3 Vias Metabólicas ........................................................................................................27
2.1.4 Genotoxicidade, Citotoxicidade e Mutagênese ....................................................... 32
2.2 BIOINFORMÁTICA E NANOCIÊNCIAS ...................................................................37
2.3 TRABALHOS RELACIONADOS ................................................................................39
2.3.1 Construção de uma rede com a ferramenta PHP (Hipertexto pré-processado) . 39
2.3.2 PATHChange ............................................................................................................ 42
2.3.3 Activity and diversity analysis module (ADAM) …………………………………...44
2.4 TERAPIAS .....................................................................................................................47
2.4.1 Terapias Através da Nanotecnologia .......................................................................47
2.4.2 Nanotecnologia Aplicada à Terapia Gênica ........................................................... 48
2.5 PROGRAMAÇÃO ENVOLVENDO “R” ..................................................................... 50
2.5.1 Análises Estatísticas usando a Ferramenta R .........................................................50
2.5.2 Bancos de Dados ........................................................................................................ 51
3 METODOLOGIA ........................................................................................................... 53
3.1 EXPRESSÃO GÊNICA ................................................................................................. 53
3.1.1 Microarranjos ............................................................................................................54
3.1.2 Amostras e Tratamento ............................................................................................ 54
3.2 VIAS METABÓLICAS ................................................................................................. 55
3.2.1 Rede Basal .................................................................................................................. 56
3.2.2 Análises Estatísticas .................................................................................................. 57
3.2.4 Diferenciação da Expressão ..................................................................................... 57
3.2.5 Construção das Redes ............................................................................................... 59
4 RESULTADOS ................................................................................................................64
4.1 REDE EXPRESSA ........................................................................................................ 64
4.1.1 Amostras de Glioblastoma Tratado com Bevacizumabe .......................................64
4.2.2 Amostras de Glioblastoma Tratado com Bevacizumabe e Dibenzazepina .......... 68
CONCLUSÃO .................................................................................................................... 74
REFERÊNCIAS ................................................................................................................. 74
ANEXO I – NOME DAS VIAS E REPECTIVOS IDENTIFICADORES ................... 83
ANEXO II – SCRIPT DE DESENVOLVIMENTO DA REDE BASAL ...................... 89
ANEXO III – REDE BASAL ATRAVÉS DO SOFTWARE CYTOSCAPE .................90
ANEXO IV – FIGURAS 20, 21, 22, 23E 24 GERADAS PELO SCRIPT EM R ......... 91

1 INTRODUÇÃO
Desde as descobertas de Frederik Sanger (1969), responsável pelo sequenciamento
da insulina entre as décadas de 40 e 50, pôde-se verificar que as proteínas não eram apenas
arranjos simples, uma vez que não possuíam estrutura definida. Stanford Moore e William
Stein (1973) foram os precursores em introduzir a automatização computacional para
sequenciar os 124 aminoácidos da ribonuclease. Com isso, atingiram a metade do tempo
utilizado pela equipe de Sanger ao sequenciar os 51 aminoácidos da insulina.
Na segunda metade da década de 1960, Pehr Edman cria o “sequenciador”, uma
máquina de sequenciamento totalmente automatizada. A partir de então, muitos laboratórios
foram encorajados a iniciarem o sequenciamento de proteínas e a armazenarem seus
resultados (EDMAN, 1967). Foi, no entanto, o pesquisador e biofísico Cyrus Levinthal
(1966) e sua equipe do Instituto de Tecnologia de Massachusetts (MIT) os precursores na
utilização de computadores de grande porte para construir modelos tridimensionais de uma
pequena proteína: o Citocromo C.
O Projeto Genoma Humano teve seu início no final da década de 80, sendo finalizado
14 anos depois. Ele foi o resultado da revolução científica que ocorreu durante os últimos 30
anos do período, quando a Biologia Molecular passou a andar de mãos dadas com a
Informática. Essa fusão deu origem à Bioinformática, que tornou possível armazenar,
calcular e interpretar dados gigantescos. No entanto, as tentativas de trazer respostas
acabaram por abrir portas para muitas novas perguntas. Originou-se, dessa maneira, o que
hoje se denomina como a “Era Pós Genômica”. Neste período, se constatou que as
características expressas pelos seres vivos, que os diferenciam entre indivíduo, espécie,
gênero, classe, ordem, filo e reino, não são somente provenientes de diferenças na sequência
de bases nitrogenadas do DNA (Adenina (A), Timina (T), Citosina (C) e Guanina (G)): são
também determinadas pela epigenética (PEREIRA, 2011).
A compreensão da estrutura e do comportamento de redes complexas de interações
moleculares que controlam o desempenho das células ainda é um dos grandes desafios para
os biólogos dessa era pós-genômica (BARABÁSI; OLTVAI, 2004). O tamanho e a
complexidade dos dados biológicos coletados incluem informações que requerem uma
abordagem integradora (UETZ; IDEKER; SCHWIKOWSKI, 2002). Isso impõe a procura
por métodos inovadores para tratar esses dados, com a finalidade de melhorar o entendimento
dos processos biológicos que atuam no interior da célula. Na presença de doenças, há

variações dos fenótipos celulares, o que muda todo o processo de análise. Esse varia também
na presença de fármacos distintos, como o Bevacizumabe, Dibenzazepina e Temozolomida,
estudados nesse trabalho.
Dentre os tratamentos contra o câncer, destacam-se os quimioterápicos, cujos efeitos
colaterais podem incluir como náuseas, vômitos, lesões no esôfago, má nutrição, fraturas,
desequilíbrio hidroeletrolítico e acidobásico (SAWADA et al., 2009). A forma de atuação
desses fármacos no organismo e suas consequências podem ser avaliadas pelos métodos de
análise da expressão gênica. Dentre eles, estão o método de reação em cadeia da polimerase
em tempo real (PCR Real Time), os microarranjos (que são utilizados para medir grandes
quantidades simultâneas de níveis de expressão de transcritos e constituem conjuntos
ordenados de milhares de moléculas de DNA organizadas em oligonucleotídeos) e o
RNTeASeq, que consiste no uso de NGS (Next-Generation Sequencing - Próxima Geração
de Sequenciamento) para sequenciar o cDNA (DNA complementar), com a intenção de
capturar a informação do transcriptoma de um organismo. Ao contrário de outras técnicas,
como o PCR Real Time, o RNASeq não necessita de uma lista pré-definida dos genes que se
deseja detectar (WANG et al., 2009).
Devido às inúmeras informações coletadas por esses métodos de análise da expressão
gênica, existem vários repositórios de dados desses transcritos. O principal e o mais
conceituado deles é o GEO (Gene Expression Omnibus), no qual se encontram milhares de
amostras de transcritos envolvidos em várias doenças genéticas (SIMÃO et al., 2012).
Analisando a ocorrência dos genes comuns e da quantidade deles nessas vias têm-se
a interação via-via, que pode ser evidenciada em uma rede de interações, como proposto por
Vieira (2016). Porém, com o uso da ferramenta R, conectando pacotes do Bioconductor,
aprimora-se todas as fases em apenas uma linguagem de programação, interligando as vias e
melhorando a compreensão das interações biológicas na ausência ou na presença de uma
determinada doença (KESSLER; HACHE; WIERLING, 2013).
A terapêutica do câncer ainda é um desafio (BREGOLI et al., 2009). Com o avanço
nos tratamentos utilizando fármacos nanoencapsulados há também um eminente crescimento
das pesquisas envolvendo a ativação de proteínas responsáveis pela regulação de doenças
genéticas, a fim de ultrapassar a barreira endotelial e se acumular especificamente nas
células-alvo, sem causar danos às células normais (PAVON; OKAMOTO, 2007).
Para tais experimentos, serão utilizados dados de Glioblastoma Multiforme (GBM),
tipo mais comum e agressivo de tumor cerebral primário maligno em adultos. Para combater

o glioblastoma, juntamente com a radioterapia e a quimioterapia, utilizam-se fármacos como
a Temozolomida, Bevacizumabe e a Dibenzazepina.
Grandes estudos visando o entendimento molecular desses tumores vêm sendo feitos,
sendo o GBM selecionado como um dos três primeiros cânceres a serem sequenciados pelo
projeto do “Atlas do Genoma do Câncer” (The Cancer Genome Atlas, TCGA), do National
Institutes of Health’s (NIH), dos Estados Unidos. Por conta dos diversos estudos que se
debruçam sobre esse assunto, esse tipo é também um dos tumores com maior entendimento
a nível molecular. Esses esforços resultaram na identificação de fatores moleculares de
prognóstico e de vulnerabilidade que podem ser alvo no desenvolvimento de novos
tratamentos e no entendimento dos fatores envolvidos com a gliomagênese (WEATHERS;
GILBERT, 2016).

1.2 JUSTIFICATIVA
Através das análises de expressão gênica das patologias, é possível observar as
alterações genéticas de proteínas e vias metabólicas específicas, como também verificar qual
a melhor maneira de realizar a abordagem terapêutica. Uma das motivações para estudar a
expressão de proteínas ligadas ao desenvolvimento do GBM é a produção de novos tipos de
tratamentos envolvendo nanotecnologia. Isso porque os nanocarreadores subvertem alguns
obstáculos da terapia, como a barreira sangue-cérebro, que impede a livre difusão da maioria
das moléculas estranhas, incluindo agentes terapêuticos (LEE et al., 2013 apud BAÚ, 2016).
Uma das novas abordagens revolucionárias para terapias é a interferência de RNA
(iRNA - RNA de interferência) pelo uso de nanomateriais, para terapia genética ou
geneterapia (MASSADEH et al., 2016). No entanto, o principal obstáculo que dificulta a
realização de tais terapias é a entrega in vivo de fragmentos de RNAi, a fim de assegurar que
o material liberado não seja afetado pela resposta indesejável do sistema imune
(MASSADEH et al., 2016). A integração de diferentes análises de proteínas e vias usando a
linguagem de programação R possibilita a visualização de vias significativamente alteradas
através de redes de interação, com o intuito de contribuir para o desenvolvimento de novos
fármacos nanoencapsulados. Ela também dá subsídio para o entendimento de como as vias
se comportam quando induzidas a diferentes tipos de tratamentos e métodos.

1.2 INTERDISCIPLINARIDADE
Conceitua-se por interdisciplinaridade um conjunto de disciplinas trabalhadas
simultaneamente, sem que se apresente as suasdiferenças. O objetivo é a construção de um
sistema de um só nível e de objetivos comuns, não atrelados a uma disciplina específica
(MENEZES; SANTOS, 2002). De acordo com esse conceito, recorre-se às informações de
várias definições, de diferentes disciplinas (como a Genética, a Biologia, a Bioquímica e a
Computação), para estudar um caso determinado, sem a preocupação de interligá-las entre
si.
Neste caso, a Computação surge como uma ferramenta de auxílio na compilação da
grande quantidade de informações que a Genética apresenta. Assim, cada disciplina em
particular contribuiu para a realização deste trabalho em tarefas como a de entender o
funcionamento da Biologia Celular, utilizar fórmulas físicas e matemáticas para fins
estatísticos, analisar a farmacologia dos nanoencapsulados, dentre outras.

1.3 OBJETIVOS
1.3.1 Objetivo Geral
O objetivo deste trabalho é integrar diferentes ferramentas de análises de proteínas e
vias, usando a linguagem de programação R para investigar os padrões de expressão de vias
e proteínas de glioblastoma multiforme e glioblastomas tratados.

1.3.2 Objetivos específicos:
● Investigar os microarranjos de GBM (GBM tratado e GBM normal) no banco
de dados Gene Expression Omnibus;
● Incorporar vias metabólicas específicas, extraídas do banco de dados
Reactome;
● Analisar as amostras de microarranjos com as vias metabólicas, usando a
ferramenta R e seus métodos estatísticos;
● Desenvolver a rede de interação das vias metabólicas, com a inserção das
análises estatísticas pela ferramenta ADAM (do inglês: Activity and Diversity
Analysis Module).

2 REVISÃO BIBLIOGRÁFICA
2.1 GENÉTICA
2.1.1 Expressão Gênica
A expressão gênica ou transcriptoma (transcrição do DNA) é síntese do RNA a partir
de um molde de DNA, usando as regras da complementaridade. A transcrição de um
segmento se inicia quando a RNA polimerase reconhece as sequências específicas de
nucleotídeos em uma região especial no início do gene, denominada promotor, e liga-se a
elas (ALBERTS et al., 2010).
Além destas sequências, o promotor engloba o ponto de início como sendo o primeiro
par de bases a ser transcrito em RNA. A partir daí, a RNA polimerase move-se ao longo do
molde, sintetizando RNA até alcançar outra sequência específica, que sinaliza o término da
transcrição. Ou seja, a unidade de transcrição estende-se do ponto de início, no promotor, até
o terminador (LAMBERT, 2009).
Existem muitos bancos de dados essenciais para o armazenamento e gerenciamento
das expressões de proteínas em diversas doenças. O banco de dados Gene Expression
Omnibus (GEO) é um repositório público funcional de dados usado para armazenar
transcriptomas (EDGAR et al., 2002). O banco de dados GEO, até agosto de 2019, era
composto por 3.177.708 amostras e 19.991 plataformas, divididas em mais de 116 mil
estudos (microarranjos) diferentes, estando em crescente atualização e inserção de dados
(GEO, 2019). O GEO é considerado o maior banco de dados de expressão gênica, incluindo
vários organismos e doenças distintas. Nele, estão depositados transcriptomas fabricados por
diversas empresas, das quais destaca-se a Affymetrix Gene Chip, fundada em 1992 por
Stephen Fodor, cujo objetivo é fabricar microarranjos de DNA (GÖHLMANN; TALLOEN,
2010).
A expressão gênica corresponde a vários eventos e se inicia pela transposição do
transcrito no núcleo até a tradução do mRNA no ribossomo em proteína. Assim, a expressão
gênica corresponde ao processo em que a informação codificada por um determinado gene é
compilada em uma molécula. Com algumas exceções, as células que constituem o organismo
humano possuem a mesma carga genética, ou seja, o mesmo DNA. O que diferencia dois
grupos celulares morfologicamente distintos são os genes expressos e os níveis de expressão
desses genes. Para medir os níveis de expressão dos genes são usadas várias técnicas
experimentais e uma delas – os microarranjos – se destaca na Biologia Sistêmica desde a sua
descoberta, em 1982. Os microarranjos são usados para medir grandes quantidades

simultâneas de níveis de expressão de transcritos e consistem em conjuntos ordenados de
milhares de moléculas de DNA organizadas em sondas (SIMÃO et al., 2012).
Praticamente todas as células possuem o mesmo material genético, ou seja, cerca de
100.000 genes, dos quais apenas uma fração deles, em cada célula, expressa proteínas. A
maioria dos genes normalmente está suprimida e sua ativação depende de uma série de
fatores, tanto endógenos (hormônios e fatores de crescimento) quanto exógenos (influência
do meio ambiente). Esse processo de síntese proteica envolve a ativação de genes específicos,
bem como sua transcrição e tradução (STRACHAN e READ, 2006).
A regulação da expressão de novas proteínas se dá principalmente no nível da
tradução, e não da transcrição, do gene em questão (ZOPPI, 2005). Na década de 80, passou-
se a utilizar a técnica de reação em cadeia da polimerase (PCR), que possibilita fazer milhares
de cópias de um único pedaço de DNA através de tubos de ensaio contendo o DNA e mais
alguns compostos necessários, como primers e a enzima DNA-polimerase.
O PCR em tempo real permite, assim, o acompanhamento da reação e apresenta
resultados de forma precisa, rápida e quantitativa. Esse método realiza a síntese de
fragmentos de DNA usando a enzima DNA-polimerase, a mesma que participa da replicação
do material genético nas células. Essa enzima sintetiza uma sequência complementar de
DNA, desde que um pequeno fragmento (o iniciador, ou primer) esteja ligado a uma das
cadeias do DNA no ponto escolhido para o início da síntese. Os iniciadores definem a
sequência a ser replicada e o resultado obtido é uma amplificação de uma determinada
sequência do DNA com bilhões de cópias. Outra aplicação para o PCR é a clonagem de um
determinado fragmento de DNA, que pode ser um gene, e o reconhecimento do DNA
codificante (cDNA), obtido a partir da molécula de RNA, o que permite o estudo da
expressão de genes. O PCR realiza a quantificação de ácidos nucleicos de maneira precisa e
com maior reprodutibilidade porque determina valores durante a fase exponencial da reação
(NOVAIS; PIRES-ALVES e SILVA, 2004).
Outra técnica em destaque, que envolve as tecnologias de sequenciamento de nova
geração, é a RNA-Seq. Sua ampla utilização faz com que o método seja inovador em
pesquisas de transcriptomas. Além de proporcionar uma maior sensibilidade das técnicas
anteriores, como por exemplo os microarrays, o RNA-Seq não necessita de uma lista pré-
definida dos genes que se deseja detectar e, portanto, não se limita apenas à avaliação de
genes para os quais existam sondas (BULLARD et al., 2010, MARIONI et al., 2008). A
princípio, qualquer transcrito que esteja sendo expresso pode ser detectado através desta

técnica. Com isso, novas informações são geradas e analisadas por softwares específicos,
tornando esses dados mais claros aos observadores. Dessa forma, os pesquisadores podem
utilizar as informações obtidas em novas investigações e comparações de organismos. O
RNA-Seq permite, ainda, o estudo de vários fenômenos biológicos, incluindo polimorfismo
de nucleotídeo único (SNP), eventos epigenéticos, splicing alternativo e o estudo de
interações proteína-DNA (SOUZA, 2015).

2.1.2 Síntese Proteica
Segundo Carvalho e colaboradores (2012), as proteínas constituem mais de 50% da
massa total de uma célula. Sua síntese tem uma fundamental importância para a manutenção
e o crescimento celular. A síntese proteica ocorre nos ribossomos e envolve vários tipos de
moléculas de RNA (ácido ribonucleico), que atuam nas diversas etapas do processo.
Primeiramente, uma molécula de RNA mensageiro (RNAm) é sintetizada a partir de uma das
cadeias do DNA (ácido desoxirribonucleico), para codificar a proteína. No citoplasma,cada
molécula dos 20 aminoácidos que entram na composição das proteínas deve ligar-se a seus
respectivos RNAs transportadores (RNAt), assim como as subunidades ribossômicas que
irão promover a síntese precisam associar-se às proteínas que auxiliarão no processo de
síntese (ALBERTS et al., 2010).
A síntese proteica inicia-se quando todos os componentes (um RNAm, um dos RNAt
e as subunidades de um ribossomo) se juntam para formar um ribossomo funcional, sendo
que cada ribossomo percorre a molécula de RNAm, traduzindo a sequência de códons em
uma sequência de aminoácidos (CARVALHO; RECCO-PIMENTEL, 2012). O
conhecimento sobre as informações contidas no DNA alcançou grandes avanços nos últimos
anos, mas ainda há muito a descobrir. Por outro lado, os dados contidos no DNA são de
composição simples. Eles se constituem por apenas quatro tipos de nucleotídeos, que são
referenciados pelas bases nitrogenadas que os diferenciam: adenina, citosina, guanina e
timina, ou, respectivamente, A, C, G e T (NLM, 2009), como mostra a Figura 1.

Fonte: Figura adaptada2.

Um gene geralmente codifica uma proteína; mas, devido a algumas exceções, existem
genes que codificam mais de uma proteína, como por exemplo, na Botânica, o gene ZIFL1:
na raiz da planta, ele produz uma proteína que é responsável pelo transporte de auxina
(hormônio do crescimento), enquanto nas folhas o mesmo gene produz uma outra proteína,
responsável pela tolerância à seca na planta (REMY et al., 2015). O relacionamento existente
é de 1 para 1 entre gene e proteína e, muitas vezes, o gene tem sua identificação pela proteína
que o ativa (MAGATÃO; JÚNIOR, 2008).
O DNA é geralmente encontrado como uma molécula em forma de dupla hélice, mas,
quando se trata dos dados, se analisa apenas uma das fitas por vez. Uma sequência de DNA

2
Disponível em ambiente virtual: https://www.nature.com/scitable/topicpage/discovery-of-dna-structure-and-
function-watson-397. Acesso em: 25 out. 2018.

é representada por uma sequência de texto contendo as letras que traduzem as bases dessa
fita: A, C, G e T.
Nas estruturas de uma molécula de DNA, cada base em uma das fitas corresponde a
uma outra base da outra fita, sendo essas ligadas por pares, especificamente de A-T (adenina
e timina) e C-G (citosina e guanina). A estrutura de dupla fita do DNA permite não só que a
molécula seja mais estável, mas também funciona como um dispositivo de correção de erro
no caso de dano a alguma base. Um exemplo desse tipo de dano é aquele causado pelo
excesso de radiação ultravioleta do sol (ALBERTS et al., 2010).
Essas unidades hereditárias dos organismos, apesar de poderem ser definidas de
diversas maneiras, são tratadas como unidades do DNA que contêm instruções para a
codificação de uma proteína, mesmo que alguns deles produzam RNAs que não codificam
proteínas (GRIFFITHS et al., 2013).
Esta molécula de RNA é bastante semelhante à do DNA. Entretanto, no RNA,
encontra-se a base U (uracil) no lugar de T (timina). Entre outras diferenças, o RNA é, em
geral, encontrado como uma molécula de fita simples (ALBERTS et al., 2010); ele pode ser
classificado em três tipos: mensageiro, ribossômico e transportador (Figura 2). Essas
moléculas apresentam diversas funções, como, por exemplo, os RNAs que correspondem a
genes que codificam proteínas, denominados de RNA mensageiros, ou mRNA (GRIFFITHS
et al., 2013).

Figura 2 – Tipos de RNA: Mensageiro, Ribossômico e Transportador

Fonte: Figura adaptada3.

3
Disponível em ambiente virtual: https://escolaeducacao.com.br/rna. Acesso em: 19 maio 2020.

Entre outras funções, as proteínas são constituintes estruturais do “maquinário” da
célula. Elas são moléculas que diferem quimicamente do DNA e RNA, pois possuem
aminoácidos na sua composição, ao invés de nucleotídeos. As proteínas têm a propriedade
de se “dobrar” em formas tridimensionais bastante específicas, que dependem de sua
sequência de aminoácidos. Deste modo, a sequência de aminoácidos determina a forma de
uma proteína e a forma determina sua função: existem proteínas que desempenham as mais
diversas funções em um organismo. Com isso, percebe-se que, enquanto nesse contexto, o
DNA e o RNA são utilizados principalmente para armazenamento e transporte de
informações (Figura 3), as proteínas são o resultado desse processo, mostrando-se
responsáveis por inúmeras atividades no organismo (BEDELL et al., 2003).

Figura 3 – Fluxo de informação na célula. No processo de replicação do DNA, envolve a
participação de várias enzimas, dentre elas a polimerase, que atuam no processo de uma
nova molécula de DNA; a transcrição é processo onde o DNA é copiado (transcrito); o
processo de tradução consiste em unir os aminoácidos de acordo com a sequência de
códons do RNA mensageiro

Fonte: Figura adaptada de Bedell et al. (2003).

Por sua vez, os aminoácidos que compõem as proteínas são codificados, cada um, por
três nucleotídeos. Como são quatro os tipos de nucleotídeos, existem 64 combinações
possíveis de códons (grupos de três nucleotídeos). Entretanto, as 64 combinações, conforme
o código genético (Figura 4), codificam apenas 20 aminoácidos, sendo que um deles, a
Metionina, indica o início da codificação de uma proteína (“start”) e outros 3 códons indicam
o final dessa codificação (“stop”). Portanto, vários desses aminoácidos são codificados com
redundância por mais de um tipo de códon (ALBERTS et al., 2010).

Figura 4 – Código genético padrão. A matriz apresenta as três bases do códon, sendo que a
metionina indica o início da codificação de uma proteína (detalhe em verde) e outros três
códons indicam o final dessa codificação (detalhe em vermelho)

Fonte: Figura adaptada4.

No geral, quando se vê uma unidade estrutural específica dentro de uma proteína,
essa costuma ter uma função particular associada a ela. Sendo assim, os domínios
determinam as características próprias de cada proteína; uma proteína pode conter um ou
mais domínios expressos (ALBERTS et al., 2010).

4
Disponível em ambiente virtual: http://www.icb.ufmg.br/prodabi/grupo6/codon1.gif. Acesso em: 10 out.
2018.

2.1.3 Vias Metabólicas
Segundo Kasahara e colaboradores (2010), dá-se o nome de interatoma a todas as
interações – ou conjuntos de interações – proteína-proteína. Esse termo se refere
principalmente às interações físicas entre as moléculas, embora também possa indicar
relações diretas entre genes. Pode-se dizer que as redes são abordagens matemáticas,
baseadas na teoria dos grafos, frequentemente utilizadas para modelar redes biológicas
(PAVLOPOULOS et al., 2011). Basicamente, um grafo G é representado pelos conjuntos de
vértices (V), também chamados de nodos e arestas (E). Uma aresta nada mais é que um par
de vértices (u, v), u, v ∈ V, representando uma conexão entre os vértices u e v.
No contexto de redes de interação gênica e proteica, o conjunto “V” simboliza os
genes ou vias, enquanto “E” corresponde às conexões entre os mesmos. Devido às
particularidades envolvendo suas informações, cada tipo de dado biológico é ilustrado de
uma determinada maneira. Dados de PPI (redes de interações de proteínas), por exemplo,
geralmente são definidos como grafos não-dirigidos; ou seja, (u, v) = (v, u) para todo u, v ∈
V, como demonstrado na Figura 6 (BARABÁSI; OLTVAI, 2004). Uma via metabólica é
formada por um grupo de proteínas responsáveis por determinadas funções.Um exemplo
disso é uma via de reparo que ativa as proteínas responsáveis, cujo papel é reparar a célula
ou parte do DNA (LAMBERT, 2009).
O metabolismo de todos os organismos é caracterizado por uma rede complexa de
moléculas conectadas por reações químicas catalisadas por enzimas. As reações são
organizadas em módulos chamados mapas metabólicos. Esses realizam funções específicas,
como o anabolismo, ou síntese de compostos, e o catabolismo, que é a degradação (quebra)
desses compostos: a produção de energia, por exemplo. O conjunto completo desses mapas
caracteriza a rede metabólica de um dado organismo (BARABÁSI; JEONG, 2000).
Barabási e Oltvai (2004) propuseram uma representação gráfica da rede metabólica
em que os nodos representam os substratos (proteínas), que estão ligados uns aos outros
através de arestas. Essas últimas são as reações metabólicas propriamente ditas. Neste século,
o principal desafio para a Biologia é a compreensão da estrutura e dinâmica da complexa
rede intercelular de interações que corroboram para a estrutura e a função de uma célula viva.
O comportamento da maioria desses sistemas complexos provém da atividade
ordenada de muitos componentes que se relacionam entre si por meio de interações
emparelhadas. Ou seja, de forma abstrata, é possível afirmar que os componentes podem ser

reduzidos a uma série de nodos conectados uns aos outros por arestas; cada aresta representa
as interações entre dois componentes, sendo o seu produto (nodos e arestas interligados) a
formação de uma rede (gráfico). De acordo com os tipos das interações, as redes podem ser
direcionadas ou não (BARABÁSI; OLTVAI, 2004).
Em redes direcionadas, pode-se dizer que a relação entre quaisquer dois nodos tem
sua direção bem específica: representa, por exemplo, a direção do fluxo de informação de
um fator de transcrição para o gene que regula. Em redes não direcionadas, as arestas não
têm uma direção atribuída, como é possível verificar em redes de interação de proteínas
(Figura 5). Uma ligação representa uma relação de ligação mútua: se a proteína A se liga à
proteína B, então a proteína B também se liga à proteína A.

Figura 5 – Representação gráfica proposta por Barabási e Oltvai (2004) da rede metabólica
onde os nós representam os substratos que estão ligados uns aos outros através de conexões
que são as reações metabólicas
Fonte: BARABÁSI; OLTVAI (2004).

Entretanto, as vias metabólicas contêm interações sequenciais em seu sistema. Estas
podem ser representadas por grafos dirigidos, nos quais a aresta (u,v) é um par ordenado.

Sendo assim, a aresta (v,u) é invertida em relação a (u,v) (KHOLODENKO; HANCOCK;
KOLCH, 2010). Esses grafos ponderados, nos quais as arestas contêm pesos associados a
elas, também são muito utilizados para análise estrutural de proteínas ou para a co-expressão
de genes (LEE et al., 2013). Geralmente, um sistema complexo apresenta uma grande
heterogeneidade em relação às estruturas de representação dos grafos. Por isso, a aplicação
de conceitos da teoria de redes complexas permite encontrar uma relação entre possíveis
genes e proteínas causadoras de uma determinada condição ou qualquer outro tipo de
associação biológica desejada, com base em dados de interação biológica (PAVLOPOULOS
et al., 2011).
Alguns dos principais conceitos de teoria de redes complexas aplicados na Biologia
Sistêmica são determinados pelo grau de um vértice “i” (ki): número de arestas (conexões)
associadas ao vértice “i” por Hub – um vértice é um hub caso tenha um grau ki muito acima
da média dos graus dos demais vértices. As principais vias associadas com o
desenvolvimento humano (tais como genes envolvidos no crescimento embrionário e
proteínas metabólicas fundamentais) seriam hubs, fundamentais para a manutenção do
sistema genético. Por isso, a remoção de um hub central pode ter um impacto significativo
na rede, levando-a a perder conexões essenciais de seu funcionamento (CHO; ZHANG,
2010).
Também pode ser por agrupamento (clustering) de vias, as quais representam genes
ou proteínas que tendem a se reunir em módulos funcionais. Um vértice possui um alto
coeficiente de agrupamento (clustering) se os seus “vizinhos” tendem a se conectar. Quanto
maior a densidade de conexões entre os vizinhos de um vértice, maior o seu coeficiente de
agrupamento.
Segundo Barrera e colaboradores (2007), genes/proteínas localizados em um mesmo
módulo fortemente agrupado tendem a participar de um mesmo processo biológico. Outros
conceitos, como “brokers”, são vértices com baixíssimo coeficiente de agrupamento. Ou
seja, é considerado um broker um gene/proteína que se conecta a diversos genes/proteínas
que não se ligam entre si, apenas agem como se fossem um elo. Propõe-se, então, que um
fenótipo patológico pode ser originado a partir de uma alteração em um gene broker, em que
o gene ligado em sua porção terminal não possa ser expresso. Um último conceito diz respeito
aos Bridges, vértices que ligam grupos distintos de sub-redes dentro de um grafo. Esses
atuam como “pontes” entre esses dois agrupamentos (CAI et al., 2010).

Em relação ao funcionamento das redes de reparo de DNA em câncer, pode-se dizer
que a célula possui diferentes mecanismos de reparo para proteger o DNA contra danos,
como as quebras de cadeias de DNA ocasionadas pela radiação ultravioleta. Os sistemas de
reparo se constituem como redes genéticas especializadas nessa proteção, uma vez que
impedem que diferentes tipos de danos sejam fixados no material genético. Em células
cancerosas, essas redes podem não funcionar corretamente, resultando em uma série de
mutações. Sabe-se que os genes de uma das cinco redes de reparo, chamada de Reparo por
Excisão de Nucleotídeos (NER), não possui mutações catalogadas causalmente relacionadas
ao câncer somático. Por esse motivo, acredita-se que ela não estaria envolvida no
aparecimento de células cancerosas, assim como o reparo de excisão de base (BER), o reparo
de incompatibilidade de DNA (MMR), etc. (FUTREAL et al., 2004).
Os genes centrais desses módulos foram validados por meio de análise de
sobrevivência, enquanto as funções biológicas dos lncRNAs cruciais também foram
interpretadas a partir dos dados publicamente disponíveis. Os resultados identificaram um
módulo associado à sobrevivência com 113 genes-chave, como se observa na Figura 6, que
representa a rede de interação proteína-proteína (CHEN et al., 2019).

Figura 6 – Rede PPI (Interação Proteína-Proteína) dos genes significativos no glioblastoma
multiforme gerada através do banco de dados online STRING, onde foram selecionados
113 genes para construir a rede
.

Fonte: CHEN et al. (2019).

Em sua pesquisa, Chen e colaboradores (2019) propuseram um estudo a fim de
elucidar os principais genes codificantes e não-codificantes (lncRNAs) de RNAs, associados
ao tempo de sobrevivência de pacientes com GBM. Os perfis de expressão de RNA foram
obtidos do banco de dados do Chinese Glioma Genome Atlas e os genes reconhecidos com
análise de rede de expressão. Módulos associados com a sobrevida global foram identificados
e analisados através de ontologias genéticas e enriquecimento das vias.
Em outro exemplo de vias metabólicas pode-se citar o risco genético para o câncer de
mama, conferido por uma combinação de múltiplas variantes (CASTRO et al., 2015). Para
um melhor entendimento, examina-se se os genes associados ao risco compartilham
mecanismos reguladores. Com este intuito, foi criada uma rede reguladora (Figura 7) do gene
do câncer de mama, que compreende fatores de transcrição e grupos de genes alvo (regulons).
Seu papel é verificar se os regulons (coleção de genes sendo regulados pela mesma proteína)
específicos são enriquecidos para genes associados a lócus derisco e QTLs (via expression
quantitative trait loci).

Figura 7 – Redes genéticas demonstrando o risco de câncer de mama, representadas pelo
método de Bonferroni, através dos valores de P obtidos para cada regulon

Fonte: CASTRO et al. (2015).

No estudo, identificaram-se 36 regulons sobrepostos; estes foram enriquecidos para
locos de risco e formaram um cluster distinto dentro da rede, sugerindo biologia
compartilhada, como se observou na Figura 7. Essa identificação se deu através do método
de Bonferroni, que consiste em controlar o nível de confiança simultâneo para um conjunto
completo de intervalos, porque a chance de que pelo menos um intervalo de confiança não
contenha o parâmetro da população é maior para um conjunto de intervalos do que para um
único intervalo. Sendo assim, para compensar essa alta taxa de erro, esse método ajusta o
nível de confiança para cada intervalo individual, de forma que o nível de confiança
simultâneo resultante seja igual ao valor especificado (CASTRO et al., 2015).

2.1.4 Genotoxicidade, Citotoxicidade e Mutagênese
A célula humana, ao detectar o DNA danificado, inicia a resposta de dano ao DNA
(DDR), que permite repará-lo e evitar transmiti-lo às células-filhas. Apesar dessa solução,
mudanças no genoma ocorrem e algumas células, por exemplo as neoplásicas, são propensas
ao acúmulo de instabilidade no genoma (CHEN et al., 2012).
Há evidências de que a morte celular causada por fármacos citotóxicos contra o
câncer, em alguns casos, inclui a parada do ciclo celular de dano ao DNA. Além disso,
algumas células são capazes de sobreviver a esse processo no momento em que o genoma é
mais suscetível a mudanças ou rearranjos. Muitas vezes, a adaptação do ponto de checagem
é mal caracterizada em células humanas. Por isso, compreender essa via de instabilidade
genômica nas células cancerosas possibilitará o fornecimento de informações sobre métodos
para melhorar a eficácia das terapias atuais contra o câncer (SWIFT; GOLSTEYN, 2014).
A integridade genômica das células é frequentemente desafiada por agentes químicos
e/ou físicos que podem modificar as bases dos nucleotídeos e alterar ou quebrar o esqueleto
do açúcar-fosfato. Esses agentes que provocam o dano ao DNA podem ser classificados de
várias maneiras: como endógenos (subprodutos reativos de processos como metabolismo ou
inflamação); exógenos (agentes presentes em alimentos, água ou ar); e também físicos: luz
ultravioleta (UV), radiação ionizante ou fármacos, tais como espécies reativas de oxigênio
(ROS) (CAVALIERI et al., 2012). O tipo de dano ao DNA tem impacto no destino de uma
célula, causando morte celular ou sendo mutagênico, o que pode levar a doenças como o
câncer. Além disso, os agentes citogenotóxicos são comumentemente usados para tratar o
câncer; assim, entender como as células respondem a eles é fundamental para aumentar sua
eficácia (SWIFT; GOLSTEYN, 2014).

O Glioblastoma Multiforme (Figura 8), tipo de câncer, é uma doença complexa,
caracterizada por pelo menos seis propriedades marcantes. Duas delas são a proliferação e a
resistência à morte celular (incluindo apoptose): estas atuam em nível celular e são causadas
por alterações no genoma. A maioria das células cancerígenas se divide mais frequentemente
do que as células normais e o processo de divisão celular pode ser direcionado para tratar
pacientes com câncer. O objetivo dos compostos citotóxicos (quimioterapia) e da radiação
ionizante (radioterapia) é inibir a proliferação neoplásica, promovendo a parada do ciclo
celular e, consequentemente, a morte destas células.

Figura 8 – Glioblastoma Multiforme (GBM): Fases e Alterações

Fonte: Adaptada de Broekman et al. (2018).

Segundo o Instituto Nacional do Câncer (INCA), a taxa de reincidência de tumores
no sistema nervoso central (SNC) no Brasil, em agosto de 2019, foi de 5,62 novos casos para
cada 100 mil homens e 5,17 novos casos para cada 100 mil mulheres. Gliomas representam
o tipo histológico mais frequente (40 a 60%) dos tumores primários nesta localização, sendo
mais comum em adultos. Entre 12 a 15% dos casos de tumores malignos intracraniais são
diagnosticados como GBM. Esse é, portanto, o grau mais comum e responde por mais da
metade (50 a 60%) dos gliomas. Embora a incidência seja baixa, o prognóstico é pior que

qualquer outro tumor do SNC: apenas 5% dos pacientes ultrapassam a sobrevida de 5 anos
após o diagnóstico (VELIZ et al., 2015).
Com o avanço da intervenção neurocirúrgica, associada a sessões de quimioterapia e
radioterapia, a média de sobrevida para o glioblastoma é de menos de 15 meses após o
diagnóstico. Em caso de reincidência, estima-se uma média de 6 a 12 meses após o início do
tratamento com quimioterapia ou radioterapia utilizando-se os fármacos estudados (BAÚ,
2016).
A Temozolomida é um medicamento utilizado juntamente com a radioterapia e sua
administração tem aumentado a média de vida de pacientes com glioblastoma de 12,1 para
14,6 meses, com 27% dos pacientes vivos em 2 anos, ao invés dos 10% sem o fármaco
(BOCCARD, 2015). A Bevacizumabe atua como anticorpo monoclonal e fragmento de
anticorpos desenvolvidos para combater o fator de crescimento endotelial vascular
(KIRCHHOF, 2015). Já a Dibenzazepina é um inibidor de γ-secretase e, portanto, da via
Notch, via de tumor supressor (YEUNG, 2011).
Segundo Jiang e colaboradores (2013), a célula de origem para esses tumores ainda é
contraditória. Algumas teorias postulam que células tronco-tumorais e progenitores neurais
podem sofrer eventos de transformação maligna e até diferenciação de células maduras, como
astrócitos e oligodendrócitos, para dar origem a esses tumores. Os GBM são recidivos,
embora 10% tenham uma história clínica prévia de astrocitoma de menor grau, sendo esses
denominados de GBM secundários; essa classificação de primário ou secundário também
apresenta relação com diferentes expressões gênica e sintomas (VAN MEIER et al., 2010).
Nos últimos anos, o uso de Temozolomida (TMZ), em conjunto com a radioterapia,
tornou-se padrão no tratamento do glioblastoma devido ao seu sucesso em atravessar a
barreira sangue-cérebro (JOHNSON; O’NEILL, 2012). A radiação ionizante causa danos
indiretos ao DNA ao produzir ROS (espécies reativas de oxigênio), átomos ou moléculas que
carregam radicais livres em sua camada externa, fazendo com que sejam altamente reativos.
Para evitar a transmissão de DNA danificado para as células-filhas durante a divisão celular,
o DNA danificado deve ser reparado; é necessária, também, a ativação do ponto de
verificação do ciclo celular para interromper a sequência.
Se o dano ao DNA for irreparável, as células podem sinalizar senescência (parada de
crescimento), apoptose (morte celular programada) ou outras vias que levam à morte celular.
Os pontos de checagem de danos no DNA compreendem vias bioquímicas que retardam ou
interrompem a progressão do ciclo celular em resposta a danos e são definidos, com base na

transição em que essa progressão está sendo interrompida, como G1/S, intra-S, e G2/M
checkpoints (SANCAR et al., 2004).
Inicialmente, o termo ponto de checagem era definido como o ponto em que a
integridade do DNA era examinada, antes da progressão no ciclo celular. Posteriormente, a
denominação começou a incluir outras respostas celulares além da interrupção do ciclo, como
a indução de reparo no DNA e a apoptose. Essa maior abrangência tem base no fato de que
proteínas envolvidas no controle do ciclo celular também são capazes de levar a esses
mesmos resultados. Porém, tanto os reparos quanto a apoptose podem ocorrer
independentemente dos chekpoints (Figura 9) (ALBERTS et al., 2010).

Figura 9 – A fase G1 (do inglês gap,que significa lacuna) é o intervalo entre o término da
fase M e início da fase S. Na fase S (de síntese) ocorre a replicação do DNA nuclear, e G2 é
a fase de intervalo entre as fases S e M. A fase M é compreendida pela mitose, em que
ocorre a divisão nuclear e a citocinese, a partir da qual acontece a divisão celular

Fonte: ALBERTS et al. (2010).

Além do tratamento de radioterapia com o Temozolomida, algumas mutações podem
ou não ocorrer espontaneamente, como as provocadas por agentes físicos, químicos ou
biológicos (MATSUMOTO, 2004). As mutações podem ocorrer em dois diferentes níveis:
mutação gênica (ou mutação de ponto) e mutação cromossômica. Na mutação gênica,
ocorrem alterações em pares de bases únicos do DNA ou em um pequeno número de pares
de bases. Esse tipo de mutação pode ocorrer por substituição de pares de base – o que
possibilitará a leitura de um aminoácido diferente, modificando a proteína final – ou por
adição e deleção de pares de base. Uma única adição ou deleção desses pares pode provocar

um deslocamento no quadro de leitura, uma vez que a sequência do mRNA é lida em grupos
de 3 pares de bases (códons). Por isso, essa modificação interfere na sequência de
polipeptídeos, também modificando a proteína final (GRIFFITHS et al., 2013).
Na mutação cromossômica, ocorrem alterações em uma região cromossômica,
cromossomos inteiros ou até mesmo em grupos inteiros de cromossomos. Esse tipo de
mutação pode ser classificado como numérico – quando acarreta em alteração no número de
cromossomos da célula – ou como mutação estrutural – na qual ocorre uma mudança na
forma ou no tamanho de um cromossomo (GRIFFITHS et al., 2013).
Como visto anteriormente, o mecanismo de defesa das células às mutações tem
relação com a ativação do sistema de reparo, que pode agir diretamente no DNA, consertando
o erro. Esse sistema de reparo pode ser ativado diretamente ou após um bloqueio no ciclo
celular. Nesse caso, após o reparo do erro, a célula segue o ciclo celular. No entanto, se o
dano não puder ser reparado ou houver muitas lesões no DNA, o ciclo pode ser bloqueado
permanentemente, conduzindo ao envelhecimento da célula (senescência) ou induzindo à
apoptose (SANCAR et al., 2004).
As mutações são a fonte de variabilidade genética de uma população, sendo, portanto,
fundamentais para a manutenção das espécies. Porém, podem causar doenças tanto aos
indivíduos como a seus descendentes, dependendo da quantidade, do tipo e do local onde
ocorrem (UMBUZEIRO; VARGAS, 2003).
Os testes em eucariotos são utilizados para a detecção de uma amplitude de danos que
abrangem desde as mutações gênicas até os danos cromossômicos e aneuploidias. Já os
ensaios com procariontes, como o teste com Salmonella typhimurium, são muitos úteis para
a análise de agentes que induzem mutações gênicas ou para a identificação de danos
primários no DNA (HOUK, 1992).
Os estudos de genotoxicidade têm um papel importante no desenvolvimento de novos
fármacos (GOLLAPUDI; KRISHNA, 2000; HARTMANN et al., 2001). Por isso, devem ser
realizados nos estágios iniciais desse procedimento, a fim de prognosticar uma potencial
atividade genotóxica e/ou carcinogênica e auxiliar na obtenção de novas estruturas químicas,
menos tóxicas (GOLLAPUDI; KRISHNA, 2000; SNYDER; GREEN, 2001). Os agentes
genotóxicos podem ser definidos funcionalmente por possuírem a habilidade de alterar a
replicação do DNA e a transmissão genética. Dessa forma, as medidas de genotoxicidade
incluem, principalmente, danos no DNA e mutações ou aberrações cromossômicas
(COMBES, 1992).

Os ensaios de genotoxicidade in vitro são ferramentas sensíveis para a detecção do
dano de DNA e do potencial carcinogênico de agentes químicos ou físicos (EISENBRAND
et al., 2002). Eles podem ser avaliados pelos seguintes ensaios: teste de Ames (FERRER et
al., 2002), teste de micronúcleos (SILVA et al., 2002), ensaio do Cometa (HARTMANN,
2001), entre outros.

2.2 BIOINFORMÁTICA E NANOCIÊNCIAS
A Bioinformática pode ser definida como a conceptualização da Biologia Molecular
e a aplicação de técnicas computacionais (incluindo hardware e software) para perceber e
organizar informações associadas às funções biológicas, mais especificamente os genes.
Como uma ciência multidisciplinar, ela envolve a engenharia de softwares, a Matemática, a
Física, a Química, a Estatística, a Ciência da Computação e a Biologia Molecular, sendo
responsável por armazenar e relacionar dados biológicos com o auxílio de métodos
computacionais e algoritmos matemáticos (VERLI, 2014). A Bioinformática surgiu entre as
décadas de 60 e 70, com a publicação do trabalho “Atlas of Protein Sequence and Protein”,
de autoria de Margaret Dayhoff, pioneira em perceber processos bioquímicos utilizando o
computador. No entanto, por volta do ano de 1953, os cientistas James Dewey Watson e
Francis Crick haviam modelado, em uma estrutura de ferro e madeira, uma dupla hélice, a
fim de representar a molécula de DNA (SETUBAL, 2003). Essa modelagem foi possível por
conta da grande contribuição de Rosalind Franklin, que havia descoberto a dupla hélice do
DNA através de imagens da difração de raios-X do DNA. A publicação do seu trabalho na
revista científica Nature foi um dos grandes marcos na história da Biologia no século
passado.
A molécula de DNA contém o código hereditário (genético) de cada ser. Pelo modelo
proposto por Watson e Crick, ela é constituída por duas cadeias antiparalelas de nucleotídeos,
unidas em sequência em um espaço disposto helicoidal; ou seja, as cadeias giram em torno
de um eixo. Através desta molécula, foi possível entender como ocorrem as mutações
celulares, as codificações e a replicação das moléculas. Posteriormente, surgiram outros
métodos no sequenciamento dos polímeros de DNA, o que permitiu o estudo das formas mais
simples que o compõe. Esses polímeros, desde então, passaram a ser os principais objetos de
estudos na nova ciência, a Biologia Molecular: mais de 18 milhões dessas sequências já
foram produzidas e estão disponíveis em bancos de dados públicos (FILHO, 2002).

Juntamente com a evolução da Informática na década de 90, começaram a surgir
sequenciadores automáticos de DNA, o que aumentou consideravelmente a quantidade de
sequências genéticas a serem estudadas e armazenadas, exigindo, assim, cada vez mais
recursos computacionais para seu armazenamento e manipulação. Em outras palavras, pode-
se afirmar que somente quando os computadores estavam suficientemente munidos com uma
estrutura que pudesse processar milhões de sequências puderam-se obter resultados
significativos nas pesquisas com o genoma humano (SETUBAL, 2003).
Em sua análise, Setubal (2003) observou que, se o sequenciamento automático do
DNA tivesse sido descoberto com aproximadamente 20 anos de antecedência, não haveria
computadores com o poder de processamento suficiente para manipular e gerenciar os dados
coletados. Em uma analogia, pode-se remeter à década de 70, na qual um computador de
grande porte tinha alguns kilobytes de memória e não seria capaz de processar sequer o
genoma de um único vírus, que pode chegar a 20 kilobases (20 mil bases ou 20 KB).

Com os computadores mais velozes e de menor custo, juntamente com as pesquisas
nas áreas da biologia molecular gerando milhares de informações para serem
catalogadas e organizadas, nascia a fusão destas ciências, a bioinformática, uma
ciência que envolve diversas linhas de conhecimento, como a engenharia de
software, a matemática, física, química, estatística, a ciência da computação e a
biologia molecular. (FILHO, 2002, p. 8)

Com o surgimento dessa nova área, os primeiros pesquisadores eram basicamente
médicos, físicose outros profissionais de áreas diferentes da Biologia, que possuíam certos
conhecimentos de Informática. Segundo Filho (2002), havia uma grande dificuldade entre a
comunicação de biólogos com cientistas da computação, já que os primeiros levam em
consideração resultados como incertezas e erros, que podem ocorrer na prática, enquanto os
últimos procuram sempre uma solução direta para um problema.
Por conta dessa variante em seus métodos de pesquisa, foi preciso recorrer a um
profissional com conhecimento suficiente em ambas as áreas, que fosse capaz de identificar
um problema biológico real, analisar quais seriam suas opções e métodos de pesquisa e
desenvolver uma solução através de uma abordagem computacional para avaliar os
problemas identificados. Foi assim que surgiram os bioinformatas (VERLI, 2014).
Pode-se citar como um exemplo clássico do trabalho desse profissional na
Informática o Sistema de Gerenciamento de Banco de Dados (SGBD): é de suma importância
que esse sistema esteja disponível, a fim de suportar uma demanda robusta no gerenciamento
dessas informações que, muitas vezes, geram petabytes de dados biológicos e necessitam de

um repositório desenvolvido e seguro, bem como de um especialista que assegure essa
disponibilidade e integridade dos dados.

No início, o arquivamento de dados nesta área era realizado por grupos de pesquisa
individuais, motivado pelo interesse da ciência naqueles dados, com o aumento da
demanda por profissionais e equipamentos, juntamente com uma maior ênfase em
computação, os arquivamentos passaram a ser de responsabilidade de projetos de
grande escala. (LESK, 2008 p. 138)

De acordo com o grande sucesso do projeto Genoma Humano – na década de 90, ele
sequenciou inicialmente pouco mais de 20% (25.000 genes) do total do material genético
humano) –, a Bioinformática, mesmo enfrentando problemas por razões de limitações das
tecnologias, previa um tempo de aproximadamente 15 anos para completar a totalidade da
codificação. Contudo, em 14 de abril de 2003, foi anunciado o mapeamento total do código
genético humano: aproximadamente 3,3 bilhões de pares de nucleotídeos (NHGRI, 2017).
Com o advento da nanotecnologia, hoje é possível ir além. Pode-se estudar os
princípios fundamentais de moléculas e estruturas, nas quais pelo menos uma das dimensões
está compreendida entre cerca de 1 a 100 nanômetros. Essas organizações são conhecidas
como nanoestruturas. Essa consideração é importante na medida em que existem
propriedades fundamentais, químicas e físicas, dos materiais, que mudam conforme o
tamanho (MARCONE, 2015).
Uma das aplicações da nanotecnologia que se destaca em termos de estudos refere-se
à liberação de fármacos, principalmente na área farmacêutica, na qual são desenvolvidos
fármacos dentro de um sistema chamado liberação controlada (SBALQUEIRO et. al, 2018).
Fármacos de liberação controlada são aqueles que tem como objetivo fornecer uma dose
terapêutica de um fármaco para um local do corpo pré-determinado, mantendo a
concentração desejada de modo apropriado. O intuito desse procedimento é manter os níveis
sanguíneos em índices satisfatórios (GENNARO, 2004).

2.3 TRABALHOS RELACIONADOS
2.3.1 Construção de uma rede com a ferramenta PHP (Hipertexto pré-processado)
Em sua pesquisa, intitulada Identificação de padrões de expressão em doenças
genéticas usando uma rede de integração de vias de manutenção do genoma, angiogênese,
hipóxia e vigilância imunológica, Vieira (2016) propôs um modelo de redes de interações

entre vias de manutenção genômica e angiogênese, incluindo atividades regulatórias, hipóxia
e sistema imunológico.
O autor sugeriu estudar a atividade relativa em relação à adenoma e ao carcinoma do
córtex adrenal, manipulando dados de microarranjos e calculando a expressão das vias pela
sua atividade relativa associada ao teste Z. Vieira definiu, assim, a significância de sua
pesquisa e demonstrou quais vias estariam expressas em adenoma e carcinoma do córtex
adrenal, com a possível exibição (demonstração em grafos) da rede, com todas as vias ativas
conectadas (VIEIRA, 2016).
Após o processamento das vias e aplicação de testes estatísticos, foram exibidos os
resultados através de grafos, nos quais os nós representavam as vias e as arestas suas
interações. Através do software desenvolvido foi possível identificar as diferenças que os
organismos apresentavam nestas condições. Dessa maneira, permitiu-se a sugestão de
utilização dessa técnica para identificar as modificações que o câncer poderia apresentar nas
ocorrências de utilização de um fármaco nanoencapsulado.
A próxima etapa em seu trabalho foi identificar quais vias permaneciam conectadas
em um organismo acometido por uma doença genética. Neste ponto do estudo, o processo se
iniciou pelas amostras de valores de expressão gênica por microarranjos disponíveis em
bancos de dados biológicos, através de amostras de microarranjos, produzidos pela
Affymetrix, de tecidos doentes e saudáveis. De posse dessas informações, foi realizada uma
análise de dados para parear os conjuntos de sondas com os nomes dos genes constantes na
plataforma GPL570. Logo após, foram calculadas as médias das amostras com tecidos
doentes e tecidos saudáveis separadamente, para caracterizar a diferenciação de expressão
em cada uma das vias estudadas dentro da etapa evolutiva (normal/adenoma/câncer), por
gene (VIEIRA, 2016).
Após a identificação dos genes pertencentes às vias e com o intuito de calcular o nível
de interação de cada via na rede, buscou-se a interação das sondas que continham dois genes
de mesmo nome, mantidos os que possuíam maior diferença de expressão. Finalmente, foram
realizados os cálculos estatísticos "Z" para definir a significância da via e, como resultado,
quais vias estão significativamente expressas. Depois de chegar ao valor do ranque da via,
definindo a quantidade de ligações do nó, o próximo passo é a exibição dos grafos da rede
de interações. A Figura 10 ilustra sua metodologia (VIEIRA, 2016).

Figura 10 – Metodologia utilizada, que parte da seleção de microarranjos em bancos de
dados biológicos com amostras de tecidos doentes e saudáveis, fazendo o cruzamento
(normalização) dessas vias, realizando os cálculos estatísticos, concretizando o
ranqueamento e exibição da rede de interações através de grafos

Fonte: VIEIRA (2016).

Na construção da Rede Basal de Vieira (2016), pode-se perceber uma aglomeração
de vias distintas, como, por exemplo, a via de Apoptose. Essa aglomeração ocorre
provavelmente pelo fato de que as vias de um mesmo grupo possuem uma maior quantidade
de genes compartilhados entre si, como demonstra a Figura 11.

Figura 11 – Representação da rede basal – A formação de módulos permite observar que
há aglomerações por tipo de via, nas quais as vias de apoptose (nós vermelhos) se
concentram à esquerda, separadas das vias de reparo (amarelo) à direita pelas vias do ciclo
celular (verde)

Fonte: VIEIRA (2016).

2.3.2 PATHChange
O PATHChange é um pacote desenvolvido para a ferramenta R cujo objetivo é
realizar cálculos multiestatísticos. Ele está dividido em 4 funções: a primeira finalidade do
pacote, o PATHChangeDat, é responsável por proceder o pré-processamento dos dados, fase
em que o arquivo suplementar Matrix Series Files, disponibilizado para download no GEO,
informa quais as condições especiais a que o estudo foi submetido (FONTOURA, 2016).
Esta informação é importante porque, frequentemente, DataSets apresentam várias condições
experimentais e controles.
Convenientemente, o PATHChangeDat informa ao usuário as condições
experimentais do estudo e pergunta quais combinações ele