Buscar

REDES COMPLEXAS PARA COMPARAR PADRÕES DE EXPRESSÃO DE VIAS E PROTEÍNAS ASSOCIADAS AO DESENVOLVIMENTO E TRATAMENTO DO GLIOBLASTOMA MULTIFORME

Prévia do material em texto

UNIVERSIDADE FRANCISCANA 
 PRÓ-REITORIA DE PÓS-GRADUAÇÃO E PESQUISA 
 ÁREA DE CIÊNCIAS TECNOLÓGICAS 
Programa de Pós-Graduação em Nanociências 
 
 
 
 
 
 
HELENO CARMO BORGES CABRAL 
 
 
 
 
 
REDES COMPLEXAS PARA COMPARAR PADRÕES DE EXPRESSÃO DE 
VIAS E PROTEÍNAS ASSOCIADAS AO DESENVOLVIMENTO E 
TRATAMENTO DO GLIOBLASTOMA MULTIFORME 
 
 
 
 
 
 
 
 
 
 
 
Santa Maria, RS 
2020 
 
 
 
 
 
HELENO CARMO BORGES CABRAL 
 
 
 
REDES COMPLEXAS PARA COMPARAR PADRÕES 
DE EXPRESSÃO DE VIAS E PROTEÍNAS ASSOCIADAS AO 
DESENVOLVIMENTO E TRATAMENTO DO 
GLIOBLASTOMA MULTIFORME 
 
 
 
 
Tese apresentada ao Programa de Pós-
Graduação em Nanociências da Universidade 
Franciscana de Santa Maria, como parte das 
exigências para obtenção do título de Doutor 
em Nanociências, na área de Biociências e 
Nanomateriais. 
 
 
 
 Orientador: Prof. Dr. ÉDER MAIQUEL SIMÃO 
Co-orientador: Prof. Dr. JOSÉ LUIZ RYBARCZYK FILHO 
 
 
 
 
 
 
Santa Maria, RS 
2020 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 Elaborada pela Bibliotecária Eunice de Olivera CRB 10/1491 
 
C117r Cabral, Heleno Carmo Borges 
 Redes complexas para comparar padrões de expressão de 
 vias e proteínas associadas ao desenvolvimento e tratamento do 
 Glioblastoma Multiforme / Heleno Carmo Borges Cabral ; 
 orientação Éder Maiquel Simão ; coorientação José Luiz 
 Rybarczyk Filho – Santa Maria : Universidade Franciscana – 
 UFN, 2020. 
 95 f. : il. 
 
 Tese (Doutorado em Nanociências) Programa de Pós- 
 Graduação em Nanociências – Universidade Franciscana UFN 
 
 1. Rede de vias metabólicas 2. Análise de vias 3. Câncer 
 I. Simão, Éder Maiquel II. Rybarczyk Filho, José Luiz 
 III.Título 
 CDU 62 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Se vi mais longe, foi por estar 
 sobre os ombros de gigantes. 
(Isaac Newton) 
 
 
 
AGRADECIMENTOS 
 
Dedico meus agradecimentos a todos que, de alguma forma, colaboraram com a realização 
deste trabalho: 
– a Deus, sou grato por todas as oportunidades que me foram dadas; 
– aos colegas de pós-graduação da UFN; 
– aos demais professores do doutorado em Nanociências, que colaboraram na minha 
formação acadêmica; 
– aos meus familiares, pelo apoio em minhas decisões. Um agradecimento especial a minha 
esposa, Maíra, e a minha filha, Luiza Helena, pelo apoio incondicional nas horas de 
incertezas; 
– ao Prof. Dr. José Luiz Rybarczyk Filho, pela co-orientação neste trabalho. Também 
agradeço à Profa. Dra. Agnes Takeda. Estendo meu muito obrigado, ainda à André Molan, à 
Giordano Seco e a todos os amigos que fiz no laboratório de Biocomplexidade do Depto. de 
Física e Biofísica da UNESP, campus Botucatu, que tiveram paciência em me transmitir o 
conhecimento em R que foi de fundamental importância: sem o auxílio dessas pessoas eu 
não teria êxito neste trabalho; 
– ao Prof. Dr. Éder Maiquel Simão, pela orientação, tolerância, paciência, amizade e 
ensinamentos; 
- aos ex-coordenadores do Programa de Pós-Graduação em Nanociências, profa. Dra. Ivana 
Zanella e prof. Dr. Sérgo Mortari, e ao coordenador, prof. Dr. Alencar Kolinski, por todo o 
apoio que recebi ao longo deste doutoramento. 
- aos colegas e amigos Ana Júlia Dalmolin, Bruna Guerino, Bruna Pedrolo e aos profs. Dr. 
Giovani Rubert Librelotto e Dra. Michele Rorato Sagrillo pela constante ajuda e participação 
neste trabalho. 
 
 
 
RESUMO 
O grande desafio da era pós-genômica na Biologia é a compreensão da estrutura e do 
comportamento de redes complexas de interações moleculares que controlam o desempenho 
das células. Isto impõe a procura por métodos inovadores para tratar estes dados, com a 
finalidade de melhorar o entendimento dos processos biológicos que ocorrem intra e 
extracelularmente. Na presença de doenças, há variações dos fenótipos celulares, o que acaba 
por modificar todo o processo de análise. Este varia também na presença de fármacos 
distintos: medicamentos que, além de promoverem alterações celulares, provocam efeitos 
clínicos que poderão ser analisadas por diferentes métodos. Por consequência, pode-se 
identificar quais vias metabólicas estão expressas em um organismo que apresenta uma 
doença genética. Esse procedimento engloba métodos analíticos que incluem, por exemplo, 
a atividade dessas vias: verifica-se sua interação com outras vias, identificando, assim, os 
genes presentes em determinadas situações. Neste contexto, é possível interligar as vias e 
melhorar a compreensão das interações biológicas na ausência ou na presença de uma 
determinada doença. Para isso, utilizam-se ferramentas como a linguagem R, seus pacotes e 
scripts disponíveis. Cabe ressaltar que, mesmo com a emergência das novas tecnologias, 
ainda se percebe obstáculos na terapia. Um dos exemplos desses empecilhos é a barreira 
sangue-cérebro, que impede a livre difusão da maioria das moléculas com propriedades de 
antígenos, incluindo os medicamentos quimioterápicos. O objetivo deste trabalho é promover 
o estudo de redes de interação, no intuito de dar subsídios para o entendimento de como as 
vias se comportam quando induzidas a diferentes tipos de tratamentos e métodos. Pretende-
se, com isso, contribuir para o desenvolvimento de novos fármacos nanoencapsulados. Para 
a concretização deste estudo, foram utilizadas amostras de glioblastoma multiforme versus 
normal, extraídas de microarranjos do banco de dados Gene Expression Omnibus. As análises 
de expressão e o desenvolvimento da ferramenta foram obtidos através de códigos utilizando 
a linguagem R. Dentre as amostras, destacam-se o uso dos fármacos Bevacizumabe (BEV), 
Dibenzazepina (DBZ) e Temozolomida (TMZ), administrados juntamente ao tratamento com 
radioterapia. Os resultados preliminares consistiram na construção de uma rede basal com 
104 vias metabólicas, selecionadas a partir de critérios pré-estabelecidos. Com a análise de 
expressão do glioblastoma tratado, observou-se que a via receptora de quimiocinas está 
diretamente ligada à presença do fármaco no glioblastoma. 
 
Palavras-chave: Rede de vias metabólicas, análise de vias, câncer. 
 
 
 
 
ABSTRACT 
 
The great challenge of the post-genomic era in biology is the understanding of the structure 
and behavior of complex networks of molecular interactions that control the behavior of cells. 
This imposes, the search for innovative methods to treat these data in order to improve the 
understanding of the biological processes that occur intra and extracellular. In the presence 
of diseases, there are variations in cellular phenotypes, which changes the entire analysis 
process, as this process also varies in the presence of different drugs, involving drugs that, in 
addition to promoting cellular changes, cause clinical consequences that can be analyzed by 
different methods. Consequently, in an organism that has a genetic disease, it is possible to 
identify which metabolic pathways are inhibited through analytical methods that involve, for 
example, the activity of metabolic pathways, verifying their interaction with other pathways, 
thus identifying the genes present in certain situations In this context, it is possible to 
interconnect the pathways and improve the understanding of biological interactions in theabsence or presence of a certain disease, using tools such as the R language and its available 
packages and scripts. Even with the use of new technologies, obstacles in therapy are still 
perceived, such as the blood-brain barrier, which prevents the free diffusion of most 
molecules with antigen properties, including chemotherapy drugs. The objective of this work 
is to promote the study of interaction networks, proposing to provide support for 
understanding how the pathways behave when induced to different types of treatments and 
methods, thus contributing to the development of new nanoencapsulated drugs. For the 
development of this study, samples of glioblastoma multiforme versus normal extracted from 
microarrays in the Gene Expression Omnibus database were used. The analysis of expression 
and the development of the tool were obtained through codes using the language R. Among 
the samples, the use of the drugs Bevacizumab, Dibenzazepine and Temozolomide 
(administered together with the treatment with radiotherapy) stands out. The preliminary 
results consisted of the construction of a basal network with 104 metabolic pathways selected 
from pre-established criteria. With the analysis of expression of the treated glioblastoma, it 
was observed that the chemokine receptor pathway is directly linked to the presence of the 
drug in the glioblastoma. 
 
Keywords: network of pathways, analysis of pathways, metabolic pathways, cancer 
 
 
 
 
 
LISTA DE FIGURAS 
 
Figura 1 – Estrutura do DNA. As faixas cinzas representam as duas cadeias de açúcar-
fosfato, os pares de bases (Adenina e Timina, Guanina e Citosina) formam conexões 
horizontais entre as cadeias, as quais correm em direções opostas ...................................... 23 
Figura 2 – Tipos de RNA: Mensageiro, Ribossômico e Transportador .............................. 24 
Figura 3 – Fluxo de informação na célula. No processo de replicação do DNA, envolve a 
participação de várias enzimas, dentre elas a polimerase, que atuam no processo de uma nova 
molécula de DNA; a transcrição é processo onde o DNA é copiado (transcrito); o processo 
de tradução consiste em unir os aminoácidos de acordo com a sequência de códons do RNA 
mensageiro ............................................................................................................................ 25 
Figura 4 – Código genético padrão. A matriz apresenta as três bases do códon, sendo que a 
metionina indica o início da codificação de uma proteína (detalhe em verde) e outros três 
códons indicam o final dessa codificação (detalhe em vermelho) ....................................... 26 
Figura 5 – Representação gráfica proposta por Barabási e Oltvai (2004) da rede metabólica 
onde os nós representam os substratos que estão ligados uns aos outros através de conexões 
que são as reações metabólicas ............................................................................................. 28 
Figura 6 – Rede PPI (Interação Proteína-Proteína) dos genes significativos no glioblastoma 
multiforme gerada através do banco de dados online STRING, onde foram selecionados 113 
genes para construir a rede ................................................................................................... 30 
Figura 7 – Redes genéticas demonstrando o risco de câncer de mama, representadas pelo 
método de Bonferroni, através dos valores de P obtidos para cada regulon ........................ 31 
Figura 8 – Glioblastoma Multiforme (GBM): Fases e Alterações ...................................... 33 
Figura 9 – A fase G1 (do inglês gap, que significa lacuna) é o intervalo entre o término da 
fase M e início da fase S. Na fase S (de síntese) ocorre a replicação do DNA nuclear, e G2 é 
a fase de intervalo entre as fases S e M. A fase M é compreendida pela mitose, em que ocorre 
a divisão nuclear e a citocinese, a partir da qual acontece a divisão celular ........................ 35 
Figura 10 – Metodologia utilizada, que parte da seleção de microarranjos em bancos de 
dados biológicos com amostras de tecidos doentes e saudáveis, fazendo o cruzamento 
(normalização) dessas vias, realizando os cálculos estatísticos, concretizando o 
ranqueamento e exibição da rede de interações através de grafos ....................................... 41 
Figura 11 – Representação da rede basal – A formação de módulos permite observar que há 
aglomerações por tipo de via, nas quais as vias de apoptose (nós vermelhos) se concentram 
 
 
 
 
à esquerda, separadas das vias de reparo (amarelo) à direita pelas vias do ciclo celular (verde)
 .............................................................................................................................................. 42 
Figura 12 – Representação do PATHChange – quatro funções estruturam o pacote, sendo 
elas: PATHChangeDat, responsável pelo pré-processamento dos dados; PATHChangeList, 
que faz a seleção das vias estudadas; PATHChange, função principal do pacote que realiza 
os cálculos da atividade da via aplicando os testes estatísticos; e PATHChangeVenn, que 
apresenta os resultados da análise da função PATHChange em forma de diagramas de Venn
 .............................................................................................................................................. 44 
Figura 13 – Representação do pacote ADAM. A primeira coluna, à esquerda, representa os 
módulos principais, enquanto a segunda coluna apresenta quadros explicando cada um dos 
módulos ................................................................................................................................ 46 
Figura 14 – Estrutura da metodologia. Serão usadas amostras normalizadas de GBM e 
controle extraídas do banco de dados GEO, além de amostras de vias extraídas do banco de 
dados Reactome. As amostras serão analisadas com um pacote de dados e, em seguida, será 
construída uma rede de interações de vias ............................................................................ 53 
Figura 15 – Detalhamento dos processos realizados através ferramenta ............................ 56 
Figura 16 – Arquitetura estrutural da Ferramenta em R desenvolvida................................ 59 
Figura 17 – Representação da rede basal, sem interação de doenças, no seu estado puro, na 
qual percebe-se que os nós mais conectados estão mais próximos e os vértices de ligação 
mais espessos ........................................................................................................................ 60 
Figura 18 – Representação da rede de vias da amostra de Glioblastoma tratado com 
Bevacizumabe, gerada através do pacote igraph da ferramenta R. Nela, R-HSA-380108 
corresponde a Chemokine receptors bind chemokines; (R-HSA-6783783): Interleukin-10 
signaling; (R-HSA-1592389): Activation of Matrix Metalloproteinases; (R-HSA-1566948): 
Elastic fibre formation; e (R-HSA-210991): Basigin interactions ....................................... 67 
Figura 19 – Representação da rede da amostra de Glioblastoma tratado com Bevacizumabe, 
gerado através do pacote igraph da ferramenta R. Nesta, R-HSA-1461973 corresponde a via 
Defensins; R-HSA-6783783: Interleukin-10 signaling; e R-HSA-380108: Chemokine 
receptors bind chemokines ................................................................................................... 69 
Figura 20 – Representação da rede da amostra de Glioblastoma tratado com Dibenzazepina, 
gerado através do pacote igraph da ferramenta R, com suas respectivas vias envolvidas ... 70 
Figura 21 – Representação da rede da amostra de cérebro normal versus Astrocitoma ..... 71 
Figura 22 – Representação da rede da amostra de cérebro normal versus Glioblastoma ... 72 
 
 
 
Figura 23 – Representação da rede basal, sem interação de doenças, no seu estado puro, na 
qual percebe-se que os nós mais conectados estão mais próximos e os vérticesde ligação 
mais espessos ........................................................................................................................ 90 
Figura 24 – Representação da rede da amostra de Glioblastoma tratado com Bevacizumabe, 
gerado através do pacote igraph da ferramenta R. Nela, R-HSA-380108 corresponde a 
Chemokine receptors bind chemokines; (R-HSA-6783783): Interleukin-10 signaling; (R-
HSA-1592389): Activation of Matrix Metalloproteinases; (R-HSA-1566948): Elastic fibre 
formation; e (R-HSA-210991): Basigin interactions ............................................................ 91 
Figura 25 – Representação da rede da amostra de Glioblastoma tratado com Bevacizumabe, 
gerado através do pacote igraph da ferramenta R. Nela, R-HSA-1461973 corresponde a via 
Defensins; R-HSA-6783783: Interleukin-10 signaling; e R-HSA-380108: Chemokine 
receptors bind chemokines ................................................................................................... 92 
Figura 26 – Representação da rede da amostra de Glioblastoma tratado com Dibenzazepina, 
gerado através do pacote igraph da ferramenta R com suas respectivas vias envolvidas .... 93 
Figura 27 – Representação da rede da amostra de Cérebro Normal versus Astrocitoma ... 94 
Figura 28 – Representação da rede da amostra de Cérebro Normal versus Glioblastoma .. 95 
 
 
 
 
LISTA DE TABELAS 
 
Tabela 1 – Relação das 104 vias ......................................................................................... 61 
Tabela 2 – Arquivo gerado com os P-Valores extraídos através do pacote Limma ............ 65 
Tabela 3 – Arquivo gerado com os enriquecimentos estatísticos através do pacote ADAM
 .............................................................................................................................................. 66 
 
 
 
 
 
LISTA DE ABREVIATURAS E SIGLAS1 
 
BER Reparo de Excisão de Base 
BioPax Biological Pathway Exchange 
BVZ Bevacizumabe 
CRAN Comprehensive R Archive Network 
DBZ Dibenzazepina 
DDR Resposta ao dano de DNA 
DEG Differential Expression Genes 
FDA Food and Drug Administration 
FDR Taxa de Falso Positivo 
GBM Glioblastoma Multiforme 
GEO Gene Expression Omnibus 
GFAG Grupos de Genes Funcionalmente Associados 
GO Gene Ontology 
HUGO Human Genome Organization 
KB KiloBytes 
KEEG Kyoto Encyclopedia of Genes and Genomes 
LogME Logaritmo de Mudança de Expressão (fold change) 
MMR Reparo de Bases Mal Pareadas 
NER Reparo por Excisão de Nucleotídeos 
NGS Sequenciamento de Nova Geração 
PCL Policaprolactona 
PCR Reação em Cadeia da Polimerase 
PDT Terapia Fotodinâmica 
PHP Hipertexto Pré-Processado 
PLA Poliácido Lático 
PLGA Poliácido Lático-co-ácido Glicólico 
PPI Redes de Interações de Proteínas 
PTT Terapia Fototérmica 
RMA Média Robusta para Múltiplos Chips 
ROS Espécies Reativas ao Oxigênio 
 
1
A lista com as vias está no Anexo I. 
 
 
 
 
 
SBML System Biology Markup Language 
SGBD Sistema Gerencial de Banco de Dados 
SNC Sistema Nervoso Central 
TMZ Temozolomide 
 
 
 
 
 
 
 
 
SUMÁRIO 
 
1 INTRODUÇÃO ............................................................................................................... 16 
1.2 JUSTIFICATIVA ...........................................................................................................18 
1.2 INTERDISCIPLINARIDADE .......................................................................................19 
1.3 OBJETIVOS .................................................................................................................. 19 
1.3.1 Objetivo Geral ........................................................................................................... 19 
1.3.2 Objetivos específicos ................................................................................................. 19 
2 REVISÃO BIBLIOGRÁFICA .......................................................................................20 
2.1 GENÉTICA .................................................................................................................... 20 
2.1.1 Expressão Gênica ...................................................................................................... 20 
2.1.2 Síntese Proteica ..........................................................................................................22 
2.1.3 Vias Metabólicas ........................................................................................................27 
2.1.4 Genotoxicidade, Citotoxicidade e Mutagênese ....................................................... 32 
2.2 BIOINFORMÁTICA E NANOCIÊNCIAS ...................................................................37 
2.3 TRABALHOS RELACIONADOS ................................................................................39 
2.3.1 Construção de uma rede com a ferramenta PHP (Hipertexto pré-processado) . 39 
2.3.2 PATHChange ............................................................................................................ 42 
2.3.3 Activity and diversity analysis module (ADAM) …………………………………...44 
2.4 TERAPIAS .....................................................................................................................47 
2.4.1 Terapias Através da Nanotecnologia .......................................................................47 
2.4.2 Nanotecnologia Aplicada à Terapia Gênica ........................................................... 48 
2.5 PROGRAMAÇÃO ENVOLVENDO “R” ..................................................................... 50 
2.5.1 Análises Estatísticas usando a Ferramenta R .........................................................50 
2.5.2 Bancos de Dados ........................................................................................................ 51 
3 METODOLOGIA ........................................................................................................... 53 
3.1 EXPRESSÃO GÊNICA ................................................................................................. 53 
3.1.1 Microarranjos ............................................................................................................54 
3.1.2 Amostras e Tratamento ............................................................................................ 54 
3.2 VIAS METABÓLICAS ................................................................................................. 55 
3.2.1 Rede Basal .................................................................................................................. 56 
3.2.2 Análises Estatísticas .................................................................................................. 57 
3.2.4 Diferenciação da Expressão ..................................................................................... 57 
3.2.5 Construção das Redes ............................................................................................... 59 
4 RESULTADOS ................................................................................................................64 
4.1 REDE EXPRESSA ........................................................................................................ 64 
4.1.1 Amostras de Glioblastoma Tratado com Bevacizumabe .......................................64 
4.2.2 Amostras de Glioblastoma Tratado com Bevacizumabe e Dibenzazepina .......... 68 
CONCLUSÃO .................................................................................................................... 74 
REFERÊNCIAS ................................................................................................................. 74 
ANEXO I – NOME DAS VIAS E REPECTIVOS IDENTIFICADORES ................... 83 
ANEXO II – SCRIPT DE DESENVOLVIMENTO DA REDE BASAL ...................... 89 
ANEXO III – REDE BASAL ATRAVÉS DO SOFTWARE CYTOSCAPE .................90 
ANEXO IV – FIGURAS 20, 21, 22, 23E 24 GERADAS PELO SCRIPT EM R ......... 91 
 
 
 
16 
 
1 INTRODUÇÃO 
Desde as descobertas de Frederik Sanger (1969), responsável pelo sequenciamento 
da insulina entre as décadas de 40 e 50, pôde-se verificar que as proteínas não eram apenas 
arranjos simples, uma vez que não possuíam estrutura definida. Stanford Moore e William 
Stein (1973) foram os precursores em introduzir a automatização computacional para 
sequenciar os 124 aminoácidos da ribonuclease. Com isso, atingiram a metade do tempo 
utilizado pela equipe de Sanger ao sequenciar os 51 aminoácidos da insulina. 
Na segunda metade da década de 1960, Pehr Edman cria o “sequenciador”, uma 
máquina de sequenciamento totalmente automatizada. A partir de então, muitos laboratórios 
foram encorajados a iniciarem o sequenciamento de proteínas e a armazenarem seus 
resultados (EDMAN, 1967). Foi, no entanto, o pesquisador e biofísico Cyrus Levinthal 
(1966) e sua equipe do Instituto de Tecnologia de Massachusetts (MIT) os precursores na 
utilização de computadores de grande porte para construir modelos tridimensionais de uma 
pequena proteína: o Citocromo C. 
O Projeto Genoma Humano teve seu início no final da década de 80, sendo finalizado 
14 anos depois. Ele foi o resultado da revolução científica que ocorreu durante os últimos 30 
anos do período, quando a Biologia Molecular passou a andar de mãos dadas com a 
Informática. Essa fusão deu origem à Bioinformática, que tornou possível armazenar, 
calcular e interpretar dados gigantescos. No entanto, as tentativas de trazer respostas 
acabaram por abrir portas para muitas novas perguntas. Originou-se, dessa maneira, o que 
hoje se denomina como a “Era Pós Genômica”. Neste período, se constatou que as 
características expressas pelos seres vivos, que os diferenciam entre indivíduo, espécie, 
gênero, classe, ordem, filo e reino, não são somente provenientes de diferenças na sequência 
de bases nitrogenadas do DNA (Adenina (A), Timina (T), Citosina (C) e Guanina (G)): são 
também determinadas pela epigenética (PEREIRA, 2011). 
A compreensão da estrutura e do comportamento de redes complexas de interações 
moleculares que controlam o desempenho das células ainda é um dos grandes desafios para 
os biólogos dessa era pós-genômica (BARABÁSI; OLTVAI, 2004). O tamanho e a 
complexidade dos dados biológicos coletados incluem informações que requerem uma 
abordagem integradora (UETZ; IDEKER; SCHWIKOWSKI, 2002). Isso impõe a procura 
por métodos inovadores para tratar esses dados, com a finalidade de melhorar o entendimento 
dos processos biológicos que atuam no interior da célula. Na presença de doenças, há 
 
17 
 
variações dos fenótipos celulares, o que muda todo o processo de análise. Esse varia também 
na presença de fármacos distintos, como o Bevacizumabe, Dibenzazepina e Temozolomida, 
estudados nesse trabalho. 
Dentre os tratamentos contra o câncer, destacam-se os quimioterápicos, cujos efeitos 
colaterais podem incluir como náuseas, vômitos, lesões no esôfago, má nutrição, fraturas, 
desequilíbrio hidroeletrolítico e acidobásico (SAWADA et al., 2009). A forma de atuação 
desses fármacos no organismo e suas consequências podem ser avaliadas pelos métodos de 
análise da expressão gênica. Dentre eles, estão o método de reação em cadeia da polimerase 
em tempo real (PCR Real Time), os microarranjos (que são utilizados para medir grandes 
quantidades simultâneas de níveis de expressão de transcritos e constituem conjuntos 
ordenados de milhares de moléculas de DNA organizadas em oligonucleotídeos) e o 
RNTeASeq, que consiste no uso de NGS (Next-Generation Sequencing - Próxima Geração 
de Sequenciamento) para sequenciar o cDNA (DNA complementar), com a intenção de 
capturar a informação do transcriptoma de um organismo. Ao contrário de outras técnicas, 
como o PCR Real Time, o RNASeq não necessita de uma lista pré-definida dos genes que se 
deseja detectar (WANG et al., 2009). 
Devido às inúmeras informações coletadas por esses métodos de análise da expressão 
gênica, existem vários repositórios de dados desses transcritos. O principal e o mais 
conceituado deles é o GEO (Gene Expression Omnibus), no qual se encontram milhares de 
amostras de transcritos envolvidos em várias doenças genéticas (SIMÃO et al., 2012). 
Analisando a ocorrência dos genes comuns e da quantidade deles nessas vias têm-se 
a interação via-via, que pode ser evidenciada em uma rede de interações, como proposto por 
Vieira (2016). Porém, com o uso da ferramenta R, conectando pacotes do Bioconductor, 
aprimora-se todas as fases em apenas uma linguagem de programação, interligando as vias e 
melhorando a compreensão das interações biológicas na ausência ou na presença de uma 
determinada doença (KESSLER; HACHE; WIERLING, 2013). 
A terapêutica do câncer ainda é um desafio (BREGOLI et al., 2009). Com o avanço 
nos tratamentos utilizando fármacos nanoencapsulados há também um eminente crescimento 
das pesquisas envolvendo a ativação de proteínas responsáveis pela regulação de doenças 
genéticas, a fim de ultrapassar a barreira endotelial e se acumular especificamente nas 
células-alvo, sem causar danos às células normais (PAVON; OKAMOTO, 2007). 
Para tais experimentos, serão utilizados dados de Glioblastoma Multiforme (GBM), 
tipo mais comum e agressivo de tumor cerebral primário maligno em adultos. Para combater 
 
18 
 
o glioblastoma, juntamente com a radioterapia e a quimioterapia, utilizam-se fármacos como 
a Temozolomida, Bevacizumabe e a Dibenzazepina. 
Grandes estudos visando o entendimento molecular desses tumores vêm sendo feitos, 
sendo o GBM selecionado como um dos três primeiros cânceres a serem sequenciados pelo 
projeto do “Atlas do Genoma do Câncer” (The Cancer Genome Atlas, TCGA), do National 
Institutes of Health’s (NIH), dos Estados Unidos. Por conta dos diversos estudos que se 
debruçam sobre esse assunto, esse tipo é também um dos tumores com maior entendimento 
a nível molecular. Esses esforços resultaram na identificação de fatores moleculares de 
prognóstico e de vulnerabilidade que podem ser alvo no desenvolvimento de novos 
tratamentos e no entendimento dos fatores envolvidos com a gliomagênese (WEATHERS; 
GILBERT, 2016). 
 
1.2 JUSTIFICATIVA 
Através das análises de expressão gênica das patologias, é possível observar as 
alterações genéticas de proteínas e vias metabólicas específicas, como também verificar qual 
a melhor maneira de realizar a abordagem terapêutica. Uma das motivações para estudar a 
expressão de proteínas ligadas ao desenvolvimento do GBM é a produção de novos tipos de 
tratamentos envolvendo nanotecnologia. Isso porque os nanocarreadores subvertem alguns 
obstáculos da terapia, como a barreira sangue-cérebro, que impede a livre difusão da maioria 
das moléculas estranhas, incluindo agentes terapêuticos (LEE et al., 2013 apud BAÚ, 2016). 
Uma das novas abordagens revolucionárias para terapias é a interferência de RNA 
(iRNA - RNA de interferência) pelo uso de nanomateriais, para terapia genética ou 
geneterapia (MASSADEH et al., 2016). No entanto, o principal obstáculo que dificulta a 
realização de tais terapias é a entrega in vivo de fragmentos de RNAi, a fim de assegurar que 
o material liberado não seja afetado pela resposta indesejável do sistema imune 
(MASSADEH et al., 2016). A integração de diferentes análises de proteínas e vias usando a 
linguagem de programação R possibilita a visualização de vias significativamente alteradas 
através de redes de interação, com o intuito de contribuir para o desenvolvimento de novos 
fármacos nanoencapsulados. Ela também dá subsídio para o entendimento de como as vias 
se comportam quando induzidas a diferentes tipos de tratamentos e métodos. 
 
 
19 
 
1.2 INTERDISCIPLINARIDADE 
Conceitua-se por interdisciplinaridade um conjunto de disciplinas trabalhadas 
simultaneamente, sem que se apresente as suasdiferenças. O objetivo é a construção de um 
sistema de um só nível e de objetivos comuns, não atrelados a uma disciplina específica 
(MENEZES; SANTOS, 2002). De acordo com esse conceito, recorre-se às informações de 
várias definições, de diferentes disciplinas (como a Genética, a Biologia, a Bioquímica e a 
Computação), para estudar um caso determinado, sem a preocupação de interligá-las entre 
si. 
Neste caso, a Computação surge como uma ferramenta de auxílio na compilação da 
grande quantidade de informações que a Genética apresenta. Assim, cada disciplina em 
particular contribuiu para a realização deste trabalho em tarefas como a de entender o 
funcionamento da Biologia Celular, utilizar fórmulas físicas e matemáticas para fins 
estatísticos, analisar a farmacologia dos nanoencapsulados, dentre outras. 
 
1.3 OBJETIVOS 
1.3.1 Objetivo Geral 
O objetivo deste trabalho é integrar diferentes ferramentas de análises de proteínas e 
vias, usando a linguagem de programação R para investigar os padrões de expressão de vias 
e proteínas de glioblastoma multiforme e glioblastomas tratados. 
 
1.3.2 Objetivos específicos: 
● Investigar os microarranjos de GBM (GBM tratado e GBM normal) no banco 
de dados Gene Expression Omnibus; 
● Incorporar vias metabólicas específicas, extraídas do banco de dados 
Reactome; 
● Analisar as amostras de microarranjos com as vias metabólicas, usando a 
ferramenta R e seus métodos estatísticos; 
● Desenvolver a rede de interação das vias metabólicas, com a inserção das 
análises estatísticas pela ferramenta ADAM (do inglês: Activity and Diversity 
Analysis Module). 
 
 
 
 
20 
 
2 REVISÃO BIBLIOGRÁFICA 
2.1 GENÉTICA 
2.1.1 Expressão Gênica 
A expressão gênica ou transcriptoma (transcrição do DNA) é síntese do RNA a partir 
de um molde de DNA, usando as regras da complementaridade. A transcrição de um 
segmento se inicia quando a RNA polimerase reconhece as sequências específicas de 
nucleotídeos em uma região especial no início do gene, denominada promotor, e liga-se a 
elas (ALBERTS et al., 2010). 
Além destas sequências, o promotor engloba o ponto de início como sendo o primeiro 
par de bases a ser transcrito em RNA. A partir daí, a RNA polimerase move-se ao longo do 
molde, sintetizando RNA até alcançar outra sequência específica, que sinaliza o término da 
transcrição. Ou seja, a unidade de transcrição estende-se do ponto de início, no promotor, até 
o terminador (LAMBERT, 2009). 
Existem muitos bancos de dados essenciais para o armazenamento e gerenciamento 
das expressões de proteínas em diversas doenças. O banco de dados Gene Expression 
Omnibus (GEO) é um repositório público funcional de dados usado para armazenar 
transcriptomas (EDGAR et al., 2002). O banco de dados GEO, até agosto de 2019, era 
composto por 3.177.708 amostras e 19.991 plataformas, divididas em mais de 116 mil 
estudos (microarranjos) diferentes, estando em crescente atualização e inserção de dados 
(GEO, 2019). O GEO é considerado o maior banco de dados de expressão gênica, incluindo 
vários organismos e doenças distintas. Nele, estão depositados transcriptomas fabricados por 
diversas empresas, das quais destaca-se a Affymetrix Gene Chip, fundada em 1992 por 
Stephen Fodor, cujo objetivo é fabricar microarranjos de DNA (GÖHLMANN; TALLOEN, 
2010). 
A expressão gênica corresponde a vários eventos e se inicia pela transposição do 
transcrito no núcleo até a tradução do mRNA no ribossomo em proteína. Assim, a expressão 
gênica corresponde ao processo em que a informação codificada por um determinado gene é 
compilada em uma molécula. Com algumas exceções, as células que constituem o organismo 
humano possuem a mesma carga genética, ou seja, o mesmo DNA. O que diferencia dois 
grupos celulares morfologicamente distintos são os genes expressos e os níveis de expressão 
desses genes. Para medir os níveis de expressão dos genes são usadas várias técnicas 
experimentais e uma delas – os microarranjos – se destaca na Biologia Sistêmica desde a sua 
descoberta, em 1982. Os microarranjos são usados para medir grandes quantidades 
 
21 
 
simultâneas de níveis de expressão de transcritos e consistem em conjuntos ordenados de 
milhares de moléculas de DNA organizadas em sondas (SIMÃO et al., 2012). 
Praticamente todas as células possuem o mesmo material genético, ou seja, cerca de 
100.000 genes, dos quais apenas uma fração deles, em cada célula, expressa proteínas. A 
maioria dos genes normalmente está suprimida e sua ativação depende de uma série de 
fatores, tanto endógenos (hormônios e fatores de crescimento) quanto exógenos (influência 
do meio ambiente). Esse processo de síntese proteica envolve a ativação de genes específicos, 
bem como sua transcrição e tradução (STRACHAN e READ, 2006). 
A regulação da expressão de novas proteínas se dá principalmente no nível da 
tradução, e não da transcrição, do gene em questão (ZOPPI, 2005). Na década de 80, passou-
se a utilizar a técnica de reação em cadeia da polimerase (PCR), que possibilita fazer milhares 
de cópias de um único pedaço de DNA através de tubos de ensaio contendo o DNA e mais 
alguns compostos necessários, como primers e a enzima DNA-polimerase. 
O PCR em tempo real permite, assim, o acompanhamento da reação e apresenta 
resultados de forma precisa, rápida e quantitativa. Esse método realiza a síntese de 
fragmentos de DNA usando a enzima DNA-polimerase, a mesma que participa da replicação 
do material genético nas células. Essa enzima sintetiza uma sequência complementar de 
DNA, desde que um pequeno fragmento (o iniciador, ou primer) esteja ligado a uma das 
cadeias do DNA no ponto escolhido para o início da síntese. Os iniciadores definem a 
sequência a ser replicada e o resultado obtido é uma amplificação de uma determinada 
sequência do DNA com bilhões de cópias. Outra aplicação para o PCR é a clonagem de um 
determinado fragmento de DNA, que pode ser um gene, e o reconhecimento do DNA 
codificante (cDNA), obtido a partir da molécula de RNA, o que permite o estudo da 
expressão de genes. O PCR realiza a quantificação de ácidos nucleicos de maneira precisa e 
com maior reprodutibilidade porque determina valores durante a fase exponencial da reação 
(NOVAIS; PIRES-ALVES e SILVA, 2004). 
Outra técnica em destaque, que envolve as tecnologias de sequenciamento de nova 
geração, é a RNA-Seq. Sua ampla utilização faz com que o método seja inovador em 
pesquisas de transcriptomas. Além de proporcionar uma maior sensibilidade das técnicas 
anteriores, como por exemplo os microarrays, o RNA-Seq não necessita de uma lista pré-
definida dos genes que se deseja detectar e, portanto, não se limita apenas à avaliação de 
genes para os quais existam sondas (BULLARD et al., 2010, MARIONI et al., 2008). A 
princípio, qualquer transcrito que esteja sendo expresso pode ser detectado através desta 
 
22 
 
técnica. Com isso, novas informações são geradas e analisadas por softwares específicos, 
tornando esses dados mais claros aos observadores. Dessa forma, os pesquisadores podem 
utilizar as informações obtidas em novas investigações e comparações de organismos. O 
RNA-Seq permite, ainda, o estudo de vários fenômenos biológicos, incluindo polimorfismo 
de nucleotídeo único (SNP), eventos epigenéticos, splicing alternativo e o estudo de 
interações proteína-DNA (SOUZA, 2015). 
 
2.1.2 Síntese Proteica 
Segundo Carvalho e colaboradores (2012), as proteínas constituem mais de 50% da 
massa total de uma célula. Sua síntese tem uma fundamental importância para a manutenção 
e o crescimento celular. A síntese proteica ocorre nos ribossomos e envolve vários tipos de 
moléculas de RNA (ácido ribonucleico), que atuam nas diversas etapas do processo. 
Primeiramente, uma molécula de RNA mensageiro (RNAm) é sintetizada a partir de uma das 
cadeias do DNA (ácido desoxirribonucleico), para codificar a proteína. No citoplasma,cada 
molécula dos 20 aminoácidos que entram na composição das proteínas deve ligar-se a seus 
respectivos RNAs transportadores (RNAt), assim como as subunidades ribossômicas que 
irão promover a síntese precisam associar-se às proteínas que auxiliarão no processo de 
síntese (ALBERTS et al., 2010). 
A síntese proteica inicia-se quando todos os componentes (um RNAm, um dos RNAt 
e as subunidades de um ribossomo) se juntam para formar um ribossomo funcional, sendo 
que cada ribossomo percorre a molécula de RNAm, traduzindo a sequência de códons em 
uma sequência de aminoácidos (CARVALHO; RECCO-PIMENTEL, 2012). O 
conhecimento sobre as informações contidas no DNA alcançou grandes avanços nos últimos 
anos, mas ainda há muito a descobrir. Por outro lado, os dados contidos no DNA são de 
composição simples. Eles se constituem por apenas quatro tipos de nucleotídeos, que são 
referenciados pelas bases nitrogenadas que os diferenciam: adenina, citosina, guanina e 
timina, ou, respectivamente, A, C, G e T (NLM, 2009), como mostra a Figura 1. 
 
 
 
 
 
 
23 
 
 Figura 1 – Estrutura do DNA. As faixas cinzas representam as duas cadeias de açúcar-
fosfato, os pares de bases (Adenina e Timina, Guanina e Citosina) formam conexões 
horizontais entre as cadeias, as quais correm em direções opostas 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Fonte: Figura adaptada2. 
 
Um gene geralmente codifica uma proteína; mas, devido a algumas exceções, existem 
genes que codificam mais de uma proteína, como por exemplo, na Botânica, o gene ZIFL1: 
na raiz da planta, ele produz uma proteína que é responsável pelo transporte de auxina 
(hormônio do crescimento), enquanto nas folhas o mesmo gene produz uma outra proteína, 
responsável pela tolerância à seca na planta (REMY et al., 2015). O relacionamento existente 
é de 1 para 1 entre gene e proteína e, muitas vezes, o gene tem sua identificação pela proteína 
que o ativa (MAGATÃO; JÚNIOR, 2008). 
O DNA é geralmente encontrado como uma molécula em forma de dupla hélice, mas, 
quando se trata dos dados, se analisa apenas uma das fitas por vez. Uma sequência de DNA 
 
2
 Disponível em ambiente virtual: https://www.nature.com/scitable/topicpage/discovery-of-dna-structure-and- 
function-watson-397. Acesso em: 25 out. 2018. 
 
24 
 
é representada por uma sequência de texto contendo as letras que traduzem as bases dessa 
fita: A, C, G e T. 
Nas estruturas de uma molécula de DNA, cada base em uma das fitas corresponde a 
uma outra base da outra fita, sendo essas ligadas por pares, especificamente de A-T (adenina 
e timina) e C-G (citosina e guanina). A estrutura de dupla fita do DNA permite não só que a 
molécula seja mais estável, mas também funciona como um dispositivo de correção de erro 
no caso de dano a alguma base. Um exemplo desse tipo de dano é aquele causado pelo 
excesso de radiação ultravioleta do sol (ALBERTS et al., 2010). 
Essas unidades hereditárias dos organismos, apesar de poderem ser definidas de 
diversas maneiras, são tratadas como unidades do DNA que contêm instruções para a 
codificação de uma proteína, mesmo que alguns deles produzam RNAs que não codificam 
proteínas (GRIFFITHS et al., 2013). 
Esta molécula de RNA é bastante semelhante à do DNA. Entretanto, no RNA, 
encontra-se a base U (uracil) no lugar de T (timina). Entre outras diferenças, o RNA é, em 
geral, encontrado como uma molécula de fita simples (ALBERTS et al., 2010); ele pode ser 
classificado em três tipos: mensageiro, ribossômico e transportador (Figura 2). Essas 
moléculas apresentam diversas funções, como, por exemplo, os RNAs que correspondem a 
genes que codificam proteínas, denominados de RNA mensageiros, ou mRNA (GRIFFITHS 
et al., 2013). 
 
Figura 2 – Tipos de RNA: Mensageiro, Ribossômico e Transportador 
 
 
 
 
 
 
 
 
 
Fonte: Figura adaptada3. 
 
3
 Disponível em ambiente virtual: https://escolaeducacao.com.br/rna. Acesso em: 19 maio 2020. 
 
25 
 
Entre outras funções, as proteínas são constituintes estruturais do “maquinário” da 
célula. Elas são moléculas que diferem quimicamente do DNA e RNA, pois possuem 
aminoácidos na sua composição, ao invés de nucleotídeos. As proteínas têm a propriedade 
de se “dobrar” em formas tridimensionais bastante específicas, que dependem de sua 
sequência de aminoácidos. Deste modo, a sequência de aminoácidos determina a forma de 
uma proteína e a forma determina sua função: existem proteínas que desempenham as mais 
diversas funções em um organismo. Com isso, percebe-se que, enquanto nesse contexto, o 
DNA e o RNA são utilizados principalmente para armazenamento e transporte de 
informações (Figura 3), as proteínas são o resultado desse processo, mostrando-se 
responsáveis por inúmeras atividades no organismo (BEDELL et al., 2003). 
 
Figura 3 – Fluxo de informação na célula. No processo de replicação do DNA, envolve a 
participação de várias enzimas, dentre elas a polimerase, que atuam no processo de uma 
nova molécula de DNA; a transcrição é processo onde o DNA é copiado (transcrito); o 
processo de tradução consiste em unir os aminoácidos de acordo com a sequência de 
códons do RNA mensageiro 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Fonte: Figura adaptada de Bedell et al. (2003). 
 
 
26 
 
Por sua vez, os aminoácidos que compõem as proteínas são codificados, cada um, por 
três nucleotídeos. Como são quatro os tipos de nucleotídeos, existem 64 combinações 
possíveis de códons (grupos de três nucleotídeos). Entretanto, as 64 combinações, conforme 
o código genético (Figura 4), codificam apenas 20 aminoácidos, sendo que um deles, a 
Metionina, indica o início da codificação de uma proteína (“start”) e outros 3 códons indicam 
o final dessa codificação (“stop”). Portanto, vários desses aminoácidos são codificados com 
redundância por mais de um tipo de códon (ALBERTS et al., 2010). 
 
Figura 4 – Código genético padrão. A matriz apresenta as três bases do códon, sendo que a 
metionina indica o início da codificação de uma proteína (detalhe em verde) e outros três 
códons indicam o final dessa codificação (detalhe em vermelho) 
 
 
Fonte: Figura adaptada4. 
 
 No geral, quando se vê uma unidade estrutural específica dentro de uma proteína, 
essa costuma ter uma função particular associada a ela. Sendo assim, os domínios 
determinam as características próprias de cada proteína; uma proteína pode conter um ou 
mais domínios expressos (ALBERTS et al., 2010). 
 
4
 Disponível em ambiente virtual: http://www.icb.ufmg.br/prodabi/grupo6/codon1.gif. Acesso em: 10 out. 
2018. 
 
27 
 
2.1.3 Vias Metabólicas 
 Segundo Kasahara e colaboradores (2010), dá-se o nome de interatoma a todas as 
interações – ou conjuntos de interações – proteína-proteína. Esse termo se refere 
principalmente às interações físicas entre as moléculas, embora também possa indicar 
relações diretas entre genes. Pode-se dizer que as redes são abordagens matemáticas, 
baseadas na teoria dos grafos, frequentemente utilizadas para modelar redes biológicas 
(PAVLOPOULOS et al., 2011). Basicamente, um grafo G é representado pelos conjuntos de 
vértices (V), também chamados de nodos e arestas (E). Uma aresta nada mais é que um par 
de vértices (u, v), u, v ∈ V, representando uma conexão entre os vértices u e v. 
No contexto de redes de interação gênica e proteica, o conjunto “V” simboliza os 
genes ou vias, enquanto “E” corresponde às conexões entre os mesmos. Devido às 
particularidades envolvendo suas informações, cada tipo de dado biológico é ilustrado de 
uma determinada maneira. Dados de PPI (redes de interações de proteínas), por exemplo, 
geralmente são definidos como grafos não-dirigidos; ou seja, (u, v) = (v, u) para todo u, v ∈ 
V, como demonstrado na Figura 6 (BARABÁSI; OLTVAI, 2004). Uma via metabólica é 
formada por um grupo de proteínas responsáveis por determinadas funções.Um exemplo 
disso é uma via de reparo que ativa as proteínas responsáveis, cujo papel é reparar a célula 
ou parte do DNA (LAMBERT, 2009). 
O metabolismo de todos os organismos é caracterizado por uma rede complexa de 
moléculas conectadas por reações químicas catalisadas por enzimas. As reações são 
organizadas em módulos chamados mapas metabólicos. Esses realizam funções específicas, 
como o anabolismo, ou síntese de compostos, e o catabolismo, que é a degradação (quebra) 
desses compostos: a produção de energia, por exemplo. O conjunto completo desses mapas 
caracteriza a rede metabólica de um dado organismo (BARABÁSI; JEONG, 2000). 
 Barabási e Oltvai (2004) propuseram uma representação gráfica da rede metabólica 
em que os nodos representam os substratos (proteínas), que estão ligados uns aos outros 
através de arestas. Essas últimas são as reações metabólicas propriamente ditas. Neste século, 
o principal desafio para a Biologia é a compreensão da estrutura e dinâmica da complexa 
rede intercelular de interações que corroboram para a estrutura e a função de uma célula viva. 
 O comportamento da maioria desses sistemas complexos provém da atividade 
ordenada de muitos componentes que se relacionam entre si por meio de interações 
emparelhadas. Ou seja, de forma abstrata, é possível afirmar que os componentes podem ser 
 
28 
 
reduzidos a uma série de nodos conectados uns aos outros por arestas; cada aresta representa 
as interações entre dois componentes, sendo o seu produto (nodos e arestas interligados) a 
formação de uma rede (gráfico). De acordo com os tipos das interações, as redes podem ser 
direcionadas ou não (BARABÁSI; OLTVAI, 2004). 
 Em redes direcionadas, pode-se dizer que a relação entre quaisquer dois nodos tem 
sua direção bem específica: representa, por exemplo, a direção do fluxo de informação de 
um fator de transcrição para o gene que regula. Em redes não direcionadas, as arestas não 
têm uma direção atribuída, como é possível verificar em redes de interação de proteínas 
(Figura 5). Uma ligação representa uma relação de ligação mútua: se a proteína A se liga à 
proteína B, então a proteína B também se liga à proteína A. 
 
Figura 5 – Representação gráfica proposta por Barabási e Oltvai (2004) da rede metabólica 
onde os nós representam os substratos que estão ligados uns aos outros através de conexões 
que são as reações metabólicas 
 Fonte: BARABÁSI; OLTVAI (2004). 
 
 Entretanto, as vias metabólicas contêm interações sequenciais em seu sistema. Estas 
podem ser representadas por grafos dirigidos, nos quais a aresta (u,v) é um par ordenado. 
 
29 
 
Sendo assim, a aresta (v,u) é invertida em relação a (u,v) (KHOLODENKO; HANCOCK; 
KOLCH, 2010). Esses grafos ponderados, nos quais as arestas contêm pesos associados a 
elas, também são muito utilizados para análise estrutural de proteínas ou para a co-expressão 
de genes (LEE et al., 2013). Geralmente, um sistema complexo apresenta uma grande 
heterogeneidade em relação às estruturas de representação dos grafos. Por isso, a aplicação 
de conceitos da teoria de redes complexas permite encontrar uma relação entre possíveis 
genes e proteínas causadoras de uma determinada condição ou qualquer outro tipo de 
associação biológica desejada, com base em dados de interação biológica (PAVLOPOULOS 
et al., 2011). 
 Alguns dos principais conceitos de teoria de redes complexas aplicados na Biologia 
Sistêmica são determinados pelo grau de um vértice “i” (ki): número de arestas (conexões) 
associadas ao vértice “i” por Hub – um vértice é um hub caso tenha um grau ki muito acima 
da média dos graus dos demais vértices. As principais vias associadas com o 
desenvolvimento humano (tais como genes envolvidos no crescimento embrionário e 
proteínas metabólicas fundamentais) seriam hubs, fundamentais para a manutenção do 
sistema genético. Por isso, a remoção de um hub central pode ter um impacto significativo 
na rede, levando-a a perder conexões essenciais de seu funcionamento (CHO; ZHANG, 
2010). 
 Também pode ser por agrupamento (clustering) de vias, as quais representam genes 
ou proteínas que tendem a se reunir em módulos funcionais. Um vértice possui um alto 
coeficiente de agrupamento (clustering) se os seus “vizinhos” tendem a se conectar. Quanto 
maior a densidade de conexões entre os vizinhos de um vértice, maior o seu coeficiente de 
agrupamento. 
 Segundo Barrera e colaboradores (2007), genes/proteínas localizados em um mesmo 
módulo fortemente agrupado tendem a participar de um mesmo processo biológico. Outros 
conceitos, como “brokers”, são vértices com baixíssimo coeficiente de agrupamento. Ou 
seja, é considerado um broker um gene/proteína que se conecta a diversos genes/proteínas 
que não se ligam entre si, apenas agem como se fossem um elo. Propõe-se, então, que um 
fenótipo patológico pode ser originado a partir de uma alteração em um gene broker, em que 
o gene ligado em sua porção terminal não possa ser expresso. Um último conceito diz respeito 
aos Bridges, vértices que ligam grupos distintos de sub-redes dentro de um grafo. Esses 
atuam como “pontes” entre esses dois agrupamentos (CAI et al., 2010). 
 
30 
 
 Em relação ao funcionamento das redes de reparo de DNA em câncer, pode-se dizer 
que a célula possui diferentes mecanismos de reparo para proteger o DNA contra danos, 
como as quebras de cadeias de DNA ocasionadas pela radiação ultravioleta. Os sistemas de 
reparo se constituem como redes genéticas especializadas nessa proteção, uma vez que 
impedem que diferentes tipos de danos sejam fixados no material genético. Em células 
cancerosas, essas redes podem não funcionar corretamente, resultando em uma série de 
mutações. Sabe-se que os genes de uma das cinco redes de reparo, chamada de Reparo por 
Excisão de Nucleotídeos (NER), não possui mutações catalogadas causalmente relacionadas 
ao câncer somático. Por esse motivo, acredita-se que ela não estaria envolvida no 
aparecimento de células cancerosas, assim como o reparo de excisão de base (BER), o reparo 
de incompatibilidade de DNA (MMR), etc. (FUTREAL et al., 2004). 
 Os genes centrais desses módulos foram validados por meio de análise de 
sobrevivência, enquanto as funções biológicas dos lncRNAs cruciais também foram 
interpretadas a partir dos dados publicamente disponíveis. Os resultados identificaram um 
módulo associado à sobrevivência com 113 genes-chave, como se observa na Figura 6, que 
representa a rede de interação proteína-proteína (CHEN et al., 2019). 
 
Figura 6 – Rede PPI (Interação Proteína-Proteína) dos genes significativos no glioblastoma 
multiforme gerada através do banco de dados online STRING, onde foram selecionados 
113 genes para construir a rede 
. 
 
 
 
 
 
 
 
 
 
 
 
 
Fonte: CHEN et al. (2019). 
 
 
31 
 
 Em sua pesquisa, Chen e colaboradores (2019) propuseram um estudo a fim de 
elucidar os principais genes codificantes e não-codificantes (lncRNAs) de RNAs, associados 
ao tempo de sobrevivência de pacientes com GBM. Os perfis de expressão de RNA foram 
obtidos do banco de dados do Chinese Glioma Genome Atlas e os genes reconhecidos com 
análise de rede de expressão. Módulos associados com a sobrevida global foram identificados 
e analisados através de ontologias genéticas e enriquecimento das vias. 
Em outro exemplo de vias metabólicas pode-se citar o risco genético para o câncer de 
mama, conferido por uma combinação de múltiplas variantes (CASTRO et al., 2015). Para 
um melhor entendimento, examina-se se os genes associados ao risco compartilham 
mecanismos reguladores. Com este intuito, foi criada uma rede reguladora (Figura 7) do gene 
do câncer de mama, que compreende fatores de transcrição e grupos de genes alvo (regulons). 
Seu papel é verificar se os regulons (coleção de genes sendo regulados pela mesma proteína) 
específicos são enriquecidos para genes associados a lócus derisco e QTLs (via expression 
quantitative trait loci). 
 
Figura 7 – Redes genéticas demonstrando o risco de câncer de mama, representadas pelo 
método de Bonferroni, através dos valores de P obtidos para cada regulon 
 
 
 
 
 
 
 
 
 
 
 
 
 
Fonte: CASTRO et al. (2015). 
 
 
32 
 
No estudo, identificaram-se 36 regulons sobrepostos; estes foram enriquecidos para 
locos de risco e formaram um cluster distinto dentro da rede, sugerindo biologia 
compartilhada, como se observou na Figura 7. Essa identificação se deu através do método 
de Bonferroni, que consiste em controlar o nível de confiança simultâneo para um conjunto 
completo de intervalos, porque a chance de que pelo menos um intervalo de confiança não 
contenha o parâmetro da população é maior para um conjunto de intervalos do que para um 
único intervalo. Sendo assim, para compensar essa alta taxa de erro, esse método ajusta o 
nível de confiança para cada intervalo individual, de forma que o nível de confiança 
simultâneo resultante seja igual ao valor especificado (CASTRO et al., 2015). 
 
2.1.4 Genotoxicidade, Citotoxicidade e Mutagênese 
A célula humana, ao detectar o DNA danificado, inicia a resposta de dano ao DNA 
(DDR), que permite repará-lo e evitar transmiti-lo às células-filhas. Apesar dessa solução, 
mudanças no genoma ocorrem e algumas células, por exemplo as neoplásicas, são propensas 
ao acúmulo de instabilidade no genoma (CHEN et al., 2012). 
Há evidências de que a morte celular causada por fármacos citotóxicos contra o 
câncer, em alguns casos, inclui a parada do ciclo celular de dano ao DNA. Além disso, 
algumas células são capazes de sobreviver a esse processo no momento em que o genoma é 
mais suscetível a mudanças ou rearranjos. Muitas vezes, a adaptação do ponto de checagem 
é mal caracterizada em células humanas. Por isso, compreender essa via de instabilidade 
genômica nas células cancerosas possibilitará o fornecimento de informações sobre métodos 
para melhorar a eficácia das terapias atuais contra o câncer (SWIFT; GOLSTEYN, 2014). 
A integridade genômica das células é frequentemente desafiada por agentes químicos 
e/ou físicos que podem modificar as bases dos nucleotídeos e alterar ou quebrar o esqueleto 
do açúcar-fosfato. Esses agentes que provocam o dano ao DNA podem ser classificados de 
várias maneiras: como endógenos (subprodutos reativos de processos como metabolismo ou 
inflamação); exógenos (agentes presentes em alimentos, água ou ar); e também físicos: luz 
ultravioleta (UV), radiação ionizante ou fármacos, tais como espécies reativas de oxigênio 
(ROS) (CAVALIERI et al., 2012). O tipo de dano ao DNA tem impacto no destino de uma 
célula, causando morte celular ou sendo mutagênico, o que pode levar a doenças como o 
câncer. Além disso, os agentes citogenotóxicos são comumentemente usados para tratar o 
câncer; assim, entender como as células respondem a eles é fundamental para aumentar sua 
eficácia (SWIFT; GOLSTEYN, 2014). 
 
33 
 
O Glioblastoma Multiforme (Figura 8), tipo de câncer, é uma doença complexa, 
caracterizada por pelo menos seis propriedades marcantes. Duas delas são a proliferação e a 
resistência à morte celular (incluindo apoptose): estas atuam em nível celular e são causadas 
por alterações no genoma. A maioria das células cancerígenas se divide mais frequentemente 
do que as células normais e o processo de divisão celular pode ser direcionado para tratar 
pacientes com câncer. O objetivo dos compostos citotóxicos (quimioterapia) e da radiação 
ionizante (radioterapia) é inibir a proliferação neoplásica, promovendo a parada do ciclo 
celular e, consequentemente, a morte destas células. 
 
 Figura 8 – Glioblastoma Multiforme (GBM): Fases e Alterações 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Fonte: Adaptada de Broekman et al. (2018). 
 
Segundo o Instituto Nacional do Câncer (INCA), a taxa de reincidência de tumores 
no sistema nervoso central (SNC) no Brasil, em agosto de 2019, foi de 5,62 novos casos para 
cada 100 mil homens e 5,17 novos casos para cada 100 mil mulheres. Gliomas representam 
o tipo histológico mais frequente (40 a 60%) dos tumores primários nesta localização, sendo 
mais comum em adultos. Entre 12 a 15% dos casos de tumores malignos intracraniais são 
diagnosticados como GBM. Esse é, portanto, o grau mais comum e responde por mais da 
metade (50 a 60%) dos gliomas. Embora a incidência seja baixa, o prognóstico é pior que 
 
34 
 
qualquer outro tumor do SNC: apenas 5% dos pacientes ultrapassam a sobrevida de 5 anos 
após o diagnóstico (VELIZ et al., 2015). 
Com o avanço da intervenção neurocirúrgica, associada a sessões de quimioterapia e 
radioterapia, a média de sobrevida para o glioblastoma é de menos de 15 meses após o 
diagnóstico. Em caso de reincidência, estima-se uma média de 6 a 12 meses após o início do 
tratamento com quimioterapia ou radioterapia utilizando-se os fármacos estudados (BAÚ, 
2016). 
A Temozolomida é um medicamento utilizado juntamente com a radioterapia e sua 
administração tem aumentado a média de vida de pacientes com glioblastoma de 12,1 para 
14,6 meses, com 27% dos pacientes vivos em 2 anos, ao invés dos 10% sem o fármaco 
(BOCCARD, 2015). A Bevacizumabe atua como anticorpo monoclonal e fragmento de 
anticorpos desenvolvidos para combater o fator de crescimento endotelial vascular 
(KIRCHHOF, 2015). Já a Dibenzazepina é um inibidor de γ-secretase e, portanto, da via 
Notch, via de tumor supressor (YEUNG, 2011). 
Segundo Jiang e colaboradores (2013), a célula de origem para esses tumores ainda é 
contraditória. Algumas teorias postulam que células tronco-tumorais e progenitores neurais 
podem sofrer eventos de transformação maligna e até diferenciação de células maduras, como 
astrócitos e oligodendrócitos, para dar origem a esses tumores. Os GBM são recidivos, 
embora 10% tenham uma história clínica prévia de astrocitoma de menor grau, sendo esses 
denominados de GBM secundários; essa classificação de primário ou secundário também 
apresenta relação com diferentes expressões gênica e sintomas (VAN MEIER et al., 2010). 
Nos últimos anos, o uso de Temozolomida (TMZ), em conjunto com a radioterapia, 
tornou-se padrão no tratamento do glioblastoma devido ao seu sucesso em atravessar a 
barreira sangue-cérebro (JOHNSON; O’NEILL, 2012). A radiação ionizante causa danos 
indiretos ao DNA ao produzir ROS (espécies reativas de oxigênio), átomos ou moléculas que 
carregam radicais livres em sua camada externa, fazendo com que sejam altamente reativos. 
Para evitar a transmissão de DNA danificado para as células-filhas durante a divisão celular, 
o DNA danificado deve ser reparado; é necessária, também, a ativação do ponto de 
verificação do ciclo celular para interromper a sequência. 
Se o dano ao DNA for irreparável, as células podem sinalizar senescência (parada de 
crescimento), apoptose (morte celular programada) ou outras vias que levam à morte celular. 
Os pontos de checagem de danos no DNA compreendem vias bioquímicas que retardam ou 
interrompem a progressão do ciclo celular em resposta a danos e são definidos, com base na 
 
35 
 
transição em que essa progressão está sendo interrompida, como G1/S, intra-S, e G2/M 
checkpoints (SANCAR et al., 2004). 
Inicialmente, o termo ponto de checagem era definido como o ponto em que a 
integridade do DNA era examinada, antes da progressão no ciclo celular. Posteriormente, a 
denominação começou a incluir outras respostas celulares além da interrupção do ciclo, como 
a indução de reparo no DNA e a apoptose. Essa maior abrangência tem base no fato de que 
proteínas envolvidas no controle do ciclo celular também são capazes de levar a esses 
mesmos resultados. Porém, tanto os reparos quanto a apoptose podem ocorrer 
independentemente dos chekpoints (Figura 9) (ALBERTS et al., 2010). 
 
Figura 9 – A fase G1 (do inglês gap,que significa lacuna) é o intervalo entre o término da 
fase M e início da fase S. Na fase S (de síntese) ocorre a replicação do DNA nuclear, e G2 é 
a fase de intervalo entre as fases S e M. A fase M é compreendida pela mitose, em que 
ocorre a divisão nuclear e a citocinese, a partir da qual acontece a divisão celular 
 
 
 
 
 
 
 
 
 
 
Fonte: ALBERTS et al. (2010). 
 
Além do tratamento de radioterapia com o Temozolomida, algumas mutações podem 
ou não ocorrer espontaneamente, como as provocadas por agentes físicos, químicos ou 
biológicos (MATSUMOTO, 2004). As mutações podem ocorrer em dois diferentes níveis: 
mutação gênica (ou mutação de ponto) e mutação cromossômica. Na mutação gênica, 
ocorrem alterações em pares de bases únicos do DNA ou em um pequeno número de pares 
de bases. Esse tipo de mutação pode ocorrer por substituição de pares de base – o que 
possibilitará a leitura de um aminoácido diferente, modificando a proteína final – ou por 
adição e deleção de pares de base. Uma única adição ou deleção desses pares pode provocar 
 
36 
 
um deslocamento no quadro de leitura, uma vez que a sequência do mRNA é lida em grupos 
de 3 pares de bases (códons). Por isso, essa modificação interfere na sequência de 
polipeptídeos, também modificando a proteína final (GRIFFITHS et al., 2013). 
Na mutação cromossômica, ocorrem alterações em uma região cromossômica, 
cromossomos inteiros ou até mesmo em grupos inteiros de cromossomos. Esse tipo de 
mutação pode ser classificado como numérico – quando acarreta em alteração no número de 
cromossomos da célula – ou como mutação estrutural – na qual ocorre uma mudança na 
forma ou no tamanho de um cromossomo (GRIFFITHS et al., 2013). 
Como visto anteriormente, o mecanismo de defesa das células às mutações tem 
relação com a ativação do sistema de reparo, que pode agir diretamente no DNA, consertando 
o erro. Esse sistema de reparo pode ser ativado diretamente ou após um bloqueio no ciclo 
celular. Nesse caso, após o reparo do erro, a célula segue o ciclo celular. No entanto, se o 
dano não puder ser reparado ou houver muitas lesões no DNA, o ciclo pode ser bloqueado 
permanentemente, conduzindo ao envelhecimento da célula (senescência) ou induzindo à 
apoptose (SANCAR et al., 2004). 
As mutações são a fonte de variabilidade genética de uma população, sendo, portanto, 
fundamentais para a manutenção das espécies. Porém, podem causar doenças tanto aos 
indivíduos como a seus descendentes, dependendo da quantidade, do tipo e do local onde 
ocorrem (UMBUZEIRO; VARGAS, 2003). 
Os testes em eucariotos são utilizados para a detecção de uma amplitude de danos que 
abrangem desde as mutações gênicas até os danos cromossômicos e aneuploidias. Já os 
ensaios com procariontes, como o teste com Salmonella typhimurium, são muitos úteis para 
a análise de agentes que induzem mutações gênicas ou para a identificação de danos 
primários no DNA (HOUK, 1992). 
Os estudos de genotoxicidade têm um papel importante no desenvolvimento de novos 
fármacos (GOLLAPUDI; KRISHNA, 2000; HARTMANN et al., 2001). Por isso, devem ser 
realizados nos estágios iniciais desse procedimento, a fim de prognosticar uma potencial 
atividade genotóxica e/ou carcinogênica e auxiliar na obtenção de novas estruturas químicas, 
menos tóxicas (GOLLAPUDI; KRISHNA, 2000; SNYDER; GREEN, 2001). Os agentes 
genotóxicos podem ser definidos funcionalmente por possuírem a habilidade de alterar a 
replicação do DNA e a transmissão genética. Dessa forma, as medidas de genotoxicidade 
incluem, principalmente, danos no DNA e mutações ou aberrações cromossômicas 
(COMBES, 1992). 
 
37 
 
Os ensaios de genotoxicidade in vitro são ferramentas sensíveis para a detecção do 
dano de DNA e do potencial carcinogênico de agentes químicos ou físicos (EISENBRAND 
et al., 2002). Eles podem ser avaliados pelos seguintes ensaios: teste de Ames (FERRER et 
al., 2002), teste de micronúcleos (SILVA et al., 2002), ensaio do Cometa (HARTMANN, 
2001), entre outros. 
 
2.2 BIOINFORMÁTICA E NANOCIÊNCIAS 
A Bioinformática pode ser definida como a conceptualização da Biologia Molecular 
e a aplicação de técnicas computacionais (incluindo hardware e software) para perceber e 
organizar informações associadas às funções biológicas, mais especificamente os genes. 
Como uma ciência multidisciplinar, ela envolve a engenharia de softwares, a Matemática, a 
Física, a Química, a Estatística, a Ciência da Computação e a Biologia Molecular, sendo 
responsável por armazenar e relacionar dados biológicos com o auxílio de métodos 
computacionais e algoritmos matemáticos (VERLI, 2014). A Bioinformática surgiu entre as 
décadas de 60 e 70, com a publicação do trabalho “Atlas of Protein Sequence and Protein”, 
de autoria de Margaret Dayhoff, pioneira em perceber processos bioquímicos utilizando o 
computador. No entanto, por volta do ano de 1953, os cientistas James Dewey Watson e 
Francis Crick haviam modelado, em uma estrutura de ferro e madeira, uma dupla hélice, a 
fim de representar a molécula de DNA (SETUBAL, 2003). Essa modelagem foi possível por 
conta da grande contribuição de Rosalind Franklin, que havia descoberto a dupla hélice do 
DNA através de imagens da difração de raios-X do DNA. A publicação do seu trabalho na 
revista científica Nature foi um dos grandes marcos na história da Biologia no século 
passado. 
A molécula de DNA contém o código hereditário (genético) de cada ser. Pelo modelo 
proposto por Watson e Crick, ela é constituída por duas cadeias antiparalelas de nucleotídeos, 
unidas em sequência em um espaço disposto helicoidal; ou seja, as cadeias giram em torno 
de um eixo. Através desta molécula, foi possível entender como ocorrem as mutações 
celulares, as codificações e a replicação das moléculas. Posteriormente, surgiram outros 
métodos no sequenciamento dos polímeros de DNA, o que permitiu o estudo das formas mais 
simples que o compõe. Esses polímeros, desde então, passaram a ser os principais objetos de 
estudos na nova ciência, a Biologia Molecular: mais de 18 milhões dessas sequências já 
foram produzidas e estão disponíveis em bancos de dados públicos (FILHO, 2002). 
 
38 
 
Juntamente com a evolução da Informática na década de 90, começaram a surgir 
sequenciadores automáticos de DNA, o que aumentou consideravelmente a quantidade de 
sequências genéticas a serem estudadas e armazenadas, exigindo, assim, cada vez mais 
recursos computacionais para seu armazenamento e manipulação. Em outras palavras, pode-
se afirmar que somente quando os computadores estavam suficientemente munidos com uma 
estrutura que pudesse processar milhões de sequências puderam-se obter resultados 
significativos nas pesquisas com o genoma humano (SETUBAL, 2003). 
Em sua análise, Setubal (2003) observou que, se o sequenciamento automático do 
DNA tivesse sido descoberto com aproximadamente 20 anos de antecedência, não haveria 
computadores com o poder de processamento suficiente para manipular e gerenciar os dados 
coletados. Em uma analogia, pode-se remeter à década de 70, na qual um computador de 
grande porte tinha alguns kilobytes de memória e não seria capaz de processar sequer o 
genoma de um único vírus, que pode chegar a 20 kilobases (20 mil bases ou 20 KB). 
 
Com os computadores mais velozes e de menor custo, juntamente com as pesquisas 
nas áreas da biologia molecular gerando milhares de informações para serem 
catalogadas e organizadas, nascia a fusão destas ciências, a bioinformática, uma 
ciência que envolve diversas linhas de conhecimento, como a engenharia de 
software, a matemática, física, química, estatística, a ciência da computação e a 
biologia molecular. (FILHO, 2002, p. 8) 
 
Com o surgimento dessa nova área, os primeiros pesquisadores eram basicamente 
médicos, físicose outros profissionais de áreas diferentes da Biologia, que possuíam certos 
conhecimentos de Informática. Segundo Filho (2002), havia uma grande dificuldade entre a 
comunicação de biólogos com cientistas da computação, já que os primeiros levam em 
consideração resultados como incertezas e erros, que podem ocorrer na prática, enquanto os 
últimos procuram sempre uma solução direta para um problema. 
Por conta dessa variante em seus métodos de pesquisa, foi preciso recorrer a um 
profissional com conhecimento suficiente em ambas as áreas, que fosse capaz de identificar 
um problema biológico real, analisar quais seriam suas opções e métodos de pesquisa e 
desenvolver uma solução através de uma abordagem computacional para avaliar os 
problemas identificados. Foi assim que surgiram os bioinformatas (VERLI, 2014). 
Pode-se citar como um exemplo clássico do trabalho desse profissional na 
Informática o Sistema de Gerenciamento de Banco de Dados (SGBD): é de suma importância 
que esse sistema esteja disponível, a fim de suportar uma demanda robusta no gerenciamento 
dessas informações que, muitas vezes, geram petabytes de dados biológicos e necessitam de 
 
39 
 
um repositório desenvolvido e seguro, bem como de um especialista que assegure essa 
disponibilidade e integridade dos dados. 
 
No início, o arquivamento de dados nesta área era realizado por grupos de pesquisa 
individuais, motivado pelo interesse da ciência naqueles dados, com o aumento da 
demanda por profissionais e equipamentos, juntamente com uma maior ênfase em 
computação, os arquivamentos passaram a ser de responsabilidade de projetos de 
grande escala. (LESK, 2008 p. 138) 
 
De acordo com o grande sucesso do projeto Genoma Humano – na década de 90, ele 
sequenciou inicialmente pouco mais de 20% (25.000 genes) do total do material genético 
humano) –, a Bioinformática, mesmo enfrentando problemas por razões de limitações das 
tecnologias, previa um tempo de aproximadamente 15 anos para completar a totalidade da 
codificação. Contudo, em 14 de abril de 2003, foi anunciado o mapeamento total do código 
genético humano: aproximadamente 3,3 bilhões de pares de nucleotídeos (NHGRI, 2017). 
Com o advento da nanotecnologia, hoje é possível ir além. Pode-se estudar os 
princípios fundamentais de moléculas e estruturas, nas quais pelo menos uma das dimensões 
está compreendida entre cerca de 1 a 100 nanômetros. Essas organizações são conhecidas 
como nanoestruturas. Essa consideração é importante na medida em que existem 
propriedades fundamentais, químicas e físicas, dos materiais, que mudam conforme o 
tamanho (MARCONE, 2015). 
Uma das aplicações da nanotecnologia que se destaca em termos de estudos refere-se 
à liberação de fármacos, principalmente na área farmacêutica, na qual são desenvolvidos 
fármacos dentro de um sistema chamado liberação controlada (SBALQUEIRO et. al, 2018). 
Fármacos de liberação controlada são aqueles que tem como objetivo fornecer uma dose 
terapêutica de um fármaco para um local do corpo pré-determinado, mantendo a 
concentração desejada de modo apropriado. O intuito desse procedimento é manter os níveis 
sanguíneos em índices satisfatórios (GENNARO, 2004). 
 
2.3 TRABALHOS RELACIONADOS 
2.3.1 Construção de uma rede com a ferramenta PHP (Hipertexto pré-processado) 
Em sua pesquisa, intitulada Identificação de padrões de expressão em doenças 
genéticas usando uma rede de integração de vias de manutenção do genoma, angiogênese, 
hipóxia e vigilância imunológica, Vieira (2016) propôs um modelo de redes de interações 
 
40 
 
entre vias de manutenção genômica e angiogênese, incluindo atividades regulatórias, hipóxia 
e sistema imunológico. 
O autor sugeriu estudar a atividade relativa em relação à adenoma e ao carcinoma do 
córtex adrenal, manipulando dados de microarranjos e calculando a expressão das vias pela 
sua atividade relativa associada ao teste Z. Vieira definiu, assim, a significância de sua 
pesquisa e demonstrou quais vias estariam expressas em adenoma e carcinoma do córtex 
adrenal, com a possível exibição (demonstração em grafos) da rede, com todas as vias ativas 
conectadas (VIEIRA, 2016). 
Após o processamento das vias e aplicação de testes estatísticos, foram exibidos os 
resultados através de grafos, nos quais os nós representavam as vias e as arestas suas 
interações. Através do software desenvolvido foi possível identificar as diferenças que os 
organismos apresentavam nestas condições. Dessa maneira, permitiu-se a sugestão de 
utilização dessa técnica para identificar as modificações que o câncer poderia apresentar nas 
ocorrências de utilização de um fármaco nanoencapsulado. 
A próxima etapa em seu trabalho foi identificar quais vias permaneciam conectadas 
em um organismo acometido por uma doença genética. Neste ponto do estudo, o processo se 
iniciou pelas amostras de valores de expressão gênica por microarranjos disponíveis em 
bancos de dados biológicos, através de amostras de microarranjos, produzidos pela 
Affymetrix, de tecidos doentes e saudáveis. De posse dessas informações, foi realizada uma 
análise de dados para parear os conjuntos de sondas com os nomes dos genes constantes na 
plataforma GPL570. Logo após, foram calculadas as médias das amostras com tecidos 
doentes e tecidos saudáveis separadamente, para caracterizar a diferenciação de expressão 
em cada uma das vias estudadas dentro da etapa evolutiva (normal/adenoma/câncer), por 
gene (VIEIRA, 2016). 
Após a identificação dos genes pertencentes às vias e com o intuito de calcular o nível 
de interação de cada via na rede, buscou-se a interação das sondas que continham dois genes 
de mesmo nome, mantidos os que possuíam maior diferença de expressão. Finalmente, foram 
realizados os cálculos estatísticos "Z" para definir a significância da via e, como resultado, 
quais vias estão significativamente expressas. Depois de chegar ao valor do ranque da via, 
definindo a quantidade de ligações do nó, o próximo passo é a exibição dos grafos da rede 
de interações. A Figura 10 ilustra sua metodologia (VIEIRA, 2016). 
 
 
41 
 
Figura 10 – Metodologia utilizada, que parte da seleção de microarranjos em bancos de 
dados biológicos com amostras de tecidos doentes e saudáveis, fazendo o cruzamento 
(normalização) dessas vias, realizando os cálculos estatísticos, concretizando o 
ranqueamento e exibição da rede de interações através de grafos 
 
 
 
 
 
 
 
 
 
 
 
 
Fonte: VIEIRA (2016). 
 
 
Na construção da Rede Basal de Vieira (2016), pode-se perceber uma aglomeração 
de vias distintas, como, por exemplo, a via de Apoptose. Essa aglomeração ocorre 
provavelmente pelo fato de que as vias de um mesmo grupo possuem uma maior quantidade 
de genes compartilhados entre si, como demonstra a Figura 11. 
 
 
 
 
 
 
 
 
 
 
 
 
42 
 
Figura 11 – Representação da rede basal – A formação de módulos permite observar que 
há aglomerações por tipo de via, nas quais as vias de apoptose (nós vermelhos) se 
concentram à esquerda, separadas das vias de reparo (amarelo) à direita pelas vias do ciclo 
celular (verde) 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Fonte: VIEIRA (2016). 
 
2.3.2 PATHChange 
O PATHChange é um pacote desenvolvido para a ferramenta R cujo objetivo é 
realizar cálculos multiestatísticos. Ele está dividido em 4 funções: a primeira finalidade do 
pacote, o PATHChangeDat, é responsável por proceder o pré-processamento dos dados, fase 
em que o arquivo suplementar Matrix Series Files, disponibilizado para download no GEO, 
informa quais as condições especiais a que o estudo foi submetido (FONTOURA, 2016). 
Esta informação é importante porque, frequentemente, DataSets apresentam várias condições 
experimentais e controles. 
Convenientemente, o PATHChangeDat informa ao usuário as condições 
experimentais do estudo e pergunta quais combinações ele

Continue navegando