Baixe o app para aproveitar ainda mais
Prévia do material em texto
UNIVERSIDADE FRANCISCANA PRÓ-REITORIA DE PÓS-GRADUAÇÃO E PESQUISA ÁREA DE CIÊNCIAS TECNOLÓGICAS Programa de Pós-Graduação em Nanociências HELENO CARMO BORGES CABRAL REDES COMPLEXAS PARA COMPARAR PADRÕES DE EXPRESSÃO DE VIAS E PROTEÍNAS ASSOCIADAS AO DESENVOLVIMENTO E TRATAMENTO DO GLIOBLASTOMA MULTIFORME Santa Maria, RS 2020 HELENO CARMO BORGES CABRAL REDES COMPLEXAS PARA COMPARAR PADRÕES DE EXPRESSÃO DE VIAS E PROTEÍNAS ASSOCIADAS AO DESENVOLVIMENTO E TRATAMENTO DO GLIOBLASTOMA MULTIFORME Tese apresentada ao Programa de Pós- Graduação em Nanociências da Universidade Franciscana de Santa Maria, como parte das exigências para obtenção do título de Doutor em Nanociências, na área de Biociências e Nanomateriais. Orientador: Prof. Dr. ÉDER MAIQUEL SIMÃO Co-orientador: Prof. Dr. JOSÉ LUIZ RYBARCZYK FILHO Santa Maria, RS 2020 Elaborada pela Bibliotecária Eunice de Olivera CRB 10/1491 C117r Cabral, Heleno Carmo Borges Redes complexas para comparar padrões de expressão de vias e proteínas associadas ao desenvolvimento e tratamento do Glioblastoma Multiforme / Heleno Carmo Borges Cabral ; orientação Éder Maiquel Simão ; coorientação José Luiz Rybarczyk Filho – Santa Maria : Universidade Franciscana – UFN, 2020. 95 f. : il. Tese (Doutorado em Nanociências) Programa de Pós- Graduação em Nanociências – Universidade Franciscana UFN 1. Rede de vias metabólicas 2. Análise de vias 3. Câncer I. Simão, Éder Maiquel II. Rybarczyk Filho, José Luiz III.Título CDU 62 Se vi mais longe, foi por estar sobre os ombros de gigantes. (Isaac Newton) AGRADECIMENTOS Dedico meus agradecimentos a todos que, de alguma forma, colaboraram com a realização deste trabalho: – a Deus, sou grato por todas as oportunidades que me foram dadas; – aos colegas de pós-graduação da UFN; – aos demais professores do doutorado em Nanociências, que colaboraram na minha formação acadêmica; – aos meus familiares, pelo apoio em minhas decisões. Um agradecimento especial a minha esposa, Maíra, e a minha filha, Luiza Helena, pelo apoio incondicional nas horas de incertezas; – ao Prof. Dr. José Luiz Rybarczyk Filho, pela co-orientação neste trabalho. Também agradeço à Profa. Dra. Agnes Takeda. Estendo meu muito obrigado, ainda à André Molan, à Giordano Seco e a todos os amigos que fiz no laboratório de Biocomplexidade do Depto. de Física e Biofísica da UNESP, campus Botucatu, que tiveram paciência em me transmitir o conhecimento em R que foi de fundamental importância: sem o auxílio dessas pessoas eu não teria êxito neste trabalho; – ao Prof. Dr. Éder Maiquel Simão, pela orientação, tolerância, paciência, amizade e ensinamentos; - aos ex-coordenadores do Programa de Pós-Graduação em Nanociências, profa. Dra. Ivana Zanella e prof. Dr. Sérgo Mortari, e ao coordenador, prof. Dr. Alencar Kolinski, por todo o apoio que recebi ao longo deste doutoramento. - aos colegas e amigos Ana Júlia Dalmolin, Bruna Guerino, Bruna Pedrolo e aos profs. Dr. Giovani Rubert Librelotto e Dra. Michele Rorato Sagrillo pela constante ajuda e participação neste trabalho. RESUMO O grande desafio da era pós-genômica na Biologia é a compreensão da estrutura e do comportamento de redes complexas de interações moleculares que controlam o desempenho das células. Isto impõe a procura por métodos inovadores para tratar estes dados, com a finalidade de melhorar o entendimento dos processos biológicos que ocorrem intra e extracelularmente. Na presença de doenças, há variações dos fenótipos celulares, o que acaba por modificar todo o processo de análise. Este varia também na presença de fármacos distintos: medicamentos que, além de promoverem alterações celulares, provocam efeitos clínicos que poderão ser analisadas por diferentes métodos. Por consequência, pode-se identificar quais vias metabólicas estão expressas em um organismo que apresenta uma doença genética. Esse procedimento engloba métodos analíticos que incluem, por exemplo, a atividade dessas vias: verifica-se sua interação com outras vias, identificando, assim, os genes presentes em determinadas situações. Neste contexto, é possível interligar as vias e melhorar a compreensão das interações biológicas na ausência ou na presença de uma determinada doença. Para isso, utilizam-se ferramentas como a linguagem R, seus pacotes e scripts disponíveis. Cabe ressaltar que, mesmo com a emergência das novas tecnologias, ainda se percebe obstáculos na terapia. Um dos exemplos desses empecilhos é a barreira sangue-cérebro, que impede a livre difusão da maioria das moléculas com propriedades de antígenos, incluindo os medicamentos quimioterápicos. O objetivo deste trabalho é promover o estudo de redes de interação, no intuito de dar subsídios para o entendimento de como as vias se comportam quando induzidas a diferentes tipos de tratamentos e métodos. Pretende- se, com isso, contribuir para o desenvolvimento de novos fármacos nanoencapsulados. Para a concretização deste estudo, foram utilizadas amostras de glioblastoma multiforme versus normal, extraídas de microarranjos do banco de dados Gene Expression Omnibus. As análises de expressão e o desenvolvimento da ferramenta foram obtidos através de códigos utilizando a linguagem R. Dentre as amostras, destacam-se o uso dos fármacos Bevacizumabe (BEV), Dibenzazepina (DBZ) e Temozolomida (TMZ), administrados juntamente ao tratamento com radioterapia. Os resultados preliminares consistiram na construção de uma rede basal com 104 vias metabólicas, selecionadas a partir de critérios pré-estabelecidos. Com a análise de expressão do glioblastoma tratado, observou-se que a via receptora de quimiocinas está diretamente ligada à presença do fármaco no glioblastoma. Palavras-chave: Rede de vias metabólicas, análise de vias, câncer. ABSTRACT The great challenge of the post-genomic era in biology is the understanding of the structure and behavior of complex networks of molecular interactions that control the behavior of cells. This imposes, the search for innovative methods to treat these data in order to improve the understanding of the biological processes that occur intra and extracellular. In the presence of diseases, there are variations in cellular phenotypes, which changes the entire analysis process, as this process also varies in the presence of different drugs, involving drugs that, in addition to promoting cellular changes, cause clinical consequences that can be analyzed by different methods. Consequently, in an organism that has a genetic disease, it is possible to identify which metabolic pathways are inhibited through analytical methods that involve, for example, the activity of metabolic pathways, verifying their interaction with other pathways, thus identifying the genes present in certain situations In this context, it is possible to interconnect the pathways and improve the understanding of biological interactions in theabsence or presence of a certain disease, using tools such as the R language and its available packages and scripts. Even with the use of new technologies, obstacles in therapy are still perceived, such as the blood-brain barrier, which prevents the free diffusion of most molecules with antigen properties, including chemotherapy drugs. The objective of this work is to promote the study of interaction networks, proposing to provide support for understanding how the pathways behave when induced to different types of treatments and methods, thus contributing to the development of new nanoencapsulated drugs. For the development of this study, samples of glioblastoma multiforme versus normal extracted from microarrays in the Gene Expression Omnibus database were used. The analysis of expression and the development of the tool were obtained through codes using the language R. Among the samples, the use of the drugs Bevacizumab, Dibenzazepine and Temozolomide (administered together with the treatment with radiotherapy) stands out. The preliminary results consisted of the construction of a basal network with 104 metabolic pathways selected from pre-established criteria. With the analysis of expression of the treated glioblastoma, it was observed that the chemokine receptor pathway is directly linked to the presence of the drug in the glioblastoma. Keywords: network of pathways, analysis of pathways, metabolic pathways, cancer LISTA DE FIGURAS Figura 1 – Estrutura do DNA. As faixas cinzas representam as duas cadeias de açúcar- fosfato, os pares de bases (Adenina e Timina, Guanina e Citosina) formam conexões horizontais entre as cadeias, as quais correm em direções opostas ...................................... 23 Figura 2 – Tipos de RNA: Mensageiro, Ribossômico e Transportador .............................. 24 Figura 3 – Fluxo de informação na célula. No processo de replicação do DNA, envolve a participação de várias enzimas, dentre elas a polimerase, que atuam no processo de uma nova molécula de DNA; a transcrição é processo onde o DNA é copiado (transcrito); o processo de tradução consiste em unir os aminoácidos de acordo com a sequência de códons do RNA mensageiro ............................................................................................................................ 25 Figura 4 – Código genético padrão. A matriz apresenta as três bases do códon, sendo que a metionina indica o início da codificação de uma proteína (detalhe em verde) e outros três códons indicam o final dessa codificação (detalhe em vermelho) ....................................... 26 Figura 5 – Representação gráfica proposta por Barabási e Oltvai (2004) da rede metabólica onde os nós representam os substratos que estão ligados uns aos outros através de conexões que são as reações metabólicas ............................................................................................. 28 Figura 6 – Rede PPI (Interação Proteína-Proteína) dos genes significativos no glioblastoma multiforme gerada através do banco de dados online STRING, onde foram selecionados 113 genes para construir a rede ................................................................................................... 30 Figura 7 – Redes genéticas demonstrando o risco de câncer de mama, representadas pelo método de Bonferroni, através dos valores de P obtidos para cada regulon ........................ 31 Figura 8 – Glioblastoma Multiforme (GBM): Fases e Alterações ...................................... 33 Figura 9 – A fase G1 (do inglês gap, que significa lacuna) é o intervalo entre o término da fase M e início da fase S. Na fase S (de síntese) ocorre a replicação do DNA nuclear, e G2 é a fase de intervalo entre as fases S e M. A fase M é compreendida pela mitose, em que ocorre a divisão nuclear e a citocinese, a partir da qual acontece a divisão celular ........................ 35 Figura 10 – Metodologia utilizada, que parte da seleção de microarranjos em bancos de dados biológicos com amostras de tecidos doentes e saudáveis, fazendo o cruzamento (normalização) dessas vias, realizando os cálculos estatísticos, concretizando o ranqueamento e exibição da rede de interações através de grafos ....................................... 41 Figura 11 – Representação da rede basal – A formação de módulos permite observar que há aglomerações por tipo de via, nas quais as vias de apoptose (nós vermelhos) se concentram à esquerda, separadas das vias de reparo (amarelo) à direita pelas vias do ciclo celular (verde) .............................................................................................................................................. 42 Figura 12 – Representação do PATHChange – quatro funções estruturam o pacote, sendo elas: PATHChangeDat, responsável pelo pré-processamento dos dados; PATHChangeList, que faz a seleção das vias estudadas; PATHChange, função principal do pacote que realiza os cálculos da atividade da via aplicando os testes estatísticos; e PATHChangeVenn, que apresenta os resultados da análise da função PATHChange em forma de diagramas de Venn .............................................................................................................................................. 44 Figura 13 – Representação do pacote ADAM. A primeira coluna, à esquerda, representa os módulos principais, enquanto a segunda coluna apresenta quadros explicando cada um dos módulos ................................................................................................................................ 46 Figura 14 – Estrutura da metodologia. Serão usadas amostras normalizadas de GBM e controle extraídas do banco de dados GEO, além de amostras de vias extraídas do banco de dados Reactome. As amostras serão analisadas com um pacote de dados e, em seguida, será construída uma rede de interações de vias ............................................................................ 53 Figura 15 – Detalhamento dos processos realizados através ferramenta ............................ 56 Figura 16 – Arquitetura estrutural da Ferramenta em R desenvolvida................................ 59 Figura 17 – Representação da rede basal, sem interação de doenças, no seu estado puro, na qual percebe-se que os nós mais conectados estão mais próximos e os vértices de ligação mais espessos ........................................................................................................................ 60 Figura 18 – Representação da rede de vias da amostra de Glioblastoma tratado com Bevacizumabe, gerada através do pacote igraph da ferramenta R. Nela, R-HSA-380108 corresponde a Chemokine receptors bind chemokines; (R-HSA-6783783): Interleukin-10 signaling; (R-HSA-1592389): Activation of Matrix Metalloproteinases; (R-HSA-1566948): Elastic fibre formation; e (R-HSA-210991): Basigin interactions ....................................... 67 Figura 19 – Representação da rede da amostra de Glioblastoma tratado com Bevacizumabe, gerado através do pacote igraph da ferramenta R. Nesta, R-HSA-1461973 corresponde a via Defensins; R-HSA-6783783: Interleukin-10 signaling; e R-HSA-380108: Chemokine receptors bind chemokines ................................................................................................... 69 Figura 20 – Representação da rede da amostra de Glioblastoma tratado com Dibenzazepina, gerado através do pacote igraph da ferramenta R, com suas respectivas vias envolvidas ... 70 Figura 21 – Representação da rede da amostra de cérebro normal versus Astrocitoma ..... 71 Figura 22 – Representação da rede da amostra de cérebro normal versus Glioblastoma ... 72 Figura 23 – Representação da rede basal, sem interação de doenças, no seu estado puro, na qual percebe-se que os nós mais conectados estão mais próximos e os vérticesde ligação mais espessos ........................................................................................................................ 90 Figura 24 – Representação da rede da amostra de Glioblastoma tratado com Bevacizumabe, gerado através do pacote igraph da ferramenta R. Nela, R-HSA-380108 corresponde a Chemokine receptors bind chemokines; (R-HSA-6783783): Interleukin-10 signaling; (R- HSA-1592389): Activation of Matrix Metalloproteinases; (R-HSA-1566948): Elastic fibre formation; e (R-HSA-210991): Basigin interactions ............................................................ 91 Figura 25 – Representação da rede da amostra de Glioblastoma tratado com Bevacizumabe, gerado através do pacote igraph da ferramenta R. Nela, R-HSA-1461973 corresponde a via Defensins; R-HSA-6783783: Interleukin-10 signaling; e R-HSA-380108: Chemokine receptors bind chemokines ................................................................................................... 92 Figura 26 – Representação da rede da amostra de Glioblastoma tratado com Dibenzazepina, gerado através do pacote igraph da ferramenta R com suas respectivas vias envolvidas .... 93 Figura 27 – Representação da rede da amostra de Cérebro Normal versus Astrocitoma ... 94 Figura 28 – Representação da rede da amostra de Cérebro Normal versus Glioblastoma .. 95 LISTA DE TABELAS Tabela 1 – Relação das 104 vias ......................................................................................... 61 Tabela 2 – Arquivo gerado com os P-Valores extraídos através do pacote Limma ............ 65 Tabela 3 – Arquivo gerado com os enriquecimentos estatísticos através do pacote ADAM .............................................................................................................................................. 66 LISTA DE ABREVIATURAS E SIGLAS1 BER Reparo de Excisão de Base BioPax Biological Pathway Exchange BVZ Bevacizumabe CRAN Comprehensive R Archive Network DBZ Dibenzazepina DDR Resposta ao dano de DNA DEG Differential Expression Genes FDA Food and Drug Administration FDR Taxa de Falso Positivo GBM Glioblastoma Multiforme GEO Gene Expression Omnibus GFAG Grupos de Genes Funcionalmente Associados GO Gene Ontology HUGO Human Genome Organization KB KiloBytes KEEG Kyoto Encyclopedia of Genes and Genomes LogME Logaritmo de Mudança de Expressão (fold change) MMR Reparo de Bases Mal Pareadas NER Reparo por Excisão de Nucleotídeos NGS Sequenciamento de Nova Geração PCL Policaprolactona PCR Reação em Cadeia da Polimerase PDT Terapia Fotodinâmica PHP Hipertexto Pré-Processado PLA Poliácido Lático PLGA Poliácido Lático-co-ácido Glicólico PPI Redes de Interações de Proteínas PTT Terapia Fototérmica RMA Média Robusta para Múltiplos Chips ROS Espécies Reativas ao Oxigênio 1 A lista com as vias está no Anexo I. SBML System Biology Markup Language SGBD Sistema Gerencial de Banco de Dados SNC Sistema Nervoso Central TMZ Temozolomide SUMÁRIO 1 INTRODUÇÃO ............................................................................................................... 16 1.2 JUSTIFICATIVA ...........................................................................................................18 1.2 INTERDISCIPLINARIDADE .......................................................................................19 1.3 OBJETIVOS .................................................................................................................. 19 1.3.1 Objetivo Geral ........................................................................................................... 19 1.3.2 Objetivos específicos ................................................................................................. 19 2 REVISÃO BIBLIOGRÁFICA .......................................................................................20 2.1 GENÉTICA .................................................................................................................... 20 2.1.1 Expressão Gênica ...................................................................................................... 20 2.1.2 Síntese Proteica ..........................................................................................................22 2.1.3 Vias Metabólicas ........................................................................................................27 2.1.4 Genotoxicidade, Citotoxicidade e Mutagênese ....................................................... 32 2.2 BIOINFORMÁTICA E NANOCIÊNCIAS ...................................................................37 2.3 TRABALHOS RELACIONADOS ................................................................................39 2.3.1 Construção de uma rede com a ferramenta PHP (Hipertexto pré-processado) . 39 2.3.2 PATHChange ............................................................................................................ 42 2.3.3 Activity and diversity analysis module (ADAM) …………………………………...44 2.4 TERAPIAS .....................................................................................................................47 2.4.1 Terapias Através da Nanotecnologia .......................................................................47 2.4.2 Nanotecnologia Aplicada à Terapia Gênica ........................................................... 48 2.5 PROGRAMAÇÃO ENVOLVENDO “R” ..................................................................... 50 2.5.1 Análises Estatísticas usando a Ferramenta R .........................................................50 2.5.2 Bancos de Dados ........................................................................................................ 51 3 METODOLOGIA ........................................................................................................... 53 3.1 EXPRESSÃO GÊNICA ................................................................................................. 53 3.1.1 Microarranjos ............................................................................................................54 3.1.2 Amostras e Tratamento ............................................................................................ 54 3.2 VIAS METABÓLICAS ................................................................................................. 55 3.2.1 Rede Basal .................................................................................................................. 56 3.2.2 Análises Estatísticas .................................................................................................. 57 3.2.4 Diferenciação da Expressão ..................................................................................... 57 3.2.5 Construção das Redes ............................................................................................... 59 4 RESULTADOS ................................................................................................................64 4.1 REDE EXPRESSA ........................................................................................................ 64 4.1.1 Amostras de Glioblastoma Tratado com Bevacizumabe .......................................64 4.2.2 Amostras de Glioblastoma Tratado com Bevacizumabe e Dibenzazepina .......... 68 CONCLUSÃO .................................................................................................................... 74 REFERÊNCIAS ................................................................................................................. 74 ANEXO I – NOME DAS VIAS E REPECTIVOS IDENTIFICADORES ................... 83 ANEXO II – SCRIPT DE DESENVOLVIMENTO DA REDE BASAL ...................... 89 ANEXO III – REDE BASAL ATRAVÉS DO SOFTWARE CYTOSCAPE .................90 ANEXO IV – FIGURAS 20, 21, 22, 23E 24 GERADAS PELO SCRIPT EM R ......... 91 16 1 INTRODUÇÃO Desde as descobertas de Frederik Sanger (1969), responsável pelo sequenciamento da insulina entre as décadas de 40 e 50, pôde-se verificar que as proteínas não eram apenas arranjos simples, uma vez que não possuíam estrutura definida. Stanford Moore e William Stein (1973) foram os precursores em introduzir a automatização computacional para sequenciar os 124 aminoácidos da ribonuclease. Com isso, atingiram a metade do tempo utilizado pela equipe de Sanger ao sequenciar os 51 aminoácidos da insulina. Na segunda metade da década de 1960, Pehr Edman cria o “sequenciador”, uma máquina de sequenciamento totalmente automatizada. A partir de então, muitos laboratórios foram encorajados a iniciarem o sequenciamento de proteínas e a armazenarem seus resultados (EDMAN, 1967). Foi, no entanto, o pesquisador e biofísico Cyrus Levinthal (1966) e sua equipe do Instituto de Tecnologia de Massachusetts (MIT) os precursores na utilização de computadores de grande porte para construir modelos tridimensionais de uma pequena proteína: o Citocromo C. O Projeto Genoma Humano teve seu início no final da década de 80, sendo finalizado 14 anos depois. Ele foi o resultado da revolução científica que ocorreu durante os últimos 30 anos do período, quando a Biologia Molecular passou a andar de mãos dadas com a Informática. Essa fusão deu origem à Bioinformática, que tornou possível armazenar, calcular e interpretar dados gigantescos. No entanto, as tentativas de trazer respostas acabaram por abrir portas para muitas novas perguntas. Originou-se, dessa maneira, o que hoje se denomina como a “Era Pós Genômica”. Neste período, se constatou que as características expressas pelos seres vivos, que os diferenciam entre indivíduo, espécie, gênero, classe, ordem, filo e reino, não são somente provenientes de diferenças na sequência de bases nitrogenadas do DNA (Adenina (A), Timina (T), Citosina (C) e Guanina (G)): são também determinadas pela epigenética (PEREIRA, 2011). A compreensão da estrutura e do comportamento de redes complexas de interações moleculares que controlam o desempenho das células ainda é um dos grandes desafios para os biólogos dessa era pós-genômica (BARABÁSI; OLTVAI, 2004). O tamanho e a complexidade dos dados biológicos coletados incluem informações que requerem uma abordagem integradora (UETZ; IDEKER; SCHWIKOWSKI, 2002). Isso impõe a procura por métodos inovadores para tratar esses dados, com a finalidade de melhorar o entendimento dos processos biológicos que atuam no interior da célula. Na presença de doenças, há 17 variações dos fenótipos celulares, o que muda todo o processo de análise. Esse varia também na presença de fármacos distintos, como o Bevacizumabe, Dibenzazepina e Temozolomida, estudados nesse trabalho. Dentre os tratamentos contra o câncer, destacam-se os quimioterápicos, cujos efeitos colaterais podem incluir como náuseas, vômitos, lesões no esôfago, má nutrição, fraturas, desequilíbrio hidroeletrolítico e acidobásico (SAWADA et al., 2009). A forma de atuação desses fármacos no organismo e suas consequências podem ser avaliadas pelos métodos de análise da expressão gênica. Dentre eles, estão o método de reação em cadeia da polimerase em tempo real (PCR Real Time), os microarranjos (que são utilizados para medir grandes quantidades simultâneas de níveis de expressão de transcritos e constituem conjuntos ordenados de milhares de moléculas de DNA organizadas em oligonucleotídeos) e o RNTeASeq, que consiste no uso de NGS (Next-Generation Sequencing - Próxima Geração de Sequenciamento) para sequenciar o cDNA (DNA complementar), com a intenção de capturar a informação do transcriptoma de um organismo. Ao contrário de outras técnicas, como o PCR Real Time, o RNASeq não necessita de uma lista pré-definida dos genes que se deseja detectar (WANG et al., 2009). Devido às inúmeras informações coletadas por esses métodos de análise da expressão gênica, existem vários repositórios de dados desses transcritos. O principal e o mais conceituado deles é o GEO (Gene Expression Omnibus), no qual se encontram milhares de amostras de transcritos envolvidos em várias doenças genéticas (SIMÃO et al., 2012). Analisando a ocorrência dos genes comuns e da quantidade deles nessas vias têm-se a interação via-via, que pode ser evidenciada em uma rede de interações, como proposto por Vieira (2016). Porém, com o uso da ferramenta R, conectando pacotes do Bioconductor, aprimora-se todas as fases em apenas uma linguagem de programação, interligando as vias e melhorando a compreensão das interações biológicas na ausência ou na presença de uma determinada doença (KESSLER; HACHE; WIERLING, 2013). A terapêutica do câncer ainda é um desafio (BREGOLI et al., 2009). Com o avanço nos tratamentos utilizando fármacos nanoencapsulados há também um eminente crescimento das pesquisas envolvendo a ativação de proteínas responsáveis pela regulação de doenças genéticas, a fim de ultrapassar a barreira endotelial e se acumular especificamente nas células-alvo, sem causar danos às células normais (PAVON; OKAMOTO, 2007). Para tais experimentos, serão utilizados dados de Glioblastoma Multiforme (GBM), tipo mais comum e agressivo de tumor cerebral primário maligno em adultos. Para combater 18 o glioblastoma, juntamente com a radioterapia e a quimioterapia, utilizam-se fármacos como a Temozolomida, Bevacizumabe e a Dibenzazepina. Grandes estudos visando o entendimento molecular desses tumores vêm sendo feitos, sendo o GBM selecionado como um dos três primeiros cânceres a serem sequenciados pelo projeto do “Atlas do Genoma do Câncer” (The Cancer Genome Atlas, TCGA), do National Institutes of Health’s (NIH), dos Estados Unidos. Por conta dos diversos estudos que se debruçam sobre esse assunto, esse tipo é também um dos tumores com maior entendimento a nível molecular. Esses esforços resultaram na identificação de fatores moleculares de prognóstico e de vulnerabilidade que podem ser alvo no desenvolvimento de novos tratamentos e no entendimento dos fatores envolvidos com a gliomagênese (WEATHERS; GILBERT, 2016). 1.2 JUSTIFICATIVA Através das análises de expressão gênica das patologias, é possível observar as alterações genéticas de proteínas e vias metabólicas específicas, como também verificar qual a melhor maneira de realizar a abordagem terapêutica. Uma das motivações para estudar a expressão de proteínas ligadas ao desenvolvimento do GBM é a produção de novos tipos de tratamentos envolvendo nanotecnologia. Isso porque os nanocarreadores subvertem alguns obstáculos da terapia, como a barreira sangue-cérebro, que impede a livre difusão da maioria das moléculas estranhas, incluindo agentes terapêuticos (LEE et al., 2013 apud BAÚ, 2016). Uma das novas abordagens revolucionárias para terapias é a interferência de RNA (iRNA - RNA de interferência) pelo uso de nanomateriais, para terapia genética ou geneterapia (MASSADEH et al., 2016). No entanto, o principal obstáculo que dificulta a realização de tais terapias é a entrega in vivo de fragmentos de RNAi, a fim de assegurar que o material liberado não seja afetado pela resposta indesejável do sistema imune (MASSADEH et al., 2016). A integração de diferentes análises de proteínas e vias usando a linguagem de programação R possibilita a visualização de vias significativamente alteradas através de redes de interação, com o intuito de contribuir para o desenvolvimento de novos fármacos nanoencapsulados. Ela também dá subsídio para o entendimento de como as vias se comportam quando induzidas a diferentes tipos de tratamentos e métodos. 19 1.2 INTERDISCIPLINARIDADE Conceitua-se por interdisciplinaridade um conjunto de disciplinas trabalhadas simultaneamente, sem que se apresente as suasdiferenças. O objetivo é a construção de um sistema de um só nível e de objetivos comuns, não atrelados a uma disciplina específica (MENEZES; SANTOS, 2002). De acordo com esse conceito, recorre-se às informações de várias definições, de diferentes disciplinas (como a Genética, a Biologia, a Bioquímica e a Computação), para estudar um caso determinado, sem a preocupação de interligá-las entre si. Neste caso, a Computação surge como uma ferramenta de auxílio na compilação da grande quantidade de informações que a Genética apresenta. Assim, cada disciplina em particular contribuiu para a realização deste trabalho em tarefas como a de entender o funcionamento da Biologia Celular, utilizar fórmulas físicas e matemáticas para fins estatísticos, analisar a farmacologia dos nanoencapsulados, dentre outras. 1.3 OBJETIVOS 1.3.1 Objetivo Geral O objetivo deste trabalho é integrar diferentes ferramentas de análises de proteínas e vias, usando a linguagem de programação R para investigar os padrões de expressão de vias e proteínas de glioblastoma multiforme e glioblastomas tratados. 1.3.2 Objetivos específicos: ● Investigar os microarranjos de GBM (GBM tratado e GBM normal) no banco de dados Gene Expression Omnibus; ● Incorporar vias metabólicas específicas, extraídas do banco de dados Reactome; ● Analisar as amostras de microarranjos com as vias metabólicas, usando a ferramenta R e seus métodos estatísticos; ● Desenvolver a rede de interação das vias metabólicas, com a inserção das análises estatísticas pela ferramenta ADAM (do inglês: Activity and Diversity Analysis Module). 20 2 REVISÃO BIBLIOGRÁFICA 2.1 GENÉTICA 2.1.1 Expressão Gênica A expressão gênica ou transcriptoma (transcrição do DNA) é síntese do RNA a partir de um molde de DNA, usando as regras da complementaridade. A transcrição de um segmento se inicia quando a RNA polimerase reconhece as sequências específicas de nucleotídeos em uma região especial no início do gene, denominada promotor, e liga-se a elas (ALBERTS et al., 2010). Além destas sequências, o promotor engloba o ponto de início como sendo o primeiro par de bases a ser transcrito em RNA. A partir daí, a RNA polimerase move-se ao longo do molde, sintetizando RNA até alcançar outra sequência específica, que sinaliza o término da transcrição. Ou seja, a unidade de transcrição estende-se do ponto de início, no promotor, até o terminador (LAMBERT, 2009). Existem muitos bancos de dados essenciais para o armazenamento e gerenciamento das expressões de proteínas em diversas doenças. O banco de dados Gene Expression Omnibus (GEO) é um repositório público funcional de dados usado para armazenar transcriptomas (EDGAR et al., 2002). O banco de dados GEO, até agosto de 2019, era composto por 3.177.708 amostras e 19.991 plataformas, divididas em mais de 116 mil estudos (microarranjos) diferentes, estando em crescente atualização e inserção de dados (GEO, 2019). O GEO é considerado o maior banco de dados de expressão gênica, incluindo vários organismos e doenças distintas. Nele, estão depositados transcriptomas fabricados por diversas empresas, das quais destaca-se a Affymetrix Gene Chip, fundada em 1992 por Stephen Fodor, cujo objetivo é fabricar microarranjos de DNA (GÖHLMANN; TALLOEN, 2010). A expressão gênica corresponde a vários eventos e se inicia pela transposição do transcrito no núcleo até a tradução do mRNA no ribossomo em proteína. Assim, a expressão gênica corresponde ao processo em que a informação codificada por um determinado gene é compilada em uma molécula. Com algumas exceções, as células que constituem o organismo humano possuem a mesma carga genética, ou seja, o mesmo DNA. O que diferencia dois grupos celulares morfologicamente distintos são os genes expressos e os níveis de expressão desses genes. Para medir os níveis de expressão dos genes são usadas várias técnicas experimentais e uma delas – os microarranjos – se destaca na Biologia Sistêmica desde a sua descoberta, em 1982. Os microarranjos são usados para medir grandes quantidades 21 simultâneas de níveis de expressão de transcritos e consistem em conjuntos ordenados de milhares de moléculas de DNA organizadas em sondas (SIMÃO et al., 2012). Praticamente todas as células possuem o mesmo material genético, ou seja, cerca de 100.000 genes, dos quais apenas uma fração deles, em cada célula, expressa proteínas. A maioria dos genes normalmente está suprimida e sua ativação depende de uma série de fatores, tanto endógenos (hormônios e fatores de crescimento) quanto exógenos (influência do meio ambiente). Esse processo de síntese proteica envolve a ativação de genes específicos, bem como sua transcrição e tradução (STRACHAN e READ, 2006). A regulação da expressão de novas proteínas se dá principalmente no nível da tradução, e não da transcrição, do gene em questão (ZOPPI, 2005). Na década de 80, passou- se a utilizar a técnica de reação em cadeia da polimerase (PCR), que possibilita fazer milhares de cópias de um único pedaço de DNA através de tubos de ensaio contendo o DNA e mais alguns compostos necessários, como primers e a enzima DNA-polimerase. O PCR em tempo real permite, assim, o acompanhamento da reação e apresenta resultados de forma precisa, rápida e quantitativa. Esse método realiza a síntese de fragmentos de DNA usando a enzima DNA-polimerase, a mesma que participa da replicação do material genético nas células. Essa enzima sintetiza uma sequência complementar de DNA, desde que um pequeno fragmento (o iniciador, ou primer) esteja ligado a uma das cadeias do DNA no ponto escolhido para o início da síntese. Os iniciadores definem a sequência a ser replicada e o resultado obtido é uma amplificação de uma determinada sequência do DNA com bilhões de cópias. Outra aplicação para o PCR é a clonagem de um determinado fragmento de DNA, que pode ser um gene, e o reconhecimento do DNA codificante (cDNA), obtido a partir da molécula de RNA, o que permite o estudo da expressão de genes. O PCR realiza a quantificação de ácidos nucleicos de maneira precisa e com maior reprodutibilidade porque determina valores durante a fase exponencial da reação (NOVAIS; PIRES-ALVES e SILVA, 2004). Outra técnica em destaque, que envolve as tecnologias de sequenciamento de nova geração, é a RNA-Seq. Sua ampla utilização faz com que o método seja inovador em pesquisas de transcriptomas. Além de proporcionar uma maior sensibilidade das técnicas anteriores, como por exemplo os microarrays, o RNA-Seq não necessita de uma lista pré- definida dos genes que se deseja detectar e, portanto, não se limita apenas à avaliação de genes para os quais existam sondas (BULLARD et al., 2010, MARIONI et al., 2008). A princípio, qualquer transcrito que esteja sendo expresso pode ser detectado através desta 22 técnica. Com isso, novas informações são geradas e analisadas por softwares específicos, tornando esses dados mais claros aos observadores. Dessa forma, os pesquisadores podem utilizar as informações obtidas em novas investigações e comparações de organismos. O RNA-Seq permite, ainda, o estudo de vários fenômenos biológicos, incluindo polimorfismo de nucleotídeo único (SNP), eventos epigenéticos, splicing alternativo e o estudo de interações proteína-DNA (SOUZA, 2015). 2.1.2 Síntese Proteica Segundo Carvalho e colaboradores (2012), as proteínas constituem mais de 50% da massa total de uma célula. Sua síntese tem uma fundamental importância para a manutenção e o crescimento celular. A síntese proteica ocorre nos ribossomos e envolve vários tipos de moléculas de RNA (ácido ribonucleico), que atuam nas diversas etapas do processo. Primeiramente, uma molécula de RNA mensageiro (RNAm) é sintetizada a partir de uma das cadeias do DNA (ácido desoxirribonucleico), para codificar a proteína. No citoplasma,cada molécula dos 20 aminoácidos que entram na composição das proteínas deve ligar-se a seus respectivos RNAs transportadores (RNAt), assim como as subunidades ribossômicas que irão promover a síntese precisam associar-se às proteínas que auxiliarão no processo de síntese (ALBERTS et al., 2010). A síntese proteica inicia-se quando todos os componentes (um RNAm, um dos RNAt e as subunidades de um ribossomo) se juntam para formar um ribossomo funcional, sendo que cada ribossomo percorre a molécula de RNAm, traduzindo a sequência de códons em uma sequência de aminoácidos (CARVALHO; RECCO-PIMENTEL, 2012). O conhecimento sobre as informações contidas no DNA alcançou grandes avanços nos últimos anos, mas ainda há muito a descobrir. Por outro lado, os dados contidos no DNA são de composição simples. Eles se constituem por apenas quatro tipos de nucleotídeos, que são referenciados pelas bases nitrogenadas que os diferenciam: adenina, citosina, guanina e timina, ou, respectivamente, A, C, G e T (NLM, 2009), como mostra a Figura 1. 23 Figura 1 – Estrutura do DNA. As faixas cinzas representam as duas cadeias de açúcar- fosfato, os pares de bases (Adenina e Timina, Guanina e Citosina) formam conexões horizontais entre as cadeias, as quais correm em direções opostas Fonte: Figura adaptada2. Um gene geralmente codifica uma proteína; mas, devido a algumas exceções, existem genes que codificam mais de uma proteína, como por exemplo, na Botânica, o gene ZIFL1: na raiz da planta, ele produz uma proteína que é responsável pelo transporte de auxina (hormônio do crescimento), enquanto nas folhas o mesmo gene produz uma outra proteína, responsável pela tolerância à seca na planta (REMY et al., 2015). O relacionamento existente é de 1 para 1 entre gene e proteína e, muitas vezes, o gene tem sua identificação pela proteína que o ativa (MAGATÃO; JÚNIOR, 2008). O DNA é geralmente encontrado como uma molécula em forma de dupla hélice, mas, quando se trata dos dados, se analisa apenas uma das fitas por vez. Uma sequência de DNA 2 Disponível em ambiente virtual: https://www.nature.com/scitable/topicpage/discovery-of-dna-structure-and- function-watson-397. Acesso em: 25 out. 2018. 24 é representada por uma sequência de texto contendo as letras que traduzem as bases dessa fita: A, C, G e T. Nas estruturas de uma molécula de DNA, cada base em uma das fitas corresponde a uma outra base da outra fita, sendo essas ligadas por pares, especificamente de A-T (adenina e timina) e C-G (citosina e guanina). A estrutura de dupla fita do DNA permite não só que a molécula seja mais estável, mas também funciona como um dispositivo de correção de erro no caso de dano a alguma base. Um exemplo desse tipo de dano é aquele causado pelo excesso de radiação ultravioleta do sol (ALBERTS et al., 2010). Essas unidades hereditárias dos organismos, apesar de poderem ser definidas de diversas maneiras, são tratadas como unidades do DNA que contêm instruções para a codificação de uma proteína, mesmo que alguns deles produzam RNAs que não codificam proteínas (GRIFFITHS et al., 2013). Esta molécula de RNA é bastante semelhante à do DNA. Entretanto, no RNA, encontra-se a base U (uracil) no lugar de T (timina). Entre outras diferenças, o RNA é, em geral, encontrado como uma molécula de fita simples (ALBERTS et al., 2010); ele pode ser classificado em três tipos: mensageiro, ribossômico e transportador (Figura 2). Essas moléculas apresentam diversas funções, como, por exemplo, os RNAs que correspondem a genes que codificam proteínas, denominados de RNA mensageiros, ou mRNA (GRIFFITHS et al., 2013). Figura 2 – Tipos de RNA: Mensageiro, Ribossômico e Transportador Fonte: Figura adaptada3. 3 Disponível em ambiente virtual: https://escolaeducacao.com.br/rna. Acesso em: 19 maio 2020. 25 Entre outras funções, as proteínas são constituintes estruturais do “maquinário” da célula. Elas são moléculas que diferem quimicamente do DNA e RNA, pois possuem aminoácidos na sua composição, ao invés de nucleotídeos. As proteínas têm a propriedade de se “dobrar” em formas tridimensionais bastante específicas, que dependem de sua sequência de aminoácidos. Deste modo, a sequência de aminoácidos determina a forma de uma proteína e a forma determina sua função: existem proteínas que desempenham as mais diversas funções em um organismo. Com isso, percebe-se que, enquanto nesse contexto, o DNA e o RNA são utilizados principalmente para armazenamento e transporte de informações (Figura 3), as proteínas são o resultado desse processo, mostrando-se responsáveis por inúmeras atividades no organismo (BEDELL et al., 2003). Figura 3 – Fluxo de informação na célula. No processo de replicação do DNA, envolve a participação de várias enzimas, dentre elas a polimerase, que atuam no processo de uma nova molécula de DNA; a transcrição é processo onde o DNA é copiado (transcrito); o processo de tradução consiste em unir os aminoácidos de acordo com a sequência de códons do RNA mensageiro Fonte: Figura adaptada de Bedell et al. (2003). 26 Por sua vez, os aminoácidos que compõem as proteínas são codificados, cada um, por três nucleotídeos. Como são quatro os tipos de nucleotídeos, existem 64 combinações possíveis de códons (grupos de três nucleotídeos). Entretanto, as 64 combinações, conforme o código genético (Figura 4), codificam apenas 20 aminoácidos, sendo que um deles, a Metionina, indica o início da codificação de uma proteína (“start”) e outros 3 códons indicam o final dessa codificação (“stop”). Portanto, vários desses aminoácidos são codificados com redundância por mais de um tipo de códon (ALBERTS et al., 2010). Figura 4 – Código genético padrão. A matriz apresenta as três bases do códon, sendo que a metionina indica o início da codificação de uma proteína (detalhe em verde) e outros três códons indicam o final dessa codificação (detalhe em vermelho) Fonte: Figura adaptada4. No geral, quando se vê uma unidade estrutural específica dentro de uma proteína, essa costuma ter uma função particular associada a ela. Sendo assim, os domínios determinam as características próprias de cada proteína; uma proteína pode conter um ou mais domínios expressos (ALBERTS et al., 2010). 4 Disponível em ambiente virtual: http://www.icb.ufmg.br/prodabi/grupo6/codon1.gif. Acesso em: 10 out. 2018. 27 2.1.3 Vias Metabólicas Segundo Kasahara e colaboradores (2010), dá-se o nome de interatoma a todas as interações – ou conjuntos de interações – proteína-proteína. Esse termo se refere principalmente às interações físicas entre as moléculas, embora também possa indicar relações diretas entre genes. Pode-se dizer que as redes são abordagens matemáticas, baseadas na teoria dos grafos, frequentemente utilizadas para modelar redes biológicas (PAVLOPOULOS et al., 2011). Basicamente, um grafo G é representado pelos conjuntos de vértices (V), também chamados de nodos e arestas (E). Uma aresta nada mais é que um par de vértices (u, v), u, v ∈ V, representando uma conexão entre os vértices u e v. No contexto de redes de interação gênica e proteica, o conjunto “V” simboliza os genes ou vias, enquanto “E” corresponde às conexões entre os mesmos. Devido às particularidades envolvendo suas informações, cada tipo de dado biológico é ilustrado de uma determinada maneira. Dados de PPI (redes de interações de proteínas), por exemplo, geralmente são definidos como grafos não-dirigidos; ou seja, (u, v) = (v, u) para todo u, v ∈ V, como demonstrado na Figura 6 (BARABÁSI; OLTVAI, 2004). Uma via metabólica é formada por um grupo de proteínas responsáveis por determinadas funções.Um exemplo disso é uma via de reparo que ativa as proteínas responsáveis, cujo papel é reparar a célula ou parte do DNA (LAMBERT, 2009). O metabolismo de todos os organismos é caracterizado por uma rede complexa de moléculas conectadas por reações químicas catalisadas por enzimas. As reações são organizadas em módulos chamados mapas metabólicos. Esses realizam funções específicas, como o anabolismo, ou síntese de compostos, e o catabolismo, que é a degradação (quebra) desses compostos: a produção de energia, por exemplo. O conjunto completo desses mapas caracteriza a rede metabólica de um dado organismo (BARABÁSI; JEONG, 2000). Barabási e Oltvai (2004) propuseram uma representação gráfica da rede metabólica em que os nodos representam os substratos (proteínas), que estão ligados uns aos outros através de arestas. Essas últimas são as reações metabólicas propriamente ditas. Neste século, o principal desafio para a Biologia é a compreensão da estrutura e dinâmica da complexa rede intercelular de interações que corroboram para a estrutura e a função de uma célula viva. O comportamento da maioria desses sistemas complexos provém da atividade ordenada de muitos componentes que se relacionam entre si por meio de interações emparelhadas. Ou seja, de forma abstrata, é possível afirmar que os componentes podem ser 28 reduzidos a uma série de nodos conectados uns aos outros por arestas; cada aresta representa as interações entre dois componentes, sendo o seu produto (nodos e arestas interligados) a formação de uma rede (gráfico). De acordo com os tipos das interações, as redes podem ser direcionadas ou não (BARABÁSI; OLTVAI, 2004). Em redes direcionadas, pode-se dizer que a relação entre quaisquer dois nodos tem sua direção bem específica: representa, por exemplo, a direção do fluxo de informação de um fator de transcrição para o gene que regula. Em redes não direcionadas, as arestas não têm uma direção atribuída, como é possível verificar em redes de interação de proteínas (Figura 5). Uma ligação representa uma relação de ligação mútua: se a proteína A se liga à proteína B, então a proteína B também se liga à proteína A. Figura 5 – Representação gráfica proposta por Barabási e Oltvai (2004) da rede metabólica onde os nós representam os substratos que estão ligados uns aos outros através de conexões que são as reações metabólicas Fonte: BARABÁSI; OLTVAI (2004). Entretanto, as vias metabólicas contêm interações sequenciais em seu sistema. Estas podem ser representadas por grafos dirigidos, nos quais a aresta (u,v) é um par ordenado. 29 Sendo assim, a aresta (v,u) é invertida em relação a (u,v) (KHOLODENKO; HANCOCK; KOLCH, 2010). Esses grafos ponderados, nos quais as arestas contêm pesos associados a elas, também são muito utilizados para análise estrutural de proteínas ou para a co-expressão de genes (LEE et al., 2013). Geralmente, um sistema complexo apresenta uma grande heterogeneidade em relação às estruturas de representação dos grafos. Por isso, a aplicação de conceitos da teoria de redes complexas permite encontrar uma relação entre possíveis genes e proteínas causadoras de uma determinada condição ou qualquer outro tipo de associação biológica desejada, com base em dados de interação biológica (PAVLOPOULOS et al., 2011). Alguns dos principais conceitos de teoria de redes complexas aplicados na Biologia Sistêmica são determinados pelo grau de um vértice “i” (ki): número de arestas (conexões) associadas ao vértice “i” por Hub – um vértice é um hub caso tenha um grau ki muito acima da média dos graus dos demais vértices. As principais vias associadas com o desenvolvimento humano (tais como genes envolvidos no crescimento embrionário e proteínas metabólicas fundamentais) seriam hubs, fundamentais para a manutenção do sistema genético. Por isso, a remoção de um hub central pode ter um impacto significativo na rede, levando-a a perder conexões essenciais de seu funcionamento (CHO; ZHANG, 2010). Também pode ser por agrupamento (clustering) de vias, as quais representam genes ou proteínas que tendem a se reunir em módulos funcionais. Um vértice possui um alto coeficiente de agrupamento (clustering) se os seus “vizinhos” tendem a se conectar. Quanto maior a densidade de conexões entre os vizinhos de um vértice, maior o seu coeficiente de agrupamento. Segundo Barrera e colaboradores (2007), genes/proteínas localizados em um mesmo módulo fortemente agrupado tendem a participar de um mesmo processo biológico. Outros conceitos, como “brokers”, são vértices com baixíssimo coeficiente de agrupamento. Ou seja, é considerado um broker um gene/proteína que se conecta a diversos genes/proteínas que não se ligam entre si, apenas agem como se fossem um elo. Propõe-se, então, que um fenótipo patológico pode ser originado a partir de uma alteração em um gene broker, em que o gene ligado em sua porção terminal não possa ser expresso. Um último conceito diz respeito aos Bridges, vértices que ligam grupos distintos de sub-redes dentro de um grafo. Esses atuam como “pontes” entre esses dois agrupamentos (CAI et al., 2010). 30 Em relação ao funcionamento das redes de reparo de DNA em câncer, pode-se dizer que a célula possui diferentes mecanismos de reparo para proteger o DNA contra danos, como as quebras de cadeias de DNA ocasionadas pela radiação ultravioleta. Os sistemas de reparo se constituem como redes genéticas especializadas nessa proteção, uma vez que impedem que diferentes tipos de danos sejam fixados no material genético. Em células cancerosas, essas redes podem não funcionar corretamente, resultando em uma série de mutações. Sabe-se que os genes de uma das cinco redes de reparo, chamada de Reparo por Excisão de Nucleotídeos (NER), não possui mutações catalogadas causalmente relacionadas ao câncer somático. Por esse motivo, acredita-se que ela não estaria envolvida no aparecimento de células cancerosas, assim como o reparo de excisão de base (BER), o reparo de incompatibilidade de DNA (MMR), etc. (FUTREAL et al., 2004). Os genes centrais desses módulos foram validados por meio de análise de sobrevivência, enquanto as funções biológicas dos lncRNAs cruciais também foram interpretadas a partir dos dados publicamente disponíveis. Os resultados identificaram um módulo associado à sobrevivência com 113 genes-chave, como se observa na Figura 6, que representa a rede de interação proteína-proteína (CHEN et al., 2019). Figura 6 – Rede PPI (Interação Proteína-Proteína) dos genes significativos no glioblastoma multiforme gerada através do banco de dados online STRING, onde foram selecionados 113 genes para construir a rede . Fonte: CHEN et al. (2019). 31 Em sua pesquisa, Chen e colaboradores (2019) propuseram um estudo a fim de elucidar os principais genes codificantes e não-codificantes (lncRNAs) de RNAs, associados ao tempo de sobrevivência de pacientes com GBM. Os perfis de expressão de RNA foram obtidos do banco de dados do Chinese Glioma Genome Atlas e os genes reconhecidos com análise de rede de expressão. Módulos associados com a sobrevida global foram identificados e analisados através de ontologias genéticas e enriquecimento das vias. Em outro exemplo de vias metabólicas pode-se citar o risco genético para o câncer de mama, conferido por uma combinação de múltiplas variantes (CASTRO et al., 2015). Para um melhor entendimento, examina-se se os genes associados ao risco compartilham mecanismos reguladores. Com este intuito, foi criada uma rede reguladora (Figura 7) do gene do câncer de mama, que compreende fatores de transcrição e grupos de genes alvo (regulons). Seu papel é verificar se os regulons (coleção de genes sendo regulados pela mesma proteína) específicos são enriquecidos para genes associados a lócus derisco e QTLs (via expression quantitative trait loci). Figura 7 – Redes genéticas demonstrando o risco de câncer de mama, representadas pelo método de Bonferroni, através dos valores de P obtidos para cada regulon Fonte: CASTRO et al. (2015). 32 No estudo, identificaram-se 36 regulons sobrepostos; estes foram enriquecidos para locos de risco e formaram um cluster distinto dentro da rede, sugerindo biologia compartilhada, como se observou na Figura 7. Essa identificação se deu através do método de Bonferroni, que consiste em controlar o nível de confiança simultâneo para um conjunto completo de intervalos, porque a chance de que pelo menos um intervalo de confiança não contenha o parâmetro da população é maior para um conjunto de intervalos do que para um único intervalo. Sendo assim, para compensar essa alta taxa de erro, esse método ajusta o nível de confiança para cada intervalo individual, de forma que o nível de confiança simultâneo resultante seja igual ao valor especificado (CASTRO et al., 2015). 2.1.4 Genotoxicidade, Citotoxicidade e Mutagênese A célula humana, ao detectar o DNA danificado, inicia a resposta de dano ao DNA (DDR), que permite repará-lo e evitar transmiti-lo às células-filhas. Apesar dessa solução, mudanças no genoma ocorrem e algumas células, por exemplo as neoplásicas, são propensas ao acúmulo de instabilidade no genoma (CHEN et al., 2012). Há evidências de que a morte celular causada por fármacos citotóxicos contra o câncer, em alguns casos, inclui a parada do ciclo celular de dano ao DNA. Além disso, algumas células são capazes de sobreviver a esse processo no momento em que o genoma é mais suscetível a mudanças ou rearranjos. Muitas vezes, a adaptação do ponto de checagem é mal caracterizada em células humanas. Por isso, compreender essa via de instabilidade genômica nas células cancerosas possibilitará o fornecimento de informações sobre métodos para melhorar a eficácia das terapias atuais contra o câncer (SWIFT; GOLSTEYN, 2014). A integridade genômica das células é frequentemente desafiada por agentes químicos e/ou físicos que podem modificar as bases dos nucleotídeos e alterar ou quebrar o esqueleto do açúcar-fosfato. Esses agentes que provocam o dano ao DNA podem ser classificados de várias maneiras: como endógenos (subprodutos reativos de processos como metabolismo ou inflamação); exógenos (agentes presentes em alimentos, água ou ar); e também físicos: luz ultravioleta (UV), radiação ionizante ou fármacos, tais como espécies reativas de oxigênio (ROS) (CAVALIERI et al., 2012). O tipo de dano ao DNA tem impacto no destino de uma célula, causando morte celular ou sendo mutagênico, o que pode levar a doenças como o câncer. Além disso, os agentes citogenotóxicos são comumentemente usados para tratar o câncer; assim, entender como as células respondem a eles é fundamental para aumentar sua eficácia (SWIFT; GOLSTEYN, 2014). 33 O Glioblastoma Multiforme (Figura 8), tipo de câncer, é uma doença complexa, caracterizada por pelo menos seis propriedades marcantes. Duas delas são a proliferação e a resistência à morte celular (incluindo apoptose): estas atuam em nível celular e são causadas por alterações no genoma. A maioria das células cancerígenas se divide mais frequentemente do que as células normais e o processo de divisão celular pode ser direcionado para tratar pacientes com câncer. O objetivo dos compostos citotóxicos (quimioterapia) e da radiação ionizante (radioterapia) é inibir a proliferação neoplásica, promovendo a parada do ciclo celular e, consequentemente, a morte destas células. Figura 8 – Glioblastoma Multiforme (GBM): Fases e Alterações Fonte: Adaptada de Broekman et al. (2018). Segundo o Instituto Nacional do Câncer (INCA), a taxa de reincidência de tumores no sistema nervoso central (SNC) no Brasil, em agosto de 2019, foi de 5,62 novos casos para cada 100 mil homens e 5,17 novos casos para cada 100 mil mulheres. Gliomas representam o tipo histológico mais frequente (40 a 60%) dos tumores primários nesta localização, sendo mais comum em adultos. Entre 12 a 15% dos casos de tumores malignos intracraniais são diagnosticados como GBM. Esse é, portanto, o grau mais comum e responde por mais da metade (50 a 60%) dos gliomas. Embora a incidência seja baixa, o prognóstico é pior que 34 qualquer outro tumor do SNC: apenas 5% dos pacientes ultrapassam a sobrevida de 5 anos após o diagnóstico (VELIZ et al., 2015). Com o avanço da intervenção neurocirúrgica, associada a sessões de quimioterapia e radioterapia, a média de sobrevida para o glioblastoma é de menos de 15 meses após o diagnóstico. Em caso de reincidência, estima-se uma média de 6 a 12 meses após o início do tratamento com quimioterapia ou radioterapia utilizando-se os fármacos estudados (BAÚ, 2016). A Temozolomida é um medicamento utilizado juntamente com a radioterapia e sua administração tem aumentado a média de vida de pacientes com glioblastoma de 12,1 para 14,6 meses, com 27% dos pacientes vivos em 2 anos, ao invés dos 10% sem o fármaco (BOCCARD, 2015). A Bevacizumabe atua como anticorpo monoclonal e fragmento de anticorpos desenvolvidos para combater o fator de crescimento endotelial vascular (KIRCHHOF, 2015). Já a Dibenzazepina é um inibidor de γ-secretase e, portanto, da via Notch, via de tumor supressor (YEUNG, 2011). Segundo Jiang e colaboradores (2013), a célula de origem para esses tumores ainda é contraditória. Algumas teorias postulam que células tronco-tumorais e progenitores neurais podem sofrer eventos de transformação maligna e até diferenciação de células maduras, como astrócitos e oligodendrócitos, para dar origem a esses tumores. Os GBM são recidivos, embora 10% tenham uma história clínica prévia de astrocitoma de menor grau, sendo esses denominados de GBM secundários; essa classificação de primário ou secundário também apresenta relação com diferentes expressões gênica e sintomas (VAN MEIER et al., 2010). Nos últimos anos, o uso de Temozolomida (TMZ), em conjunto com a radioterapia, tornou-se padrão no tratamento do glioblastoma devido ao seu sucesso em atravessar a barreira sangue-cérebro (JOHNSON; O’NEILL, 2012). A radiação ionizante causa danos indiretos ao DNA ao produzir ROS (espécies reativas de oxigênio), átomos ou moléculas que carregam radicais livres em sua camada externa, fazendo com que sejam altamente reativos. Para evitar a transmissão de DNA danificado para as células-filhas durante a divisão celular, o DNA danificado deve ser reparado; é necessária, também, a ativação do ponto de verificação do ciclo celular para interromper a sequência. Se o dano ao DNA for irreparável, as células podem sinalizar senescência (parada de crescimento), apoptose (morte celular programada) ou outras vias que levam à morte celular. Os pontos de checagem de danos no DNA compreendem vias bioquímicas que retardam ou interrompem a progressão do ciclo celular em resposta a danos e são definidos, com base na 35 transição em que essa progressão está sendo interrompida, como G1/S, intra-S, e G2/M checkpoints (SANCAR et al., 2004). Inicialmente, o termo ponto de checagem era definido como o ponto em que a integridade do DNA era examinada, antes da progressão no ciclo celular. Posteriormente, a denominação começou a incluir outras respostas celulares além da interrupção do ciclo, como a indução de reparo no DNA e a apoptose. Essa maior abrangência tem base no fato de que proteínas envolvidas no controle do ciclo celular também são capazes de levar a esses mesmos resultados. Porém, tanto os reparos quanto a apoptose podem ocorrer independentemente dos chekpoints (Figura 9) (ALBERTS et al., 2010). Figura 9 – A fase G1 (do inglês gap,que significa lacuna) é o intervalo entre o término da fase M e início da fase S. Na fase S (de síntese) ocorre a replicação do DNA nuclear, e G2 é a fase de intervalo entre as fases S e M. A fase M é compreendida pela mitose, em que ocorre a divisão nuclear e a citocinese, a partir da qual acontece a divisão celular Fonte: ALBERTS et al. (2010). Além do tratamento de radioterapia com o Temozolomida, algumas mutações podem ou não ocorrer espontaneamente, como as provocadas por agentes físicos, químicos ou biológicos (MATSUMOTO, 2004). As mutações podem ocorrer em dois diferentes níveis: mutação gênica (ou mutação de ponto) e mutação cromossômica. Na mutação gênica, ocorrem alterações em pares de bases únicos do DNA ou em um pequeno número de pares de bases. Esse tipo de mutação pode ocorrer por substituição de pares de base – o que possibilitará a leitura de um aminoácido diferente, modificando a proteína final – ou por adição e deleção de pares de base. Uma única adição ou deleção desses pares pode provocar 36 um deslocamento no quadro de leitura, uma vez que a sequência do mRNA é lida em grupos de 3 pares de bases (códons). Por isso, essa modificação interfere na sequência de polipeptídeos, também modificando a proteína final (GRIFFITHS et al., 2013). Na mutação cromossômica, ocorrem alterações em uma região cromossômica, cromossomos inteiros ou até mesmo em grupos inteiros de cromossomos. Esse tipo de mutação pode ser classificado como numérico – quando acarreta em alteração no número de cromossomos da célula – ou como mutação estrutural – na qual ocorre uma mudança na forma ou no tamanho de um cromossomo (GRIFFITHS et al., 2013). Como visto anteriormente, o mecanismo de defesa das células às mutações tem relação com a ativação do sistema de reparo, que pode agir diretamente no DNA, consertando o erro. Esse sistema de reparo pode ser ativado diretamente ou após um bloqueio no ciclo celular. Nesse caso, após o reparo do erro, a célula segue o ciclo celular. No entanto, se o dano não puder ser reparado ou houver muitas lesões no DNA, o ciclo pode ser bloqueado permanentemente, conduzindo ao envelhecimento da célula (senescência) ou induzindo à apoptose (SANCAR et al., 2004). As mutações são a fonte de variabilidade genética de uma população, sendo, portanto, fundamentais para a manutenção das espécies. Porém, podem causar doenças tanto aos indivíduos como a seus descendentes, dependendo da quantidade, do tipo e do local onde ocorrem (UMBUZEIRO; VARGAS, 2003). Os testes em eucariotos são utilizados para a detecção de uma amplitude de danos que abrangem desde as mutações gênicas até os danos cromossômicos e aneuploidias. Já os ensaios com procariontes, como o teste com Salmonella typhimurium, são muitos úteis para a análise de agentes que induzem mutações gênicas ou para a identificação de danos primários no DNA (HOUK, 1992). Os estudos de genotoxicidade têm um papel importante no desenvolvimento de novos fármacos (GOLLAPUDI; KRISHNA, 2000; HARTMANN et al., 2001). Por isso, devem ser realizados nos estágios iniciais desse procedimento, a fim de prognosticar uma potencial atividade genotóxica e/ou carcinogênica e auxiliar na obtenção de novas estruturas químicas, menos tóxicas (GOLLAPUDI; KRISHNA, 2000; SNYDER; GREEN, 2001). Os agentes genotóxicos podem ser definidos funcionalmente por possuírem a habilidade de alterar a replicação do DNA e a transmissão genética. Dessa forma, as medidas de genotoxicidade incluem, principalmente, danos no DNA e mutações ou aberrações cromossômicas (COMBES, 1992). 37 Os ensaios de genotoxicidade in vitro são ferramentas sensíveis para a detecção do dano de DNA e do potencial carcinogênico de agentes químicos ou físicos (EISENBRAND et al., 2002). Eles podem ser avaliados pelos seguintes ensaios: teste de Ames (FERRER et al., 2002), teste de micronúcleos (SILVA et al., 2002), ensaio do Cometa (HARTMANN, 2001), entre outros. 2.2 BIOINFORMÁTICA E NANOCIÊNCIAS A Bioinformática pode ser definida como a conceptualização da Biologia Molecular e a aplicação de técnicas computacionais (incluindo hardware e software) para perceber e organizar informações associadas às funções biológicas, mais especificamente os genes. Como uma ciência multidisciplinar, ela envolve a engenharia de softwares, a Matemática, a Física, a Química, a Estatística, a Ciência da Computação e a Biologia Molecular, sendo responsável por armazenar e relacionar dados biológicos com o auxílio de métodos computacionais e algoritmos matemáticos (VERLI, 2014). A Bioinformática surgiu entre as décadas de 60 e 70, com a publicação do trabalho “Atlas of Protein Sequence and Protein”, de autoria de Margaret Dayhoff, pioneira em perceber processos bioquímicos utilizando o computador. No entanto, por volta do ano de 1953, os cientistas James Dewey Watson e Francis Crick haviam modelado, em uma estrutura de ferro e madeira, uma dupla hélice, a fim de representar a molécula de DNA (SETUBAL, 2003). Essa modelagem foi possível por conta da grande contribuição de Rosalind Franklin, que havia descoberto a dupla hélice do DNA através de imagens da difração de raios-X do DNA. A publicação do seu trabalho na revista científica Nature foi um dos grandes marcos na história da Biologia no século passado. A molécula de DNA contém o código hereditário (genético) de cada ser. Pelo modelo proposto por Watson e Crick, ela é constituída por duas cadeias antiparalelas de nucleotídeos, unidas em sequência em um espaço disposto helicoidal; ou seja, as cadeias giram em torno de um eixo. Através desta molécula, foi possível entender como ocorrem as mutações celulares, as codificações e a replicação das moléculas. Posteriormente, surgiram outros métodos no sequenciamento dos polímeros de DNA, o que permitiu o estudo das formas mais simples que o compõe. Esses polímeros, desde então, passaram a ser os principais objetos de estudos na nova ciência, a Biologia Molecular: mais de 18 milhões dessas sequências já foram produzidas e estão disponíveis em bancos de dados públicos (FILHO, 2002). 38 Juntamente com a evolução da Informática na década de 90, começaram a surgir sequenciadores automáticos de DNA, o que aumentou consideravelmente a quantidade de sequências genéticas a serem estudadas e armazenadas, exigindo, assim, cada vez mais recursos computacionais para seu armazenamento e manipulação. Em outras palavras, pode- se afirmar que somente quando os computadores estavam suficientemente munidos com uma estrutura que pudesse processar milhões de sequências puderam-se obter resultados significativos nas pesquisas com o genoma humano (SETUBAL, 2003). Em sua análise, Setubal (2003) observou que, se o sequenciamento automático do DNA tivesse sido descoberto com aproximadamente 20 anos de antecedência, não haveria computadores com o poder de processamento suficiente para manipular e gerenciar os dados coletados. Em uma analogia, pode-se remeter à década de 70, na qual um computador de grande porte tinha alguns kilobytes de memória e não seria capaz de processar sequer o genoma de um único vírus, que pode chegar a 20 kilobases (20 mil bases ou 20 KB). Com os computadores mais velozes e de menor custo, juntamente com as pesquisas nas áreas da biologia molecular gerando milhares de informações para serem catalogadas e organizadas, nascia a fusão destas ciências, a bioinformática, uma ciência que envolve diversas linhas de conhecimento, como a engenharia de software, a matemática, física, química, estatística, a ciência da computação e a biologia molecular. (FILHO, 2002, p. 8) Com o surgimento dessa nova área, os primeiros pesquisadores eram basicamente médicos, físicose outros profissionais de áreas diferentes da Biologia, que possuíam certos conhecimentos de Informática. Segundo Filho (2002), havia uma grande dificuldade entre a comunicação de biólogos com cientistas da computação, já que os primeiros levam em consideração resultados como incertezas e erros, que podem ocorrer na prática, enquanto os últimos procuram sempre uma solução direta para um problema. Por conta dessa variante em seus métodos de pesquisa, foi preciso recorrer a um profissional com conhecimento suficiente em ambas as áreas, que fosse capaz de identificar um problema biológico real, analisar quais seriam suas opções e métodos de pesquisa e desenvolver uma solução através de uma abordagem computacional para avaliar os problemas identificados. Foi assim que surgiram os bioinformatas (VERLI, 2014). Pode-se citar como um exemplo clássico do trabalho desse profissional na Informática o Sistema de Gerenciamento de Banco de Dados (SGBD): é de suma importância que esse sistema esteja disponível, a fim de suportar uma demanda robusta no gerenciamento dessas informações que, muitas vezes, geram petabytes de dados biológicos e necessitam de 39 um repositório desenvolvido e seguro, bem como de um especialista que assegure essa disponibilidade e integridade dos dados. No início, o arquivamento de dados nesta área era realizado por grupos de pesquisa individuais, motivado pelo interesse da ciência naqueles dados, com o aumento da demanda por profissionais e equipamentos, juntamente com uma maior ênfase em computação, os arquivamentos passaram a ser de responsabilidade de projetos de grande escala. (LESK, 2008 p. 138) De acordo com o grande sucesso do projeto Genoma Humano – na década de 90, ele sequenciou inicialmente pouco mais de 20% (25.000 genes) do total do material genético humano) –, a Bioinformática, mesmo enfrentando problemas por razões de limitações das tecnologias, previa um tempo de aproximadamente 15 anos para completar a totalidade da codificação. Contudo, em 14 de abril de 2003, foi anunciado o mapeamento total do código genético humano: aproximadamente 3,3 bilhões de pares de nucleotídeos (NHGRI, 2017). Com o advento da nanotecnologia, hoje é possível ir além. Pode-se estudar os princípios fundamentais de moléculas e estruturas, nas quais pelo menos uma das dimensões está compreendida entre cerca de 1 a 100 nanômetros. Essas organizações são conhecidas como nanoestruturas. Essa consideração é importante na medida em que existem propriedades fundamentais, químicas e físicas, dos materiais, que mudam conforme o tamanho (MARCONE, 2015). Uma das aplicações da nanotecnologia que se destaca em termos de estudos refere-se à liberação de fármacos, principalmente na área farmacêutica, na qual são desenvolvidos fármacos dentro de um sistema chamado liberação controlada (SBALQUEIRO et. al, 2018). Fármacos de liberação controlada são aqueles que tem como objetivo fornecer uma dose terapêutica de um fármaco para um local do corpo pré-determinado, mantendo a concentração desejada de modo apropriado. O intuito desse procedimento é manter os níveis sanguíneos em índices satisfatórios (GENNARO, 2004). 2.3 TRABALHOS RELACIONADOS 2.3.1 Construção de uma rede com a ferramenta PHP (Hipertexto pré-processado) Em sua pesquisa, intitulada Identificação de padrões de expressão em doenças genéticas usando uma rede de integração de vias de manutenção do genoma, angiogênese, hipóxia e vigilância imunológica, Vieira (2016) propôs um modelo de redes de interações 40 entre vias de manutenção genômica e angiogênese, incluindo atividades regulatórias, hipóxia e sistema imunológico. O autor sugeriu estudar a atividade relativa em relação à adenoma e ao carcinoma do córtex adrenal, manipulando dados de microarranjos e calculando a expressão das vias pela sua atividade relativa associada ao teste Z. Vieira definiu, assim, a significância de sua pesquisa e demonstrou quais vias estariam expressas em adenoma e carcinoma do córtex adrenal, com a possível exibição (demonstração em grafos) da rede, com todas as vias ativas conectadas (VIEIRA, 2016). Após o processamento das vias e aplicação de testes estatísticos, foram exibidos os resultados através de grafos, nos quais os nós representavam as vias e as arestas suas interações. Através do software desenvolvido foi possível identificar as diferenças que os organismos apresentavam nestas condições. Dessa maneira, permitiu-se a sugestão de utilização dessa técnica para identificar as modificações que o câncer poderia apresentar nas ocorrências de utilização de um fármaco nanoencapsulado. A próxima etapa em seu trabalho foi identificar quais vias permaneciam conectadas em um organismo acometido por uma doença genética. Neste ponto do estudo, o processo se iniciou pelas amostras de valores de expressão gênica por microarranjos disponíveis em bancos de dados biológicos, através de amostras de microarranjos, produzidos pela Affymetrix, de tecidos doentes e saudáveis. De posse dessas informações, foi realizada uma análise de dados para parear os conjuntos de sondas com os nomes dos genes constantes na plataforma GPL570. Logo após, foram calculadas as médias das amostras com tecidos doentes e tecidos saudáveis separadamente, para caracterizar a diferenciação de expressão em cada uma das vias estudadas dentro da etapa evolutiva (normal/adenoma/câncer), por gene (VIEIRA, 2016). Após a identificação dos genes pertencentes às vias e com o intuito de calcular o nível de interação de cada via na rede, buscou-se a interação das sondas que continham dois genes de mesmo nome, mantidos os que possuíam maior diferença de expressão. Finalmente, foram realizados os cálculos estatísticos "Z" para definir a significância da via e, como resultado, quais vias estão significativamente expressas. Depois de chegar ao valor do ranque da via, definindo a quantidade de ligações do nó, o próximo passo é a exibição dos grafos da rede de interações. A Figura 10 ilustra sua metodologia (VIEIRA, 2016). 41 Figura 10 – Metodologia utilizada, que parte da seleção de microarranjos em bancos de dados biológicos com amostras de tecidos doentes e saudáveis, fazendo o cruzamento (normalização) dessas vias, realizando os cálculos estatísticos, concretizando o ranqueamento e exibição da rede de interações através de grafos Fonte: VIEIRA (2016). Na construção da Rede Basal de Vieira (2016), pode-se perceber uma aglomeração de vias distintas, como, por exemplo, a via de Apoptose. Essa aglomeração ocorre provavelmente pelo fato de que as vias de um mesmo grupo possuem uma maior quantidade de genes compartilhados entre si, como demonstra a Figura 11. 42 Figura 11 – Representação da rede basal – A formação de módulos permite observar que há aglomerações por tipo de via, nas quais as vias de apoptose (nós vermelhos) se concentram à esquerda, separadas das vias de reparo (amarelo) à direita pelas vias do ciclo celular (verde) Fonte: VIEIRA (2016). 2.3.2 PATHChange O PATHChange é um pacote desenvolvido para a ferramenta R cujo objetivo é realizar cálculos multiestatísticos. Ele está dividido em 4 funções: a primeira finalidade do pacote, o PATHChangeDat, é responsável por proceder o pré-processamento dos dados, fase em que o arquivo suplementar Matrix Series Files, disponibilizado para download no GEO, informa quais as condições especiais a que o estudo foi submetido (FONTOURA, 2016). Esta informação é importante porque, frequentemente, DataSets apresentam várias condições experimentais e controles. Convenientemente, o PATHChangeDat informa ao usuário as condições experimentais do estudo e pergunta quais combinações ele
Compartilhar