Prévia do material em texto
UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE - UFRN PROGRAMA DE PÓS-GRADUAÇÃO EM BIOINFORMÁTICA - PPgBioINFO EPITÁCIO DANTAS FARIAS FILHO ASSINATURA TRANSCRICIONAL DE CARCINOMA RENAL DE CÉLULAS CLARAS BASEADA NO RNA ENDÓGENO COMPETIDOR NATAL/RN AGOSTO/2023 2 EPITÁCIO DANTAS FARIAS FILHO ASSINATURA TRANSCRICIONAL DE CARCINOMA RENAL DE CÉLULAS CLARAS BASEADA NO RNA ENDÓGENO COMPETIDOR Dissertação de Mestrado apresentada ao Programa de Pós-Graduação em Bioinformática da Universidade Federal do Rio Grande do Norte como requisito para a obtenção do grau de Mestre em Bioinformática. Linha de pesquisa: Desenvolvimento de Produtos e Processos Orientadora: Profª.: Drª Beatriz Stransky Ferreira Co-orientador: Prof.: Dr. Patrick Cesar Alves Terrematte NATAL/RN AGOSTO/2023 Farias Filho, Epitácio Dantas de. Assinatura transcricional do carcinoma renal de células claras baseada no RNA endógeno competidor / Epitácio Dantas de Farias Filho. - 2023. 122 f.: il. Universidade Federal do Rio Grande do Norte, Instituto Metrópole Digital, Programa de Pós-Graduação em Bioinformática. Natal, RN, 2023. Orientadora: Profa. Dra. Beatriz Stransky Ferreira. Coorientador: Prof. Dr. Patrick Cesar Alves Terrematte. 1. Carcinoma renal de células claras - Dissertação. 2. Assinatura transcricional - Dissertação. 3. Rede ceRNA - Dissertação. 4. Aprendizado de máquina - Dissertação. 5. Metástase - Dissertação. I. Ferreira, Beatriz Stransky. II. Terrematte, Patrick Cesar Alves. III. Título. RN/UF/BSCB CDU 616.006.6 Universidade Federal do Rio Grande do Norte - UFRN Sistema de Bibliotecas - SISBI Catalogação de Publicação na Fonte. UFRN - Biblioteca Setorial Prof. Leopoldo Nelson - Centro de Biociências - CB Elaborado por KATIA REJANE DA SILVA - CRB-15/351 3 EPITÁCIO DANTAS FARIAS FILHO ASSINATURA TRANSCRICIONAL DE CARCINOMA RENAL DE CÉLULAS CLARAS BASEADA NO RNA ENDÓGENO COMPETIDOR Dissertação de Mestrado apresentada ao Programa de Pós-Graduação em Bioinformática da Universidade Federal do Rio Grande do Norte. Área de Concentração: Bioinformática BANCA EXAMINADORA Profª.: Drª Beatriz Stransky Ferreira (Orientadora) ………….…………... Avaliadora Interna Departamento de Engenharia Biomédica - DEB, UFRN PPgBioINFO, IMD, UFRN Prof.: Dr. Patrick Cesar Alves Terrematte (Co-orientador) ……………....... Avaliador Externo Instituto Metrópole Digital - IMD, UFRN Prof.: Dr. Rodrigo Juliani Siqueira Dalmolin ……………………………… Avaliador Interno Instituto Metrópole Digital - IMD, UFRN PPgBioINFO, IMD, UFRN Prof.: Dr. Alexandre Rossi Paschoal ………………………………….…… Avaliador Externo Universidade Tecnológica Federal do Paraná - UTFPR PPgBioINFO, UTFPR. NATAL/RN AGOSTO/2023 4 Allen meinen Familienmitgliedern, insbesondere meinem Onkel Amilcar Fernandes (1976-2013), dafür, dass er ein Vorbild in meinem Leben ist. 5 AGRADECIMENTOS À Universidade Federal do Rio Grande do Norte (UFRN) por ter sido essa mãe, ajudando de todas as formas possíveis durante todos esses anos, à Coordenação de Aperfeiçoamento de Pessoal do Ensino Superior (CAPES) pelo fomento à pesquisa realizada junto no PPg-Bioinfo/UFRN. Ao Instituto Metrópole Digital (IMD), em especial ao Bioinformatics Multidisciplinary Environment (BioME) pelas oportunidades que me foram proporcionadas e pelos profissionais que pude encontrar em minha jornada. À minha orientadora Beatriz Stransky pelas conversas, discussões, conselhos, incentivos acadêmicos, e pessoais, e principalmente pela paciência, ao meu co-orientador Patrick Terrematte pelas discussões, incentivos acadêmicos e pela paciência. Aos servidores Jéssica Petrovich, Josi, Zuleide e Santana, por toda a assistência, gentileza e conversas durante as pausas para os cafezinhos. Aos amigos e colegas da pós-graduação, em especial a: Bianca Santiago, pelas dicas e risadas, Rafaella Ferraz e Maria Clara Barros, pelas recomendações e discussões instigantes sobre o meu trabalho, pelas palhaçadas durante o dia para tirar o tédio, as melhores paraenses que já conheci, a Renata Cavalcante, Tayná Fiúza e Iara Dantas, pelos conselhos, conversas, recomendações, ensinamentos e por serem minhas inspirações, a Ruth Setúbal e Camila Barbosa, por tornarem as disciplinas do início do mestrado mais produtivas e fáceis de levar no meio de uma pandemia. Aos amigos que a vida e o destino me apresentaram, Ian Rassari, Anna Cunegundes e Viviane França, por possibilitarem as melhores conversas, rolês e conselhos daquele jeitinho que só a gente sabe, Janvita e Dandara, por serem umas queridas na minha vida e que são os meus maiores exemplos de clubbers acadêmicas. À Eulália, que esteve comigo nos meus melhores e piores momentos, ao qual confidenciei tudo, muito obrigado por ter sido presente em todos os momentos de surtos. À minha querida família, que está sempre presente e sendo os maiores apoiadores das minhas escolhas: minha mãe, Aida Fernandes, minha irmã Bárbara Fernandes e meu cunhado Paulo Ricardo, por se dedicarem e me ajudarem em todos os momentos, minha avó Maria da Luz e minha tia Adriana Fernandes, por serem grandes exemplos de mulheres batalhadoras. Aos amores que transpassaram minha vida e que foram vividos, ou não, antes e durante todo esse processo. 6 EPÍGRAFE Só poder e glória (Linna Pereira) 7 SUMÁRIO LISTA DE FIGURAS ................................................................................................................ 9 LISTA DE TABELAS ............................................................................................................. 12 LISTA DE EQUAÇÕES .......................................................................................................... 13 LISTA DE ABREVIATURAS E SIGLAS .............................................................................. 14 RESUMO ................................................................................................................................. 16 ABSTRACT ............................................................................................................................. 17 1. INTRODUÇÃO ................................................................................................................ 18 1.1. CÂNCER RENAL ..................................................................................................... 18 1.2. RNAs NÃO CODIFICANTES .................................................................................. 20 1.3. RNA ENDÓGENO COMPETIDOR - ceRNA ......................................................... 22 1.4. DADOS ÔMICOS E APRENDIZAGEM DE MÁQUINA ...................................... 24 1.4.1. SELEÇÕES DE CARACTERÍSTICAS ............................................................. 25 1.4.2. MÉTRICAS DE AVALIAÇÃO ......................................................................... 30 1.5. JUSTIFICATIVA E RELEVÂNCIA DO TRABALHO ........................................... 32 2. OBJETIVOS ......................................................................................................................... 34 2.1. OBJETIVO GERAL ...................................................................................................... 34 2.2. OBJETIVOS ESPECÍFICOS ........................................................................................ 34 3. METODOLOGIA ................................................................................................................. 35 3.1. FLUXOGRAMA ...........................................................................................................36 3.2. DESCRIÇÃO DA COORTE ......................................................................................... 37 3.2.1. DADOS DOS PACIENTES ................................................................................... 37 3.2.2. AQUISIÇÃO E DESCRIÇÃO DOS DADOS ....................................................... 37 3.3. ASSINATURA TRANSCRICIONAL - ceRNA ........................................................... 38 3.3.1. CONSTRUÇÃO DOS DATASETS ....................................................................... 38 3.3.2. SELEÇÃO DE CARACTERÍSTICAS ................................................................... 39 3.3.3. BENCHMARKING E ASSINATURA OBTIDA .................................................. 39 3.3.4. VALIDAÇÃO COM CONJUNTO DE DADOS EXTERNO ................................ 40 3.4. ANÁLISE INTEGRATIVA DOS COMPONENTES DA ASSINATURA TRANSCRICIONAL ............................................................................................................ 40 3.4.1. ANÁLISE DE ALTERAÇÕES GENÔMICAS ...................................................... 40 3.4.2. ANÁLISE DE RISCO ............................................................................................. 41 3.4.3. ANÁLISE COM LNCSEA ..................................................................................... 42 8 3.4.4. ANÁLISE DE ANOTAÇÃO FUNCIONAL .......................................................... 42 3.5. DESENVOLVIMENTO ................................................................................................ 43 4. RESULTADOS .................................................................................................................... 44 4.1. DESCRIÇÃO DA COORTE ......................................................................................... 44 4.2. ASSINATURA TRANSCRICIONAL – ceRNA .......................................................... 45 4.3. ANÁLISE INTEGRATIVA DOS COMPONENTES DA ASSINATURA TRANSCRICIONAL ............................................................................................................ 51 4.3.1. ANÁLISE DAS ALTERAÇÕES GENÔMICAS ................................................... 52 4.3.2. ANÁLISE RISCO ................................................................................................... 54 4.3.3. ANOTAÇÃO FUNCIONAL .................................................................................. 56 4.3.4. LNCSEA ANALYSIS ............................................................................................ 59 4.4. ASSINATURA TRANSCRICIONAL E A ceRNA ...................................................... 60 4.5. MANUSCRITO PUBLICADO ..................................................................................... 64 5. DISCUSSÃO ........................................................................................................................ 65 5.1. ASSINATURA TRANSCRICIONAL .......................................................................... 65 5.2. VALIDAÇÃO E INTERPRETAÇÃO BIOLÓGICA ................................................... 66 5.2.1. ALTERAÇÕES GENÔMICAS E FUNCIONAIS ................................................. 66 5.2.2. ANÁLISE DOS GENES DA ASSINATURA NA REDE CERNA ....................... 69 6. CONCLUSÃO ...................................................................................................................... 75 REFERÊNCIAS BIBLIOGRÁFICAS ..................................................................................... 76 APÊNDICES ............................................................................................................................ 91 APÊNDICE A ....................................................................................................................... 92 APÊNDICE B ....................................................................................................................... 93 APÊNDICE C ....................................................................................................................... 95 APÊNDICE D ....................................................................................................................... 96 9 LISTA DE FIGURAS Figura 1: Estágios de desenvolvimento tumoral em rim, segundo a classificação TNM do tumor primário (T). ............................................................................................................................... 19 Figura 2: Divisão entre RNAs codificantes e não codificantes (ncRNAs) do genoma humano, suas respectivas percentagens no genoma e classificação dos ncRNAs. .............................. 21 Figura 3:Regulação efetuada pela interação lncRNA-miRNA-mRNA. (A) miRNA bloqueia a tradução se ligando ao mRNA (B) lncRNA age como uma isca/esponja capturando o miRNA e permitindo a tradução do mRNA. ................................................................................ 23 Figura 4: Representação conceitual de uma análise realizada por um algoritmo de classificação sobre diferentes tipos de dados ômicos e os possíveis resultados. ................ 25 Figura 5:Métodos de seleção de características e processos subjacentes (laranja = métodos de filtragem, verde = métodos wrapper e azul = métodos embutidos). ...................................... 26 Figura 6: Representação da curva ROC e AUC, a partir da relação entre a sensibilidade, também conhecida como taxa de verdadeiros positivos (TPR), e a taxa de falsos positivos (FPR). ..................................................................................................................................... 31 Figura 7: Rede de ceRNAs da coorte KIRC-TCGA, (a) região clusterizada mais densa, com maior quantidade de conexões entre os nós e (b) região caracterizada pela presença de clusters distintos com poucos nós. Em laranja os miRNAs, em verde os lncRNAs e em vermelho os mRNAs ............................................................................................................................ 35 Figura 8: (a) Fluxograma do trabalho de Farias Filho (2022) para a construção da rede ceRNA. (b) Fluxograma da construção/validação da assinatura e análises a partir da rede ceRNA (FARIAS FILHO,2022). ...................................................................................................... 36 Figura 9: (a) Curva de acurácia da assinatura transcricional construída a partir da RFE, com valor acima de 70%. (b) Curva do coeficiente kappa, com valor acima de 0,5, representando uma assinatura de concordância moderada. ....................................................... 46 Figura 10: Acurácia dos métodos de benchmarking ao analisar as 9 assinaturas construídas junto aos dados de treino, teste e validação. .................................................................................. 47 Figura 11: Média dos valores de acurácia, especificidade e sensibilidade obtidas com a técnica xgbTree, com 10 repetições. Em vermelho a iteratedRFECV, em verde a iteratedRFETest, em azul a RandomForestRFE e em roxo a RandomForestRFE_KAPPA Novamente, observado um observado um sobreajuste dos dados, onde o treinamento é perfeito e o teste/validação não são. ................................................................................................ 48 Figura 12: Genes presentes cada uma das 9 assinaturas e interseção entre elas. ......................... 50 Figura 13: Sumário das alterações somáticas para o TCGA-KIRC. Primeira linha (esquerda para a direita): Classificação e número de mutações somáticas, os tipos de variações e suas contagens, quantitativo de transições e transversões das SNVs. Segunda linha (esquerda para a direita) quantidade de mutações por amostra, distribuição das mutações e 10 genes mais alterados na coorte. ................................................................................................52 Figura 14: ChromPlot apresentando as regiões mais amplificadas, em vermelho, e as regiões com mais deleções, em azul. O eixo Y representa a magnitude e frequência (G-Score) das mutações ao longo dos cromossomos no eixo X. ................................................................. 53 10 Figura 15: Oncoplot do GISTIC com as 10 regiões comumente mais alteradas por deleção, em verde, ou por amplificação, em vermelho, nos pacientes do TCGA-KIRC. A direita do gráfico está a percentagem de pacientes que apresentaram a alteração. ............................... 53 Figura 16: (a) Forest plot para a associação dos genes da assinatura com a sobrevida dos pacientes (p-valor < 0,05), (b) Curvas da relação de expressão das covariáveis com o status vital dos pacientes, o eixo X representa o tempo de sobrevida (em dias) e o eixo Y representa a função cumulativa da regressão para a variável resposta. ................................. 55 Figura 17: Razão de Risco de cada gene da assinatura relativo ao desenvolvimento metastático e intervalo de confiança de 95%. O miRNA hsa-miR-130a-3p e o lncRNA AF117829.1 foram os únicos significativamente associados (p-valor < 0.05). .................. 55 Figura 18: Anotação funcional feita a partir do KEGG, para (a) os sete genes codificantes e (b) os mRNAS alvos dos dois miRNAs participantes da assinatura. Cada ponto representa as vias biológicas anotadas (p-valor ajustado <0.05). Em ambas o eixo Y representa as vias anotadas para seus respectivos dados de entrada, já o eixo X para a figura (a) representa relação de pertencimento entre os mRNAs da assinatura e o total de genes da via, já na figura (b) representa a quantidade de genes que são regulados pelos miRNAs e fazem parte da mesma via. ............................................................................................ 57 Figura 19: Anotação funcional feita a partir do Gene Ontology, para (a) os sete genes codificantes e (b) os mRNAS alvos dos dois miRNAs participantes da assinatura. Em ambas o eixo Y representa as vias anotadas para seus respectivos dados de entrada, já o eixo X para a figura (a) a quantidade mRNAs da assinatura nessa via e na figura (b) representa a quantidade de genes que são regulados pelos miRNAs e fazem parte da mesma via. ............................................................................................................................................... 58 Figura 20: Anotação funcional feita a partir do Gene Ontology, para (a) os sete genes codificantes e (b) os mRNAS alvos dos dois miRNAs participantes da assinatura. Em ambas o eixo Y representa as vias anotadas para seus respectivos dados de entrada, já o eixo X para a figura (a) a quantidade mRNAs da assinatura nessa via e na figura (b) representa a quantidade de genes que são regulados pelos miRNAs e fazem parte da mesma via. ............................................................................................................................................... 59 Figura 21: Posicionamento dos genes da assinatura transcricional dentro da rede ceRNA, (a) Região menos densa, com poucas conexões, (b) Região mais densa, com alta quantidade de conexões entre os clusters. ............................................................................................................ 61 Figura 22: Clusters compostos (a) por um lncRNA e mRNA participante da ceRNA e (b) por vários genes participantes da ceRNA, que compartilham o mesmo miRNA. ..................... 62 Figura 23: (a),(b),(c) e (d) clusters compostos somente com um gene da assinatura transcricional. ......................................................................................................................................... 63 Figura 24: Desempenho do glm como benchmarking, avaliando a acurácia, sensibilidade e especificidade. ........................................................................................................................................ 93 Figura 25: Desempenho do rf como benchmarking, avaliando a acurácia, sensibilidade e especificidade ......................................................................................................................................... 93 Figura 26: Desempenho do svmRadial como benchmarking, avaliando a acurácia, sensibilidade e especificidade. .......................................................................................................... 94 11 Figura 27: Oncoplot com as mutações registradas nos genes codificantes da assinatura. O gráfico de barra à direita representa a quantidade de amostras mutadas e o gráfico de barras acima representa as mutações registradas sobre essas amostras. ............................... 95 12 LISTA DE TABELAS Tabela 1: Matriz de Confusão. .................................................................................................................... 30 Tabela 2: Técnicas de seleção de características e etapa de aplicação............................................ 38 Tabela 3: Categorias do lncSEA ................................................................................................................ 42 Tabela 4: Características clínicas da coorte TCGA-KIRC. ................................................................ 44 Tabela 5: Métodos de seleção de características e respectivas assinaturas. .................................. 45 Tabela 6: Valores de sensitividade e especificidade na validação. .................................................. 48 Tabela 7: 4 Melhores assinaturas obtidas a partir do segundo benchmarking. ............................. 49 Tabela 8: Métricas avaliadas para a validação com conjunto de dados externo. ......................... 51 Tabela 9: Genes participantes da assinatura resultante (Equação 14) e suas funções ................ 51 Tabela 10: Localização dos genes da assinatura transcricional......................................................... 54 Tabela 11: lncRNAs participantes da rede ceRNA ............................................................................... 59 Tabela 12: Genes da assinatura e seus respectivos ligantes na rede ceRNA. ................................ 64 Tabela 13: Variáveis do Estudo .................................................................................................................. 92 13 LISTA DE EQUAÇÕES Equação 1: Método Lasso ............................................................................................................................ 28 Equação 2: Método ElasticNet ................................................................................................................... 28 Equação 3: Kernel Radial ............................................................................................................................. 28 Equação 4: Classificador Vetor de Suporte ............................................................................................ 29 Equação 5: Independência das variáveis relacionadas à variável classificada. ............................ 29 Equação 6: Classificador Bayesiano. ........................................................................................................ 29 Equação 7: Classificador Naive Bayes. .................................................................................................... 29 Equação 8: Sensibilidade .............................................................................................................................. 31 Equação 9: Especificidade ........................................................................................................................... 31 Equação 10: Acurácia .................................................................................................................................... 31 Equação 11: Estatística J de Youden........................................................................................................ 32 Equação 12: Pontuação de Brier ................................................................................................................ 32 Equação 13: Acurácia Balanceada. ........................................................................................................... 32 Equação 14: Assinatura Transcricional. ................................................................................................... 49 14 LISTA DE ABREVIATURAS E SIGLAS AUC – Área Abaixo da Curva ROC ccRCC – Carcinoma Renal de Células Claras. ceRNAs – RNAs endógenos concorrentes. CNV – Alterações em Número de Cópias DATASUS - Departamento de Informática do Sistema Único de Saúde. FDR – False Rate Discovery. GCO – Global Cancer Observatory. GDC – Genomic Data Commons. GLM – Modelo Linear Generalizado INCA – Instituto Nacional do Câncer. KEGG – Enciclopédia de Genes e Genomas de Kyoto. lncRNAs – RNAs longos não codificantes. MAF – Formato de Anotação de Mutações miRNAs – microRNAs. ML – Aprendizado de Máquina MRE – Elementos de Respostas ao miRNA NCI – Instituto Nacional do Câncer. ncRNAs – RNAs não codificantes. RBP – RNA ligante de Proteína RF – Random Forest RFE – Recursive Feature Elimination ROC – Característica de Operação do Receptor SNP – Polimorfismo de nucleotídeo único. 15 SVM – Máquina Vetor de Suporte TCGA – The Cancer Genome Atlas. XGB – eXtreme Gradient Boosting WXS - Sequenciamento completo do exoma. 16 RESUMO O carcinoma renal, por ser uma patologia de desenvolvimento silencioso e multifatorial, é caracterizada por apresentar uma alta taxa de pacientes com metástases. Após diversos estudos elucidarem a atividade dos genes codificantes no desenvolvimento metastático do carcinoma renal, novos estudos buscam avaliar a associação de genes não codificantes, como RNA endógeno competidor (ceRNA), ao processo metastático. Desta forma, o objetivo deste estudo é construir uma assinatura transcricional para o carcinoma renal de células claras (ccRCC), associada ao desenvolvimento metastático a partir de uma rede de ceRNA e analisar as prováveis funções biológicas desempenhada pelos participantes da assinatura. Utilizando os dados de ccRCC do The Cancer Genome Atlas (TCGA), construímos nove assinaturas transcricionais a partir de oito técnicas de seleção de características e analisamos a sensibilidade e especificidade da classificação dos modelos de regressão no processo de benchmarking. Consequentemente, foram obtidos os genes da assinatura e foram realizadas análises de alterações somáticas e de número de cópias, análise de risco para sobrevida e progressão metastática, e análises de anotação funcional. Neste estudo apresentamos uma assinatura transcricional de 11 genes, composta por 2 RNAs longos não codificantes, SNHG15 e AF117829.1, 2 miRNAs, hsa-miR-130a-3p e hsa-mir-381-3p, e 7 mRNAs, BTBD11, INSR, HECW2, RFLNB, PTTG1, HMMR, RASD1. A validação utilizando o conjunto de dados externos do International Cancer Genome Consortium (ICGC) possibilitou avaliar a generalização da assinatura, que apresentou uma acurácia de 72% e área abaixo da curva de 81.5%. As análises genômicas identificaram que os participantes da assinatura se localizam em cromossomos com regiões altamente mutadas (G-index > 2). Os genes hsa-miR-130a-3p, AF117829.1 e HECW2 tiveram uma relação significativa entre a expressão e a sobrevida dos pacientes, e os dois últimos possuem relação significativa com o desenvolvimento metastático. Além disso, foi analisada a anotação funcional em vias importantes para o desenvolvimento tumoral, como: PI3K/AKT, TNF, FoxO, regulação da transcrição da RNA polimerase 2, controle celular e entre outras. Por fim, ao analisar as conexões dos genes da assinatura dentro da rede ceRNA em conjunto com estudos da literatura, foi possível obter um panorama das atividades desempenhadas por eles dentro do ccRCC. Sendo assim, esta assinatura transcricional pode identificar genes não codificantes como potenciais biomarcadores a serem utilizados para uma melhor compreensão do carcinoma renal, bem como no desenvolvimento de futuros tratamentos na área clínica. Palavras-chave: Carcinoma renal de células claras; assinatura transcricional; rede ceRNA; aprendizado de máquina; metástase. 17 ABSTRACT Renal carcinoma, as it is a pathology of silent and multifactorial development, is characterized by a high rate of patients with metastases. After several studies have elucidated the activity of coding genes in the metastatic development of renal carcinoma, new studies seek to evaluate the association of non-coding genes, such as competitive endogenous RNA (ceRNA), with the metastatic process. Thus, the aim of this study is to build a transcriptional signature for clear cell renal cell carcinoma (ccRCC) associated with metastatic development from a ceRNA network and to analyze the probable biological functions performed by the participants of the signature. Using ccRCC data from The Cancer Genome Atlas (TCGA), we constructed nine transcriptional signatures from eight feature selection techniques and analyzed the sensitivity and specificity of prediction of regression models in the benchmarking process. Consequently, signature genes were obtained and analyzes of somatic and copy number changes, risk analysis for survival and metastatic progression, and functional enrichment analyzes were performed. In this study we present a transcriptional signature of 11 genes, composed of 2 long non-coding RNAs, SNHG15 and AF117829.1, 2 miRNAs, hsa-miR-130a-3p and hsa-mir-381-3p, and 7 mRNAs, BTBD11, INSR, HECW2, RFLNB, PTTG1, HMMR, and RASD1. Validation using the external dataset of the International Cancer Genome Consortium (ICGC) made it possible to assess the generalization of the signature, which showed an accuracy of 72% and an area under the curve of 81.5%. Genomic analyzes identified that the signature participants are located on chromosomes with highly mutated regions (G-index > 2). The hsa-miR-130a-3p genes, AF117829.1 and HECW2, had a significant relationship between expression and patient survival, and the last two have a significant relationship with metastatic development. In addition, functional enrichment was seen in important pathways for tumor development, such as: PI3K/AKT, TNF, FoxO, RNA polymerase 2 transcription regulation, cell control, and others. Finally, by analyzing the connections of the signature genes within the ceRNA network in conjunction with studies in the literature, it was possible to obtain an overview of the activities performed by them within the ccRCC. Therefore, this transcriptional signature can identify non-coding genes as potential biomarkers to be used for a better understanding of renal carcinoma, as well as in the development of future treatments in the clinical area. Keywords: Transcriptional signature; ceRNA network; feature selection; metastasis; renal carcinoma. 18 1. INTRODUÇÃO Câncer é o nome dado a um conjunto de doenças malignas que têm como característica a proliferação descontrolada e desordenada de células neoplásicas. Estas células tendem a se organizar em conglomerados, mas podem invadir os tecidos adjacentes ou atingir órgãos distantes durante a fase metastática da doença (INCA, 2022). Por ser uma patologia complexa, o seu desenvolvimento a caracteriza como uma doença multifatorial, com uma forte base genética devido à mutações em vários genes codificantes de proteína (KUMAR et al., 2008), e comportamentos típicos que ficaram conhecidos como os “hallmarks of cancer” (HANAHAN; WEINBERG, 2011). Atrelado ao avanço dos estudos relacionados ao papel oncogênico dos genes codificantes, os estudosde genes não codificantes, como os RNAs longos não codificantes (lncRNAs) e os microRNAs (miRNAs), tomaram força, tendo em vista que eles que representam aproximadamente mais de 80% da totalidade do transcriptoma humano (GOMES et al., 2019). Em estudo apresentado em 2018, Chiu e colaboradores sugerem que os lncRNAs agem na desregulação de genes oncológicos e das vias de sinalização por meio da alteração da atividade dos fatores de transcrição, dos RNAs ligantes de proteína (RBP) e dos miRNAs. O envolvimento, a comunicação, entre essas estruturas moleculares influenciam na regulação homeostática e a desregulação desta rede pode favorecer o desenvolvimento cancerígeno (CHAN; TAY, 2018). 1.1. CÂNCER RENAL O termo “câncer renal” faz referência ao conjunto de neoplasias que se desenvolvem nos tecidos renais e, a partir do tipo celular e características histológicas, é classificado em: Carcinoma Renal de Células Claras (ccRCC), Carcinoma Renal Papilar (pRCC) e Carcinoma Renal Cromófobo (ChRCC) (DALL’OGLIO et al.,2006; KUMAR et al., 2008; MUGLIA; PRANDO, 2015). Apesar de não ser um dos cânceres mais incidentes, em 2020 foram registradas 179.368 mortes de pacientes diagnosticados com câncer renal, e foram notificados 431.288 novos casos, a partir de dados disponibilizados pela Organização Mundial da Saúde (OMS) (IARC, 2020). No Brasil, durante o ano de 2021, segundo o Departamento de Informática do Sistema Único de Saúde (DATASUS), foram registrados 1.941 novos casos de câncer renal, exceto pelve renal, e em 2020 foram registradas 3.630 mortes por câncer renal (INCA,2020). 19 O desenvolvimento e progressão da doença está atrelado a diversos fatores, como o ambiente e o estilo de vida do paciente, ou a presença de doenças pré-existentes relacionadas ao funcionamento renal ou outras neoplasias (NABI et al., 2018; PADALA et al., 2020). Estudos realizados por Cui e colaboradores (2020), e por Wang e colaboradores (2019), mostraram que aproximadamente 30% dos pacientes diagnosticados com ccRCC apresentam metástases. Essa taxa de pacientes em estado metastático está relacionada com a característica silenciosa da doença, onde o diagnóstico acontece inesperadamente em exames de rotina, ou quando o paciente apresenta quadros casos de hematúria, dores e presença de massas palpáveis na lombar, em estágios de metástase (NFK, 2017). O nível de progressão da doença, que caracteriza o estadiamento da patologia, é definido pelo Comitê Conjunto Americano de Estadiamento de Câncer (AJCC) a partir da classificação TNM, baseada na extensão do tumor primário (T), na presença ou ausência de células tumorais nos linfonodos regionais (N) e na presença ou ausência de metástase (M) (AMIN; AMERICAN JOINT COMMITTEE ON CANCER; AMERICAN CANCER SOCIETY, 2017) Figura 1. Figura 1: Estágios de desenvolvimento tumoral em rim, segundo a classificação TNM do tumor primário (T). Fonte: Adaptado de Renal Cancer Staging, de BioRender.com (2023). Recuperado de https://app.biorender.com/biorender-templates (Acessado dia 31/12/2022). Como apresentado por Terrematte e colaboradores (2022), o estudo do estadiamento tumoral possibilita o estabelecimento do prognóstico e a análise de avanço tumoral. Associando 20 a realização de análises genômicas, transcriptômicas e proteômicas, com as informações de estadiamento patológico, possibilitam o reconhecimento de padrões mutacionais e a detecção de genes que podem agir como biomarcadores da progressão ou remissão tumoral (GUIMARÃES, 2020). A ligação entre as alterações moleculares e o desenvolvimento do câncer foi extensivamente estudada pelo consórcio The Cancer Genome Atlas (TCGA). Em 2013, o projeto TCGA-KIRC utilizou uma coorte de 537 pacientes diagnosticados com Carcinoma Renal de Células Claras e avaliou as características clínicas, as alterações genômicas (de nucleotídeo único e em número de cópias), os perfis de metilação, a expressão dos RNAs, as assinaturas proteicas e anotação funcional de vias e processos biológicos, a fim de entender melhor os mecanismos moleculares desta patologia. Esta análise resultou no conhecimento de diversas alterações existentes no genoma dos pacientes com KIRC, como a perda do braço cromossômico 3p, onde os 4 (VHL, PBRM1, BAP1, SETD2) dos 19 genes mais mutados estão localizados. Ao realizar uma análise dos dados de sequenciamento dos mRNAs e dos miRNAs, foi observado a formação de clusters distintos, indicando que a interação/comunicação entre esses tipos de RNAs apresentam-se como um importante componente da regulação do ccRCC (TCGA,2013). Partindo do perfil de atividade gênica, diversos estudos na literatura construíram assinaturas gênicas que correlacionam a expressão significativa de genes codantes de proteínas com as características clínicas que o paciente apresenta, como presença de metástases, influência em sobrevida e tipo de intervenção terapêutica a ser utilizada (BIAN; FAN; XIE, 2022; CHEN et al., 2022; ZHANG et al., 2019, 2022; ZHONG et al., 2021). 1.2. RNAs NÃO CODIFICANTES Os RNAs não codificantes (ncRNAs) são o conjunto de RNAs que não apresentam atividade relacionada à síntese de proteínas e compreendem a grande maioria (> 80%) dos transcritos presentes em uma célula. Em contrapartida, os genes codantes são responsáveis pela produção de todo o repertório de proteínas funcionais e compreendem apenas aproximadamente 3% da totalidade de transcritos (Figura 2) (GOMES et al.,2019). 21 Figura 2: Divisão entre RNAs codificantes e não codificantes (ncRNAs) do genoma humano, suas respectivas percentagens no genoma e classificação dos ncRNAs. Fonte: Adaptado de Gomes et al. (2019). Tomando como base o tamanho, os ncRNAs podem ser classificados em: (i) pequenos RNAs não codificantes (sncRNAs), caso possuam menos de 200 nucleotídeos, ou (ii) longos RNAs não codificantes, caso possuam mais de 200 nucleotídeos(lncRNAs) (KLINGE,2018; BORKIEWICZ et al., 2021). Já as funções desempenhadas pelos ncRNAs dependem de onde se localizam e das interações que realizam com DNA, proteínas ou outros RNAs, evidenciando a relação de suas atividades com os processos de regulação do ciclo celular, diferenciação, desenvolvimento e processos de regulação epigenética, revisto em Morris e Mattick (2014). Ao estudar as funções celulares, Chiu et al. (2018) e Wang et al. (2021) observaram que os lncRNAs atuam durante todo o processo transcricional, como também em atividades pré e pós transcricionais, modificando a atividades dos fatores de transcrição (TF), das proteínas ligantes de RNA (RBP), dos efetores de miRNAs ou reguladores canônicos. Nestes processos, os lncRNAs podem atuar como: (i) “iscas”, ou “esponjas”, modulando os efetores de seus alvos, por exemplo, afastando TF ou RBP da cromatina; (ii) guia para enzimas modificadoras de histonas ou modificadores de cromatina, em direção aos seus genes alvos, tanto em cis como em trans; (iii) sinais de resposta a vários estímulos. No entanto, Yao et al. (2019) observaram que a forma de ação e o papel biológico desempenhado está relacionado com a localização subcelular do lncRNA, podendo agir no núcleo celular, alterando arquitetura e/ou remodelação da cromatina, como também pode agir no citoplasma. Ao observar a atividade no núcleo celular, Schmitz, Grote e Herrmann (2016) viram que os lncRNAs interagem com complexos modificadores de histonas, como os complexos repressores de polycomb (PRC1 e PRC2) que também são responsáveis por modular 22 a metilação do DNA, como também observaram as iterações com os fatores de transcrição e a regulação a nível pós transcricional. Diversos estudos também descrevem o mecanismo de funcionamento dos lncRNAs a partir das suas interações com outras moléculas. Ao interagir com DNA, o lncRNA modifica a expressão gênica por meio da modulação das estruturas da cromatina, enquantoque ao interagir com os mRNAs, ocorre uma modificação na estabilidade e consequente regulação da expressão gênica em níveis pós-transcricionais e traducionais. Já a ligação com os miRNAs ocorre impedindo a ligação do miRNA com o seu alvo, caracterizando desta forma uma competição endógena entre o lncRNA e o mRNA alvo do miRNA (STATELLO et al., 2020; KAZIMIERCZKY et al., 2020). O envolvimento dos ncRNAs na patogênese de várias doenças também já começaram a ser estabelecidos. Em estudo de Bhan et al. (2016), foi evidenciado a associação dos lncRNAs com o desenvolvimento metastático em diversos cânceres, atuando tanto como supressores de tumor quanto oncogenes. Corroborando com esse estudo, Statello et al. (2020) e Liu et al. (2021) também evidenciaram a relação dos lncRNAs com o processo de oncogênese, indicando-os como marcadores de prognósticos oncológicos quando relacionados aos dados clínicos dos pacientes, e como alvos terapêuticos. 1.3. RNA ENDÓGENO COMPETIDOR - ceRNA De acordo com estudos apresentados na seção anterior, os lncRNAs interagem com outras moléculas, exercendo um papel de regulação sobre as mesmas. Entretanto, todos os detalhes de seus mecanismos de ação e suas consequências ainda não estão bem esclarecidos. Partindo dessa lacuna a respeito da associação entre lncRNAs com as outras moléculas, Salmena e colaboradores (2011) apresentaram a hipótese do “RNA Endógeno Competidor” (ceRNA), fundamentada a partir da ideia de uma comunicação entre os miRNAs, mediada pelos elementos reconhecedores de miRNAs (MREs), com os RNAs mensageiros (mRNAs), pseudogenes e lncRNAs. Nesta rede, a forma de ação do ceRNA é caracterizada como uma competição entre os lncRNAs e as outras moléculas - mRNAs, miRNAs e pseudogenes -, pelos MREs localizados na 3he Bastard Son & The Devil Himself’UTR do mRNA que formam os pares Watson-Crick com a região alvo 5’ do miRNA. Wang e colaboradores (2016) observam que a hipótese de Salmena é postulada tomando como base o conceito de que todos os RNAs, seja codante ou não codante, compartilham o mesmo MRE e indiretamente atuam regulando a expressão do 23 mRNA entre si por meio da competição pelo MRE (Figura 3). De acordo com Ala (2020), esta pluralidade de conexões dos miRNA permite regular diversos mRNAs, como também pode ser regulado por outros ncRNAs. Figura 3:Regulação efetuada pela interação lncRNA-miRNA-mRNA. (A) miRNA bloqueia a tradução se ligando ao mRNA (B) lncRNA age como uma isca/esponja capturando o miRNA e permitindo a tradução do mRNA. Fonte: Adaptado de López-Urritia et al. (2019) utilizando BioRender.com (2023). Como explicitado anteriormente, os lncRNAs têm como uma de suas características funcionais a modulação dos efetores de seus alvos. Esta capacidade foi evidenciada em diversos estudos revistos por Chan e Tay (2018), que mostram que ao se ligar aos miRNAs, os lncRNAs regulam a expressão do gene alvo do miRNA e alterações desta rede regulatória foram observadas no câncer e em outras patologias. Ao estudar os mecanismos do ceRNA como biomarcadores no câncer, Qi et al. (2020) pontuou algumas formas de ação ao qual eles estão associados dentro da patologia, sendo elas a promoção ou supressão da: (i) oncogênese, proliferação, migração e invasão de células cancerígenas; (ii) células oncológicas na transição epitélio-mesênquima e (iii) sensitividade ao tratamento terapêutico. Como também mostrou que os mecanismos moleculares são influenciados pela localização, com a abundância de miRNAs no meio, onde uma menor quantidade de miRNAs possibilita a ação do ceRNA e a afinidade de ligação. 24 1.4. DADOS ÔMICOS E APRENDIZAGEM DE MÁQUINA Os dados “ômicos” são um conjunto de informações obtidos de experimentos biológicos e tecnologias de sequenciamento de alto desempenho que tem como objetivo mensurar, de maneira ampla e simultânea, moléculas de mesmo tipo advindas da mesma amostra biológica (CONESA e BECK, 2019). Os estudos genômicos mensuram os perfis das moléculas de DNA, enquanto os estudos transcriptômicos, epigenômicos, proteômicos e metabolômicos (Figura 4) mensuram os transcritos, os estados químicos do DNA e suas ligações protéicas, as proteínas e os metabólitos, respectivamente (YAMADA et al.,2021). Estes estudos geram uma quantidade exorbitante de dados, que podem ser utilizados como biomarcadores e possibilitam o entendimento e análise de características complexas dos sistemas biológicos (REEL et al., 2021). Entretanto, estes dados de alta complexidade e heterogeneidade, são muitas vezes incompletos e esparsos, gerando o que foi denominado por Bellman (1957) como a maldição da dimensionalidade, relacionada à crescente quantidade de dados associado à adição de dimensões ao espaço de dados. Ao analisar de forma integrada e automatizada os dados ômicos, é possível extrair padrões que auxiliarão no entendimento do objeto de estudo, como padrões mecanísticos dentro do fluxo celular, por meio da aplicação de técnicas de aprendizado de máquina (SUBRAMANINAN et al., 2020). O termo aprendizado de máquina, foi definido no final da década de 50, referindo-se a algoritmos que a partir dos dados conseguem executar tarefas sem explicitar os processos de programação (SAMUEL, 1959). Dentre as várias aplicações do aprendizado de máquina, as tarefas relacionadas aos processos de classificação ou predição, que resultam em informações categóricas, como a presença ou ausência de patologia, ou informações contínuas/temporais, como a predição de resultados, têm se tornado comumente utilizadas, principalmente em pesquisas voltadas para a área da saúde (BLACK; KUEPER; WILLIAMSON, 2023). Liñeares-Blanco et al.(2021) observaram que estudos voltados para problemas biológicos complexos, que não conseguem ser eficientemente abordados com as técnicas estatísticas padrões, têm resultados promissores com a aplicação de técnicas de aprendizado de máquina. 25 Figura 4: Representação conceitual de uma análise realizada por um algoritmo de classificação sobre diferentes tipos de dados ômicos e os possíveis resultados. Fonte: Autoral. Utilizando o BioRender.com (2023). A partir dos avanços nos estudos na área de aprendizado de máquina, foi visto o surgimento de algoritmos como modelos de regressão logística, algoritmos Bayesianos, árvores de decisão e métodos de comitês de máquinas (ensemble). Entretanto, a falta da seleção de características (variáveis independentes ou explicativas), relacionadas com a variável resposta (dependente ou alvo) pode influenciar diretamente na performance desses algoritmos ao serem aplicados no mundo real (KANN et al., 2021). 1.4.1. SELEÇÕES DE CARACTERÍSTICAS Seleção de características faz referência ao processo de análise e escolha de variáveis dentro do estudo, observando a sua importância perante o resultado, ou seja, eliminando as variáveis irrelevantes ou redundantes, pois a sua remoção não afeta a aprendizagem e não reduzem as métricas de treinamento do modelo de aprendizagem. Portanto, mantém-se somente as variáveis mais consistentes e relevantes para construção do modelo. (LIU; MOTODA, 2008). Os algoritmos de seleção de características podem ser classificados de acordo com a forma de aprendizado, sendo elas: (i) supervisionada, quando é utilizada a correlação e a relevância entre as características e a classe (variável resposta); (ii) semi-supervisionada, 26 quando os dados não são majoritariamente rotulados, mas sabe-se a classe desejada; (iii) não supervisionada, quando não se tem uma classe alvo e as características são escolhidas utilizando critérios de avaliação e clusterização (JAW e WANG, 2021). Os algoritmos também podem ser classificados de acordo com as estratégias de busca destas características, podendo ser: (i) forward; (ii) backforward; (iii) floating; (iv) branch-and-bound e (v) randomizada;ou de acordo com os métodos empregados (Figura 5): (i) método de filtragem, (ii) método wrapper e (iii) métodos embutidos (KUHN; JOHNSON, 2020; LIU; MOTODA, 2008; XIE et al., 2020). Figura 5:Métodos de seleção de características e processos subjacentes (laranja = métodos de filtragem, verde = métodos wrapper e azul = métodos embutidos). Fonte: Xie et al. (2020) 1.4.1.1. MÉTODOS DE FILTRAGEM Trata-se de métodos rápidos, de alta efetividade e escalabilidade, que buscam selecionar as variáveis explicativas de maior correlação ou importância com relação a variável alvo. Utiliza de técnicas estatísticas e de teoria da informação para medir a força de correlação entre as variáveis, construir um ranqueamento entre as características e manter somente as que apresentarem altas pontuações, possibilitando uma seleção confiável e relevante (JAW e WANG, 2021, KUHN; JOHNSON, 2020). Os métodos de filtragem utilizados produzem modelos com base no procedimento do tipo stepwise (backward), que permite a adição de uma variável ao conjunto de variáveis preditoras do modelo, observando a significância estatística. O que diferencia cada método é a utilização em conjunto com técnicas estatísticas, por exemplo, LDA ou AIC, para a 27 redução dos casos de sobreajuste e redução no número de falsos positivos (KUHN; JOHNSON, 2020). O método XGBoost tem como objetivo predizer corretamente uma variável alvo a partir da combinação de estimadores. O processo de treinamento ocorre de maneira iterativa, utilizando o algoritmo de gradiente descendente para reduzir a função de perda ao adicionar novas árvores de estimadores, que predizem os erros, ou resíduos, em comparação com as iterações anteriores (CHEN; GUESTRIN, 2016). O método GLM é baseado na utilização de regressão logística para avaliar os modelos preditos, calculando a relação e probabilidade, entre os modelos construídos e os resultados obtidos no momento de teste. 1.4.1.2. MÉTODOS WRAPPER Métodos wrapper utilizam procedimentos iterativos de pesquisa, que de maneira repetida fornece ao modelo subconjuntos de preditores e utiliza métricas como a acurácia, para selecionar as melhores variáveis. De uma forma geral, quanto maior a acurácia, maior é o consumo computacional do método wrapper (JAW e WANG, 2021, KUHN; JOHNSON, 2020). Os métodos wrapper podem ser desenvolvidos a partir da abordagem ambiciosa, onde o caminho de busca escolhido é aquele que aparenta direcionar para o melhor modelo; ou pela abordagem não ambiciosa, onde o método de busca pode reavaliar os modelos preditos anteriormente e assim seguir por um caminho totalmente diferente do esperado (KUHN; JOHNSON, 2020). O método RFE se baseia em uma seleção de preditores no sentido contrário, ou seja, inicialmente todas as características/variáveis são reconhecidas como preditores e a cada iteração é uma removida, tomando a pontuação atrelada a sua importância como quesito julgador de permanência (KUHN; JOHNSON, 2020). O que diferencia as variações iterativas do RFE, é que eles utilizam técnicas de re-amostragem com validação cruzada como um conjunto de dados de teste durante as iterações. O método Boruta é uma forma de seleção de características desenvolvida tomando como base algoritmos de árvores de decisão, como o Random Forest e XGBoost (KURSA; RUDNICKI, 2010). Atuando a partir da geração de variáveis randômicas ruidosas e com o 28 passar das iterações são feitos testes estatísticos, tomando as flutuações do Z-score para remoção das variáveis menos relevantes. O método Lasso, também conhecido como regularização L1, é uma ferramenta de seleção de variáveis que tem como objetivo a regressão dos coeficientes a zero, definida pela Equação 1, onde o primeiro somatório representa a soma dos erros quadrados e o segundo somatório representa a penalização lasso (FRIEDMAN et al.,2010) 𝑆𝑆𝐸𝐿1 = ∑ 𝑛 𝑖=1 (𝑦𝑖 − �̂�𝑖) 2 + 𝜆𝑙 ∑ 𝑃 𝑗 = 1 |𝛽𝑗| Equação 1: Método Lasso O método ElasticNet é baseado na junção das técnicas de regularização Lasso (L1) e Ridge (L2), Equação 2, combinando suas penalizações e otimizando o resultado (ZOU; HASTIE, 2005; KUHN; JOHNSON, 2020). 𝑆𝑆𝐸 = ∑ 𝑛 𝑖=1 (𝑦𝑖 − �̂�𝑖)2 + 𝜆𝑙 [(1 − 𝛼) ∑ 𝑃 𝑗 = 1 |𝛽𝑗| + 𝛼 ∑ 𝑃 𝑗 = 1 |𝛽𝑗|] Equação 2: Método ElasticNet O método svmRadial é um algoritmo de classificação para dados não-lineares, baseado na técnica de Máquina de Vetor de Suporte (SVM) que utiliza hiperplanos na separar e classificar os dados. Para utilização em dados não lineares, Walia (2018) descreve que a svmRadial utiliza de técnicas de expansão de variáveis, inserindo polinômios de grau maior, ou igual a 2, ou inserindo a Equação 3 de Kernel Radial na Equação 4 do classificador vetor de suporte, para adequar os dados não lineares ao processo de classificação. 𝐾(𝑥, 𝑦) = 𝑒𝑥𝑝(−𝛾 ∑ 𝑝 𝑗=1 (𝑥𝑖𝑗 − 𝑦𝑖𝑗)2) Equação 3: Kernel Radial O parâmetro ajustável 𝛾 (gamma) na Equação 3 representa a suavidade e o controle de variância do modelo, ou seja, quanto menor o 𝛾 menor a variância e mais suave é o limite de decisão, e quanto maior o 𝛾 maior a variância, e sobreajuste, e mais flutuante é o limite de decisão. 29 𝑓(𝑥) = 𝛽0 + ∑ 𝑖 𝜖 𝑆 𝛼𝑖𝐾(𝑥𝑖, 𝑦𝑖) Equação 4: Classificador Vetor de Suporte O parâmetro 𝛽0 (beta) na Equação 4 são os coeficientes do SVM, 𝛼𝑖(alpha) é um peso com valor diferente de zero para todos os vetores de suporte e zero em outros casos, a função 𝐾(𝑥𝑖, 𝑦𝑖) é a equação radial kernel. O método naive bayes para a classificação parte do pressuposto de que todas as variáveis do estudo são independentes, dado o valor da variável de classificação (Equação 5), que segue o classificador Bayesiano (Equação 6), baseado na razão entre as probabilidades de um evento e a probabilidade do evento não ocorrer ser maior ou igual a um. Sendo assim o naives bayes é representado pela Equação 7, considerado uma das formas mais simples da rede bayesiana (ZHANG, 2004). 𝑝(𝐸|𝑐) = 𝑝(𝑥1, 𝑥2, . . . , 𝑥𝑛|𝑐) = ∏ 𝑛 𝑖 = 1 𝑝(𝑥𝑖|𝑐) Equação 5: Independência das variáveis relacionadas à variável classificada. 𝑓𝑏(𝐸) = 𝑝(𝐶 = +|𝐸) 𝑝(𝐶 = − |𝐸) ≥ 1 Equação 6: Classificador Bayesiano. 𝑓𝑛𝑏(𝐸) = 𝑝(𝐶 = +) 𝑝(𝐶 = − ) ∏ 𝑛 𝑖 = 1 𝑝(𝑥|𝐶 = +) 𝑝(𝑥|𝐶 = − ) Equação 7: Classificador Naive Bayes. O método KNN é uma técnica não paramétrica que se baseia na similaridade da distribuição dos dados e seus vizinhos mais próximos, calculando a distâncias entre K números de dados, onde essa distância usualmente é mensurada por meio da Distância Euclidiana, resultando em um modelo classificado no espaço cartesiano (GUO et al., 2003). A Random Forest é caracterizada pela junção de classificadores estruturados de árvores de decisão. A aprendizagem ocorre a partir da ditribuição, de maneira independente e idêntica, de vetores com valores aleatórios para um conjunto de árvores de decisão e a partir da análise de frequência dos resultados de cada uma dessas árvores, a classe resultante é obtida a partir do conjunto de dados de entrada (BREIMAN, 2001). 30 1.4.2. MÉTRICAS DE AVALIAÇÃO As métricas de avaliação são formas de mensurar a efetividade dos algoritmos de ML, avaliando a qualidade de suas predições. No caso de algoritmos de classificação é mais comum a utilização de matrizes de confusão e curva ROC, e para algoritmos de regressão são mais utilizados o erro quadrático médio (MSE), erro médio absoluto (MAE) e coeficiente de de determinação (R²) (HANDELMAN et al., 2019). Por se tratar de um trabalho de classificação, onde a partir dos genes participantes da ceRNA será construída uma assinatura transcricional que se relaciona com a presença ou não de metástase, será utilizada a curvaROC e a matriz de confusão para avaliar o quanto efetiva é a assinatura. Estruturada de maneira a apresentar os verdadeiros positivos, falsos positivos, verdadeiros negativos e falsos negativos, a matriz de confusão (Tabela 1) mostra as frequências de classificação do modelo, onde: ● Verdadeiros positivos (true positive - tp): pacientes classificados com metástase pelo algoritmo e apresenta diagnóstico de metástase; ● Falso positivo (false positive - fp): paciente classificado com metástase pelo algoritmo, mas não apresenta diagnóstico de metástase; ● Verdadeiro negativo (true negative - tn): paciente classificado sem metástase pelo algoritmo e não apresenta diagnóstico de metástase; ● Falso negativo (false negative - fn): paciente classificado sem metástase pelo algoritmo e apresenta diagnóstico de metástase. Tabela 1: Matriz de Confusão. Condições Reais Condição Positiva Condição Negativa Predição Predição Positiva Verdadeiro Positivo Falso Positivo Predição Negativa Falso Negativo Verdadeiro Negativo Fonte: Autor. A partir dessas informações, é possível extrair outras métricas que avaliam o desempenho do algoritmo. A sensibilidade mensura a capacidade do algoritmo em detectar um verdadeiro positivo (Equação 8), a especificidade mensura a capacidade do algoritmo em detectar um verdadeiro negativo (Equação 9) e a acurácia mensura a frequência de acertos 31 dentre todos as previsões possíveis (Equação 10) (DALIANIS, 2018; HANDELMAN et al., 2019; TREVETHAN, 2017) 𝑆𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑𝑒 = 𝑡𝑝 𝑡𝑝 + 𝑓𝑛 Equação 8: Sensibilidade 𝐸𝑠𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑑𝑎𝑑𝑒 = 𝑡𝑛 𝑡𝑛 + 𝑓𝑝 Equação 9: Especificidade 𝐴𝑐𝑢𝑟á𝑐𝑖𝑎 = 𝑡𝑝 + 𝑡𝑛 𝑡𝑝 + 𝑓𝑝 + 𝑡𝑛 + 𝑓𝑛 Equação 10: Acurácia A curva de Característica de Operação do Receptor (Figura 6), comumente de chamada de curva ROC, é uma representação gráfica do desempenho do algoritmo, que utiliza da relação entre a sensibilidade e a taxa de falso positivo (FPR = 1 - especificidade), para estabelecer a probabilidade do modelo distinguir entre as classes. Ao se calcular a área sob a curva ROC (AUC), obtém-se o grau de separabilidade (NARKHEDE, 2018; HANDELMAN et al., 2019). Figura 6: Representação da curva ROC e AUC, a partir da relação entre a sensibilidade, também conhecida como taxa de verdadeiros positivos (TPR), e a taxa de falsos positivos (FPR). Fonte: Narkhede (2018). Visando avaliar a classificação, tomando como base a resultante dicotômica variante entre metástase (M1) e não metástase (M0), utiliza-se a estatística J de Youden, ou somente índice de Youden, para analisar a performance sobre o teste de classificação. O índice é obtido 32 a partir da Equação 11, normalmente é utilizada em conjunto com a curva ROC (YOUDEN, 1950; SCHISTERMAN et al., 2005). 𝐽𝑌𝑜𝑢𝑑𝑒𝑛 = 𝑆𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑𝑒 + 𝐸𝑠𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑑𝑎𝑑𝑒 − 1 Equação 11: Estatística J de Youden Para a validação da classificação, além de utilizar a acurácia e AUC, aplica-se a pontuação de Brier (Equação 12), que avalia a acurácia de probabilidade de classificação, mensurando o erro quadrático médio das diferenças entre a probabilidade de predição para o estado x e o verdadeiro resultado y, pontuação amplamente utilizada em classificações e predições binárias (BRIER, 1950; FERRER, 2022). Na equação, 𝑓𝑡 é a probabilidade de classificação, 𝑜𝑡 é o resultado e N representa o número de itens a ser calculado a pontuação. 𝐵𝑆 = 1 𝑁 ∑(𝑓𝑡 − 𝑜𝑡)² 𝑁 𝑡 =1 Equação 12: Pontuação de Brier Como também a acurácia balanceada (Equação 13), que consiste na verificação da performance do modelo de classificação, levando em consideração a sensibilidade e a especificidade da classificação. Amplamente utilizada para dados desbalanceados, sendo uma métrica classe-sensitiva (P.; P., 2021). 𝐵𝐴𝑐𝑐 = 𝑆𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑡𝑦 + 𝑆𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑡𝑦 2 Equação 13: Acurácia Balanceada. 1.5.JUSTIFICATIVA E RELEVÂNCIA DO TRABALHO Conforme apresentado anteriormente, o carcinoma renal de células claras tem acometido mais indivíduos nos últimos anos, e quanto mais cedo o seu diagnóstico, maiores são as chances de sobrevida dos pacientes. Os estudos do ccRCC acerca do genoma e do transcriptoma codificantes permitiram a construção do conhecimento relacionado ao desenvolvimento, progressão e remissão da patologia, gerando informações sobre quais são os processos alterados, quais os genes associados e como seus produtos atuam nesta patologia. Entretanto, para se ter uma maior e melhor perspectiva dos mecanismos de regulação é necessário também estudar o ccRCC através de genes não codificantes. Estes estudos começam 33 a avaliar as interações desses transcritos com os genes codificantes e entre os próprios, revelando associações significativas com a progressão, desenvolvimento metastático ou remissão da doença (LIU et al., 2018; POPŁAWSKI et al., 2021). Associar esses conhecimentos com técnicas de seleção de características, permite o reconhecimento de padrões associados a tais transcritos e construir assinaturas transcricionais. A utilização dessas assinaturas transcricionais como biomarcadores possibilitam o avanço no estudo de terapia guiadas auxiliando o desenvolvimento de pesquisas farmacêuticas que utilizarão os transcritos como alvo e assim fornecerem um tratamento mais eficaz para os pacientes com alterações nas moléculas em questão (CHEONG et al., 2022; LIU et al., 2021, 2022). 34 2. OBJETIVOS 2.1. OBJETIVO GERAL Construir uma assinatura transcricional do carcinoma renal de células claras, a partir de genes diferencialmente expressos que compõem uma rede de RNA Endógeno Competidor, para classificar o desenvolvimento metastático. 2.2. OBJETIVOS ESPECÍFICOS ● Construir assinatura transcricional a partir de técnicas de seleção de características utilizando genes diferencialmente expressos participantes de ceRNA; ● Avaliar qual a melhor assinatura a partir das métricas de treinamento e validação dos modelos; ● Analisar as alterações genômicas existentes sobre os genes participantes da assinatura, somáticas e em número de cópia; ● Avaliar a anotação funcional dos RNAs participantes da assinatura; ● Integrar resultados discriminando suas possíveis funções na progressão tumoral. 35 3. METODOLOGIA Em trabalho desenvolvido por Farias Filho (2022) foi construída uma rede de RNAs Endógenos Competidores (ceRNA) (Figura 7a e 7b), utilizando dados do projeto TCGA-KIRC disponibilizado pelos portais Genomic Data Commons (GDC) (ZHANG,2021) e Xena Browser (GOLDMAN et al.; 2020), data release v18.0 (07-19-2019). A rede de ceRNA foi construída utilizando o pacote GDCRNATools, versão 1.16.2 (LI et al.,2022), a partir da seleção de genes diferencialmente expressos, |log2FC| >= 2 e FDR < 0.01, obtidos com o pacote DESeq2 (LOVE et al., 2014). (a) (b) Figura 7: Rede de ceRNAs da coorte KIRC-TCGA, (a) região clusterizada mais densa, com maior quantidade de conexões entre os nós e (b) região caracterizada pela presença de clusters distintos com poucos nós. Em laranja os miRNAs, em verde os lncRNAs e em vermelho os mRNAs Fonte: Farias Filho (2022). 36 3.1. FLUXOGRAMA (a) (b) Figura 8: (a) Fluxograma do trabalho de Farias Filho (2022) para a construção da rede ceRNA. (b) Fluxograma da construção/validação da assinatura e análises a partir da rede ceRNA (FARIAS FILHO,2022). Fonte: Autoral. O fluxo de análise para a construção da assinatura transcricional para classificação de desenvolvimento metastático do ccRCC, baseada nos componentes da rede ceRNA, nos dados de expressão e dados clínicos, é mostrado na Figura 8b. 37 3.2. DESCRIÇÃO DA COORTE 3.2.1. DADOS DOS PACIENTES Os dados doprojeto TCGA-KIRC listados abaixo foram obtidos dos portais Genomic Data Commons (GDC) (https://portal.gdc.cancer.gov/) e Xena Browser (https://xenabrowser.net/), seguindo versão de Data Release v18.0 (07-19-2018): i. Clínicos, dispõe de informações sobre a idade dos pacientes ao serem diagnosticados, estadiamento da doença, tempo de remissão do paciente sem sintomas da doença, tempo de sobrevida, status vital ao final do projeto e entre outros; ii. Genômicos, obtidos a partir do sequenciamento completo do genoma (WGS), para as análises de alterações somáticas e de número de cópias. iii. Contagem de transcritos, obtidos a partir do sequenciamento de RNAs (RNASeq). Dados de tecidos normais são obtidos a partir de amostras de tecido renal normal, não envolvido com processo tumoral, ou amostras de sangue periférico dos pacientes. 3.2.2. AQUISIÇÃO E DESCRIÇÃO DOS DADOS A aquisição dos dados foi realizada utilizando os pacotes TCGAWorkflow, versão 1.22.2 (SILVA et al., 2022) e TCGAbiolinks, versão 2.25.3 (COLAPRICO et al., 2015). Para o pré-processamento, análise exploratória e visualização dos dados clínicos foram utilizados os pacotes tidyverse, versão 1.3.2 (WICKHAM et al., 2019), skimr, versão 2.1.5 (WARING et al., 2022), tableone, versão 0.13.2 (YOSHIDA et al., 2022) e finalfit, versão 1.0.6 (HARRISON et al., 2023). Na etapa de pré-processamento dos dados foi realizada uma limpeza, removendo as variáveis que apresentaram menos de 50% de observações e mantendo somente as variáveis com registros únicos dos pacientes. Correção nos nomes das variáveis, checagem de frequências, adequações relacionadas ao tipo e níveis das variáveis categóricas também foram realizadas. 38 3.3. ASSINATURA TRANSCRICIONAL - ceRNA Para a construção da assinatura transcricional utilizando os genes participantes da rede ceRNA, ou seja, lncRNAs, miRNAs e mRNAs, foi utilizado o pacote OmicSelector, versão 1.0.0 (STAWISKI et al., 2022) e as técnicas (Tabela 2). Tabela 2: Técnicas de seleção de características e etapa de aplicação. Método Técnica Etapa Filtragem Modelos Lineares Generalizados (GLM) Seleção de Características e Benchmarking Análise Discriminante Linear (LDA) Seleção de Características Critério de Informação de Akaike (AIC) Seleção de Características eXtreme Gradient Boosting Benchmarking e Validação Wrapper Boruta Seleção de Características Recursive Feature Elimination (RFE) Seleção de Características Lasso Seleção de Características ElasticNet Seleção de Características Máquina Vetor de Suporte Benchmarking e Validação Naive Bayes Validação kNN Validação Random Forest Benchmarking e Validação Fonte: Autoral 3.3.1. CONSTRUÇÃO DOS DATASETS Inicialmente, foi montada uma tabela com informações clínicas dos pacientes e os dados das contagens brutas dos 221 genes participantes da rede ceRNA - 18 lncRNAs, 75 miRNAs e 128 mRNAs. 39 Dos 587 pacientes participantes do projeto que possuíam informações clínicas, 30 não possuíam um estadiamento definido (MX) e foram removidos. Para equilibrar o número de pacientes entre os grupos com (M1) e sem metástase (M0), foi realizado um balanceamento por meio da técnica correspondência dos escores de propensão utilizando os pacotes mice (van BUUREN e GROOTHULS-OUDSHOORN, 2011) e MatchIt (HO et al., 2011). Esta técnica avalia as probabilidades de cada paciente ser caracterizado como metastático ou não, a partir da construção de um conjunto de dados artificial baseado no pareamento de amostras metastática e não metastática com características similares, comparando as covariáveis para realizar o ajuste e construir o dado balanceado (BENEDETTO et al., 2018). Após este processamento, ambos os grupos com (M1) e sem metástase (M0) ficaram com um total de 95 pacientes. 3.3.2. SELEÇÃO DE CARACTERÍSTICAS O conjunto de dados foi dividido aleatoriamente em 60% para treino (n = 114 amostras), 20% para teste (n = 38 amostras) e 20% para validação (n = 38 amostras). As técnicas utilizadas para a produção das assinaturas utilizando os dados de treinamento foram: Recursive Feature Elimination (RFE), Boruta, My_stepwise_glm_binomial, iteratedRFECV, iteratedRFETest, stepAIC, stepLDA, Lasso e ElasticNet. Visando otimizar os resultados, mantendo a sua eficácia e otimizando o processamento computacional, alguns parâmetros foram modificados. Na RFE, foi utilizado validação cruzada de 10 dobras, percorrendo conjuntos de variáveis que variam de 1 a 50 componentes; na iteratedRFECV e na iteratedRFETest foi utilizado um número de 10 variáveis a serem selecionadas para a construção da assinatura. 3.3.3. BENCHMARKING E ASSINATURA OBTIDA Com as 9 assinaturas construídas, foi realizado um benchmarking para a seleção das assinaturas que apresentavam a melhor classificação do desenvolvimento metastático, utilizando os conjuntos de dados de teste e validação. Neste processo foram utilizadas as técnicas: Random Forest (rf), Generalized Linear Model (GLM) com uma função de ligação binomial, eXtreme Gradient Boosting (xgbTree) e Máquina Vetor de Suporte Radial (svmRadial), que foram executadas 10 vezes para buscar o melhor ajuste de parâmetros de cada 40 uma delas. Como resultado, obtêm-se métricas de desempenho, como a AUC (Area Under Curve), acurácia, especificidade, sensibilidade e estatística de Youden. 3.3.4. VALIDAÇÃO COM CONJUNTO DE DADOS EXTERNO Visando avaliar a concordância da assinatura construída, foi utilizado um conjunto de dados externo com 91 pacientes do projeto RECA-EU, desenvolvido de forma conjunta entre a União Europeia e França, e disponibilizado pelo International Cancer Genome Consortium (ICGC) (https://dcc.icgc.org/projects). Foram recuperados os dados de RNA-Seq e os dados clínicos dos pacientes. Para a construção da validação, foi utilizado o pacote “mlr3verse”, versão 0.2.8. Como técnicas de classificação, foram utilizadas a random forest, naive bayes, knn, svmradial e xgboost, e para avaliar a classificação foram utilizadas as métricas: acurácia, acurácia balanceada, escore de Brier e AUC. Durante a validação foram utilizadas três abordagens para avaliar a classificação por meio da assinatura. A primeira utilizou os dados do TCGA-KIRC para treinar e testou com o RECA-ICGC, a segunda abordagem utilizou os dados do RECA-ICGC para treinar e testou com os dados do TCGA-KIRC e a terceira abordagem utilizou o processo de validação cruzada, com um total de 3 dobras e 10 repetições. 3.4. ANÁLISE INTEGRATIVA DOS COMPONENTES DA ASSINATURA TRANSCRICIONAL Com a assinatura transcricional construída, buscou-se compreender quais são as alterações existentes sob os genes que a constituem e quais funções estas desempenham, a partir da relação com os genes aos quais se conectam na rede ceRNA. Sendo assim foram realizadas análises de alterações em nível de genoma, observando as alterações somáticas e no número de cópias, bem como as anotações funcionais, buscando as vias enriquecidas. 3.4.1. ANÁLISE DE ALTERAÇÕES GENÔMICAS 3.4.1.1. ANÁLISE DE ALTERAÇÕES SOMÁTICAS 41 A partir dos arquivos Mutation Annotation Format (MAF), foram realizadas as análises de alterações somáticas utilizando o pacote Maftools, versão 2.6.05 (Mayakonda et al., 2018). Nesta análise foram extraídas algumas informações como: (a) os tipos de variações existes; (b) a classificação dessas variações; (c) as classes das variações de nucleotídeo único; (d) a quantidade de variantes por amostra e (e) os 10 genes mais mutados na coorte. 3.4.1.2. ANÁLISE DE ALTERAÇÕES EM NÚMERO DE CÓPIAS A partir dos dados de segmentação disponibilizados pelo projeto TCGA-KIRC, foi construída a análise das regiões do genoma que estão amplificadas ou deletadas, seguindo a metodologia de Identificação Genômica de Alvos Significantes em Câncer (GISTIC) em sua versão2.0 (MERMEL et al.,2011). Com os resultados do GISTIC foram realizadas as análises das alterações no número de cópias, utilizando o pacote Maftools versão 2.6.05 (MAYAKONDA et al., 2018). Esta análise retorna informações sobre todas as alterações que ocorreram no dado, as regiões de amplificação ou deleção que apresentaram alterações significativas, as médias e as frequências dessas alterações. O nível de confiança (α) utilizado para o cálculo da região que contém um gene driver, foi de 1%, e a resolução para calcular as probabilidades utilizadas com estimativas foi de 5%. 3.4.2. ANÁLISE DE RISCO A partir dos dados de expressão dos genes da assinatura, em conjunto com os dados clínicos, registros de tempo de sobrevida, estadiamento patológico e status vital, foi realizada uma análise de risco associado aos genes da assinatura a progressão para estadiamento metastático e morte dos pacientes. Para a construção da análise foi utilizado o método de regressão aditiva de Aalen para dados censurados, a partir do pacote survival, versão 3.5-0 (THERNEAU e GRAMBSCH; 2023) e o pacote finalfit versão 1.0.6 (HARRISON et al., 2023), para a construção de uma análise da razão de chances. A análise do modelo aditivo de Aalen é uma forma complementar, ou alternativa, ao modelo de Cox, onde é obtida associações das covariáveis, ou seja, os genes da assinatura, e seus efeitos na sobrevida dos pacientes (AALEN, 1989), enquanto a razão de 42 chances (odds ratio) é um modelo estatístico que quantifica a força de associação entre dois eventos, a presença e não presença de metástase (MORRIS; GARDNER, 1988). 3.4.3. ANÁLISE COM LNCSEA O lncSEA é uma plataforma online que tem como objetivo de organizar e construir um conhecimento acerca dos lncRNAs, contendo informações divididas em 18 conjuntos de dados (CHEN et al., 2021). Neste trabalho foram utilizadas as bases de dados em negrito na Tabela 3, para obter as informações sobre os lncRNAs participantes da assinatura transcricional. Tabela 3: Categorias do lncSEA Doenças Hallmarks do Câncer Drogas Fator de Transcrição miRNAs Padrão de Metilação Fenótipo Cancerígeno Proteína Ligante ao RNA Enhancer Sobrevida Super Enhancer SmORF Cromatina Acessível Exosoma Marcador Celular eQTL Localização Subcelular Conservação * Em negrito as categorias utilizadas no estudo Fonte: Autoral. 3.4.4. ANÁLISE DE ANOTAÇÃO FUNCIONAL A anotação funcional foi feita junto a Enciclopédia de Genes e Genomas de Kyoto (KEGG) (KANEHISA, 2000, 2019; KANEHISA et al., 2021) e Gene Ontology (GO) (THE GENE ONTOLOGY CONSORTIUM et al., 2021), focando na relação dos genes com os processos biológicos e as funções moleculares. Para esta análise foi utilizado o pacote clusterProfiler, versão 4.3.1.900 (WU et al., 2021) e a plataforma mirPath, versão 3.0 (VLACHOS et al., 2015), para caracterização funcional dos miRNAs participantes da assinatura transcricional. 43 3.5. DESENVOLVIMENTO Os scripts deste estudo foram baseados na linguagem de programação estatística R, versão 4.2.2, utilizando o ambiente de desenvolvimento RStudio versão 2022.02.3+492. As implementações computacionais foram realizadas no servidor do Centro Multiusuário Bioinformática (BioME) do Instituto Metrópole Digital da UFRN. Os códigos e datasets foram disponibilizados em repositório do GitHub (transcriptonal_sig_ceRNA_KIRC, acesso em: 27 de jul. de 2023). https://github.com/epfarias/transcriptonal_sig_ceRNA_KIRC 44 4. RESULTADOS 4.1. DESCRIÇÃO DA COORTE Inicialmente foi realizada uma análise exploratória dos dados, visando descrever as informações demográficas e clínicas dos 537 pacientes participantes do projeto TCGA-KIRC (Tabela 4). Tabela 4: Características clínicas da coorte TCGA-KIRC. Nível Geral Doença síncrona (%) Não 461 (85,8) Não Reportado 72 (13,4) Sim 4 (0,7) Classificação AJCC para Estadiamento da Doença (%) Estágio I 269 (50,4) Estágio II 57 (10,7) Estágio III 125 (23,4) Estágio IV 83 (15,5) Diagnóstico Primário (%) Adenocarcinoma de células claras 523 (97,4) Carcinoma de células renais 14 (2,6) Patologia anterior (%) Não 463 (86,2) Sim 74 (13,8) Tratamento Anterior (%) Não 519 (96,6) Sim 18 (3,4) Raça (%) Asiático 8 (1,5) Preto ou Afro-americano 56 (10,4) Não Reportado 7 (1,3) Branco 466 (86,8) Sexo (%) Feminino 191 (35,6) Masculino 346 (64,4) Etnia (%) Hispânico ou Latino 26 (4,8) Não Hispânico ou Latino 359 (66,9) Não Reportado 152 (28,3) Status Vital (%) Vivo 360 (67,0) Morto 177 (33,0) Idade (média (desvio padrão)) 60.59 (12,55) Dias até o último acompanhamento (mediana [IQR]) 1.414,50 [680,00 2.070,25] Fonte: Autor 45 A coorte apresentou uma média de idade de 61 anos no diagnóstico da patologia, onde 64.4% eram do sexo masculino, e 86.8% se identificaram como brancos/caucasianos. Adicionalmente, 86.2% não apresentaram neoplasias anteriores e 451 pacientes foram classificados com tumores localizados (estágios I ao III), ou seja, sem ter entrado em estado metastático, mantendo-se em seu sítio de origem. 4.2. ASSINATURA TRANSCRICIONAL – ceRNA A construção de uma assinatura transcricional a partir da rede ceRNA desenvolvida por Farias Filho (2022) permite identificar quais são os genes que atuam como RNA endógeno competidor no desenvolvimento do processo metastático dos pacientes com ccRCC. Esta rede é composta por 128 RNAs, 18 lncRNAs e 75 miRNAs. Como resultado da aplicação das 8 técnicas de seleção de características, foram obtidas 9 assinaturas transcricionais (Tabela 5), seguindo os parâmetros descritos na metodologia. Durante o processo, foi visto que a técnica stepAIC não convergiu e não foi gerada uma assinatura transcricional, com isso foi removida da análise. O resultado da RFE foi separado em dois métodos de avaliação do desempenho médio da validação cruzada por número de variáveis, tomando como base as métricas: acurácia (Figura 9a) e coeficiente kappa (Figura 9b). Tabela 5: Métodos de seleção de características e respectivas assinaturas. Método Assinatura RFE_Accuracy Class ~ INSR + HMMR + PTTG1 + hsa.miR.381.3p + HECW2 + AF117829.1 + RASD1 + RFLNB + SNHG15 + hsa-miR-130a-3p + BTBD11 + hsa.miR.377.3p + CXCL2 + CSNK1E + ANLN + P3H1 + SGPP1 + CORO2B + L1CAM + hsa.miR.130b.3p + hsa.miR.495.3p + LOX + KCNN4 + FGFR2 RFE_Kappa Class ~ INSR + PTTG1 + HMMR + hsa.miR.381.3p + P3H1 + RASD1 + hsa- miR-130a-3p + RFLNB + BTBD11 + SGPP1 + HECW2 + hsa.miR.130b.3p + SNHG15 + CREB5 + AF117829.1 + ANLN + FGFR2 + SPRY4 Boruta Class ~ hsa-miR-130a-3p + hsa.miR.381.3p + HMMR + RASD1 + P3H1 + SGPP1 + HECW2 + BTBD11 + PTTG1 + INSR + RFLNB + SNHG15 + AF117829.1 MyStepwise_glm_binomial Class ~ RASD1 + LOX + P3H1 + RNF149 + INSR + RFLNB + C1RL.AS1 + PVT1 iteratedRFECV Class ~ INSR + PTTG1 + HMMR + hsa-miR-130a-3p + RFLNB + BTBD11 + HECW2 + SNHG15 + hsa.miR.381.3p + AF117829.1 46 iteratedRFETest Class ~ INSR + PTTG1 + HMMR + hsa.miR.381.3p + RASD1 + RFLNB + SNHG15 + AF117829.1 + hsa-miR-130a-3p + BTBD11 Lasso Class ~ INSR + hsa-miR-130a-3p + BTBD11 + HMMR + P3H1 ElasticNet Class ~ INSR + hsa-miR-130a-3p + BTBD11 + HMMR stepLDA Class ~ INSR * Class representa a presença (M1) ou ausência (M0) de metástase. Fonte: Autor. (a) (b) Figura 9: (a) Curva de acurácia da assinatura transcricional construída a partir da RFE, com valor acima de 70%. (b) Curva do coeficiente kappa, com valor acima de 0,5, representando uma assinatura de concordância moderada. Fonte: Autoral. 47 Ao observar o comportamento das curvas, é possível verificar que o processo de treinamento atinge sua acurácia máxima de 76,30%, e concordância kappa, 0,5686, após um crescimento na quantidade de variáveis analisadas. Além disso, após atingir seu ponto máximo, as métricas avaliativas não sofreram alteraçõescom a adição de novas variáveis para os modelos. Com a construção das assinaturas, foi realizado um benchmarking visando avaliar quais foram as melhores assinaturas, de acordo com o critério de melhor desempenho, obtido a partir da estatística de Youden, que mensura e avalia os testes de diagnósticos por meio de suas sensibilidades e sensitividades (YOUDEN, 1950). Foram utilizadas as técnicas Random Forest (RF), eXtreme Gradient Boosting (xgbTree), Máquina Vetor de Suporte Radial (svmRadial) e Generalized Linear Model (glm) com função binomial, caracterizando uma regressão logística (Figura 10). Figura 10: Acurácia dos métodos de benchmarking ao analisar as 9 assinaturas construídas junto aos dados de treino, teste e validação. Fonte: Autoral. Para a técnica RF foi observado um sobreajuste dos dados quando analisado o conjunto de treinamento, enquanto o xgbTree, o glm e svmRadial apresentaram valores acima dos 80% de acurácia para a mesma partição, e os métodos svmRadial e o xgbTree apresentaram alguns outliers, indicando um prejuízo na interpretação do resultado, já que a presença desses outliers representam inconsistências. A partir destes resultados, foi realizada a seleção das 4 assinaturas que apresentaram a melhor sensitividade e melhor especificidade durante a validação, baseando-se no índice de Youden (metaindex) (Tabela 6). 48 Tabela 6: Valores de sensitividade e especificidade na validação. Benchmarking Seleção de Características RFE_ACCUR ACY RFE_KAPPA BORUTA MY_STEPWISE_ GLM_BINOMIAL ITERATED_RFE _CV ITERATED_RF E_TEST LASSO ELASTIC NET STEPLDA GLM Spec* (%) 57,89 57,89 52,63 47,37 57,89 47,37 68,42 63,16 63,16 Sens* (%) 52,63 57,89 47,37 36,84 52,63 52,63 47,36 47,36 52,63 RF Spec (%) 52,63 52,63 31,58 42,10 47,37 42,10 42,10 47,36 31,58 Sens (%) 57,89 63,16 63,16 57,89 63,15 63,15 52,63 52,63 57,89 xgbTree Spec (%) 57,89 63,15 52,63 52,63 68,42 68,42 63,15 57,89 63,15 Sens (%) 63,15 68,42 63,15 57,89 57,89 63,15 52,63 52,63 52,63 svmRadial Spec (%) 63,15 52,63 52,63 47,36 47,36 47,36 52,63 42,10 57,89 Sens (%) 57,89 57,89 57,89 52,63 57,89 68,42 42,10 57,89 57,89 metaindex 0,1842 0,1579 0,0526 -0,0131 0,1316 0,1316 0,0526 0,0526 0,0921 *Spec = Especificidade *Sens = Sensitividade * Em negrito as assinaturas escolhidas Fonte: Autoral Ao observar as métricas das técnicas no benchmarking (APÊNDICE B), somente em relação às quatro melhores assinaturas (Tabela 7), observou-se o melhor desempenho com a técnica xgbTree, que apresentou valores de especificidade e sensitividade para entre 57,8 e 68,4% para as quatro melhores assinaturas, RFE_ACCURACY, RFE_KAPPA, ITERATED_RFE_CV e ITERATED_RFE_TEST. (Figura 11). Figura 11: Média dos valores de acurácia, especificidade e sensibilidade obtidas com a técnica xgbTree, com 10 repetições. Em vermelho a iteratedRFECV, em verde a iteratedRFETest, em azul a RandomForestRFE e em roxo a RandomForestRFE_KAPPA Novamente, observado um observado um sobreajuste dos dados, onde o treinamento é perfeito e o teste/validação não são. Fonte: Autoral. 49 Tabela 7: 4 Melhores assinaturas obtidas a partir do segundo benchmarking. Método Assinatura RFE_Accuracy Class ~ INSR + HMMR + PTTG1 + hsa.miR.381.3p + HECW2 + AF117829.1 + RASD1 + RFLNB + SNHG15 + hsa-miR-130a-3p + BTBD11 + hsa.miR.377.3p + CXCL2 + CSNK1E + ANLN + P3H1 + SGPP1 + CORO2B + L1CAM + hsa.miR.130b.3p + hsa.miR.495.3p + LOX + KCNN4 + FGFR2 RFE_Kappa Class ~ INSR + PTTG1 + HMMR + hsa.miR.381.3p + P3H1 + RASD1 + hsa-miR-130a-3p + RFLNB + BTBD11 + SGPP1 + HECW2 + hsa.miR.130b.3p + SNHG15 + CREB5 + AF117829.1 + ANLN + FGFR2 + SPRY4 iteratedRFECV Class ~ INSR + PTTG1 + HMMR + hsa-miR-130a-3p + RFLNB + BTBD11 + HECW2 + SNHG15 + hsa.miR.381.3p + AF117829.1 iteratedRFETest Class ~ INSR + PTTG1 + HMMR + hsa.miR.381.3p + RASD1 + RFLNB + SNHG15 + AF117829.1 + hsa-miR-130a-3p + BTBD11 Fonte: Autor. Com a escolha do método de benchmark e a escolha das quatro melhores assinaturas transcricionais, buscou-se conhecer quais são os genes, codificantes e não codificantes, que fazem parte e são comuns a todas as assinaturas obtidas (Figura 12). Após a análise, foi definida a assinatura transcricional (Equação 14) com a composição baseada nos genes compartilhados entre as 3 três melhores assinaturas, composta por 7 mRNAs, 2 lncRNAs e 2 miRNAs. Class ~ INSR + PTTG1 + BTBD11 + RASD1 + HECW2 + HMMR + RFLNB + hsa-miR-130a-3p + hsa.miR.381.3p + SNHG15 + AF117829.1 Equação 14: Assinatura Transcricional. A validação da assinatura transcricional foi realizada utilizando o dataset externo, dentre as três abordagens realizadas foi visto que a primeira, utilizando o dataset do TCGA-KIRC como treino e utilizando o RECA-ICGC como teste, apresentou o melhor resultado dentre elas (Tabela 8), especificamente tomando como base a metodologia do random forest. Ao observar as métricas obtidas para a metodologia, foi possível observar que a assinatura apresentou acurácia e acurácia balanceada de 72%, uma AUC de 81.5% e uma pontuação de Brier de 0.1955, tendo como resultante também a matriz de confusão. 50 Figura 12: Genes presentes cada uma das 9 assinaturas e interseção entre elas. Fonte: Autor. 51 Tabela 8: Métricas avaliadas para a validação com conjunto de dados externo. Método Acurácia Acurácia Balanceada AUC Pontuação de Brier RandomForest 72.2% 72.2% 81.48% 0.1955442 SVM 50% 50% 66.67% 0.2500714 xgBoost 61.1% 61.1% 62.34% 0.2343498 kNN 50% 50% 61.72% 0.4817816 Naive Bayes 50% 50% 54.32% 0.5000000 * Em negrito a melhor métrica. Fonte: Autoral 4.3. ANÁLISE INTEGRATIVA DOS COMPONENTES DA ASSINATURA TRANSCRICIONAL A análise integrativa dos genes componentes da assinatura transcricional permite compreender quais são as alterações que afetam os genes e seus produtos, e que podem ter algum impacto no desenvolvimento do processo tumoral e metastático. Os genes e suas respectivas funções são apresentados na Tabela 9. Tabela 9: Genes participantes da assinatura resultante (Equação 14) e suas funções Símbolo Nome Função AF117829.1 AF117829.1 Sem função definida pela literatura. BTBD11 Domínio BTB Contendo 11 Permite a atividade de heterodimerização de proteínas. HECW2 Domínios HECT, C2, WW contendo proteína ligase 2 da ubiquitina E3 Codifica membro da família de ligases de ubiquitina E3, associado a proliferação, migração, diferenciação e angiogênese. HMMR Receptor de Motilidade Mediada por Hialuronano Motilidade celular hsa-miR- 130a-3p hsa-miR-130a-3p Regulação pós-transcricional. hsa-miR-381- 3p hsa-miR-381-3p Regulação pós-transcricional. INSR Receptor de Insulina Codifica membros da família de receptores tirosina quinase. Ao se ligar com a insulina ou qualquer ligante, ativa a via de sinalização da insulina. PTTG1 Proteína do Gene 1 Transformadora de Tumor Pituitário Regulação da separação das cromátides irmãs RASD1 Indutor de Dexametasona 1 Relacionado a RAS Codifica membros da superfamília RAS de pequenas GTPases e é induzido pela dexametasona RFLNB Refilina B Permite a atividade de ligação de filaminas. SNHG15 Pequeno RNA Nucleolar Hospedeiro do Gene 15 Contribui com a proliferação celular, atuando como esponja para miRNAs. Fonte: GeneCards e Gene/NIH. 52 4.3.1. ANÁLISE DAS ALTERAÇÕES GENÔMICAS A realização de uma análise das alterações em nível de genoma permite avaliar o efeito que estas têm sobre o seu produto, podendo ser elas alterações da estrutura ou interrupção na síntese proteica, ou alteração da quantidade de produto gênico. Utilizando o pacote maftools, analisamos os polimorfismos de nucleotídeos únicos (SNPs) e as alterações em número de cópias (CNVs) no genomados da coorte TCGA-KIRC. Em uma análise geral (Figura 13), foi verificada uma maior presença de mutações missenses do tipo SNP, com uma mediana de 44 variantes por amostra. Ao observar as alterações em nucleotídeo único verificou-se a ocorrência de diversas transições e transversões, onde a transversão de citosina para timina foi a mais anotada, com 6.477 registros. Figura 13: Sumário das alterações somáticas para o TCGA-KIRC. Primeira linha (esquerda para a direita): Classificação e número de mutações somáticas, os tipos de variações e suas contagens, quantitativo de transições e transversões das SNVs. Segunda linha (esquerda para a direita) quantidade de mutações por amostra, distribuição das mutações e 10 genes mais alterados na coorte. Fonte: Autoral. Quando feita a busca pelos genes codificantes participantes da assinatura, foram encontradas 10 amostras (APÊNDICE C) que continham alterações associadas a eles, onde foi visto que as mutações missense, frame_shift_del e mult hit, foram as mais frequentes, mas os genes HMMR e RFLNB não apresentaram nenhum tipo de mutação. A mutação frame_shift_del é associada à deleção na janela de leitura, enquanto que a mult hit é associada a combinação de 53 mutações em determinado gene e representam uma causa potencial para progressão tumoral (HAJRI et al., 2020). Ao analisar as CNVs, foi visto que os cromossomos 1, 4, 5, 6, 7, 12, 17, 19 e 20 apresentam regiões com maiores quantidades de alteração, na amplitude e frequência entre as amostras. As regiões 5q11.2, 17q21.2 e 20p13, foram as regiões mais amplificadas dentre as amostras, enquanto as regiões 1q25.1, 8q21.2, 11p11.12 e 19q13.41 foram as regiões que apresentaram maiores níveis de deleção (Figura 14). Figura 14: ChromPlot apresentando as regiões mais amplificadas, em vermelho, e as regiões com mais deleções, em azul. O eixo Y representa a magnitude e frequência (G-Score) das mutações ao longo dos cromossomos no eixo X. Fonte: Autoral. Figura 15: Oncoplot do GISTIC com as 10 regiões comumente mais alteradas por deleção, em verde, ou por amplificação, em vermelho, nos pacientes do TCGA-KIRC. A direita do gráfico está a percentagem de pacientes que apresentaram a alteração. Fonte: Autoral. 54 A Figura 15 apresenta as 10 regiões mais frequentemente alteradas dentre os pacientes participantes do projeto TCGA-KIRC. As regiões 3p22.2, 3p26.3 e 3p21.1 são as regiões deletadas encontradas em mais de 80% dos pacientes do projeto, enquanto as regiões 5q35.2 e 5q35.3 são as regiões amplificadas encontradas em mais de 60% dos pacientes do projeto. Ao buscar as regiões de localização dos genes da assinatura junto ao banco de dados de sequências de referência do National Center of Biotechnology Information (O’LEARY et al., 2016), foi visto que eles estão localizados (Tabela 10) em cromossomos com altas quantidade de mutações (Figura 14), mas não estão nas regiões mais alteradas nos pacientes da coorte (Figura 15). Tabela 10: Localização dos genes da assinatura transcricional Gene Localização Cromossômica* AF117829.1 8q21.3 BTBD11 12q23.3 HECW2 2q32.3 HMMR 5q34 hsa-miR-130a-3p 11q12.1 hsa-miR-381-3p 14q32.31 INSR 19p13.2 RASD1 17p11.2 PTTG1 5q33.3 RFLNB 17p13.3 SNHG15 7p13 * Em negrito os genes localizados próximos a regiões altamente alterada. Fonte: Autoral 4.3.2. ANÁLISE RISCO Ao construir uma análise de risco associada sobre a expressão dos genes da assinatura e a progressão do ccRCC, utilizando o modelo de regressão aditivo de Aalen, foi possível observar que existe relação significativa (Figura 16a) entre alguns genes da assinatura com a sobrevida dos pacientes, como: (i) AF1117829.1 (p-valor = 0,0001627), (ii) hsa-miR-130a-3p (p-valor = 0,016), (iii) hsa.miR.381.3p (p-valor = 0,027) e (iv) PTTG1 (p-valor = 0,020). 55 Figura 16: (a) Forest plot para a associação dos genes da assinatura com a sobrevida dos pacientes (p-valor < 0,05), (b) Curvas da relação de expressão das covariáveis com o status vital dos pacientes, o eixo X representa o tempo de sobrevida (em dias) e o eixo Y representa a função cumulativa da regressão para a variável resposta. Fonte: Autoral. Ao observar o comportamento dos genes da assinatura com o desenvolvimento de metástase (Figura 17), foi visto que o miRNA hsa-miR-130a-3p e o lncRNA AF117829.1 foram os únicos que tiveram a associação significativa, p-valor = 0,011 e p-valor = 0,029, respectivamente. Figura 17: Razão de Risco de cada gene da assinatura relativo ao desenvolvimento metastático e intervalo de confiança de 95%. O miRNA hsa-miR-130a-3p e o lncRNA AF117829.1 foram os únicos significativamente associados (p-valor < 0.05). Fonte: Autoral. 56 4.3.3. ANOTAÇÃO FUNCIONAL Visando avaliar os processos envolvendo os genes participantes da assinatura (Tabela 8), foram realizadas análises de anotação funcional contra o KEGG e o Gene Ontology, focando nos termos processos biológicos (BP) e funções moleculares (MF). Ao realizar a anotação funcional dos genes junto ao KEGG, foi visto que os genes codantes participantes da assinatura (RASD1, PTTG1, HECW2, RFLNB, BTBD11, INSR e HMMR), estão associados a vias de regulação de longevidade, regulação da lipólise em adipócitos, reabsorção de sódio regulada pela aldosterona e diversas outras, com um p-valor < 0,05 (Figura 18a). Adicionalmente, quando avaliadas as vias associadas aos genes regulados pelos miRNAs participantes da assinatura (hsa.miR.130a.3p e hsa.miR.381.3p) na plataforma mirPath, foram identificadas vias ligadas diretamente ao desenvolvimento oncológico e já bem descritas na literatura, como as vias de sinalização do PI3K-AKT, do gene supressor de tumor p53, do Fator de Transformação do Crescimento Beta (TGF-beta), como também a via do câncer de célula renal e do HIF-alfa (Figura 18b). (a) 57 (b) Figura 18: Anotação funcional feita a partir do KEGG, para (a) os sete genes codificantes e (b) os mRNAS alvos dos dois miRNAs participantes da assinatura. Cada ponto representa as vias biológicas anotadas (p-valor ajustado <0.05). Em ambas o eixo Y representa as vias anotadas para seus respectivos dados de entrada, já o eixo X para a figura (a) representa relação de pertencimento entre os mRNAs da assinatura e o total de genes da via, já na figura (b) representa a quantidade de genes que são regulados pelos miRNAs e fazem parte da mesma via. Fonte: Autor. Os genes codificantes da assinatura estão associados a processos biológicos (GO - BP) responsáveis pela regulação da divisão celular, como a separação das cromátides irmãs e a segregação cromossômica (Figura 19a). Em relação às vias alteradas pelos miRNAs da assinatura, foi possível observar também vias associadas ao processo de divisão celular, além de vias associadas às ações de transdução de sinal, fatores de crescimento, regulação da DNA polimerase I (Figura 19b), ambas análises utilizando um nível de significância de 0,05. (a) 58 (b) Figura 19: Anotação funcional feita a partir do Gene Ontology, para (a) os sete genes codificantes e (b) os mRNAS alvos dos dois miRNAs participantes da assinatura. Em ambas o eixo Y representa as vias anotadas para seus respectivos dados de entrada, já o eixo X para a figura (a) a quantidade mRNAs da assinatura nessa via e na figura (b) representa a quantidade de genes que são regulados pelos miRNAs e fazem parte da mesma via. Fonte: Autor. Seguindo com as análises junto ao GO, foi observado que as MF anotadas a partir dos genes codificantes de assinatura, estão associadas a diversas atividades de ligação, sendo elas referentes à insulina/fatores de crescimento associados a receptores de insulina, filaminas, ácido hialurônico GTP (Figura 20a). Ao observar as vias dos alvos dos miRNAs da assinatura, mantêm-se a associação comprocessos de ligação, mas associadas a ligação de enzimas, RNA, proteínas ao citoesqueleto, fatores de transcrição e diversas outras (Figura 20b). (a) 59 (b) Figura 20: Anotação funcional feita a partir do Gene Ontology, para (a) os sete genes codificantes e (b) os mRNAS alvos dos dois miRNAs participantes da assinatura. Em ambas o eixo Y representa as vias anotadas para seus respectivos dados de entrada, já o eixo X para a figura (a) a quantidade mRNAs da assinatura nessa via e na figura (b) representa a quantidade de genes que são regulados pelos miRNAs e fazem parte da mesma via. Fonte: Autor. 4.3.4. LNCSEA ANALYSIS A análise junto ao lncSEA possibilita conhecer como a literatura e os trabalhos experimentais estão caracterizando e relacionando os lncRNAs a diversos processos biológicos, apresentados em 18 categorias, como apresentadas na metodologia. A partir dos 18 lncRNAs participantes da rede ceRNA (Tabela 11), foi realizada uma busca nas categorias relacionadas com a sobrevida dos pacientes, ao fenótipo oncológico, a ligações de miRNAs e hallmarks do câncer. Tabela 11: lncRNAs participantes da rede ceRNA lncRNAs* AC005154.1 EPB41L4A-AS1 NEAT1 AC015813.1 GAS5 PVT1 AC016876.2 H19 SNHG1 AC021078.1 MAGI2-AS3 SNHG5 AF117829.1 MALAT1 SNHG15 C1RL-AS1 MIR497HG SNHG20 * Em negrito os lncRNAs participantes da assinatura. Fonte: Autor 60 Todos os lncRNAs apareceram em pelo menos uma das quatro categorias, valendo destacar os lncRNAs AF117829.1, AC021078.1, AC015813.1, AC016876.2, que apareceram somente associados a sobrevida dos pacientes, enquanto os 13 lncRNAS restantes aparecem em todas as categorias listadas. Ao tomarmos como foco os 2 lncRNAs (SNHG15 e AF117829.1) participantes da assinatura e suas associações às quatro categorias, foi visto que o SNHG15 é um lncRNA que aparece associado a todas as categorias, desempenhando funções sobre os hallmarks do câncer, estando relacionado aos processos de apoptose, prognose, invasão e proliferação celular. Nos bancos de dados acerca do fenótipo oncológico foi observada a sua presença em todos os estadiamentos tumorais, como também foi visto que bancos de dados o relacionam à sobrevida dos pacientes, tendo uma associação significativa e associado a diversos miRNAs. Entretanto, o AF117829.1 mostrou-se somente relacionado à sobrevida dos pacientes. 4.4. ASSINATURA TRANSCRICIONAL E A ceRNA Ao buscar o posicionamento dos genes participantes da assinatura transcricional na rede ceRNA (Figura 21a e 21b), é possível compreender quais são os genes que em conjunto atuam como RNA endógenos competidores, para assim ver quais são os processos biológicos relacionados a progressão metastática. Como observado, a rede apresenta um padrão de organização baseado em clusters. Alguns genes da assinatura ficaram posicionados em clusters distintos (Figura 21a) com genes que competiam pelo mesmo miRNA, como no eixo AF117829.1 - HMMR - hsa.miR.365.5p - POLE2 , do cluster 1 (Figura 22a). Os clusters mais densos (Figura 22b) com um maior número de ligações entre lncRNAs- miRNAs-mRNAs, compartilham do mesmo miRNA por dois participantes da assinatura, como nos eixos INRS - hsa.miR.16-5p - RFLNB e INRS - hsa.miR.424-5p – RFLNB, do cluster 2. Adicionalmente também foram observados três genes da assinatura em outra região desse mesmo cluster, sendo eles HECW2 - RASD1 - hsa.miR.130a.3p. Também foram observados clusters com a presença de somente um gene da assinatura, como o hsa-miR-381-3p (Figura 23a) e o BTBD11 (Figura 23b), PTTG1 (Figura 23c), SNHG15 (Figura 23d), nos cluster 3, 4, 5 e 6, respectivamente. 61 (a) (b) Figura 21: Posicionamento dos genes da assinatura transcricional dentro da rede ceRNA, (a) Região menos densa, com poucas conexões, (b) Região mais densa, com alta quantidade de conexões entre os clusters. Fonte: Autoral. 62 (a) (b) Figura 22: Clusters compostos (a) por um lncRNA e mRNA participante da ceRNA e (b) por vários genes participantes da ceRNA, que compartilham o mesmo miRNA. Fonte: Autoral. 63 (a) (b) (c) (d) Figura 23: (a),(b),(c) e (d) clusters compostos somente com um gene da assinatura transcricional. Fonte: Autoral. 64 Para facilitar a compreensão dos clusters da rede ceRNA, os alvos diretos dos genes da assinatura são apresentados na Tabela 12. Tabela 12: Genes da assinatura e seus respectivos ligantes na rede ceRNA. Gene Ligantes (1º vizinhos) AF117829.1 hsa-miR-361-5p, POLE2, HMMR BTBD11 hsa-miR-374a-5p, hsa-miR-374b-5p, MAGI2-AS3 HECW2 hsa-miR-130a-3p, hsa-miR-130b-3p, hsa- miR-454-3p, hsa-miR-4295, hsa-miR-3666, H19 HMMR hsa-miR-361-5p, POLE2, AF117829.1 hsa-miR-130a-3p HECW2, WNK3, RASD1, PFKFB3, SCARA3, LDLR, PMEPA1, TCF4, PXDB, BCL11A, NHSL1, H19 hsa-miR-381-3p RSRP1, CORO1C, ATAD5, RNF149, AC016876.2 INSR hsa-miR-16-5p, hsa-miR-424-5p, C1RL- AS1. PTTG1 hsa-miR-186-5p, AC021078.1 RASD1 hsa-miR-130a-3p, hsa-miR-130b-3p, hsa- miR-454-3p, hsa-miR-4295, hsa-miR-3666, H19 RFLNB hsa-miR-29a-3p, hsa-miR-29b-3p, hsa-miR- 29c-3p, hsa-miR-16-5p, hsa-miR-424-5p, H19, AC005154.1 SNHG15 hsa-miR-24-3p, IL2RB, NFKBIE, CITED4 Fonte: Autoral 4.5. MANUSCRITO PUBLICADO De maneira a difundir os resultados obtidos neste estudo, um manuscrito foi escrito e submetido a plataforma bioRxiv como uma forma de disponibilizar os achados antes de sua publicação, o preprint pode ser acessado na plataforma pelo DOI: https://doi.org/10.1101/2023.07.31.551358, como também se encontra disponível no APÊNDICE D. https://doi.org/10.1101/2023.07.31.551358 65 5. DISCUSSÃO No presente estudo foi construída uma assinatura transcricional associada ao desenvolvimento metastático, utilizando técnicas de seleção de características em conjunto com dados da rede ceRNA para casos de pacientes diagnosticados com carcinoma renal de células claras, como também foi avaliado o comportamento biológico dos genes que compõem a assinatura. 5.1. ASSINATURA TRANSCRICIONAL A assinatura transcricional resultante (Equação 14) foi obtida a partir da aplicação de 9 técnicas de seleção de características, para o treinamento das assinaturas. As curvas de avaliação de aprendizado da técnica RFE com dados de treinamento apresentaram uma taxa de acerto de 76,30% e coeficiente Kappa de 0,5663. De acordo com Landis e Koch (1977), valores de kappa compreendidos no intervalo de 0,41 e 0,6 representam uma boa concordância entre a resposta do método de classificação com o dado real, e quando analisada junto a acurácia da classificação, possibilita uma análise robusta da classificação, considerando o erro de custo associado às classificações erradas (BEN-DAVID, 2008). Com intuito de avaliar as assinaturas construídas e assim escolher a melhor por meio do benchmarking, foram aplicadas 4 outras técnicas de seleção de características. Ao aplicar as 4 técnicas foram observados casos de sobreajuste dos dados, o que significa que para os dados de treinamento os modelos tiveram bons desempenhos, como o svmRadial que apresentou mais de 90% de acurácia. No entanto, ao avaliar a assinatura com os dados de validação e teste, o método não apresentou resultados satisfatórios. Com isso, visando comparar e escolher as melhores assinaturas de forma significativa, foi utilizado a estatística de Youden, baseado na relação da sensibilidade e a especificidade durante a validação e quanto mais próximo de 1 melhor, melhor é a classificação (YOUDEN, 1950). Este índice também é influenciado pelo número de amostras (ZHOU, 2011). Desta forma, as 4 melhores assinaturas foram escolhidas com índices variando de 0,13 a 0,18, (TABELA 6), índices que certamente seriam maiores com um maior número de amostras analisadas. As quatro assinaturas com o melhor desempenhoforam analisadas e a assinatura resultante foi obtida a partir da interseção entre elas, mantendo somente os genes comuns entre elas (Figura 12). Corroborando com os dados de origem e a atividade de ceRNA, por apresentar em sua composição genes que se espera a função de competidor endógeno, a assinatura final é composta pelos genes codificadores de proteínas: (i) PTTG1, (ii) BTBD11, (iii) HECW2, (iv) 66 INSR, (v) RFLNB, (vi) HMMR, (vii) RASD1; e por genes não codificadores de proteínas: (i) SNHG15, (ii) AF117829.1, (iii) hsa-miR-381-3p e (iv) hsa-miR-130a-3p. A utilização da validação com um dataset externo é caracterizada como uma atividade padrão no campo da aprendizagem de máquina, visando determinar a eficácia e a generalização do modelo proposto (HO et al., 2020). Existem diversos estudos voltados para construção de assinaturas em ccRCC, com foco na associação da expressão com sobrevida (TERREMATTE et al.;2022), na expressão de genes relacionados ao sistema imune (HUA et al., 2020). Neste estudo, a validação da assinatura construída apresentou resultados ótimos, com acurácia e AUC de 72% e 81.5% respectivamente, representando uma boa associação da assinatura com classificação de metástase ou não em ccRCC. 5.2. VALIDAÇÃO E INTERPRETAÇÃO BIOLÓGICA 5.2.1. ALTERAÇÕES GENÔMICAS E FUNCIONAIS Os resultados das análises das alterações somáticas sobre os dados do TCGA-KIRC corroboraram com a literatura, apresentando os genes mais frequentemente mutados, VHL, PBRM1, SETD2 e BAP1 (Figura 13). A perda ou alteração nos genes VHL, PBRM1 e BAP1 está relacionado com alterações no Fator Induzível de Hipóxia (HIF), um dos principais mecanismos relacionados ao ccRCC (GOSSAGE et al.; 2015, JONASCH et al.; 2021), enquanto que a perda do SETD2 influencia no aumento da perda de metilação de DNA nas regiões não promotoras (TCGA, 2013). Ao buscar por alterações somáticas existentes nos genes codificantes participantes da assinatura, foi visto que todos apresentaram mutações do tipo missense ou frame_shitf_del, com exceção do HMMR e do RFLNB (APÊNDICE C). Como apresentado por Brody (2023) as mutações missense, são caracterizadas por meio da mudança de um aminoácido na sequência do DNA e seus efeitos podem ser nulos ou associados a modificações nas proteínas. Avaliando as alterações de números de cópia, nenhum dos genes da assinatura (Tabela 9) estão localizados nas regiões com altas taxas de de amplificação/deleção (Figura 14) e nem nas regiões mais comumente alteradas (Figura 15). Além das alterações genômicas, foi realizada uma análise de risco associada à sobrevida (Figura 16) ou ao desenvolvimento metastático (Figura 17). A associação dos genes da assinatura a sobrevida dos pacientes foi significativa em quatro genes, PTTG1 (p-valor = 0,020), AF117829.1 (p-valor = 0,0001627), hsa-miR-381-3p (p-valor = 0,016) hsa-miR-130a-3p (p- valor = 0,027) enquanto somente o lncRNA AF117829.1 e o miRNA hsa-miR-130a-3p foram 67 associados significativamente (p-valor = 0,029 e p-valor = 0.011) ao desenvolvimento metastático. O hsa-miR-130a-3p é associado a desenvolvimento metastático e prognóstico ruim em diversos cânceres, como câncer de bexiga (ZHU et al., 2021), glioma (XU et al., 2019), osteossarcoma (CHEN et al., 2016a, 2016b), câncer de mama (STÜCKRATH et al., 2015), hepatocelular (LI et al., 2014), e células pulmonares não pequenas (MA et al., 2020), enquanto o lncRNA não apresenta função e mecanismo definido na literatura. O oncogene PTTG1 foi associado a um prognóstico ruim ccRCC, onde foi visto que em altos níveis de expressão a doença apresenta uma característica de progressão bem agressiva (WONDERGEM et al.,2012). O miRNA hsa-miR-381-3p foi descrito como supressor de tumor em ccRCC, onde foi visto que ao ser suprimido ocorre a promoção do crescimento tumoral e aumento da resistência ao tratamento quimioterápico (CHAN et al.,2019). Sendo assim, a presença dos genes PTTG1 e hsa.miR.130a.3p corrobora com a literatura, onde quando em situação de alta expressão ocorre uma pior sobrevida dos pacientes, e para os miRNAs hsa.miR.130a.3p e hsa.miR.381.3p também é associado ao desenvolvimento metastático, enquanto o lncRNA AF117829.1 têm essas características adicionadas as suas ações, que ainda estão em estudo. Com os genes da assinatura foi também realizada uma análise de anotação funcional contra os bancos KEGG e GO. Quando feito junto ao KEGG utilizando os genes codificantes da assinatura (Figura 18a) foi observada uma anotação de vias bem diversificadas. A via com maior dobra de enriquecimento está associada com a reabsorção de sódio regulado pela aldosterona, que atua no metabolismo do sódio e potássio nos dutos coletores renais (CONNELL; DAVIES, 2005), e alguns estudos sobre biomarcadores de desenvolvimento metastático (WEI et al., 2019) e prognóstico (ZHANG et al., 2020) no ccRCC apresentaram essa via como enriquecida. A via reguladora da longevidade é caracterizada pela regulação de diversas outras vias: (a) sinalização de insulina, (b) via de sinalização AMPK e (c) alvos da via mTOR, afetadas a partir da restrição calórica, associada a alimentação em mamíferos (BARZILAI et al., 2012; LONGO; LIEBER; VIJG, 2008), vias estas que foram anotadas a partir dos miRNAs da assinatura. Ao utilizar os miRNAs participantes da assinatura foi observada a presença de vias do KEGG bastante discutidas na literatura associada ao câncer (Figura 18b). A principal delas foi a via de sinalização PI3K/AKT (p-valor = 0,010) relacionada com a regulação da apoptose, proliferação celular, e também com a resistência e a resposta terapêutica em diversos cânceres (VARA et al.,2004). A via de sinalização FoxO (p- valor = 0,012), é composta por genes da subfamília dos fatores de transcrição “foxhead” que atuam como supressores de tumor. Estes 68 fatores de transcrição estão envolvidos com funções de reparo de DNA, apoptose, proliferação e diferenciação celular, além de atuar como mediadores de estresse oxidativo (FARHAN et al, 2017). A via de sinalização TNF (p-valor = 0,010) está associada aos processos de necrose celular, apoptose, oncogênese, progressão, invasão e metástase tumoral, agindo em conjunto das vias PI3K/AKT, NF-kappa-B (CHU, 2013). A via de sinalização AMPK (p-valor = 0,011) atua como um sinalizador do status de energia celular, como também o crescimento e apoptose celular no câncer de próstata, regulando o gene HIF-alpha (STEINBERG; KEMP, 2009). Quando analisados contra o GO, foram avaliadas as anotações relativas aos processos biológicos e às funções moleculares. As vias relacionadas aos processos biológicos em ambas as abordagens, utilizando os genes codificantes e miRNAs, (Figura 19a/b) apresentaram anotação relacionado a atividade desempenhadas sob o processo de regulação do ciclo celular, controle de separação e segregação das cromátides irmãs, da transcrição RNA polimerase II, regulando positiva e negativamente, a sua atividade de transcrição de genes codificantes e não codificantes (SCHIER; TAATJES, 2020), como também processos relacionados comunicação célula-célula. Já as funções moleculares em ambas as abordagens, utilizando os genes codificantes e miRNAs (Figura 20a/b) estão ligadas aos processos de ligação de enzimas, das proteínas do citoesqueleto, dos fatores de transcrição e das ligações entre íons, como também foram observadas vias relacionadas às atividades de ligação das proteínas e dos ácidos nucleicos aos fatores de transcrição. Os resultados da análise junto ao lncSEA mostram que a função dos lncRNAs na rede ceRNA, enquanto atuantes na progressão de patologias e independente do sítio de origem, em sua maioria estão bem descritos na literatura, tendo suas funcionalidades e associações elencadas e definidas. Sabe-se por exemplo, que o SNHG15, um dos dois lncRNAs da assinatura, faz parte da família de pequenosRNAs nucleolares hospedeiros gene, bastante discutida na literatura, caracterizada como oncogenes, induzindo a progressão do ciclo celular, progressão, invasão e metástases em células tumorais (ZIMTA et al., 2020). Entretanto, para o segundo lncRNA da assinatura o AF117829.1, não há ainda uma caracterização do seu mecanismo de ação, somente as associações. O lncRNA AF117829.1 foi caracterizado por Li e colaboradores, em 2021, ao estudar a anemia aplástica severa e observar a associação do lncRNA com os processos de diferenciação e proliferação das células T, como também a regulação da função do linfócito T CD8+ por meio da elevação da expressão do RIP2 (LI et al., 2021). Corroborando com Li e colaboradores 69 (2021), Xia et al. (2022) construiu uma assinatura baseada em lncRNAs atuante na piroptose, forma altamente inflamatória de morte celular programada, relacionando ao microambiente imune do adenocarcinoma de cólon, associando o AF117829.1 ao risco de desencadeamento da piroptose. No entanto, os lncRNAs AC016876.2 e AC015813.1 aparecem em artigos, relacionando-os ao péssimo prognóstico no câncer esofágico, colorretal e células claras, mas devido ao pouco conhecimento de suas funções não se sabem suas relações com as patologias (WANG et al.,2021; WANG et al.,2022; CHEN et al.,2022), já o AC021078.1 não apareceu listado em nenhum documento da literatura. Com isso, a anotação funcional mostrou que os genes da assinatura estão associados com processos importantes para o desenvolvimento metastático, associando a vias importantes como a PI3K/ATK e mTOR, como também a vias paralelas que representam papéis em processos de cascata, que ao serem alteradas desencadeiam respostas anormais e alteram a homeostase celular, como a via da longevidade e de regulação de insulina. Já ao observar os resultados do lncSEA, conseguimos extrair que a literatura apresenta estudos dos genes da rede e da assinatura, em sua maioria já relacionado ao ccRCC ou novas associações, como do AF117829.1 que só tinha sido associado a anemia ou câncer colorretal (LI et al., 2022; XI et al. 2022). 5.2.2. ANÁLISE DOS GENES DA ASSINATURA NA REDE CERNA A análise dos genes participantes da assinatura e seu posicionamento dentro da ceRNA, permite estimar sua atividade biológica no contexto ccRCC e seu papel sobre a progressão metastática. Desta forma, iremos discutir a atividade dos genes da assinatura e seus primeiros ligantes individualmente e propor a forma de regulação em cada cluster. AF117829.1 - POLE2 - HMMR - hsa.miR.361.5p O cluster 1 (Figura 22a) apresenta uma rede de competição composta pelo lncRNA AF117829.1, integrante da assinatura e os genes hsa-miR-361-5p, POLE2 e HMMR, este último também um gene participante da assinatura. Estudos desenvolvidos por Li et al. (2021) e Xia et al. (2021), sugerem que este lncRNA, também conhecido como RIPK2-DT, está relacionado ao processo de proliferação, diferenciação e regulação da imunidade das células T, porém seus mecanismos de ação não estão ainda descritos. O gene HMMR está relacionado com motilidade celular e a regulação da locomoção em células tumorais (TURLEY, 1992), e foi 70 associado ao processo metastático em câncer gástrico, pois seu silenciamento reduziu as interações celulares e nível de metástase peritoneal (YANG et al., 2022). O gene POLE2 está associado ao processo de síntese do DNA, como também no reparo por excisão das bases nucleotídicas (HUANG et al., 2001). A superexpressão deste gene está associada a um pior prognóstico de câncer de células escamosas do pulmão (WU et al., 2020), enquanto sua baixa expressão, a uma redução da progressão em ccRCC, carcinoma hepatocelular e câncer das células escamosas esofágicas (ZHANG et al., 2021; LIU et al.,2015; ZHU et al.,2020). Desta forma, o AF117829.1, que apresenta uma expressão aumentada na rede ceRNA, provavelmente age como esponja do hsa-miR-361-5p, promovendo os processos de diferenciação celular, migração e metástases mediados pelos genes POLE2 e HMMR, impedindo a degradação dos mesmos pelo miRNA. INSR - RFLNB - HECW2 - hsa-miR-130a-3p - RASD1 O gene INSR atua na regulação da via de sinalização da insulina e na ativação das vias oncogênicas PI3K/Akt/mTOR. Em estudos voltados para câncer gástrico e ccRCC, foi observada uma relação inversa entre a sua expressão e a sobrevida dos pacientes (SAISANA et al.,2021; TAKAHASHI et al., 2017). O gene RFLNB atua na ligação das filaminas através da modificação dinâmica de sua localização, e está associado a diversos processos, dentre eles a transição epitélio-mesênquima (POTHAPRAGADA et al., 2022; MIZUHASHI et al., 2014; GAY et al., 2011). Estudos mostram a sua relação com a inibição de crescimento tumoral em neuroblastoma e em mesotelioma maligno pleural, promovendo a perda dos oncogenes C e N-myc (MUTHU et al., 2014; JAMAL et al., 2014). O gene HECW2 participa de diversos processos celulares, dentre eles a apoptose e atua como oncogene em diversos cânceres (WANG et al., 2020), porém foi associado a uma maior sobrevida de pacientes com ccRCC quando em alta expressão (XIE et al., 2021). O hsa-miR- 130a-3p tem sua função definida a partir dos alvos (mRNAs e lncRNAs). No contexto do ccRCC, a sua absorção pelo circRNA hsa_circ_0054537 (LI et al., 2020) e pelo lncRNA ZFPM2-AS1 (ZHANG et al., 2022) promove a progressão tumoral regulando a via cMET. O gene RASD1 é associado a regulação de uma proteína da superfamilia RAS das pequenas GTPases e sua ativação é por meio da presença de dexametasona e foi visto que em casos de expressão aumentada ocorre uma redução do crescimento celular e um direcionamento 71 a apoptose agindo de maneira oposta a família RAS, associada a promoção do crescimento celular e expansão tumoral (VAIDYANATHAN et al., 2004) Sendo assim, os lncRNAs H19, C1RL-AS1 e AC005154.1, que apresentam expressão aumentada, podem estar atuando como esponjas, absorvendo os miRNAs (Tabela 11) induzindo o aumento na expressão do RFLNB, HECW2 e INSR, possibilitando um ambiente favorável para crescimento tumoral. Enquanto, o RASD1 apresenta uma expressão diminuída, indicando que os miRNAs que o tem como alvo podem não estar sendo absorvidos e pode estar tornando o ambiente celular apto para tumorigênese. CORO1C - ATAD5 - RSRP1 - RNF149 - AC016876.2 - hsa.miR.381.3p A função desempenhada pelo miRNA hsa-miR-381-3p no cluster 3 (Figura 23a) e sua relação com o estado metastático, é dada a partir dos seus alvos: CORO1C, ATAD5, RSRP1, RNF149 e o lncRNA AC016876.2. O gene CORO1C codifica a família de proteínas repetidas WD, associadas a progressão do ciclo celular e apoptose (STELZER et al.,2016), e atua como oncogene no câncer renal e câncer de células não pequenas pulmonares (WANG et al.,2020; LIAO e PENG, 2020). O gene ATAD5 está associado ao processo da duplicação de DNA e alterações sobre ele resultam em deficiências no reparo pós-replicação (BELL et al., 2011). Em estudo com câncer neuroendócrino hepático primário, foi visto que suas ações estavam relacionadas com a regulação do ciclo celular (YANG et al., 2019). O RSRP1, provavelmente envolvido na montagem do spliceossomo, está associado a um bom prognóstico em pacientes com câncer de mama, de pulmão e hepatocelular, mas o seu mecanismo de ação nessas patologias ainda não é conhecido (HONG et al., 2015). O RNF149, é responsável por atuar na ubiquitinação e na degradação proteossomal, influenciando o crescimento celular, sobrevida, diferenciação e diversas outras atividades celulares (HONG et al., 2012) e foi vista a sua associação com câncer pancreático em território japonês (LOW et al.,2010). Portanto, a alta expressão do lncRNA AC016876.2 pode estar induzindo a expressão do hsa-miR-381-3p através da absorção dos transcritos deste miRNA. Essa regulação miRNA-lncRNA está de acordo com revisão feita por Sha etal. (2021) que sugere que o miRNA atua como supressor de tumor em diversos sítios tumorais. A consequente expressão aumentada dos seus alvos provavelmente age permitindo a progressão tumoral e o processo metastático. 72 BTBD11- hsa.miR.374a.5p - hsa.miR.374b.5p - MAGI2-AS3 O gene codante BTBD11, participante da assinatura, é regulado diretamente pelos hsa- miR-374a-5p, hsa-miR-374b-5p, e indiretamente lncRNA MAGI2-AS3. Entretanto, o cluster onde o BTBD11 se encontra, regulado por estes 3 ncRNAs, é bem maior, constituído por outros 17 genes codantes (Figura 23b). Foi observado que proteínas desta família desempenham diversas funções, podendo estar associadas a regulação do ciclo celular (PEREZ-TORRADO et al., 2006), e Schuldt Filho et al. (2015) identificou o BTBD11, como alvo estimulado pela via TGF-beta, envolvida nos processos de inibição do ciclo celular e apoptose. Entretanto, a atividade do gene BTBD11, no contexto de desenvolvimento e progressão tumoral ainda é desconhecida. Desta forma, a função do BTBD11 no contexto ccRCC será influenciado pelos miRNAs e lncRNA, que são as ligações mais próximas no cluster. O lncRNA MAGI2-AS3 pode atuar nos processos tumorais como um oncogene ou um supressor de tumor, estando envolvido na proliferação celular, invasão, metástase e morte celular (KAI-XIN et al., 2021). Em estudo relacionando a atividade do lncRNA em ccRCC, Wang et al.(2021) observou que o MAGI2-AS3 atua como um supressor de tumor, reduzindo a progressão tumoral e a angiogênese, ao interagir com o fator de transcrição HEY1 que regula o gene ACY1. A ligação MAGI2-AS3 - miR374a/b foi observada nos cânceres de mama (DU et al., 2019) e hepatocelular (YIN et al., 2019), atuando como supressor de tumor, regulando a proliferação, migração e invasão celular. Neste cluster, o lncRNA MAGI2-AS3 se apresentou com baixa expressão e portanto parece não conseguir absorver os miRNAs, hsa-miR-374a-5p e hsa-miR-374b-5p, que apresentam expressão normal. Desta forma, o papel do BTBD11 continua desconhecido, mas ao observar os níveis de expressão dos miRNAs pode-se supor que ao ser regulado negativamente, afeta a via TGF-beta e não ocorre a inibição dos processos celulares associados a ela. PTTG1 - hsa.miR.186.5p - AC021078.1 O cluster 5 (Figura 23c), apresenta uma rede de competição composta pelo gene PTTG1, integrante da assinatura e os genes não-codantes hsa-miR-153-5p, hsa-miR-186-5p e AC021078.1. O lncRNA AC021078.1, tem sua atividade relacionada à regulação dos processos de diferenciação celular e reparo de DNA (XIONG et al., 2021). Os genes PTTG1 e FAM111B atuam na regulação do ciclo celular. 73 O oncogene PTTG1 atua na regulação da separação das cromátides irmãs, por meio da regulação negativa das separinas (ZHANG et al., 1999).Em estudo desenvolvido por Mei (2022) em câncer de mama, foi observado que a ligação entre PTTG1 e hsa-miR-186-5p, está relacionada com a regulação da via de sinalização TGF-beta, envolvida na regulação de desenvolvimento tecidual e homeostase (ZI, 2019) e na via de sinalização MAPK, associada aos processos de proliferação celular, diferenciação, migração, senescência e apoptose (SUN et al., 2015). A interação entre PTTG1 e hsa-miR-186-5p também foi observada em outros cânceres, como no carcinoma renal, no câncer de células não pequenas do pulmão e de células escamosas esofágicas (JIAO et al., 2018; LI et al, 2013, HE et al.,2016). O FAM111B é uma protease envolvida no reparo de DNA e apoptose (AROWOLO et al., 2022).As alterações sobre o FAM111B resultam na progressão tumoral, proliferação, diferenciação, migração, invasão, glicólise e metástases, em adenocarcinoma de pulmão (SUN et al., 2019), no tumor papilar de tireoide (ZHU et al., 2022) e câncer de mama (LI et al., 2022). Sendo assim, o lncRNA AC021078.1 que apresenta um aumento de sua expressão, parece atuar absorvendo o miRNA, hsa-miR-186-5p, possibilitando a atuação do mRNA PTTG1, na progressão tumoral e metástase. SNHG15- IL2RB - NFKBIE - hsa.miR.24.3p O cluster 6 (Figura 23d), apresenta uma rede de competição composta pelo lncRNA SNHG15, integrante da assinatura, o hsa-miR-24-3p, e os genes codantes IL2RB, NFKBIE e CITED4. A via NF-kappa-B está envolvida na regulação do processo inflamatório, no desenvolvimento de imunidade inata e no câncer (MITCHELL et al., 2016). A literatura mostra que ao silenciar o SNHG15 em RCC ocorre uma supressão na proliferação celular e na transição epitélio-mesênquima (EMT) por meio da regulação da via de sinalização NF-kappa-B (DU et al., 2018). Neste cluster essa via parece regulada pelo gene NFKBIE, que age como inibidor, se ligando aos componentes da via de sinalização, segurando o complexo no citoplasma e inibindo a sua ativação (HUTTLIN et al.,2017). Além disso, altos níveis de expressão do SNHG15 estão relacionados com progressão para estágio metastático em câncer colorretal e das células não pequenas pulmonares (JIN et al., 2018; HUANG et al.,2019). Por sua vez, os genes IL2RB e CITED, tem atividade relacionada à resposta imune mediada por células T e a regulação da transcrição gênica, respectivamente. A expressão do gene CITED está ligada à inibição da transcrição ativada por hipóxia, bloqueando a ligação do fator induzível por hipóxia 1 alfa (HIF1-alpha) (FOX et al., 2004) e a ativação de HIF1-alfa é 74 uma característica bastante presente em pacientes com ccRCC, por meio da mutação do gene VHL (GOSSAGE et al., 2015). O gene IL2RB, age como um estimulador da proliferação das células T e a ativação deste receptor resulta na expressão de citocinas antitumorais. Estudos mostram que em alta expressão, o gene IL2RB apresenta um prognóstico ruim em diversos cânceres, sendo associado a oncogênese e metástase (LI et al., 2022), sendo alvo de tratamentos imunoterápicos em melanoma metastático e carcinoma renal (SHARMA et al., 2020). Sendo assim, o aumento da expressão do lncRNA SNHG15 parece promover a proliferação celular absorvendo o miRNA hsa-miR-24-3p, identificado como um oncogene em estudo desenvolvido por Jin e colaboradores, em 2017, possibilitando a atividade dos genes alvos, que estão com expressão aumentada. Apesar de já existir na literatura uma grande quantidade de estudos, testados e validados, relacionando os mecanismos de ação e os efeitos dos lncRNAs, miRNAs e mRNAs a diversas patologias, ainda existe uma lacuna das associações destes com o processo metastático, como também a sua relação com outras doenças. O projeto TCGA permite a aplicação de diversas técnicas de bioinformática e de aprendizagem de máquina, que contribuem para a construção de conhecimento tumoral, independente do sítio. No entanto, o pequeno número de dados relacionados à presença de metástase nos pacientes do projeto TCGA-KIRC foi um limitador deste trabalho. A necessidade do balanceamento dos dados reduziu a quantidade de amostras utilizadas para a construção da assinatura afetando a utilização das técnicas de seleção de características e resultando em taxas de acurácia, sensibilidade e especificidades mais baixas que o esperado. Apesar destas limitações, o presente estudo fornece diversas contribuições, como a utilização de técnicas seleção de características para dados transcriptômicos, associando-os a área de conhecimento dos ncRNAs e suas atividade como ceRNA, construindo uma assinatura baseada na atividade desses transcritos quando relacionada a progressão metastática da patologia, e também levanta novos questionamentos, que ao serem estudados e sanados, irão possibilitar o melhor entendimento da progressão tumoral no câncer de rim, como também em outras patologias. 75 6. CONCLUSÃO Este trabalho teve como objetivo construir uma assinatura transcricional do carcinoma renal de células claras a partir de genes diferencialmente expressos que compõem umarede de RNA Endógeno Competidor, para classificar o desenvolvimento metastático e avaliar as possíveis funções biológicas associadas a progressão tumoral. A utilização das técnicas de seleção de características para a construção da assinatura sobre os dados transcriptômicos da rede ceRNA representa uma aplicação promissora nesta vasta área de conhecimento de reconhecimento de padrões e machine learning. A junção entre os dados de expressão com os dados clínicos possibilitou a construção das assinaturas transcricionais que apresentaram diversos genes em suas composições e a utilização das métricas avaliativas auxiliaram no entendimento do comportamento da assinatura, observando como estava o acerto, a sensibilidade e especificidade, da mesma quanto a classificação metastática, e facilitando na escolha das melhores características. Apesar das taxas de acurácia e das outras métricas avaliativas resultarem em valores presentes no intervalo de 60% a 70%, foi visto, a partir das análises genômicas e de anotação funcional, que existe uma associação significativa dos genes da assinatura com os processos de crescimento, diferenciação e invasão celular, que são processos significativos para a progressão tumoral e evolução de estágios metastáticos. Ao utilizar o conjunto de dados externo, foi possível observar o quão generalista a assinatura é, validando assim a sua ação como classificador metastático em câncer renal de células claras. Com a análise cluster a cluster, ficou conhecida as possíveis ações desempenhadas pelos genes da assinatura dentro do ambiente celular do carcinoma renal de células claras, e como se dá os efeitos desse processo de regulação. Em trabalhos futuros, pretende-se melhorar o desempenho da assinatura ou até mesmo buscar novas variáveis alvo da classificação utilizando um novo banco de dados independente e externo, somente a para o processo de teste e validação da assinatura e usando todos os dados do projeto TCGA-KIRC como aprendizagem. Como também utilização de novas técnicas de seleção de características para a construção da assinatura, associando-a a técnicas de aprendizagem profunda para anotação das análises e da assinatura. 76 REFERÊNCIAS BIBLIOGRÁFICAS ALA, U. Competing Endogenous RNAs, Non-Coding RNAs and Diseases: An Intertwined Story. Cells, v. 9, n. 7, p. 1574, 28 jun. 2020. AALEN, Odd O.. A linear regression model for the analysis of life times. Statistics In Medicine, [S.L.], v. 8, n. 8, p. 907-925, ago. 1989. Wiley. AMIN, M. B.; AMERICAN JOINT COMMITTEE ON CANCER; AMERICAN CANCER SOCIETY (EDS.). AJCC cancer staging manual. Eight edition /editor-in-chief, Mahul B. Amin, MD, FCAP ; editors, Stephen B. Edge, MD, FACS [and 16 others] ; Donna M. Gress, RHIT, CTR-Technical editor ; Laura R. Meyer, CAPM-Managing editor ed. Chicago IL: American Joint Committee on Cancer, Springer, 2017. AROWOLO, Afolake et al. Proposed Cellular Function of the Human FAM111B Protein and Dysregulation in Fibrosis and Cancer. Frontiers In Oncology, [S.L.], v. 12, n. 4, p. 1-7, 4 jul. 2022. Frontiers Media SA. BARZILAI, N. et al. The Critical Role of Metabolic Pathways in Aging. Diabetes, v. 61, n. 6, p. 1315–1322, 1 jun. 2012. BELL, Daphne W. et al. Predisposition to Cancer Caused by Genetic and Functional Defects of Mammalian Atad5. Plos Genetics, [S.L.], v. 7, n. 8, p. 1-15, 25 ago. 2011. Public Library of Science (PLoS). BEN-DAVID,A. . Comparison of classification accuracy using Cohen’s Weighted Kappa. Expert Systems With Applications, [S.L.], v. 34, n. 2, p. 825-832, fev. 2008. Elsevier BV. BENEDETTO, U. et al. Statistical primer: propensity score matching and its alternatives†. European Journal of Cardio-Thoracic Surgery, v. 53, n. 6, p. 1112–1117, 1 jun. 2018. BHAN, A.; SOLEIMANI, M.; MANDAL, S. S. Long Noncoding RNA and Cancer: A New Paradigm. Cancer Research, v. 77, n. 15, p. 3965–3981, 1 ago. 2017. BIAN, Z.; FAN, R.; XIE, L. A Novel Cuproptosis-Related Prognostic Gene Signature and Validation of Differential Expression in Clear Cell Renal Cell Carcinoma. Genes, v. 13, n. 5, p. 851, 10 maio 2022. BORKIEWICZ, L. et al. Decoding LncRNAs. Cancers, v. 13, n. 11, p. 2643, 27 maio de 2021. Brasil, Ministério da Saúde. Banco de dados do Sistema Único de Saúde-DATASUS. Disponível em <http://www.datasus.gov.br>. Acesso em: 18 de dez. 2022. BREIMAN, L. RANDOM FORESTS. Machine Learning, v. 45, n. 1, p. 5–32, 2001. 77 BRIER, G. W. VERIFICATION OF FORECASTS EXPRESSED IN TERMS OF PROBABILITY. Monthly Weather Review, v. 78, n. 1, p. 1–3, jan. 1950. BRODY, Lawrence. Missense Mutation. 2023. Disponível em: https://www.genome.gov/genetics-glossary/Missense-Mutation. Acesso em: 08 fev. 2023. CLASSIFICAÇÃO: curva ROC e AUC. 2022. Disponível em: https://developers.google.com/machine-learning/crash-course/classification/roc-and-auc. Acesso em: 15 jan. 2023. CHAN, J.; TAY, Y. Noncoding RNA:RNA Regulatory Networks in Cancer. International Journal of Molecular Sciences, v. 19, n. 5, p. 1310, 27 abr. 2018. CHAN, Yunhui et al. Inhibition of MicroRNA-381 Promotes Tumor Cell Growth and Chemoresistance in Clear-Cell Renal Cell Carcinoma. Medical Science Monitor, [S.L.], v. 25, p. 5181-5190, 12 jul. 2019. International Scientific Information, Inc.. CHEN, J. et al. MicroRNA-130a promotes the metastasis and epithelial-mesenchymal transition of osteosarcoma by targeting PTEN. Oncology Reports, v. 35, n. 6, p. 3285–3292, jun. 2016a. CHEN, J. et al. MicroRNA-130a promotes the metastasis and epithelial-mesenchymal transition of osteosarcoma by targeting PTEN. Oncology Reports, v. 35, n. 6, p. 3285–3292, jun. 2016b. CHEN, J. et al. LncSEA: a platform for long non-coding RNA related sets and enrichment analysis. Nucleic Acids Research, v. 49, n. D1, p. D969–D980, 8 jan. 2021. CHEN, T.; GUESTRIN, C. XGBoost: A Scalable Tree Boosting System. 2016. CHEN, Z. et al. Construction and Characterization of n6-Methyladenosine-Related lncRNA Prognostic Signature and Immune Cell Infiltration in Kidney Renal Clear Cell Carcinoma. Journal of Oncology, v. 2022, p. 1–10, 29 set. 2022. CHEN, W. et al. A Novel Prognostic Predictor of Immune Microenvironment and Therapeutic Response in Kidney Renal Clear Cell Carcinoma based on Necroptosis-related Gene Signature. International Journal of Medical Sciences, v. 19, n. 2, p. 377–392, 2022. CHEONG, J.-H. et al. Development and validation of a prognostic and predictive 32-gene signature for gastric cancer. Nature Communications, v. 13, n. 1, p. 774, 9 fev. 2022. CHIU, H.-S. et al. Pan-Cancer Analysis of lncRNA Regulation Supports Their Targeting of Cancer Genes in Each Tumor Context. Cell Reports, v. 23, n. 1, p. 297- 312.e12, abr. 2018. CHU, Wen-Ming. Tumor necrosis factor. Cancer Letters, [S.L.], v. 328, n. 2, p. 222-225, jan. 2013. Elsevier BV. COLAPRICO, A. et al. TCGAbiolinks: an R/Bioconductor package for integrative analysis of TCGA data. Nucleic Acids Research, v. 44, n. 8, p. e71–e71, 5 maio 2016. 78 CONESA, A.; BECK, S. Making multi-omics data accessible to researchers. Scientific Data, v. 6, n. 1, p. 251, 31 out. 2019. CONNELL, J. M. C.; DAVIES, E. The new biology of aldosterone. Journal of Endocrinology, v. 186, n. 1, p. 1–20, jul. 2005. CUI, H. et al. Identification of the key genes and pathways involved in the tumorigenesis and prognosis of kidney renal clear cell carcinoma. Scientific reports, Nature Publishing Group, v. 10, n. 1, p. 1–10, 2020 DALIANIS, H. Evaluation Metrics and Evaluation. Em: DALIANIS, H. (Ed.). Clinical Text Mining. Cham: Springer International Publishing, 2018. p.45–53. DALL’OGLIO, Marcos et al. Câncer de Rim. In: LOPES, Antônio Carlos. Tratado de Clínica Médica. 2. Ed. Rio de Janeiro: Roca, 2006. Cap. 305. P. 3242-3248. DU, Shanmeiet al. Long non-coding RNA MAGI2-AS3 inhibits breast cancer cell migration and invasion via sponging microRNA-374a. Cancer Biomarkers, [S.L.], v. 24, n. 3, p. 269- 277, 3 abr. 2019. IOS Press. DU, Y. et al. Knockdown of SNHG15 suppresses renal cell carcinoma proliferation and EMT by regulating the NF-B signaling pathway. International Journal of Oncology, 4 maio 2018. FARHAN, M. et al. FOXO Signaling Pathways as Therapeutic Targets in Cancer. International Journal of Biological Sciences, v. 13, n. 7, p. 815–827, 2017. FARIAS FILHO, Epitácio Dantas de. Análise do Transcriptoma de Carcinoma Renal de Células Claras Baseada em RNAs Não Codificantes. Trabalho de Conclusão de Curso, Graduação em Engenharia Biomédica, Universidade Federal do Rio Grande do Norte, 70 p., 2022. FERRER, L. Analysis and Comparison of Classification Metrics. 2022. FOX, Stephen B. et al. CITED4 Inhibits Hypoxia-Activated Transcription in Cancer Cells, and Its Cytoplasmic Location in Breast Cancer Is Associated with Elevated Expression of Tumor Cell Hypoxia-Inducible Factor 1α. Cancer Research, [S.L.], v. 64, n. 17, p. 6075- 6081, 1 set. 2004. American Association for Cancer Research (AACR). FRIEDMAN, J. et al. “Regularization Paths for Generalized Linear Models via Coordinate Descent.” Journal of statistical software vol. 33,1 (2010): 1-22. GAY, Olivia et al. RefilinB (FAM101B) targets FilaminA to organize perinuclear actin networks and regulates nuclear shape. Proceedings Of The National Academy Of Sciences, [S.L.], v. 108, n. 28, p. 11464-11469, 27 jun. 2011. Proceedings of the National Academy of Sciences. 79 GOMES, C. et al. Catalyzing Transcriptomics Research in Cardiovascular Disease: The CardioRNA COST Action CA17129. Non-Coding RNA, v. 5, n. 2, p. 31, 29 mar. 2019. GOLDMAN, M. J. et al. Visualizing and interpreting cancer genomics data via the Xena platform. Nature Biotechnology, v. 38, n. 6, p. 675–678, jun. 2020. GOSSAGE, L.; EISEN, T.; MAHER, E. R. VHL, the story of a tumour suppressor gene. Nature Reviews Cancer, v. 15, n. 1, p. 55–64, jan. 2015. GUIMARÃES, B. D. Associação de Polimorfismos de Nucleotídeo Único (SNPS) dos genes PSCA, TP53 e NQO1 e sua relação com o desenvolvimento de carcinoma mamário em mulheres no Estado da Paraíba. Dissertação. Programa de Pós-Graduação em Biologia Celular e Molecular. Universidade Federal da Paraíba. 2020. GUO, G. et al. KNN Model-Based Approach in Classification. Em: MEERSMAN, R.; TARI, Z.; SCHMIDT, D. C. (Eds.). On The Move to Meaningful Internet Systems 2003: CoopIS, DOA, and ODBASE. Lecture Notes in Computer Science. Berlin, Heidelberg: Springer Berlin Heidelberg, 2003. v. 2888p. 986–996. HAJRI, Qais Al et al. Identifying multi-hit carcinogenic gene combinations: scaling up a weighted set cover algorithm using compressed binary matrix representation on a gpu. Scientific Reports, [S.L.], v. 10, n. 1, p. 1-18, 6 fev. 2020. Springer Science and Business Media LLC. HANAHAN, D.; WEINBERG, R. A. Hallmarks of Cancer: The Next Generation. Cell, v. 144, n. 5, p. 646–674, mar. 2011. HANDELMAN, G. S. et al. Peering Into the Black Box of ArtificialIntelligence: Evaluation Metrics of Machine Learning Methods. American Journal of Roentgenology, v. 212, n. 1, p. 38–43, jan. 2019. HARRISON et al. (2022). Finalfit: Quickly Create Elegant Regression Results Tables and Plots hit Modelling. R package version 1.0.6. Disponível em: Acesso em: 07 de Fevereiro de 2023; HE, Wei et al. MicroRNA-186 inhibits cell proliferation and induces apoptosis in human esophageal squamous cell carcinoma by targeting SKP2. Laboratory Investigation, [S.L.], v. 96, n. 3, p. 317-324, mar. 2016. Elsevier BV. HO, D.; IMAI, K.; KING, G.; STUART, E. A. MatchIt: Nonparametric Preprocessing for Parametric Causal Inference. Journal of Statistical Software, [S. l.], v. 42, n. 8, p. 1–28, 2011. DOI: 10.18637/jss.v042.i08. HO, S. Y. et al. Extensions of the External Validation for Checking Learned Model Interpretability and Generalizability. Patterns, v. 1, n. 8, p. 100129, nov. 2020. HONG, Chao-Qun et al. Elevated C1orf63 expression is correlated with CDK10 and predicts better outcome for advanced breast cancers: a retrospective study. Bmc Cancer, [S.L.], v. 15, n. 1, p. 1-12, 25 jul. 2015. Springer Science and Business Media LLC. 80 HONG, Seung-Woo et al. Ring Finger Protein 149 Is an E3 Ubiquitin Ligase Active on Wild- type v-Raf Murine Sarcoma Viral Oncogene Homolog B1 (BRAF). Journal Of Biological Chemistry, [S.L.], v. 287, n. 28, p. 24017-24025, jul. 2012. Elsevier BV. http://dx.doi.org/10.1074/jbc.m111.319822. HUA, X. et al. Identification of an immune-related risk signature for predicting prognosis in clear cell renal cell carcinoma. Aging, v. 12, n. 3, p. 2302–2332, 6 fev. 2020. HUANG, D. et al. E2F mediates induction of the Sp1-controlled promoter of the human DNA polymerase varepsilon B-subunit gene POLE2. Nucleic Acids Research, [S.L.], v. 29, n. 13, p. 2810-2821, 1 jul. 2001. Oxford University Press (OUP). HUANG, L. et al. Aberrant expression of long noncoding RNA SNHG15 correlates with liver metastasis and poor survival in colorectal cancer. Journal of Cellular Physiology, v. 234, n. 5, p. 7032 7039, maio 2019. HUTTLIN, Edward L. et al. Architecture of the human interactome defines protein communities and disease networks. Nature, [S.L.], v. 545, n. 7655, p. 505-509, maio 2017. Springer Science and Business Media LLC. INCA – Instituto Nacional do Câncer. Câncer de Mama. Disponível em: <https://www.inca.gov.br/tipos-de-cancer/cancer-de-mama>. Acesso em 20 de dezembro de 2022. JAMAL, Shazia et al. CARP-1 Functional Mimetics Are a Novel Class of Small Molecule Inhibitors of Malignant Pleural Mesothelioma Cells. Plos One, [S.L.], v. 9, n. 3, p. 1-14, 5 mar. 2014. Public Library of Science (PLoS). JAW, E.; WANG, X. Feature Selection and Ensemble-Based Intrusion Detection System: An Efficient and Comprehensive Approach. Symmetry, v. 13, n. 10, p. 1764, 22 set. 2021. JIAO, Dan et al. MicroRNA-186 Suppresses Cell Proliferation and Metastasis Through Targeting Sentrin-Specific Protease 1 in Renal Cell Carcinoma. Oncology Research Featuring Preclinical And Clinical Cancer Therapeutics, [S.L.], v. 26, n. 2, p. 249-259, 5 mar. 2018. Computers, Materials and Continua (Tech Science Press). JIN, B. et al. Long non coding RNA SNHG15 promotes CDK14 expression via miR 486 to accelerate non small cell lung cancer cells progression and metastasis. Journal of Cellular Physiology, v. 233, n. 9, p. 7164 7172, set. 2018. JIN, Lu et al. MicroRNA-24-2 is associated with cell proliferation, invasion, migration and apoptosis in renal cell carcinoma. Molecular Medicine Reports, [S.L.], v. 16, n. 6, p. 9157- 9164, 4 out. 2017. Spandidos Publications. JONASCH, E.; WALKER, C. L.; RATHMELL, W. K. Clear cell renal cell carcinoma ontogeny and mechanisms of lethality. Nature Reviews Nephrology, v. 17, n. 4, p. 245–261, abr. 2021. 81 KAI-XIN, Liu et al. Roles of lncRNA MAGI2-AS3 in human cancers. Biomedicine & Pharmacotherapy, [S.L.], v. 141, n. 1, p. 1-8, set. 2021. Elsevier BV. KANEHISA, M. KEGG: Kyoto Encyclopedia of Genes and Genomes. Nucleic Acids Research, v. 28, n. 1, p. 27–30, 1 jan. 2000. KANEHISA, M. Toward understanding the origin and evolution of cellular organisms. Protein Science, v. 28, n. 11, p. 1947–1951, nov. 2019. KANEHISA, M. et al. KEGG: integrating viruses and cellular organisms. Nucleic Acids Research, v. 49, n. D1, p. D545–D551, 8 jan. 2021. KANN, B. H.; HOSNY, A.; AERTS, H. J. W. L. Artificial intelligence for clinical oncology. Cancer Cell, v. 39, n. 7, p. 916–927, jul. 2021. KAZIMIERCZYK et al. Human Long Noncoding RNA Interactome: Detection, Characterization and Function.International Journal of Molecular Sciences, v. 21, n. 3, p. 1027, 4 fev. 2020. KLINGE, C. M. Non-coding RNAs: long non-coding RNAs and microRNAs in endocrine- related cancers. Endocrine-Related Cancer, v. 25, n. 4, p. R259–R282, abr. 2018. KUHN, M.; JOHNSON, K. Feature engineering and selection: a practical approach for predictive models. Boca Raton London New York: CRC Press, Taylor & Francis Group, 2020. KUMAR, V. et al. Robbins e Cotran: patologia: bases patológicas das doenças. 7. ed ed. Rio de Janeiro: Elsevier, 2008. KURSA, M. B.; RUDNICKI, W. R. Feature Selection with the Boruta Package. Journal of Statistical Software, v. 36, n. 11, 2010. Landis, J.R., Koch, G.G. 1977.The Measurement of Observer Agreement for Categorical Data. International Biometric Society 33 (1),159-174. LI, B. et al. MicroRNA-130a is down-regulated in hepatocellular carcinoma and associates with poor prognosis. Medical Oncology, v. 31, n. 10, p. 230, out. 2014. LI, Guangyao et al. IL2RB Is a Prognostic Biomarker Associated with Immune Infiltrates in Pan-Cancer. Journal Of Oncology, [S.L.], v. 2022, p. 1-29, 29 abr. 2022. Hindawi Limited LI, Hongli et al. PTTG1 promotes migration and invasion of human non-small cell lung cancer cells and is modulated by miR-186. Carcinogenesis, [S.L.], v. 34, n. 9, p. 2145-2155, 13 maio 2013. Oxford University Press (OUP). LI, R. et al. GDCRNATools: an R/Bioconductor package for integrative analysis of lncRNA, miRNA and mRNA data in GDC. Bioinformatics, v. 34, n. 14, p. 2515–2517, 15 jul. 2018. 82 LI, Rui et al. Circular RNA hsa_circ_0054537 sponges miR-130a-3p to promote the progression of renal cell carcinoma through regulating cMet pathway. Gene, [S.L.], v. 754, p. 1-9, set. 2020. Elsevier BV LI, Y. et al. The Role of lncRNA AF117829.1 in the Immunological Pathogenesis of Severe Aplastic Anaemia. Oxidative Medicine and Cellular Longevity, v. 2021, p. 1 19, 15 mar. 2021. LI, Wei et al. YY1-Induced Transcriptional Activation of FAM111B Contributes to the Malignancy of Breast Cancer. Clinical Breast Cancer, [S.L.], v. 22, n. 4, p. 417-425, jun. 2022. Elsevier BV. LIAO, Ming; PENG, Lijun. MiR-206 may suppress non-small lung cancer metastasis by targeting CORO1C. Cellular & Molecular Biology Letters, [S.L.], v. 25, n. 1, p. 1-13, 17 mar. 2020. Springer Science and Business Media LLC. LIÑARES-BLANCO, J.; PAZOS, A.; FERNANDEZ-LOZANO, C. Machine learning analysis of TCGA cancer data. PeerJ Computer Science, v. 7, p.e584, 12 jul. 2021. LIU, B. et al. Identification of a Gene Signature for Renal Cell Carcinoma–Associated Fibroblasts Mediating Cancer Progression and Affecting Prognosis. Frontiers in Cell and Developmental Biology, v. 8, p. 604627, 5 fev. 2021. LIU, Hao et al. DNA Polymerases as targets for gene therapy of hepatocellular carcinoma. Bmc Cancer, [S.L.], v. 15, n. 1, p. 1-11, 29 abr. 2015. Springer Science and Business Media LLC. LIU, H.; MOTODA, H. (EDS.). Computational methods of feature selection. Boca Raton: Chapman & Hall/CRC, 2008. LIU, S. J. et al. Long noncoding RNAs in cancer metastasis. Nature Reviews Cancer, v. 21, n. 7, p. 446–460, jul. 2021. LIU, X. et al. Long Non-Coding RNA Emergence During Renal Cell Carcinoma Tumorigenesis. Cellular Physiology and Biochemistry, v. 47, n. 2, p. 735–746, 2018. LIU, Z. et al. Machine learning-based integration develops an immune-derived lncRNA signature for improving outcomes in colorectal cancer. Nature Communications, v. 13, n. 1, p. 816, 10 fev. 2022. LONGO, V. D.; LIEBER, M. R.; VIJG, J. Turning anti-ageing genes against cancer. Nature Reviews Molecular Cell Biology, v. 9, n. 11, p. 903–910, nov. 2008. LÓPEZ-URRUTIA, E. et al. Crosstalk Between Long Non-coding RNAs, Micro- RNAs and mRNAs: Deciphering Molecular Mechanisms of Master Regulators in Cancer. Frontiers in Oncology, v. 9, p. 669, 25 jul. 2019. LOVE, M. I.; HUBER, W.; ANDERS, S. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biology, v. 15, n. 12, p. 550, dez. 2014. 83 LOW, Siew-Kee et al. Genome-Wide Association Study of Pancreatic Cancer in Japanese Population. Plos One, [S.L.], v. 5, n. 7, p. 1-7, 29 jul. 2010. Public Library of Science (PLoS). MA, Fang et al. The microRNA-130a-5p/RUNX2/STK32A network modulates tumor invasive and metastatic potential in non-small cell lung cancer. Bmc Cancer, [S.L.], v. 20, n. 1, p. 1-12, 22 jun. 2020. Springer Science and Business Media LLC. MAYAKONDA, A. et al. Maftools: efficient and comprehensive analysis of somatic variants in cancer. Genome Research, v. 28, n. 11, p. 1747–1756, nov. 2018. MEI, Linhang. Multiple types of noncoding RNA are involved in potential modulation of PTTG1's expression and function in breast cancer. Genomics, [S.L.], v. 114, n. 3, p. 1-15, maio 2022. Elsevier BV. MERMEL, C. H. et al. GISTIC2.0 facilitates sensitive and confident localization of the targets of focal somatic copy-number alteration in human cancers. Genome Biology, v. 12, n. 4, p. R41, abr. 2011. MITCHELL, Simon et al. Signaling via the NFκB system. Wires Systems Biology And Medicine, [S.L.], v. 8, n. 3, p. 227-241, 16 mar. 2016. Wiley. MIZUHASHI, Koji et al. Filamin-interacting proteins, Cfm1 and Cfm2, are essential for the formation of cartilaginous skeletal elements. Human Molecular Genetics, [S.L.], v. 23, n. 11, p. 2953-2967, 16 jan. 2014. Oxford University Press (OUP). MORRIS, J. A.; GARDNER, M. J. Statistics in Medicine: calculating confidence intervals for relative risks (odds ratios) and standardised ratios and rates. Bmj, [S.L.], v. 296, n. 6632, p. 1313-1316, 7 maio 1988. BMJ. MORRIS, K. V.; MATTICK, J. S. The rise of regulatory RNA. Nature Reviews Genetics, v. 15, n. 6, p. 423–437, jun. 2014. MUGLIA, Valdair F.; PRANDO, Adilson. Renal cell carcinoma: histological classification and correlation with imaging findings. Radiologia Brasileira, [S.L.], v. 48, n. 3, p. 166-174, jun. 2015. FapUNIFESP (SciELO). MUTHU, Magesh et al. Mechanisms of Neuroblastoma Cell Growth Inhibition by CARP-1 Functional Mimetics. Plos One, [S.L.], v. 9, n. 7, p. 1-17, 17 jul. 2014. Public Library of Science (PLoS). NABI, S. et al. Renal cell carcinoma: a review of biology and pathophysiology. F1000Research, v. 7, p. 307, 12 mar. 2018. NARKHEDE, Sarang. Understanding AUC-ROC Curve. 2018. Disponível em: https://towardsdatascience.com/understanding-auc-roc-curve-68b2303cc9c5. Acesso em: 15 jan. 2023. 84 NKF - NATIONAL KIDNEY FOUNDATION. RENAL CARCINOMA GUIDELINES. LONDRES – UK, 2017 O'LEARY, Nuala A. et al. Reference sequence (RefSeq) database at NCBI: current status, taxonomic expansion, and functional annotation. Nucleic Acids Research, [S.L.], v. 44, n. 1, p. 733-745, 8 nov. 2015. Oxford University Press (OUP). http://dx.doi.org/10.1093/nar/gkv1189. PADALA, S. A. et al. Epidemiology of Renal Cell Carcinoma. World Journal of Oncology, v. 11, n. 3, p. 79–87, 2020. PEREZ-TORRADO, Roberto; YAMADA, Daisuke; DEFOSSEZ, Pierre-Antoine. Born to bind: the btb protein⠳protein interaction domain. Bioessays, [S.L.], v. 28, n. 12, p. 1194- 1202, 2006. Wiley. POPŁAWSKI, P. et al. Nucleolar Proteins and Non-Coding RNAs: Roles in Renal Cancer. International Journal of Molecular Sciences, v. 22, n. 23, p. 13126, 4 dez. 2021. POTHAPRAGADA, Shilpa P. et al. Matrix mechanics regulates epithelial defence against cancer by tuning dynamic localization of filamin. Nature Communications, [S.L.], v. 13, n. 1, p. 1-12, 11 jan. 2022. Springer Science and Business Media LLC. P., Muhammed Niyas K.; P., Thiyagarajan. Alzheimer's classification using dynamic ensemble of classifiers selection algorithms: a performance analysis. Biomedical Signal ProcessingAnd Control, [S.L.], v. 68, n. 102729, p. 1-18, jul. 2021. Elsevier BV. QI, X. et al. Decoding competing endogenous RNA networks for cancer biomarker discovery. Briefings in Bioinformatics, v. 21, n. 2, p. 441–457,23 mar. 2020. REEL, P. S. et al. Using machine learning approaches for multi-omics data analysis: A review. Biotechnology Advances, v. 49, p. 107739, jul. 2021. SAISANA, Marina et al. Insulin and the insulin receptor collaborate to promote human gastric cancer. Gastric Cancer, [S.L.], v. 25, n. 1, p. 107-123, 23 set. 2021. Springer Science and Business Media LLC. SALMENA, L. et al. A ceRNA Hypothesis: The Rosetta Stone of a Hidden RNA Language? Cell, v. 146, n. 3, p. 353–358, ago. 2011. SAMUEL, A. L. Some Studies in Machine Learning Using the Game of Checkers. IBM Journal of Research and Development, v. 3, n. 3, p.210–229, jul. 1959. SCHRIML, L. M. et al. Human Disease Ontology 2018 update: classification, content and workflow expansion. Nucleic Acids Research, v. 47, n. D1, p. D955–D962, 8 jan. 2019. SCHIER, A. C.; TAATJES, D. J. Structure and mechanism of the RNA polymerase II transcription machinery. Genes & Development, v. 34, n. 7–8,p. 465–488, 1 abr. 2020. 85 SCHISTERMAN, Enrique F. et al. Optimal Cut-point and Its Corresponding Youden Index to Discriminate Individuals Using Pooled Blood Samples. Epidemiology, [S.L.], v. 16, n. 1, p. 73-81, jan. 2005. Ovid Technologies (Wolters Kluwer Health). SCHMITZ, S. U.; GROTE, P.; HERRMANN, B. G. Mechanisms of long noncoding RNA function in development and disease. Cellular and Molecular Life Sciences, v. 73, n. 13, p. 2491–2509, jul. 2016. SCHULDT FILHO, Guenther et al. Conditioned Medium of Demineralized Freeze-Dried Bone Activates Gene Expression in Periodontal Fibroblasts In Vitro. Journal Of Periodontology, [S.L.], v. 86, n. 6, p. 827-834, jun. 2015. Wiley. SHA, Huanhuan et al. MicroRNA‐381 in human cancer: its involvement in tumour biology and clinical applications potential. Journal Of Cellular And Molecular Medicine, [S.L.], v. 26, n. 4, p. 977-989, 11 jan. 2022. Wiley. SHARMA, Meenu et al. Bempegaldesleukin selectively depletes intratumoral Tregs and potentiates T cell-mediated cancer therapy. Nature Communications, [S.L.], v. 11, n. 1, p. 1- 11, 31 jan. 2020. Springer Science and Business Media LLC. SILVA, T. C. et al. TCGA Workflow: Analyze cancer genomics and epigenomics data using Bioconductor packages. F1000Research, v. 5, p. 1542, 28 dez. 2016. STATELLO, L. et al. Gene regulation by long non-coding RNAs and its biological functions. Nature Reviews Molecular Cell Biology, v. 22, n. 2, p. 96–118, fev. 2021 STAWISKI, K. et al. OmicSelector: automatic feature selection and deep learning modeling for omic experiments. [s.l.] Bioinformatics, 2 jun. 2022. STEINBERG, G. R.; KEMP, B. E. AMPK in Health and Disease. Physiological Reviews. v. 89, n. 3, p. 1025 1078, jul. 2009. STELZER, G. et al. The GeneCards Suite: From Gene Data Mining to Disease Genome Sequence Analyses. Current Protocols in Bioinformatics, v. 54, n. 1, jun. 2016. STÜCKRATH, I. et al. Aberrant plasma levels of circulating miR-16, miR-107, miR-130a and miR-146a are associated with lymph node metastasis and receptor status of breast cancer patients. Oncotarget, v. 6, n. 15, p. 13387–13401, 30 maio 2015. SUBRAMANIAN, I. et al. Multi-omics Data Integration, Interpretation, and Its Application. Bioinformatics and Biology Insights, v. 14, p. 117793221989905, jan. 2020. SUN, Haijun et al. FAM111B, a direct target of p53, promotes the malignant process of lung adenocarcinoma. Oncotargets And Therapy, [S.L.], v. 12, n. 1, p. 2829-2842, abr. 2019. Informa UK Limited. SUN, Yu et al. Signaling pathway of MAPK/ERK in cell proliferation, differentiation, migration, senescence and apoptosis. Journal Of Receptors And Signal Transduction, [S.L.], v. 35, n. 6, p. 600-604, 22 jun. 2015. Informa UK Limited. 86 TAKAHASHI, Makoto et al. Inverse relationship between insulin receptor expression and progression in renal cell carcinoma. Oncology Reports, [S.L.], v. 37, n. 5, p. 2929-2941, 5 abr. 2017. Spandidos Publications. THE CANCER GENOME ATLAS RESEARCH NETWORK. Comprehensive molecular characterization of clear cell renal cell carcinoma. Nature, v. 499, n. 7456, p. 43–49, jul. 2013. THE GENE ONTOLOGY CONSORTIUM et al. The Gene Ontology resource: enriching a GOld mine. Nucleic Acids Research, v. 49, n. D1, p. D325–D334, 8 jan. 2021. TERREMATTE, P. et al. A Novel Machine Learning 13-Gene Signature: Improving Risk Analysis and Survival Prediction for Clear Cell Renal Cell Carcinoma Patients. Cancers, v. 14, n. 9, p. 2111, 24 abr. 2022. THERNEAU T (2023). _A Package for Survival Analysis in R_. R package version 3.5-0, <https://CRAN.R-project.org/package=survival>. TREVETHAN, R. Sensitivity, Specificity, and Predictive Values: Foundations, Pliabilities, and Pitfalls in Research and Practice. Frontiers in Public Health, v. 5, p. 307, 20 nov. 2017. TURLEY, E. A.. Hyaluronan and cell locomotion. Cancer And Metastasis Review, [S.L.], v. 11, n. 1, p. 21-30, mar. 1992. Springer Science and Business Media LLC. VAIDYANATHAN, G. et al. The Ras-related protein AGS1/RASD1 suppresses cell growth. Oncogene, v. 23, n. 34, p. 5858–5863, 29 jul. 2004. VAN BUUREN, S.; GROOTHUIS-OUDSHOORN, K. mice: Multivariate Imputation by Chained Equations in R. Journal of Statistical Software, [S. l.], v. 45, n. 3, p. 1–67, 2011. DOI: 10.18637/jss.v045.i03. VARA, J. Á. F. et al. PI3K/Akt signalling pathway and cancer.Cancer Treatment Reviews , v. 30, n. 2, p. 193–204, abr. 2004. VLACHOS, I. S. et al. DIANA-miRPath v3.0: deciphering microRNA function with experimental support. Nucleic Acids Research, v. 43, n. W1, p. W460–W466, 1 jul. 2015. WALIA, Anish Singh. Radial kernel Support Vector Classifier. 2018. Disponível em: https://datascienceplus.com/radial-kernel-support-vector-classifier/. Acesso em: 02 jan. 2023. WANG, Guanbo et al. LncRNA MAGI2-AS3 inhibits tumor progression and angiogenesis by regulating ACY1 via interacting with transcription factor HEY1 in clear cell renal cell carcinoma. Cancer Gene Therapy, [S.L.], v. 29, n. 5, p. 585-596, 17 maio 2021. Springer Science and Business Media LLC. WANG, Xin Jun et al. MiR-26 suppresses renal cell cancer via down-regulating coronin-3. Molecular And Cellular Biochemistry, [S.L.], v. 463, n. 1-2, p. 137-146, 8 out. 2019. Springer Science and Business Media LLC. 87 WANG, W. et al. Prognostic model based on m6A-associated lncRNAs in esophageal cancer. Frontiers in Endocrinology, v. 13, p. 947708, 30 ago.2022a. WANG, Yaya et al. HECT E3 ubiquitin ligases – emerging insights into their biological roles and disease relevance. Journal Of Cell Science, [S.L.], v. 133, n. 7, p. 1-14, 1 abr. 2020. The Company of Biologists. WANG, Y. et al. The Emerging Function and Mechanism of ceRNAs in Cancer. Trends in genetics: TIG, v. 32, n. 4, p. 211–224, abr. 2016. WANG, Y. et al. Prognostic significance of long non-coding RNAs in clear cell renal cell carcinoma: A meta-analysis. Medicine, v. 98, n. 40, p. e17276, out. 2019. WANG, Y.; ZHANG, J.; ZHENG, S. The role of XBP-1-mediated unfolded protein response in colorectal cancer progression-a regulatory mechanism associated with lncRNA-miRNA- mRNA network. Cancer Cell International, v. 21, n. 1, p. 488, dez. 2021. WARING, E.; QUINN, M.; MCNAMARA, A.; RUBIA, E. A. L.; ZHU, H.; O AND ELLIS, WICKHAM, H. et al. Welcome to the Tidyverse. Journal of Open Source Software, v. 4, n. 43, p. 1686, 21 nov. 2019. WEI, W. et al. Identification of key genes involved in the metastasis of clear cell renal cell carcinoma. Oncology Letters, 8 mar. 2019. WEI, Xiyi et al. Construction of circRNA-based ceRNAnetwork to reveal the role of circRNAs in the progression and prognosis of metastatic clear cell renal cell carcinoma. Aging, [S.L.], v. 12, n. 23, p. 24184-24207, 20 nov. 2020. Impact Journals WONDERGEM, Bill et al. Expression of the PTTG1 Oncogene Is Associated with Aggressive Clear Cell Renal Cell Carcinoma. Cancer Research, [S.L.], v. 72, n. 17, p. 4361- 4371, 30 ago. 2012. American Association for Cancer Research (AACR). WU, T. et al. clusterProfiler 4.0: A universal enrichment tool for interpreting omics data. The Innovation, v. 2, n. 3, p. 100141, ago. 2021. WU, Zhen et al. POLE2 Serves as a Prognostic Biomarker and Is Associated with Immune Infiltration in Squamous Cell Lung Cancer. Medical Science Monitor, [S.L.], v. 26, n. 26, p. 1-11, 18 abr. 2020. International Scientific Information, Inc.. World Health Organization. IARC – International Agency for Research on Cancer. Disponível em: <https://www.iarc.who.int/>. Acesso em 18 de abril de 2022. XIA, F.; YAN, Y.; SHEN, C. A Prognostic Pyroptosis-Related lncRNAs Risk Model Correlates With the Immune Microenvironment in Colon Adenocarcinoma. Frontiers in Cell and Developmental Biology, v. 9, p. 811734, 13 dez. 2021. XIE, L. et al. Computational Diagnostic Techniques for Electrocardiogram Signal Analysis. Sensors, v. 20, n. 21, p. 6318, 5 nov. 2020. 88 XIE, Shangdan et al. Insights Into the Biological Role of NEDD4L E3 Ubiquitin Ligase in Human Cancers. Frontiers In Oncology, [S.L.], v. 11, p. 1-10, 15 nov. 2021. Frontiers Media SA. XIONG, Lecai et al. Hypoxia-Associated Prognostic Markers and Competing Endogenous RNA Co-Expression Networks in Lung Adenocarcinoma. Research Square, [S.L.], v. -, n. -, p. 1-23, 16 jun. 2021. Research Square Platform LLC. XU, C.-H. et al. The lncRNA HOXA11-AS promotes glioma cell growth and metastasis by targeting miR-130a-5p/HMGB2. European Review for Medical and Pharmacological Sciences, v. 23, n. 1, p. 241–252, jan. 2019. YAMADA, R. et al. Interpretation of omics data analyses. Journal of Human Genetics, v. 66, n. 1, p. 93–102, jan. 2021. YANG, Muwen et al. HMMR promotes peritoneal implantation of gastric cancer by increasing cell–cell interactions. Discover Oncology, [S.L.], v. 13, n. 1, p. 1-12, 24 ago. 2022. Springer Science and Business Media LLC. YANG, Penghui et al. SET domain containing 1B gene is mutated in primary hepatic neuroendocrine tumors. International Journal Of Cancer, [S.L.], v. 145, n. 11, p. 2986- 2995, 17 maio 2019. Wiley. YAO, R.-W.; WANG, Y.; CHEN, L.-L. Cellular functions of long noncoding RNAs. Nature Cell Biology, v. 21, n. 5, p. 542–551, maio 2019. YIN, Zi et al. LncRNA MAGI2‐AS3 inhibits hepatocellular carcinoma cell proliferation and migration by targeting the miR‐374b‐5p/SMG1 signaling pathway. Journal Of Cellular Physiology, [S.L.], v. 234, n. 10, p. 18825-18836, 28 mar. 2019. Wiley. YOUDEN, W. J.. Index for rating diagnostic tests. Cancer, [S.L.], v. 3, n. 1, p. 32-35, 1950. Wiley. http://dx.doi.org/10.1002/1097-0142(1950)3:13.0.co;2-3. YOSHIDA, Kazuki; BARTEL,Alexander (2022). Tableone: Create ‘Table 1’ to Describe Baseline Characteristics with or without Propensity Score Weights. R package version 0.13.2. Disponível em:. Acesso em: 03 de Fevereiro de 2023; ZHANG, C. et al. Development and validation of a metastasis-associated prognostic signature based on single-cell RNA-seq in clear cell renal cell carcinoma. Aging, v. 11, n. 22, p. 10183– 10202, 20 nov. 2019. ZHANG, Chuanjie et al. Targeting POLE2 Creates a Novel Vulnerability in Renal Cell Carcinoma via Modulating Stanniocalcin 1. Frontiers In Cell And Developmental Biology, [S.L.], v. 9, n. 9, p. 1-14, 11 fev. 2021. Frontiers Media SA. ZHANG, F. et al. Cuprotosis-related signature predicts overall survival in clear cell renal cell carcinoma. Frontiers in Cell and Developmental Biology, v. 10, p. 922995, 30 set. 2022. 89 ZHANG, F. et al. Identification of significant genes with prognostic influence in clear cell renal cell carcinoma via bioinformatics analysis. Translational Andrology and Urology, v. 9, n. 2, p. 452–461, abr. 2020. ZHANG, Gang et al. Long noncoding RNA ZFPM2‐AS1 regulates renal cell carcinoma progression via miR ‐130a‐3p/ ESCO2. The Kaohsiung Journal Of Medical Sciences, [S.L.], v. 38, n. 6, p. 530-541, 8 mar. 2022. Wiley. ZHANG, H. The Optimality of Naive Bayes. BARR, V.; MARKOV, Z. (Orgs.). In: Proceedings of the Seventeenth International Florida Artificial Intelligence Research Society Conference (FLAIRS 2004). [s.l.]: AAAI Press, 2004. ZHANG, Xun et al. Structure, Expression, and Function of Human Pituitary Tumor- Transforming Gene (PTTG). Molecular Endocrinology, [S.L.], v. 13, n. 1, p. 156-166, 1 jan. 1999. The Endocrine Society. ZHANG, Z. et al. Uniform genomic data analysis in the NCI Genomic Data Commons. Nature Communications, v. 12, n. 1, p. 1226, dez. 2021. ZHONG, Min-Er et al. LncRNA H19 regulates PI3K–Akt signal pathway by functioning as a ceRNA and predicts poor prognosis in colorectal cancer: integrative analysis of dysregulated ncrna-associated cerna network. Cancer Cell International, [S.L.], v. 19, n. 1, p. 1-13, 30 maio 2019. ZHONG, W. et al. Identification of an apoptosis-related prognostic gene signature and molecular subtypes of clear cell renal cell carcinoma (ccRCC). Journal of Cancer, v. 12, n. 11, p. 3265–3276, 2021. ZHOU, Haochuan. Statistical Inferences for the Youden Index. 2011. 114 f. Tese (Doutorado) - Curso de Matemática e Estatística, Universidade do Estado da Geórgia, Atlanta, 2011. ZHU, J. et al. circEHBP1 promotes lymphangiogenesis and lymphatic metastasis of bladder cancer via miR-130a-3p/TGFβR1/VEGF-D signaling. Molecular Therapy, v. 29, n. 5, p. 1838–1852, maio 2021. ZHU, Yongjun et al. POLE2 knockdown reduce tumorigenesis in esophageal squamous cells. Cancer Cell International, [S.L.], v. 20, n. 1, p. 1-12, 11 ago. 2020. Springer Science and Business Media LLC. ZI, Zhike et al. Molecular Engineering of the TGF-β Signaling Pathway. Journal Of Molecular Biology, [S.L.], v. 431, n. 15, p. 2644-2654, jul. 2019. Elsevier BV. ZIMTA, Alina-Andreea et al. An Emerging Class of Long Non-coding RNA With Oncogenic Role Arises From the snoRNA Host Genes. Frontiers In Oncology, [S.L.], v. 10, p. 1-16, 7 abr. 2020. Frontiers Media SA. 90 ZOU, H.; HASTIE, T. Regularization and variable selection via the elastic net. Journal of the Royal Statistical Society: Series B (Statistical Methodology), v. 67, n. 2, p. 301–320, abr. 2005. 91 APÊNDICES 92 APÊNDICE A Tabela 13: Variáveis do Estudo Sigla Signficado: GO Gene Ontology MF Função Molecular BF Processo Biológico MX Metástase indefinida M1 Com metástase M0 Sem Metástase 93 APÊNDICE B Figura 24: Desempenho do glm como benchmarking, avaliando a acurácia, sensibilidade e especificidade. Fonte: Autor Figura 25: Desempenho do rf como benchmarking, avaliando a acurácia, sensibilidade e especificidade Fonte: Autor 94 Figura 26: Desempenho do svmRadial como benchmarking, avaliando a acurácia, sensibilidade e especificidade. Fonte: Autor. 95 APÊNDICE C Figura 27: Oncoplot com as mutações registradas nos genes codificantes da assinatura. O gráfico de barra à direita representa a quantidade de amostras mutadas e o gráfico de barras acima representa as mutações registradas sobre essas amostras. Fonte: Autoral. 96 APÊNDICE D Machine Learning Gene Signature to Metastatic ccRCC based on ceRNA Network Epitácio Farias¹*, Patrick Terrematte², Beatriz Stransky ¹,³ 1Bioinformatics Multidisciplinary Environment (BioME), Metropole Digital Institute(IMD), Federal University of Rio Grande do Norte (UFRN), Natal 59078-400, Brazil; 2Metropolis Digital Institute (IMD), Federal University of Rio Grande do Norte (UFRN), Natal 59078-400, Brazil; 3Biomedical Engineering Department, Center of Technology, UFRN, Natal 59078-970, Brazil *Corresponding author Epitácio Farias, Bioinformatics Multidisciplinary Environment (BioME), Metropole Digital Institute (IMD), Federal University of Rio Grande do Norte (UFRN), Natal 59078-400, Brazil; E-mail: epitacio.farias.101@ufrn.edu.br Tel: +55 84 999949975 E-mail address: Epitácio Farias, epitacio.farias.101@ufrn.edu.br Patrick Terrematte, patrickt@imd.ufrn.br Beatriz Stransky, beatriz.stransky@ufrn.br Abstract Renal carcinoma is a pathology of silent and multifactorial development characterized by a high rate of metastases in patients. After several studies have elucidated the activity of coding genes in the metastatic progression of renal carcinoma, new studies seek to evaluate the association of non-coding genes, such as competitive endogenous RNA (ceRNA). Thus, this study aims to build a gene signature for clear cell renal cell carcinoma (ccRCC) associated with metastatic development from a ceRNA network and to analyze the probable biological functions performed by the participants of the signature. Using ccRCC data from The Cancer Genome Atlas (TCGA), we constructed the ceRNA network with the differentially expressed genes, assembled nine gene signatures from eight feature selection techniques, and analyzed the evaluation metrics of the classification models in the benchmarking process. With the signature, we performed somatic and copy number alteration analysis, survival and metastatic 1 .CC-BY-NC-ND 4.0 International licensemade available under a (which was not certified by peer review) is the author/funder, who has granted bioRxiv a license to display the preprint in perpetuity. It is The copyright holder for this preprintthis version posted August 2, 2023. ; https://doi.org/10.1101/2023.07.31.551358doi: bioRxiv preprint mailto:epitacio.farias.101@ufrn.edu.br mailto:patrickt@imd.ufrn.br mailto:beatriz.stransky@ufrn.br https://doi.org/10.1101/2023.07.31.551358 http://creativecommons.org/licenses/by-nc-nd/4.0/ progression risk analysis, and functional annotation analysis. In this study, we present an 11-gene signature (SNHG15, AF117829.1, hsa-miR-130a-3p, hsa-mir-381-3p, BTBD11, INSR, HECW2, RFLNB, PTTG1, HMMR, RASD1). Validation using the external dataset of the International Cancer Genome Consortium (ICGC-RECA) made it possible to assess the generalization of the signature, which showed an Area Under Curve of 81.5%. The genomic analysis identified the signature participants on chromosomes with highly mutated regions (G-index > 2). The hsa-miR-130a-3p, AF117829.1, hsa-miR-381-3p, and PTTG1 had a significant relationship between expression and patient survival, and the first two had a significant association with metastatic development. In addition, functional annotation resulted in relevant pathways for tumor development, such as PI3K/AKT, TNF, FoxO, RNA polymerase two transcription regulation, and cell control. Finally, by analyzing the connections of the signature genes within the ceRNA network in conjunction with studies in the literature, it was possible to obtain an overview of their activities within the ccRCC. Therefore, this gene signature identified new coding and non-coding genes and could act as potential biomarkers for a better understanding of renal carcinoma and in the development of future treatments in the clinical area. Keywords: Renal carcinoma; transcriptional signature; ceRNA network; feature selection; metastasis. 1. Introduction Renal cancer is a group of neoplasms originating in the renal tissues, classified by the cell type or histologic characteristics, such as Clear Cell Renal Cell Carcinoma (ccRCC), Papillary Renal Carcinoma (pRCC), and Chromophobe Renal Carcinoma (chRCC)[1–3]. Due to the silent characteristic of this disease [4], the diagnosis at the metastatic state occurs in approximately 30% of ccRCC patients [5, 6]. In a previous study with a cohort of 537 ccRCC patients, The Cancer Genome Atlas (TCGA) consortium [7], characterized significant alterations in ccRCC, such as mutation in VHL, PBRM1, SETD2, BAP1 genes, the deletion of de arm q of chromosome 3, and a cluster organization with messenger RNA (mRNA) and microRNA (miRNA), representing an essential component in ccRCC regulation. Further studies begin to reveal an important role of the non-coding RNAs (ncRNAs) represent the class of RNAs that portray approximately 80% of the transcriptome [8–10]. The function of lncRNAs is associated with the location of action or their interactions with DNA, proteins, or other RNAs [9–13]. The lncRNAs can act during all the transcriptional processes, as the pre and post-transcriptional processes, as a: (i) decoy or “sponge” modulating the effector of their targets; (ii) guide to the enzymes modifiers of histones or chromatin; (iii) respond to various stimuli [14, 15]. The ligation of the lncRNA with the miRNA affects their targets, characterizing an endogenous competition between the lncRNA and the mRNA target of the miRNA [9, 10]. 2 .CC-BY-NC-ND 4.0 International licensemade available under a (which was not certified by peer review) is the author/funder, who has granted bioRxiv a license to display the preprint in perpetuity. It is The copyright holder for this preprintthis version posted August 2, 2023. ; https://doi.org/10.1101/2023.07.31.551358doi: bioRxiv preprint https://www.zotero.org/google-docs/?XpxNv6 https://www.zotero.org/google-docs/?vxvATU https://www.zotero.org/google-docs/?LEyqDp https://www.zotero.org/google-docs/?TZOz5Z https://www.zotero.org/google-docs/?j7eIgI https://www.zotero.org/google-docs/?YV72J2 https://www.zotero.org/google-docs/?cfQuuh https://www.zotero.org/google-docs/?oF7dNH https://doi.org/10.1101/2023.07.31.551358 http://creativecommons.org/licenses/by-nc-nd/4.0/ Based on this widespread interaction network, it was proposed the “Competing Endogenous RNA” (ceRNA) hypothesis, based on the idea of a communication existence between miRNAs, mediated by the miRNAs recognition elements (MREs), with mRNA, lncRNA, and other ncRNAs[16]. Alteration in the ceRNA networks is observed in cancer and other pathologies, associating them with biomarkers of prognosis to metastasis and alternative clinical outcomes, therapeutics targets, where they can act as a tumor suppressor or oncogenes [10, 17–20]. Studies about RNA expression generate a large and complex amount of data, and the conduction of an analysis integrating this data with clinical information could enable a pattern extraction to enrich the understanding by machine learning (ML) techniques [21, 22]. Among the vast applications of ML, the methods related to classification and prediction became the most used approach in health field research [23]. However, the lack of feature selection associated with the outcome variable could influence the performance of the algorithms [24]. The feature selection represents the analysis and selection of variables, evaluating their impact on the outcome, removing the irrelevant variables, and making them more consistent and relevant to the model construction [25]. This study aims to construct a ceRNA network and a gene signature based on the feature selection algorithms, to classify the metastatic profile of ccRCC patients. The best-performing gene signature achievement used majority voting between four Recursive Feature Elimination (RFE) approaches. More specifically, the RFE is a wrapper-based method to select the classifiers interactively, initially using all the variables, and for each interaction, one variable is removed based on the score of importance associated [26]. The flowchart shown in Figure 1 displays a summarized view of the discovery process for the novel RFE gene signature of ccRCC.2. Materials and Methods. 2.1. Data This is a data-driven study based on the RNA-seq dataset and clinical dataset from the TCGA-KIRC project (n = 602), downloaded from Genomic Data Commons (https://portal.gdc.cancer.gov/) [7] and UCSC Xenabrowser (https://xena.ucsc.edu/). For external validation, we used the dataset of ccRCC (n = 91 patients) from the International Cancer Genome Consortium (ICGC-RECA) [27]. 2.2. ceRNA Network construction 3 .CC-BY-NC-ND 4.0 International licensemade available under a (which was not certified by peer review) is the author/funder, who has granted bioRxiv a license to display the preprint in perpetuity. It is The copyright holder for this preprintthis version posted August 2, 2023. ; https://doi.org/10.1101/2023.07.31.551358doi: bioRxiv preprint https://www.zotero.org/google-docs/?ZlF3Pe https://www.zotero.org/google-docs/?RYP4Os https://www.zotero.org/google-docs/?LOjK2T https://www.zotero.org/google-docs/?zH1u1G https://www.zotero.org/google-docs/?qMZops https://www.zotero.org/google-docs/?MjAfvH https://www.zotero.org/google-docs/?9WPKJK https://www.zotero.org/google-docs/?T1AkGY https://xena.ucsc.edu/ https://www.zotero.org/google-docs/?qhETpk https://doi.org/10.1101/2023.07.31.551358 http://creativecommons.org/licenses/by-nc-nd/4.0/ The ceRNA network was constructed from the differentially expressed genes mRNAs and ncRNAs, focusing on the relation lncRNA-miRNA-mRNA. The differential expression analysis was made between the normal tissues (n = 72) and tumor tissues (n = 530) from the TCGA-KIRC cohort, with the “DESeq2” using the absolute |log-fold change (LFC)| > 2 and a p-value adjusted (FDR) < 0.01. With the differentially expressed genes, was used the R package “GDCRNATools” [28] associated with the starBase [29], a database focused on the decodification of the iterations networks through numerous RBPs and RNAs. The pair selection follows the statistical analyzes: (i) hypergeometric test; (ii) Pearson correlation coefficient; (iii) regulatory similarity. This analysis used a threshold of 0.1 for the Pearson correlation and hypergeometric test and 0 for the regulatory similarity, and Cytoscape software [30] to visualize the ceRNA network. 2.3. Dataset Construction, Feature Selection, and Gene Signature Construction The signature construction used the genes participating in the ceRNA network inspired by the methodology of [31], where new gene signatures were produced using the techniques in Table S1 and used the OmicSelector R package [32]. Within the expression dataset from the TCGA-KIRC (n = 602) was observed a missing metastatic classification in 30 patients, causing their remotion, and due to the unbalanced characteristic from the metastasis classification of presence (M1) or absence (M0), was performed a propensity matching score balance, maintaining 190 patients, 95 from each class. This new dataset was split randomly into three new datasets, following the rate of 60% for training (n = 114), 20% for the test (n = 38), and 20% for validation (n = 38). For the signature construction process, we used the feature selection techniques: Recursive Feature Elimination (RFE) and two iterated versions, Boruta, Generalized Linear Model (GLM), Akaike Information Criterion (AIC), Linear Discriminant Analysis (LDA), Lasso and ElasticNet. To improve the construction of the signature and optimize computational efficiency, we performed hyperparameters adjustments to the feature selection. The RFE techniques used cross-validation with ten folds, using a window frame of 50 genes in each iteration, and iterated RFE versions used a window frame of ten genes for the signature. With the nine signatures constructed, was performed a 1º benchmarking to select the signature with the best metrics for metastatic classification using the datasets for test and 4 .CC-BY-NC-ND 4.0 International licensemade available under a (which was not certified by peer review) is the author/funder, who has granted bioRxiv a license to display the preprint in perpetuity. It is The copyright holder for this preprintthis version posted August 2, 2023. ; https://doi.org/10.1101/2023.07.31.551358doi: bioRxiv preprint https://www.zotero.org/google-docs/?QlisNw https://www.zotero.org/google-docs/?5MR1Lj https://www.zotero.org/google-docs/?2J4MnQ https://www.zotero.org/google-docs/?D2Vmly https://www.zotero.org/google-docs/?rSY409 https://doi.org/10.1101/2023.07.31.551358 http://creativecommons.org/licenses/by-nc-nd/4.0/ validation. To the 1º benchmark was used the models: Random Forest (rf), Generalized Linear Model (GLM), eXtreme Gradient Boosting (xgbTree) e Support Vector Machine with a Radial Kernel (svmRadial), performed ten times to seek the best parameter adjustment for each of them. The metrics to evaluate this benchmark are accuracy, specificity, sensitivity, and Youden’s statistics. To evaluate the signature generalization, the external dataset from the ICGC-RECA project (n = 91) was used with the mlr3verse package [33] to perform the 2º benchmark, applying the following classification techniques: random forest, naive Bayes, kNN, svmradial, and XGBoost. The evaluation metrics were accuracy, balanced accuracy, the Brier score, and the AUC. The validation process used the TCGA-KIRC for training and the ICGC-RECA for testing. 2.4. Somatic and Copy Number Alteration Analysis The somatic alterations analysis was conducted with the Mutation Annotation Format (MAF) datafile, using the R package, Maftools [34], extracting information about (a) type of variations; (b) variation classification; (c) the labels of those single nucleotide variations; (d) the variations quantity by sample and (e) the top 10 genes altered. The copy number variation analysis requires the construction of the GISTIC file. The Genomic Identification of Significant Targets in Cancer (GISTIC) pipeline [35] resulted in information about amplification and deletions within the data, analyzed by the Maftools R package to extract the regions of the genome and their alterations. 2.5. Risk Analysis The performance of risk analysis allows assessing the relationship between the gene signature with the metastatic development and the survival status of the patients, observing their expression level. With the survival [36] and finalfit [37] R packages, we executed Aalen’s additive regression and Odd’s ratio analysis, respectively. Aalen’s regression acts as a complementary, or alternative, form for the Cox model, where the covariables association and their effects [38] on the survival status of the patients are obtained. The Odd’s ratio quantifies the strength of association between two events [39], the presence or absence of metastasis. 2.6. Functional Annotation Analysis 5 .CC-BY-NC-ND 4.0 International licensemade available under a (which was not certified by peer review) is the author/funder, who has granted bioRxiv a license to display the preprint in perpetuity. It is The copyright holder for this preprintthis version posted August 2, 2023. ; https://doi.org/10.1101/2023.07.31.551358doi: bioRxiv preprint https://www.zotero.org/google-docs/?ycbzZP https://www.zotero.org/google-docs/?94hsHM https://www.zotero.org/google-docs/?amxM2v https://www.zotero.org/google-docs/?7sMm3d https://www.zotero.org/google-docs/?bzfGNm https://www.zotero.org/google-docs/?P2C7xJ https://www.zotero.org/google-docs/?eoATdI https://doi.org/10.1101/2023.07.31.551358 http://creativecommons.org/licenses/by-nc-nd/4.0/ The identification of the pathways enriched by the genes of the signature was performed against the Kyoto Encyclopedia of Genes and Genomes (KEGG) [40] and the Gene Ontology [41], focusing on the gene association to biological processes and molecular functions. Using the clusterProfiler R package [42] and the mirPath platform [43] for functional characterization of miRNAs from the signature. 3. Results 3.1. ceRNA Network To construct our ceRNA network, weused the differentially expressed (DE) genes of the TCGA-KIRC (n = 602) project. This analysis resulted in 2,842 mRNAs, 132 miRNAs, and 271 lncRNAs DE, based on the thresholds of |log2FC| > 2 and p-value adjusted for FDR < 0,01. With those DE genes, we constructed the ceRNA network based on the thresholds of 0.1 for the hypergeometric test and Pearson correlation, and the similarity of regulation different from 0, resulting in a network with 18 lncRNAs, 75 miRNAs and 128 mRNAs (Figure 2). 3.2. Feature Selection With the expression data from the 221 genes participating in the ceRNA network and the metastatic classification from the 192 patients, after the balance performance, the training process for the feature selection and the construction of 9 signatures were performed (Figure 3). Among the feature selection techniques, only the stepAIC did not converge, and the curves from RFE show an accuracy of 76.30% and a Kappa coefficient of 0.5663. After the stepAIC remotion, we performed the first benchmark, where the xgbTree presented the best result, with an accuracy of 80% during the training and 60% for the test, and 68.3% in validation. To select the best signatures, we applied Youden’s statistics, resulting in the best four signatures. As observed, the four signatures shared some genes, and by majority voting, the final signature was constructed (Equation 1). Class ~ INSR + PTTG1 + BTBD11 + RASD1 + HECW2 + HMMR + RFLNB + hsa-miR-130a-3p + hsa.miR.381.3p + SNHG15 + AF117829.1 Equation 1: Gene signature. 6 .CC-BY-NC-ND 4.0 International licensemade available under a (which was not certified by peer review) is the author/funder, who has granted bioRxiv a license to display the preprint in perpetuity. It is The copyright holder for this preprintthis version posted August 2, 2023. ; https://doi.org/10.1101/2023.07.31.551358doi: bioRxiv preprint https://www.zotero.org/google-docs/?U08TXU https://www.zotero.org/google-docs/?Mn7c3x https://www.zotero.org/google-docs/?k9VURP https://www.zotero.org/google-docs/?TLmHhI https://doi.org/10.1101/2023.07.31.551358 http://creativecommons.org/licenses/by-nc-nd/4.0/ With the signature constructed, a second benchmark (Table 1) was performed, using the ICGC-RECA project as a test dataset, and observed accuracy and balanced accuracy of 72% for both, an AUC of 81.5%, and a Brier Score of 0.1955. 3.3. Integrative Analysis From The Transcriptional Signature Components 3.3.1. Genomic Alteration Analysis Performing a genome-level alteration analysis enables us to evaluate their impact on the gene product. These alterations can include changes in the genetic structure, disruptions in protein synthesis, or variations in the quantity of the gene product. To conduct this analysis, we used the maftools package to investigate single nucleotide polymorphisms (SNPs) and copy number variations (CNVs) within the genome of the TCGA-KIRC cohort. Among the data, the missense mutation is predominant from the single nucleotide polymorphism type, with approximately 44 variants per sample. The most common SNP was the cytosine and thymine transversion. As the focus is on the gene signature, ten samples showed mutations in signature coding genes (Figure S1), where the missense was registered at the genes HECW2, BTBD11, INSR, and PTTG1, the frameshift deletion was registered in BTBD11, and the multi-hit mutations in HECW2. However, the HMMR, RASD1, and RFLNB have not presented any variation. The copy number variation analysis shows the chromosomes 1,4,5,6,7,12,17,18, and 20 with a large amount and frequency of alterations between the samples. As we searched the chromosome location of our gene signature in the National Center of Biotechnology Information, we observed that their localization was in the chromosomes highly altered but not in the regions significantly modified. 3.3.2. Risk Analysis As we construct the risk analysis associating the gene signature expression with the ccRCC progression, Aalen’s additive regression shows a significant relationship between some genes from the gene signature with patient survival, such as (i) AF1117829.1 (p-valor = 0,0001627), (ii) hsa-miR-130a-3p (p-valor = 0,016), (iii) hsa.miR.381.3p (p-valor = 0,027) e (iv) PTTG1 (p-valor = 0,020). When observing the behavior of the signature genes with the development of metastasis (Figure 4), the miRNA hsa-miR-130a-3p and the lncRNA AF117829.1 were the 7 .CC-BY-NC-ND 4.0 International licensemade available under a (which was not certified by peer review) is the author/funder, who has granted bioRxiv a license to display the preprint in perpetuity. It is The copyright holder for this preprintthis version posted August 2, 2023. ; https://doi.org/10.1101/2023.07.31.551358doi: bioRxiv preprint https://doi.org/10.1101/2023.07.31.551358 http://creativecommons.org/licenses/by-nc-nd/4.0/ only ones that had a significant association, p-value = 0.011, and p-value = 0.029, respectively. 3.3.3. Functional Annotation Analysis During the annotation of KEGG pathways based on the coding genes from the signature, we observed an association between several biological pathways, like longevity regulation, and aldosterone-regulated sodium reabsorption, with a p-value <0.05 (Figure 5a). When evaluating the targets from the miRNAs in our signature and the biological pathways related to them, it resulted in well-known oncology-related biological pathways, like the PI3K-AKT signaling pathway, p53 signaling pathway, the transforming growth factor-beta (TGF-beta) signaling pathway, renal cancer, and HIF-alfa pathway (Figure S2a). The biological processes annotated were associated with cellular division regulation, like chromatid sister separation and chromosome segregation (Figure 5b). The pathways annotated by miRNA targets were also related to the cellular division process. However, other pathways were listed, like the signal transduction pathway, growth factors, and DNA polymerase I regulation, both analyses with a p-value < 0.05 (Figure S2b). 3.4. Gene Signature and ceRNA network As the signature construction was made upon the genes from the ceRNA network, searching their location and the first neighbors could improve the knowledge about the gene functions and their metastatic consequences in the ccRCC environment. The ceRNA network had a cluster organization, and the gene signature location showed the presence of genes in areas with cluster distinct, like cluster 1, or with a high density of connections, like cluster 2, or even areas with the presence of only one gene like the cluster 3,4,5, and 6, Table 2 present the genes from signature and their first ligands within the ceRNA network. 4. Discussion 4.1. Gene Signature The nine feature selection methods resulted in the training of signatures for the metastatic classification of ccRCC. Analyzing the learning curves from RFE, the Kappa coefficient between the range of 0.41 e 0.6 represents a meaningful concordance between the method result and the data [44]. When related to classification accuracy, it’s possible to enrich the classification analysis, considering the misclassifications error [45]. 8 .CC-BY-NC-ND 4.0 International licensemade available under a (which was not certified by peer review) is the author/funder, who has granted bioRxiv a license to display the preprint in perpetuity. It is The copyright holder for this preprintthis version posted August 2, 2023. ; https://doi.org/10.1101/2023.07.31.551358doi: bioRxiv preprint https://www.zotero.org/google-docs/?8IwGSk https://www.zotero.org/google-docs/?4GH7vL https://doi.org/10.1101/2023.07.31.551358 http://creativecommons.org/licenses/by-nc-nd/4.0/ The benchmark permitted us to know the overfitting in the data, and a form of solving this issue was to use the Youden statistics. Based on the specificity and sensitivity during the validation process. The top four signatures had the coefficient of Youden in a range of 0.13to 0.18 and were most proximal to 1 best in the classification [46], but the size of the study influenced this index [47]. The use of majority voting with the top four signatures results in the final signature of our work, composed of 7 mRNAs: (i) PTTG1, (ii) BTBD11, (iii) HECW2, (iv) INSR, (v) RFLNB, (vi) HMMR, (vii) RASD1, two lncRNAs: (i) SNHG15, (ii) AF117829.1 and two miRNAs: (i) hsa-miR-381-3p e (ii) hsa-miR-130a-3p. The validation with an external dataset is a process in the ML field to evaluate model generalization [48]. Our signature presents a great result, with accuracy and AUC of 72% and 81.5%, respectively. Other studies had constructed signatures associated with survival [31] and gene expression related to the immune system [49]in the literature. 4.2. Validation and Biological Interpretation 4.2.1. Genomic and Functional Alterations The somatic alterations of the coding genes from signature were more commonly associated with missense or frame_shit_del, except for the HMMR and RFLNB. Regarding the copy number variations, the amplified or deleted regions were not in the same location as the genes in the signature. Analyzing the risk associated with survival or metastasis development showed a significant association of four genes from the gene signature. The lncRNA AF117829.1 and the miRNA hsa-miR-130a-3p were present in both analyses. The miRNA association is related to various cancers, such as bladder, breast, hepatocellular, glioma, and osteosarcoma [50–55]. Therefore, the presence of the PTTG1 and hsa.miR.130a.3p genes corroborate the literature, where in a situation of high expression is the poor prognosis, and for the hsa.miR.130a.3p and hsa.miR.381.3p are associated with metastatic development. However, the lncRNA remains unknown, and these features could be added to its actions, which are still under study. The functional annotation resulted in very diversified pathways. The aldosterone-regulated sodium reabsorption pathway acts in sodium and potassium metabolism, and is a biomarker pathway for metastatic development and prognosis in ccRCC [56–58]. Another detected process was the longevity regulation pathway, which is affected by the caloric restriction related to mammalian feeding [59, 60] and regulates many other 9 .CC-BY-NC-ND 4.0 International licensemade available under a (which was not certified by peer review) is the author/funder, who has granted bioRxiv a license to display the preprint in perpetuity. It is The copyright holder for this preprintthis version posted August 2, 2023. ; https://doi.org/10.1101/2023.07.31.551358doi: bioRxiv preprint https://www.zotero.org/google-docs/?YDtXlE https://www.zotero.org/google-docs/?V3HzrW https://www.zotero.org/google-docs/?U5XuSp https://www.zotero.org/google-docs/?CTlT0Y https://www.zotero.org/google-docs/?1fPwIh https://www.zotero.org/google-docs/?zI7kd5 https://www.zotero.org/google-docs/?XbBhpI https://www.zotero.org/google-docs/?zVuBto https://doi.org/10.1101/2023.07.31.551358 http://creativecommons.org/licenses/by-nc-nd/4.0/ pathways, such as insulin signalization, PI3K/AKT, TNF, AMPK signalization, and mTOR pathway targets, that are also annotated as pathways regulated by the miRNAs targets. The TNF signaling pathway acts with PI3K/AKT and NF-kappa-B pathways for cellular necrosis, apoptosis, oncogenesis, and tumoral metastasis in many cancers [61]. The pathways related to the biological processes in both approaches, using the coding genes and miRNAs, showed annotation to cell cycle regulation, controlling the separation and segregation of sister chromatids, RNA polymerase II transcription, up-regulating and accommodating, its transcription activity of coding and non-coding genes [62], as well as processes related to cell-cell communication. Thus, the functional annotation showed that the signature genes are associated with processes for metastatic development, associating them with relevant pathways such as PI3K/ATK and mTOR. When altered, these components trigger abnormal responses such as longevity and insulin regulation, all of them essential for cellular homeostasis 4.2.2. Gene Signature Analysis in the ceRNA Network As presented, the ceRNA network had a cluster distribution, showing dense regions with more presence of genes and fully connected, and sparse regions, with clusters more distant and without connectivity. A competition characteristic is observed in ten of the eleven genes in the signature. The processes related to the genes are the most diverse, like the regulation of cell motility by the HMMR [63], the regulation of the oncogenic pathways PI3K/AKT/mTOR by the INSR [64], the negative regulation of cell cycle by the PTTG1 and its action as an oncogene in the ccRCC microenvironment [65–67]. The lncRNA AF11782.1 mechanism of action remains unknown but was related to the proliferation, differentiation, and regulation of the immunity of T cells [68, 69], and as presented earlier, his expression was found to be related to metastatic development and worst prognosis of ccRCC patients, indicating new actions within the cancer field of studies. At this cluster, due to the high level of expression, a sponge act could be existing where the miRNA doesn’t degrade the POLE2 and HMMR, promoting cell differentiation and metastasis development. The RASD1 was the only gene that didn’t show a competition pattern and is responsible for the regulation of the RAS superfamily. In situations of increased expression, it is related to the reduction of the cell growth and the direction to apoptosis, acting in the opposite direction of the RAS family, associated with cell growth and tumor expansion [70]. As observed in his expression levels and his first ligands, the miRNA regulation is probably 10 .CC-BY-NC-ND 4.0 International licensemade available under a (which was not certified by peer review) is the author/funder, who has granted bioRxiv a license to display the preprint in perpetuity. It is The copyright holder for this preprintthis version posted August 2, 2023. ; https://doi.org/10.1101/2023.07.31.551358doi: bioRxiv preprint https://www.zotero.org/google-docs/?aNQYz8 https://www.zotero.org/google-docs/?wfgNjM https://www.zotero.org/google-docs/?NmHBBi https://www.zotero.org/google-docs/?2LEWtk https://www.zotero.org/google-docs/?HL8nQo https://www.zotero.org/google-docs/?3m8dX1 https://www.zotero.org/google-docs/?NvUvWM https://doi.org/10.1101/2023.07.31.551358 http://creativecommons.org/licenses/by-nc-nd/4.0/ upon him, indicating the absence of the sponging action by the lncRNA, and promoting cancer cell proliferation. 5. Conclusion This study aimed to build a transcriptional signature of clear cell renal cell carcinoma from differentially expressed genes that act as a Competitor Endogenous RNA network. Using feature selection techniques for signature construction represents a promising application in this vast area of pattern recognition and machine learning. By integrating expression data with clinical information, we successfully constructed transcriptional signatures comprising multiple genes. The incorporation of evaluative metrics allowed us to gain valuable insights into the signature, assessing the metrics of accuracy, sensitivity, and specificity of the signature in order to classify metastatic tissue expression. Using the external dataset permitted the examination of the signature generalization, thus validating its action as a metastatic classifier in clear cell renal cancer. With the cluster-by-cluster analysis, it was possible to know the actions performed by the signature genes within the cellular environment of clear cell renal cell carcinoma and how the effects of this regulatory process occur. Data availability statement: The study utilized openly accessible datasets for analysis. The findings presented in this paper stem from information gathered by the TCGA Research Network. The TCGA-KIRC dataset (version 07-19-2019)can be accessed through the UCSC Xena Browser[71], while the ICGC-RECA dataset is available via the ICGC Data Portal[27]. Acknowledgments: The authors express their gratitude to Rafaella Ferraz and Iara de Souza for their valuable input and suggestions during the drafting of the manuscript. Additionally, the authors extend their thanks to the Multidisciplinary Bioinformatics Environment (BioME) at UFRN for generously providing the computing resources necessary for data processing. REFERENCES 1. Marcos Dall’Oglio, Miguel Srougi, Luciano Nesrallah. Câncer de Rim. In: Tratado de Clinica Médica. 2a. Rio de Janeiro; 2006. p. 3264–73. 2. Kumar V, Abbas AK, Fausto N, Robbins SL, Cotran RS. Robbins e Cotran: patologia: bases patológicas das doenças. 7. ed. Rio de Janeiro: Elsevier; 2008. 3. Muglia VF, Prando A. Renal cell carcinoma: histological classification and correlation with 11 .CC-BY-NC-ND 4.0 International licensemade available under a (which was not certified by peer review) is the author/funder, who has granted bioRxiv a license to display the preprint in perpetuity. It is The copyright holder for this preprintthis version posted August 2, 2023. ; https://doi.org/10.1101/2023.07.31.551358doi: bioRxiv preprint https://www.zotero.org/google-docs/?m8hwa2 https://www.zotero.org/google-docs/?gZJkof https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://doi.org/10.1101/2023.07.31.551358 http://creativecommons.org/licenses/by-nc-nd/4.0/ imaging findings. Radiol Bras. 2015;48:166–74. 4. NKF - National Kidney Fundation. Renal Carcinoma Guidelines. 2017. 5. Wang Y, Li Z, Li W, Zhou L, Jiang Y. Prognostic significance of long non-coding RNAs in clear cell renal cell carcinoma: A meta-analysis. Medicine (Baltimore). 2019;98:e17276. 6. Cui H, Shan H, Miao MZ, Jiang Z, Meng Y, Chen R, et al. Identification of the key genes and pathways involved in the tumorigenesis and prognosis of kidney renal clear cell carcinoma. Sci Rep. 2020;10:4271. 7. The Cancer Genome Atlas Research Network. Comprehensive molecular characterization of clear cell renal cell carcinoma. Nature. 2013;499:43–9. 8. Klinge CM. Non-coding RNAs: long non-coding RNAs and microRNAs in endocrine-related cancers. Endocr Relat Cancer. 2018;25:R259–82. 9. Kazimierczyk, Kasprowicz, Kasprzyk, Wrzesinski. Human Long Noncoding RNA Interactome: Detection, Characterization and Function. Int J Mol Sci. 2020;21:1027. 10. Statello L, Guo C-J, Chen L-L, Huarte M. Gene regulation by long non-coding RNAs and its biological functions. Nat Rev Mol Cell Biol. 2021;22:96–118. 11. Morris KV, Mattick JS. The rise of regulatory RNA. Nat Rev Genet. 2014;15:423–37. 12. Yao R-W, Wang Y, Chen L-L. Cellular functions of long noncoding RNAs. Nat Cell Biol. 2019;21:542–51. 13. Schmitz SU, Grote P, Herrmann BG. Mechanisms of long noncoding RNA function in development and disease. Cell Mol Life Sci. 2016;73:2491–509. 14. Wang P-S, Wang Z, Yang C. Dysregulations of long non-coding RNAs − The emerging “lnc” in environmental carcinogenesis. Semin Cancer Biol. 2021;76:163–72. 15. Chiu H-S, Somvanshi S, Patel E, Chen T-W, Singh VP, Zorman B, et al. Pan-Cancer Analysis of lncRNA Regulation Supports Their Targeting of Cancer Genes in Each Tumor Context. Cell Rep. 2018;23:297-312.e12. 16. Salmena L, Poliseno L, Tay Y, Kats L, Pandolfi PP. A ceRNA Hypothesis: The Rosetta Stone of a Hidden RNA Language? Cell. 2011;146:353–8. 17. Qi X, Lin Y, Chen J, Shen B. Decoding competing endogenous RNA networks for cancer biomarker discovery. Brief Bioinform. 2020;21:441–57. 18. Chan J, Tay Y. Noncoding RNA:RNA Regulatory Networks in Cancer. Int J Mol Sci. 2018;19:1310. 19. Bhan A, Soleimani M, Mandal SS. Long Noncoding RNA and Cancer: A New Paradigm. Cancer Res. 2017;77:3965–81. 12 .CC-BY-NC-ND 4.0 International licensemade available under a (which was not certified by peer review) is the author/funder, who has granted bioRxiv a license to display the preprint in perpetuity. It is The copyright holder for this preprintthis version posted August 2, 2023. ; https://doi.org/10.1101/2023.07.31.551358doi: bioRxiv preprint https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://doi.org/10.1101/2023.07.31.551358 http://creativecommons.org/licenses/by-nc-nd/4.0/ 20. Liu SJ, Dang HX, Lim DA, Feng FY, Maher CA. Long noncoding RNAs in cancer metastasis. Nat Rev Cancer. 2021;21:446–60. 21. Subramanian I, Verma S, Kumar S, Jere A, Anamika K. Multi-omics Data Integration, Interpretation, and Its Application. Bioinforma Biol Insights. 2020;14:117793221989905. 22. Reel PS, Reel S, Pearson E, Trucco E, Jefferson E. Using machine learning approaches for multi-omics data analysis: A review. Biotechnol Adv. 2021;49:107739. 23. Black JE, Kueper JK, Williamson TS. An introduction to machine learning for classification and prediction. Fam Pract. 2023;40:200–4. 24. Kann BH, Hosny A, Aerts HJWL. Artificial intelligence for clinical oncology. Cancer Cell. 2021;39:916–27. 25. Liu H, Motoda H, editors. Computational methods of feature selection. Boca Raton: Chapman & Hall/CRC; 2008. 26. Kuhn M, Johnson K. Feature engineering and selection: a practical approach for predictive models. Boca Raton London New York: CRC Press, Taylor & Francis Group; 2020. 27. Zhang J, Bajari R, Andric D, Gerthoffert F, Lepsa A, Nahal-Bose H, et al. The International Cancer Genome Consortium Data Portal. Nat Biotechnol. 2019;37:367–9. 28. Li R, Qu H, Wang S, Wei J, Zhang L, Ma R, et al. GDCRNATools : an R/Bioconductor package for integrative analysis of lncRNA, miRNA and mRNA data in GDC. Bioinformatics. 2018;34:2515–7. 29. Li J-H, Liu S, Zhou H, Qu L-H, Yang J-H. starBase v2.0: decoding miRNA-ceRNA, miRNA-ncRNA and protein–RNA interaction networks from large-scale CLIP-Seq data. Nucleic Acids Res. 2014;42:D92–7. 30. Shannon P, Markiel A, Ozier O, Baliga NS, Wang JT, Ramage D, et al. Cytoscape: a software environment for integrated models of biomolecular interaction networks. Genome Res. 2003;13:2498–504. 31. Terrematte P, Andrade D, Justino J, Stransky B, de Araújo D, Dória Neto A. A Novel Machine Learning 13-Gene Signature: Improving Risk Analysis and Survival Prediction for Clear Cell Renal Cell Carcinoma Patients. Cancers. 2022;14:2111. 32. Stawiski K, Kaszkowiak M, Mikulski D, Hogendorf P, Durczyński A, Strzelczyk J, et al. OmicSelector: automatic feature selection and deep learning modeling for omic experiments. preprint. Bioinformatics; 2022. 33. Lang M, Binder M, Richter J,Schratz P, Pfisterer F, Coors S, et al. mlr3: A modern object-oriented machine learning framework in R. J Open Source Softw. 2019;4:1903. 34. Mayakonda A, Lin D-C, Assenov Y, Plass C, Koeffler HP. Maftools: efficient and comprehensive analysis of somatic variants in cancer. Genome Res. 2018;28:1747–56. 13 .CC-BY-NC-ND 4.0 International licensemade available under a (which was not certified by peer review) is the author/funder, who has granted bioRxiv a license to display the preprint in perpetuity. It is The copyright holder for this preprintthis version posted August 2, 2023. ; https://doi.org/10.1101/2023.07.31.551358doi: bioRxiv preprint https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://doi.org/10.1101/2023.07.31.551358 http://creativecommons.org/licenses/by-nc-nd/4.0/ 35. Mermel CH, Schumacher SE, Hill B, Meyerson ML, Beroukhim R, Getz G. GISTIC2.0 facilitates sensitive and confident localization of the targets of focal somatic copy-number alteration in human cancers. Genome Biol. 2011;12:R41. 36. Therneau TM, Grambsch PM. Modeling survival data: extending the Cox model. 2. print. New York Berlin Heidelberg: Springer; 2001. 37. Harrison E, Drake T, Ots R. finalfit: Quickly Create Elegant Regression Results Tables and Plots when Modelling. R package version 1.0.6. 38. Aalen OO. A linear regression model for the analysis of life times. Stat Med. 1989;8:907–25. 39. Morris JA, Gardner MJ. Statistics in Medicine: Calculating confidence intervals for relative risks (odds ratios) and standardised ratios and rates. BMJ. 1988;296:1313–6. 40. Kanehisa M. Toward understanding the origin and evolution of cellular organisms. Protein Sci. 2019;28:1947–51. 41. The Gene Ontology Consortium, Carbon S, Douglass E, Good BM, Unni DR, Harris NL, et al. The Gene Ontology resource: enriching a GOld mine. Nucleic Acids Res. 2021;49:D325–34. 42. Wu T, Hu E, Xu S, Chen M, Guo P, Dai Z, et al. clusterProfiler 4.0: A universal enrichment tool for interpreting omics data. The Innovation. 2021;2:100141. 43. Vlachos IS, Zagganas K, Paraskevopoulou MD, Georgakilas G, Karagkouni D, Vergoulis T, et al. DIANA-miRPath v3.0: deciphering microRNA function with experimental support. Nucleic Acids Res. 2015;43:W460–6. 44. Landis JR, Koch GG. The measurement of observer agreement for categorical data. Biometrics. 1977;33:159–74. 45. Bendavid A. Comparison of classification accuracy using Cohen’s Weighted Kappa. Expert Syst Appl. 2008;34:825–32. 46. Youden WJ. Index for Rating Diagnostic Tests. 1950;3:32–5. 47. Zhou H. Statistical Inferences for the Youden Index. Atlanta, Geórgia.; 2011. 48. Ho SY, Phua K, Wong L, Bin Goh WW. Extensions of the External Validation for Checking Learned Model Interpretability and Generalizability. Patterns. 2020;1:100129. 49. Hua X, Chen J, Su Y, Liang C. Identification of an immune-related risk signature for predicting prognosis in clear cell renal cell carcinoma. Aging. 2020;12:2302–32. 50. Zhu J, Luo Y, Zhao Y, Kong Y, Zheng H, Li Y, et al. circEHBP1 promotes lymphangiogenesis and lymphatic metastasis of bladder cancer via miR-130a-3p/TGFβR1/VEGF-D signaling. Mol Ther. 2021;29:1838–52. 14 .CC-BY-NC-ND 4.0 International licensemade available under a (which was not certified by peer review) is the author/funder, who has granted bioRxiv a license to display the preprint in perpetuity. It is The copyright holder for this preprintthis version posted August 2, 2023. ; https://doi.org/10.1101/2023.07.31.551358doi: bioRxiv preprint https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://doi.org/10.1101/2023.07.31.551358 http://creativecommons.org/licenses/by-nc-nd/4.0/ 51. Chen J, Yan D, Wu W, Zhu J, Ye W, Shu Q. MicroRNA-130a promotes the metastasis and epithelial-mesenchymal transition of osteosarcoma by targeting PTEN. Oncol Rep. 2016;35:3285–92. 52. Li B, Huang P, Qiu J, Liao Y, Hong J, Yuan Y. MicroRNA-130a is down-regulated in hepatocellular carcinoma and associates with poor prognosis. Med Oncol. 2014;31:230. 53. Stückrath I, Rack B, Janni W, Jäger B, Pantel K, Schwarzenbach H. Aberrant plasma levels of circulating miR-16, miR-107, miR-130a and miR-146a are associated with lymph node metastasis and receptor status of breast cancer patients. Oncotarget. 2015;6:13387–401. 54. Ma F, Xie Y, Lei Y, Kuang Z, Liu X. The microRNA-130a-5p/RUNX2/STK32A network modulates tumor invasive and metastatic potential in non-small cell lung cancer. BMC Cancer. 2020;20:580. 55. Xu C-H, Xiao L-M, Liu Y, Chen L-K, Zheng S-Y, Zeng E-M, et al. The lncRNA HOXA11-AS promotes glioma cell growth and metastasis by targeting miR-130a-5p/HMGB2. Eur Rev Med Pharmacol Sci. 2019;23:241–52. 56. Connell JMC, Davies E. The new biology of aldosterone. J Endocrinol. 2005;186:1–20. 57. Wei W, Lv Y, Gan Z, Zhang Y, Han X, Xu Z. Identification of key genes involved in the metastasis of clear cell renal cell carcinoma. Oncol Lett. 2019. https://doi.org/10.3892/ol.2019.10130. 58. Zhang F, Wu P, Wang Y, Zhang M, Wang X, Wang T, et al. Identification of significant genes with prognostic influence in clear cell renal cell carcinoma via bioinformaticsanalysis. Transl Androl Urol. 2020;9:452–61. 59. Barzilai N, Huffman DM, Muzumdar RH, Bartke A. The Critical Role of Metabolic Pathways in Aging. Diabetes. 2012;61:1315–22. 60. Vara JÁF, Casado E, de Castro J, Cejas P, Belda-Iniesta C, González-Barón M. PI3K/Akt signalling pathway and cancer. Cancer Treat Rev. 2004;30:193–204. 61. Chu W-M. Tumor necrosis factor. Cancer Lett. 2013;328:222–5. 62. Schier AC, Taatjes DJ. Structure and mechanism of the RNA polymerase II transcription machinery. Genes Dev. 2020;34:465–88. 63. Hardwick C, Hoare K, Owens R, Hohn H, Hook M, Moore D, et al. Molecular cloning of a novel hyaluronan receptor that mediates tumor cell motility. J Cell Biol. 1992;117:1343–50. 64. Takahashi M, Inoue T, Huang M, Numakura K, Tsuruta H, Saito M, et al. Inverse relationship between insulin receptor expression and progression in renal cell carcinoma. Oncol Rep. 2017;37:2929–41. 65. Sun Y, Liu W-Z, Liu T, Feng X, Yang N, Zhou H-F. Signaling pathway of MAPK/ERK in cell proliferation, differentiation, migration, senescence and apoptosis. J Recept Signal 15 .CC-BY-NC-ND 4.0 International licensemade available under a (which was not certified by peer review) is the author/funder, who has granted bioRxiv a license to display the preprint in perpetuity. It is The copyright holder for this preprintthis version posted August 2, 2023. ; https://doi.org/10.1101/2023.07.31.551358doi: bioRxiv preprint https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://doi.org/10.1101/2023.07.31.551358 http://creativecommons.org/licenses/by-nc-nd/4.0/ Transduct Res. 2015;35:600–4. 66. Mei L. Multiple types of noncoding RNA are involved in potential modulation of PTTG1’s expression and function in breast cancer. Genomics. 2022;114:110352. 67. Zi Z. Molecular Engineering of the TGF-β Signaling Pathway. J Mol Biol. 2019;431:2644–54. 68. Xia F, Yan Y, Shen C. A Prognostic Pyroptosis-Related lncRNAs Risk Model Correlates With the Immune Microenvironment in Colon Adenocarcinoma. Front Cell Dev Biol. 2021;9:811734. 69. Li Y, Deng L, Pan X, Liu C, Fu R. The Role of lncRNA AF117829.1 in the Immunological Pathogenesis of Severe Aplastic Anaemia. Oxid Med Cell Longev. 2021;2021:1–19. 70. Vaidyanathan G, Cismowski MJ, Wang G, Vincent TS, Brown KD, Lanier SM. The Ras-related protein AGS1/RASD1 suppresses cell growth. Oncogene. 2004;23:5858–63. 71. Goldman MJ, Craft B, Hastie M, Repečka K, McDade F, Kamath A, et al. Visualizing and interpreting cancer genomics data via the Xena platform. Nat Biotechnol. 2020;38:675–8. 16 .CC-BY-NC-ND 4.0 International licensemade available under a (which was not certified by peer review) is the author/funder, who has granted bioRxiv a license to display the preprint in perpetuity. It is The copyright holder for this preprintthis version posted August 2, 2023. ; https://doi.org/10.1101/2023.07.31.551358doi: bioRxiv preprint https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://www.zotero.org/google-docs/?gQfQJd https://doi.org/10.1101/2023.07.31.551358 http://creativecommons.org/licenses/by-nc-nd/4.0/ Figure 1: Flowchart of the current study to obtain a gene signature based on the Recursive Feature Elimination (RFE) approach. The datasets are indicated by the cylindric shape, the white rectangles represent the steps of the study, and the green rectangles represent the resulting figures and tables. TCGA-KIRC and ICGC-RECA are the ccRCC datasets. .CC-BY-NC-ND 4.0 International licensemade available under a (which was not certified by peer review) is the author/funder, who has granted bioRxiv a license to display the preprint in perpetuity. It is The copyright holder for this preprintthis version posted August 2, 2023. ; https://doi.org/10.1101/2023.07.31.551358doi: bioRxiv preprint https://doi.org/10.1101/2023.07.31.551358 http://creativecommons.org/licenses/by-nc-nd/4.0/ Figure 2: The ceRNA network constructed based on the differentially expressed (DE) genes in the ccRCC patients. It's observed a cluster conformation, were exist regions highly connected, and regions slightly connected. The red rectangles represent the messenger RNAs (mRNAs), the orange elipses represents the micro RNAs (miRNAs), and the green losang represents the long non-coding RNAs (lncRNA). The network is composed by 18 lncRNAs, 75 miRNAs, and 128 mRNAs. MAGI2-AS3 hsa-miR-320b hsa-miR-103a-3p CA2 UNC5B EZH2 HECW2 hsa-miR-374b-5p hsa-miR-320d hsa-miR-4295 PRKCA SLC41A2 KIF21B WNK3 hsa-miR-374a-5p hsa-miR-320c hsa-miR-130a-3p SCOC ANLN INTS6L GXYLT2 AC021078.1 hsa-miR-320a hsa-miR-454-3p DNAJC6 PHLDA3 PLXNA3 LPL hsa-miR-153-3p hsa-miR-181b-5p hsa-miR-130b-3p L1CAM CNTNAP1 APBB3 LDLR hsa-miR-186-5p hsa-miR-181a-5p hsa-miR-3666 FGFR2 INSR TRIM52 NID2 EPB41L4A-AS1 hsa-miR-181c-5p hsa-miR-138-5p MYO10 SIPA1L2 DNA2 SCARA3 SNHG20 hsa-miR-181d-5p TNFRSF10B SLC25A5 AATK AMT hsa-miR-495-3p hsa-miR-4262 TET3 WNT5A SPRY4 SLC25A37 AC005154.1 hsa-miR-211-5p CCND2 PCDH7 RFLNB CELSR3 PVT1 hsa-miR-29c-3p hsa-miR-204-5p RNF149 UST SNAP25 RNF165 hsa-miR-93-5p hsa-miR-29b-3p hsa-miR-329-3p MYO9B BTBD11 ARL10 SLC25A27 hsa-miR-106a-5p hsa-miR-29a-3p hsa-miR-377-3p CORO1C FAM111B LY6E MXD3 hsa-miR-17-5p C1RL-AS1 hsa-miR-362-3p ATAD5 PTTG1 IL15 CSNK1E hsa-miR-20a-5p hsa-miR-16-5p MALAT1 VKORC1 GFI1 IRX3 CHFR hsa-miR-519d-3p hsa-miR-424-5p hsa-miR-200b-3p RSRP1 FGFR1OP PLAGL1 CLK1 hsa-miR-106b-5p MIR497HG hsa-miR-429 TNK2 PTHLH TSPYL2 SPARC hsa-miR-20b-5p hsa-miR-128-3p hsa-miR-200c-3p ADGRG2 DGKD IRF4 LOXL2 AC016876.2 AC015813.1 hsa-miR-4429 IL2RB LOX TLL1 CD276 hsa-miR-300 hsa-miR-590-3p hsa-miR-26a-5p NFKBIE ZNF469 KCNN4 MARCH3 hsa-miR-381-3p SNHG5 hsa-miR-1297 CITED4 CREB5 CBFA2T3 P3H1 hsa-miR-133a-3p hsa-miR-421 hsa-miR-26b-5p SLAMF6 CCNL2 WSB1 COL5A2 hsa-miR-133b AF117829.1 hsa-miR-200a-3p RPL28 KMT5C MN1 RASD1 SNHG1 hsa-miR-361-5p hsa-miR-141-3p RCN3 ANKRD13B PROCRCOL1A1 hsa-miR-326 NEAT1 hsa-miR-613 ATP1A1 CLK2 FSTL3 PXDN hsa-miR-330-5p hsa-let-7i-5p hsa-miR-1-3p SGPP1 KIFC2 CXCL2 PMEPA1 hsa-miR-21-5p hsa-let-7e-5p hsa-miR-1271-5p GATA3 SCARB1 FHOD1 CORO2B SNHG15 hsa-miR-124-3p hsa-miR-206 NHSL1 AHNAK2 BRIP1 SH3RF3 hsa-miR-24-3p hsa-let-7g-5p hsa-miR-4465 TBX3 RELT PSTPIP2 SPRY1 GAS5 hsa-let-7f-5p hsa-miR-96-5p JMY PFKFB4 NMB PFKFB3 hsa-miR-485-5p hsa-miR-98-5p H19 HUNK APLN POLE2 TCF4 hsa-miR-137 hsa-miR-506-3p hsa-miR-107 PPM1H SH2D2A HMMR BCL11A .CC-BY-NC-ND 4.0 International licensemade available under a (which was not certified by peer review) is the author/funder, who has granted bioRxiv a license to display the preprint in perpetuity. It is The copyright holder for this preprintthis version posted August 2, 2023. ; https://doi.org/10.1101/2023.07.31.551358doi: bioRxiv preprint https://doi.org/10.1101/2023.07.31.551358 http://creativecommons.org/licenses/by-nc-nd/4.0/ Figure 3: Heatplot with the 29 unique genes reported by the 9 gene signature constructed. In the Y-axis are the methods applied to the signature construction, and in the X-axis are the genes listed. The green square represent the presence of the gene as resulted by the method .CC-BY-NC-ND 4.0 International licensemade available under a (which was not certified by peer review) is the author/funder, who has granted bioRxiv a license to display the preprint in perpetuity. It is The copyright holder for this preprintthis version posted August 2, 2023. ; https://doi.org/10.1101/2023.07.31.551358doi: bioRxiv preprint https://doi.org/10.1101/2023.07.31.551358 http://creativecommons.org/licenses/by-nc-nd/4.0/ Figure 4: Odds ratio of each gene in the signature regarding metastatic development and 95% confidence interval. The miRNA hsa-miR-130a-3p and the lncRNA AF117829.1 were the only ones significantly associated (p-value < 0.05). .CC-BY-NC-ND 4.0 International licensemade available under a (which was not certified by peer review) is the author/funder, who has granted bioRxiv a license to display the preprint in perpetuity. It is The copyright holder for this preprintthis version posted August 2, 2023. ; https://doi.org/10.1101/2023.07.31.551358doi: bioRxiv preprint https://doi.org/10.1101/2023.07.31.551358 http://creativecommons.org/licenses/by-nc-nd/4.0/ Figure 5:Functional annotation from (a) KEGG for the seven encoding genes and from (b) Gene Ontology for the target mRNAs of the two miRNAs involved in the signature. In both cases, the Y-axis represents the annotated pathways for their respective input data, while the X-axis for figure (a) represents the membership relationship between the signature mRNAs and the total genes in the pathway, and for figure (b) it represents the number of genes from signature in the pathway. .CC-BY-NC-ND 4.0 International licensemade available under a (which was not certified by peer review) is the author/funder, who has granted bioRxiv a license to display the preprint in perpetuity. It is The copyright holder for this preprintthis version posted August 2, 2023. ; https://doi.org/10.1101/2023.07.31.551358doi: bioRxiv preprint https://doi.org/10.1101/2023.07.31.551358 http://creativecommons.org/licenses/by-nc-nd/4.0/ Table 1: Metrics evaluated for validation with an external dataset Method Accuracy Balanced Accuracy AUC Brier Score RandomForest 72.2% 72.2% 81.48% 0.1955442 SVM 50% 50% 66.67% 0.2500714 xgBoost 61.1% 61.1% 62.34% 0.2343498 kNN 50% 50% 61.72% 0.4817816 Naive Bayes 50% 50% 54.32% 0.5000000 .CC-BY-NC-ND 4.0 International licensemade available under a (which was not certified by peer review) is the author/funder, who has granted bioRxiv a license to display the preprint in perpetuity. It is The copyright holder for this preprintthis version posted August 2, 2023. ; https://doi.org/10.1101/2023.07.31.551358doi: bioRxiv preprint https://doi.org/10.1101/2023.07.31.551358 http://creativecommons.org/licenses/by-nc-nd/4.0/ Figure S1: Oncoplot with the mutations recorded in the signature coding genes, The bar graph on the right representes the amount of mutated samples and the bar graph above representes the mutations registeres on these samples FIgure S2: Functional annotation made from (a) KEGG and (b) Gene Ontology using the targets of miRNAs participating in the signature. In both, the Y axis represents the annotated pathways in the databases and the X axis represents the number of genes regulated by the miRNAs in the pathway. Table S1: Feature selection techniques and application stage. Method Technique Step Filter Generalized Linear Model Feature Selection and Benchmarking Linear Discriminant Analysis Feature Selection Akaike Information Criterion Feature Selection eXtreme Gradient Boosting Benchmarking and Validation Wrapper Boruta Feature Selection Recursive Feature Elimination Feature Selection Lasso Feature Selection ElasticNet Feature Selection Support Vector Machine Benchmarking and Validation Naive Bayes Validation k-Nearest Neighbors Validation Random Forest Benchmarking and Validation 4cfbb99730b42c556822fdfe642da172b276e81ea3263c90f93adfa6de5a761b.pdf b38fbfe7e2295cd3d8a8000d9d2abba993fae72d4acd18ce17b12478e022ff7e.pdf 4cfbb99730b42c556822fdfe642da172b276e81ea3263c90f93adfa6de5a761b.pdf