Logo Passei Direto
Buscar

Assinaturatranscricionalcarcinoma_FariasFilho_2023

Ferramentas de estudo

Material
páginas com resultados encontrados.
páginas com resultados encontrados.

Prévia do material em texto

UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE - UFRN 
PROGRAMA DE PÓS-GRADUAÇÃO EM BIOINFORMÁTICA - PPgBioINFO 
 
 
 
 
EPITÁCIO DANTAS FARIAS FILHO 
 
 
 
 
ASSINATURA TRANSCRICIONAL DE CARCINOMA RENAL DE 
CÉLULAS CLARAS BASEADA NO RNA ENDÓGENO COMPETIDOR 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
NATAL/RN 
AGOSTO/2023 
2 
 
EPITÁCIO DANTAS FARIAS FILHO 
 
 
 
 
 
 
 
ASSINATURA TRANSCRICIONAL DE CARCINOMA RENAL DE 
CÉLULAS CLARAS BASEADA NO RNA ENDÓGENO COMPETIDOR 
 
Dissertação de Mestrado apresentada ao Programa de 
Pós-Graduação em Bioinformática da Universidade 
Federal do Rio Grande do Norte como requisito para 
a obtenção do grau de Mestre em Bioinformática. 
 
Linha de pesquisa: 
Desenvolvimento de Produtos e Processos 
 
 
Orientadora: 
Profª.: Drª Beatriz Stransky Ferreira 
 
Co-orientador: 
Prof.: Dr. Patrick Cesar Alves Terrematte 
 
 
 
NATAL/RN 
AGOSTO/2023 
Farias Filho, Epitácio Dantas de.
 Assinatura transcricional do carcinoma renal de células
claras baseada no RNA endógeno competidor / Epitácio Dantas de
Farias Filho. - 2023.
 122 f.: il.
 Universidade Federal do Rio Grande do Norte, Instituto
Metrópole Digital, Programa de Pós-Graduação em Bioinformática.
Natal, RN, 2023.
 Orientadora: Profa. Dra. Beatriz Stransky Ferreira.
 Coorientador: Prof. Dr. Patrick Cesar Alves Terrematte.
 1. Carcinoma renal de células claras - Dissertação. 2.
Assinatura transcricional - Dissertação. 3. Rede ceRNA -
Dissertação. 4. Aprendizado de máquina - Dissertação. 5.
Metástase - Dissertação. I. Ferreira, Beatriz Stransky. II.
Terrematte, Patrick Cesar Alves. III. Título.
RN/UF/BSCB CDU 616.006.6
Universidade Federal do Rio Grande do Norte - UFRN
Sistema de Bibliotecas - SISBI
Catalogação de Publicação na Fonte. UFRN - Biblioteca Setorial Prof. Leopoldo Nelson - ­Centro de Biociências - CB
Elaborado por KATIA REJANE DA SILVA - CRB-15/351
3 
 
EPITÁCIO DANTAS FARIAS FILHO 
 
 
 
ASSINATURA TRANSCRICIONAL DE CARCINOMA RENAL DE CÉLULAS 
CLARAS BASEADA NO RNA ENDÓGENO COMPETIDOR 
 
Dissertação de Mestrado apresentada ao Programa de 
Pós-Graduação em Bioinformática da Universidade 
Federal do Rio Grande do Norte. 
Área de Concentração: Bioinformática 
 
 
BANCA EXAMINADORA 
 
 
Profª.: Drª Beatriz Stransky Ferreira (Orientadora) ………….…………... Avaliadora Interna 
Departamento de Engenharia Biomédica - DEB, UFRN 
PPgBioINFO, IMD, UFRN 
 
 
Prof.: Dr. Patrick Cesar Alves Terrematte (Co-orientador) ……………....... Avaliador Externo 
Instituto Metrópole Digital - IMD, UFRN 
 
 
Prof.: Dr. Rodrigo Juliani Siqueira Dalmolin ……………………………… Avaliador Interno 
Instituto Metrópole Digital - IMD, UFRN 
PPgBioINFO, IMD, UFRN 
 
 
Prof.: Dr. Alexandre Rossi Paschoal ………………………………….…… Avaliador Externo 
Universidade Tecnológica Federal do Paraná - UTFPR 
PPgBioINFO, UTFPR. 
 
 
NATAL/RN 
AGOSTO/2023 
4 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Allen meinen Familienmitgliedern, insbesondere 
meinem Onkel Amilcar Fernandes (1976-2013), 
dafür, dass er ein Vorbild in meinem Leben ist. 
5 
 
AGRADECIMENTOS 
 
À Universidade Federal do Rio Grande do Norte (UFRN) por ter sido essa mãe, 
ajudando de todas as formas possíveis durante todos esses anos, à Coordenação de 
Aperfeiçoamento de Pessoal do Ensino Superior (CAPES) pelo fomento à pesquisa realizada 
junto no PPg-Bioinfo/UFRN. 
Ao Instituto Metrópole Digital (IMD), em especial ao Bioinformatics 
Multidisciplinary Environment (BioME) pelas oportunidades que me foram proporcionadas 
e pelos profissionais que pude encontrar em minha jornada. À minha orientadora Beatriz 
Stransky pelas conversas, discussões, conselhos, incentivos acadêmicos, e pessoais, e 
principalmente pela paciência, ao meu co-orientador Patrick Terrematte pelas discussões, 
incentivos acadêmicos e pela paciência. Aos servidores Jéssica Petrovich, Josi, Zuleide e 
Santana, por toda a assistência, gentileza e conversas durante as pausas para os cafezinhos. 
Aos amigos e colegas da pós-graduação, em especial a: Bianca Santiago, pelas dicas e 
risadas, Rafaella Ferraz e Maria Clara Barros, pelas recomendações e discussões instigantes 
sobre o meu trabalho, pelas palhaçadas durante o dia para tirar o tédio, as melhores paraenses 
que já conheci, a Renata Cavalcante, Tayná Fiúza e Iara Dantas, pelos conselhos, conversas, 
recomendações, ensinamentos e por serem minhas inspirações, a Ruth Setúbal e Camila 
Barbosa, por tornarem as disciplinas do início do mestrado mais produtivas e fáceis de levar 
no meio de uma pandemia. 
Aos amigos que a vida e o destino me apresentaram, Ian Rassari, Anna Cunegundes 
e Viviane França, por possibilitarem as melhores conversas, rolês e conselhos daquele jeitinho 
que só a gente sabe, Janvita e Dandara, por serem umas queridas na minha vida e que são os 
meus maiores exemplos de clubbers acadêmicas. À Eulália, que esteve comigo nos meus 
melhores e piores momentos, ao qual confidenciei tudo, muito obrigado por ter sido presente 
em todos os momentos de surtos. 
À minha querida família, que está sempre presente e sendo os maiores apoiadores das 
minhas escolhas: minha mãe, Aida Fernandes, minha irmã Bárbara Fernandes e meu 
cunhado Paulo Ricardo, por se dedicarem e me ajudarem em todos os momentos, minha avó 
Maria da Luz e minha tia Adriana Fernandes, por serem grandes exemplos de mulheres 
batalhadoras. 
Aos amores que transpassaram minha vida e que foram vividos, ou não, antes e durante 
todo esse processo. 
6 
 
EPÍGRAFE 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Só poder e glória 
(Linna Pereira) 
 
7 
 
SUMÁRIO 
LISTA DE FIGURAS ................................................................................................................ 9 
LISTA DE TABELAS ............................................................................................................. 12 
LISTA DE EQUAÇÕES .......................................................................................................... 13 
LISTA DE ABREVIATURAS E SIGLAS .............................................................................. 14 
RESUMO ................................................................................................................................. 16 
ABSTRACT ............................................................................................................................. 17 
1. INTRODUÇÃO ................................................................................................................ 18 
1.1. CÂNCER RENAL ..................................................................................................... 18 
1.2. RNAs NÃO CODIFICANTES .................................................................................. 20 
1.3. RNA ENDÓGENO COMPETIDOR - ceRNA ......................................................... 22 
1.4. DADOS ÔMICOS E APRENDIZAGEM DE MÁQUINA ...................................... 24 
1.4.1. SELEÇÕES DE CARACTERÍSTICAS ............................................................. 25 
1.4.2. MÉTRICAS DE AVALIAÇÃO ......................................................................... 30 
1.5. JUSTIFICATIVA E RELEVÂNCIA DO TRABALHO ........................................... 32 
2. OBJETIVOS ......................................................................................................................... 34 
2.1. OBJETIVO GERAL ...................................................................................................... 34 
2.2. OBJETIVOS ESPECÍFICOS ........................................................................................ 34 
3. METODOLOGIA ................................................................................................................. 35 
3.1. FLUXOGRAMA ...........................................................................................................36 
3.2. DESCRIÇÃO DA COORTE ......................................................................................... 37 
3.2.1. DADOS DOS PACIENTES ................................................................................... 37 
3.2.2. AQUISIÇÃO E DESCRIÇÃO DOS DADOS ....................................................... 37 
3.3. ASSINATURA TRANSCRICIONAL - ceRNA ........................................................... 38 
3.3.1. CONSTRUÇÃO DOS DATASETS ....................................................................... 38 
3.3.2. SELEÇÃO DE CARACTERÍSTICAS ................................................................... 39 
3.3.3. BENCHMARKING E ASSINATURA OBTIDA .................................................. 39 
3.3.4. VALIDAÇÃO COM CONJUNTO DE DADOS EXTERNO ................................ 40 
3.4. ANÁLISE INTEGRATIVA DOS COMPONENTES DA ASSINATURA 
TRANSCRICIONAL ............................................................................................................ 40 
3.4.1. ANÁLISE DE ALTERAÇÕES GENÔMICAS ...................................................... 40 
3.4.2. ANÁLISE DE RISCO ............................................................................................. 41 
3.4.3. ANÁLISE COM LNCSEA ..................................................................................... 42 
8 
 
3.4.4. ANÁLISE DE ANOTAÇÃO FUNCIONAL .......................................................... 42 
3.5. DESENVOLVIMENTO ................................................................................................ 43 
4. RESULTADOS .................................................................................................................... 44 
4.1. DESCRIÇÃO DA COORTE ......................................................................................... 44 
4.2. ASSINATURA TRANSCRICIONAL – ceRNA .......................................................... 45 
4.3. ANÁLISE INTEGRATIVA DOS COMPONENTES DA ASSINATURA 
TRANSCRICIONAL ............................................................................................................ 51 
4.3.1. ANÁLISE DAS ALTERAÇÕES GENÔMICAS ................................................... 52 
4.3.2. ANÁLISE RISCO ................................................................................................... 54 
4.3.3. ANOTAÇÃO FUNCIONAL .................................................................................. 56 
4.3.4. LNCSEA ANALYSIS ............................................................................................ 59 
4.4. ASSINATURA TRANSCRICIONAL E A ceRNA ...................................................... 60 
4.5. MANUSCRITO PUBLICADO ..................................................................................... 64 
5. DISCUSSÃO ........................................................................................................................ 65 
5.1. ASSINATURA TRANSCRICIONAL .......................................................................... 65 
5.2. VALIDAÇÃO E INTERPRETAÇÃO BIOLÓGICA ................................................... 66 
5.2.1. ALTERAÇÕES GENÔMICAS E FUNCIONAIS ................................................. 66 
5.2.2. ANÁLISE DOS GENES DA ASSINATURA NA REDE CERNA ....................... 69 
6. CONCLUSÃO ...................................................................................................................... 75 
REFERÊNCIAS BIBLIOGRÁFICAS ..................................................................................... 76 
APÊNDICES ............................................................................................................................ 91 
APÊNDICE A ....................................................................................................................... 92 
APÊNDICE B ....................................................................................................................... 93 
APÊNDICE C ....................................................................................................................... 95 
APÊNDICE D ....................................................................................................................... 96 
 
 
 
 
 
 
9 
 
LISTA DE FIGURAS 
Figura 1: Estágios de desenvolvimento tumoral em rim, segundo a classificação TNM do 
tumor primário (T). ............................................................................................................................... 19 
Figura 2: Divisão entre RNAs codificantes e não codificantes (ncRNAs) do genoma humano, 
suas respectivas percentagens no genoma e classificação dos ncRNAs. .............................. 21 
Figura 3:Regulação efetuada pela interação lncRNA-miRNA-mRNA. (A) miRNA bloqueia a 
tradução se ligando ao mRNA (B) lncRNA age como uma isca/esponja capturando o 
miRNA e permitindo a tradução do mRNA. ................................................................................ 23 
Figura 4: Representação conceitual de uma análise realizada por um algoritmo de 
classificação sobre diferentes tipos de dados ômicos e os possíveis resultados. ................ 25 
Figura 5:Métodos de seleção de características e processos subjacentes (laranja = métodos de 
filtragem, verde = métodos wrapper e azul = métodos embutidos). ...................................... 26 
Figura 6: Representação da curva ROC e AUC, a partir da relação entre a sensibilidade, 
também conhecida como taxa de verdadeiros positivos (TPR), e a taxa de falsos 
positivos (FPR). ..................................................................................................................................... 31 
Figura 7: Rede de ceRNAs da coorte KIRC-TCGA, (a) região clusterizada mais densa, com 
maior quantidade de conexões entre os nós e (b) região caracterizada pela presença de 
clusters distintos com poucos nós. Em laranja os miRNAs, em verde os lncRNAs e em 
vermelho os mRNAs ............................................................................................................................ 35 
Figura 8: (a) Fluxograma do trabalho de Farias Filho (2022) para a construção da rede 
ceRNA. (b) Fluxograma da construção/validação da assinatura e análises a partir da rede 
ceRNA (FARIAS FILHO,2022). ...................................................................................................... 36 
Figura 9: (a) Curva de acurácia da assinatura transcricional construída a partir da RFE, com 
valor acima de 70%. (b) Curva do coeficiente kappa, com valor acima de 0,5, 
representando uma assinatura de concordância moderada. ....................................................... 46 
Figura 10: Acurácia dos métodos de benchmarking ao analisar as 9 assinaturas construídas 
junto aos dados de treino, teste e validação. .................................................................................. 47 
Figura 11: Média dos valores de acurácia, especificidade e sensibilidade obtidas com a técnica 
xgbTree, com 10 repetições. Em vermelho a iteratedRFECV, em verde a 
iteratedRFETest, em azul a RandomForestRFE e em roxo a RandomForestRFE_KAPPA 
Novamente, observado um observado um sobreajuste dos dados, onde o treinamento é 
perfeito e o teste/validação não são. ................................................................................................ 48 
Figura 12: Genes presentes cada uma das 9 assinaturas e interseção entre elas. ......................... 50 
Figura 13: Sumário das alterações somáticas para o TCGA-KIRC. Primeira linha (esquerda 
para a direita): Classificação e número de mutações somáticas, os tipos de variações e 
suas contagens, quantitativo de transições e transversões das SNVs. Segunda linha 
(esquerda para a direita) quantidade de mutações por amostra, distribuição das mutações 
e 10 genes mais alterados na coorte. ................................................................................................52 
Figura 14: ChromPlot apresentando as regiões mais amplificadas, em vermelho, e as regiões 
com mais deleções, em azul. O eixo Y representa a magnitude e frequência (G-Score) 
das mutações ao longo dos cromossomos no eixo X. ................................................................. 53 
10 
 
Figura 15: Oncoplot do GISTIC com as 10 regiões comumente mais alteradas por deleção, em 
verde, ou por amplificação, em vermelho, nos pacientes do TCGA-KIRC. A direita do 
gráfico está a percentagem de pacientes que apresentaram a alteração. ............................... 53 
Figura 16: (a) Forest plot para a associação dos genes da assinatura com a sobrevida dos 
pacientes (p-valor < 0,05), (b) Curvas da relação de expressão das covariáveis com o 
status vital dos pacientes, o eixo X representa o tempo de sobrevida (em dias) e o eixo Y 
representa a função cumulativa da regressão para a variável resposta. ................................. 55 
Figura 17: Razão de Risco de cada gene da assinatura relativo ao desenvolvimento 
metastático e intervalo de confiança de 95%. O miRNA hsa-miR-130a-3p e o lncRNA 
AF117829.1 foram os únicos significativamente associados (p-valor < 0.05). .................. 55 
Figura 18: Anotação funcional feita a partir do KEGG, para (a) os sete genes codificantes e 
(b) os mRNAS alvos dos dois miRNAs participantes da assinatura. Cada ponto 
representa as vias biológicas anotadas (p-valor ajustado <0.05). Em ambas o eixo Y 
representa as vias anotadas para seus respectivos dados de entrada, já o eixo X para a 
figura (a) representa relação de pertencimento entre os mRNAs da assinatura e o total de 
genes da via, já na figura (b) representa a quantidade de genes que são regulados pelos 
miRNAs e fazem parte da mesma via. ............................................................................................ 57 
Figura 19: Anotação funcional feita a partir do Gene Ontology, para (a) os sete genes 
codificantes e (b) os mRNAS alvos dos dois miRNAs participantes da assinatura. Em 
ambas o eixo Y representa as vias anotadas para seus respectivos dados de entrada, já o 
eixo X para a figura (a) a quantidade mRNAs da assinatura nessa via e na figura (b) 
representa a quantidade de genes que são regulados pelos miRNAs e fazem parte da 
mesma via. ............................................................................................................................................... 58 
Figura 20: Anotação funcional feita a partir do Gene Ontology, para (a) os sete genes 
codificantes e (b) os mRNAS alvos dos dois miRNAs participantes da assinatura. Em 
ambas o eixo Y representa as vias anotadas para seus respectivos dados de entrada, já o 
eixo X para a figura (a) a quantidade mRNAs da assinatura nessa via e na figura (b) 
representa a quantidade de genes que são regulados pelos miRNAs e fazem parte da 
mesma via. ............................................................................................................................................... 59 
Figura 21: Posicionamento dos genes da assinatura transcricional dentro da rede ceRNA, (a) 
Região menos densa, com poucas conexões, (b) Região mais densa, com alta quantidade 
de conexões entre os clusters. ............................................................................................................ 61 
Figura 22: Clusters compostos (a) por um lncRNA e mRNA participante da ceRNA e (b) por 
vários genes participantes da ceRNA, que compartilham o mesmo miRNA. ..................... 62 
Figura 23: (a),(b),(c) e (d) clusters compostos somente com um gene da assinatura 
transcricional. ......................................................................................................................................... 63 
Figura 24: Desempenho do glm como benchmarking, avaliando a acurácia, sensibilidade e 
especificidade. ........................................................................................................................................ 93 
Figura 25: Desempenho do rf como benchmarking, avaliando a acurácia, sensibilidade e 
especificidade ......................................................................................................................................... 93 
Figura 26: Desempenho do svmRadial como benchmarking, avaliando a acurácia, 
sensibilidade e especificidade. .......................................................................................................... 94 
11 
 
Figura 27: Oncoplot com as mutações registradas nos genes codificantes da assinatura. O 
gráfico de barra à direita representa a quantidade de amostras mutadas e o gráfico de 
barras acima representa as mutações registradas sobre essas amostras. ............................... 95 
 
 
12 
 
LISTA DE TABELAS 
Tabela 1: Matriz de Confusão. .................................................................................................................... 30 
Tabela 2: Técnicas de seleção de características e etapa de aplicação............................................ 38 
Tabela 3: Categorias do lncSEA ................................................................................................................ 42 
Tabela 4: Características clínicas da coorte TCGA-KIRC. ................................................................ 44 
Tabela 5: Métodos de seleção de características e respectivas assinaturas. .................................. 45 
Tabela 6: Valores de sensitividade e especificidade na validação. .................................................. 48 
Tabela 7: 4 Melhores assinaturas obtidas a partir do segundo benchmarking. ............................. 49 
Tabela 8: Métricas avaliadas para a validação com conjunto de dados externo. ......................... 51 
Tabela 9: Genes participantes da assinatura resultante (Equação 14) e suas funções ................ 51 
Tabela 10: Localização dos genes da assinatura transcricional......................................................... 54 
Tabela 11: lncRNAs participantes da rede ceRNA ............................................................................... 59 
Tabela 12: Genes da assinatura e seus respectivos ligantes na rede ceRNA. ................................ 64 
Tabela 13: Variáveis do Estudo .................................................................................................................. 92 
 
 
 
13 
 
LISTA DE EQUAÇÕES 
Equação 1: Método Lasso ............................................................................................................................ 28 
Equação 2: Método ElasticNet ................................................................................................................... 28 
Equação 3: Kernel Radial ............................................................................................................................. 28 
Equação 4: Classificador Vetor de Suporte ............................................................................................ 29 
Equação 5: Independência das variáveis relacionadas à variável classificada. ............................ 29 
Equação 6: Classificador Bayesiano. ........................................................................................................ 29 
Equação 7: Classificador Naive Bayes. .................................................................................................... 29 
Equação 8: Sensibilidade .............................................................................................................................. 31 
Equação 9: Especificidade ........................................................................................................................... 31 
Equação 10: Acurácia .................................................................................................................................... 31 
Equação 11: Estatística J de Youden........................................................................................................ 32 
Equação 12: Pontuação de Brier ................................................................................................................ 32 
Equação 13: Acurácia Balanceada. ........................................................................................................... 32 
Equação 14: Assinatura Transcricional. ................................................................................................... 49 
 
14 
 
LISTA DE ABREVIATURAS E SIGLAS 
 
AUC – Área Abaixo da Curva ROC 
ccRCC – Carcinoma Renal de Células Claras. 
ceRNAs – RNAs endógenos concorrentes. 
CNV – Alterações em Número de Cópias 
DATASUS - Departamento de Informática do Sistema Único de Saúde. 
FDR – False Rate Discovery. 
GCO – Global Cancer Observatory. 
GDC – Genomic Data Commons. 
GLM – Modelo Linear Generalizado 
INCA – Instituto Nacional do Câncer. 
KEGG – Enciclopédia de Genes e Genomas de Kyoto. 
lncRNAs – RNAs longos não codificantes. 
MAF – Formato de Anotação de Mutações 
miRNAs – microRNAs. 
ML – Aprendizado de Máquina 
MRE – Elementos de Respostas ao miRNA 
NCI – Instituto Nacional do Câncer. 
ncRNAs – RNAs não codificantes. 
RBP – RNA ligante de Proteína 
RF – Random Forest 
RFE – Recursive Feature Elimination 
ROC – Característica de Operação do Receptor 
SNP – Polimorfismo de nucleotídeo único. 
15 
 
SVM – Máquina Vetor de Suporte 
TCGA – The Cancer Genome Atlas. 
XGB – eXtreme Gradient Boosting 
WXS - Sequenciamento completo do exoma. 
16 
 
RESUMO 
 
O carcinoma renal, por ser uma patologia de desenvolvimento silencioso e multifatorial, é 
caracterizada por apresentar uma alta taxa de pacientes com metástases. Após diversos estudos 
elucidarem a atividade dos genes codificantes no desenvolvimento metastático do carcinoma 
renal, novos estudos buscam avaliar a associação de genes não codificantes, como RNA 
endógeno competidor (ceRNA), ao processo metastático. Desta forma, o objetivo deste estudo 
é construir uma assinatura transcricional para o carcinoma renal de células claras (ccRCC), 
associada ao desenvolvimento metastático a partir de uma rede de ceRNA e analisar as 
prováveis funções biológicas desempenhada pelos participantes da assinatura. Utilizando os 
dados de ccRCC do The Cancer Genome Atlas (TCGA), construímos nove assinaturas 
transcricionais a partir de oito técnicas de seleção de características e analisamos a sensibilidade 
e especificidade da classificação dos modelos de regressão no processo de benchmarking. 
Consequentemente, foram obtidos os genes da assinatura e foram realizadas análises de 
alterações somáticas e de número de cópias, análise de risco para sobrevida e progressão 
metastática, e análises de anotação funcional. Neste estudo apresentamos uma assinatura 
transcricional de 11 genes, composta por 2 RNAs longos não codificantes, SNHG15 e 
AF117829.1, 2 miRNAs, hsa-miR-130a-3p e hsa-mir-381-3p, e 7 mRNAs, BTBD11, INSR, 
HECW2, RFLNB, PTTG1, HMMR, RASD1. A validação utilizando o conjunto de dados 
externos do International Cancer Genome Consortium (ICGC) possibilitou avaliar a 
generalização da assinatura, que apresentou uma acurácia de 72% e área abaixo da curva de 
81.5%. As análises genômicas identificaram que os participantes da assinatura se localizam em 
cromossomos com regiões altamente mutadas (G-index > 2). Os genes hsa-miR-130a-3p, 
AF117829.1 e HECW2 tiveram uma relação significativa entre a expressão e a sobrevida dos 
pacientes, e os dois últimos possuem relação significativa com o desenvolvimento metastático. 
Além disso, foi analisada a anotação funcional em vias importantes para o desenvolvimento 
tumoral, como: PI3K/AKT, TNF, FoxO, regulação da transcrição da RNA polimerase 2, 
controle celular e entre outras. Por fim, ao analisar as conexões dos genes da assinatura dentro 
da rede ceRNA em conjunto com estudos da literatura, foi possível obter um panorama das 
atividades desempenhadas por eles dentro do ccRCC. Sendo assim, esta assinatura 
transcricional pode identificar genes não codificantes como potenciais biomarcadores a serem 
utilizados para uma melhor compreensão do carcinoma renal, bem como no desenvolvimento 
de futuros tratamentos na área clínica. 
 
Palavras-chave: Carcinoma renal de células claras; assinatura transcricional; rede ceRNA; 
aprendizado de máquina; metástase. 
17 
 
ABSTRACT 
 
Renal carcinoma, as it is a pathology of silent and multifactorial development, is characterized 
by a high rate of patients with metastases. After several studies have elucidated the activity of 
coding genes in the metastatic development of renal carcinoma, new studies seek to evaluate 
the association of non-coding genes, such as competitive endogenous RNA (ceRNA), with the 
metastatic process. Thus, the aim of this study is to build a transcriptional signature for clear 
cell renal cell carcinoma (ccRCC) associated with metastatic development from a ceRNA 
network and to analyze the probable biological functions performed by the participants of the 
signature. Using ccRCC data from The Cancer Genome Atlas (TCGA), we constructed nine 
transcriptional signatures from eight feature selection techniques and analyzed the sensitivity 
and specificity of prediction of regression models in the benchmarking process. Consequently, 
signature genes were obtained and analyzes of somatic and copy number changes, risk analysis 
for survival and metastatic progression, and functional enrichment analyzes were performed. In 
this study we present a transcriptional signature of 11 genes, composed of 2 long non-coding 
RNAs, SNHG15 and AF117829.1, 2 miRNAs, hsa-miR-130a-3p and hsa-mir-381-3p, and 7 
mRNAs, BTBD11, INSR, HECW2, RFLNB, PTTG1, HMMR, and RASD1. Validation using the 
external dataset of the International Cancer Genome Consortium (ICGC) made it possible to 
assess the generalization of the signature, which showed an accuracy of 72% and an area under 
the curve of 81.5%. Genomic analyzes identified that the signature participants are located on 
chromosomes with highly mutated regions (G-index > 2). The hsa-miR-130a-3p genes, 
AF117829.1 and HECW2, had a significant relationship between expression and patient 
survival, and the last two have a significant relationship with metastatic development. In 
addition, functional enrichment was seen in important pathways for tumor development, such 
as: PI3K/AKT, TNF, FoxO, RNA polymerase 2 transcription regulation, cell control, and 
others. Finally, by analyzing the connections of the signature genes within the ceRNA network 
in conjunction with studies in the literature, it was possible to obtain an overview of the 
activities performed by them within the ccRCC. Therefore, this transcriptional signature can 
identify non-coding genes as potential biomarkers to be used for a better understanding of renal 
carcinoma, as well as in the development of future treatments in the clinical area. 
 
Keywords: Transcriptional signature; ceRNA network; feature selection; metastasis; renal 
carcinoma. 
18 
 
1. INTRODUÇÃO 
 
 Câncer é o nome dado a um conjunto de doenças malignas que têm como característica 
a proliferação descontrolada e desordenada de células neoplásicas. Estas células tendem a se 
organizar em conglomerados, mas podem invadir os tecidos adjacentes ou atingir órgãos 
distantes durante a fase metastática da doença (INCA, 2022). Por ser uma patologia complexa, 
o seu desenvolvimento a caracteriza como uma doença multifatorial, com uma forte base 
genética devido à mutações em vários genes codificantes de proteína (KUMAR et al., 2008), e 
comportamentos típicos que ficaram conhecidos como os “hallmarks of cancer” (HANAHAN; 
WEINBERG, 2011). 
 Atrelado ao avanço dos estudos relacionados ao papel oncogênico dos genes 
codificantes, os estudosde genes não codificantes, como os RNAs longos não codificantes 
(lncRNAs) e os microRNAs (miRNAs), tomaram força, tendo em vista que eles que 
representam aproximadamente mais de 80% da totalidade do transcriptoma humano (GOMES 
et al., 2019). Em estudo apresentado em 2018, Chiu e colaboradores sugerem que os lncRNAs 
agem na desregulação de genes oncológicos e das vias de sinalização por meio da alteração da 
atividade dos fatores de transcrição, dos RNAs ligantes de proteína (RBP) e dos miRNAs. O 
envolvimento, a comunicação, entre essas estruturas moleculares influenciam na regulação 
homeostática e a desregulação desta rede pode favorecer o desenvolvimento cancerígeno 
(CHAN; TAY, 2018). 
1.1. CÂNCER RENAL 
O termo “câncer renal” faz referência ao conjunto de neoplasias que se desenvolvem 
nos tecidos renais e, a partir do tipo celular e características histológicas, é classificado em: 
Carcinoma Renal de Células Claras (ccRCC), Carcinoma Renal Papilar (pRCC) e Carcinoma 
Renal Cromófobo (ChRCC) (DALL’OGLIO et al.,2006; KUMAR et al., 2008; MUGLIA; 
PRANDO, 2015). 
Apesar de não ser um dos cânceres mais incidentes, em 2020 foram registradas 179.368 
mortes de pacientes diagnosticados com câncer renal, e foram notificados 431.288 novos casos, 
a partir de dados disponibilizados pela Organização Mundial da Saúde (OMS) (IARC, 2020). 
No Brasil, durante o ano de 2021, segundo o Departamento de Informática do Sistema Único 
de Saúde (DATASUS), foram registrados 1.941 novos casos de câncer renal, exceto pelve renal, 
e em 2020 foram registradas 3.630 mortes por câncer renal (INCA,2020). 
19 
 
O desenvolvimento e progressão da doença está atrelado a diversos fatores, como o 
ambiente e o estilo de vida do paciente, ou a presença de doenças pré-existentes relacionadas 
ao funcionamento renal ou outras neoplasias (NABI et al., 2018; PADALA et al., 2020). 
Estudos realizados por Cui e colaboradores (2020), e por Wang e colaboradores (2019), 
mostraram que aproximadamente 30% dos pacientes diagnosticados com ccRCC apresentam 
metástases. Essa taxa de pacientes em estado metastático está relacionada com a característica 
silenciosa da doença, onde o diagnóstico acontece inesperadamente em exames de rotina, ou 
quando o paciente apresenta quadros casos de hematúria, dores e presença de massas palpáveis 
na lombar, em estágios de metástase (NFK, 2017). 
O nível de progressão da doença, que caracteriza o estadiamento da patologia, é definido 
pelo Comitê Conjunto Americano de Estadiamento de Câncer (AJCC) a partir da classificação 
TNM, baseada na extensão do tumor primário (T), na presença ou ausência de células tumorais 
nos linfonodos regionais (N) e na presença ou ausência de metástase (M) (AMIN; AMERICAN 
JOINT COMMITTEE ON CANCER; AMERICAN CANCER SOCIETY, 2017) Figura 1. 
 
 
Figura 1: Estágios de desenvolvimento tumoral em rim, segundo a classificação TNM do tumor primário (T). 
Fonte: Adaptado de Renal Cancer Staging, de BioRender.com (2023). Recuperado de 
https://app.biorender.com/biorender-templates (Acessado dia 31/12/2022). 
 
Como apresentado por Terrematte e colaboradores (2022), o estudo do estadiamento 
tumoral possibilita o estabelecimento do prognóstico e a análise de avanço tumoral. Associando 
20 
 
a realização de análises genômicas, transcriptômicas e proteômicas, com as informações de 
estadiamento patológico, possibilitam o reconhecimento de padrões mutacionais e a detecção 
de genes que podem agir como biomarcadores da progressão ou remissão tumoral 
(GUIMARÃES, 2020). 
A ligação entre as alterações moleculares e o desenvolvimento do câncer foi 
extensivamente estudada pelo consórcio The Cancer Genome Atlas (TCGA). Em 2013, o 
projeto TCGA-KIRC utilizou uma coorte de 537 pacientes diagnosticados com Carcinoma 
Renal de Células Claras e avaliou as características clínicas, as alterações genômicas (de 
nucleotídeo único e em número de cópias), os perfis de metilação, a expressão dos RNAs, as 
assinaturas proteicas e anotação funcional de vias e processos biológicos, a fim de entender 
melhor os mecanismos moleculares desta patologia. 
Esta análise resultou no conhecimento de diversas alterações existentes no genoma dos 
pacientes com KIRC, como a perda do braço cromossômico 3p, onde os 4 (VHL, PBRM1, 
BAP1, SETD2) dos 19 genes mais mutados estão localizados. Ao realizar uma análise dos dados 
de sequenciamento dos mRNAs e dos miRNAs, foi observado a formação de clusters distintos, 
indicando que a interação/comunicação entre esses tipos de RNAs apresentam-se como um 
importante componente da regulação do ccRCC (TCGA,2013). 
Partindo do perfil de atividade gênica, diversos estudos na literatura construíram 
assinaturas gênicas que correlacionam a expressão significativa de genes codantes de proteínas 
com as características clínicas que o paciente apresenta, como presença de metástases, 
influência em sobrevida e tipo de intervenção terapêutica a ser utilizada (BIAN; FAN; XIE, 
2022; CHEN et al., 2022; ZHANG et al., 2019, 2022; ZHONG et al., 2021). 
 
1.2. RNAs NÃO CODIFICANTES 
Os RNAs não codificantes (ncRNAs) são o conjunto de RNAs que não apresentam 
atividade relacionada à síntese de proteínas e compreendem a grande maioria (> 80%) dos 
transcritos presentes em uma célula. Em contrapartida, os genes codantes são responsáveis pela 
produção de todo o repertório de proteínas funcionais e compreendem apenas aproximadamente 
3% da totalidade de transcritos (Figura 2) (GOMES et al.,2019). 
 
21 
 
 
Figura 2: Divisão entre RNAs codificantes e não codificantes (ncRNAs) do genoma humano, suas respectivas 
percentagens no genoma e classificação dos ncRNAs. 
Fonte: Adaptado de Gomes et al. (2019). 
 
Tomando como base o tamanho, os ncRNAs podem ser classificados em: (i) pequenos 
RNAs não codificantes (sncRNAs), caso possuam menos de 200 nucleotídeos, ou (ii) longos 
RNAs não codificantes, caso possuam mais de 200 nucleotídeos(lncRNAs) (KLINGE,2018; 
BORKIEWICZ et al., 2021). Já as funções desempenhadas pelos ncRNAs dependem de onde 
se localizam e das interações que realizam com DNA, proteínas ou outros RNAs, evidenciando 
a relação de suas atividades com os processos de regulação do ciclo celular, diferenciação, 
desenvolvimento e processos de regulação epigenética, revisto em Morris e Mattick (2014). 
Ao estudar as funções celulares, Chiu et al. (2018) e Wang et al. (2021) observaram que 
os lncRNAs atuam durante todo o processo transcricional, como também em atividades pré e 
pós transcricionais, modificando a atividades dos fatores de transcrição (TF), das proteínas 
ligantes de RNA (RBP), dos efetores de miRNAs ou reguladores canônicos. Nestes processos, 
os lncRNAs podem atuar como: (i) “iscas”, ou “esponjas”, modulando os efetores de seus alvos, 
por exemplo, afastando TF ou RBP da cromatina; (ii) guia para enzimas modificadoras de 
histonas ou modificadores de cromatina, em direção aos seus genes alvos, tanto em cis como 
em trans; (iii) sinais de resposta a vários estímulos. 
No entanto, Yao et al. (2019) observaram que a forma de ação e o papel biológico 
desempenhado está relacionado com a localização subcelular do lncRNA, podendo agir no 
núcleo celular, alterando arquitetura e/ou remodelação da cromatina, como também pode agir 
no citoplasma. Ao observar a atividade no núcleo celular, Schmitz, Grote e Herrmann (2016) 
viram que os lncRNAs interagem com complexos modificadores de histonas, como os 
complexos repressores de polycomb (PRC1 e PRC2) que também são responsáveis por modular 
22 
 
a metilação do DNA, como também observaram as iterações com os fatores de transcrição e a 
regulação a nível pós transcricional. 
Diversos estudos também descrevem o mecanismo de funcionamento dos lncRNAs a 
partir das suas interações com outras moléculas. Ao interagir com DNA, o lncRNA modifica a 
expressão gênica por meio da modulação das estruturas da cromatina, enquantoque ao interagir 
com os mRNAs, ocorre uma modificação na estabilidade e consequente regulação da expressão 
gênica em níveis pós-transcricionais e traducionais. Já a ligação com os miRNAs ocorre 
impedindo a ligação do miRNA com o seu alvo, caracterizando desta forma uma competição 
endógena entre o lncRNA e o mRNA alvo do miRNA (STATELLO et al., 2020; 
KAZIMIERCZKY et al., 2020). 
O envolvimento dos ncRNAs na patogênese de várias doenças também já começaram a 
ser estabelecidos. Em estudo de Bhan et al. (2016), foi evidenciado a associação dos lncRNAs 
com o desenvolvimento metastático em diversos cânceres, atuando tanto como supressores de 
tumor quanto oncogenes. Corroborando com esse estudo, Statello et al. (2020) e Liu et al. 
(2021) também evidenciaram a relação dos lncRNAs com o processo de oncogênese, 
indicando-os como marcadores de prognósticos oncológicos quando relacionados aos dados 
clínicos dos pacientes, e como alvos terapêuticos. 
1.3. RNA ENDÓGENO COMPETIDOR - ceRNA 
 De acordo com estudos apresentados na seção anterior, os lncRNAs interagem com 
outras moléculas, exercendo um papel de regulação sobre as mesmas. Entretanto, todos os 
detalhes de seus mecanismos de ação e suas consequências ainda não estão bem esclarecidos. 
Partindo dessa lacuna a respeito da associação entre lncRNAs com as outras moléculas, 
Salmena e colaboradores (2011) apresentaram a hipótese do “RNA Endógeno Competidor” 
(ceRNA), fundamentada a partir da ideia de uma comunicação entre os miRNAs, mediada pelos 
elementos reconhecedores de miRNAs (MREs), com os RNAs mensageiros (mRNAs), 
pseudogenes e lncRNAs. 
Nesta rede, a forma de ação do ceRNA é caracterizada como uma competição entre os 
lncRNAs e as outras moléculas - mRNAs, miRNAs e pseudogenes -, pelos MREs localizados 
na 3he Bastard Son & The Devil Himself’UTR do mRNA que formam os pares Watson-Crick 
com a região alvo 5’ do miRNA. Wang e colaboradores (2016) observam que a hipótese de 
Salmena é postulada tomando como base o conceito de que todos os RNAs, seja codante ou 
não codante, compartilham o mesmo MRE e indiretamente atuam regulando a expressão do 
23 
 
mRNA entre si por meio da competição pelo MRE (Figura 3). De acordo com Ala (2020), esta 
pluralidade de conexões dos miRNA permite regular diversos mRNAs, como também pode ser 
regulado por outros ncRNAs. 
 
 
Figura 3:Regulação efetuada pela interação lncRNA-miRNA-mRNA. (A) miRNA bloqueia a tradução se ligando 
ao mRNA (B) lncRNA age como uma isca/esponja capturando o miRNA e permitindo a tradução do mRNA. 
Fonte: Adaptado de López-Urritia et al. (2019) utilizando BioRender.com (2023). 
 
Como explicitado anteriormente, os lncRNAs têm como uma de suas características 
funcionais a modulação dos efetores de seus alvos. Esta capacidade foi evidenciada em diversos 
estudos revistos por Chan e Tay (2018), que mostram que ao se ligar aos miRNAs, os lncRNAs 
regulam a expressão do gene alvo do miRNA e alterações desta rede regulatória foram 
observadas no câncer e em outras patologias. 
Ao estudar os mecanismos do ceRNA como biomarcadores no câncer, Qi et al. (2020) 
pontuou algumas formas de ação ao qual eles estão associados dentro da patologia, sendo elas 
a promoção ou supressão da: (i) oncogênese, proliferação, migração e invasão de células 
cancerígenas; (ii) células oncológicas na transição epitélio-mesênquima e (iii) sensitividade ao 
tratamento terapêutico. Como também mostrou que os mecanismos moleculares são 
influenciados pela localização, com a abundância de miRNAs no meio, onde uma menor 
quantidade de miRNAs possibilita a ação do ceRNA e a afinidade de ligação. 
 
24 
 
1.4. DADOS ÔMICOS E APRENDIZAGEM DE MÁQUINA 
 Os dados “ômicos” são um conjunto de informações obtidos de experimentos biológicos 
e tecnologias de sequenciamento de alto desempenho que tem como objetivo mensurar, de 
maneira ampla e simultânea, moléculas de mesmo tipo advindas da mesma amostra biológica 
(CONESA e BECK, 2019). Os estudos genômicos mensuram os perfis das moléculas de DNA, 
enquanto os estudos transcriptômicos, epigenômicos, proteômicos e metabolômicos (Figura 4) 
mensuram os transcritos, os estados químicos do DNA e suas ligações protéicas, as proteínas e 
os metabólitos, respectivamente (YAMADA et al.,2021). 
 Estes estudos geram uma quantidade exorbitante de dados, que podem ser utilizados 
como biomarcadores e possibilitam o entendimento e análise de características complexas dos 
sistemas biológicos (REEL et al., 2021). Entretanto, estes dados de alta complexidade e 
heterogeneidade, são muitas vezes incompletos e esparsos, gerando o que foi denominado por 
Bellman (1957) como a maldição da dimensionalidade, relacionada à crescente quantidade de 
dados associado à adição de dimensões ao espaço de dados. 
Ao analisar de forma integrada e automatizada os dados ômicos, é possível extrair 
padrões que auxiliarão no entendimento do objeto de estudo, como padrões mecanísticos dentro 
do fluxo celular, por meio da aplicação de técnicas de aprendizado de máquina 
(SUBRAMANINAN et al., 2020). O termo aprendizado de máquina, foi definido no final da 
década de 50, referindo-se a algoritmos que a partir dos dados conseguem executar tarefas sem 
explicitar os processos de programação (SAMUEL, 1959). 
Dentre as várias aplicações do aprendizado de máquina, as tarefas relacionadas aos 
processos de classificação ou predição, que resultam em informações categóricas, como a 
presença ou ausência de patologia, ou informações contínuas/temporais, como a predição de 
resultados, têm se tornado comumente utilizadas, principalmente em pesquisas voltadas para a 
área da saúde (BLACK; KUEPER; WILLIAMSON, 2023). Liñeares-Blanco et al.(2021) 
observaram que estudos voltados para problemas biológicos complexos, que não conseguem 
ser eficientemente abordados com as técnicas estatísticas padrões, têm resultados promissores 
com a aplicação de técnicas de aprendizado de máquina. 
25 
 
 
Figura 4: Representação conceitual de uma análise realizada por um algoritmo de classificação sobre diferentes 
tipos de dados ômicos e os possíveis resultados. 
Fonte: Autoral. Utilizando o BioRender.com (2023). 
 
 A partir dos avanços nos estudos na área de aprendizado de máquina, foi visto o 
surgimento de algoritmos como modelos de regressão logística, algoritmos Bayesianos, árvores 
de decisão e métodos de comitês de máquinas (ensemble). Entretanto, a falta da seleção de 
características (variáveis independentes ou explicativas), relacionadas com a variável resposta 
(dependente ou alvo) pode influenciar diretamente na performance desses algoritmos ao serem 
aplicados no mundo real (KANN et al., 2021). 
1.4.1. SELEÇÕES DE CARACTERÍSTICAS 
 
 Seleção de características faz referência ao processo de análise e escolha de variáveis 
dentro do estudo, observando a sua importância perante o resultado, ou seja, eliminando as 
variáveis irrelevantes ou redundantes, pois a sua remoção não afeta a aprendizagem e não 
reduzem as métricas de treinamento do modelo de aprendizagem. Portanto, mantém-se somente 
as variáveis mais consistentes e relevantes para construção do modelo. (LIU; MOTODA, 2008). 
 Os algoritmos de seleção de características podem ser classificados de acordo com a 
forma de aprendizado, sendo elas: (i) supervisionada, quando é utilizada a correlação e a 
relevância entre as características e a classe (variável resposta); (ii) semi-supervisionada, 
26 
 
quando os dados não são majoritariamente rotulados, mas sabe-se a classe desejada; (iii) não 
supervisionada, quando não se tem uma classe alvo e as características são escolhidas utilizando 
critérios de avaliação e clusterização (JAW e WANG, 2021). Os algoritmos também podem ser 
classificados de acordo com as estratégias de busca destas características, podendo ser: (i) 
forward; (ii) backforward; (iii) floating; (iv) branch-and-bound e (v) randomizada;ou de 
acordo com os métodos empregados (Figura 5): (i) método de filtragem, (ii) método wrapper e 
(iii) métodos embutidos (KUHN; JOHNSON, 2020; LIU; MOTODA, 2008; XIE et al., 2020). 
 
 
Figura 5:Métodos de seleção de características e processos subjacentes (laranja = métodos de filtragem, verde = 
métodos wrapper e azul = métodos embutidos). 
Fonte: Xie et al. (2020) 
 
1.4.1.1. MÉTODOS DE FILTRAGEM 
 Trata-se de métodos rápidos, de alta efetividade e escalabilidade, que buscam selecionar 
as variáveis explicativas de maior correlação ou importância com relação a variável alvo. 
Utiliza de técnicas estatísticas e de teoria da informação para medir a força de correlação entre 
as variáveis, construir um ranqueamento entre as características e manter somente as que 
apresentarem altas pontuações, possibilitando uma seleção confiável e relevante (JAW e 
WANG, 2021, KUHN; JOHNSON, 2020). 
 Os métodos de filtragem utilizados produzem modelos com base no 
procedimento do tipo stepwise (backward), que permite a adição de uma variável ao conjunto 
de variáveis preditoras do modelo, observando a significância estatística. O que diferencia cada 
método é a utilização em conjunto com técnicas estatísticas, por exemplo, LDA ou AIC, para a 
27 
 
redução dos casos de sobreajuste e redução no número de falsos positivos (KUHN; JOHNSON, 
2020). 
 O método XGBoost tem como objetivo predizer corretamente uma variável alvo a partir 
da combinação de estimadores. O processo de treinamento ocorre de maneira iterativa, 
utilizando o algoritmo de gradiente descendente para reduzir a função de perda ao adicionar 
novas árvores de estimadores, que predizem os erros, ou resíduos, em comparação com as 
iterações anteriores (CHEN; GUESTRIN, 2016). 
 O método GLM é baseado na utilização de regressão logística para avaliar os modelos 
preditos, calculando a relação e probabilidade, entre os modelos construídos e os resultados 
obtidos no momento de teste. 
 
1.4.1.2. MÉTODOS WRAPPER 
 Métodos wrapper utilizam procedimentos iterativos de pesquisa, que de maneira 
repetida fornece ao modelo subconjuntos de preditores e utiliza métricas como a acurácia, para 
selecionar as melhores variáveis. De uma forma geral, quanto maior a acurácia, maior é o 
consumo computacional do método wrapper (JAW e WANG, 2021, KUHN; JOHNSON, 
2020). 
 Os métodos wrapper podem ser desenvolvidos a partir da abordagem ambiciosa, onde 
o caminho de busca escolhido é aquele que aparenta direcionar para o melhor modelo; ou pela 
abordagem não ambiciosa, onde o método de busca pode reavaliar os modelos preditos 
anteriormente e assim seguir por um caminho totalmente diferente do esperado (KUHN; 
JOHNSON, 2020). 
 O método RFE se baseia em uma seleção de preditores no sentido contrário, ou seja, 
inicialmente todas as características/variáveis são reconhecidas como preditores e a cada 
iteração é uma removida, tomando a pontuação atrelada a sua importância como quesito 
julgador de permanência (KUHN; JOHNSON, 2020). O que diferencia as variações iterativas 
do RFE, é que eles utilizam técnicas de re-amostragem com validação cruzada como um 
conjunto de dados de teste durante as iterações. 
 O método Boruta é uma forma de seleção de características desenvolvida tomando 
como base algoritmos de árvores de decisão, como o Random Forest e XGBoost (KURSA; 
RUDNICKI, 2010). Atuando a partir da geração de variáveis randômicas ruidosas e com o 
28 
 
passar das iterações são feitos testes estatísticos, tomando as flutuações do Z-score para 
remoção das variáveis menos relevantes. 
 O método Lasso, também conhecido como regularização L1, é uma ferramenta de 
seleção de variáveis que tem como objetivo a regressão dos coeficientes a zero, definida pela 
Equação 1, onde o primeiro somatório representa a soma dos erros quadrados e o segundo 
somatório representa a penalização lasso (FRIEDMAN et al.,2010) 
 
𝑆𝑆𝐸𝐿1 = ∑
𝑛
𝑖=1
(𝑦𝑖 − �̂�𝑖)
2 + 𝜆𝑙 ∑
𝑃
𝑗 = 1
|𝛽𝑗| 
Equação 1: Método Lasso 
 
 
 O método ElasticNet é baseado na junção das técnicas de regularização Lasso (L1) e 
Ridge (L2), Equação 2, combinando suas penalizações e otimizando o resultado (ZOU; 
HASTIE, 2005; KUHN; JOHNSON, 2020). 
 
𝑆𝑆𝐸 = ∑
𝑛
𝑖=1
(𝑦𝑖 − �̂�𝑖)2 + 𝜆𝑙 [(1 − 𝛼) ∑
𝑃
𝑗 = 1
|𝛽𝑗| + 𝛼 ∑
𝑃
𝑗 = 1
|𝛽𝑗|] 
Equação 2: Método ElasticNet 
 
O método svmRadial é um algoritmo de classificação para dados não-lineares, baseado 
na técnica de Máquina de Vetor de Suporte (SVM) que utiliza hiperplanos na separar e 
classificar os dados. Para utilização em dados não lineares, Walia (2018) descreve que a 
svmRadial utiliza de técnicas de expansão de variáveis, inserindo polinômios de grau maior, ou 
igual a 2, ou inserindo a Equação 3 de Kernel Radial na Equação 4 do classificador vetor de 
suporte, para adequar os dados não lineares ao processo de classificação. 
 
𝐾(𝑥, 𝑦) = 𝑒𝑥𝑝(−𝛾 ∑
𝑝
𝑗=1
(𝑥𝑖𝑗 − 𝑦𝑖𝑗)2) 
Equação 3: Kernel Radial 
 
O parâmetro ajustável 𝛾 (gamma) na Equação 3 representa a suavidade e o controle de 
variância do modelo, ou seja, quanto menor o 𝛾 menor a variância e mais suave é o limite de 
decisão, e quanto maior o 𝛾 maior a variância, e sobreajuste, e mais flutuante é o limite de 
decisão. 
29 
 
 
𝑓(𝑥) = 𝛽0 + ∑
𝑖 𝜖 𝑆
𝛼𝑖𝐾(𝑥𝑖, 𝑦𝑖) 
Equação 4: Classificador Vetor de Suporte 
 
O parâmetro 𝛽0 (beta) na Equação 4 são os coeficientes do SVM, 𝛼𝑖(alpha) é um peso 
com valor diferente de zero para todos os vetores de suporte e zero em outros casos, a função 
𝐾(𝑥𝑖, 𝑦𝑖) é a equação radial kernel. 
O método naive bayes para a classificação parte do pressuposto de que todas as variáveis 
do estudo são independentes, dado o valor da variável de classificação (Equação 5), que segue 
o classificador Bayesiano (Equação 6), baseado na razão entre as probabilidades de um evento 
e a probabilidade do evento não ocorrer ser maior ou igual a um. Sendo assim o naives bayes é 
representado pela Equação 7, considerado uma das formas mais simples da rede bayesiana 
(ZHANG, 2004). 
𝑝(𝐸|𝑐) = 𝑝(𝑥1, 𝑥2, . . . , 𝑥𝑛|𝑐) = ∏
𝑛
𝑖 = 1
𝑝(𝑥𝑖|𝑐) 
Equação 5: Independência das variáveis relacionadas à variável classificada. 
 
𝑓𝑏(𝐸) =
𝑝(𝐶 = +|𝐸)
𝑝(𝐶 = − |𝐸)
 ≥ 1 
Equação 6: Classificador Bayesiano. 
 
𝑓𝑛𝑏(𝐸) =
𝑝(𝐶 = +)
𝑝(𝐶 = − )
∏
𝑛
𝑖 = 1
𝑝(𝑥|𝐶 = +)
𝑝(𝑥|𝐶 = − )
 
Equação 7: Classificador Naive Bayes. 
 
O método KNN é uma técnica não paramétrica que se baseia na similaridade da 
distribuição dos dados e seus vizinhos mais próximos, calculando a distâncias entre K números 
de dados, onde essa distância usualmente é mensurada por meio da Distância Euclidiana, 
resultando em um modelo classificado no espaço cartesiano (GUO et al., 2003). 
A Random Forest é caracterizada pela junção de classificadores estruturados de árvores 
de decisão. A aprendizagem ocorre a partir da ditribuição, de maneira independente e idêntica, 
de vetores com valores aleatórios para um conjunto de árvores de decisão e a partir da análise 
de frequência dos resultados de cada uma dessas árvores, a classe resultante é obtida a partir 
do conjunto de dados de entrada (BREIMAN, 2001). 
30 
 
1.4.2. MÉTRICAS DE AVALIAÇÃO 
As métricas de avaliação são formas de mensurar a efetividade dos algoritmos de ML, 
avaliando a qualidade de suas predições. No caso de algoritmos de classificação é mais comum 
a utilização de matrizes de confusão e curva ROC, e para algoritmos de regressão são mais 
utilizados o erro quadrático médio (MSE), erro médio absoluto (MAE) e coeficiente de de 
determinação (R²) (HANDELMAN et al., 2019). 
 Por se tratar de um trabalho de classificação, onde a partir dos genes participantes da 
ceRNA será construída uma assinatura transcricional que se relaciona com a presença ou não 
de metástase, será utilizada a curvaROC e a matriz de confusão para avaliar o quanto efetiva é 
a assinatura. Estruturada de maneira a apresentar os verdadeiros positivos, falsos positivos, 
verdadeiros negativos e falsos negativos, a matriz de confusão (Tabela 1) mostra as frequências 
de classificação do modelo, onde: 
 
● Verdadeiros positivos (true positive - tp): pacientes classificados com metástase pelo 
algoritmo e apresenta diagnóstico de metástase; 
● Falso positivo (false positive - fp): paciente classificado com metástase pelo algoritmo, 
mas não apresenta diagnóstico de metástase; 
● Verdadeiro negativo (true negative - tn): paciente classificado sem metástase pelo 
algoritmo e não apresenta diagnóstico de metástase; 
● Falso negativo (false negative - fn): paciente classificado sem metástase pelo algoritmo 
e apresenta diagnóstico de metástase. 
 
 
Tabela 1: Matriz de Confusão. 
 Condições Reais 
 Condição Positiva Condição Negativa 
Predição 
Predição Positiva Verdadeiro Positivo Falso Positivo 
Predição Negativa Falso Negativo Verdadeiro Negativo 
Fonte: Autor. 
 
 A partir dessas informações, é possível extrair outras métricas que avaliam o 
desempenho do algoritmo. A sensibilidade mensura a capacidade do algoritmo em detectar um 
verdadeiro positivo (Equação 8), a especificidade mensura a capacidade do algoritmo em 
detectar um verdadeiro negativo (Equação 9) e a acurácia mensura a frequência de acertos 
31 
 
dentre todos as previsões possíveis (Equação 10) (DALIANIS, 2018; HANDELMAN et al., 
2019; TREVETHAN, 2017) 
𝑆𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑𝑒 = 
𝑡𝑝
𝑡𝑝 + 𝑓𝑛
 
Equação 8: Sensibilidade 
 
𝐸𝑠𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑑𝑎𝑑𝑒 = 
𝑡𝑛
𝑡𝑛 + 𝑓𝑝
 
Equação 9: Especificidade 
 
𝐴𝑐𝑢𝑟á𝑐𝑖𝑎 = 
𝑡𝑝 + 𝑡𝑛
𝑡𝑝 + 𝑓𝑝 + 𝑡𝑛 + 𝑓𝑛
 
Equação 10: Acurácia 
 
 A curva de Característica de Operação do Receptor (Figura 6), comumente de chamada 
de curva ROC, é uma representação gráfica do desempenho do algoritmo, que utiliza da relação 
entre a sensibilidade e a taxa de falso positivo (FPR = 1 - especificidade), para estabelecer a 
probabilidade do modelo distinguir entre as classes. Ao se calcular a área sob a curva ROC 
(AUC), obtém-se o grau de separabilidade (NARKHEDE, 2018; HANDELMAN et al., 2019). 
 
 
Figura 6: Representação da curva ROC e AUC, a partir da relação entre a sensibilidade, também conhecida como 
taxa de verdadeiros positivos (TPR), e a taxa de falsos positivos (FPR). 
Fonte: Narkhede (2018). 
 
 Visando avaliar a classificação, tomando como base a resultante dicotômica variante 
entre metástase (M1) e não metástase (M0), utiliza-se a estatística J de Youden, ou somente 
índice de Youden, para analisar a performance sobre o teste de classificação. O índice é obtido 
32 
 
a partir da Equação 11, normalmente é utilizada em conjunto com a curva ROC (YOUDEN, 
1950; SCHISTERMAN et al., 2005). 
 
𝐽𝑌𝑜𝑢𝑑𝑒𝑛 = 𝑆𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑𝑒 + 𝐸𝑠𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑑𝑎𝑑𝑒 − 1 
Equação 11: Estatística J de Youden 
 
 Para a validação da classificação, além de utilizar a acurácia e AUC, aplica-se a 
pontuação de Brier (Equação 12), que avalia a acurácia de probabilidade de classificação, 
mensurando o erro quadrático médio das diferenças entre a probabilidade de predição para o 
estado x e o verdadeiro resultado y, pontuação amplamente utilizada em classificações e 
predições binárias (BRIER, 1950; FERRER, 2022). Na equação, 𝑓𝑡 é a probabilidade de 
classificação, 𝑜𝑡 é o resultado e N representa o número de itens a ser calculado a pontuação. 
 
𝐵𝑆 = 
1
𝑁
∑(𝑓𝑡 − 𝑜𝑡)²
𝑁
𝑡 =1
 
Equação 12: Pontuação de Brier 
 
Como também a acurácia balanceada (Equação 13), que consiste na verificação da 
performance do modelo de classificação, levando em consideração a sensibilidade e a 
especificidade da classificação. Amplamente utilizada para dados desbalanceados, sendo uma 
métrica classe-sensitiva (P.; P., 2021). 
 
𝐵𝐴𝑐𝑐 = 
𝑆𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑡𝑦 + 𝑆𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑡𝑦
2
 
Equação 13: Acurácia Balanceada. 
 
1.5.JUSTIFICATIVA E RELEVÂNCIA DO TRABALHO 
 Conforme apresentado anteriormente, o carcinoma renal de células claras tem 
acometido mais indivíduos nos últimos anos, e quanto mais cedo o seu diagnóstico, maiores 
são as chances de sobrevida dos pacientes. Os estudos do ccRCC acerca do genoma e do 
transcriptoma codificantes permitiram a construção do conhecimento relacionado ao 
desenvolvimento, progressão e remissão da patologia, gerando informações sobre quais são os 
processos alterados, quais os genes associados e como seus produtos atuam nesta patologia. 
Entretanto, para se ter uma maior e melhor perspectiva dos mecanismos de regulação é 
necessário também estudar o ccRCC através de genes não codificantes. Estes estudos começam 
33 
 
a avaliar as interações desses transcritos com os genes codificantes e entre os próprios, 
revelando associações significativas com a progressão, desenvolvimento metastático ou 
remissão da doença (LIU et al., 2018; POPŁAWSKI et al., 2021). 
 Associar esses conhecimentos com técnicas de seleção de características, permite o 
reconhecimento de padrões associados a tais transcritos e construir assinaturas transcricionais. 
A utilização dessas assinaturas transcricionais como biomarcadores possibilitam o avanço no 
estudo de terapia guiadas auxiliando o desenvolvimento de pesquisas farmacêuticas que 
utilizarão os transcritos como alvo e assim fornecerem um tratamento mais eficaz para os 
pacientes com alterações nas moléculas em questão (CHEONG et al., 2022; LIU et al., 2021, 
2022). 
34 
 
2. OBJETIVOS 
2.1. OBJETIVO GERAL 
 Construir uma assinatura transcricional do carcinoma renal de células claras, a partir de 
genes diferencialmente expressos que compõem uma rede de RNA Endógeno Competidor, para 
classificar o desenvolvimento metastático. 
 
2.2. OBJETIVOS ESPECÍFICOS 
● Construir assinatura transcricional a partir de técnicas de seleção de características 
utilizando genes diferencialmente expressos participantes de ceRNA; 
● Avaliar qual a melhor assinatura a partir das métricas de treinamento e validação dos 
modelos; 
● Analisar as alterações genômicas existentes sobre os genes participantes da 
assinatura, somáticas e em número de cópia; 
● Avaliar a anotação funcional dos RNAs participantes da assinatura; 
● Integrar resultados discriminando suas possíveis funções na progressão tumoral. 
 
35 
 
3. METODOLOGIA 
 
Em trabalho desenvolvido por Farias Filho (2022) foi construída uma rede de RNAs 
Endógenos Competidores (ceRNA) (Figura 7a e 7b), utilizando dados do projeto TCGA-KIRC 
disponibilizado pelos portais Genomic Data Commons (GDC) (ZHANG,2021) e Xena Browser 
(GOLDMAN et al.; 2020), data release v18.0 (07-19-2019). A rede de ceRNA foi construída 
utilizando o pacote GDCRNATools, versão 1.16.2 (LI et al.,2022), a partir da seleção de genes 
diferencialmente expressos, |log2FC| >= 2 e FDR < 0.01, obtidos com o pacote DESeq2 (LOVE 
et al., 2014). 
 
(a) 
 
(b) 
Figura 7: Rede de ceRNAs da coorte KIRC-TCGA, (a) região clusterizada mais densa, com maior quantidade de 
conexões entre os nós e (b) região caracterizada pela presença de clusters distintos com poucos nós. Em laranja os 
miRNAs, em verde os lncRNAs e em vermelho os mRNAs 
Fonte: Farias Filho (2022). 
36 
 
3.1. FLUXOGRAMA 
 
(a) 
 
(b) 
Figura 8: (a) Fluxograma do trabalho de Farias Filho (2022) para a construção da rede ceRNA. (b) Fluxograma da 
construção/validação da assinatura e análises a partir da rede ceRNA (FARIAS FILHO,2022). 
Fonte: Autoral. 
 
 O fluxo de análise para a construção da assinatura transcricional para classificação de 
desenvolvimento metastático do ccRCC, baseada nos componentes da rede ceRNA, nos dados 
de expressão e dados clínicos, é mostrado na Figura 8b. 
37 
 
3.2. DESCRIÇÃO DA COORTE 
3.2.1. DADOS DOS PACIENTES 
Os dados doprojeto TCGA-KIRC listados abaixo foram obtidos dos portais Genomic 
Data Commons (GDC) (https://portal.gdc.cancer.gov/) e Xena Browser 
(https://xenabrowser.net/), seguindo versão de Data Release v18.0 (07-19-2018): 
 
i. Clínicos, dispõe de informações sobre a idade dos pacientes ao serem diagnosticados, 
estadiamento da doença, tempo de remissão do paciente sem sintomas da doença, tempo 
de sobrevida, status vital ao final do projeto e entre outros; 
ii. Genômicos, obtidos a partir do sequenciamento completo do genoma (WGS), para as 
análises de alterações somáticas e de número de cópias. 
iii. Contagem de transcritos, obtidos a partir do sequenciamento de RNAs (RNASeq). 
 
 Dados de tecidos normais são obtidos a partir de amostras de tecido renal normal, não 
envolvido com processo tumoral, ou amostras de sangue periférico dos pacientes. 
3.2.2. AQUISIÇÃO E DESCRIÇÃO DOS DADOS 
A aquisição dos dados foi realizada utilizando os pacotes TCGAWorkflow, versão 
1.22.2 (SILVA et al., 2022) e TCGAbiolinks, versão 2.25.3 (COLAPRICO et al., 2015). Para 
o pré-processamento, análise exploratória e visualização dos dados clínicos foram utilizados os 
pacotes tidyverse, versão 1.3.2 (WICKHAM et al., 2019), skimr, versão 2.1.5 (WARING et al., 
2022), tableone, versão 0.13.2 (YOSHIDA et al., 2022) e finalfit, versão 1.0.6 (HARRISON et 
al., 2023). 
Na etapa de pré-processamento dos dados foi realizada uma limpeza, removendo as 
variáveis que apresentaram menos de 50% de observações e mantendo somente as variáveis 
com registros únicos dos pacientes. Correção nos nomes das variáveis, checagem de 
frequências, adequações relacionadas ao tipo e níveis das variáveis categóricas também foram 
realizadas. 
38 
 
3.3. ASSINATURA TRANSCRICIONAL - ceRNA 
 Para a construção da assinatura transcricional utilizando os genes participantes da rede 
ceRNA, ou seja, lncRNAs, miRNAs e mRNAs, foi utilizado o pacote OmicSelector, versão 
1.0.0 (STAWISKI et al., 2022) e as técnicas (Tabela 2). 
 
Tabela 2: Técnicas de seleção de características e etapa de aplicação. 
Método Técnica Etapa 
Filtragem 
Modelos Lineares Generalizados (GLM) Seleção de Características e Benchmarking 
Análise Discriminante Linear (LDA) Seleção de Características 
Critério de Informação de Akaike (AIC) Seleção de Características 
eXtreme Gradient Boosting Benchmarking e Validação 
Wrapper 
Boruta Seleção de Características 
Recursive Feature Elimination (RFE) Seleção de Características 
Lasso Seleção de Características 
ElasticNet Seleção de Características 
Máquina Vetor de Suporte Benchmarking e Validação 
Naive Bayes Validação 
kNN Validação 
Random Forest Benchmarking e Validação 
Fonte: Autoral 
 
3.3.1. CONSTRUÇÃO DOS DATASETS 
 
 Inicialmente, foi montada uma tabela com informações clínicas dos pacientes e os dados 
das contagens brutas dos 221 genes participantes da rede ceRNA - 18 lncRNAs, 75 miRNAs e 
128 mRNAs. 
39 
 
 Dos 587 pacientes participantes do projeto que possuíam informações clínicas, 30 não 
possuíam um estadiamento definido (MX) e foram removidos. Para equilibrar o número de 
pacientes entre os grupos com (M1) e sem metástase (M0), foi realizado um balanceamento por 
meio da técnica correspondência dos escores de propensão utilizando os pacotes mice (van 
BUUREN e GROOTHULS-OUDSHOORN, 2011) e MatchIt (HO et al., 2011). Esta técnica 
avalia as probabilidades de cada paciente ser caracterizado como metastático ou não, a partir 
da construção de um conjunto de dados artificial baseado no pareamento de amostras 
metastática e não metastática com características similares, comparando as covariáveis para 
realizar o ajuste e construir o dado balanceado (BENEDETTO et al., 2018). Após este 
processamento, ambos os grupos com (M1) e sem metástase (M0) ficaram com um total de 95 
pacientes. 
3.3.2. SELEÇÃO DE CARACTERÍSTICAS 
 
O conjunto de dados foi dividido aleatoriamente em 60% para treino (n = 114 amostras), 
20% para teste (n = 38 amostras) e 20% para validação (n = 38 amostras). As técnicas utilizadas 
para a produção das assinaturas utilizando os dados de treinamento foram: Recursive Feature 
Elimination (RFE), Boruta, My_stepwise_glm_binomial, iteratedRFECV, iteratedRFETest, 
stepAIC, stepLDA, Lasso e ElasticNet. 
 Visando otimizar os resultados, mantendo a sua eficácia e otimizando o processamento 
computacional, alguns parâmetros foram modificados. Na RFE, foi utilizado validação cruzada 
de 10 dobras, percorrendo conjuntos de variáveis que variam de 1 a 50 componentes; na 
iteratedRFECV e na iteratedRFETest foi utilizado um número de 10 variáveis a serem 
selecionadas para a construção da assinatura. 
3.3.3. BENCHMARKING E ASSINATURA OBTIDA 
 
 Com as 9 assinaturas construídas, foi realizado um benchmarking para a seleção das 
assinaturas que apresentavam a melhor classificação do desenvolvimento metastático, 
utilizando os conjuntos de dados de teste e validação. Neste processo foram utilizadas as 
técnicas: Random Forest (rf), Generalized Linear Model (GLM) com uma função de ligação 
binomial, eXtreme Gradient Boosting (xgbTree) e Máquina Vetor de Suporte Radial 
(svmRadial), que foram executadas 10 vezes para buscar o melhor ajuste de parâmetros de cada 
40 
 
uma delas. Como resultado, obtêm-se métricas de desempenho, como a AUC (Area Under 
Curve), acurácia, especificidade, sensibilidade e estatística de Youden. 
 
3.3.4. VALIDAÇÃO COM CONJUNTO DE DADOS EXTERNO 
 Visando avaliar a concordância da assinatura construída, foi utilizado um conjunto de 
dados externo com 91 pacientes do projeto RECA-EU, desenvolvido de forma conjunta entre a 
União Europeia e França, e disponibilizado pelo International Cancer Genome Consortium 
(ICGC) (https://dcc.icgc.org/projects). 
 Foram recuperados os dados de RNA-Seq e os dados clínicos dos pacientes. Para a 
construção da validação, foi utilizado o pacote “mlr3verse”, versão 0.2.8. Como técnicas de 
classificação, foram utilizadas a random forest, naive bayes, knn, svmradial e xgboost, e para 
avaliar a classificação foram utilizadas as métricas: acurácia, acurácia balanceada, escore de 
Brier e AUC. 
 Durante a validação foram utilizadas três abordagens para avaliar a classificação por 
meio da assinatura. A primeira utilizou os dados do TCGA-KIRC para treinar e testou com o 
RECA-ICGC, a segunda abordagem utilizou os dados do RECA-ICGC para treinar e testou 
com os dados do TCGA-KIRC e a terceira abordagem utilizou o processo de validação cruzada, 
com um total de 3 dobras e 10 repetições. 
 
3.4. ANÁLISE INTEGRATIVA DOS COMPONENTES DA ASSINATURA 
TRANSCRICIONAL 
Com a assinatura transcricional construída, buscou-se compreender quais são as 
alterações existentes sob os genes que a constituem e quais funções estas desempenham, a partir 
da relação com os genes aos quais se conectam na rede ceRNA. Sendo assim foram realizadas 
análises de alterações em nível de genoma, observando as alterações somáticas e no número de 
cópias, bem como as anotações funcionais, buscando as vias enriquecidas. 
3.4.1. ANÁLISE DE ALTERAÇÕES GENÔMICAS 
3.4.1.1. ANÁLISE DE ALTERAÇÕES SOMÁTICAS 
 
41 
 
A partir dos arquivos Mutation Annotation Format (MAF), foram realizadas as análises 
de alterações somáticas utilizando o pacote Maftools, versão 2.6.05 (Mayakonda et al., 2018). 
Nesta análise foram extraídas algumas informações como: (a) os tipos de variações 
existes; (b) a classificação dessas variações; (c) as classes das variações de nucleotídeo único; 
(d) a quantidade de variantes por amostra e (e) os 10 genes mais mutados na coorte. 
3.4.1.2. ANÁLISE DE ALTERAÇÕES EM NÚMERO DE 
CÓPIAS 
 
A partir dos dados de segmentação disponibilizados pelo projeto TCGA-KIRC, foi 
construída a análise das regiões do genoma que estão amplificadas ou deletadas, seguindo a 
metodologia de Identificação Genômica de Alvos Significantes em Câncer (GISTIC) em sua 
versão2.0 (MERMEL et al.,2011). Com os resultados do GISTIC foram realizadas as análises 
das alterações no número de cópias, utilizando o pacote Maftools versão 2.6.05 
(MAYAKONDA et al., 2018). 
Esta análise retorna informações sobre todas as alterações que ocorreram no dado, as 
regiões de amplificação ou deleção que apresentaram alterações significativas, as médias e as 
frequências dessas alterações. O nível de confiança (α) utilizado para o cálculo da região que 
contém um gene driver, foi de 1%, e a resolução para calcular as probabilidades utilizadas com 
estimativas foi de 5%. 
3.4.2. ANÁLISE DE RISCO 
 
A partir dos dados de expressão dos genes da assinatura, em conjunto com os dados 
clínicos, registros de tempo de sobrevida, estadiamento patológico e status vital, foi realizada 
uma análise de risco associado aos genes da assinatura a progressão para estadiamento 
metastático e morte dos pacientes. 
Para a construção da análise foi utilizado o método de regressão aditiva de Aalen para 
dados censurados, a partir do pacote survival, versão 3.5-0 (THERNEAU e GRAMBSCH; 
2023) e o pacote finalfit versão 1.0.6 (HARRISON et al., 2023), para a construção de uma 
análise da razão de chances. A análise do modelo aditivo de Aalen é uma forma complementar, 
ou alternativa, ao modelo de Cox, onde é obtida associações das covariáveis, ou seja, os genes 
da assinatura, e seus efeitos na sobrevida dos pacientes (AALEN, 1989), enquanto a razão de 
42 
 
chances (odds ratio) é um modelo estatístico que quantifica a força de associação entre dois 
eventos, a presença e não presença de metástase (MORRIS; GARDNER, 1988). 
3.4.3. ANÁLISE COM LNCSEA 
 
O lncSEA é uma plataforma online que tem como objetivo de organizar e construir um 
conhecimento acerca dos lncRNAs, contendo informações divididas em 18 conjuntos de dados 
(CHEN et al., 2021). Neste trabalho foram utilizadas as bases de dados em negrito na Tabela 
3, para obter as informações sobre os lncRNAs participantes da assinatura transcricional. 
 
 
Tabela 3: Categorias do lncSEA 
Doenças Hallmarks do Câncer 
Drogas Fator de Transcrição 
miRNAs Padrão de Metilação 
Fenótipo Cancerígeno Proteína Ligante ao RNA 
Enhancer Sobrevida 
Super Enhancer SmORF 
Cromatina Acessível Exosoma 
Marcador Celular eQTL 
Localização Subcelular Conservação 
* Em negrito as categorias utilizadas no estudo 
Fonte: Autoral. 
3.4.4. ANÁLISE DE ANOTAÇÃO FUNCIONAL 
 A anotação funcional foi feita junto a Enciclopédia de Genes e Genomas de Kyoto 
(KEGG) (KANEHISA, 2000, 2019; KANEHISA et al., 2021) e Gene Ontology (GO) (THE 
GENE ONTOLOGY CONSORTIUM et al., 2021), focando na relação dos genes com os 
processos biológicos e as funções moleculares. 
 Para esta análise foi utilizado o pacote clusterProfiler, versão 4.3.1.900 (WU et al., 
2021) e a plataforma mirPath, versão 3.0 (VLACHOS et al., 2015), para caracterização 
funcional dos miRNAs participantes da assinatura transcricional. 
 
43 
 
3.5. DESENVOLVIMENTO 
Os scripts deste estudo foram baseados na linguagem de programação estatística R, 
versão 4.2.2, utilizando o ambiente de desenvolvimento RStudio versão 2022.02.3+492. As 
implementações computacionais foram realizadas no servidor do Centro Multiusuário 
Bioinformática (BioME) do Instituto Metrópole Digital da UFRN. Os códigos e datasets foram 
disponibilizados em repositório do GitHub (transcriptonal_sig_ceRNA_KIRC, acesso em: 27 
de jul. de 2023). 
https://github.com/epfarias/transcriptonal_sig_ceRNA_KIRC
44 
 
4. RESULTADOS 
4.1. DESCRIÇÃO DA COORTE 
Inicialmente foi realizada uma análise exploratória dos dados, visando descrever as 
informações demográficas e clínicas dos 537 pacientes participantes do projeto TCGA-KIRC 
(Tabela 4). 
 
Tabela 4: Características clínicas da coorte TCGA-KIRC. 
 Nível Geral 
Doença síncrona (%) 
Não 461 (85,8) 
Não Reportado 72 (13,4) 
Sim 4 (0,7) 
Classificação AJCC para Estadiamento da 
Doença (%) 
Estágio I 269 (50,4) 
Estágio II 57 (10,7) 
Estágio III 125 (23,4) 
Estágio IV 83 (15,5) 
Diagnóstico Primário (%) 
Adenocarcinoma de células 
claras 
523 (97,4) 
Carcinoma de células renais 14 (2,6) 
Patologia anterior (%) 
Não 463 (86,2) 
Sim 74 (13,8) 
Tratamento Anterior (%) 
Não 519 (96,6) 
Sim 18 (3,4) 
Raça (%) 
Asiático 8 (1,5) 
Preto ou Afro-americano 56 (10,4) 
Não Reportado 7 (1,3) 
Branco 466 (86,8) 
Sexo (%) 
Feminino 191 (35,6) 
Masculino 346 (64,4) 
Etnia (%) 
Hispânico ou Latino 26 (4,8) 
Não Hispânico ou Latino 359 (66,9) 
Não Reportado 152 (28,3) 
Status Vital (%) 
Vivo 360 (67,0) 
Morto 177 (33,0) 
Idade (média (desvio padrão)) 60.59 (12,55) 
Dias até o último acompanhamento (mediana [IQR]) 
1.414,50 [680,00 
2.070,25] 
Fonte: Autor 
45 
 
 
A coorte apresentou uma média de idade de 61 anos no diagnóstico da patologia, onde 
64.4% eram do sexo masculino, e 86.8% se identificaram como brancos/caucasianos. 
Adicionalmente, 86.2% não apresentaram neoplasias anteriores e 451 pacientes foram 
classificados com tumores localizados (estágios I ao III), ou seja, sem ter entrado em estado 
metastático, mantendo-se em seu sítio de origem. 
4.2. ASSINATURA TRANSCRICIONAL – ceRNA 
A construção de uma assinatura transcricional a partir da rede ceRNA desenvolvida por 
Farias Filho (2022) permite identificar quais são os genes que atuam como RNA endógeno 
competidor no desenvolvimento do processo metastático dos pacientes com ccRCC. Esta rede 
é composta por 128 RNAs, 18 lncRNAs e 75 miRNAs. 
Como resultado da aplicação das 8 técnicas de seleção de características, foram obtidas 
9 assinaturas transcricionais (Tabela 5), seguindo os parâmetros descritos na metodologia. 
Durante o processo, foi visto que a técnica stepAIC não convergiu e não foi gerada uma 
assinatura transcricional, com isso foi removida da análise. 
O resultado da RFE foi separado em dois métodos de avaliação do desempenho médio 
da validação cruzada por número de variáveis, tomando como base as métricas: acurácia (Figura 
9a) e coeficiente kappa (Figura 9b). 
 
Tabela 5: Métodos de seleção de características e respectivas assinaturas. 
Método Assinatura 
RFE_Accuracy 
Class ~ INSR + HMMR + PTTG1 + hsa.miR.381.3p + HECW2 + AF117829.1 
+ RASD1 + RFLNB + SNHG15 + hsa-miR-130a-3p + BTBD11 + 
hsa.miR.377.3p + CXCL2 + CSNK1E + ANLN + P3H1 + SGPP1 + CORO2B + 
L1CAM + hsa.miR.130b.3p + hsa.miR.495.3p + LOX + KCNN4 + FGFR2 
RFE_Kappa 
Class ~ INSR + PTTG1 + HMMR + hsa.miR.381.3p + P3H1 + RASD1 + hsa-
miR-130a-3p + RFLNB + BTBD11 + SGPP1 + HECW2 + hsa.miR.130b.3p + 
SNHG15 + CREB5 + AF117829.1 + ANLN + FGFR2 + SPRY4 
Boruta 
Class ~ hsa-miR-130a-3p + hsa.miR.381.3p + HMMR + RASD1 + P3H1 + 
SGPP1 + HECW2 + BTBD11 + PTTG1 + INSR + RFLNB + SNHG15 + 
AF117829.1 
MyStepwise_glm_binomial 
Class ~ RASD1 + LOX + P3H1 + RNF149 + INSR + RFLNB + C1RL.AS1 + 
PVT1 
iteratedRFECV 
Class ~ INSR + PTTG1 + HMMR + hsa-miR-130a-3p + RFLNB + BTBD11 + 
HECW2 + SNHG15 + hsa.miR.381.3p + AF117829.1 
46 
 
iteratedRFETest 
Class ~ INSR + PTTG1 + HMMR + hsa.miR.381.3p + RASD1 + RFLNB + 
SNHG15 + AF117829.1 + hsa-miR-130a-3p + BTBD11 
Lasso Class ~ INSR + hsa-miR-130a-3p + BTBD11 + HMMR + P3H1 
ElasticNet Class ~ INSR + hsa-miR-130a-3p + BTBD11 + HMMR 
stepLDA Class ~ INSR 
* Class representa a presença (M1) ou ausência (M0) de metástase. 
Fonte: Autor. 
 
 
(a) 
 
(b) 
Figura 9: (a) Curva de acurácia da assinatura transcricional construída a partir da RFE, com valor acima de 70%. 
(b) Curva do coeficiente kappa, com valor acima de 0,5, representando uma assinatura de concordância moderada. 
Fonte: Autoral. 
 
47 
 
Ao observar o comportamento das curvas, é possível verificar que o processo de 
treinamento atinge sua acurácia máxima de 76,30%, e concordância kappa, 0,5686, após um 
crescimento na quantidade de variáveis analisadas. Além disso, após atingir seu ponto máximo, 
as métricas avaliativas não sofreram alteraçõescom a adição de novas variáveis para os 
modelos. 
 Com a construção das assinaturas, foi realizado um benchmarking visando avaliar quais 
foram as melhores assinaturas, de acordo com o critério de melhor desempenho, obtido a partir 
da estatística de Youden, que mensura e avalia os testes de diagnósticos por meio de suas 
sensibilidades e sensitividades (YOUDEN, 1950). Foram utilizadas as técnicas Random Forest 
(RF), eXtreme Gradient Boosting (xgbTree), Máquina Vetor de Suporte Radial (svmRadial) e 
Generalized Linear Model (glm) com função binomial, caracterizando uma regressão logística 
(Figura 10). 
 
 
Figura 10: Acurácia dos métodos de benchmarking ao analisar as 9 assinaturas construídas junto aos dados de 
treino, teste e validação. 
Fonte: Autoral. 
 
Para a técnica RF foi observado um sobreajuste dos dados quando analisado o conjunto 
de treinamento, enquanto o xgbTree, o glm e svmRadial apresentaram valores acima dos 80% 
de acurácia para a mesma partição, e os métodos svmRadial e o xgbTree apresentaram alguns 
outliers, indicando um prejuízo na interpretação do resultado, já que a presença desses outliers 
representam inconsistências. A partir destes resultados, foi realizada a seleção das 4 assinaturas 
que apresentaram a melhor sensitividade e melhor especificidade durante a validação, 
baseando-se no índice de Youden (metaindex) (Tabela 6). 
48 
 
 
 
Tabela 6: Valores de sensitividade e especificidade na validação. 
Benchmarking 
Seleção de Características 
RFE_ACCUR
ACY 
RFE_KAPPA BORUTA 
MY_STEPWISE_
GLM_BINOMIAL 
ITERATED_RFE
_CV 
ITERATED_RF
E_TEST 
LASSO ELASTIC NET STEPLDA 
GLM 
Spec* (%) 57,89 57,89 52,63 47,37 57,89 47,37 68,42 63,16 63,16 
Sens* (%) 52,63 57,89 47,37 36,84 52,63 52,63 47,36 47,36 52,63 
RF 
Spec (%) 52,63 52,63 31,58 42,10 47,37 42,10 42,10 47,36 31,58 
Sens (%) 57,89 63,16 63,16 57,89 63,15 63,15 52,63 52,63 57,89 
xgbTree 
Spec (%) 57,89 63,15 52,63 52,63 68,42 68,42 63,15 57,89 63,15 
Sens (%) 63,15 68,42 63,15 57,89 57,89 63,15 52,63 52,63 52,63 
svmRadial 
Spec (%) 63,15 52,63 52,63 47,36 47,36 47,36 52,63 42,10 57,89 
Sens (%) 57,89 57,89 57,89 52,63 57,89 68,42 42,10 57,89 57,89 
metaindex 0,1842 0,1579 0,0526 -0,0131 0,1316 0,1316 0,0526 0,0526 0,0921 
*Spec = Especificidade *Sens = Sensitividade * Em negrito as assinaturas escolhidas 
Fonte: Autoral 
 
 
Ao observar as métricas das técnicas no benchmarking (APÊNDICE B), somente em 
relação às quatro melhores assinaturas (Tabela 7), observou-se o melhor desempenho com a 
técnica xgbTree, que apresentou valores de especificidade e sensitividade para entre 57,8 e 
68,4% para as quatro melhores assinaturas, RFE_ACCURACY, RFE_KAPPA, 
ITERATED_RFE_CV e ITERATED_RFE_TEST. (Figura 11). 
 
 
Figura 11: Média dos valores de acurácia, especificidade e sensibilidade obtidas com a técnica xgbTree, com 10 
repetições. Em vermelho a iteratedRFECV, em verde a iteratedRFETest, em azul a RandomForestRFE e em 
roxo a RandomForestRFE_KAPPA Novamente, observado um observado um sobreajuste dos dados, onde o 
treinamento é perfeito e o teste/validação não são. 
Fonte: Autoral. 
49 
 
 
Tabela 7: 4 Melhores assinaturas obtidas a partir do segundo benchmarking. 
Método Assinatura 
RFE_Accuracy 
Class ~ INSR + HMMR + PTTG1 + hsa.miR.381.3p + HECW2 + AF117829.1 + RASD1 + 
RFLNB + SNHG15 + hsa-miR-130a-3p + BTBD11 + hsa.miR.377.3p + CXCL2 + CSNK1E + 
ANLN + P3H1 + SGPP1 + CORO2B + L1CAM + hsa.miR.130b.3p + hsa.miR.495.3p + LOX 
+ KCNN4 + FGFR2 
RFE_Kappa 
Class ~ INSR + PTTG1 + HMMR + hsa.miR.381.3p + P3H1 + RASD1 + hsa-miR-130a-3p + 
RFLNB + BTBD11 + SGPP1 + HECW2 + hsa.miR.130b.3p + SNHG15 + CREB5 + 
AF117829.1 + ANLN + FGFR2 + SPRY4 
iteratedRFECV 
Class ~ INSR + PTTG1 + HMMR + hsa-miR-130a-3p + RFLNB + BTBD11 + HECW2 + 
SNHG15 + hsa.miR.381.3p + AF117829.1 
iteratedRFETest 
Class ~ INSR + PTTG1 + HMMR + hsa.miR.381.3p + RASD1 + RFLNB + SNHG15 + 
AF117829.1 + hsa-miR-130a-3p + BTBD11 
Fonte: Autor. 
 
Com a escolha do método de benchmark e a escolha das quatro melhores assinaturas 
transcricionais, buscou-se conhecer quais são os genes, codificantes e não codificantes, que 
fazem parte e são comuns a todas as assinaturas obtidas (Figura 12). Após a análise, foi definida 
a assinatura transcricional (Equação 14) com a composição baseada nos genes compartilhados 
entre as 3 três melhores assinaturas, composta por 7 mRNAs, 2 lncRNAs e 2 miRNAs. 
 
Class ~ INSR + PTTG1 + BTBD11 + RASD1 + HECW2 + HMMR + RFLNB + hsa-miR-130a-3p + 
hsa.miR.381.3p + SNHG15 + AF117829.1 
Equação 14: Assinatura Transcricional. 
 
 A validação da assinatura transcricional foi realizada utilizando o dataset externo, dentre 
as três abordagens realizadas foi visto que a primeira, utilizando o dataset do TCGA-KIRC 
como treino e utilizando o RECA-ICGC como teste, apresentou o melhor resultado dentre elas 
(Tabela 8), especificamente tomando como base a metodologia do random forest. Ao observar 
as métricas obtidas para a metodologia, foi possível observar que a assinatura apresentou 
acurácia e acurácia balanceada de 72%, uma AUC de 81.5% e uma pontuação de Brier de 
0.1955, tendo como resultante também a matriz de confusão.
50 
 
 
Figura 12: Genes presentes cada uma das 9 assinaturas e interseção entre elas. 
Fonte: Autor. 
 
51 
 
 
Tabela 8: Métricas avaliadas para a validação com conjunto de dados externo. 
Método Acurácia Acurácia Balanceada AUC Pontuação de Brier 
RandomForest 72.2% 72.2% 81.48% 0.1955442 
SVM 50% 50% 66.67% 0.2500714 
xgBoost 61.1% 61.1% 62.34% 0.2343498 
kNN 50% 50% 61.72% 0.4817816 
Naive Bayes 50% 50% 54.32% 0.5000000 
* Em negrito a melhor métrica. 
Fonte: Autoral 
4.3. ANÁLISE INTEGRATIVA DOS COMPONENTES DA ASSINATURA 
TRANSCRICIONAL 
A análise integrativa dos genes componentes da assinatura transcricional permite 
compreender quais são as alterações que afetam os genes e seus produtos, e que podem ter 
algum impacto no desenvolvimento do processo tumoral e metastático. Os genes e suas 
respectivas funções são apresentados na Tabela 9. 
 
Tabela 9: Genes participantes da assinatura resultante (Equação 14) e suas funções 
Símbolo Nome Função 
AF117829.1 AF117829.1 Sem função definida pela literatura. 
BTBD11 Domínio BTB Contendo 11 Permite a atividade de heterodimerização de proteínas. 
HECW2 
Domínios HECT, C2, WW 
contendo proteína ligase 2 da 
ubiquitina E3 
Codifica membro da família de ligases de ubiquitina E3, 
associado a proliferação, migração, diferenciação e 
angiogênese. 
HMMR 
Receptor de Motilidade Mediada 
por Hialuronano 
Motilidade celular 
hsa-miR-
130a-3p 
hsa-miR-130a-3p Regulação pós-transcricional. 
hsa-miR-381-
3p 
hsa-miR-381-3p Regulação pós-transcricional. 
INSR Receptor de Insulina 
Codifica membros da família de receptores tirosina quinase. 
Ao se ligar com a insulina ou qualquer ligante, ativa a via de 
sinalização da insulina. 
PTTG1 
Proteína do Gene 1 
Transformadora de Tumor 
Pituitário 
Regulação da separação das cromátides irmãs 
RASD1 
Indutor de Dexametasona 1 
Relacionado a RAS 
Codifica membros da superfamília RAS de pequenas 
GTPases e é induzido pela dexametasona 
RFLNB Refilina B Permite a atividade de ligação de filaminas. 
SNHG15 
Pequeno RNA Nucleolar 
Hospedeiro do Gene 15 
Contribui com a proliferação celular, atuando como esponja 
para miRNAs. 
Fonte: GeneCards e Gene/NIH. 
52 
 
4.3.1. ANÁLISE DAS ALTERAÇÕES GENÔMICAS 
 
 A realização de uma análise das alterações em nível de genoma permite avaliar o efeito 
que estas têm sobre o seu produto, podendo ser elas alterações da estrutura ou interrupção na 
síntese proteica, ou alteração da quantidade de produto gênico. Utilizando o pacote maftools, 
analisamos os polimorfismos de nucleotídeos únicos (SNPs) e as alterações em número de 
cópias (CNVs) no genomados da coorte TCGA-KIRC. 
Em uma análise geral (Figura 13), foi verificada uma maior presença de mutações 
missenses do tipo SNP, com uma mediana de 44 variantes por amostra. Ao observar as 
alterações em nucleotídeo único verificou-se a ocorrência de diversas transições e transversões, 
onde a transversão de citosina para timina foi a mais anotada, com 6.477 registros. 
 
 
Figura 13: Sumário das alterações somáticas para o TCGA-KIRC. Primeira linha (esquerda para a direita): 
Classificação e número de mutações somáticas, os tipos de variações e suas contagens, quantitativo de transições 
e transversões das SNVs. Segunda linha (esquerda para a direita) quantidade de mutações por amostra, distribuição 
das mutações e 10 genes mais alterados na coorte. 
Fonte: Autoral. 
 
Quando feita a busca pelos genes codificantes participantes da assinatura, foram 
encontradas 10 amostras (APÊNDICE C) que continham alterações associadas a eles, onde foi 
visto que as mutações missense, frame_shift_del e mult hit, foram as mais frequentes, mas os 
genes HMMR e RFLNB não apresentaram nenhum tipo de mutação. A mutação frame_shift_del 
é associada à deleção na janela de leitura, enquanto que a mult hit é associada a combinação de 
53 
 
mutações em determinado gene e representam uma causa potencial para progressão tumoral 
(HAJRI et al., 2020). 
Ao analisar as CNVs, foi visto que os cromossomos 1, 4, 5, 6, 7, 12, 17, 19 e 20 
apresentam regiões com maiores quantidades de alteração, na amplitude e frequência entre as 
amostras. As regiões 5q11.2, 17q21.2 e 20p13, foram as regiões mais amplificadas dentre as 
amostras, enquanto as regiões 1q25.1, 8q21.2, 11p11.12 e 19q13.41 foram as regiões que 
apresentaram maiores níveis de deleção (Figura 14). 
 
 
Figura 14: ChromPlot apresentando as regiões mais amplificadas, em vermelho, e as regiões com mais deleções, 
em azul. O eixo Y representa a magnitude e frequência (G-Score) das mutações ao longo dos cromossomos no 
eixo X. 
Fonte: Autoral. 
 
 
Figura 15: Oncoplot do GISTIC com as 10 regiões comumente mais alteradas por deleção, em verde, ou por 
amplificação, em vermelho, nos pacientes do TCGA-KIRC. A direita do gráfico está a percentagem de pacientes 
que apresentaram a alteração. 
 Fonte: Autoral. 
54 
 
A Figura 15 apresenta as 10 regiões mais frequentemente alteradas dentre os pacientes 
participantes do projeto TCGA-KIRC. As regiões 3p22.2, 3p26.3 e 3p21.1 são as regiões 
deletadas encontradas em mais de 80% dos pacientes do projeto, enquanto as regiões 5q35.2 e 
5q35.3 são as regiões amplificadas encontradas em mais de 60% dos pacientes do projeto. 
Ao buscar as regiões de localização dos genes da assinatura junto ao banco de dados de 
sequências de referência do National Center of Biotechnology Information (O’LEARY et al., 
2016), foi visto que eles estão localizados (Tabela 10) em cromossomos com altas quantidade 
de mutações (Figura 14), mas não estão nas regiões mais alteradas nos pacientes da coorte 
(Figura 15). 
 
Tabela 10: Localização dos genes da assinatura transcricional 
Gene 
Localização 
Cromossômica* 
AF117829.1 8q21.3 
BTBD11 12q23.3 
HECW2 2q32.3 
HMMR 5q34 
hsa-miR-130a-3p 11q12.1 
hsa-miR-381-3p 14q32.31 
INSR 19p13.2 
RASD1 17p11.2 
PTTG1 5q33.3 
RFLNB 17p13.3 
SNHG15 7p13 
* Em negrito os genes localizados próximos a regiões altamente alterada. 
Fonte: Autoral 
4.3.2. ANÁLISE RISCO 
 
 Ao construir uma análise de risco associada sobre a expressão dos genes da assinatura 
e a progressão do ccRCC, utilizando o modelo de regressão aditivo de Aalen, foi possível 
observar que existe relação significativa (Figura 16a) entre alguns genes da assinatura com a 
sobrevida dos pacientes, como: (i) AF1117829.1 (p-valor = 0,0001627), (ii) hsa-miR-130a-3p 
(p-valor = 0,016), (iii) hsa.miR.381.3p (p-valor = 0,027) e (iv) PTTG1 (p-valor = 0,020). 
55 
 
 
 
Figura 16: (a) Forest plot para a associação dos genes da assinatura com a sobrevida dos pacientes (p-valor < 0,05), 
(b) Curvas da relação de expressão das covariáveis com o status vital dos pacientes, o eixo X representa o tempo 
de sobrevida (em dias) e o eixo Y representa a função cumulativa da regressão para a variável resposta. 
Fonte: Autoral. 
 Ao observar o comportamento dos genes da assinatura com o desenvolvimento de 
metástase (Figura 17), foi visto que o miRNA hsa-miR-130a-3p e o lncRNA AF117829.1 foram 
os únicos que tiveram a associação significativa, p-valor = 0,011 e p-valor = 0,029, 
respectivamente. 
 
Figura 17: Razão de Risco de cada gene da assinatura relativo ao desenvolvimento metastático e intervalo de 
confiança de 95%. O miRNA hsa-miR-130a-3p e o lncRNA AF117829.1 foram os únicos significativamente 
associados (p-valor < 0.05). 
Fonte: Autoral. 
56 
 
4.3.3. ANOTAÇÃO FUNCIONAL 
 
Visando avaliar os processos envolvendo os genes participantes da assinatura (Tabela 
8), foram realizadas análises de anotação funcional contra o KEGG e o Gene Ontology, focando 
nos termos processos biológicos (BP) e funções moleculares (MF). 
Ao realizar a anotação funcional dos genes junto ao KEGG, foi visto que os genes 
codantes participantes da assinatura (RASD1, PTTG1, HECW2, RFLNB, BTBD11, INSR e 
HMMR), estão associados a vias de regulação de longevidade, regulação da lipólise em 
adipócitos, reabsorção de sódio regulada pela aldosterona e diversas outras, com um p-valor < 
0,05 (Figura 18a). Adicionalmente, quando avaliadas as vias associadas aos genes regulados 
pelos miRNAs participantes da assinatura (hsa.miR.130a.3p e hsa.miR.381.3p) na plataforma 
mirPath, foram identificadas vias ligadas diretamente ao desenvolvimento oncológico e já bem 
descritas na literatura, como as vias de sinalização do PI3K-AKT, do gene supressor de tumor 
p53, do Fator de Transformação do Crescimento Beta (TGF-beta), como também a via do 
câncer de célula renal e do HIF-alfa (Figura 18b). 
 
 
(a) 
57 
 
 
(b) 
Figura 18: Anotação funcional feita a partir do KEGG, para (a) os sete genes codificantes e (b) os mRNAS alvos 
dos dois miRNAs participantes da assinatura. Cada ponto representa as vias biológicas anotadas (p-valor ajustado 
<0.05). Em ambas o eixo Y representa as vias anotadas para seus respectivos dados de entrada, já o eixo X para a 
figura (a) representa relação de pertencimento entre os mRNAs da assinatura e o total de genes da via, já na figura 
(b) representa a quantidade de genes que são regulados pelos miRNAs e fazem parte da mesma via. 
Fonte: Autor. 
 Os genes codificantes da assinatura estão associados a processos biológicos (GO - BP) 
responsáveis pela regulação da divisão celular, como a separação das cromátides irmãs e a 
segregação cromossômica (Figura 19a). Em relação às vias alteradas pelos miRNAs da 
assinatura, foi possível observar também vias associadas ao processo de divisão celular, além 
de vias associadas às ações de transdução de sinal, fatores de crescimento, regulação da DNA 
polimerase I (Figura 19b), ambas análises utilizando um nível de significância de 0,05. 
 
(a) 
58 
 
 
(b) 
Figura 19: Anotação funcional feita a partir do Gene Ontology, para (a) os sete genes codificantes e (b) os mRNAS 
alvos dos dois miRNAs participantes da assinatura. Em ambas o eixo Y representa as vias anotadas para seus 
respectivos dados de entrada, já o eixo X para a figura (a) a quantidade mRNAs da assinatura nessa via e na figura 
(b) representa a quantidade de genes que são regulados pelos miRNAs e fazem parte da mesma via. 
Fonte: Autor. 
Seguindo com as análises junto ao GO, foi observado que as MF anotadas a partir dos 
genes codificantes de assinatura, estão associadas a diversas atividades de ligação, sendo elas 
referentes à insulina/fatores de crescimento associados a receptores de insulina, filaminas, ácido 
hialurônico GTP (Figura 20a). Ao observar as vias dos alvos dos miRNAs da assinatura, 
mantêm-se a associação comprocessos de ligação, mas associadas a ligação de enzimas, RNA, 
proteínas ao citoesqueleto, fatores de transcrição e diversas outras (Figura 20b). 
 
 
(a) 
59 
 
 
(b) 
Figura 20: Anotação funcional feita a partir do Gene Ontology, para (a) os sete genes codificantes e (b) os mRNAS 
alvos dos dois miRNAs participantes da assinatura. Em ambas o eixo Y representa as vias anotadas para seus 
respectivos dados de entrada, já o eixo X para a figura (a) a quantidade mRNAs da assinatura nessa via e na figura 
(b) representa a quantidade de genes que são regulados pelos miRNAs e fazem parte da mesma via. 
Fonte: Autor. 
 
4.3.4. LNCSEA ANALYSIS 
 
A análise junto ao lncSEA possibilita conhecer como a literatura e os trabalhos 
experimentais estão caracterizando e relacionando os lncRNAs a diversos processos biológicos, 
apresentados em 18 categorias, como apresentadas na metodologia. 
A partir dos 18 lncRNAs participantes da rede ceRNA (Tabela 11), foi realizada uma 
busca nas categorias relacionadas com a sobrevida dos pacientes, ao fenótipo oncológico, a 
ligações de miRNAs e hallmarks do câncer. 
 
Tabela 11: lncRNAs participantes da rede ceRNA 
lncRNAs* 
AC005154.1 EPB41L4A-AS1 NEAT1 
AC015813.1 GAS5 PVT1 
AC016876.2 H19 SNHG1 
AC021078.1 MAGI2-AS3 SNHG5 
AF117829.1 MALAT1 SNHG15 
C1RL-AS1 MIR497HG SNHG20 
* Em negrito os lncRNAs participantes da assinatura. 
Fonte: Autor 
60 
 
Todos os lncRNAs apareceram em pelo menos uma das quatro categorias, valendo 
destacar os lncRNAs AF117829.1, AC021078.1, AC015813.1, AC016876.2, que apareceram 
somente associados a sobrevida dos pacientes, enquanto os 13 lncRNAS restantes aparecem em 
todas as categorias listadas. 
Ao tomarmos como foco os 2 lncRNAs (SNHG15 e AF117829.1) participantes da 
assinatura e suas associações às quatro categorias, foi visto que o SNHG15 é um lncRNA que 
aparece associado a todas as categorias, desempenhando funções sobre os hallmarks do câncer, 
estando relacionado aos processos de apoptose, prognose, invasão e proliferação celular. Nos 
bancos de dados acerca do fenótipo oncológico foi observada a sua presença em todos os 
estadiamentos tumorais, como também foi visto que bancos de dados o relacionam à sobrevida 
dos pacientes, tendo uma associação significativa e associado a diversos miRNAs. Entretanto, 
o AF117829.1 mostrou-se somente relacionado à sobrevida dos pacientes. 
4.4. ASSINATURA TRANSCRICIONAL E A ceRNA 
Ao buscar o posicionamento dos genes participantes da assinatura transcricional na rede 
ceRNA (Figura 21a e 21b), é possível compreender quais são os genes que em conjunto atuam 
como RNA endógenos competidores, para assim ver quais são os processos biológicos 
relacionados a progressão metastática. Como observado, a rede apresenta um padrão de 
organização baseado em clusters. Alguns genes da assinatura ficaram posicionados em clusters 
distintos (Figura 21a) com genes que competiam pelo mesmo miRNA, como no eixo 
AF117829.1 - HMMR - hsa.miR.365.5p - POLE2 , do cluster 1 (Figura 22a). 
Os clusters mais densos (Figura 22b) com um maior número de ligações entre lncRNAs-
miRNAs-mRNAs, compartilham do mesmo miRNA por dois participantes da assinatura, como 
nos eixos INRS - hsa.miR.16-5p - RFLNB e INRS - hsa.miR.424-5p – RFLNB, do cluster 2. 
Adicionalmente também foram observados três genes da assinatura em outra região desse 
mesmo cluster, sendo eles HECW2 - RASD1 - hsa.miR.130a.3p. 
Também foram observados clusters com a presença de somente um gene da assinatura, 
como o hsa-miR-381-3p (Figura 23a) e o BTBD11 (Figura 23b), PTTG1 (Figura 23c), SNHG15 
(Figura 23d), nos cluster 3, 4, 5 e 6, respectivamente. 
 
 
61 
 
 
(a) 
 
(b) 
Figura 21: Posicionamento dos genes da assinatura transcricional dentro da rede ceRNA, (a) Região menos densa, 
com poucas conexões, (b) Região mais densa, com alta quantidade de conexões entre os clusters. 
Fonte: Autoral. 
 
62 
 
 
 
(a) 
 
(b) 
Figura 22: Clusters compostos (a) por um lncRNA e mRNA participante da ceRNA e (b) por vários genes 
participantes da ceRNA, que compartilham o mesmo miRNA. 
Fonte: Autoral. 
 
 
 
63 
 
 
(a) 
 
(b) 
 
(c) 
 
(d) 
Figura 23: (a),(b),(c) e (d) clusters compostos somente com um gene da assinatura transcricional. 
Fonte: Autoral. 
 
 
64 
 
Para facilitar a compreensão dos clusters da rede ceRNA, os alvos diretos dos genes da 
assinatura são apresentados na Tabela 12. 
 
Tabela 12: Genes da assinatura e seus respectivos ligantes na rede ceRNA. 
Gene Ligantes (1º vizinhos) 
AF117829.1 hsa-miR-361-5p, POLE2, HMMR 
BTBD11 
hsa-miR-374a-5p, hsa-miR-374b-5p, 
MAGI2-AS3 
HECW2 
hsa-miR-130a-3p, hsa-miR-130b-3p, hsa-
miR-454-3p, hsa-miR-4295, hsa-miR-3666, 
H19 
HMMR hsa-miR-361-5p, POLE2, AF117829.1 
hsa-miR-130a-3p 
HECW2, WNK3, RASD1, PFKFB3, 
SCARA3, LDLR, PMEPA1, TCF4, PXDB, 
BCL11A, NHSL1, H19 
hsa-miR-381-3p 
RSRP1, CORO1C, ATAD5, RNF149, 
AC016876.2 
INSR 
hsa-miR-16-5p, hsa-miR-424-5p, C1RL-
AS1. 
PTTG1 hsa-miR-186-5p, AC021078.1 
RASD1 
hsa-miR-130a-3p, hsa-miR-130b-3p, hsa-
miR-454-3p, hsa-miR-4295, hsa-miR-3666, 
H19 
RFLNB 
hsa-miR-29a-3p, hsa-miR-29b-3p, hsa-miR-
29c-3p, hsa-miR-16-5p, hsa-miR-424-5p, 
H19, AC005154.1 
SNHG15 hsa-miR-24-3p, IL2RB, NFKBIE, CITED4 
 Fonte: Autoral
4.5. MANUSCRITO PUBLICADO 
 De maneira a difundir os resultados obtidos neste estudo, um manuscrito foi escrito e 
submetido a plataforma bioRxiv como uma forma de disponibilizar os achados antes de sua 
publicação, o preprint pode ser acessado na plataforma pelo DOI: 
https://doi.org/10.1101/2023.07.31.551358, como também se encontra disponível no 
APÊNDICE D. 
 
https://doi.org/10.1101/2023.07.31.551358
65 
 
5. DISCUSSÃO 
No presente estudo foi construída uma assinatura transcricional associada ao 
desenvolvimento metastático, utilizando técnicas de seleção de características em conjunto com 
dados da rede ceRNA para casos de pacientes diagnosticados com carcinoma renal de células 
claras, como também foi avaliado o comportamento biológico dos genes que compõem a 
assinatura. 
5.1. ASSINATURA TRANSCRICIONAL 
A assinatura transcricional resultante (Equação 14) foi obtida a partir da aplicação de 9 
técnicas de seleção de características, para o treinamento das assinaturas. As curvas de 
avaliação de aprendizado da técnica RFE com dados de treinamento apresentaram uma taxa de 
acerto de 76,30% e coeficiente Kappa de 0,5663. De acordo com Landis e Koch (1977), valores 
de kappa compreendidos no intervalo de 0,41 e 0,6 representam uma boa concordância entre a 
resposta do método de classificação com o dado real, e quando analisada junto a acurácia da 
classificação, possibilita uma análise robusta da classificação, considerando o erro de custo 
associado às classificações erradas (BEN-DAVID, 2008). Com intuito de avaliar as assinaturas 
construídas e assim escolher a melhor por meio do benchmarking, foram aplicadas 4 outras 
técnicas de seleção de características. 
Ao aplicar as 4 técnicas foram observados casos de sobreajuste dos dados, o que 
significa que para os dados de treinamento os modelos tiveram bons desempenhos, como o 
svmRadial que apresentou mais de 90% de acurácia. No entanto, ao avaliar a assinatura com os 
dados de validação e teste, o método não apresentou resultados satisfatórios. Com isso, visando 
comparar e escolher as melhores assinaturas de forma significativa, foi utilizado a estatística de 
Youden, baseado na relação da sensibilidade e a especificidade durante a validação e quanto 
mais próximo de 1 melhor, melhor é a classificação (YOUDEN, 1950). Este índice também é 
influenciado pelo número de amostras (ZHOU, 2011). Desta forma, as 4 melhores assinaturas 
foram escolhidas com índices variando de 0,13 a 0,18, (TABELA 6), índices que certamente 
seriam maiores com um maior número de amostras analisadas. 
As quatro assinaturas com o melhor desempenhoforam analisadas e a assinatura 
resultante foi obtida a partir da interseção entre elas, mantendo somente os genes comuns entre 
elas (Figura 12). Corroborando com os dados de origem e a atividade de ceRNA, por apresentar 
em sua composição genes que se espera a função de competidor endógeno, a assinatura final é 
composta pelos genes codificadores de proteínas: (i) PTTG1, (ii) BTBD11, (iii) HECW2, (iv) 
66 
 
INSR, (v) RFLNB, (vi) HMMR, (vii) RASD1; e por genes não codificadores de proteínas: (i) 
SNHG15, (ii) AF117829.1, (iii) hsa-miR-381-3p e (iv) hsa-miR-130a-3p. 
A utilização da validação com um dataset externo é caracterizada como uma atividade 
padrão no campo da aprendizagem de máquina, visando determinar a eficácia e a generalização 
do modelo proposto (HO et al., 2020). Existem diversos estudos voltados para construção de 
assinaturas em ccRCC, com foco na associação da expressão com sobrevida (TERREMATTE 
et al.;2022), na expressão de genes relacionados ao sistema imune (HUA et al., 2020). Neste 
estudo, a validação da assinatura construída apresentou resultados ótimos, com acurácia e AUC 
de 72% e 81.5% respectivamente, representando uma boa associação da assinatura com 
classificação de metástase ou não em ccRCC. 
 
5.2. VALIDAÇÃO E INTERPRETAÇÃO BIOLÓGICA 
5.2.1. ALTERAÇÕES GENÔMICAS E FUNCIONAIS 
Os resultados das análises das alterações somáticas sobre os dados do TCGA-KIRC 
corroboraram com a literatura, apresentando os genes mais frequentemente mutados, VHL, 
PBRM1, SETD2 e BAP1 (Figura 13). A perda ou alteração nos genes VHL, PBRM1 e BAP1 
está relacionado com alterações no Fator Induzível de Hipóxia (HIF), um dos principais 
mecanismos relacionados ao ccRCC (GOSSAGE et al.; 2015, JONASCH et al.; 2021), 
enquanto que a perda do SETD2 influencia no aumento da perda de metilação de DNA nas 
regiões não promotoras (TCGA, 2013). Ao buscar por alterações somáticas existentes nos genes 
codificantes participantes da assinatura, foi visto que todos apresentaram mutações do tipo 
missense ou frame_shitf_del, com exceção do HMMR e do RFLNB (APÊNDICE C). Como 
apresentado por Brody (2023) as mutações missense, são caracterizadas por meio da mudança 
de um aminoácido na sequência do DNA e seus efeitos podem ser nulos ou associados a 
modificações nas proteínas. Avaliando as alterações de números de cópia, nenhum dos genes 
da assinatura (Tabela 9) estão localizados nas regiões com altas taxas de de 
amplificação/deleção (Figura 14) e nem nas regiões mais comumente alteradas (Figura 15). 
Além das alterações genômicas, foi realizada uma análise de risco associada à sobrevida 
(Figura 16) ou ao desenvolvimento metastático (Figura 17). A associação dos genes da 
assinatura a sobrevida dos pacientes foi significativa em quatro genes, PTTG1 (p-valor = 0,020), 
AF117829.1 (p-valor = 0,0001627), hsa-miR-381-3p (p-valor = 0,016) hsa-miR-130a-3p (p-
valor = 0,027) enquanto somente o lncRNA AF117829.1 e o miRNA hsa-miR-130a-3p foram 
67 
 
associados significativamente (p-valor = 0,029 e p-valor = 0.011) ao desenvolvimento 
metastático. O hsa-miR-130a-3p é associado a desenvolvimento metastático e prognóstico ruim 
em diversos cânceres, como câncer de bexiga (ZHU et al., 2021), glioma (XU et al., 2019), 
osteossarcoma (CHEN et al., 2016a, 2016b), câncer de mama (STÜCKRATH et al., 2015), 
hepatocelular (LI et al., 2014), e células pulmonares não pequenas (MA et al., 2020), enquanto 
o lncRNA não apresenta função e mecanismo definido na literatura. O oncogene PTTG1 foi 
associado a um prognóstico ruim ccRCC, onde foi visto que em altos níveis de expressão a 
doença apresenta uma característica de progressão bem agressiva (WONDERGEM et al.,2012). 
O miRNA hsa-miR-381-3p foi descrito como supressor de tumor em ccRCC, onde foi visto que 
ao ser suprimido ocorre a promoção do crescimento tumoral e aumento da resistência ao 
tratamento quimioterápico (CHAN et al.,2019). Sendo assim, a presença dos genes PTTG1 e 
hsa.miR.130a.3p corrobora com a literatura, onde quando em situação de alta expressão ocorre 
uma pior sobrevida dos pacientes, e para os miRNAs hsa.miR.130a.3p e hsa.miR.381.3p 
também é associado ao desenvolvimento metastático, enquanto o lncRNA AF117829.1 têm 
essas características adicionadas as suas ações, que ainda estão em estudo. 
Com os genes da assinatura foi também realizada uma análise de anotação funcional 
contra os bancos KEGG e GO. Quando feito junto ao KEGG utilizando os genes codificantes 
da assinatura (Figura 18a) foi observada uma anotação de vias bem diversificadas. A via com 
maior dobra de enriquecimento está associada com a reabsorção de sódio regulado pela 
aldosterona, que atua no metabolismo do sódio e potássio nos dutos coletores renais 
(CONNELL; DAVIES, 2005), e alguns estudos sobre biomarcadores de desenvolvimento 
metastático (WEI et al., 2019) e prognóstico (ZHANG et al., 2020) no ccRCC apresentaram 
essa via como enriquecida. A via reguladora da longevidade é caracterizada pela regulação de 
diversas outras vias: (a) sinalização de insulina, (b) via de sinalização AMPK e (c) alvos da via 
mTOR, afetadas a partir da restrição calórica, associada a alimentação em mamíferos 
(BARZILAI et al., 2012; LONGO; LIEBER; VIJG, 2008), vias estas que foram anotadas a 
partir dos miRNAs da assinatura. 
Ao utilizar os miRNAs participantes da assinatura foi observada a presença de vias do 
KEGG bastante discutidas na literatura associada ao câncer (Figura 18b). A principal delas foi 
a via de sinalização PI3K/AKT (p-valor = 0,010) relacionada com a regulação da apoptose, 
proliferação celular, e também com a resistência e a resposta terapêutica em diversos cânceres 
(VARA et al.,2004). A via de sinalização FoxO (p- valor = 0,012), é composta por genes da 
subfamília dos fatores de transcrição “foxhead” que atuam como supressores de tumor. Estes 
68 
 
fatores de transcrição estão envolvidos com funções de reparo de DNA, apoptose, proliferação 
e diferenciação celular, além de atuar como mediadores de estresse oxidativo (FARHAN et al, 
2017). A via de sinalização TNF (p-valor = 0,010) está associada aos processos de necrose 
celular, apoptose, oncogênese, progressão, invasão e metástase tumoral, agindo em conjunto 
das vias PI3K/AKT, NF-kappa-B (CHU, 2013). A via de sinalização AMPK (p-valor = 0,011) 
atua como um sinalizador do status de energia celular, como também o crescimento e apoptose 
celular no câncer de próstata, regulando o gene HIF-alpha (STEINBERG; KEMP, 2009). 
Quando analisados contra o GO, foram avaliadas as anotações relativas aos processos 
biológicos e às funções moleculares. As vias relacionadas aos processos biológicos em ambas 
as abordagens, utilizando os genes codificantes e miRNAs, (Figura 19a/b) apresentaram 
anotação relacionado a atividade desempenhadas sob o processo de regulação do ciclo celular, 
controle de separação e segregação das cromátides irmãs, da transcrição RNA polimerase II, 
regulando positiva e negativamente, a sua atividade de transcrição de genes codificantes e não 
codificantes (SCHIER; TAATJES, 2020), como também processos relacionados comunicação 
célula-célula. 
Já as funções moleculares em ambas as abordagens, utilizando os genes codificantes e 
miRNAs (Figura 20a/b) estão ligadas aos processos de ligação de enzimas, das proteínas do 
citoesqueleto, dos fatores de transcrição e das ligações entre íons, como também foram 
observadas vias relacionadas às atividades de ligação das proteínas e dos ácidos nucleicos aos 
fatores de transcrição. 
Os resultados da análise junto ao lncSEA mostram que a função dos lncRNAs na rede 
ceRNA, enquanto atuantes na progressão de patologias e independente do sítio de origem, em 
sua maioria estão bem descritos na literatura, tendo suas funcionalidades e associações 
elencadas e definidas. Sabe-se por exemplo, que o SNHG15, um dos dois lncRNAs da 
assinatura, faz parte da família de pequenosRNAs nucleolares hospedeiros gene, bastante 
discutida na literatura, caracterizada como oncogenes, induzindo a progressão do ciclo celular, 
progressão, invasão e metástases em células tumorais (ZIMTA et al., 2020). Entretanto, para o 
segundo lncRNA da assinatura o AF117829.1, não há ainda uma caracterização do seu 
mecanismo de ação, somente as associações. 
O lncRNA AF117829.1 foi caracterizado por Li e colaboradores, em 2021, ao estudar a 
anemia aplástica severa e observar a associação do lncRNA com os processos de diferenciação 
e proliferação das células T, como também a regulação da função do linfócito T CD8+ por meio 
da elevação da expressão do RIP2 (LI et al., 2021). Corroborando com Li e colaboradores 
69 
 
(2021), Xia et al. (2022) construiu uma assinatura baseada em lncRNAs atuante na piroptose, 
forma altamente inflamatória de morte celular programada, relacionando ao microambiente 
imune do adenocarcinoma de cólon, associando o AF117829.1 ao risco de desencadeamento da 
piroptose. No entanto, os lncRNAs AC016876.2 e AC015813.1 aparecem em artigos, 
relacionando-os ao péssimo prognóstico no câncer esofágico, colorretal e células claras, mas 
devido ao pouco conhecimento de suas funções não se sabem suas relações com as patologias 
(WANG et al.,2021; WANG et al.,2022; CHEN et al.,2022), já o AC021078.1 não apareceu 
listado em nenhum documento da literatura. 
Com isso, a anotação funcional mostrou que os genes da assinatura estão associados 
com processos importantes para o desenvolvimento metastático, associando a vias importantes 
como a PI3K/ATK e mTOR, como também a vias paralelas que representam papéis em 
processos de cascata, que ao serem alteradas desencadeiam respostas anormais e alteram a 
homeostase celular, como a via da longevidade e de regulação de insulina. Já ao observar os 
resultados do lncSEA, conseguimos extrair que a literatura apresenta estudos dos genes da rede 
e da assinatura, em sua maioria já relacionado ao ccRCC ou novas associações, como do 
AF117829.1 que só tinha sido associado a anemia ou câncer colorretal (LI et al., 2022; XI et 
al. 2022). 
5.2.2. ANÁLISE DOS GENES DA ASSINATURA NA REDE CERNA 
A análise dos genes participantes da assinatura e seu posicionamento dentro da ceRNA, 
permite estimar sua atividade biológica no contexto ccRCC e seu papel sobre a progressão 
metastática. Desta forma, iremos discutir a atividade dos genes da assinatura e seus primeiros 
ligantes individualmente e propor a forma de regulação em cada cluster. 
 
AF117829.1 - POLE2 - HMMR - hsa.miR.361.5p 
 O cluster 1 (Figura 22a) apresenta uma rede de competição composta pelo lncRNA 
AF117829.1, integrante da assinatura e os genes hsa-miR-361-5p, POLE2 e HMMR, este último 
também um gene participante da assinatura. Estudos desenvolvidos por Li et al. (2021) e Xia 
et al. (2021), sugerem que este lncRNA, também conhecido como RIPK2-DT, está relacionado 
ao processo de proliferação, diferenciação e regulação da imunidade das células T, porém 
seus mecanismos de ação não estão ainda descritos. O gene HMMR está relacionado com 
motilidade celular e a regulação da locomoção em células tumorais (TURLEY, 1992), e foi 
70 
 
associado ao processo metastático em câncer gástrico, pois seu silenciamento reduziu as 
interações celulares e nível de metástase peritoneal (YANG et al., 2022). 
O gene POLE2 está associado ao processo de síntese do DNA, como também no reparo 
por excisão das bases nucleotídicas (HUANG et al., 2001). A superexpressão deste gene está 
associada a um pior prognóstico de câncer de células escamosas do pulmão (WU et al., 2020), 
enquanto sua baixa expressão, a uma redução da progressão em ccRCC, carcinoma 
hepatocelular e câncer das células escamosas esofágicas (ZHANG et al., 2021; LIU et al.,2015; 
ZHU et al.,2020). Desta forma, o AF117829.1, que apresenta uma expressão aumentada na rede 
ceRNA, provavelmente age como esponja do hsa-miR-361-5p, promovendo os processos de 
diferenciação celular, migração e metástases mediados pelos genes POLE2 e HMMR, 
impedindo a degradação dos mesmos pelo miRNA. 
 
INSR - RFLNB - HECW2 - hsa-miR-130a-3p - RASD1 
O gene INSR atua na regulação da via de sinalização da insulina e na ativação das vias 
oncogênicas PI3K/Akt/mTOR. Em estudos voltados para câncer gástrico e ccRCC, foi 
observada uma relação inversa entre a sua expressão e a sobrevida dos pacientes (SAISANA et 
al.,2021; TAKAHASHI et al., 2017). 
O gene RFLNB atua na ligação das filaminas através da modificação dinâmica de sua 
localização, e está associado a diversos processos, dentre eles a transição epitélio-mesênquima 
(POTHAPRAGADA et al., 2022; MIZUHASHI et al., 2014; GAY et al., 2011). Estudos 
mostram a sua relação com a inibição de crescimento tumoral em neuroblastoma e em 
mesotelioma maligno pleural, promovendo a perda dos oncogenes C e N-myc (MUTHU et al., 
2014; JAMAL et al., 2014). 
O gene HECW2 participa de diversos processos celulares, dentre eles a apoptose e atua 
como oncogene em diversos cânceres (WANG et al., 2020), porém foi associado a uma maior 
sobrevida de pacientes com ccRCC quando em alta expressão (XIE et al., 2021). O hsa-miR-
130a-3p tem sua função definida a partir dos alvos (mRNAs e lncRNAs). No contexto do 
ccRCC, a sua absorção pelo circRNA hsa_circ_0054537 (LI et al., 2020) e pelo lncRNA 
ZFPM2-AS1 (ZHANG et al., 2022) promove a progressão tumoral regulando a via cMET. 
O gene RASD1 é associado a regulação de uma proteína da superfamilia RAS das 
pequenas GTPases e sua ativação é por meio da presença de dexametasona e foi visto que em 
casos de expressão aumentada ocorre uma redução do crescimento celular e um direcionamento 
71 
 
a apoptose agindo de maneira oposta a família RAS, associada a promoção do crescimento 
celular e expansão tumoral (VAIDYANATHAN et al., 2004) 
Sendo assim, os lncRNAs H19, C1RL-AS1 e AC005154.1, que apresentam expressão 
aumentada, podem estar atuando como esponjas, absorvendo os miRNAs (Tabela 11) induzindo 
o aumento na expressão do RFLNB, HECW2 e INSR, possibilitando um ambiente favorável 
para crescimento tumoral. Enquanto, o RASD1 apresenta uma expressão diminuída, indicando 
que os miRNAs que o tem como alvo podem não estar sendo absorvidos e pode estar tornando 
o ambiente celular apto para tumorigênese. 
 
CORO1C - ATAD5 - RSRP1 - RNF149 - AC016876.2 - hsa.miR.381.3p 
A função desempenhada pelo miRNA hsa-miR-381-3p no cluster 3 (Figura 23a) e sua 
relação com o estado metastático, é dada a partir dos seus alvos: CORO1C, ATAD5, RSRP1, 
RNF149 e o lncRNA AC016876.2. O gene CORO1C codifica a família de proteínas repetidas 
WD, associadas a progressão do ciclo celular e apoptose (STELZER et al.,2016), e atua como 
oncogene no câncer renal e câncer de células não pequenas pulmonares (WANG et al.,2020; 
LIAO e PENG, 2020). 
O gene ATAD5 está associado ao processo da duplicação de DNA e alterações sobre ele 
resultam em deficiências no reparo pós-replicação (BELL et al., 2011). Em estudo com câncer 
neuroendócrino hepático primário, foi visto que suas ações estavam relacionadas com a 
regulação do ciclo celular (YANG et al., 2019). O RSRP1, provavelmente envolvido na 
montagem do spliceossomo, está associado a um bom prognóstico em pacientes com câncer de 
mama, de pulmão e hepatocelular, mas o seu mecanismo de ação nessas patologias ainda não é 
conhecido (HONG et al., 2015). 
O RNF149, é responsável por atuar na ubiquitinação e na degradação proteossomal, 
influenciando o crescimento celular, sobrevida, diferenciação e diversas outras atividades 
celulares (HONG et al., 2012) e foi vista a sua associação com câncer pancreático em território 
japonês (LOW et al.,2010). Portanto, a alta expressão do lncRNA AC016876.2 pode estar 
induzindo a expressão do hsa-miR-381-3p através da absorção dos transcritos deste miRNA. 
Essa regulação miRNA-lncRNA está de acordo com revisão feita por Sha etal. (2021) que 
sugere que o miRNA atua como supressor de tumor em diversos sítios tumorais. A consequente 
expressão aumentada dos seus alvos provavelmente age permitindo a progressão tumoral e o 
processo metastático. 
 
72 
 
 
 
BTBD11- hsa.miR.374a.5p - hsa.miR.374b.5p - MAGI2-AS3 
O gene codante BTBD11, participante da assinatura, é regulado diretamente pelos hsa-
miR-374a-5p, hsa-miR-374b-5p, e indiretamente lncRNA MAGI2-AS3. Entretanto, o cluster 
onde o BTBD11 se encontra, regulado por estes 3 ncRNAs, é bem maior, constituído por outros 
17 genes codantes (Figura 23b). Foi observado que proteínas desta família desempenham 
diversas funções, podendo estar associadas a regulação do ciclo celular (PEREZ-TORRADO 
et al., 2006), e Schuldt Filho et al. (2015) identificou o BTBD11, como alvo estimulado pela 
via TGF-beta, envolvida nos processos de inibição do ciclo celular e apoptose. Entretanto, a 
atividade do gene BTBD11, no contexto de desenvolvimento e progressão tumoral ainda é 
desconhecida. Desta forma, a função do BTBD11 no contexto ccRCC será influenciado pelos 
miRNAs e lncRNA, que são as ligações mais próximas no cluster. 
O lncRNA MAGI2-AS3 pode atuar nos processos tumorais como um oncogene ou um 
supressor de tumor, estando envolvido na proliferação celular, invasão, metástase e morte 
celular (KAI-XIN et al., 2021). Em estudo relacionando a atividade do lncRNA em ccRCC, 
Wang et al.(2021) observou que o MAGI2-AS3 atua como um supressor de tumor, reduzindo a 
progressão tumoral e a angiogênese, ao interagir com o fator de transcrição HEY1 que regula o 
gene ACY1. A ligação MAGI2-AS3 - miR374a/b foi observada nos cânceres de mama (DU et 
al., 2019) e hepatocelular (YIN et al., 2019), atuando como supressor de tumor, regulando a 
proliferação, migração e invasão celular. Neste cluster, o lncRNA MAGI2-AS3 se apresentou 
com baixa expressão e portanto parece não conseguir absorver os miRNAs, hsa-miR-374a-5p 
e hsa-miR-374b-5p, que apresentam expressão normal. Desta forma, o papel do BTBD11 
continua desconhecido, mas ao observar os níveis de expressão dos miRNAs pode-se supor que 
ao ser regulado negativamente, afeta a via TGF-beta e não ocorre a inibição dos processos 
celulares associados a ela. 
 
PTTG1 - hsa.miR.186.5p - AC021078.1 
O cluster 5 (Figura 23c), apresenta uma rede de competição composta pelo gene PTTG1, 
integrante da assinatura e os genes não-codantes hsa-miR-153-5p, hsa-miR-186-5p e 
AC021078.1. O lncRNA AC021078.1, tem sua atividade relacionada à regulação dos processos 
de diferenciação celular e reparo de DNA (XIONG et al., 2021). Os genes PTTG1 e FAM111B 
atuam na regulação do ciclo celular. 
73 
 
O oncogene PTTG1 atua na regulação da separação das cromátides irmãs, por meio da 
regulação negativa das separinas (ZHANG et al., 1999).Em estudo desenvolvido por Mei 
(2022) em câncer de mama, foi observado que a ligação entre PTTG1 e hsa-miR-186-5p, está 
relacionada com a regulação da via de sinalização TGF-beta, envolvida na regulação de 
desenvolvimento tecidual e homeostase (ZI, 2019) e na via de sinalização MAPK, associada 
aos processos de proliferação celular, diferenciação, migração, senescência e apoptose (SUN et 
al., 2015). A interação entre PTTG1 e hsa-miR-186-5p também foi observada em outros 
cânceres, como no carcinoma renal, no câncer de células não pequenas do pulmão e de células 
escamosas esofágicas (JIAO et al., 2018; LI et al, 2013, HE et al.,2016). 
O FAM111B é uma protease envolvida no reparo de DNA e apoptose (AROWOLO et 
al., 2022).As alterações sobre o FAM111B resultam na progressão tumoral, proliferação, 
diferenciação, migração, invasão, glicólise e metástases, em adenocarcinoma de pulmão (SUN 
et al., 2019), no tumor papilar de tireoide (ZHU et al., 2022) e câncer de mama (LI et al., 2022). 
Sendo assim, o lncRNA AC021078.1 que apresenta um aumento de sua expressão, parece atuar 
absorvendo o miRNA, hsa-miR-186-5p, possibilitando a atuação do mRNA PTTG1, na 
progressão tumoral e metástase. 
 
SNHG15- IL2RB - NFKBIE - hsa.miR.24.3p 
O cluster 6 (Figura 23d), apresenta uma rede de competição composta pelo lncRNA 
SNHG15, integrante da assinatura, o hsa-miR-24-3p, e os genes codantes IL2RB, NFKBIE e 
CITED4. A via NF-kappa-B está envolvida na regulação do processo inflamatório, no 
desenvolvimento de imunidade inata e no câncer (MITCHELL et al., 2016). A literatura mostra 
que ao silenciar o SNHG15 em RCC ocorre uma supressão na proliferação celular e na transição 
epitélio-mesênquima (EMT) por meio da regulação da via de sinalização NF-kappa-B (DU et 
al., 2018). Neste cluster essa via parece regulada pelo gene NFKBIE, que age como inibidor, se 
ligando aos componentes da via de sinalização, segurando o complexo no citoplasma e inibindo 
a sua ativação (HUTTLIN et al.,2017). Além disso, altos níveis de expressão do SNHG15 estão 
relacionados com progressão para estágio metastático em câncer colorretal e das células não 
pequenas pulmonares (JIN et al., 2018; HUANG et al.,2019). 
Por sua vez, os genes IL2RB e CITED, tem atividade relacionada à resposta imune 
mediada por células T e a regulação da transcrição gênica, respectivamente. A expressão do 
gene CITED está ligada à inibição da transcrição ativada por hipóxia, bloqueando a ligação do 
fator induzível por hipóxia 1 alfa (HIF1-alpha) (FOX et al., 2004) e a ativação de HIF1-alfa é 
74 
 
uma característica bastante presente em pacientes com ccRCC, por meio da mutação do gene 
VHL (GOSSAGE et al., 2015). 
O gene IL2RB, age como um estimulador da proliferação das células T e a ativação deste 
receptor resulta na expressão de citocinas antitumorais. Estudos mostram que em alta expressão, 
o gene IL2RB apresenta um prognóstico ruim em diversos cânceres, sendo associado a 
oncogênese e metástase (LI et al., 2022), sendo alvo de tratamentos imunoterápicos em 
melanoma metastático e carcinoma renal (SHARMA et al., 2020). 
Sendo assim, o aumento da expressão do lncRNA SNHG15 parece promover a 
proliferação celular absorvendo o miRNA hsa-miR-24-3p, identificado como um oncogene em 
estudo desenvolvido por Jin e colaboradores, em 2017, possibilitando a atividade dos genes 
alvos, que estão com expressão aumentada. 
Apesar de já existir na literatura uma grande quantidade de estudos, testados e validados, 
relacionando os mecanismos de ação e os efeitos dos lncRNAs, miRNAs e mRNAs a diversas 
patologias, ainda existe uma lacuna das associações destes com o processo metastático, como 
também a sua relação com outras doenças. 
O projeto TCGA permite a aplicação de diversas técnicas de bioinformática e de 
aprendizagem de máquina, que contribuem para a construção de conhecimento tumoral, 
independente do sítio. No entanto, o pequeno número de dados relacionados à presença de 
metástase nos pacientes do projeto TCGA-KIRC foi um limitador deste trabalho. A necessidade 
do balanceamento dos dados reduziu a quantidade de amostras utilizadas para a construção da 
assinatura afetando a utilização das técnicas de seleção de características e resultando em taxas 
de acurácia, sensibilidade e especificidades mais baixas que o esperado. 
Apesar destas limitações, o presente estudo fornece diversas contribuições, como a 
utilização de técnicas seleção de características para dados transcriptômicos, associando-os a 
área de conhecimento dos ncRNAs e suas atividade como ceRNA, construindo uma assinatura 
baseada na atividade desses transcritos quando relacionada a progressão metastática da 
patologia, e também levanta novos questionamentos, que ao serem estudados e sanados, irão 
possibilitar o melhor entendimento da progressão tumoral no câncer de rim, como também em 
outras patologias. 
75 
 
6. CONCLUSÃO 
 
Este trabalho teve como objetivo construir uma assinatura transcricional do carcinoma 
renal de células claras a partir de genes diferencialmente expressos que compõem umarede de 
RNA Endógeno Competidor, para classificar o desenvolvimento metastático e avaliar as 
possíveis funções biológicas associadas a progressão tumoral. 
A utilização das técnicas de seleção de características para a construção da assinatura 
sobre os dados transcriptômicos da rede ceRNA representa uma aplicação promissora nesta 
vasta área de conhecimento de reconhecimento de padrões e machine learning. A junção entre 
os dados de expressão com os dados clínicos possibilitou a construção das assinaturas 
transcricionais que apresentaram diversos genes em suas composições e a utilização das 
métricas avaliativas auxiliaram no entendimento do comportamento da assinatura, observando 
como estava o acerto, a sensibilidade e especificidade, da mesma quanto a classificação 
metastática, e facilitando na escolha das melhores características. 
Apesar das taxas de acurácia e das outras métricas avaliativas resultarem em valores 
presentes no intervalo de 60% a 70%, foi visto, a partir das análises genômicas e de anotação 
funcional, que existe uma associação significativa dos genes da assinatura com os processos de 
crescimento, diferenciação e invasão celular, que são processos significativos para a progressão 
tumoral e evolução de estágios metastáticos. Ao utilizar o conjunto de dados externo, foi 
possível observar o quão generalista a assinatura é, validando assim a sua ação como 
classificador metastático em câncer renal de células claras. 
Com a análise cluster a cluster, ficou conhecida as possíveis ações desempenhadas pelos 
genes da assinatura dentro do ambiente celular do carcinoma renal de células claras, e como se 
dá os efeitos desse processo de regulação. 
Em trabalhos futuros, pretende-se melhorar o desempenho da assinatura ou até mesmo 
buscar novas variáveis alvo da classificação utilizando um novo banco de dados independente 
e externo, somente a para o processo de teste e validação da assinatura e usando todos os dados 
do projeto TCGA-KIRC como aprendizagem. Como também utilização de novas técnicas de 
seleção de características para a construção da assinatura, associando-a a técnicas de 
aprendizagem profunda para anotação das análises e da assinatura. 
76 
 
REFERÊNCIAS BIBLIOGRÁFICAS 
 
ALA, U. Competing Endogenous RNAs, Non-Coding RNAs and Diseases: An 
Intertwined Story. Cells, v. 9, n. 7, p. 1574, 28 jun. 2020. 
 
AALEN, Odd O.. A linear regression model for the analysis of life times. Statistics In 
Medicine, [S.L.], v. 8, n. 8, p. 907-925, ago. 1989. Wiley. 
 
AMIN, M. B.; AMERICAN JOINT COMMITTEE ON CANCER; AMERICAN CANCER 
SOCIETY (EDS.). AJCC cancer staging manual. Eight edition /editor-in-chief, Mahul B. 
Amin, MD, FCAP ; editors, Stephen B. Edge, MD, FACS [and 16 others] ; Donna M. Gress, 
RHIT, CTR-Technical editor ; Laura R. Meyer, CAPM-Managing editor ed. Chicago IL: 
American Joint Committee on Cancer, Springer, 2017. 
 
AROWOLO, Afolake et al. Proposed Cellular Function of the Human FAM111B Protein and 
Dysregulation in Fibrosis and Cancer. Frontiers In Oncology, [S.L.], v. 12, n. 4, p. 1-7, 4 jul. 
2022. Frontiers Media SA. 
 
BARZILAI, N. et al. The Critical Role of Metabolic Pathways in Aging. Diabetes, v. 61, n. 6, 
p. 1315–1322, 1 jun. 2012. 
BELL, Daphne W. et al. Predisposition to Cancer Caused by Genetic and Functional Defects 
of Mammalian Atad5. Plos Genetics, [S.L.], v. 7, n. 8, p. 1-15, 25 ago. 2011. Public Library 
of Science (PLoS). 
 
BEN-DAVID,A. . Comparison of classification accuracy using Cohen’s Weighted Kappa. 
Expert Systems With Applications, [S.L.], v. 34, n. 2, p. 825-832, fev. 2008. Elsevier BV. 
 
BENEDETTO, U. et al. Statistical primer: propensity score matching and its alternatives†. 
European Journal of Cardio-Thoracic Surgery, v. 53, n. 6, p. 1112–1117, 1 jun. 2018. 
 
BHAN, A.; SOLEIMANI, M.; MANDAL, S. S. Long Noncoding RNA and Cancer: A New 
Paradigm. Cancer Research, v. 77, n. 15, p. 3965–3981, 1 ago. 2017. 
 
BIAN, Z.; FAN, R.; XIE, L. A Novel Cuproptosis-Related Prognostic Gene Signature and 
Validation of Differential Expression in Clear Cell Renal Cell Carcinoma. Genes, v. 13, n. 5, 
p. 851, 10 maio 2022. 
 
BORKIEWICZ, L. et al. Decoding LncRNAs. Cancers, v. 13, n. 11, p. 2643, 27 maio de 
2021. 
 
Brasil, Ministério da Saúde. Banco de dados do Sistema Único de Saúde-DATASUS. 
Disponível em <http://www.datasus.gov.br>. Acesso em: 18 de dez. 2022. 
 
BREIMAN, L. RANDOM FORESTS. Machine Learning, v. 45, n. 1, p. 5–32, 2001. 
 
 
77 
 
BRIER, G. W. VERIFICATION OF FORECASTS EXPRESSED IN TERMS OF 
PROBABILITY. Monthly Weather Review, v. 78, n. 1, p. 1–3, jan. 1950. 
 
BRODY, Lawrence. Missense Mutation. 2023. Disponível em: 
https://www.genome.gov/genetics-glossary/Missense-Mutation. Acesso em: 08 fev. 2023. 
 
CLASSIFICAÇÃO: curva ROC e AUC. 2022. Disponível em: 
https://developers.google.com/machine-learning/crash-course/classification/roc-and-auc. 
Acesso em: 15 jan. 2023. 
 
CHAN, J.; TAY, Y. Noncoding RNA:RNA Regulatory Networks in Cancer. International 
Journal of Molecular Sciences, v. 19, n. 5, p. 1310, 27 abr. 2018. 
 
CHAN, Yunhui et al. Inhibition of MicroRNA-381 Promotes Tumor Cell Growth and 
Chemoresistance in Clear-Cell Renal Cell Carcinoma. Medical Science Monitor, [S.L.], v. 
25, p. 5181-5190, 12 jul. 2019. International Scientific Information, Inc.. 
 
CHEN, J. et al. MicroRNA-130a promotes the metastasis and epithelial-mesenchymal 
transition of osteosarcoma by targeting PTEN. Oncology Reports, v. 35, n. 6, p. 3285–3292, 
jun. 2016a. 
 
CHEN, J. et al. MicroRNA-130a promotes the metastasis and epithelial-mesenchymal 
transition of osteosarcoma by targeting PTEN. Oncology Reports, v. 35, n. 6, p. 3285–3292, 
jun. 2016b. 
 
CHEN, J. et al. LncSEA: a platform for long non-coding RNA related sets and enrichment 
analysis. Nucleic Acids Research, v. 49, n. D1, p. D969–D980, 8 jan. 2021. 
 
CHEN, T.; GUESTRIN, C. XGBoost: A Scalable Tree Boosting System. 2016. 
 
CHEN, Z. et al. Construction and Characterization of n6-Methyladenosine-Related lncRNA 
Prognostic Signature and Immune Cell Infiltration in Kidney Renal Clear Cell Carcinoma. 
Journal of Oncology, v. 2022, p. 1–10, 29 set. 2022. 
 
CHEN, W. et al. A Novel Prognostic Predictor of Immune Microenvironment and 
Therapeutic Response in Kidney Renal Clear Cell Carcinoma based on Necroptosis-related 
Gene Signature. International Journal of Medical Sciences, v. 19, n. 2, p. 377–392, 2022. 
 
CHEONG, J.-H. et al. Development and validation of a prognostic and predictive 32-gene 
signature for gastric cancer. Nature Communications, v. 13, n. 1, p. 774, 9 fev. 2022. 
CHIU, H.-S. et al. Pan-Cancer Analysis of lncRNA Regulation Supports Their Targeting of 
Cancer Genes in Each Tumor Context. Cell Reports, v. 23, n. 1, p. 297- 312.e12, abr. 2018. 
 
CHU, Wen-Ming. Tumor necrosis factor. Cancer Letters, [S.L.], v. 328, n. 2, p. 222-225, 
jan. 2013. Elsevier BV. 
 
COLAPRICO, A. et al. TCGAbiolinks: an R/Bioconductor package for integrative analysis of 
TCGA data. Nucleic Acids Research, v. 44, n. 8, p. e71–e71, 5 maio 2016. 
78 
 
 
CONESA, A.; BECK, S. Making multi-omics data accessible to researchers. Scientific Data, 
v. 6, n. 1, p. 251, 31 out. 2019. 
 
CONNELL, J. M. C.; DAVIES, E. The new biology of aldosterone. Journal of 
Endocrinology, v. 186, n. 1, p. 1–20, jul. 2005. 
CUI, H. et al. Identification of the key genes and pathways involved in the tumorigenesis and 
prognosis of kidney renal clear cell carcinoma. Scientific reports, Nature Publishing 
Group, v. 10, n. 1, p. 1–10, 2020 
 
DALIANIS, H. Evaluation Metrics and Evaluation. Em: DALIANIS, H. (Ed.). Clinical Text 
Mining. Cham: Springer International Publishing, 2018. p.45–53. 
 
DALL’OGLIO, Marcos et al. Câncer de Rim. In: LOPES, Antônio Carlos. Tratado de Clínica 
Médica. 2. Ed. Rio de Janeiro: Roca, 2006. Cap. 305. P. 3242-3248. 
 
DU, Shanmeiet al. Long non-coding RNA MAGI2-AS3 inhibits breast cancer cell migration 
and invasion via sponging microRNA-374a. Cancer Biomarkers, [S.L.], v. 24, n. 3, p. 269-
277, 3 abr. 2019. IOS Press. 
 
DU, Y. et al. Knockdown of SNHG15 suppresses renal cell carcinoma proliferation and EMT 
by regulating the NF-B signaling pathway. International Journal of Oncology, 4 maio 
2018. 
 
FARHAN, M. et al. FOXO Signaling Pathways as Therapeutic Targets in Cancer. 
International Journal of Biological Sciences, v. 13, n. 7, p. 815–827, 2017. 
 
FARIAS FILHO, Epitácio Dantas de. Análise do Transcriptoma de Carcinoma Renal de 
Células Claras Baseada em RNAs Não Codificantes. Trabalho de Conclusão de Curso, 
Graduação em Engenharia Biomédica, Universidade Federal do Rio Grande do Norte, 70 p., 
2022. 
 
FERRER, L. Analysis and Comparison of Classification Metrics. 2022. 
 
FOX, Stephen B. et al. CITED4 Inhibits Hypoxia-Activated Transcription in Cancer Cells, 
and Its Cytoplasmic Location in Breast Cancer Is Associated with Elevated Expression of 
Tumor Cell Hypoxia-Inducible Factor 1α. Cancer Research, [S.L.], v. 64, n. 17, p. 6075-
6081, 1 set. 2004. American Association for Cancer Research (AACR). 
 
FRIEDMAN, J. et al. “Regularization Paths for Generalized Linear Models via Coordinate 
Descent.” Journal of statistical software vol. 33,1 (2010): 1-22. 
 
GAY, Olivia et al. RefilinB (FAM101B) targets FilaminA to organize perinuclear actin 
networks and regulates nuclear shape. Proceedings Of The National Academy Of Sciences, 
[S.L.], v. 108, n. 28, p. 11464-11469, 27 jun. 2011. Proceedings of the National Academy of 
Sciences. 
 
79 
 
GOMES, C. et al. Catalyzing Transcriptomics Research in Cardiovascular Disease: The 
CardioRNA COST Action CA17129. Non-Coding RNA, v. 5, n. 2, p. 31, 29 mar. 2019. 
 
GOLDMAN, M. J. et al. Visualizing and interpreting cancer genomics data via the Xena 
platform. Nature Biotechnology, v. 38, n. 6, p. 675–678, jun. 2020. 
 
GOSSAGE, L.; EISEN, T.; MAHER, E. R. VHL, the story of a tumour suppressor gene. 
Nature Reviews Cancer, v. 15, n. 1, p. 55–64, jan. 2015. 
 
GUIMARÃES, B. D. Associação de Polimorfismos de Nucleotídeo Único (SNPS) dos genes 
PSCA, TP53 e NQO1 e sua relação com o desenvolvimento de carcinoma mamário em 
mulheres no Estado da Paraíba. Dissertação. Programa de Pós-Graduação em Biologia Celular 
e Molecular. Universidade Federal da Paraíba. 2020. 
 
GUO, G. et al. KNN Model-Based Approach in Classification. Em: MEERSMAN, R.; TARI, 
Z.; SCHMIDT, D. C. (Eds.). On The Move to Meaningful Internet Systems 2003: CoopIS, 
DOA, and ODBASE. Lecture Notes in Computer Science. Berlin, Heidelberg: Springer 
Berlin Heidelberg, 2003. v. 2888p. 986–996. 
 
HAJRI, Qais Al et al. Identifying multi-hit carcinogenic gene combinations: scaling up a 
weighted set cover algorithm using compressed binary matrix representation on a gpu. 
Scientific Reports, [S.L.], v. 10, n. 1, p. 1-18, 6 fev. 2020. Springer Science and Business 
Media LLC. 
 
HANAHAN, D.; WEINBERG, R. A. Hallmarks of Cancer: The Next Generation. 
Cell, v. 144, n. 5, p. 646–674, mar. 2011. 
 
HANDELMAN, G. S. et al. Peering Into the Black Box of ArtificialIntelligence: Evaluation 
Metrics of Machine Learning Methods. American Journal of Roentgenology, v. 212, n. 1, p. 
38–43, jan. 2019. 
 
HARRISON et al. (2022). Finalfit: Quickly Create Elegant Regression Results Tables and 
Plots hit Modelling. R package version 1.0.6. Disponível em: Acesso em: 07 de Fevereiro de 
2023; 
 
HE, Wei et al. MicroRNA-186 inhibits cell proliferation and induces apoptosis in human 
esophageal squamous cell carcinoma by targeting SKP2. Laboratory Investigation, [S.L.], v. 
96, n. 3, p. 317-324, mar. 2016. Elsevier BV. 
 
HO, D.; IMAI, K.; KING, G.; STUART, E. A. MatchIt: Nonparametric Preprocessing for 
Parametric Causal Inference. Journal of Statistical Software, [S. l.], v. 42, n. 8, p. 1–28, 
2011. DOI: 10.18637/jss.v042.i08. 
 
HO, S. Y. et al. Extensions of the External Validation for Checking Learned Model 
Interpretability and Generalizability. Patterns, v. 1, n. 8, p. 100129, nov. 2020. 
HONG, Chao-Qun et al. Elevated C1orf63 expression is correlated with CDK10 and predicts 
better outcome for advanced breast cancers: a retrospective study. Bmc Cancer, [S.L.], v. 15, 
n. 1, p. 1-12, 25 jul. 2015. Springer Science and Business Media LLC. 
80 
 
 
HONG, Seung-Woo et al. Ring Finger Protein 149 Is an E3 Ubiquitin Ligase Active on Wild-
type v-Raf Murine Sarcoma Viral Oncogene Homolog B1 (BRAF). Journal Of Biological 
Chemistry, [S.L.], v. 287, n. 28, p. 24017-24025, jul. 2012. Elsevier BV. 
http://dx.doi.org/10.1074/jbc.m111.319822. 
 
HUA, X. et al. Identification of an immune-related risk signature for predicting prognosis in 
clear cell renal cell carcinoma. Aging, v. 12, n. 3, p. 2302–2332, 6 fev. 2020. 
 
HUANG, D. et al. E2F mediates induction of the Sp1-controlled promoter of the human DNA 
polymerase varepsilon B-subunit gene POLE2. Nucleic Acids Research, [S.L.], v. 29, n. 13, 
p. 2810-2821, 1 jul. 2001. Oxford University Press (OUP). 
 
HUANG, L. et al. Aberrant expression of long noncoding RNA SNHG15 correlates with liver 
metastasis and poor survival in colorectal cancer. Journal of Cellular Physiology, v. 234, n. 
5, p. 7032 7039, maio 2019. 
 
HUTTLIN, Edward L. et al. Architecture of the human interactome defines protein 
communities and disease networks. Nature, [S.L.], v. 545, n. 7655, p. 505-509, maio 2017. 
Springer Science and Business Media LLC. 
 
INCA – Instituto Nacional do Câncer. Câncer de Mama. Disponível em: 
<https://www.inca.gov.br/tipos-de-cancer/cancer-de-mama>. Acesso em 20 de dezembro de 
2022. 
 
JAMAL, Shazia et al. CARP-1 Functional Mimetics Are a Novel Class of Small Molecule 
Inhibitors of Malignant Pleural Mesothelioma Cells. Plos One, [S.L.], v. 9, n. 3, p. 1-14, 5 
mar. 2014. Public Library of Science (PLoS). 
 
JAW, E.; WANG, X. Feature Selection and Ensemble-Based Intrusion Detection System: An 
Efficient and Comprehensive Approach. Symmetry, v. 
13, n. 10, p. 1764, 22 set. 2021. 
 
JIAO, Dan et al. MicroRNA-186 Suppresses Cell Proliferation and Metastasis Through 
Targeting Sentrin-Specific Protease 1 in Renal Cell Carcinoma. Oncology Research 
Featuring Preclinical And Clinical Cancer Therapeutics, [S.L.], v. 26, n. 2, p. 249-259, 5 
mar. 2018. Computers, Materials and Continua (Tech Science Press). 
 
JIN, B. et al. Long non coding RNA SNHG15 promotes CDK14 expression via miR 486 to 
accelerate non small cell lung cancer cells progression and metastasis. Journal of Cellular 
Physiology, v. 233, n. 9, p. 7164 7172, set. 2018. 
 
JIN, Lu et al. MicroRNA-24-2 is associated with cell proliferation, invasion, migration and 
apoptosis in renal cell carcinoma. Molecular Medicine Reports, [S.L.], v. 16, n. 6, p. 9157-
9164, 4 out. 2017. Spandidos Publications. 
 
JONASCH, E.; WALKER, C. L.; RATHMELL, W. K. Clear cell renal cell carcinoma 
ontogeny and mechanisms of lethality. Nature Reviews Nephrology, v. 17, n. 4, p. 245–261, 
abr. 2021. 
81 
 
 
KAI-XIN, Liu et al. Roles of lncRNA MAGI2-AS3 in human cancers. Biomedicine & 
Pharmacotherapy, [S.L.], v. 141, n. 1, p. 1-8, set. 2021. Elsevier BV. 
 
KANEHISA, M. KEGG: Kyoto Encyclopedia of Genes and Genomes. Nucleic Acids 
Research, v. 28, n. 1, p. 27–30, 1 jan. 2000. 
 
KANEHISA, M. Toward understanding the origin and evolution of cellular organisms. 
Protein Science, v. 28, n. 11, p. 1947–1951, nov. 2019. 
 
KANEHISA, M. et al. KEGG: integrating viruses and cellular organisms. Nucleic Acids 
Research, v. 49, n. D1, p. D545–D551, 8 jan. 2021. 
 
KANN, B. H.; HOSNY, A.; AERTS, H. J. W. L. Artificial intelligence for clinical oncology. 
Cancer Cell, v. 39, n. 7, p. 916–927, jul. 2021. 
 
KAZIMIERCZYK et al. Human Long Noncoding RNA Interactome: Detection, 
Characterization and Function.International Journal of Molecular Sciences, v. 21, n. 3, p. 
1027, 4 fev. 2020. 
 
KLINGE, C. M. Non-coding RNAs: long non-coding RNAs and microRNAs in endocrine-
related cancers. Endocrine-Related Cancer, v. 25, n. 4, p. R259–R282, abr. 2018. 
 
KUHN, M.; JOHNSON, K. Feature engineering and selection: a practical approach for 
predictive models. Boca Raton London New York: CRC Press, Taylor & Francis Group, 
2020. 
 
KUMAR, V. et al. Robbins e Cotran: patologia: bases patológicas das doenças. 7. ed ed. Rio 
de Janeiro: Elsevier, 2008. 
 
KURSA, M. B.; RUDNICKI, W. R. Feature Selection with the Boruta Package. 
Journal of Statistical Software, v. 36, n. 11, 2010. 
 
Landis, J.R., Koch, G.G. 1977.The Measurement of Observer Agreement for 
Categorical Data. International Biometric Society 33 (1),159-174. 
 
LI, B. et al. MicroRNA-130a is down-regulated in hepatocellular carcinoma and associates 
with poor prognosis. Medical Oncology, v. 31, n. 10, p. 230, out. 2014. 
 
LI, Guangyao et al. IL2RB Is a Prognostic Biomarker Associated with Immune Infiltrates in 
Pan-Cancer. Journal Of Oncology, [S.L.], v. 2022, p. 1-29, 29 abr. 2022. Hindawi Limited 
 
LI, Hongli et al. PTTG1 promotes migration and invasion of human non-small cell lung 
cancer cells and is modulated by miR-186. Carcinogenesis, [S.L.], v. 34, n. 9, p. 2145-2155, 
13 maio 2013. Oxford University Press (OUP). 
 
LI, R. et al. GDCRNATools: an R/Bioconductor package for integrative analysis of lncRNA, 
miRNA and mRNA data in GDC. Bioinformatics, v. 34, n. 14, p. 2515–2517, 15 jul. 2018. 
 
82 
 
LI, Rui et al. Circular RNA hsa_circ_0054537 sponges miR-130a-3p to promote the 
progression of renal cell carcinoma through regulating cMet pathway. Gene, [S.L.], v. 754, p. 
1-9, set. 2020. Elsevier BV 
 
LI, Y. et al. The Role of lncRNA AF117829.1 in the Immunological Pathogenesis of Severe 
Aplastic Anaemia. Oxidative Medicine and Cellular Longevity, v. 2021, p. 1 19, 15 mar. 
2021. 
 
LI, Wei et al. YY1-Induced Transcriptional Activation of FAM111B Contributes to the 
Malignancy of Breast Cancer. Clinical Breast Cancer, [S.L.], v. 22, n. 4, p. 417-425, jun. 
2022. Elsevier BV. 
 
LIAO, Ming; PENG, Lijun. MiR-206 may suppress non-small lung cancer metastasis by 
targeting CORO1C. Cellular & Molecular Biology Letters, [S.L.], v. 25, n. 1, p. 1-13, 17 
mar. 2020. Springer Science and Business Media LLC. 
 
LIÑARES-BLANCO, J.; PAZOS, A.; FERNANDEZ-LOZANO, C. Machine learning 
analysis of TCGA cancer data. PeerJ Computer Science, v. 7, p.e584, 12 jul. 2021. 
 
LIU, B. et al. Identification of a Gene Signature for Renal Cell Carcinoma–Associated 
Fibroblasts Mediating Cancer Progression and Affecting Prognosis. Frontiers in Cell and 
Developmental Biology, v. 8, p. 604627, 5 fev. 2021. 
 
LIU, Hao et al. DNA Polymerases as targets for gene therapy of hepatocellular carcinoma. 
Bmc Cancer, [S.L.], v. 15, n. 1, p. 1-11, 29 abr. 2015. Springer Science and Business Media 
LLC. 
 
LIU, H.; MOTODA, H. (EDS.). Computational methods of feature selection. Boca Raton: 
Chapman & Hall/CRC, 2008. 
 
LIU, S. J. et al. Long noncoding RNAs in cancer metastasis. Nature Reviews Cancer, v. 21, 
n. 7, p. 446–460, jul. 2021. 
 
LIU, X. et al. Long Non-Coding RNA Emergence During Renal Cell Carcinoma 
Tumorigenesis. Cellular Physiology and Biochemistry, v. 47, n. 2, p. 735–746, 2018. 
LIU, Z. et al. Machine learning-based integration develops an immune-derived lncRNA 
signature for improving outcomes in colorectal cancer. Nature Communications, v. 13, n. 1, 
p. 816, 10 fev. 2022. 
 
LONGO, V. D.; LIEBER, M. R.; VIJG, J. Turning anti-ageing genes against cancer. Nature 
Reviews Molecular Cell Biology, v. 9, n. 11, p. 903–910, nov. 2008. 
 
LÓPEZ-URRUTIA, E. et al. Crosstalk Between Long Non-coding RNAs, Micro- 
RNAs and mRNAs: Deciphering Molecular Mechanisms of Master Regulators 
in Cancer. Frontiers in Oncology, v. 9, p. 669, 25 jul. 2019. 
 
LOVE, M. I.; HUBER, W.; ANDERS, S. Moderated estimation of fold change and dispersion 
for RNA-seq data with DESeq2. Genome Biology, v. 15, n. 12, p. 550, dez. 2014. 
83 
 
 
LOW, Siew-Kee et al. Genome-Wide Association Study of Pancreatic Cancer in Japanese 
Population. Plos One, [S.L.], v. 5, n. 7, p. 1-7, 29 jul. 2010. Public Library of Science 
(PLoS). 
 
MA, Fang et al. The microRNA-130a-5p/RUNX2/STK32A network modulates tumor 
invasive and metastatic potential in non-small cell lung cancer. Bmc Cancer, [S.L.], v. 20, n. 
1, p. 1-12, 22 jun. 2020. Springer Science and Business Media LLC. 
 
MAYAKONDA, A. et al. Maftools: efficient and comprehensive analysis of somatic variants 
in cancer. Genome Research, v. 28, n. 11, p. 1747–1756, nov. 2018. 
 
MEI, Linhang. Multiple types of noncoding RNA are involved in potential modulation of 
PTTG1's expression and function in breast cancer. Genomics, [S.L.], v. 114, n. 3, p. 1-15, 
maio 2022. Elsevier BV. 
 
MERMEL, C. H. et al. GISTIC2.0 facilitates sensitive and confident localization of the 
targets of focal somatic copy-number alteration in human cancers. Genome Biology, v. 12, n. 
4, p. R41, abr. 2011. 
 
MITCHELL, Simon et al. Signaling via the NFκB system. Wires Systems Biology And 
Medicine, [S.L.], v. 8, n. 3, p. 227-241, 16 mar. 2016. Wiley. 
 
MIZUHASHI, Koji et al. Filamin-interacting proteins, Cfm1 and Cfm2, are essential for the 
formation of cartilaginous skeletal elements. Human Molecular Genetics, [S.L.], v. 23, n. 
11, p. 2953-2967, 16 jan. 2014. Oxford University Press (OUP). 
 
MORRIS, J. A.; GARDNER, M. J. Statistics in Medicine: calculating confidence intervals for 
relative risks (odds ratios) and standardised ratios and rates. Bmj, [S.L.], v. 296, n. 6632, p. 
1313-1316, 7 maio 1988. BMJ. 
 
MORRIS, K. V.; MATTICK, J. S. The rise of regulatory RNA. Nature Reviews Genetics, v. 
15, n. 6, p. 423–437, jun. 2014. 
 
MUGLIA, Valdair F.; PRANDO, Adilson. Renal cell carcinoma: histological classification 
and correlation with imaging findings. Radiologia Brasileira, [S.L.], v. 48, n. 3, p. 166-174, 
jun. 2015. FapUNIFESP (SciELO). 
 
MUTHU, Magesh et al. Mechanisms of Neuroblastoma Cell Growth Inhibition by CARP-1 
Functional Mimetics. Plos One, [S.L.], v. 9, n. 7, p. 1-17, 17 jul. 2014. Public Library of 
Science (PLoS). 
 
NABI, S. et al. Renal cell carcinoma: a review of biology and pathophysiology. 
F1000Research, v. 7, p. 307, 12 mar. 2018. 
 
NARKHEDE, Sarang. Understanding AUC-ROC Curve. 2018. Disponível em: 
https://towardsdatascience.com/understanding-auc-roc-curve-68b2303cc9c5. Acesso em: 15 
jan. 2023. 
 
84 
 
NKF - NATIONAL KIDNEY FOUNDATION. RENAL CARCINOMA GUIDELINES. 
LONDRES – UK, 2017 
 
O'LEARY, Nuala A. et al. Reference sequence (RefSeq) database at NCBI: current status, 
taxonomic expansion, and functional annotation. Nucleic Acids Research, [S.L.], v. 44, n. 1, 
p. 733-745, 8 nov. 2015. Oxford University Press (OUP). 
http://dx.doi.org/10.1093/nar/gkv1189. 
 
PADALA, S. A. et al. Epidemiology of Renal Cell Carcinoma. World Journal of Oncology, 
v. 11, n. 3, p. 79–87, 2020. 
 
PEREZ-TORRADO, Roberto; YAMADA, Daisuke; DEFOSSEZ, Pierre-Antoine. Born to 
bind: the btb protein⠳protein interaction domain. Bioessays, [S.L.], v. 28, n. 12, p. 1194-
1202, 2006. Wiley. 
 
POPŁAWSKI, P. et al. Nucleolar Proteins and Non-Coding RNAs: Roles in Renal Cancer. 
International Journal of Molecular Sciences, v. 22, n. 23, p. 13126, 4 dez. 2021. 
 
POTHAPRAGADA, Shilpa P. et al. Matrix mechanics regulates epithelial defence against 
cancer by tuning dynamic localization of filamin. Nature Communications, [S.L.], v. 13, n. 
1, p. 1-12, 11 jan. 2022. Springer Science and Business Media LLC. 
 
P., Muhammed Niyas K.; P., Thiyagarajan. Alzheimer's classification using dynamic 
ensemble of classifiers selection algorithms: a performance analysis. Biomedical Signal 
ProcessingAnd Control, [S.L.], v. 68, n. 102729, p. 1-18, jul. 2021. Elsevier BV. 
 
QI, X. et al. Decoding competing endogenous RNA networks for cancer biomarker discovery. 
Briefings in Bioinformatics, v. 21, n. 2, p. 441–457,23 mar. 2020. 
 
REEL, P. S. et al. Using machine learning approaches for multi-omics data 
analysis: A review. Biotechnology Advances, v. 49, p. 107739, jul. 2021. 
 
SAISANA, Marina et al. Insulin and the insulin receptor collaborate to promote human 
gastric cancer. Gastric Cancer, [S.L.], v. 25, n. 1, p. 107-123, 23 set. 2021. Springer Science 
and Business Media LLC. 
 
SALMENA, L. et al. A ceRNA Hypothesis: The Rosetta Stone of a Hidden RNA Language? 
Cell, v. 146, n. 3, p. 353–358, ago. 2011. 
 
SAMUEL, A. L. Some Studies in Machine Learning Using the Game of Checkers. IBM 
Journal of Research and Development, v. 3, n. 3, p.210–229, jul. 1959. 
 
SCHRIML, L. M. et al. Human Disease Ontology 2018 update: classification, content and 
workflow expansion. Nucleic Acids Research, v. 47, n. D1, p. D955–D962, 8 jan. 2019. 
 
SCHIER, A. C.; TAATJES, D. J. Structure and mechanism of the RNA polymerase II 
transcription machinery. Genes & Development, v. 34, n. 7–8,p. 465–488, 1 abr. 2020. 
 
85 
 
SCHISTERMAN, Enrique F. et al. Optimal Cut-point and Its Corresponding Youden Index to 
Discriminate Individuals Using Pooled Blood Samples. Epidemiology, [S.L.], v. 16, n. 1, p. 
73-81, jan. 2005. Ovid Technologies (Wolters Kluwer Health). 
 
SCHMITZ, S. U.; GROTE, P.; HERRMANN, B. G. Mechanisms of long noncoding RNA 
function in development and disease. Cellular and Molecular Life Sciences, v. 73, n. 13, p. 
2491–2509, jul. 2016. 
 
SCHULDT FILHO, Guenther et al. Conditioned Medium of Demineralized Freeze-Dried 
Bone Activates Gene Expression in Periodontal Fibroblasts In Vitro. Journal Of 
Periodontology, [S.L.], v. 86, n. 6, p. 827-834, jun. 2015. Wiley. 
 
SHA, Huanhuan et al. MicroRNA‐381 in human cancer: its involvement in tumour biology 
and clinical applications potential. Journal Of Cellular And Molecular Medicine, [S.L.], v. 
26, n. 4, p. 977-989, 11 jan. 2022. Wiley. 
 
SHARMA, Meenu et al. Bempegaldesleukin selectively depletes intratumoral Tregs and 
potentiates T cell-mediated cancer therapy. Nature Communications, [S.L.], v. 11, n. 1, p. 1-
11, 31 jan. 2020. Springer Science and Business Media LLC. 
 
SILVA, T. C. et al. TCGA Workflow: Analyze cancer genomics and epigenomics data using 
Bioconductor packages. F1000Research, v. 5, p. 1542, 28 dez. 2016. 
 
STATELLO, L. et al. Gene regulation by long non-coding RNAs and its biological functions. 
Nature Reviews Molecular Cell Biology, v. 22, n. 2, p. 96–118, fev. 2021 
 
STAWISKI, K. et al. OmicSelector: automatic feature selection and deep learning modeling 
for omic experiments. [s.l.] Bioinformatics, 2 jun. 2022. 
 
STEINBERG, G. R.; KEMP, B. E. AMPK in Health and Disease. Physiological Reviews. v. 
89, n. 3, p. 1025 1078, jul. 2009. 
 
STELZER, G. et al. The GeneCards Suite: From Gene Data Mining to Disease Genome 
Sequence Analyses. Current Protocols in Bioinformatics, v. 54, n. 1, jun. 2016. 
 
STÜCKRATH, I. et al. Aberrant plasma levels of circulating miR-16, miR-107, miR-130a 
and miR-146a are associated with lymph node metastasis and receptor status of breast cancer 
patients. Oncotarget, v. 6, n. 15, p. 13387–13401, 30 maio 2015. 
 
SUBRAMANIAN, I. et al. Multi-omics Data Integration, Interpretation, and Its Application. 
Bioinformatics and Biology Insights, v. 14, p. 117793221989905, jan. 2020. 
 
SUN, Haijun et al. FAM111B, a direct target of p53, promotes the malignant process of lung 
adenocarcinoma. Oncotargets And Therapy, [S.L.], v. 12, n. 1, p. 2829-2842, abr. 2019. 
Informa UK Limited. 
 
SUN, Yu et al. Signaling pathway of MAPK/ERK in cell proliferation, differentiation, 
migration, senescence and apoptosis. Journal Of Receptors And Signal Transduction, 
[S.L.], v. 35, n. 6, p. 600-604, 22 jun. 2015. Informa UK Limited. 
86 
 
 
TAKAHASHI, Makoto et al. Inverse relationship between insulin receptor expression and 
progression in renal cell carcinoma. Oncology Reports, [S.L.], v. 37, n. 5, p. 2929-2941, 5 
abr. 2017. Spandidos Publications. 
 
THE CANCER GENOME ATLAS RESEARCH NETWORK. Comprehensive molecular 
characterization of clear cell renal cell carcinoma. Nature, v. 499, n. 7456, p. 43–49, jul. 
2013. 
 
THE GENE ONTOLOGY CONSORTIUM et al. The Gene Ontology resource: enriching a 
GOld mine. Nucleic Acids Research, v. 49, n. D1, p. D325–D334, 8 jan. 2021. 
 
TERREMATTE, P. et al. A Novel Machine Learning 13-Gene Signature: Improving Risk 
Analysis and Survival Prediction for Clear Cell Renal Cell Carcinoma Patients. Cancers, v. 
14, n. 9, p. 2111, 24 abr. 2022. 
 
THERNEAU T (2023). _A Package for Survival Analysis in R_. R package version 
 3.5-0, <https://CRAN.R-project.org/package=survival>. 
 
TREVETHAN, R. Sensitivity, Specificity, and Predictive Values: Foundations, Pliabilities, 
and Pitfalls in Research and Practice. Frontiers in Public Health, v. 5, p. 307, 20 nov. 2017. 
 
TURLEY, E. A.. Hyaluronan and cell locomotion. Cancer And Metastasis Review, [S.L.], 
v. 11, n. 1, p. 21-30, mar. 1992. Springer Science and Business Media LLC. 
 
VAIDYANATHAN, G. et al. The Ras-related protein AGS1/RASD1 suppresses cell growth. 
Oncogene, v. 23, n. 34, p. 5858–5863, 29 jul. 2004. 
 
VAN BUUREN, S.; GROOTHUIS-OUDSHOORN, K. mice: Multivariate Imputation by 
Chained Equations in R. Journal of Statistical Software, [S. l.], v. 45, n. 3, p. 1–67, 2011. 
DOI: 10.18637/jss.v045.i03. 
 
VARA, J. Á. F. et al. PI3K/Akt signalling pathway and cancer.Cancer Treatment Reviews , 
v. 30, n. 2, p. 193–204, abr. 2004. 
 
VLACHOS, I. S. et al. DIANA-miRPath v3.0: deciphering microRNA function with 
experimental support. Nucleic Acids Research, v. 43, n. W1, p. W460–W466, 1 jul. 2015. 
 
WALIA, Anish Singh. Radial kernel Support Vector Classifier. 2018. Disponível em: 
https://datascienceplus.com/radial-kernel-support-vector-classifier/. Acesso em: 02 jan. 2023. 
 
WANG, Guanbo et al. LncRNA MAGI2-AS3 inhibits tumor progression and angiogenesis by 
regulating ACY1 via interacting with transcription factor HEY1 in clear cell renal cell 
carcinoma. Cancer Gene Therapy, [S.L.], v. 29, n. 5, p. 585-596, 17 maio 2021. Springer 
Science and Business Media LLC. 
 
WANG, Xin Jun et al. MiR-26 suppresses renal cell cancer via down-regulating coronin-3. 
Molecular And Cellular Biochemistry, [S.L.], v. 463, n. 1-2, p. 137-146, 8 out. 2019. 
Springer Science and Business Media LLC. 
87 
 
 
WANG, W. et al. Prognostic model based on m6A-associated lncRNAs in esophageal cancer. 
Frontiers in Endocrinology, v. 13, p. 947708, 30 ago.2022a. 
 
WANG, Yaya et al. HECT E3 ubiquitin ligases – emerging insights into their biological roles 
and disease relevance. Journal Of Cell Science, [S.L.], v. 133, n. 7, p. 1-14, 1 abr. 2020. The 
Company of Biologists. 
 
WANG, Y. et al. The Emerging Function and Mechanism of ceRNAs in Cancer. Trends in 
genetics: TIG, v. 32, n. 4, p. 211–224, abr. 2016. 
 
WANG, Y. et al. Prognostic significance of long non-coding RNAs in clear cell renal cell 
carcinoma: A meta-analysis. Medicine, v. 98, n. 40, p. e17276, out. 2019. 
 
WANG, Y.; ZHANG, J.; ZHENG, S. The role of XBP-1-mediated unfolded protein response 
in colorectal cancer progression-a regulatory mechanism associated with lncRNA-miRNA-
mRNA network. Cancer Cell International, v. 21, n. 1, p. 488, dez. 2021. 
 
WARING, E.; QUINN, M.; MCNAMARA, A.; RUBIA, E. A. L.; ZHU, H.; O AND ELLIS, 
WICKHAM, H. et al. Welcome to the Tidyverse. Journal of Open Source Software, v. 4, n. 
43, p. 1686, 21 nov. 2019. 
 
WEI, W. et al. Identification of key genes involved in the metastasis of clear cell renal cell 
carcinoma. Oncology Letters, 8 mar. 2019. 
WEI, Xiyi et al. Construction of circRNA-based ceRNAnetwork to reveal the role of 
circRNAs in the progression and prognosis of metastatic clear cell renal cell carcinoma. 
Aging, [S.L.], v. 12, n. 23, p. 24184-24207, 20 nov. 2020. Impact Journals 
 
WONDERGEM, Bill et al. Expression of the PTTG1 Oncogene Is Associated with 
Aggressive Clear Cell Renal Cell Carcinoma. Cancer Research, [S.L.], v. 72, n. 17, p. 4361-
4371, 30 ago. 2012. American Association for Cancer Research (AACR). 
 
WU, T. et al. clusterProfiler 4.0: A universal enrichment tool for interpreting omics data. The 
Innovation, v. 2, n. 3, p. 100141, ago. 2021. 
 
WU, Zhen et al. POLE2 Serves as a Prognostic Biomarker and Is Associated with Immune 
Infiltration in Squamous Cell Lung Cancer. Medical Science Monitor, [S.L.], v. 26, n. 26, p. 
1-11, 18 abr. 2020. International Scientific Information, Inc.. 
 
World Health Organization. IARC – International Agency for Research on Cancer. 
Disponível em: <https://www.iarc.who.int/>. Acesso em 18 de abril de 2022. 
 
XIA, F.; YAN, Y.; SHEN, C. A Prognostic Pyroptosis-Related lncRNAs Risk Model 
Correlates With the Immune Microenvironment in Colon Adenocarcinoma. Frontiers in Cell 
and Developmental Biology, v. 9, p. 811734, 13 dez. 2021. 
 
XIE, L. et al. Computational Diagnostic Techniques for Electrocardiogram Signal Analysis. 
Sensors, v. 20, n. 21, p. 6318, 5 nov. 2020. 
88 
 
 
XIE, Shangdan et al. Insights Into the Biological Role of NEDD4L E3 Ubiquitin Ligase in 
Human Cancers. Frontiers In Oncology, [S.L.], v. 11, p. 1-10, 15 nov. 2021. Frontiers Media 
SA. 
 
XIONG, Lecai et al. Hypoxia-Associated Prognostic Markers and Competing Endogenous 
RNA Co-Expression Networks in Lung Adenocarcinoma. Research Square, [S.L.], v. -, n. -, 
p. 1-23, 16 jun. 2021. Research Square Platform LLC. 
 
XU, C.-H. et al. The lncRNA HOXA11-AS promotes glioma cell growth and metastasis by 
targeting miR-130a-5p/HMGB2. European Review for Medical and Pharmacological 
Sciences, v. 23, n. 1, p. 241–252, jan. 2019. 
 
YAMADA, R. et al. Interpretation of omics data analyses. Journal of Human Genetics, v. 
66, n. 1, p. 93–102, jan. 2021. 
 
YANG, Muwen et al. HMMR promotes peritoneal implantation of gastric cancer by 
increasing cell–cell interactions. Discover Oncology, [S.L.], v. 13, n. 1, p. 1-12, 24 ago. 2022. 
Springer Science and Business Media LLC. 
 
YANG, Penghui et al. SET domain containing 1B gene is mutated in primary hepatic 
neuroendocrine tumors. International Journal Of Cancer, [S.L.], v. 145, n. 11, p. 2986-
2995, 17 maio 2019. Wiley. 
 
YAO, R.-W.; WANG, Y.; CHEN, L.-L. Cellular functions of long noncoding RNAs. Nature 
Cell Biology, v. 21, n. 5, p. 542–551, maio 2019. 
 
YIN, Zi et al. LncRNA MAGI2‐AS3 inhibits hepatocellular carcinoma cell proliferation and 
migration by targeting the miR‐374b‐5p/SMG1 signaling pathway. Journal Of Cellular 
Physiology, [S.L.], v. 234, n. 10, p. 18825-18836, 28 mar. 2019. Wiley. 
 
YOUDEN, W. J.. Index for rating diagnostic tests. Cancer, [S.L.], v. 3, n. 1, p. 32-35, 1950. 
Wiley. http://dx.doi.org/10.1002/1097-0142(1950)3:13.0.co;2-3. 
 
YOSHIDA, Kazuki; BARTEL,Alexander (2022). Tableone: Create ‘Table 1’ to Describe 
Baseline Characteristics with or without Propensity Score Weights. R package version 0.13.2. 
Disponível em:. Acesso em: 03 de Fevereiro de 2023; 
 
ZHANG, C. et al. Development and validation of a metastasis-associated prognostic signature 
based on single-cell RNA-seq in clear cell renal cell carcinoma. Aging, v. 11, n. 22, p. 10183–
10202, 20 nov. 2019. 
 
ZHANG, Chuanjie et al. Targeting POLE2 Creates a Novel Vulnerability in Renal Cell 
Carcinoma via Modulating Stanniocalcin 1. Frontiers In Cell And Developmental Biology, 
[S.L.], v. 9, n. 9, p. 1-14, 11 fev. 2021. Frontiers Media SA. 
 
ZHANG, F. et al. Cuprotosis-related signature predicts overall survival in clear cell renal cell 
carcinoma. Frontiers in Cell and Developmental Biology, v. 10, p. 922995, 30 set. 2022. 
 
89 
 
ZHANG, F. et al. Identification of significant genes with prognostic influence in clear cell 
renal cell carcinoma via bioinformatics analysis. Translational Andrology and Urology, v. 
9, n. 2, p. 452–461, abr. 2020. 
 
ZHANG, Gang et al. Long noncoding RNA ZFPM2‐AS1 regulates renal cell carcinoma 
progression via miR ‐130a‐3p/ ESCO2. The Kaohsiung Journal Of Medical Sciences, 
[S.L.], v. 38, n. 6, p. 530-541, 8 mar. 2022. Wiley. 
 
ZHANG, H. The Optimality of Naive Bayes. BARR, V.; MARKOV, Z. (Orgs.). In: 
Proceedings of the Seventeenth International Florida Artificial Intelligence Research Society 
Conference (FLAIRS 2004). [s.l.]: AAAI Press, 2004. 
 
ZHANG, Xun et al. Structure, Expression, and Function of Human Pituitary Tumor-
Transforming Gene (PTTG). Molecular Endocrinology, [S.L.], v. 13, n. 1, p. 156-166, 1 jan. 
1999. The Endocrine Society. 
 
ZHANG, Z. et al. Uniform genomic data analysis in the NCI Genomic Data Commons. 
Nature Communications, v. 12, n. 1, p. 1226, dez. 2021. 
 
ZHONG, Min-Er et al. LncRNA H19 regulates PI3K–Akt signal pathway by functioning as a 
ceRNA and predicts poor prognosis in colorectal cancer: integrative analysis of dysregulated 
ncrna-associated cerna network. Cancer Cell International, [S.L.], v. 19, n. 1, p. 1-13, 30 
maio 2019. 
 
ZHONG, W. et al. Identification of an apoptosis-related prognostic gene signature and 
molecular subtypes of clear cell renal cell carcinoma (ccRCC). Journal of Cancer, v. 12, n. 
11, p. 3265–3276, 2021. 
 
ZHOU, Haochuan. Statistical Inferences for the Youden Index. 2011. 114 f. Tese 
(Doutorado) - Curso de Matemática e Estatística, Universidade do Estado da Geórgia, Atlanta, 
2011. 
 
ZHU, J. et al. circEHBP1 promotes lymphangiogenesis and lymphatic metastasis of bladder 
cancer via miR-130a-3p/TGFβR1/VEGF-D signaling. Molecular Therapy, v. 29, n. 5, p. 
1838–1852, maio 2021. 
 
ZHU, Yongjun et al. POLE2 knockdown reduce tumorigenesis in esophageal squamous cells. 
Cancer Cell International, [S.L.], v. 20, n. 1, p. 1-12, 11 ago. 2020. Springer Science and 
Business Media LLC. 
 
ZI, Zhike et al. Molecular Engineering of the TGF-β Signaling Pathway. Journal Of 
Molecular Biology, [S.L.], v. 431, n. 15, p. 2644-2654, jul. 2019. Elsevier BV. 
 
ZIMTA, Alina-Andreea et al. An Emerging Class of Long Non-coding RNA With Oncogenic 
Role Arises From the snoRNA Host Genes. Frontiers In Oncology, [S.L.], v. 10, p. 1-16, 7 
abr. 2020. Frontiers Media SA. 
 
90 
 
ZOU, H.; HASTIE, T. Regularization and variable selection via the elastic net. Journal of the 
Royal Statistical Society: Series B (Statistical Methodology), v. 67, n. 2, p. 301–320, abr. 
2005. 
 
 
 
 
91 
 
 
 
 
 
 
 
 
APÊNDICES 
92 
 
APÊNDICE A 
 
Tabela 13: Variáveis do Estudo 
Sigla Signficado: 
GO Gene Ontology 
MF Função Molecular 
BF Processo Biológico 
MX Metástase indefinida 
M1 Com metástase 
M0 Sem Metástase 
 
93 
 
APÊNDICE B 
 
Figura 24: Desempenho do glm como benchmarking, avaliando a acurácia, sensibilidade e especificidade. 
Fonte: Autor 
 
 
 
Figura 25: Desempenho do rf como benchmarking, avaliando a acurácia, sensibilidade e especificidade 
Fonte: Autor 
 
 
 
94 
 
 
Figura 26: Desempenho do svmRadial como benchmarking, avaliando a acurácia, sensibilidade e especificidade. 
Fonte: Autor. 
95 
 
APÊNDICE C 
 
Figura 27: Oncoplot com as mutações registradas nos genes codificantes da assinatura. O gráfico de barra à direita 
representa a quantidade de amostras mutadas e o gráfico de barras acima representa as mutações registradas sobre 
essas amostras. 
Fonte: Autoral. 
 
96 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
APÊNDICE D 
Machine Learning Gene Signature to Metastatic ccRCC based on ceRNA
Network
Epitácio Farias¹*, Patrick Terrematte², Beatriz Stransky ¹,³
1Bioinformatics Multidisciplinary Environment (BioME), Metropole Digital Institute(IMD),
Federal University of Rio Grande do Norte (UFRN), Natal 59078-400, Brazil;
2Metropolis Digital Institute (IMD), Federal University of Rio Grande do Norte (UFRN),
Natal 59078-400, Brazil;
3Biomedical Engineering Department, Center of Technology, UFRN, Natal 59078-970, Brazil
*Corresponding author
Epitácio Farias, Bioinformatics Multidisciplinary Environment (BioME), Metropole Digital
Institute (IMD), Federal University of Rio Grande do Norte (UFRN), Natal 59078-400,
Brazil;
E-mail: epitacio.farias.101@ufrn.edu.br
Tel: +55 84 999949975
E-mail address:
Epitácio Farias, epitacio.farias.101@ufrn.edu.br
Patrick Terrematte, patrickt@imd.ufrn.br
Beatriz Stransky, beatriz.stransky@ufrn.br
Abstract
Renal carcinoma is a pathology of silent and multifactorial development characterized by a
high rate of metastases in patients. After several studies have elucidated the activity of coding
genes in the metastatic progression of renal carcinoma, new studies seek to evaluate the
association of non-coding genes, such as competitive endogenous RNA (ceRNA). Thus, this
study aims to build a gene signature for clear cell renal cell carcinoma (ccRCC) associated
with metastatic development from a ceRNA network and to analyze the probable biological
functions performed by the participants of the signature. Using ccRCC data from The Cancer
Genome Atlas (TCGA), we constructed the ceRNA network with the differentially expressed
genes, assembled nine gene signatures from eight feature selection techniques, and analyzed
the evaluation metrics of the classification models in the benchmarking process. With the
signature, we performed somatic and copy number alteration analysis, survival and metastatic
1
.CC-BY-NC-ND 4.0 International licensemade available under a
(which was not certified by peer review) is the author/funder, who has granted bioRxiv a license to display the preprint in perpetuity. It is 
The copyright holder for this preprintthis version posted August 2, 2023. ; https://doi.org/10.1101/2023.07.31.551358doi: bioRxiv preprint 
mailto:epitacio.farias.101@ufrn.edu.br
mailto:patrickt@imd.ufrn.br
mailto:beatriz.stransky@ufrn.br
https://doi.org/10.1101/2023.07.31.551358
http://creativecommons.org/licenses/by-nc-nd/4.0/
progression risk analysis, and functional annotation analysis. In this study, we present an
11-gene signature (SNHG15, AF117829.1, hsa-miR-130a-3p, hsa-mir-381-3p, BTBD11,
INSR, HECW2, RFLNB, PTTG1, HMMR, RASD1). Validation using the external dataset of
the International Cancer Genome Consortium (ICGC-RECA) made it possible to assess the
generalization of the signature, which showed an Area Under Curve of 81.5%. The genomic
analysis identified the signature participants on chromosomes with highly mutated regions
(G-index > 2). The hsa-miR-130a-3p, AF117829.1, hsa-miR-381-3p, and PTTG1 had a
significant relationship between expression and patient survival, and the first two had a
significant association with metastatic development. In addition, functional annotation
resulted in relevant pathways for tumor development, such as PI3K/AKT, TNF, FoxO, RNA
polymerase two transcription regulation, and cell control. Finally, by analyzing the
connections of the signature genes within the ceRNA network in conjunction with studies in
the literature, it was possible to obtain an overview of their activities within the ccRCC.
Therefore, this gene signature identified new coding and non-coding genes and could act as
potential biomarkers for a better understanding of renal carcinoma and in the development of
future treatments in the clinical area.
Keywords: Renal carcinoma; transcriptional signature; ceRNA network; feature selection;
metastasis.
1. Introduction
Renal cancer is a group of neoplasms originating in the renal tissues, classified by the
cell type or histologic characteristics, such as Clear Cell Renal Cell Carcinoma (ccRCC),
Papillary Renal Carcinoma (pRCC), and Chromophobe Renal Carcinoma (chRCC)[1–3]. Due
to the silent characteristic of this disease [4], the diagnosis at the metastatic state occurs in
approximately 30% of ccRCC patients [5, 6].
In a previous study with a cohort of 537 ccRCC patients, The Cancer Genome Atlas
(TCGA) consortium [7], characterized significant alterations in ccRCC, such as mutation in
VHL, PBRM1, SETD2, BAP1 genes, the deletion of de arm q of chromosome 3, and a cluster
organization with messenger RNA (mRNA) and microRNA (miRNA), representing an
essential component in ccRCC regulation. Further studies begin to reveal an important role of
the non-coding RNAs (ncRNAs) represent the class of RNAs that portray approximately 80%
of the transcriptome [8–10].
The function of lncRNAs is associated with the location of action or their interactions
with DNA, proteins, or other RNAs [9–13]. The lncRNAs can act during all the
transcriptional processes, as the pre and post-transcriptional processes, as a: (i) decoy or
“sponge” modulating the effector of their targets; (ii) guide to the enzymes modifiers of
histones or chromatin; (iii) respond to various stimuli [14, 15]. The ligation of the lncRNA
with the miRNA affects their targets, characterizing an endogenous competition between the
lncRNA and the mRNA target of the miRNA [9, 10].
2
.CC-BY-NC-ND 4.0 International licensemade available under a
(which was not certified by peer review) is the author/funder, who has granted bioRxiv a license to display the preprint in perpetuity. It is 
The copyright holder for this preprintthis version posted August 2, 2023. ; https://doi.org/10.1101/2023.07.31.551358doi: bioRxiv preprint 
https://www.zotero.org/google-docs/?XpxNv6
https://www.zotero.org/google-docs/?vxvATU
https://www.zotero.org/google-docs/?LEyqDp
https://www.zotero.org/google-docs/?TZOz5Z
https://www.zotero.org/google-docs/?j7eIgI
https://www.zotero.org/google-docs/?YV72J2
https://www.zotero.org/google-docs/?cfQuuh
https://www.zotero.org/google-docs/?oF7dNH
https://doi.org/10.1101/2023.07.31.551358
http://creativecommons.org/licenses/by-nc-nd/4.0/
Based on this widespread interaction network, it was proposed the “Competing
Endogenous RNA” (ceRNA) hypothesis, based on the idea of a communication existence
between miRNAs, mediated by the miRNAs recognition elements (MREs), with mRNA,
lncRNA, and other ncRNAs[16]. Alteration in the ceRNA networks is observed in cancer and
other pathologies, associating them with biomarkers of prognosis to metastasis and alternative
clinical outcomes, therapeutics targets, where they can act as a tumor suppressor or oncogenes
[10, 17–20].
Studies about RNA expression generate a large and complex amount of data, and the
conduction of an analysis integrating this data with clinical information could enable a pattern
extraction to enrich the understanding by machine learning (ML) techniques [21, 22]. Among
the vast applications of ML, the methods related to classification and prediction became the
most used approach in health field research [23]. However, the lack of feature selection
associated with the outcome variable could influence the performance of the algorithms [24].
The feature selection represents the analysis and selection of variables, evaluating their impact
on the outcome, removing the irrelevant variables, and making them more consistent and
relevant to the model construction [25].
This study aims to construct a ceRNA network and a gene signature based on the
feature selection algorithms, to classify the metastatic profile of ccRCC patients. The
best-performing gene signature achievement used majority voting between four Recursive
Feature Elimination (RFE) approaches. More specifically, the RFE is a wrapper-based method
to select the classifiers interactively, initially using all the variables, and for each interaction,
one variable is removed based on the score of importance associated [26]. The flowchart
shown in Figure 1 displays a summarized view of the discovery process for the novel RFE
gene signature of ccRCC.2. Materials and Methods.
2.1. Data
This is a data-driven study based on the RNA-seq dataset and clinical dataset from the
TCGA-KIRC project (n = 602), downloaded from Genomic Data Commons
(https://portal.gdc.cancer.gov/) [7] and UCSC Xenabrowser (https://xena.ucsc.edu/). For
external validation, we used the dataset of ccRCC (n = 91 patients) from the International
Cancer Genome Consortium (ICGC-RECA) [27].
2.2. ceRNA Network construction
3
.CC-BY-NC-ND 4.0 International licensemade available under a
(which was not certified by peer review) is the author/funder, who has granted bioRxiv a license to display the preprint in perpetuity. It is 
The copyright holder for this preprintthis version posted August 2, 2023. ; https://doi.org/10.1101/2023.07.31.551358doi: bioRxiv preprint 
https://www.zotero.org/google-docs/?ZlF3Pe
https://www.zotero.org/google-docs/?RYP4Os
https://www.zotero.org/google-docs/?LOjK2T
https://www.zotero.org/google-docs/?zH1u1G
https://www.zotero.org/google-docs/?qMZops
https://www.zotero.org/google-docs/?MjAfvH
https://www.zotero.org/google-docs/?9WPKJK
https://www.zotero.org/google-docs/?T1AkGY
https://xena.ucsc.edu/
https://www.zotero.org/google-docs/?qhETpk
https://doi.org/10.1101/2023.07.31.551358
http://creativecommons.org/licenses/by-nc-nd/4.0/
The ceRNA network was constructed from the differentially expressed genes mRNAs
and ncRNAs, focusing on the relation lncRNA-miRNA-mRNA. The differential expression
analysis was made between the normal tissues (n = 72) and tumor tissues (n = 530) from the
TCGA-KIRC cohort, with the “DESeq2” using the absolute |log-fold change (LFC)| > 2 and a
p-value adjusted (FDR) < 0.01.
With the differentially expressed genes, was used the R package “GDCRNATools”
[28] associated with the starBase [29], a database focused on the decodification of the
iterations networks through numerous RBPs and RNAs. The pair selection follows the
statistical analyzes: (i) hypergeometric test; (ii) Pearson correlation coefficient; (iii) regulatory
similarity. This analysis used a threshold of 0.1 for the Pearson correlation and
hypergeometric test and 0 for the regulatory similarity, and Cytoscape software [30] to
visualize the ceRNA network.
2.3. Dataset Construction, Feature Selection, and Gene Signature Construction
The signature construction used the genes participating in the ceRNA network
inspired by the methodology of [31], where new gene signatures were produced using the
techniques in Table S1 and used the OmicSelector R package [32].
Within the expression dataset from the TCGA-KIRC (n = 602) was observed a
missing metastatic classification in 30 patients, causing their remotion, and due to the
unbalanced characteristic from the metastasis classification of presence (M1) or absence
(M0), was performed a propensity matching score balance, maintaining 190 patients, 95 from
each class.
This new dataset was split randomly into three new datasets, following the rate of 60%
for training (n = 114), 20% for the test (n = 38), and 20% for validation (n = 38). For the
signature construction process, we used the feature selection techniques: Recursive Feature
Elimination (RFE) and two iterated versions, Boruta, Generalized Linear Model (GLM),
Akaike Information Criterion (AIC), Linear Discriminant Analysis (LDA), Lasso and
ElasticNet.
To improve the construction of the signature and optimize computational efficiency,
we performed hyperparameters adjustments to the feature selection. The RFE techniques used
cross-validation with ten folds, using a window frame of 50 genes in each iteration, and
iterated RFE versions used a window frame of ten genes for the signature.
With the nine signatures constructed, was performed a 1º benchmarking to select the
signature with the best metrics for metastatic classification using the datasets for test and
4
.CC-BY-NC-ND 4.0 International licensemade available under a
(which was not certified by peer review) is the author/funder, who has granted bioRxiv a license to display the preprint in perpetuity. It is 
The copyright holder for this preprintthis version posted August 2, 2023. ; https://doi.org/10.1101/2023.07.31.551358doi: bioRxiv preprint 
https://www.zotero.org/google-docs/?QlisNw
https://www.zotero.org/google-docs/?5MR1Lj
https://www.zotero.org/google-docs/?2J4MnQ
https://www.zotero.org/google-docs/?D2Vmly
https://www.zotero.org/google-docs/?rSY409
https://doi.org/10.1101/2023.07.31.551358
http://creativecommons.org/licenses/by-nc-nd/4.0/
validation. To the 1º benchmark was used the models: Random Forest (rf), Generalized Linear
Model (GLM), eXtreme Gradient Boosting (xgbTree) e Support Vector Machine with a
Radial Kernel (svmRadial), performed ten times to seek the best parameter adjustment for
each of them. The metrics to evaluate this benchmark are accuracy, specificity, sensitivity, and
Youden’s statistics.
To evaluate the signature generalization, the external dataset from the ICGC-RECA
project (n = 91) was used with the mlr3verse package [33] to perform the 2º benchmark,
applying the following classification techniques: random forest, naive Bayes, kNN, svmradial,
and XGBoost. The evaluation metrics were accuracy, balanced accuracy, the Brier score, and
the AUC. The validation process used the TCGA-KIRC for training and the ICGC-RECA for
testing.
2.4. Somatic and Copy Number Alteration Analysis
The somatic alterations analysis was conducted with the Mutation Annotation Format
(MAF) datafile, using the R package, Maftools [34], extracting information about (a) type of
variations; (b) variation classification; (c) the labels of those single nucleotide variations; (d)
the variations quantity by sample and (e) the top 10 genes altered.
The copy number variation analysis requires the construction of the GISTIC file. The
Genomic Identification of Significant Targets in Cancer (GISTIC) pipeline [35] resulted in
information about amplification and deletions within the data, analyzed by the Maftools R
package to extract the regions of the genome and their alterations.
2.5. Risk Analysis
The performance of risk analysis allows assessing the relationship between the gene
signature with the metastatic development and the survival status of the patients, observing
their expression level.
With the survival [36] and finalfit [37] R packages, we executed Aalen’s additive
regression and Odd’s ratio analysis, respectively. Aalen’s regression acts as a complementary,
or alternative, form for the Cox model, where the covariables association and their effects
[38] on the survival status of the patients are obtained. The Odd’s ratio quantifies the strength
of association between two events [39], the presence or absence of metastasis.
2.6. Functional Annotation Analysis
5
.CC-BY-NC-ND 4.0 International licensemade available under a
(which was not certified by peer review) is the author/funder, who has granted bioRxiv a license to display the preprint in perpetuity. It is 
The copyright holder for this preprintthis version posted August 2, 2023. ; https://doi.org/10.1101/2023.07.31.551358doi: bioRxiv preprint 
https://www.zotero.org/google-docs/?ycbzZP
https://www.zotero.org/google-docs/?94hsHM
https://www.zotero.org/google-docs/?amxM2v
https://www.zotero.org/google-docs/?7sMm3d
https://www.zotero.org/google-docs/?bzfGNm
https://www.zotero.org/google-docs/?P2C7xJ
https://www.zotero.org/google-docs/?eoATdI
https://doi.org/10.1101/2023.07.31.551358
http://creativecommons.org/licenses/by-nc-nd/4.0/
The identification of the pathways enriched by the genes of the signature was
performed against the Kyoto Encyclopedia of Genes and Genomes (KEGG) [40] and the
Gene Ontology [41], focusing on the gene association to biological processes and molecular
functions. Using the clusterProfiler R package [42] and the mirPath platform [43] for
functional characterization of miRNAs from the signature.
3. Results
3.1. ceRNA Network
To construct our ceRNA network, weused the differentially expressed (DE) genes of
the TCGA-KIRC (n = 602) project. This analysis resulted in 2,842 mRNAs, 132 miRNAs,
and 271 lncRNAs DE, based on the thresholds of |log2FC| > 2 and p-value adjusted for FDR
< 0,01.
With those DE genes, we constructed the ceRNA network based on the thresholds of
0.1 for the hypergeometric test and Pearson correlation, and the similarity of regulation
different from 0, resulting in a network with 18 lncRNAs, 75 miRNAs and 128 mRNAs
(Figure 2).
3.2. Feature Selection
With the expression data from the 221 genes participating in the ceRNA network and
the metastatic classification from the 192 patients, after the balance performance, the training
process for the feature selection and the construction of 9 signatures were performed (Figure
3). Among the feature selection techniques, only the stepAIC did not converge, and the curves
from RFE show an accuracy of 76.30% and a Kappa coefficient of 0.5663.
After the stepAIC remotion, we performed the first benchmark, where the xgbTree
presented the best result, with an accuracy of 80% during the training and 60% for the test,
and 68.3% in validation. To select the best signatures, we applied Youden’s statistics, resulting
in the best four signatures. As observed, the four signatures shared some genes, and by
majority voting, the final signature was constructed (Equation 1).
Class ~ INSR + PTTG1 + BTBD11 + RASD1 + HECW2 + HMMR + RFLNB + hsa-miR-130a-3p +
hsa.miR.381.3p + SNHG15 + AF117829.1
Equation 1: Gene signature.
6
.CC-BY-NC-ND 4.0 International licensemade available under a
(which was not certified by peer review) is the author/funder, who has granted bioRxiv a license to display the preprint in perpetuity. It is 
The copyright holder for this preprintthis version posted August 2, 2023. ; https://doi.org/10.1101/2023.07.31.551358doi: bioRxiv preprint 
https://www.zotero.org/google-docs/?U08TXU
https://www.zotero.org/google-docs/?Mn7c3x
https://www.zotero.org/google-docs/?k9VURP
https://www.zotero.org/google-docs/?TLmHhI
https://doi.org/10.1101/2023.07.31.551358
http://creativecommons.org/licenses/by-nc-nd/4.0/
With the signature constructed, a second benchmark (Table 1) was performed, using
the ICGC-RECA project as a test dataset, and observed accuracy and balanced accuracy of
72% for both, an AUC of 81.5%, and a Brier Score of 0.1955.
3.3. Integrative Analysis From The Transcriptional Signature Components
3.3.1. Genomic Alteration Analysis
Performing a genome-level alteration analysis enables us to evaluate their impact on
the gene product. These alterations can include changes in the genetic structure, disruptions in
protein synthesis, or variations in the quantity of the gene product. To conduct this analysis,
we used the maftools package to investigate single nucleotide polymorphisms (SNPs) and
copy number variations (CNVs) within the genome of the TCGA-KIRC cohort.
Among the data, the missense mutation is predominant from the single nucleotide
polymorphism type, with approximately 44 variants per sample. The most common SNP was
the cytosine and thymine transversion.
As the focus is on the gene signature, ten samples showed mutations in signature
coding genes (Figure S1), where the missense was registered at the genes HECW2, BTBD11,
INSR, and PTTG1, the frameshift deletion was registered in BTBD11, and the multi-hit
mutations in HECW2. However, the HMMR, RASD1, and RFLNB have not presented any
variation.
The copy number variation analysis shows the chromosomes 1,4,5,6,7,12,17,18, and
20 with a large amount and frequency of alterations between the samples. As we searched the
chromosome location of our gene signature in the National Center of Biotechnology
Information, we observed that their localization was in the chromosomes highly altered but
not in the regions significantly modified.
3.3.2. Risk Analysis
As we construct the risk analysis associating the gene signature expression with the
ccRCC progression, Aalen’s additive regression shows a significant relationship between
some genes from the gene signature with patient survival, such as (i) AF1117829.1 (p-valor =
0,0001627), (ii) hsa-miR-130a-3p (p-valor = 0,016), (iii) hsa.miR.381.3p (p-valor = 0,027) e
(iv) PTTG1 (p-valor = 0,020).
When observing the behavior of the signature genes with the development of
metastasis (Figure 4), the miRNA hsa-miR-130a-3p and the lncRNA AF117829.1 were the
7
.CC-BY-NC-ND 4.0 International licensemade available under a
(which was not certified by peer review) is the author/funder, who has granted bioRxiv a license to display the preprint in perpetuity. It is 
The copyright holder for this preprintthis version posted August 2, 2023. ; https://doi.org/10.1101/2023.07.31.551358doi: bioRxiv preprint 
https://doi.org/10.1101/2023.07.31.551358
http://creativecommons.org/licenses/by-nc-nd/4.0/
only ones that had a significant association, p-value = 0.011, and p-value = 0.029,
respectively.
3.3.3. Functional Annotation Analysis
During the annotation of KEGG pathways based on the coding genes from the
signature, we observed an association between several biological pathways, like longevity
regulation, and aldosterone-regulated sodium reabsorption, with a p-value <0.05 (Figure 5a).
When evaluating the targets from the miRNAs in our signature and the biological pathways
related to them, it resulted in well-known oncology-related biological pathways, like the
PI3K-AKT signaling pathway, p53 signaling pathway, the transforming growth factor-beta
(TGF-beta) signaling pathway, renal cancer, and HIF-alfa pathway (Figure S2a).
The biological processes annotated were associated with cellular division regulation,
like chromatid sister separation and chromosome segregation (Figure 5b). The pathways
annotated by miRNA targets were also related to the cellular division process. However,
other pathways were listed, like the signal transduction pathway, growth factors, and DNA
polymerase I regulation, both analyses with a p-value < 0.05 (Figure S2b).
3.4. Gene Signature and ceRNA network
As the signature construction was made upon the genes from the ceRNA network,
searching their location and the first neighbors could improve the knowledge about the gene
functions and their metastatic consequences in the ccRCC environment.
The ceRNA network had a cluster organization, and the gene signature location
showed the presence of genes in areas with cluster distinct, like cluster 1, or with a high
density of connections, like cluster 2, or even areas with the presence of only one gene like
the cluster 3,4,5, and 6, Table 2 present the genes from signature and their first ligands within
the ceRNA network.
4. Discussion
4.1. Gene Signature
The nine feature selection methods resulted in the training of signatures for the
metastatic classification of ccRCC. Analyzing the learning curves from RFE, the Kappa
coefficient between the range of 0.41 e 0.6 represents a meaningful concordance between the
method result and the data [44]. When related to classification accuracy, it’s possible to
enrich the classification analysis, considering the misclassifications error [45].
8
.CC-BY-NC-ND 4.0 International licensemade available under a
(which was not certified by peer review) is the author/funder, who has granted bioRxiv a license to display the preprint in perpetuity. It is 
The copyright holder for this preprintthis version posted August 2, 2023. ; https://doi.org/10.1101/2023.07.31.551358doi: bioRxiv preprint 
https://www.zotero.org/google-docs/?8IwGSk
https://www.zotero.org/google-docs/?4GH7vL
https://doi.org/10.1101/2023.07.31.551358
http://creativecommons.org/licenses/by-nc-nd/4.0/
The benchmark permitted us to know the overfitting in the data, and a form of solving
this issue was to use the Youden statistics. Based on the specificity and sensitivity during the
validation process. The top four signatures had the coefficient of Youden in a range of 0.13to
0.18 and were most proximal to 1 best in the classification [46], but the size of the study
influenced this index [47].
The use of majority voting with the top four signatures results in the final signature of
our work, composed of 7 mRNAs: (i) PTTG1, (ii) BTBD11, (iii) HECW2, (iv) INSR, (v)
RFLNB, (vi) HMMR, (vii) RASD1, two lncRNAs: (i) SNHG15, (ii) AF117829.1 and two
miRNAs: (i) hsa-miR-381-3p e (ii) hsa-miR-130a-3p.
The validation with an external dataset is a process in the ML field to evaluate model
generalization [48]. Our signature presents a great result, with accuracy and AUC of 72% and
81.5%, respectively. Other studies had constructed signatures associated with survival [31]
and gene expression related to the immune system [49]in the literature.
4.2. Validation and Biological Interpretation
4.2.1. Genomic and Functional Alterations
The somatic alterations of the coding genes from signature were more commonly
associated with missense or frame_shit_del, except for the HMMR and RFLNB. Regarding
the copy number variations, the amplified or deleted regions were not in the same location as
the genes in the signature.
Analyzing the risk associated with survival or metastasis development showed a
significant association of four genes from the gene signature. The lncRNA AF117829.1 and
the miRNA hsa-miR-130a-3p were present in both analyses. The miRNA association is
related to various cancers, such as bladder, breast, hepatocellular, glioma, and osteosarcoma
[50–55]. Therefore, the presence of the PTTG1 and hsa.miR.130a.3p genes corroborate the
literature, where in a situation of high expression is the poor prognosis, and for the
hsa.miR.130a.3p and hsa.miR.381.3p are associated with metastatic development. However,
the lncRNA remains unknown, and these features could be added to its actions, which are still
under study.
The functional annotation resulted in very diversified pathways. The
aldosterone-regulated sodium reabsorption pathway acts in sodium and potassium
metabolism, and is a biomarker pathway for metastatic development and prognosis in ccRCC
[56–58]. Another detected process was the longevity regulation pathway, which is affected by
the caloric restriction related to mammalian feeding [59, 60] and regulates many other
9
.CC-BY-NC-ND 4.0 International licensemade available under a
(which was not certified by peer review) is the author/funder, who has granted bioRxiv a license to display the preprint in perpetuity. It is 
The copyright holder for this preprintthis version posted August 2, 2023. ; https://doi.org/10.1101/2023.07.31.551358doi: bioRxiv preprint 
https://www.zotero.org/google-docs/?YDtXlE
https://www.zotero.org/google-docs/?V3HzrW
https://www.zotero.org/google-docs/?U5XuSp
https://www.zotero.org/google-docs/?CTlT0Y
https://www.zotero.org/google-docs/?1fPwIh
https://www.zotero.org/google-docs/?zI7kd5
https://www.zotero.org/google-docs/?XbBhpI
https://www.zotero.org/google-docs/?zVuBto
https://doi.org/10.1101/2023.07.31.551358
http://creativecommons.org/licenses/by-nc-nd/4.0/
pathways, such as insulin signalization, PI3K/AKT, TNF, AMPK signalization, and mTOR
pathway targets, that are also annotated as pathways regulated by the miRNAs targets. The
TNF signaling pathway acts with PI3K/AKT and NF-kappa-B pathways for cellular necrosis,
apoptosis, oncogenesis, and tumoral metastasis in many cancers [61].
The pathways related to the biological processes in both approaches, using the coding
genes and miRNAs, showed annotation to cell cycle regulation, controlling the separation and
segregation of sister chromatids, RNA polymerase II transcription, up-regulating and
accommodating, its transcription activity of coding and non-coding genes [62], as well as
processes related to cell-cell communication.
Thus, the functional annotation showed that the signature genes are associated with
processes for metastatic development, associating them with relevant pathways such as
PI3K/ATK and mTOR. When altered, these components trigger abnormal responses such as
longevity and insulin regulation, all of them essential for cellular homeostasis
4.2.2. Gene Signature Analysis in the ceRNA Network
As presented, the ceRNA network had a cluster distribution, showing dense regions
with more presence of genes and fully connected, and sparse regions, with clusters more
distant and without connectivity. A competition characteristic is observed in ten of the eleven
genes in the signature. The processes related to the genes are the most diverse, like the
regulation of cell motility by the HMMR [63], the regulation of the oncogenic pathways
PI3K/AKT/mTOR by the INSR [64], the negative regulation of cell cycle by the PTTG1 and
its action as an oncogene in the ccRCC microenvironment [65–67].
The lncRNA AF11782.1 mechanism of action remains unknown but was related to the
proliferation, differentiation, and regulation of the immunity of T cells [68, 69], and as
presented earlier, his expression was found to be related to metastatic development and worst
prognosis of ccRCC patients, indicating new actions within the cancer field of studies. At this
cluster, due to the high level of expression, a sponge act could be existing where the miRNA
doesn’t degrade the POLE2 and HMMR, promoting cell differentiation and metastasis
development.
The RASD1 was the only gene that didn’t show a competition pattern and is
responsible for the regulation of the RAS superfamily. In situations of increased expression, it
is related to the reduction of the cell growth and the direction to apoptosis, acting in the
opposite direction of the RAS family, associated with cell growth and tumor expansion [70].
As observed in his expression levels and his first ligands, the miRNA regulation is probably
10
.CC-BY-NC-ND 4.0 International licensemade available under a
(which was not certified by peer review) is the author/funder, who has granted bioRxiv a license to display the preprint in perpetuity. It is 
The copyright holder for this preprintthis version posted August 2, 2023. ; https://doi.org/10.1101/2023.07.31.551358doi: bioRxiv preprint 
https://www.zotero.org/google-docs/?aNQYz8
https://www.zotero.org/google-docs/?wfgNjM
https://www.zotero.org/google-docs/?NmHBBi
https://www.zotero.org/google-docs/?2LEWtk
https://www.zotero.org/google-docs/?HL8nQo
https://www.zotero.org/google-docs/?3m8dX1
https://www.zotero.org/google-docs/?NvUvWM
https://doi.org/10.1101/2023.07.31.551358
http://creativecommons.org/licenses/by-nc-nd/4.0/
upon him, indicating the absence of the sponging action by the lncRNA, and promoting
cancer cell proliferation.
5. Conclusion
This study aimed to build a transcriptional signature of clear cell renal cell carcinoma
from differentially expressed genes that act as a Competitor Endogenous RNA network.
Using feature selection techniques for signature construction represents a promising
application in this vast area of pattern recognition and machine learning. By integrating
expression data with clinical information, we successfully constructed transcriptional
signatures comprising multiple genes. The incorporation of evaluative metrics allowed us to
gain valuable insights into the signature, assessing the metrics of accuracy, sensitivity, and
specificity of the signature in order to classify metastatic tissue expression. Using the external
dataset permitted the examination of the signature generalization, thus validating its action as
a metastatic classifier in clear cell renal cancer.
With the cluster-by-cluster analysis, it was possible to know the actions performed by
the signature genes within the cellular environment of clear cell renal cell carcinoma and how
the effects of this regulatory process occur.
Data availability statement: The study utilized openly accessible datasets for analysis. The
findings presented in this paper stem from information gathered by the TCGA Research
Network. The TCGA-KIRC dataset (version 07-19-2019)can be accessed through the UCSC
Xena Browser[71], while the ICGC-RECA dataset is available via the ICGC Data Portal[27].
Acknowledgments: The authors express their gratitude to Rafaella Ferraz and Iara de Souza
for their valuable input and suggestions during the drafting of the manuscript. Additionally,
the authors extend their thanks to the Multidisciplinary Bioinformatics Environment (BioME)
at UFRN for generously providing the computing resources necessary for data processing.
REFERENCES
1. Marcos Dall’Oglio, Miguel Srougi, Luciano Nesrallah. Câncer de Rim. In: Tratado de
Clinica Médica. 2a. Rio de Janeiro; 2006. p. 3264–73.
2. Kumar V, Abbas AK, Fausto N, Robbins SL, Cotran RS. Robbins e Cotran: patologia:
bases patológicas das doenças. 7. ed. Rio de Janeiro: Elsevier; 2008.
3. Muglia VF, Prando A. Renal cell carcinoma: histological classification and correlation with
11
.CC-BY-NC-ND 4.0 International licensemade available under a
(which was not certified by peer review) is the author/funder, who has granted bioRxiv a license to display the preprint in perpetuity. It is 
The copyright holder for this preprintthis version posted August 2, 2023. ; https://doi.org/10.1101/2023.07.31.551358doi: bioRxiv preprint 
https://www.zotero.org/google-docs/?m8hwa2
https://www.zotero.org/google-docs/?gZJkof
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://doi.org/10.1101/2023.07.31.551358
http://creativecommons.org/licenses/by-nc-nd/4.0/
imaging findings. Radiol Bras. 2015;48:166–74.
4. NKF - National Kidney Fundation. Renal Carcinoma Guidelines. 2017.
5. Wang Y, Li Z, Li W, Zhou L, Jiang Y. Prognostic significance of long non-coding RNAs in
clear cell renal cell carcinoma: A meta-analysis. Medicine (Baltimore). 2019;98:e17276.
6. Cui H, Shan H, Miao MZ, Jiang Z, Meng Y, Chen R, et al. Identification of the key genes
and pathways involved in the tumorigenesis and prognosis of kidney renal clear cell
carcinoma. Sci Rep. 2020;10:4271.
7. The Cancer Genome Atlas Research Network. Comprehensive molecular characterization
of clear cell renal cell carcinoma. Nature. 2013;499:43–9.
8. Klinge CM. Non-coding RNAs: long non-coding RNAs and microRNAs in
endocrine-related cancers. Endocr Relat Cancer. 2018;25:R259–82.
9. Kazimierczyk, Kasprowicz, Kasprzyk, Wrzesinski. Human Long Noncoding RNA
Interactome: Detection, Characterization and Function. Int J Mol Sci. 2020;21:1027.
10. Statello L, Guo C-J, Chen L-L, Huarte M. Gene regulation by long non-coding RNAs and
its biological functions. Nat Rev Mol Cell Biol. 2021;22:96–118.
11. Morris KV, Mattick JS. The rise of regulatory RNA. Nat Rev Genet. 2014;15:423–37.
12. Yao R-W, Wang Y, Chen L-L. Cellular functions of long noncoding RNAs. Nat Cell Biol.
2019;21:542–51.
13. Schmitz SU, Grote P, Herrmann BG. Mechanisms of long noncoding RNA function in
development and disease. Cell Mol Life Sci. 2016;73:2491–509.
14. Wang P-S, Wang Z, Yang C. Dysregulations of long non-coding RNAs − The emerging
“lnc” in environmental carcinogenesis. Semin Cancer Biol. 2021;76:163–72.
15. Chiu H-S, Somvanshi S, Patel E, Chen T-W, Singh VP, Zorman B, et al. Pan-Cancer
Analysis of lncRNA Regulation Supports Their Targeting of Cancer Genes in Each Tumor
Context. Cell Rep. 2018;23:297-312.e12.
16. Salmena L, Poliseno L, Tay Y, Kats L, Pandolfi PP. A ceRNA Hypothesis: The Rosetta
Stone of a Hidden RNA Language? Cell. 2011;146:353–8.
17. Qi X, Lin Y, Chen J, Shen B. Decoding competing endogenous RNA networks for cancer
biomarker discovery. Brief Bioinform. 2020;21:441–57.
18. Chan J, Tay Y. Noncoding RNA:RNA Regulatory Networks in Cancer. Int J Mol Sci.
2018;19:1310.
19. Bhan A, Soleimani M, Mandal SS. Long Noncoding RNA and Cancer: A New Paradigm.
Cancer Res. 2017;77:3965–81.
12
.CC-BY-NC-ND 4.0 International licensemade available under a
(which was not certified by peer review) is the author/funder, who has granted bioRxiv a license to display the preprint in perpetuity. It is 
The copyright holder for this preprintthis version posted August 2, 2023. ; https://doi.org/10.1101/2023.07.31.551358doi: bioRxiv preprint 
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://doi.org/10.1101/2023.07.31.551358
http://creativecommons.org/licenses/by-nc-nd/4.0/
20. Liu SJ, Dang HX, Lim DA, Feng FY, Maher CA. Long noncoding RNAs in cancer
metastasis. Nat Rev Cancer. 2021;21:446–60.
21. Subramanian I, Verma S, Kumar S, Jere A, Anamika K. Multi-omics Data Integration,
Interpretation, and Its Application. Bioinforma Biol Insights. 2020;14:117793221989905.
22. Reel PS, Reel S, Pearson E, Trucco E, Jefferson E. Using machine learning approaches for
multi-omics data analysis: A review. Biotechnol Adv. 2021;49:107739.
23. Black JE, Kueper JK, Williamson TS. An introduction to machine learning for
classification and prediction. Fam Pract. 2023;40:200–4.
24. Kann BH, Hosny A, Aerts HJWL. Artificial intelligence for clinical oncology. Cancer
Cell. 2021;39:916–27.
25. Liu H, Motoda H, editors. Computational methods of feature selection. Boca Raton:
Chapman & Hall/CRC; 2008.
26. Kuhn M, Johnson K. Feature engineering and selection: a practical approach for
predictive models. Boca Raton London New York: CRC Press, Taylor & Francis Group;
2020.
27. Zhang J, Bajari R, Andric D, Gerthoffert F, Lepsa A, Nahal-Bose H, et al. The
International Cancer Genome Consortium Data Portal. Nat Biotechnol. 2019;37:367–9.
28. Li R, Qu H, Wang S, Wei J, Zhang L, Ma R, et al. GDCRNATools : an R/Bioconductor
package for integrative analysis of lncRNA, miRNA and mRNA data in GDC.
Bioinformatics. 2018;34:2515–7.
29. Li J-H, Liu S, Zhou H, Qu L-H, Yang J-H. starBase v2.0: decoding miRNA-ceRNA,
miRNA-ncRNA and protein–RNA interaction networks from large-scale CLIP-Seq data.
Nucleic Acids Res. 2014;42:D92–7.
30. Shannon P, Markiel A, Ozier O, Baliga NS, Wang JT, Ramage D, et al. Cytoscape: a
software environment for integrated models of biomolecular interaction networks. Genome
Res. 2003;13:2498–504.
31. Terrematte P, Andrade D, Justino J, Stransky B, de Araújo D, Dória Neto A. A Novel
Machine Learning 13-Gene Signature: Improving Risk Analysis and Survival Prediction for
Clear Cell Renal Cell Carcinoma Patients. Cancers. 2022;14:2111.
32. Stawiski K, Kaszkowiak M, Mikulski D, Hogendorf P, Durczyński A, Strzelczyk J, et al.
OmicSelector: automatic feature selection and deep learning modeling for omic experiments.
preprint. Bioinformatics; 2022.
33. Lang M, Binder M, Richter J,Schratz P, Pfisterer F, Coors S, et al. mlr3: A modern
object-oriented machine learning framework in R. J Open Source Softw. 2019;4:1903.
34. Mayakonda A, Lin D-C, Assenov Y, Plass C, Koeffler HP. Maftools: efficient and
comprehensive analysis of somatic variants in cancer. Genome Res. 2018;28:1747–56.
13
.CC-BY-NC-ND 4.0 International licensemade available under a
(which was not certified by peer review) is the author/funder, who has granted bioRxiv a license to display the preprint in perpetuity. It is 
The copyright holder for this preprintthis version posted August 2, 2023. ; https://doi.org/10.1101/2023.07.31.551358doi: bioRxiv preprint 
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://doi.org/10.1101/2023.07.31.551358
http://creativecommons.org/licenses/by-nc-nd/4.0/
35. Mermel CH, Schumacher SE, Hill B, Meyerson ML, Beroukhim R, Getz G. GISTIC2.0
facilitates sensitive and confident localization of the targets of focal somatic copy-number
alteration in human cancers. Genome Biol. 2011;12:R41.
36. Therneau TM, Grambsch PM. Modeling survival data: extending the Cox model. 2. print.
New York Berlin Heidelberg: Springer; 2001.
37. Harrison E, Drake T, Ots R. finalfit: Quickly Create Elegant Regression Results Tables
and Plots when Modelling. R package version 1.0.6.
38. Aalen OO. A linear regression model for the analysis of life times. Stat Med.
1989;8:907–25.
39. Morris JA, Gardner MJ. Statistics in Medicine: Calculating confidence intervals for
relative risks (odds ratios) and standardised ratios and rates. BMJ. 1988;296:1313–6.
40. Kanehisa M. Toward understanding the origin and evolution of cellular organisms. Protein
Sci. 2019;28:1947–51.
41. The Gene Ontology Consortium, Carbon S, Douglass E, Good BM, Unni DR, Harris NL,
et al. The Gene Ontology resource: enriching a GOld mine. Nucleic Acids Res.
2021;49:D325–34.
42. Wu T, Hu E, Xu S, Chen M, Guo P, Dai Z, et al. clusterProfiler 4.0: A universal
enrichment tool for interpreting omics data. The Innovation. 2021;2:100141.
43. Vlachos IS, Zagganas K, Paraskevopoulou MD, Georgakilas G, Karagkouni D, Vergoulis
T, et al. DIANA-miRPath v3.0: deciphering microRNA function with experimental support.
Nucleic Acids Res. 2015;43:W460–6.
44. Landis JR, Koch GG. The measurement of observer agreement for categorical data.
Biometrics. 1977;33:159–74.
45. Bendavid A. Comparison of classification accuracy using Cohen’s Weighted Kappa.
Expert Syst Appl. 2008;34:825–32.
46. Youden WJ. Index for Rating Diagnostic Tests. 1950;3:32–5.
47. Zhou H. Statistical Inferences for the Youden Index. Atlanta, Geórgia.; 2011.
48. Ho SY, Phua K, Wong L, Bin Goh WW. Extensions of the External Validation for
Checking Learned Model Interpretability and Generalizability. Patterns. 2020;1:100129.
49. Hua X, Chen J, Su Y, Liang C. Identification of an immune-related risk signature for
predicting prognosis in clear cell renal cell carcinoma. Aging. 2020;12:2302–32.
50. Zhu J, Luo Y, Zhao Y, Kong Y, Zheng H, Li Y, et al. circEHBP1 promotes
lymphangiogenesis and lymphatic metastasis of bladder cancer via
miR-130a-3p/TGFβR1/VEGF-D signaling. Mol Ther. 2021;29:1838–52.
14
.CC-BY-NC-ND 4.0 International licensemade available under a
(which was not certified by peer review) is the author/funder, who has granted bioRxiv a license to display the preprint in perpetuity. It is 
The copyright holder for this preprintthis version posted August 2, 2023. ; https://doi.org/10.1101/2023.07.31.551358doi: bioRxiv preprint 
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://doi.org/10.1101/2023.07.31.551358
http://creativecommons.org/licenses/by-nc-nd/4.0/
51. Chen J, Yan D, Wu W, Zhu J, Ye W, Shu Q. MicroRNA-130a promotes the metastasis and
epithelial-mesenchymal transition of osteosarcoma by targeting PTEN. Oncol Rep.
2016;35:3285–92.
52. Li B, Huang P, Qiu J, Liao Y, Hong J, Yuan Y. MicroRNA-130a is down-regulated in
hepatocellular carcinoma and associates with poor prognosis. Med Oncol. 2014;31:230.
53. Stückrath I, Rack B, Janni W, Jäger B, Pantel K, Schwarzenbach H. Aberrant plasma
levels of circulating miR-16, miR-107, miR-130a and miR-146a are associated with lymph
node metastasis and receptor status of breast cancer patients. Oncotarget. 2015;6:13387–401.
54. Ma F, Xie Y, Lei Y, Kuang Z, Liu X. The microRNA-130a-5p/RUNX2/STK32A network
modulates tumor invasive and metastatic potential in non-small cell lung cancer. BMC
Cancer. 2020;20:580.
55. Xu C-H, Xiao L-M, Liu Y, Chen L-K, Zheng S-Y, Zeng E-M, et al. The lncRNA
HOXA11-AS promotes glioma cell growth and metastasis by targeting
miR-130a-5p/HMGB2. Eur Rev Med Pharmacol Sci. 2019;23:241–52.
56. Connell JMC, Davies E. The new biology of aldosterone. J Endocrinol. 2005;186:1–20.
57. Wei W, Lv Y, Gan Z, Zhang Y, Han X, Xu Z. Identification of key genes involved in the
metastasis of clear cell renal cell carcinoma. Oncol Lett. 2019.
https://doi.org/10.3892/ol.2019.10130.
58. Zhang F, Wu P, Wang Y, Zhang M, Wang X, Wang T, et al. Identification of significant
genes with prognostic influence in clear cell renal cell carcinoma via bioinformaticsanalysis.
Transl Androl Urol. 2020;9:452–61.
59. Barzilai N, Huffman DM, Muzumdar RH, Bartke A. The Critical Role of Metabolic
Pathways in Aging. Diabetes. 2012;61:1315–22.
60. Vara JÁF, Casado E, de Castro J, Cejas P, Belda-Iniesta C, González-Barón M. PI3K/Akt
signalling pathway and cancer. Cancer Treat Rev. 2004;30:193–204.
61. Chu W-M. Tumor necrosis factor. Cancer Lett. 2013;328:222–5.
62. Schier AC, Taatjes DJ. Structure and mechanism of the RNA polymerase II transcription
machinery. Genes Dev. 2020;34:465–88.
63. Hardwick C, Hoare K, Owens R, Hohn H, Hook M, Moore D, et al. Molecular cloning of
a novel hyaluronan receptor that mediates tumor cell motility. J Cell Biol. 1992;117:1343–50.
64. Takahashi M, Inoue T, Huang M, Numakura K, Tsuruta H, Saito M, et al. Inverse
relationship between insulin receptor expression and progression in renal cell carcinoma.
Oncol Rep. 2017;37:2929–41.
65. Sun Y, Liu W-Z, Liu T, Feng X, Yang N, Zhou H-F. Signaling pathway of MAPK/ERK in
cell proliferation, differentiation, migration, senescence and apoptosis. J Recept Signal
15
.CC-BY-NC-ND 4.0 International licensemade available under a
(which was not certified by peer review) is the author/funder, who has granted bioRxiv a license to display the preprint in perpetuity. It is 
The copyright holder for this preprintthis version posted August 2, 2023. ; https://doi.org/10.1101/2023.07.31.551358doi: bioRxiv preprint 
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://doi.org/10.1101/2023.07.31.551358
http://creativecommons.org/licenses/by-nc-nd/4.0/
Transduct Res. 2015;35:600–4.
66. Mei L. Multiple types of noncoding RNA are involved in potential modulation of
PTTG1’s expression and function in breast cancer. Genomics. 2022;114:110352.
67. Zi Z. Molecular Engineering of the TGF-β Signaling Pathway. J Mol Biol.
2019;431:2644–54.
68. Xia F, Yan Y, Shen C. A Prognostic Pyroptosis-Related lncRNAs Risk Model Correlates
With the Immune Microenvironment in Colon Adenocarcinoma. Front Cell Dev Biol.
2021;9:811734.
69. Li Y, Deng L, Pan X, Liu C, Fu R. The Role of lncRNA AF117829.1 in the
Immunological Pathogenesis of Severe Aplastic Anaemia. Oxid Med Cell Longev.
2021;2021:1–19.
70. Vaidyanathan G, Cismowski MJ, Wang G, Vincent TS, Brown KD, Lanier SM. The
Ras-related protein AGS1/RASD1 suppresses cell growth. Oncogene. 2004;23:5858–63.
71. Goldman MJ, Craft B, Hastie M, Repečka K, McDade F, Kamath A, et al. Visualizing and
interpreting cancer genomics data via the Xena platform. Nat Biotechnol. 2020;38:675–8.
16
.CC-BY-NC-ND 4.0 International licensemade available under a
(which was not certified by peer review) is the author/funder, who has granted bioRxiv a license to display the preprint in perpetuity. It is 
The copyright holder for this preprintthis version posted August 2, 2023. ; https://doi.org/10.1101/2023.07.31.551358doi: bioRxiv preprint 
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://www.zotero.org/google-docs/?gQfQJd
https://doi.org/10.1101/2023.07.31.551358
http://creativecommons.org/licenses/by-nc-nd/4.0/
Figure 1: Flowchart of the current study to obtain a gene signature based on the Recursive Feature Elimination (RFE) approach. The 
datasets are indicated by the cylindric shape, the white rectangles represent the steps of the study, and the green rectangles 
represent the resulting figures and tables. TCGA-KIRC and ICGC-RECA are the ccRCC datasets. 
.CC-BY-NC-ND 4.0 International licensemade available under a
(which was not certified by peer review) is the author/funder, who has granted bioRxiv a license to display the preprint in perpetuity. It is 
The copyright holder for this preprintthis version posted August 2, 2023. ; https://doi.org/10.1101/2023.07.31.551358doi: bioRxiv preprint 
https://doi.org/10.1101/2023.07.31.551358
http://creativecommons.org/licenses/by-nc-nd/4.0/
Figure 2: The ceRNA network constructed based on the differentially expressed (DE) genes in the ccRCC patients. It's observed a 
cluster conformation, were exist regions highly connected, and regions slightly connected. The red rectangles represent the messenger 
RNAs (mRNAs), the orange elipses represents the micro RNAs (miRNAs), and the green losang represents the long non-coding RNAs 
(lncRNA). The network is composed by 18 lncRNAs, 75 miRNAs, and 128 mRNAs. 
MAGI2-AS3
hsa-miR-320b
hsa-miR-103a-3p
CA2
UNC5B
EZH2
HECW2
hsa-miR-374b-5p
hsa-miR-320d
hsa-miR-4295
PRKCA
SLC41A2
KIF21B
WNK3
hsa-miR-374a-5p
hsa-miR-320c
hsa-miR-130a-3p
SCOC
ANLN
INTS6L
GXYLT2
AC021078.1
hsa-miR-320a
hsa-miR-454-3p
DNAJC6
PHLDA3
PLXNA3
LPL
hsa-miR-153-3p
hsa-miR-181b-5p
hsa-miR-130b-3p
L1CAM
CNTNAP1
APBB3
LDLR
hsa-miR-186-5p
hsa-miR-181a-5p
hsa-miR-3666
FGFR2
INSR
TRIM52
NID2
EPB41L4A-AS1
hsa-miR-181c-5p
hsa-miR-138-5p
MYO10
SIPA1L2
DNA2
SCARA3
SNHG20
hsa-miR-181d-5p
TNFRSF10B
SLC25A5
AATK
AMT
hsa-miR-495-3p
hsa-miR-4262
TET3
WNT5A
SPRY4
SLC25A37
AC005154.1
hsa-miR-211-5p
CCND2
PCDH7
RFLNB
CELSR3
PVT1
hsa-miR-29c-3p
hsa-miR-204-5p
RNF149
UST
SNAP25
RNF165
hsa-miR-93-5p
hsa-miR-29b-3p
hsa-miR-329-3p
MYO9B
BTBD11
ARL10
SLC25A27
hsa-miR-106a-5p
hsa-miR-29a-3p
hsa-miR-377-3p
CORO1C
FAM111B
LY6E
MXD3
hsa-miR-17-5p
C1RL-AS1
hsa-miR-362-3p
ATAD5
PTTG1
IL15
CSNK1E
hsa-miR-20a-5p
hsa-miR-16-5p
MALAT1
VKORC1
GFI1
IRX3
CHFR
hsa-miR-519d-3p
hsa-miR-424-5p
hsa-miR-200b-3p
RSRP1
FGFR1OP
PLAGL1
CLK1
hsa-miR-106b-5p
MIR497HG
hsa-miR-429
TNK2
PTHLH
TSPYL2
SPARC
hsa-miR-20b-5p
hsa-miR-128-3p
hsa-miR-200c-3p
ADGRG2
DGKD
IRF4
LOXL2
AC016876.2
AC015813.1
hsa-miR-4429
IL2RB
LOX
TLL1
CD276
hsa-miR-300
hsa-miR-590-3p
hsa-miR-26a-5p
NFKBIE
ZNF469
KCNN4
MARCH3
hsa-miR-381-3p
SNHG5
hsa-miR-1297
CITED4
CREB5
CBFA2T3
P3H1
hsa-miR-133a-3p
hsa-miR-421
hsa-miR-26b-5p
SLAMF6
CCNL2
WSB1
COL5A2
hsa-miR-133b
AF117829.1
hsa-miR-200a-3p
RPL28
KMT5C
MN1
RASD1
SNHG1
hsa-miR-361-5p
hsa-miR-141-3p
RCN3
ANKRD13B
PROCRCOL1A1
hsa-miR-326
NEAT1
hsa-miR-613
ATP1A1
CLK2
FSTL3
PXDN
hsa-miR-330-5p
hsa-let-7i-5p
hsa-miR-1-3p
SGPP1
KIFC2
CXCL2
PMEPA1
hsa-miR-21-5p
hsa-let-7e-5p
hsa-miR-1271-5p
GATA3
SCARB1
FHOD1
CORO2B
SNHG15
hsa-miR-124-3p
hsa-miR-206
NHSL1
AHNAK2
BRIP1
SH3RF3
hsa-miR-24-3p
hsa-let-7g-5p
hsa-miR-4465
TBX3
RELT
PSTPIP2
SPRY1
GAS5
hsa-let-7f-5p
hsa-miR-96-5p
JMY
PFKFB4
NMB
PFKFB3
hsa-miR-485-5p
hsa-miR-98-5p
H19
HUNK
APLN
POLE2
TCF4
hsa-miR-137
hsa-miR-506-3p
hsa-miR-107
PPM1H
SH2D2A
HMMR
BCL11A
.CC-BY-NC-ND 4.0 International licensemade available under a
(which was not certified by peer review) is the author/funder, who has granted bioRxiv a license to display the preprint in perpetuity. It is 
The copyright holder for this preprintthis version posted August 2, 2023. ; https://doi.org/10.1101/2023.07.31.551358doi: bioRxiv preprint 
https://doi.org/10.1101/2023.07.31.551358
http://creativecommons.org/licenses/by-nc-nd/4.0/
Figure 3: Heatplot with the 29 unique genes reported by the 9 gene signature constructed. In the Y-axis are the methods applied to the signature 
construction, and in the X-axis are the genes listed. The green square represent the presence of the gene as resulted by the method 
.CC-BY-NC-ND 4.0 International licensemade available under a
(which was not certified by peer review) is the author/funder, who has granted bioRxiv a license to display the preprint in perpetuity. It is 
The copyright holder for this preprintthis version posted August 2, 2023. ; https://doi.org/10.1101/2023.07.31.551358doi: bioRxiv preprint 
https://doi.org/10.1101/2023.07.31.551358
http://creativecommons.org/licenses/by-nc-nd/4.0/
Figure 4: Odds ratio of each gene in the signature regarding metastatic development and 
95% confidence interval. The miRNA hsa-miR-130a-3p and the lncRNA AF117829.1 were the 
only ones significantly associated (p-value < 0.05).
.CC-BY-NC-ND 4.0 International licensemade available under a
(which was not certified by peer review) is the author/funder, who has granted bioRxiv a license to display the preprint in perpetuity. It is 
The copyright holder for this preprintthis version posted August 2, 2023. ; https://doi.org/10.1101/2023.07.31.551358doi: bioRxiv preprint 
https://doi.org/10.1101/2023.07.31.551358
http://creativecommons.org/licenses/by-nc-nd/4.0/
Figure 5:Functional annotation from (a) KEGG for the seven encoding genes and from (b) Gene Ontology for the target mRNAs
of the two miRNAs involved in the signature. In both cases, the Y-axis represents the annotated pathways for their respective input
data, while the X-axis for figure (a) represents the membership relationship between the signature mRNAs and the total genes
in the pathway, and for figure (b) it represents the number of genes from signature in the pathway.
.CC-BY-NC-ND 4.0 International licensemade available under a
(which was not certified by peer review) is the author/funder, who has granted bioRxiv a license to display the preprint in perpetuity. It is 
The copyright holder for this preprintthis version posted August 2, 2023. ; https://doi.org/10.1101/2023.07.31.551358doi: bioRxiv preprint 
https://doi.org/10.1101/2023.07.31.551358
http://creativecommons.org/licenses/by-nc-nd/4.0/
Table 1: Metrics evaluated for validation with an external dataset
Method Accuracy Balanced Accuracy AUC Brier Score
RandomForest 72.2% 72.2% 81.48% 0.1955442
SVM 50% 50% 66.67% 0.2500714
xgBoost 61.1% 61.1% 62.34% 0.2343498
kNN 50% 50% 61.72% 0.4817816
Naive Bayes 50% 50% 54.32% 0.5000000
.CC-BY-NC-ND 4.0 International licensemade available under a
(which was not certified by peer review) is the author/funder, who has granted bioRxiv a license to display the preprint in perpetuity. It is 
The copyright holder for this preprintthis version posted August 2, 2023. ; https://doi.org/10.1101/2023.07.31.551358doi: bioRxiv preprint 
https://doi.org/10.1101/2023.07.31.551358
http://creativecommons.org/licenses/by-nc-nd/4.0/
Figure S1: Oncoplot with the mutations recorded in the signature coding genes, The bar graph on the right representes 
the amount of mutated samples and the bar graph above representes the mutations registeres on these samples
FIgure S2: Functional annotation made from (a) KEGG and (b) Gene Ontology using the targets of miRNAs participating in 
the signature. In both, the Y axis represents the annotated pathways in the databases and the X axis represents the number 
of genes regulated by the miRNAs in the pathway.
Table S1: Feature selection techniques and application stage.
Method Technique Step
Filter
Generalized Linear Model Feature Selection and
Benchmarking
Linear Discriminant
Analysis
Feature Selection
Akaike Information
Criterion
Feature Selection
eXtreme Gradient Boosting Benchmarking and
Validation
Wrapper
Boruta Feature Selection
Recursive Feature
Elimination
Feature Selection
Lasso Feature Selection
ElasticNet Feature Selection
Support Vector Machine Benchmarking and
Validation
Naive Bayes Validation
k-Nearest Neighbors Validation
Random Forest Benchmarking and
Validation
	4cfbb99730b42c556822fdfe642da172b276e81ea3263c90f93adfa6de5a761b.pdf
	b38fbfe7e2295cd3d8a8000d9d2abba993fae72d4acd18ce17b12478e022ff7e.pdf
	4cfbb99730b42c556822fdfe642da172b276e81ea3263c90f93adfa6de5a761b.pdf

Mais conteúdos dessa disciplina