Baixe o app para aproveitar ainda mais
Prévia do material em texto
Análise de redes em biologia Os sistemas biológicos são frequentemente representados como redes que são conjuntos complexos de interações ou relações binárias entre diferentes entidades. Essencialmente, toda entidade biológica tem interações com outras entidades biológicas, do nível molecular ao nível do ecossistema, oferecendo a oportunidade de modelar a biologia usando muitos tipos diferentes de redes, como redes de interação ecológica, neurológica, metabólica ou molecular (Figura 1). A explosão de dados que se originou na era da pesquisa biológica exigiu o desenvolvimento de abordagens mais sistêmicas para a análise de dados e um afastamento da perspectiva de um único gene / proteína. A biologia de sistemas visa compreender entidades biológicas no nível sistêmico, analisando-as não apenas como componentes individuais, mas também como sistemas em interação e suas propriedades emergentes. Relacionado a isso está a biologia de redes, que permite a representação e análise de sistemas biológicos usando ferramentas derivadas da teoria dos grafos . Figura 1 As redes podem ser usadas para modelar muitos tipos de dados biológicos. Introdução à teoria dos grafos A análise de redes biológicas se originou historicamente das ferramentas e conceitos da análise de redes sociais e da aplicação da teoria dos grafos às ciências sociais. A Wikipedia ( 1 ) define a teoria dos grafos como: “[...] o estudo de gráficos, estruturas matemáticas usadas para modelar relações em pares entre objetos. Um gráfico nesse contexto é composto de vértices, nós ou pontos conectados por arestas, arcos ou linhas ”. Em termos práticos, é o conjunto de conceitos e métodos abstratos que podem ser usados para visualizar e analisar redes. A história da teoria dos grafos A teoria dos grafos e a idéia de topologia foram descritas pela primeira vez pelo matemático suíço Leonard Euler como aplicado ao problema das sete pontes de Königsberg. Königsberg consistia em quatro ilhas conectadas por sete pontes (Figura 2). Ninguém jamais havia encontrado um caminho que visitasse todas as quatro ilhas e cruzasse cada uma das https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-introduction/references sete pontes apenas uma vez. Naturalmente, as pessoas supuseram que esse caminho não existia, mas não havia prova matemática disso. Figura 2 As sete pontes de Königsberg. As imagens são do Wikimedia Commons e usadas sob a licença Creative Commons Attribution-Share Alike 3.0 Unported. Euler mostrou que, para resolver o problema, apenas as relações entre as massas terrestres são relevantes, não a forma ou as distâncias reais no mapa. Essas relações podem ser representadas na forma de um gráfico em que as massas terrestres são os nós e as pontes são as arestas do gráfico. Euler usou esse gráfico e suas características topológicas para provar que o caminho não existia. A formulação desse problema por Euler forneceu a base de toda uma área da matemática e é a base de todas as ferramentas e conceitos que exploraremos neste curso. Teoria dos grafos: tipos de grafos e propriedades das arestas As redes podem representar muitos tipos diferentes de dados. Os nós representam entidades diferentes (por exemplo, proteínas ou genes em redes biológicas) e as bordas transmitem informações sobre os links entre os nós. Primeiro vamos nos concentrar nas bordas . Dependendo da natureza das informações de borda subjacentes, diferentes tipos de análise podem ser executados. Por esse motivo, é útil destacar os principais tipos de arestas que podem ser encontrados em uma rede (Figura 3). Tipos de bordas da rede Arestas não direcionadas Esse tipo de borda é encontrado nas redes de interação proteína-proteína (PPINs). O relacionamento entre os nós é uma conexão simples, sem um determinado 'fluxo' implícito, pois as evidências por trás do relacionamento apenas nos dizem que A liga B. Bordas direcionadas Esse é o tipo de conexão encontrada, por exemplo, em redes de regulação metabólica ou de genes . Existe um fluxo claro de sinal implícito e a rede pode ser organizada hierarquicamente. Arestas ponderadas As arestas direcionadas ou não direcionadas também podem ter peso ou um valor quantitativo associado a elas. Isso é usado para descrever conceitos como a confiabilidade de uma interação, a mudança quantitativa da expressão que um gene induz sobre outro ou mesmo a proximidade entre dois genes em termos de similaridade de sequência. As arestas também podem ser ponderadas por seus valores de centralidade ou vários outros parâmetros topológicos. https://commons.wikimedia.org/wiki/Category:Seven_Bridges_of_K%C3%B6nigsberg?uselang=en-gb https://www.ebi.ac.uk/training/online/glossary/gene-regulation https://www.ebi.ac.uk/training/online/glossary/gene-regulation Figura 3 Os principais tipos de arestas encontrados em uma rede. Teoria dos grafos: matrizes de adjacência Toda rede pode ser expressa matematicamente na forma de uma matriz de adjacência (Figura 4). Nessas matrizes, as linhas e colunas são atribuídas aos nós da rede e a presença de uma aresta é simbolizada por um valor numérico. Usando a representação matricial da rede, podemos calcular propriedades da rede, como grau e outras centralidades, aplicando conceitos básicos da álgebra linear (veja mais adiante neste curso). Figura 4 Gráficos por tipo de aresta e suas matrizes de adjacência. Uma rede com arestas não direcionadas e não ponderadas será representada por uma matriz simétrica contendo apenas os valores 1 e 0 para representar a presença e ausência de conexões, respectivamente. Redes direcionadas e ponderadas podem fazer uso de diferentes valores numéricos na matriz para expressar esses relacionamentos mais complexos. O sinal dos valores, por exemplo, às vezes é usado para indicar estímulo ou inibição. Teoria dos grafos: topologia de rede Os gráficos têm algumas propriedades que são muito úteis ao desvendar as informações que eles contêm. É importante perceber que o objetivo de qualquer tipo de análise de rede é trabalhar com a complexidade da rede para extrair informações significativas que você não teria se os componentes individuais fossem examinados separadamente. As propriedades de rede e, em particular , as propriedades topológicas , podem nos ajudar a identificar subestruturas relevantes em uma rede. Topologia é a maneira pela qual os nós e as arestas são organizados em uma rede. As propriedades topológicas podem ser aplicadas à rede como um todo ou a nós e arestas individuais. Algumas das propriedades e conceitos topológicos mais utilizados são: As fontes de dados subjacentes às redes biológicas É importante enfatizar que desafios significativos surgem não apenas do tamanho do conjunto de dados usado, mas também devido ao fato de que os conjuntos de dados biológicos são inerentemente barulhentos e incompletos. Freqüentemente, diferentes tipos de evidência não se sobrepõem ou serão contraditórios. A maneira como os dados foram obtidos é um aspecto importante a ser considerado aqui, com as informações normalmente provenientes das seguintes fontes: Curadoria manual da literatura científica : curadores científicos ou especialistas em domínio avaliam as evidências publicadas existentes e as armazenam em um banco de dados. Isso fornece informações de alta qualidade e bem representadas, mas a curadoria é uma tarefa cara e demorada, e o tamanho dos conjuntos de dados é limitado por esses fatores. Conjuntos de dados de alto rendimento: algumas abordagens experimentais podem gerar grandes quantidades de dados, como conjuntos de dados PPI em larga escala gerados por meio de levedura de dois híbridos ou purificação por afinidade, além de identificação por espectrometria de massa. Eles fornecem conjuntos de dados grandes e produzidos sistematicamente, mas as informações sofrem os preconceitosinerentes à técnica escolhida e variam em qualidade. Previsões computacionais: Muitos métodos usam as evidências experimentais existentes como base e visam prever relações inexploradas entre entidades biológicas. Por exemplo, as interações proteicas em humanos podem ser usadas para prever interações semelhantes em camundongos se houver ortólogos próximos o suficiente neste organismo. Eles fornecem uma ferramenta para ampliar e até refinar o espaço das interações derivadas experimentalmente, mas os conjuntos de dados produzidos são compreensivelmente mais barulhentos do que com as fontes anteriores. Mineração de texto da literatura: Vários algoritmos são usados para extrair computacionalmente relacionamentos representados sistematicamente da literatura publicada. Como no caso anterior, embora eles possam aumentar bastante a cobertura dos dados, o processamento de linguagem natural é um negócio complicado e os resultados tendem a ser bastante barulhentos. A importância das interações moleculares As interações moleculares são importantes para os biólogos moleculares porque: 1. Eles nos ajudam a entender a função e o comportamento de uma proteína (Figura 2). https://www.ebi.ac.uk/training/online/glossary/natural-language-processing 2. Eles podem nos ajudar a prever os processos biológicos nos quais uma proteína de função desconhecida está envolvida: Podemos assumir "culpa por associação" se uma proteína de função desconhecida se associa a uma de função conhecida As proteínas envolvidas no mesmo processo devem se agrupar em mapas de rede 3. Eles podem nos ajudar a caracterizar complexos e vias de proteínas; as redes de interação podem ser usadas como um rascunho 'mapa' para adicionar detalhes aos processos e caminhos biológicos. Figura 2. Contrariamente à crença original de que uma proteína tinha uma única função, as proteínas têm funções e papéis celulares diferentes, dependendo de seu ambiente imediato, o que afeta sua posição nas redes de proteínas. Redes de interação proteína-proteína As interações proteína-proteína (IBPs) são essenciais para quase todos os processos em uma célula, portanto, entender os IBPs é crucial para entender a fisiologia celular nos estados normal e da doença. Também é essencial no desenvolvimento de medicamentos, uma vez que os medicamentos podem afetar os IBPs. As redes de interação proteína-proteína (PPIN) são representações matemáticas dos contatos físicos entre proteínas na célula. Esses contatos: • são específicos; • ocorrer entre regiões de ligação definidas nas proteínas; e • têm um significado biológico específico (isto é, eles servem para uma função específica). As informações de PPI podem representar interações transitórias e estáveis: • Interações estáveis são formadas em complexos de proteínas (por exemplo, ribossomo, hemoglobina). • Interações transitórias são breves interações que modificam ou transportam uma proteína, levando a alterações adicionais (por exemplo, proteínas cinases, importinas de poros nucleares). Eles constituem a parte mais dinâmica do interactoma. O conhecimento dos PPIs pode ser usado para: • atribuir papéis putativos a proteínas não caracterizadas; • adicione detalhes refinados sobre as etapas em um caminho de sinalização; ou • caracterizar as relações entre proteínas que formam complexos multi-moleculares, como o proteassoma. O interatoma O interatoma é a totalidade dos IBPs que ocorrem em uma célula, organismo ou contexto biológico específico. O desenvolvimento de técnicas de triagem de PPI em larga escala, especialmente a purificação por afinidade de alto rendimento combinada com espectrometria de massa e o ensaio de dois híbridos de levedura, causou uma explosão na quantidade de dados de PPI e na construção de intertomesmas cada vez mais complexos e completos ( Figura 16). Essa evidência experimental é complementada pela disponibilidade de algoritmos de previsão de PPI. Muitas dessas informações estão disponíveis em bancos de dados de interação molecular, como o IntAct . Figura 16 Interatossomas de levedura (esquerda) e humanos (direita) obtidos usando o método híbrido de levedura- dois. Imagens reproduzidas com permissão da Macmillan Publishers Ltd: Jeong et al. Nature 2001. 411 ( 3 ) e Rual et al. Nature 2005: 437 ( 4 ). É importante enfatizar mais uma vez as limitações dos dados de PPI disponíveis. Nosso conhecimento atual do intertomoma é incompleto e barulhento . Os métodos de detecção de PPI têm limitações em relação a quantas interações fisiológicas reais eles podem detectar e todos encontram falsos positivos e negativos. Propriedades dos PPINs: pequeno efeito mundial As redes de interação proteína-proteína mostram um pequeno efeito mundial, o que significa que há uma grande conectividade entre proteínas (Figura 17). Em outras palavras, pode-se dizer que o diâmetro da rede (o número máximo de etapas que separam dois nós) é pequeno, não importa o tamanho da rede. Isso geralmente significa que quaisquer dois nós são separados por menos de seis etapas, mais ou menos, refletindo a agora popularmente popularizada teoria dos " seis graus de separação " usada nas ciências sociais. Figura 17 O pequeno efeito mundial. Esse nível de conectividade tem importantes consequências biológicas, pois permite um fluxo eficiente e rápido de sinais dentro da rede. No entanto, também coloca uma questão interessante: se a rede está tão fortemente conectada, por que as perturbações em um único gene ou proteína não têm consequências dramáticas para a rede? Os sistemas biológicos são extremamente robustos e podem lidar com uma quantidade relativamente alta de perturbações em genes / proteínas únicos. Para explicar como isso pode acontecer, precisamos dar uma olhada em outra propriedade fundamental dos PPINs: são redes sem escala. Propriedades de PPINs: redes sem escala https://www.ebi.ac.uk/intact https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-introduction/references https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-introduction/references https://en.wikipedia.org/wiki/Six_degrees_of_separation https://en.wikipedia.org/wiki/Six_degrees_of_separation As redes de interação proteína-proteína são redes sem escala (Figura 18A). A maioria dos nós (proteínas) em redes sem escala tem apenas algumas conexões com outros nós, enquanto alguns nós (hubs) estão conectados a muitos outros nós na rede. Figura 18 Um exemplo de rede sem escala (A). A distribuição típica de graus de uma rede sem escala (B). O número de conexões que cada nó possui é chamado de grau. Se representarmos a distribuição de graus de uma rede sem escala em uma escala logarítmica, podemos ver como ela se encaixa em uma linha (eles se encaixam em uma lei de potência), tendo um pequeno número de nós com alto grau (os hubs) e um grande número de nós com um baixo grau (Figura 18B). Redes sem escala podem ser construídas de acordo com o modelo preferencial de anexos , também conhecido como princípio dos 'ricos ficam mais ricos'. Esse princípio simplesmente declara que redes sem escala podem ser construídas adicionando arestas preferencialmente conectadas aos nós com o mais alto grau ( 5 ). Esse princípio de construção fornece um mecanismo auto-organizado para a geração e expansão desse tipo de rede. A natureza sem escala das redes de interação proteína-proteína fornece-lhes uma série de características importantes: • Estabilidade • Se as falhas ocorrerem aleatoriamente, e a grande maioria das proteínas são aquelas com um pequeno grau de conectividade, a probabilidade de um hub ser afetado é pequena. • Se ocorrer uma falha no hub, a rede geralmente não perderá a conexão devido aos hubs restantes. • Invariável a mudanças de escala • Não importa quantos nós ou arestas a rede possui, suas propriedades permanecem estáveis. • A presençade hubs é o que permite que o efeito do mundo pequeno esteja presente, independentemente do tamanho da rede. • Vulnerável a ataques direcionados • Se perdermos alguns hubs importantes da rede, a rede será transformada em um conjunto de gráficos bastante isolados. • Os hubs são enriquecidos com genes essenciais / letais. Por exemplo, muitas proteínas ligadas ao câncer são proteínas centrais (por exemplo, a proteína supressora de tumor p53). É importante observar que, dados os atuais níveis limitados de cobertura e a qualidade variável dos dados de interação, a topologia observada sem escala das redes de interação proteína-proteína existentes não pode ser extrapolada com segurança para concluir os interomassomas. De fato, alguns trabalhos têm questionado até que ponto as redes biológicas se encaixam na distribuição da lei de energia sem escala ( 6 ). Propriedades dos PPINs: transitividade Outra característica crucial dos PPINs é sua modularidade. O coeficiente de transitividade ou clustering de uma rede é uma medida da tendência dos nós de se agruparem. Alta transitividade significa que a rede contém comunidades ou grupos de nós densamente conectados internamente. Seguindo uma analogia das ciências sociais, "os amigos dos meus https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-introduction/references https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-introduction/references amigos são meus amigos". Nas redes biológicas, encontrar essas comunidades é muito importante, pois elas podem refletir módulos funcionais e complexos de proteínas (Figura 19). Figura 19 Clusters topológicos que refletem a função biológica. Os aglomerados são destacados nos quadrados de linhas tracejadas: I - Máquinas proteasomais; II - agrupamento de proteínas relacionadas à tradução, contendo várias proteínas ribossômicas; III - cluster relacionado à produção de energia, contendo várias ATPases mitocondriais. Imagem reproduzida com permissão dos autores de Hsia et al. Int J Mol. Sci. 2015: 16. ( 7 ). Um módulo é uma unidade funcional intercambiável. Eles são componentes independentes de um sistema com interfaces bem definidas com outros componentes. O recurso definidor de um módulo é que suas propriedades funcionais intrínsecas não mudam quando ele é colocado em um contexto diferente. Os módulos ajudam a reduzir a complexidade das redes biológicas, fornecendo um conjunto de unidades funcionais e redutíveis que podem ser estudadas como uma entidade integrada. O estudo topológico de PPINs pode ajudar a detectar e definir esses módulos. Os complexos proteicos podem ser considerados um tipo de módulo no qual as proteínas estão interagindo entre si de maneira estável, mantendo uma configuração mais ou menos fixa no tempo e no espaço. Eles representam máquinas multiproteínas com funções específicas. Um tipo mais amplo de módulo funcional não requer que as proteínas sejam ligadas de forma estável uma à outra, desde que suas propriedades funcionais intrínsecas não mudem quando colocadas em outro contexto. O estudo de módulos também é útil na definição de interações e proteínas intermodulares . Esses são os limites / nós que vinculam diferentes comunidades em uma rede. Eles podem atuar como comutadores ou moduladores de alto nível que, por exemplo, mediam a conversa cruzada entre diferentes complexos ou caminhos. Falaremos mais detalhadamente sobre a pesquisa de módulos em PPINs em uma seção adicional. Agora vamos falar sobre as principais estratégias que podem ser usadas para analisar PPINs. Construindo e analisando PPINs Agora que sabemos um pouco sobre a teoria dos grafos e as redes de interação proteína-proteína, podemos observar as etapas, estratégias e ferramentas usadas para construir e analisar essas redes (Figura 20). https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-introduction/references Figura 20 Um fluxo de trabalho potencial para criar e analisar redes de interação proteína-proteína. Primeiro, apresentaremos brevemente vários pacotes de software ou métodos programáticos usados para construir e analisar redes. A seguir, falamos sobre fontes das quais você pode obter dados PPI e discutimos várias maneiras de analisar os dados, dos quais a análise topológica das centralidades e as abordagens de busca da comunidade são estratégias comuns. Finalmente, examinamos maneiras pelas quais dados adicionais podem ser adicionados para entender o contexto biológico da rede. Ferramentas de representação e análise de rede Existem várias ferramentas que podem ser usadas para obter, integrar e analisar dados de PPI para entender seu contexto biológico. Vamos dar uma breve olhada em alguns deles. Cytoscape O Cytoscape é uma das ferramentas de análise de rede mais populares. É um aplicativo de desktop multiplataforma baseado em Java e de código aberto amplamente utilizado para representação, integração e análise de rede. Foi originalmente projetado para a análise de redes biológicas, que permanece como sua principal aplicação, mas também pode ser usado para análises de redes de uso geral. Figura 21 O Cytoscape é uma ferramenta popular para análise de rede. Vantagens Aplicativos Cytoscape • Uma das principais razões para sua popularidade é a grande variedade de aplicativos (quase 300 na época em que escrevemos este curso) que fornecem funcionalidade específica e adicional à distribuição principal do Cytoscape. Isso fornece grande flexibilidade, tornando a ferramenta adaptável a vários tipos de análise em vários domínios do conhecimento. • Para análise de rede PPI existem aplicativos específicos para a pesquisa da comunidade, (por exemplo MCODE , clusterMaker2 , JActiveModules ) ou para realizar Gene Set Enriquecimento Análise ( bingo , ClueGO , EnrichmentMap ). • Alguns aplicativos Cytoscape funcionam apenas com uma versão específica da distribuição principal do Cytoscape. É importante verificar se você possui a versão correta para o tipo de análise que precisa executar. http://www.cytoscape.org/ http://apps.cytoscape.org/apps/mcode http://apps.cytoscape.org/apps/clustermaker2 http://apps.cytoscape.org/apps/jactivemodules http://apps.cytoscape.org/apps/bingo http://apps.cytoscape.org/apps/cluego http://apps.cytoscape.org/apps/enrichmentmap http://www.cytoscape.org/ Automação • As tarefas do Cytoscape podem ser automatizadas por meio de argumentos da linha de comando, embora o número de recursos que você possa acessar dessa maneira ainda seja limitado. Limitações • É bastante exigente em termos de recursos de computação quando se trata de redes de grande escala e atinge um limite do que pode suportar quando as redes se tornam muito grandes (centenas de milhares de nós e arestas). Opções não programáticas para redes grandes Uma opção não programática para lidar com grandes redes é o Gephi . O Gephi é capaz de lidar com centenas de milhares de nós e milhões de bordas, embora o processamento e o desenho especialmente de tais redes exijam uma enorme capacidade de computação. Figura 22 Gephi é uma ferramenta não programática para analisar grandes redes. Os benefícios do Gephi são que ele é de código aberto, multiplataforma e possui uma ampla variedade de algoritmos avançados relacionados à rede (geralmente não encontrados em nenhum outro lugar) na forma de plugins. A única desvantagem é a falta de capacidade para processar informações especificamente biológicas. É uma ferramenta geral de rede e deve ser tratada como tal e usada para enumeração, estatística e visualização. Soluções programáticas As soluções programáticas para análise de rede em larga escala incluem pacotes como igraph (para R, Python e C) ou NetworkX (para Python). Estes são pacotes de scripts que têm uma demanda muito menor nos recursos do computador e são mais acessíveis para tarefasautomatizadas. Isso significa que eles podem ser facilmente implementados como parte de dutos maiores de análise de bioinformática. Por exemplo, a implementação R do igraph é frequentemente usada em conjunto com outros pacotes de bioestatística disponíveis por meio dessa linguagem. Figura 23 igraph e NetworkX são soluções programáticas para análise de rede em larga escala. Fontes de dados PPI O primeiro passo na realização da análise PPIN é, obviamente, construir uma rede. Existem diferentes fontes de dados PPI (Figura 24) que podem ser usadas para fazer isso e é importante estar ciente de suas vantagens e desvantagens. Essencialmente, você pode obter dados PPI em: • Seu próprio trabalho experimental, onde você pode escolher como os dados são representados e armazenados. http://gephi.org/ http://igraph.org/ http://networkx.github.io/ https://gephi.org/ http://igraph.org/ https://networkx.github.io/ • Um banco de dados PPI primário. Esses bancos de dados extraem os IBPs das evidências experimentais relatadas na literatura usando um processo de curadoria manual. Eles são os principais fornecedores de dados PPI e podem representar muitos detalhes sobre interações, dependendo do banco de dados. • Um metadatabase ou um banco de dados preditivo. Esses recursos reúnem as informações fornecidas por diferentes bancos de dados primários e fornecem uma representação unificada dos dados para o usuário. Os bancos de dados preditivos vão além disso e usam os conjuntos de dados produzidos experimentalmente para prever computacionalmente interações em áreas inexploradas do intertomoma . Os bancos de dados preditivos fornecem uma maneira de ampliar ou refinar o espaço das interações derivadas experimentalmente, mas os conjuntos de dados produzidos são mais barulhentos que os de outras fontes. Figura 24 Fontes de dados de PPI e desafios ao criar um PPIN. Muitas vezes, será necessário integrar dados PPI de várias fontes, pois nenhum banco de dados tem uma representação completa de todas as evidências de PPI disponíveis. Isso cria alguns desafios interessantes porque bancos de dados diferentes usam identificadores diferentes e contêm tipos diferentes de dados. Para evitar redundâncias e inconsistências, é importante entender as diferenças entre os diferentes bancos de dados em termos de: i) O tipo de dados e metadados que eles incluem. Por exemplo, alguns bancos de dados fornecerão apenas dados derivados experimentalmente e outros também incluirão previsões. Da mesma forma, o nível de detalhe fornecido sobre a configuração experimental varia entre os bancos de dados. ii) Os identificadores usados pelo banco de dados. Bancos de dados diferentes fazem escolhas diferentes nesse sentido; portanto, às vezes você pode precisar mapear tipos diferentes de identificadores para integração de dados. A criação do consórcio IMEx , reforçando o uso de padrões comuns de representação e modelos de curadoria, foi um passo importante para solucionar problemas de redundância e inconsistência. Visite o site da IMEx para saber mais. Avaliando a confiabilidade e medindo a confiança Uma preocupação importante na análise de rede é se a rede de interação pode ser confiável para representar uma interação biológica "real". Dado o ruído inerente às informações interativas, é importante ser rigoroso ao avaliar os dados de interação proteína-proteína que usamos em nossa análise. É importante levar em consideração que a cobertura interativa também é incompleta e irregular, portanto nem sempre temos o luxo de filtrar evidências menos confiáveis. Existem muitos métodos diferentes para determinar a confiabilidade e fornecer uma medida de confiança. Algumas estratégias fazem uso de: • Informação biológica contextual relativa às proteínas ou moléculas envolvidas na interação. Por exemplo, sobreposição de padrões de co-expressão ( 8 , 9 ). https://www.ebi.ac.uk/training/online/glossary/interactome https://www.ebi.ac.uk/training/online/glossary/metadata https://www.ebi.ac.uk/training/online/glossary/imex http://www.imexconsortium.org/about-imex http://www.imexconsortium.org/about-imex https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-introduction/references https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-introduction/references • Conte quantas vezes uma determinada interação foi relatada na literatura , como uma medida de validação ortogonal experimental. Essa é uma abordagem popular e direta e há variações mais elaboradas dessa estratégia, como o MIscore (consulte o texto em caixa). • Métodos agregados que usam várias estratégias diferentes e as integram em uma única pontuação, como INTscore ( 10 ). O método MIscore O MIscore é um método para avaliar a confiabilidade dos dados de interação proteína-proteína com base no uso de padrões ( 11 ). O MIscore fornece uma estimativa do peso da confiança em todas as evidências disponíveis para um par de proteínas em interação. O método permite ponderar as evidências fornecidas por diferentes fontes, desde que os dados sejam representados seguindo os padrões criados pelo consórcio IMEx. Conforme mostrado na Figura 25, o método pondera: • número de publicações; • método de detecção; • tipo de evidência de interação. Diferentes métodos de detecção de interação e tipos de interação têm pesos diferentes, atribuídos por um grupo de curadores especializados. Esses parâmetros são agregados para cada par de interação e depois normalizados, fornecendo uma medida quantitativa de quanta evidência experimental existe por trás de uma determinada interação. Figura 25 A pontuação normalizada do MIscore calcula uma pontuação composta para uma interação com base no número de publicações que relatam a interação, nos métodos de detecção de interação relatados e nos tipos de interação. Reproduzido de Villaveces et al. Mesclando e pontuando interações moleculares utilizando os padrões da comunidade existentes: ferramentas, casos de uso e um estudo de caso. Database (Oxford), 2015 ( 11 ). Com permissão da Oxford University Press. Análise topológica de PPIN Analisar os recursos topológicos de uma rede é uma maneira útil de identificar participantes e subestruturas relevantes que podem ter significado biológico. Existem muitas estratégias diferentes que podem ser usadas para fazer isso (Figura 26). Nesta seção, focaremos na análise de centralidade e no agrupamento topológico , embora existam outras estratégias, como a busca por caminhos mais curtos ou motivos que são mais frequentemente aplicados a redes com direcionalidade e não serão abordados aqui. http://intscore.molgen.mpg.de/ https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-introduction/references https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-introduction/references https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-introduction/references Figura 26 Estratégias comuns de análise estrutural para PPINs. Análise de centralidade A centralidade faz uma estimativa da importância de um nó ou borda para a conectividade ou o fluxo de informações da rede (Figura 27). É um parâmetro útil nas redes de sinalização e é frequentemente usado ao tentar encontrar alvos de drogas. A análise de centralidade nos PPINs geralmente visa responder à seguinte pergunta: Qual proteína é a mais importante e por quê? A centralidade da borda também pode ser analisada, mas isso é menos comum e os conceitos podem ser facilmente traduzidos a partir das centralidades baseadas em nós, portanto, focaremos o último nesta seção. Figura 27 Centralidade do nó representada em uma rede. Nós maiores e mais vermelhos têm valores de centralidade mais altos nessa representação. A definição de 'central' varia de acordo com o contexto ou o objetivo denossa análise. A centralidade pode ser medida usando diferentes métricas e critérios: • Grau dos nós O grau dos nós pode ser usado como uma estimativa aproximada da centralidade. Como vimos anteriormente, os nós com um alto grau (hubs) são essenciais para manter algumas características de redes sem escala, como sua robustez e o efeito do mundo pequeno. No entanto, essa é uma medida local , pois não leva em consideração o restante da rede e a importância que damos a seu valor depende fortemente do tamanho da rede. • Medidas de centralidade global As medidas de centralidade global levam em consideração toda a rede. São medidas relativas que fornecem um valor normalizado, independente do tamanho da rede. Existem muitos tipos diferentes de medidas de centralidade global, cada uma abordando uma definição ligeiramente diferente de centralidade. Duas das medidas de centralidade global mais amplamente usadas são as centralidades de proximidade e de interatividade , que abordaremos em mais detalhes nas seções a seguir. • Outras medidas de centralidade Medidas mais complexas de centralidade podem ser definidas dependendo do método específico usado para calculá- la. Por exemplo, as centralidades são frequentemente calculadas usando 'passeios aleatórios', onde nós aleatórios são escolhidos como ponto de partida e o 'tempo' ou 'velocidade' necessário para alcançar outros nós na rede é calculado. Isso pode ser combinado com os pesos atribuídos aos nós ou arestas no gráfico para influenciar o cálculo da centralidade derivado de outros recursos. Esse é o método usado pelo algoritmo do Google PageRank para atribuir peso a cada página da Web ( 12 ). Centralidade de proximidade A centralidade da proximidade é uma medida útil que estima a rapidez com que o fluxo de informações seria através de um determinado nó para outros nós. A centralidade de proximidade mede quão curtos os caminhos mais curtos são do nó i para todos os nós. É geralmente expresso como o inverso normalizado da soma das distâncias topológicas no gráfico (veja a equação no topo da Figura 28). Essa soma também é conhecida como farness dos nós. Às vezes, a centralidade da proximidade também é expressa simplesmente como a inversidade da farsa ( 13 , 14 ). No exemplo mostrado na metade inferior da figura, você pode ver a matriz de distâncias do gráfico à esquerda e os cálculos para obter a centralidade da proximidade à direita. O nó B é o nó mais central de acordo com esses parâmetros. Figura 28 Calculando a centralidade de proximidade dos nós em um gráfico. Centralidade de intermediação A centralidade de intermediação é baseada no fluxo de comunicação. Os nós com uma alta centralidade entre os pontos de interesse são interessantes porque estão nos caminhos de comunicação e podem controlar o fluxo de informações. Esses nós podem representar proteínas importantes nas vias de sinalização e podem formar alvos para a descoberta de medicamentos. Combinando esses dados com a análise de interferência, podemos simular ataques https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-introduction/references https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-introduction/references https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-introduction/references direcionados a redes de interação proteína-proteína e prever quais proteínas são melhores candidatas a medicamentos, por exemplo, ver Yu, et al. 2007 ( 15 ). O cálculo da centralidade de intermediação não é padronizado e há muitas maneiras de resolvê-lo. É basicamente definido como o número de caminhos mais curtos no gráfico que passa pelo nó dividido pelo número total de caminhos mais curtos. A centralidade de intermediação mede a frequência com que um nó ocorre em todos os caminhos mais curtos entre dois nós. Portanto, a intermediação de um nó N é calculada considerando pares de nós ( v1, v2 ) e contando o número de caminhos mais curtos que vinculam esses dois nós, que passam pelo nó N. Em seguida, o valor está relacionado ao número total de caminhos mais curtos vinculados v1 e v2 . Figura 29 Centralidade de intermediação. Para dar um exemplo mais intuitiva, no gráfico da Figura 29, cada nó B ou nó C pode ser removido e ainda haverá caminhos que levam ao nó E . Nó D , no entanto, é bastante central, uma vez que é necessário para qualquer caminho que conduz ao nó E . Você pode pensar neste gráfico como um mapa da cidade e nossa análise nos diz que D é a encruzilhada na qual é mais provável que haja engarrafamentos. De fato, a centralidade da intermediação pode ser usada no planejamento da cidade e existem estudos com o objetivo de otimizar o transporte urbano com base nessa métrica e em métricas relacionadas ( 16 ). Análise de agrupamento Procurar comunidades em uma rede é uma boa estratégia para reduzir a complexidade da rede e extrair módulos funcionais (por exemplo, complexos de proteínas) que refletem a biologia da rede. Existem vários termos que são comumente usados ao falar sobre análise de clustering (Figura 30): https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-introduction/references https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-introduction/references Figura 30 Alguns conceitos na análise da comunidade de rede. (As comunidades de rede figuram no Wikimedia commons por j_ham3 e são usadas sob a licença Creative Commons Attribution-Share Alike 3.0 Unported. Estrutura 3D da hemoglobina do PDBe e diagrama complexo do IntAct ). Comunidade / Cluster Um termo geral abrangente que pode ser definido como um grupo de nós que estão mais conectados entre si do que com o restante da rede. A definição precisa de uma comunidade dependerá do método ou algoritmo usado para defini-la. Ao falar sobre PPINs, as comunidades se enquadram em duas categorias: módulos funcionais e complexos de proteínas. Módulo Em biologia, os módulos são unidades funcionais permutáveis nas quais os nós (proteínas) não precisam interagir no mesmo tempo ou espaço. A característica mais importante de um módulo é que suas propriedades funcionais intrínsecas não mudam quando ele é colocado em um contexto diferente. Complexo Um complexo é um grupo de proteínas que interagem entre si ao mesmo tempo e no mesmo espaço, formando máquinas multiproteínas relativamente estáveis. Você pode usar o Portal complexo para explorar complexos macromoleculares conhecidos em vários organismos modelo. Clique Um subconjunto de nós no qual todos os nós estão conectados a todos os outros membros da clique. Uma clique máxima é uma clique que não pode ser estendida adicionando um nó adicional não incluído anteriormente na clique. Existem vários tipos diferentes de panelinhas e elas podem ser usadas como base de algoritmos que usam critérios topológicos para procurar comunidades. Motivo Motivos são subgráficos estatisticamente super-representados em uma rede. Eles correspondem a um padrão de conexões que gera uma resposta dinâmica característica (por exemplo, um loop de feedback negativo). Eles são menos importantes para o tipo de redes às quais este tutorial é dedicado, mas são bastante úteis em redes direcionadas. Ao explorar um PPIN para clusters, o objetivo geralmente é encontrar módulos funcionais ou complexos de proteínas que executam funções biológicas definidas. Existem muitos métodos diferentes que podem nos ajudar a encontrar clusters e apresentaremos brevemente alguns deles nesta seção. Métodos de análise de agrupamento I Nesta seção, focaremos nos métodos que usam exclusivamente a topologia da rede para encontrar componentes intimamente conectados. Isso é geralmente conhecido na teoria dos grafos como 'métodos de detecção da comunidade'. Nenhuma suposição é feita sobre a estrutura interna dessascomunidades, estamos apenas olhando para regiões de alta densidade. É importante observar que encontrar a melhor estrutura da comunidade é algoritmicamente extremamente complexo e só é possível para redes muito pequenas. Por esse motivo, muitos métodos de aproximação, geralmente abordando diferentes cenários, foram desenvolvidos. Há muitos para cobrir neste curso. Alguns exemplos incluem: • Método de percolação por clique • Algoritmo de cluster de Markov (MCL) • Fuzzy C-Means • Propagação de afinidade • Sussurros chineses em cluster • Cluster de Propagação de Etiquetas https://commons.wikimedia.org/w/index.php?curid=17125894 https://commons.wikimedia.org/w/index.php?curid=17125894 https://www.ebi.ac.uk/pdbe/entry/pdb/2dn1 https://www.ebi.ac.uk/intact/complex/details/EBI-9008420 https://www.ebi.ac.uk/intact/complex/ https://en.wikipedia.org/wiki/Clique_percolation_method http://micans.org/mcl/ https://en.wikipedia.org/wiki/Fuzzy_clustering#Fuzzy_C-means_Clustering https://en.wikipedia.org/wiki/Affinity_propagation https://en.wikipedia.org/wiki/Chinese_Whispers_(clustering_method) https://en.wikipedia.org/wiki/Label_Propagation_Algorithm Método de percolação de clique O método de percolação por clique [1] é uma abordagem popular para analisar a sobreposição da estrutura da comunidade de redes . O termo comunidade de rede (também chamado de módulo, cluster ou grupo coeso) não possui uma definição exclusiva amplamente aceita e geralmente é definido como um grupo de nós que são mais densamente conectados entre si do que com outros nós da rede. Existem inúmeros métodos alternativos para detectar comunidades em redes, [2] por exemplo, o algoritmo Girvan-Newman , cluster hierárquico e maximização da modularidade . Método de Percolação de Clique (CPM) O método de percolação por clique constrói as comunidades a partir de k -cliques , que correspondem a subgráficos completos (totalmente conectados) de k nós. (Por exemplo, uma k -clique em k = 3 é equivalente a um triângulo). Duas k- clínicas são consideradas adjacentes se compartilharem nós k -1. Uma comunidade é definida como a união máxima de k- panel que pode ser alcançada entre si através de uma série de k- panel adjacentes . Tais comunidades podem ser melhor interpretadas com a ajuda de um modelo da classe k (um objeto isomórfico para um gráfico completo de k nós). Esse modelo pode ser colocado em qualquerk -clique no gráfico e rolou para uma k - clique adjacente realocando um de seus nós e mantendo seus outros nós k -1 fixos. Assim, as comunidades k -clique de uma rede são todos os subgráficos que podem ser totalmente explorados rolando um modelo k -clique neles, mas não podem ser deixados por esse modelo. Essa definição permite sobreposições entre as comunidades de uma maneira natural, como ilustrado na Fig.1, mostrando quatro comunidades de k -ique em k = 4. As comunidades são codificadas por cores e a sobreposição entre elas é enfatizada em vermelho. A definição acima também é local: se um determinado subgráfico atender aos critérios a serem considerados como uma comunidade, ele permanecerá uma comunidade independente do que acontece com outra parte da rede distante. Por outro lado, ao procurar as comunidades otimizando em relação a uma quantidade global, uma mudança distante na rede também pode remodelar as comunidades nas regiões imperturbadas. Além disso, foi demonstrado que métodos globais podem sofrer de um problema de limite de resolução, [3]onde o tamanho da menor comunidade que pode ser extraída depende do tamanho do sistema. Uma definição da comunidade local, como aqui, contorna esse problema automaticamente. Como até mesmo redes pequenas podem conter um grande número de k -cliques, a implementação dessa abordagem baseia-se na localização de todos os cliques máximos, em vez dos k -cliques individuais . [1] Isso inevitavelmente requer encontrar a camarilha máxima do gráfico , que é um problema difícil de NP . (Enfatizamos ao leitor que encontrar uma clique máxima é muito mais difícil do que encontrar uma única clique máxima.) Isso significa que, embora redes com poucos milhões de nós já tenham sido analisados com êxito com essa abordagem, [4] a pior complexidade de tempo de execução é exponencial. no número de nós. Figura 1. Ilustração dos k comunidades -clique em k = 4. Método de Percolação Dirigida por Clique (CPMd) Em uma rede com ligações dirigidas uma dirigido k -clique é um subgráfico completa com k nós cumprindo a seguinte condição. Os nós k podem ser ordenados de forma que, entre um par arbitrário deles, exista um link direcionado apontando do nó com a classificação mais alta para o nó com a classificação mais baixa. O método de percolação direcionada por clique define as comunidades de rede direcionadas como os clusters de percolação de k- cliques direcionadas . https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-cpm_nature-1 https://en.wikipedia.org/wiki/Community_structure https://en.wikipedia.org/wiki/Community_structure https://en.wikipedia.org/wiki/Social_network https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-2 https://en.wikipedia.org/wiki/Girvan%E2%80%93Newman_algorithm https://en.wikipedia.org/wiki/Hierarchical_clustering https://en.wikipedia.org/wiki/Modularity_(networks) https://en.wikipedia.org/wiki/Clique_(graph_theory) https://en.wikipedia.org/wiki/Clique_(graph_theory) https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-3 https://en.wikipedia.org/wiki/Clique_(graph_theory) https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-cpm_nature-1 https://en.wikipedia.org/wiki/NP-hardness https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-com_evolv-4 https://en.wikipedia.org/wiki/File:Illustration_of_overlapping_communities.svg Método de percolação ponderada por clique (CPMw) Em uma rede com ligações ponderados um ponderada k -clique é um subgráfico completa com k nós de modo a que a média geométrica do k ( k - 1) / 2 pesos de ligação dentro do k -clique é maior do que um valor limite seleccionado, eu . O método de percolação ponderada por clique define comunidades de rede ponderadas como os clusters de percolação de k- cliques ponderadas . Observe que a média geométrica dos pesos dos links dentro de um subgráfico é chamada de intensidade desse subgráfico. [5] Clique em Generalizações de gráfico Os métodos de percolação por clique podem ser generalizados, registrando-se diferentes quantidades de sobreposição entre as várias k- clínicas. Isso então define um novo tipo de gráfico, um gráfico de clique , [6] onde cada k -ique no gráfico original é representada por um vértice no novo gráfico de clique. As arestas no gráfico de clique são usadas para registrar a força da sobreposição de cliques no gráfico original. Pode-se então aplicar qualquer método de detecção de comunidade a esse gráfico de clique para identificar os clusters no gráfico original por meio da estrutura k -clique. Por exemplo, em um gráfico simples, podemos definir a sobreposição entre duas k -cliques para ser o número de vértices comuns a ambas as k -cliques. O método de percolação de clique é equivalente a limitar esse gráfico de clique, diminuindo todas as arestas com peso menor que (k-1), com os demais componentes conectados formando as comunidades de panelinhas encontradas no CPM. Para k = 2, as cliques são as arestas do gráfico original e, neste caso, o gráfico de clique é o gráfico de linhas da rede original. Na prática, o uso do número de vértices comuns como uma medida da força da sobreposição de clique pode gerar resultados ruins, pois grandes panelinhas no gráfico original, aquelas com muito mais que k vértices, dominam o gráfico de clique. O problema surge porque, se um vértice estiver em n- k k diferentes, ele contribuirá para n (n-1) / 2 arestas em um gráfico de clique. Uma solução simples é permitir que cada vértice sejacomum a duas k cliques sobrepostas para contribuir com um peso igual a 1 / n ao medir a força de sobreposição das duas k- cliques. Em geral, o ponto de vista do gráfico de clique é uma maneira útil de encontrar generalizações dos métodos padrão de percolação de clique para obter quaisquer problemas redondos encontrados. Ele ainda mostra como descrever extensões destes métodos baseados em outros motivos , subgráficos diferente k cliques. Nesse caso, um gráfico de clique é melhor pensado em um exemplo específico de um hipergrafo . Transição de percolação no CPM O modelo Erdős – Rényi mostra uma série de transições interessantes quando a probabilidade p de dois nós estarem conectados é aumentada. Para cada k pode-se encontrar uma certa probabilidade de limiar p c acima da qual as clínicas k se organizam em uma comunidade gigante. [7] [8] [9] (O tamanho da comunidade gigante é comparável ao tamanho do sistema, em outras palavras, a comunidade gigante ocupa uma parte finita do sistema mesmo no limite termodinâmico.) Essa transição é análoga à percolação. transição na física estatística . Um fenômeno semelhante também pode ser observado em muitas redes reais: se ké grande, apenas as partes mais densamente ligadas são aceitas como comunidades, portanto, geralmente permanecem pequenas e dispersas. Quando k é reduzido, o número e o tamanho das comunidades começam a crescer. No entanto, na maioria dos casos, um valor crítico de k pode ser alcançado, abaixo do qual uma comunidade gigante emerge, obscurecendo os detalhes da estrutura da comunidade, mesclando (e tornando invisível) muitas comunidades menores. Aplicações O método de percolação por clique foi usado para detectar comunidades dos estudos de metástase do câncer [10] [11] através de várias redes sociais [4] [12] [13] [14] [15] para documentar agrupamentos [16] e redes econômicas . [17] Algoritmos e software Existem várias implementações de percolação de clique. O método de percolação por clique foi implementado e popularizado pelo software CFinder [1] (freeware para uso não comercial) para detectar e visualizar comunidades sobrepostas em redes. O programa permite a visualização personalizável e facilita o passeio pelas comunidades encontradas. O pacote também contém uma versão em linha de comando do programa, adequada para scripts. https://en.wikipedia.org/wiki/Geometric_mean https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-5 https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-6 https://en.wikipedia.org/wiki/Community_structure https://en.wikipedia.org/wiki/Community_structure https://en.wikipedia.org/wiki/Line_graph https://en.wikipedia.org/wiki/Line_graph https://en.wikipedia.org/wiki/Line_graph https://en.wikipedia.org/wiki/Network_motif https://en.wikipedia.org/wiki/Hypergraph https://en.wikipedia.org/wiki/Erd%C5%91s%E2%80%93R%C3%A9nyi_model https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-7 https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-8 https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-9 https://en.wikipedia.org/wiki/Percolation https://en.wikipedia.org/wiki/Statistical_physics https://en.wikipedia.org/wiki/Metastasis https://en.wikipedia.org/wiki/Metastasis https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-10 https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-11 https://en.wikipedia.org/wiki/Social_network https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-com_evolv-4 https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-12 https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-13 https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-14 https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-15 https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-16 https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-17 http://www.cfinder.org/ Uma implementação mais rápida ( disponível sob a GPL) foi implementada por outro grupo. [18] Outro exemplo, que também é muito rápido em certos contextos, é o algoritmo SCP. [19] Algoritmos paralelos Uma versão paralela do método de percolação por clique foi projetada e desenvolvida por S. Mainardi et al. . [20] Ao explorar as arquiteturas de computação de vários núcleos / processadores de hoje, o método permite a extração de comunidades do tipo k a partir de redes muito grandes, como a Internet. [21] Os autores divulgaram o código fonte do método sob a GPL e o disponibilizaram gratuitamente para a comunidade. MCL - um algoritmo de cluster para gráficos O algoritmo MCL é a abreviação de Markov Cluster Algorithm , um algoritmo de cluster não supervisionado rápido e escalável para gráficos (também conhecido como redes ) com base na simulação de fluxo (estocástico) em gráficos. O algoritmo foi inventado / descoberto por Stijn van Dongen (ou seja, eu ) no Centro de Matemática e Ciência da Computação (também conhecido como CWI) na Holanda. A tese de doutorado Gráfico de agrupamento por simulação de fluxo está centrado em torno desse algoritmo, sendo os principais tópicos a teoria matemática por trás dele, sua posição na análise de cluster e agrupamento de gráficos, questões relativas à escalabilidade, implementação e benchmarking e critérios de desempenho para o agrupamento de gráficos em geral. O trabalho desta tese foi realizado sob a supervisão de Jan van Eijck e Michiel Hazewinkel . A tese, relatórios técnicos e pré-impressões podem ser encontrados nesta seção . Para ter uma idéia rápida de como o MCL opera, considere o fluxo pictórico na parte superior desta página, ou melhor ainda, dê uma olhada em uma animação do processo MCL . A interface básica do algoritmo é muito simples - você precisa de apenas uma opção (o sinalizador -I ) para chegar ao cerne, e para gráficos grandes, você também deve estar ciente do sinalizador -scheme para regular os recursos. A abordagem padrão é variar o argumento para -I em algum intervalo (executando uma execução de mcl para cada valor) e analisar a saída de armazenamento em cluster com os outros programas que acompanham o MCL ( consulte os manuais da mcl ). Para obter uma descrição completa do algoritmo e do processo MCL , é recomendável ler um dos relatórios técnicos entre as publicações . Também é possível visualizar uma introdução um pouco mais longa ou uma introdução a algumas das matemáticas associadas ao MCL . O MCL foi aplicado em vários domínios diferentes, principalmente em bioinformática. Atualmente, o número de artigos que citam as principais publicações da MCL é superior a quatro mil. Obtenha uma rápida impressão do Google Scholar para o artigo de Enright / van Dongen / Ouzounis , minha tese ou um relatório técnico . Também é interessante o artigo OrthoMCL . simples O algoritmo simula o fluxo usando (alternando) duas operações algébricas simples em matrizes. Sua formulação é simples e elegante. Não há instruções procedimentais de alto nível para montagem, associação ou divisão de grupos - a estrutura do cluster é iniciada por meio de um processo de fluxo que é inerentemente afetado por qualquer estrutura de cluster presente. A primeira operação usada é a expansão , que coincide com a multiplicação normal da matriz. A expansão modela a dispersão do fluxo, tornando-se mais homogênea. O segundo é a inflação , que está matematicamente falando com uma potência Hadamard seguida de uma escala diagonal. A inflação modela a contração do fluxo, tornando-se mais espessa nas regiões de maior corrente e mais fina nas regiões de menor corrente. O processo MCL faz com que o fluxo se espalhe dentro de clusters naturais e evapore entre diferentes clusters. Este exemplo animado de um processo MCL pode dar uma impressão do seu modus operandi. adaptável Variando um único parâmetro, podem ser encontrados agrupamentos em diferentes escalas de granularidade.O número de clusters não pode e não precisa ser especificado antecipadamente, mas o algoritmo pode ser adaptado a diferentes contextos. emergente https://github.com/aaronmcdaid/MaximalCliques https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-18 https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-19 https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-20 https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-21 http://cosparallel.sf.net/ https://micans.org/mcl/sec_discovery.html http://micans.org/stijn/ http://www.cwi.nl/ http://www.cwi.nl/ https://micans.org/mcl/sec_thesisetc.html https://micans.org/mcl/sec_thesisetc.html http://www.cwi.nl/~jve/ http://www.cwi.nl/~mich/ https://micans.org/mcl/sec_thesisetc.html https://micans.org/mcl/ani/mcl-animation.html https://micans.org/mcl/man/distindex.html https://micans.org/mcl/man/distindex.html https://micans.org/mcl/sec_thesisetc.html https://micans.org/mcl/sec_description1.html https://micans.org/mcl/sec_description2.html http://scholar.google.com/scholar?q=%22an+efficient+algorithm+for+large-scale+detection+of+protein+families%22 http://scholar.google.com/scholar?q=%22graph+clustering+by+flow+simulation%22 http://scholar.google.com/scholar?q=%22a+cluster+algorithm+for+graphs%22 http://scholar.google.com/scholar?q=%22OrthoMCL+identification+of+ortholog+groups+for+eukaryotic+genomes https://micans.org/mcl/ani/mcl-animation.html A questão "quantos clusters?" não é tratado de maneira arbitrária, mas por forte lógica interna. A estrutura de cluster deixa suas marcas no processo de fluxo simulado pelo algoritmo, e os parâmetros de fluxo controlam a granularidade da impressão do cluster. escalável O limite do processo MCL (o processo simulado pelo algoritmo) é geralmente extremamente esparso, e os iterands são esparsos no sentido ponderado. Isso fornece os meios para escalar o algoritmo drasticamente, levando a uma complexidade do pior caso da ordem Nk ^ 2, onde N é o número de nós do gráfico de entrada e onde k é um limite para o número de recursos alocados por nó. intrínseco Os iterandos do processo MCL têm propriedades estruturais que permitem uma interpretação de cluster e que generalizam o mapeamento de limites nos agrupamentos. A matemática associada ao processo mostra que existe um relacionamento intrínseco entre o processo MCL e a estrutura do cluster nos gráficos. Isso é muito valioso, dadas as muitas abordagens heurísticas na análise de cluster. velozes Uma implementação otimizada da MCL , como a encontrada nesta página, deve ter complexidade O (N k 2 ) , onde N é o número de nós no gráfico e k é o número de recursos alocados por nó. Esse número pode ser escolhido surpreendentemente baixo sem afetar a qualidade do cluster. O motivo é que o MCL calcula muito um processo localizado e, consequentemente, é possível implementar um regime de remoção que tira proveito disso. Lamentavelmente, várias publicações afirmam que a complexidade da MCL é O (N 3 )no entanto, isso só é verdade se apenas uma implementação extremamente ingênua for considerada. O fato de o MCL ser descrito naturalmente na álgebra matricial talvez tenha levado as pessoas a postular uma complexidade de tempo cúbica no tamanho do gráfico, desconsiderando o fato de que essas matrizes geralmente são muito esparsas. Para mais informações, consulte a seção sobre velocidade e memória . Comunidades e detecção de comunidade Um algoritmo de cluster para gráficos significa exatamente o mesmo que um algoritmo de detecção de comunidade para redes e estrutura de comunidade em redes significa exatamente o mesmo que estrutura de cluster em gráficos. Este é um caso grave e realmente infeliz de terminologia divergente. Meu treinamento como matemático me levou a usar o gráfico predominantemente. Esta palavra tem outros significados, no entanto, e nem sempre é intuitiva para pessoas de outros domínios da ciência. Por isso, comecei a apreciar e usar cada vez mais a rede . Por outro lado, a frase detecção da comunidade parece bastante estreita e eu prefiro fortemente os idiomas mais antigos agrupando eanálise de agrupamento . Nessas páginas, o gráfico de documentação mcl é muito usado, hoje em dia intercalado com o uso da rede . Eles devem ser entendidos como totalmente intercambiáveis - não apenas nessas páginas, mas em um sentido muito amplo. Da mesma forma, as comunidades são iguais aos clusters no contexto de, bem, agrupamento de gráficos, também conhecido como detecção de comunidade em redes. Partições e particionamento gráfico O conceito de partição ou particionamento significa superficialmente o mesmo que agrupar , ou seja, uma separação em subconjuntos mutuamente disjuntos que cobrem todo o conjunto de interesses. A diferença mais importante é que o problema de particionamento de gráfico é definido universalmente como um problema em que o número e o tamanho dos clusters são especificados a priori . Esse não é o caso no agrupamento de gráficos ou na análise de agrupamentos em geral. A segunda diferença menos importante entre esses dois termos é que o agrupamento exclui a possibilidade de sobreposição por convenção, de modo que ainda é possível falar de um agrupamento sobreposto , enquanto uma partição ou particionamento exclui a possibilidade de sobreposição por definição. Cluster difuso O clustering difuso (também conhecido como clustering suave ou soft- k- médias ) é uma forma de clustering em que cada ponto de dados pode pertencer a mais de um cluster. https://micans.org/mcl/sec_speedmemory.html https://en.wikipedia.org/wiki/Data_point O agrupamento ou análise de agrupamento envolve a atribuição de pontos de dados a agrupamentos, de modo que os itens no mesmo agrupamento sejam os mais similares possíveis, enquanto os itens pertencentes a agrupamentos diferentes são os mais divergentes possíveis. Os clusters são identificados por meio de medidas de similaridade. Essas medidas de similaridade incluem distância, conectividade e intensidade. Diferentes medidas de similaridade podem ser escolhidas com base nos dados ou no aplicativo. [1] Propagação de afinidade Na estatística e na mineração de dados , a propagação de afinidade (AP) é um algoritmo de agrupamento baseado no conceito de "passagem de mensagens" entre pontos de dados. [1] Ao contrário de algoritmos de cluster, como k - eans ou k -medoids , a propagação de afinidade não exige que o número de clusters seja determinado ou estimado antes da execução do algoritmo. Semelhante ao k- medóides, a propagação de afinidade encontra "exemplos", membros do conjunto de entrada que são representativos de clusters. [1] Aplicações Os inventores da propagação de afinidade mostraram que é melhor para determinadas tarefas de visão computacional e biologia computacional, por exemplo, agrupar imagens de rostos humanos e identificar transcrições regulamentadas, do que k- médias, [1] mesmo quando k- médias permitiu muitas reinicializações aleatórias e inicializadas usando PCA . [2] Um estudo comparando a propagação de afinidade e o agrupamento de Markov no particionamento de gráficos de interação proteica descobriu que o agrupamento de Markov funcionava melhor para esse problema. [3] Uma variante semi-supervisionada foi proposta para aplicações de mineração de texto . [4] https://en.wikipedia.org/wiki/Cluster_analysis https://en.wikipedia.org/wiki/Cluster_analysis https://en.wikipedia.org/wiki/Fuzzy_clustering#cite_note-1 https://en.wikipedia.org/wiki/Statistics https://en.wikipedia.org/wiki/Data_mining https://en.wikipedia.org/wiki/Cluster_analysis https://en.wikipedia.org/wiki/Affinity_propagation#cite_note-science-1 https://en.wikipedia.org/wiki/K-means_clustering https://en.wikipedia.org/wiki/K-means_clustering https://en.wikipedia.org/wiki/K-medoids https://en.wikipedia.org/wiki/Affinity_propagation#cite_note-science-1 https://en.wikipedia.org/wiki/Affinity_propagation#cite_note-science-1https://en.wikipedia.org/wiki/Principal_component_analysis https://en.wikipedia.org/wiki/Affinity_propagation#cite_note-2 https://en.wikipedia.org/wiki/Markov_clustering https://en.wikipedia.org/w/index.php?title=Protein_interaction_graph&action=edit&redlink=1 https://en.wikipedia.org/wiki/Affinity_propagation#cite_note-3 https://en.wikipedia.org/wiki/Text_mining https://en.wikipedia.org/wiki/Affinity_propagation#cite_note-4 Sussurros chineses (método de agrupamento) O Whispers chinês é um método de agrupamento usado na ciência de redes, nomeado após o famoso jogo de sussurros . [1] Os métodos de clustering são basicamente usados para identificar comunidades de nós ou links em uma determinada rede. Esse algoritmo foi desenvolvido por Chris Biemann e Sven Teresniak em 2005. [1] O nome deriva do fato de que o processo pode ser modelado como uma separação de comunidades onde os nós enviam o mesmo tipo de informação. [1] O Chinese Whispers é um método de particionamento rígido, randomizado e de agrupamento plano (sem relações hierárquicas entre clusters ). [1] A propriedade random significa que executar o processo na mesma rede várias vezes pode levar a resultados diferentes, enquanto, devido ao particionamento rígido, um nó pode pertencer apenas a um cluster em um determinado momento. O algoritmo original é aplicável a gráficos não direcionados, ponderados e não ponderados. O Whispers chinês é linear no tempo, o que significa que é extremamente rápido, mesmo que o número de nós e links seja muito alto na rede. [1] Algoritmo Um exemplo de como o Whispers chinês funciona em ação. As cores diferentes representam diferentes classes. O algoritmo funciona da seguinte maneira em um gráfico não ponderado não direcionado: [1] 1. Todos os nós são atribuídos a uma classe distinta (o número de classes iniciais é igual ao número de nós). https://en.wikipedia.org/wiki/Chinese_whispers https://en.wikipedia.org/wiki/Chinese_whispers https://en.wikipedia.org/wiki/Chinese_Whispers_(clustering_method)#cite_note-Biemann2006-1 https://en.wikipedia.org/w/index.php?title=Chris_Biemann&action=edit&redlink=1 https://en.wikipedia.org/w/index.php?title=Sven_Teresniak&action=edit&redlink=1 https://en.wikipedia.org/wiki/Chinese_Whispers_(clustering_method)#cite_note-Biemann2006-1 https://en.wikipedia.org/wiki/Chinese_Whispers_(clustering_method)#cite_note-Biemann2006-1 https://en.wikipedia.org/wiki/Hierarchical_clustering https://en.wikipedia.org/wiki/Hierarchical_clustering https://en.wikipedia.org/wiki/Chinese_Whispers_(clustering_method)#cite_note-Biemann2006-1 https://en.wikipedia.org/wiki/Chinese_Whispers_(clustering_method)#cite_note-Biemann2006-1 https://en.wikipedia.org/wiki/Chinese_Whispers_(clustering_method)#cite_note-Biemann2006-1 https://en.wikipedia.org/wiki/File:Chinese_Whispers_example_cluster.png 2. Todos os nós da rede são selecionados um por um em uma ordem aleatória. Cada nó se move para a classe à qual o nó fornecido se conecta com mais links. No caso de igualdade, o cluster é escolhido aleatoriamente entre as classes igualmente vinculadas. 3. A etapa dois se repete até um número predeterminado de iteração ou até o processo convergir. No final, as classes emergentes representam os agrupamentos da rede. O limite predeterminado para o número de iterações é necessário porque é possível que o processo não converja. Por outro lado, em uma rede com aproximadamente 10000 nós, os clusters não mudam significativamente após 40-50 iterações, mesmo se não houver convergência. [1] Pontos fortes e fracos A principal força dos sussurros chineses reside na propriedade linear do tempo. Devido ao tempo de processamento aumentar linearmente com o número de nós, o algoritmo é capaz de identificar comunidades em uma rede muito rapidamente. Por esse motivo, o Chinese Whispers é uma boa ferramenta para analisar estruturas da comunidade em gráfico com um número muito alto de nós. A eficácia do método aumenta ainda mais se a rede tiver a pequena propriedade mundial . [1] Por outro lado, como o algoritmo não é determinístico no caso de um número pequeno de nós, os clusters resultantes geralmente diferem significativamente um do outro. A razão para isso é que, no caso de uma rede pequena, importa mais de qual nó o processo de iteração é iniciado, enquanto nas redes grandes a relevância dos pontos de partida desaparece. [1] Por esse motivo, para gráficos pequenos, outros métodos de agrupamento são recomendados. Aplicações O Whispers chinês é usado em muitos subcampos da ciência de redes. É mencionado com mais frequência no contexto de problemas de processamento de linguagem natural . [2] [3] Por outro lado, o algoritmo é aplicável a qualquer tipo de problema de identificação da comunidade que esteja relacionado a uma estrutura de rede. O Chinese Whispers está disponível para uso pessoal como um pacote de extensão para o Gephi [4], que é um programa de código aberto desenvolvido para análise de rede. Algoritmo de propagação de rótulo A propagação de etiquetas é um algoritmo de aprendizado de máquina semi-supervisionado que atribui etiquetas a pontos de dados não rotulados anteriormente. No início do algoritmo, um subconjunto (geralmente pequeno) dos pontos de dados possui rótulos (ou classificações). Esses rótulos são propagados para os pontos não rotulados ao longo do curso do algoritmo. [1] Dentro de redes complexas , redes reais tendem a ter estrutura comunitária . A propagação de etiquetas é um algoritmo [2] para encontrar comunidades. Em comparação com outros algoritmos [3] , a propagação de rótulos tem vantagens em seu tempo de execução e quantidade de informações a priori necessárias sobre a estrutura da rede (nenhum parâmetro é necessário para ser conhecido antecipadamente). A desvantagem é que ela não produz uma solução exclusiva, mas um agregado de muitas soluções. https://en.wikipedia.org/wiki/Chinese_Whispers_(clustering_method)#cite_note-Biemann2006-1 https://en.wikipedia.org/wiki/Small-world_experiment https://en.wikipedia.org/wiki/Small-world_experiment https://en.wikipedia.org/wiki/Chinese_Whispers_(clustering_method)#cite_note-Biemann2006-1 https://en.wikipedia.org/wiki/Chinese_Whispers_(clustering_method)#cite_note-Biemann2006-1 https://en.wikipedia.org/wiki/Natural_language_processing https://en.wikipedia.org/wiki/Chinese_Whispers_(clustering_method)#cite_note-2 https://en.wikipedia.org/wiki/Chinese_Whispers_(clustering_method)#cite_note-3 https://en.wikipedia.org/wiki/Gephi https://en.wikipedia.org/wiki/Chinese_Whispers_(clustering_method)#cite_note-4 https://en.wikipedia.org/wiki/Open-source_software https://en.wikipedia.org/wiki/Open-source_software https://en.wikipedia.org/wiki/Machine_learning https://en.wikipedia.org/wiki/Label_propagation_algorithm#cite_note-1 https://en.wikipedia.org/wiki/Complex_networks https://en.wikipedia.org/wiki/Complex_networks https://en.wikipedia.org/wiki/Community_structure https://en.wikipedia.org/wiki/Label_propagation_algorithm#cite_note-raghavan-albert-kumara2007-2 https://en.wikipedia.org/wiki/Label_propagation_algorithm#cite_note-3 Introduziremos brevemente dois dos métodos mais populares usados para analisar redes de interação de proteínas: o algoritmo rápido ganancioso de Newman-Girvan e o algoritmo MCODE . Outra maneira de abordar a pesquisa de comunidades em uma rede é usar uma combinação da topologia da rede e algumas propriedades externas, como valores de expressão de proteínas, como uma camada adicional que define as comunidades. Um bom exemplo desse método popular é o aplicativo jActiveModules para Cytoscape ( 17 ). Este aplicativo “[…] pesquisa uma rede de interação molecular para encontrar sub-redes ativadas por expressão. Essas sub- redes são regiões conectadas de uma rede que mostram mudanças significativas na expressão em subconjuntos de condições específicos ”( 18 ). Em essência, regiões conectadas em uma rede com expressão diferencialpodem ser identificadas usando esta ferramenta. Métodos de análise de agrupamento II Algoritmo rápido ganancioso de Newman-Girvan • Desenvolvido para o estudo de redes em geral, com foco especial em redes sociais e biológicas ( 19 ). • Identifica as comunidades usando a medida de centralidade da borda entre os dois. Bordas que conectam comunidades diferentes têm valores de centralidade mais altos, pois uma proporção maior de caminhos mais curtos passará por eles. • Para definir comunidades, ele usa as pontuações de centralidade das margens das arestas para classificar as arestas da rede, remove as arestas mais centrais e recalcula as pontuações das arestas até que nenhuma aresta seja deixada. As arestas afetadas pela remoção são consideradas parte da mesma comunidade. • Pode ser considerada uma abordagem "ingênua" que definirá as comunidades mesmo quando elas estiverem apenas marginalmente mais conectadas que o restante da rede. http://apps.cytoscape.org/apps/jactivemodules https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-introduction/references https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-introduction/references https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-introduction/references Figura 31 Comunidades definidas usando Newman-Girvan e MCODE. Algoritmo MCODE • Desenvolvido para encontrar complexos de proteínas em redes PPI ( 20 ). • Pode ser considerado mais rigoroso que o algoritmo de Newman-Girvan, pois visa encontrar apenas as sub-redes muito altamente interconectadas, representando complexos multiproteicos relativamente estáveis que funcionam como uma única entidade no tempo e no espaço. • Os parâmetros do algoritmo podem ser ajustados para torná-lo menos rigoroso, para que uma definição mais vaga de uma comunidade seja usada. • O algoritmo usa um processo de três estágios: 1. Ponderação: uma pontuação mais alta é atribuída aos nós cujos vizinhos estão mais interconectados. 2. Previsão do complexo molecular: começando com o nó de maior peso (semente), mova-se recursivamente, adicionando nós ao complexo que estão acima de um determinado limite. 3. Pós-processamento: aplica filtros para melhorar a qualidade do cluster (corte de cabelo e cotão). É importante notar que, quando falamos em 'rigor', estamos falando sobre como os nós dentro de uma sub-rede devem estar interconectados para serem considerados uma comunidade separada. Isso muda dependendo da questão biológica subjacente à análise. Não é o mesmo procurar complexos proteicos estáveis, como o proteassoma, como procurar submódulos funcionais que representam uma etapa específica de uma via de sinalização. Análise de enriquecimento de anotação Existem muitas abordagens diferentes que podem ser usadas para entender o contexto biológico das redes de interação proteína-proteína. A análise de enriquecimento de anotação é um dos métodos mais populares. Embora não seja estritamente uma ferramenta de análise de rede, é frequentemente usada em combinação com a análise topológica de rede. Existem diferentes variedades desse tipo de análise, mas, na sua forma mais básica, a análise de enriquecimento de anotações usa anotações de genes / proteínas fornecidas por bases de conhecimento como Gene Ontology (GO) ou Reactome para inferir quais anotações estão super-representadas em uma lista. de genes / proteínas que podem ser retirados de uma rede (Figura 32). Essencialmente, as ferramentas de anotação realizam algum tipo de teste estatístico (geralmente um teste hipergeométrico, geralmente também um teste binomial) que tenta responder à seguinte pergunta: "Ao amostrar proteínas X (conjunto de teste) de proteínas N (conjunto de referência; gráfico ou anotação), qual é a probabilidade de que x, ou mais, dessas proteínas pertençam a uma categoria funcional C compartilhada por n das proteínas N na conjunto de referência ". ( 21 ) O resultado desse teste nos fornece uma lista de termos que descrevem a lista / rede, ou melhor, parte dela, como um todo. https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-introduction/references https://www.ebi.ac.uk/training/online/glossary/gene-ontology https://www.ebi.ac.uk/training/online/glossary/reactome https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-introduction/references Figura 32 Análise de enriquecimento de anotação usando GO e Reactome em uma rede. Esse tipo de análise é realizado com mais frequência usando a anotação GO como referência, mas ferramentas como os aplicativos Cytoscape BiNGO e ClueGO também podem gerenciar outros bancos de dados de anotações, como Reactome e KEGG . Essa é uma técnica amplamente usada que ajuda a caracterizar a rede como um todo ou subconjuntos, como comunidades interconectadas encontradas através da análise topológica de agrupamentos. Versões mais complexas dessa técnica podem levar em consideração variáveis variáveis, como a alteração da dobra da expressão. A ferramenta GSEA é um bom exemplo de uma técnica mais avançada que utiliza conceitos básicos semelhantes. Uma visão geral um pouco antiga, mas muito completa, das diferentes ferramentas dessa família e das vantagens e limitações de suas diferentes abordagens pode ser encontrada em Huang da et al 2009 ( 22 ). Limitações do enriquecimento da anotação Anotação As principais limitações do enriquecimento das anotações vêm das próprias anotações. Certas áreas da biologia são anotadas mais detalhadamente e melhor descritas do que outras, com mais detalhes e termos mais precisos para processos conhecidos. Por exemplo, no nível das proteínas, proteínas mais "populares" são melhor anotadas. Isso introduz um certo viés na análise estatística. Também é importante observar que os termos do GO podem ser atribuídos por um curador humano que realiza anotações manuais cuidadosas ou por abordagens computacionais que usam a base da anotação manual para inferir quais termos descreveriam adequadamente produtos genéticos desconhecidos. Eles usam vários critérios diferentes que sempre se referem a produtos gênicos anotados, como semelhança de sequência ou estrutura ou proximidade filogenética. A importância das anotações derivadas computacionalmente é bastante significativa, pois elas representam aproximadamente 99% das anotações que podem ser encontradas no GO. Simplificando a interpretação dos resultados do enriquecimento da anotação Outra limitação do enriquecimento da anotação é a complexidade e os detalhes da anotação associados a grandes conjuntos de genes ou proteínas. Isso acontece porque recursos como Reactome e, especialmente, GO podem ser muito complexos e detalhados em suas anotações, levando à geração de redes extremamente complicadas de termos inter- relacionados e similares. Existem várias maneiras de tentar desvendar essa complexidade. A abordagem mais simples é usar ontologias simplificadas. Muitas ferramentas oferecem essa opção e usam ontologias em que termos detalhados são removidos e designados a termos pai mais amplos e gerais. No GO, essas ontologias simplificadas são chamadas de GOslims . Outras ferramentas, como os aplicativos Cytoscape BiNGO ou ClueGO, representam os resultados como uma rede de termos, em que as bordas direcionadas representam relacionamentos de termos, conforme definido http://www.geneontology.org/ http://apps.cytoscape.org/apps/bingo http://apps.cytoscape.org/apps/cluego http://www.reactome.org/ http://www.genome.jp/kegg/ http://software.broadinstitute.org/gsea/index.jsp https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-introduction/references https://www.ebi.ac.uk/training/online/glossary/curator https://www.ebi.ac.uk/training/online/glossary/manual-annotation http://geneontology.org/page/go-slim-and-subset-guide na ontologia
Compartilhar