Buscar

Análise de redes proteicas em biologia sistêmica

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 30 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 30 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 30 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Análise de redes em biologia 
Os sistemas biológicos são frequentemente representados como redes que são conjuntos complexos de interações ou 
relações binárias entre diferentes entidades. Essencialmente, toda entidade biológica tem interações com outras 
entidades biológicas, do nível molecular ao nível do ecossistema, oferecendo a oportunidade de modelar a biologia 
usando muitos tipos diferentes de redes, como redes de interação ecológica, neurológica, metabólica ou molecular 
(Figura 1). 
A explosão de dados que se originou na era da pesquisa biológica exigiu o desenvolvimento de abordagens mais 
sistêmicas para a análise de dados e um afastamento da perspectiva de um único gene / proteína. A biologia de 
sistemas visa compreender entidades biológicas no nível sistêmico, analisando-as não apenas como componentes 
individuais, mas também como sistemas em interação e suas propriedades emergentes. Relacionado a isso está a 
biologia de redes, que permite a representação e análise de sistemas biológicos usando ferramentas derivadas 
da teoria dos grafos . 
 
Figura 1 As redes podem ser usadas para modelar muitos tipos de dados biológicos. 
Introdução à teoria dos grafos 
A análise de redes biológicas se originou historicamente das ferramentas e conceitos da análise de redes sociais e da 
aplicação da teoria dos grafos às ciências sociais. 
A Wikipedia ( 1 ) define a teoria dos grafos como: 
“[...] o estudo de gráficos, estruturas matemáticas usadas para modelar relações em pares entre objetos. Um gráfico 
nesse contexto é composto de vértices, nós ou pontos conectados por arestas, arcos ou linhas ”. 
Em termos práticos, é o conjunto de conceitos e métodos abstratos que podem ser usados para visualizar e analisar redes. 
A história da teoria dos grafos 
A teoria dos grafos e a idéia de topologia foram descritas pela primeira vez pelo matemático suíço Leonard Euler como 
aplicado ao problema das sete pontes de Königsberg. Königsberg consistia em quatro ilhas conectadas por sete pontes 
(Figura 2). Ninguém jamais havia encontrado um caminho que visitasse todas as quatro ilhas e cruzasse cada uma das 
https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-introduction/references
sete pontes apenas uma vez. Naturalmente, as pessoas supuseram que esse caminho não existia, mas não havia prova 
matemática disso. 
 
Figura 2 As sete pontes de Königsberg. As imagens são do Wikimedia Commons e usadas sob a licença Creative 
Commons Attribution-Share Alike 3.0 Unported. 
Euler mostrou que, para resolver o problema, apenas as relações entre as massas terrestres são relevantes, não a forma 
ou as distâncias reais no mapa. Essas relações podem ser representadas na forma de um gráfico em que as massas 
terrestres são os nós e as pontes são as arestas do gráfico. Euler usou esse gráfico e suas características topológicas para 
provar que o caminho não existia. 
A formulação desse problema por Euler forneceu a base de toda uma área da matemática e é a base de todas as 
ferramentas e conceitos que exploraremos neste curso. 
Teoria dos grafos: tipos de grafos e propriedades das arestas 
As redes podem representar muitos tipos diferentes de dados. Os nós representam entidades diferentes (por exemplo, 
proteínas ou genes em redes biológicas) e as bordas transmitem informações sobre os links entre os nós. Primeiro 
vamos nos concentrar nas bordas . Dependendo da natureza das informações de borda subjacentes, diferentes tipos de 
análise podem ser executados. Por esse motivo, é útil destacar os principais tipos de arestas que podem ser encontrados 
em uma rede (Figura 3). 
Tipos de bordas da rede 
Arestas não direcionadas 
Esse tipo de borda é encontrado nas redes de interação proteína-proteína (PPINs). O relacionamento entre os nós é uma 
conexão simples, sem um determinado 'fluxo' implícito, pois as evidências por trás do relacionamento apenas nos dizem 
que A liga B. 
Bordas direcionadas 
Esse é o tipo de conexão encontrada, por exemplo, em redes de regulação metabólica ou de genes . Existe um fluxo 
claro de sinal implícito e a rede pode ser organizada hierarquicamente. 
Arestas ponderadas 
As arestas direcionadas ou não direcionadas também podem ter peso ou um valor quantitativo associado a elas. Isso é 
usado para descrever conceitos como a confiabilidade de uma interação, a mudança quantitativa da expressão que um 
gene induz sobre outro ou mesmo a proximidade entre dois genes em termos de similaridade de sequência. As arestas 
também podem ser ponderadas por seus valores de centralidade ou vários outros parâmetros topológicos. 
https://commons.wikimedia.org/wiki/Category:Seven_Bridges_of_K%C3%B6nigsberg?uselang=en-gb
https://www.ebi.ac.uk/training/online/glossary/gene-regulation
https://www.ebi.ac.uk/training/online/glossary/gene-regulation
 
Figura 3 Os principais tipos de arestas encontrados em uma rede. 
Teoria dos grafos: matrizes de adjacência 
Toda rede pode ser expressa matematicamente na forma de uma matriz de adjacência (Figura 4). Nessas matrizes, as 
linhas e colunas são atribuídas aos nós da rede e a presença de uma aresta é simbolizada por um valor numérico. Usando 
a representação matricial da rede, podemos calcular propriedades da rede, como grau e outras centralidades, aplicando 
conceitos básicos da álgebra linear (veja mais adiante neste curso). 
 
Figura 4 Gráficos por tipo de aresta e suas matrizes de adjacência. 
Uma rede com arestas não direcionadas e não ponderadas será representada por uma matriz simétrica contendo apenas 
os valores 1 e 0 para representar a presença e ausência de conexões, respectivamente. 
Redes direcionadas e ponderadas podem fazer uso de diferentes valores numéricos na matriz para expressar esses 
relacionamentos mais complexos. O sinal dos valores, por exemplo, às vezes é usado para indicar estímulo ou inibição. 
Teoria dos grafos: topologia de rede 
Os gráficos têm algumas propriedades que são muito úteis ao desvendar as informações que eles contêm. É importante 
perceber que o objetivo de qualquer tipo de análise de rede é trabalhar com a complexidade da rede para extrair 
informações significativas que você não teria se os componentes individuais fossem examinados separadamente. 
As propriedades de rede e, em particular , as propriedades topológicas , podem nos ajudar a identificar subestruturas 
relevantes em uma rede. 
Topologia é a maneira pela qual os nós e as arestas são organizados em uma rede. As propriedades topológicas podem 
ser aplicadas à rede como um todo ou a nós e arestas individuais. Algumas das propriedades e conceitos topológicos 
mais utilizados são: 
 
 
 
 
 
As fontes de dados subjacentes às redes biológicas 
É importante enfatizar que desafios significativos surgem não apenas do tamanho do conjunto de dados usado, mas 
também devido ao fato de que os conjuntos de dados biológicos são inerentemente barulhentos e 
incompletos. Freqüentemente, diferentes tipos de evidência não se sobrepõem ou serão contraditórios. A maneira como 
os dados foram obtidos é um aspecto importante a ser considerado aqui, com as informações normalmente provenientes 
das seguintes fontes: 
Curadoria manual da literatura científica : curadores científicos ou especialistas em domínio avaliam as evidências 
publicadas existentes e as armazenam em um banco de dados. Isso fornece informações de alta qualidade e bem 
representadas, mas a curadoria é uma tarefa cara e demorada, e o tamanho dos conjuntos de dados é limitado por esses 
fatores. 
Conjuntos de dados de alto rendimento: algumas abordagens experimentais podem gerar grandes quantidades de 
dados, como conjuntos de dados PPI em larga escala gerados por meio de levedura de dois híbridos ou purificação por 
afinidade, além de identificação por espectrometria de massa. Eles fornecem conjuntos de dados grandes e produzidos 
sistematicamente, mas as informações sofrem os preconceitosinerentes à técnica escolhida e variam em qualidade. 
Previsões computacionais: Muitos métodos usam as evidências experimentais existentes como base e visam prever 
relações inexploradas entre entidades biológicas. Por exemplo, as interações proteicas em humanos podem ser usadas 
para prever interações semelhantes em camundongos se houver ortólogos próximos o suficiente neste organismo. Eles 
fornecem uma ferramenta para ampliar e até refinar o espaço das interações derivadas experimentalmente, mas os 
conjuntos de dados produzidos são compreensivelmente mais barulhentos do que com as fontes anteriores. 
Mineração de texto da literatura: Vários algoritmos são usados para extrair computacionalmente relacionamentos 
representados sistematicamente da literatura publicada. Como no caso anterior, embora eles possam aumentar bastante 
a cobertura dos dados, o processamento de linguagem natural é um negócio complicado e os resultados tendem a ser 
bastante barulhentos. 
A importância das interações moleculares 
As interações moleculares são importantes para os biólogos moleculares porque: 
1. Eles nos ajudam a entender a função e o comportamento de uma proteína (Figura 2). 
https://www.ebi.ac.uk/training/online/glossary/natural-language-processing
2. Eles podem nos ajudar a prever os processos biológicos nos quais uma proteína de função desconhecida está 
envolvida: 
Podemos assumir "culpa por associação" se uma proteína de função desconhecida se associa a uma de função 
conhecida 
As proteínas envolvidas no mesmo processo devem se agrupar em mapas de rede 
3. Eles podem nos ajudar a caracterizar complexos e vias de proteínas; as redes de interação podem ser usadas como um 
rascunho 'mapa' para adicionar detalhes aos processos e caminhos biológicos. 
 
Figura 2. Contrariamente à crença original de que uma proteína tinha uma única função, as proteínas têm funções e 
papéis celulares diferentes, dependendo de seu ambiente imediato, o que afeta sua posição nas redes de proteínas. 
Redes de interação proteína-proteína 
As interações proteína-proteína (IBPs) são essenciais para quase todos os processos em uma célula, portanto, entender 
os IBPs é crucial para entender a fisiologia celular nos estados normal e da doença. Também é essencial no 
desenvolvimento de medicamentos, uma vez que os medicamentos podem afetar os IBPs. As redes de interação 
proteína-proteína (PPIN) são representações matemáticas dos contatos físicos entre proteínas na célula. Esses 
contatos: 
• são específicos; 
• ocorrer entre regiões de ligação definidas nas proteínas; e 
• têm um significado biológico específico (isto é, eles servem para uma função específica). 
As informações de PPI podem representar interações transitórias e estáveis: 
• Interações estáveis são formadas em complexos de proteínas (por exemplo, ribossomo, hemoglobina). 
• Interações transitórias são breves interações que modificam ou transportam uma proteína, levando a alterações 
adicionais (por exemplo, proteínas cinases, importinas de poros nucleares). Eles constituem a parte mais 
dinâmica do interactoma. 
O conhecimento dos PPIs pode ser usado para: 
• atribuir papéis putativos a proteínas não caracterizadas; 
• adicione detalhes refinados sobre as etapas em um caminho de sinalização; ou 
• caracterizar as relações entre proteínas que formam complexos multi-moleculares, como o proteassoma. 
O interatoma 
O interatoma é a totalidade dos IBPs que ocorrem em uma célula, organismo ou contexto biológico específico. O 
desenvolvimento de técnicas de triagem de PPI em larga escala, especialmente a purificação por afinidade de alto 
rendimento combinada com espectrometria de massa e o ensaio de dois híbridos de levedura, causou uma explosão na 
quantidade de dados de PPI e na construção de intertomesmas cada vez mais complexos e completos ( Figura 16). Essa 
evidência experimental é complementada pela disponibilidade de algoritmos de previsão de PPI. Muitas dessas 
informações estão disponíveis em bancos de dados de interação molecular, como o IntAct . 
 
Figura 16 Interatossomas de levedura (esquerda) e humanos (direita) obtidos usando o método híbrido de levedura-
dois. Imagens reproduzidas com permissão da Macmillan Publishers Ltd: Jeong et al. Nature 2001. 411 ( 3 ) e Rual et 
al. Nature 2005: 437 ( 4 ). 
É importante enfatizar mais uma vez as limitações dos dados de PPI disponíveis. Nosso conhecimento atual do 
intertomoma é incompleto e barulhento . Os métodos de detecção de PPI têm limitações em relação a quantas 
interações fisiológicas reais eles podem detectar e todos encontram falsos positivos e negativos. 
Propriedades dos PPINs: pequeno efeito mundial 
As redes de interação proteína-proteína mostram um pequeno efeito mundial, o que significa que há uma grande 
conectividade entre proteínas (Figura 17). Em outras palavras, pode-se dizer que o diâmetro da rede (o número máximo 
de etapas que separam dois nós) é pequeno, não importa o tamanho da rede. Isso geralmente significa que quaisquer 
dois nós são separados por menos de seis etapas, mais ou menos, refletindo a agora popularmente 
popularizada teoria dos " seis graus de separação " usada nas ciências sociais. 
 
Figura 17 O pequeno efeito mundial. 
Esse nível de conectividade tem importantes consequências biológicas, pois permite um fluxo eficiente e rápido de 
sinais dentro da rede. No entanto, também coloca uma questão interessante: se a rede está tão fortemente conectada, por 
que as perturbações em um único gene ou proteína não têm consequências dramáticas para a rede? 
Os sistemas biológicos são extremamente robustos e podem lidar com uma quantidade relativamente alta de 
perturbações em genes / proteínas únicos. Para explicar como isso pode acontecer, precisamos dar uma olhada em outra 
propriedade fundamental dos PPINs: são redes sem escala. 
Propriedades de PPINs: redes sem escala 
https://www.ebi.ac.uk/intact
https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-introduction/references
https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-introduction/references
https://en.wikipedia.org/wiki/Six_degrees_of_separation
https://en.wikipedia.org/wiki/Six_degrees_of_separation
As redes de interação proteína-proteína são redes sem escala (Figura 18A). A maioria dos nós (proteínas) em redes sem 
escala tem apenas algumas conexões com outros nós, enquanto alguns nós (hubs) estão conectados a muitos outros nós 
na rede. 
 
Figura 18 Um exemplo de rede sem escala (A). A distribuição típica de graus de uma rede sem escala (B). 
O número de conexões que cada nó possui é chamado de grau. Se representarmos a distribuição de graus de uma rede 
sem escala em uma escala logarítmica, podemos ver como ela se encaixa em uma linha (eles se encaixam em uma lei 
de potência), tendo um pequeno número de nós com alto grau (os hubs) e um grande número de nós com um baixo grau 
(Figura 18B). 
Redes sem escala podem ser construídas de acordo com o modelo preferencial de anexos , também conhecido como 
princípio dos 'ricos ficam mais ricos'. Esse princípio simplesmente declara que redes sem escala podem ser construídas 
adicionando arestas preferencialmente conectadas aos nós com o mais alto grau ( 5 ). Esse princípio de construção 
fornece um mecanismo auto-organizado para a geração e expansão desse tipo de rede. 
A natureza sem escala das redes de interação proteína-proteína fornece-lhes uma série de características importantes: 
• Estabilidade 
• Se as falhas ocorrerem aleatoriamente, e a grande maioria das proteínas são aquelas com um pequeno grau de 
conectividade, a probabilidade de um hub ser afetado é pequena. 
• Se ocorrer uma falha no hub, a rede geralmente não perderá a conexão devido aos hubs restantes. 
• Invariável a mudanças de escala 
• Não importa quantos nós ou arestas a rede possui, suas propriedades permanecem estáveis. 
• A presençade hubs é o que permite que o efeito do mundo pequeno esteja presente, independentemente do 
tamanho da rede. 
• Vulnerável a ataques direcionados 
• Se perdermos alguns hubs importantes da rede, a rede será transformada em um conjunto de gráficos bastante 
isolados. 
• Os hubs são enriquecidos com genes essenciais / letais. Por exemplo, muitas proteínas ligadas ao câncer são 
proteínas centrais (por exemplo, a proteína supressora de tumor p53). 
É importante observar que, dados os atuais níveis limitados de cobertura e a qualidade variável dos dados de interação, 
a topologia observada sem escala das redes de interação proteína-proteína existentes não pode ser extrapolada com 
segurança para concluir os interomassomas. De fato, alguns trabalhos têm questionado até que ponto as redes biológicas 
se encaixam na distribuição da lei de energia sem escala ( 6 ). 
Propriedades dos PPINs: transitividade 
Outra característica crucial dos PPINs é sua modularidade. O coeficiente de transitividade ou clustering de uma rede 
é uma medida da tendência dos nós de se agruparem. Alta transitividade significa que a rede contém comunidades ou 
grupos de nós densamente conectados internamente. Seguindo uma analogia das ciências sociais, "os amigos dos meus 
https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-introduction/references
https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-introduction/references
amigos são meus amigos". Nas redes biológicas, encontrar essas comunidades é muito importante, pois elas podem 
refletir módulos funcionais e complexos de proteínas (Figura 19). 
 
Figura 19 Clusters topológicos que refletem a função biológica. Os aglomerados são destacados nos quadrados de 
linhas tracejadas: I - Máquinas proteasomais; II - agrupamento de proteínas relacionadas à tradução, contendo várias 
proteínas ribossômicas; III - cluster relacionado à produção de energia, contendo várias ATPases mitocondriais. Imagem 
reproduzida com permissão dos autores de Hsia et al. Int J Mol. Sci. 2015: 16. ( 7 ). 
Um módulo é uma unidade funcional intercambiável. Eles são componentes independentes de um sistema com 
interfaces bem definidas com outros componentes. O recurso definidor de um módulo é que suas propriedades 
funcionais intrínsecas não mudam quando ele é colocado em um contexto diferente. Os módulos ajudam a reduzir a 
complexidade das redes biológicas, fornecendo um conjunto de unidades funcionais e redutíveis que podem ser 
estudadas como uma entidade integrada. O estudo topológico de PPINs pode ajudar a detectar e definir esses módulos. 
Os complexos proteicos podem ser considerados um tipo de módulo no qual as proteínas estão interagindo entre si de 
maneira estável, mantendo uma configuração mais ou menos fixa no tempo e no espaço. Eles representam máquinas 
multiproteínas com funções específicas. Um tipo mais amplo de módulo funcional não requer que as proteínas sejam 
ligadas de forma estável uma à outra, desde que suas propriedades funcionais intrínsecas não mudem quando colocadas 
em outro contexto. 
O estudo de módulos também é útil na definição de interações e proteínas intermodulares . Esses são os limites / nós 
que vinculam diferentes comunidades em uma rede. Eles podem atuar como comutadores ou moduladores de alto nível 
que, por exemplo, mediam a conversa cruzada entre diferentes complexos ou caminhos. 
Falaremos mais detalhadamente sobre a pesquisa de módulos em PPINs em uma seção adicional. Agora vamos falar 
sobre as principais estratégias que podem ser usadas para analisar PPINs. 
Construindo e analisando PPINs 
Agora que sabemos um pouco sobre a teoria dos grafos e as redes de interação proteína-proteína, podemos observar as 
etapas, estratégias e ferramentas usadas para construir e analisar essas redes (Figura 20). 
https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-introduction/references
 
Figura 20 Um fluxo de trabalho potencial para criar e analisar redes de interação proteína-proteína. 
Primeiro, apresentaremos brevemente vários pacotes de software ou métodos programáticos usados para construir e 
analisar redes. A seguir, falamos sobre fontes das quais você pode obter dados PPI e discutimos várias maneiras de 
analisar os dados, dos quais a análise topológica das centralidades e as abordagens de busca da comunidade são 
estratégias comuns. Finalmente, examinamos maneiras pelas quais dados adicionais podem ser adicionados para 
entender o contexto biológico da rede. 
Ferramentas de representação e análise de rede 
Existem várias ferramentas que podem ser usadas para obter, integrar e analisar dados de PPI para entender seu contexto 
biológico. Vamos dar uma breve olhada em alguns deles. 
Cytoscape 
O Cytoscape é uma das ferramentas de análise de rede mais populares. É um aplicativo de desktop multiplataforma 
baseado em Java e de código aberto amplamente utilizado para representação, integração e análise de rede. Foi 
originalmente projetado para a análise de redes biológicas, que permanece como sua principal aplicação, mas também 
pode ser usado para análises de redes de uso geral. 
 
Figura 21 O Cytoscape é uma ferramenta popular para análise de rede. 
Vantagens 
Aplicativos Cytoscape 
• Uma das principais razões para sua popularidade é a grande variedade de aplicativos (quase 300 na época em 
que escrevemos este curso) que fornecem funcionalidade específica e adicional à distribuição principal do 
Cytoscape. Isso fornece grande flexibilidade, tornando a ferramenta adaptável a vários tipos de análise em 
vários domínios do conhecimento. 
• Para análise de rede PPI existem aplicativos específicos para a pesquisa da comunidade, (por 
exemplo MCODE , clusterMaker2 , JActiveModules ) ou para realizar Gene Set Enriquecimento Análise 
( bingo , ClueGO , EnrichmentMap ). 
• Alguns aplicativos Cytoscape funcionam apenas com uma versão específica da distribuição principal do 
Cytoscape. É importante verificar se você possui a versão correta para o tipo de análise que precisa executar. 
http://www.cytoscape.org/
http://apps.cytoscape.org/apps/mcode
http://apps.cytoscape.org/apps/clustermaker2
http://apps.cytoscape.org/apps/jactivemodules
http://apps.cytoscape.org/apps/bingo
http://apps.cytoscape.org/apps/cluego
http://apps.cytoscape.org/apps/enrichmentmap
http://www.cytoscape.org/
Automação 
• As tarefas do Cytoscape podem ser automatizadas por meio de argumentos da linha de comando, embora o 
número de recursos que você possa acessar dessa maneira ainda seja limitado. 
Limitações 
• É bastante exigente em termos de recursos de computação quando se trata de redes de grande escala e atinge 
um limite do que pode suportar quando as redes se tornam muito grandes (centenas de milhares de nós e arestas). 
Opções não programáticas para redes grandes 
Uma opção não programática para lidar com grandes redes é o Gephi . O Gephi é capaz de lidar com centenas de 
milhares de nós e milhões de bordas, embora o processamento e o desenho especialmente de tais redes exijam uma 
enorme capacidade de computação. 
 
Figura 22 Gephi é uma ferramenta não programática para analisar grandes redes. 
Os benefícios do Gephi são que ele é de código aberto, multiplataforma e possui uma ampla variedade de algoritmos 
avançados relacionados à rede (geralmente não encontrados em nenhum outro lugar) na forma de plugins. A única 
desvantagem é a falta de capacidade para processar informações especificamente biológicas. É uma ferramenta geral de 
rede e deve ser tratada como tal e usada para enumeração, estatística e visualização. 
Soluções programáticas 
As soluções programáticas para análise de rede em larga escala incluem pacotes como igraph (para R, Python e C) 
ou NetworkX (para Python). Estes são pacotes de scripts que têm uma demanda muito menor nos recursos do 
computador e são mais acessíveis para tarefasautomatizadas. Isso significa que eles podem ser facilmente 
implementados como parte de dutos maiores de análise de bioinformática. Por exemplo, a implementação R do igraph 
é frequentemente usada em conjunto com outros pacotes de bioestatística disponíveis por meio dessa linguagem. 
 
Figura 23 igraph e NetworkX são soluções programáticas para análise de rede em larga escala. 
Fontes de dados PPI 
O primeiro passo na realização da análise PPIN é, obviamente, construir uma rede. Existem diferentes fontes de dados 
PPI (Figura 24) que podem ser usadas para fazer isso e é importante estar ciente de suas vantagens e desvantagens. 
Essencialmente, você pode obter dados PPI em: 
• Seu próprio trabalho experimental, onde você pode escolher como os dados são representados e armazenados. 
http://gephi.org/
http://igraph.org/
http://networkx.github.io/
https://gephi.org/
http://igraph.org/
https://networkx.github.io/
• Um banco de dados PPI primário. Esses bancos de dados extraem os IBPs das evidências experimentais relatadas na 
literatura usando um processo de curadoria manual. Eles são os principais fornecedores de dados PPI e podem 
representar muitos detalhes sobre interações, dependendo do banco de dados. 
• Um metadatabase ou um banco de dados preditivo. Esses recursos reúnem as informações fornecidas por diferentes 
bancos de dados primários e fornecem uma representação unificada dos dados para o usuário. Os bancos de dados 
preditivos vão além disso e usam os conjuntos de dados produzidos experimentalmente para prever computacionalmente 
interações em áreas inexploradas do intertomoma . Os bancos de dados preditivos fornecem uma maneira de ampliar ou 
refinar o espaço das interações derivadas experimentalmente, mas os conjuntos de dados produzidos são mais 
barulhentos que os de outras fontes. 
 
Figura 24 Fontes de dados de PPI e desafios ao criar um PPIN. 
Muitas vezes, será necessário integrar dados PPI de várias fontes, pois nenhum banco de dados tem uma representação 
completa de todas as evidências de PPI disponíveis. Isso cria alguns desafios interessantes porque bancos de dados 
diferentes usam identificadores diferentes e contêm tipos diferentes de dados. 
Para evitar redundâncias e inconsistências, é importante entender as diferenças entre os diferentes bancos de dados em 
termos de: 
i) O tipo de dados e metadados que eles incluem. Por exemplo, alguns bancos de dados fornecerão apenas dados 
derivados experimentalmente e outros também incluirão previsões. Da mesma forma, o nível de detalhe fornecido sobre 
a configuração experimental varia entre os bancos de dados. 
ii) Os identificadores usados pelo banco de dados. Bancos de dados diferentes fazem escolhas diferentes nesse sentido; 
portanto, às vezes você pode precisar mapear tipos diferentes de identificadores para integração de dados. 
A criação do consórcio IMEx , reforçando o uso de padrões comuns de representação e modelos de curadoria, foi um 
passo importante para solucionar problemas de redundância e inconsistência. Visite o site da IMEx para saber mais. 
Avaliando a confiabilidade e medindo a confiança 
Uma preocupação importante na análise de rede é se a rede de interação pode ser confiável para representar uma 
interação biológica "real". Dado o ruído inerente às informações interativas, é importante ser rigoroso ao avaliar os 
dados de interação proteína-proteína que usamos em nossa análise. É importante levar em consideração que a cobertura 
interativa também é incompleta e irregular, portanto nem sempre temos o luxo de filtrar evidências menos confiáveis. 
Existem muitos métodos diferentes para determinar a confiabilidade e fornecer uma medida de confiança. Algumas 
estratégias fazem uso de: 
• Informação biológica contextual relativa às proteínas ou moléculas envolvidas na interação. Por exemplo, 
sobreposição de padrões de co-expressão ( 8 , 9 ). 
https://www.ebi.ac.uk/training/online/glossary/interactome
https://www.ebi.ac.uk/training/online/glossary/metadata
https://www.ebi.ac.uk/training/online/glossary/imex
http://www.imexconsortium.org/about-imex
http://www.imexconsortium.org/about-imex
https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-introduction/references
https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-introduction/references
• Conte quantas vezes uma determinada interação foi relatada na literatura , como uma medida de validação 
ortogonal experimental. Essa é uma abordagem popular e direta e há variações mais elaboradas dessa estratégia, como 
o MIscore (consulte o texto em caixa). 
• Métodos agregados que usam várias estratégias diferentes e as integram em uma única pontuação, 
como INTscore ( 10 ). 
O método MIscore 
O MIscore é um método para avaliar a confiabilidade dos dados de interação proteína-proteína com base no uso de 
padrões ( 11 ). O MIscore fornece uma estimativa do peso da confiança em todas as evidências disponíveis para um par 
de proteínas em interação. O método permite ponderar as evidências fornecidas por diferentes fontes, desde que os dados 
sejam representados seguindo os padrões criados pelo consórcio IMEx. 
Conforme mostrado na Figura 25, o método pondera: 
• número de publicações; 
• método de detecção; 
• tipo de evidência de interação. 
Diferentes métodos de detecção de interação e tipos de interação têm pesos diferentes, atribuídos por um grupo de 
curadores especializados. Esses parâmetros são agregados para cada par de interação e depois normalizados, fornecendo 
uma medida quantitativa de quanta evidência experimental existe por trás de uma determinada interação. 
 
Figura 25 A pontuação normalizada do MIscore calcula uma pontuação composta para uma interação com base no 
número de publicações que relatam a interação, nos métodos de detecção de interação relatados e nos tipos de 
interação. Reproduzido de Villaveces et al. Mesclando e pontuando interações moleculares utilizando os padrões da 
comunidade existentes: ferramentas, casos de uso e um estudo de caso. Database (Oxford), 2015 ( 11 ). Com permissão 
da Oxford University Press. 
Análise topológica de PPIN 
Analisar os recursos topológicos de uma rede é uma maneira útil de identificar participantes e subestruturas relevantes 
que podem ter significado biológico. Existem muitas estratégias diferentes que podem ser usadas para fazer isso (Figura 
26). Nesta seção, focaremos na análise de centralidade e no agrupamento topológico , embora existam outras 
estratégias, como a busca por caminhos mais curtos ou motivos que são mais frequentemente aplicados a redes com 
direcionalidade e não serão abordados aqui. 
http://intscore.molgen.mpg.de/
https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-introduction/references
https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-introduction/references
https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-introduction/references
 
Figura 26 Estratégias comuns de análise estrutural para PPINs. 
Análise de centralidade 
A centralidade faz uma estimativa da importância de um nó ou borda para a conectividade ou o fluxo de informações 
da rede (Figura 27). É um parâmetro útil nas redes de sinalização e é frequentemente usado ao tentar encontrar alvos de 
drogas. 
A análise de centralidade nos PPINs geralmente visa responder à seguinte pergunta: 
Qual proteína é a mais importante e por quê? 
A centralidade da borda também pode ser analisada, mas isso é menos comum e os conceitos podem ser facilmente 
traduzidos a partir das centralidades baseadas em nós, portanto, focaremos o último nesta seção. 
 
Figura 27 Centralidade do nó representada em uma rede. Nós maiores e mais vermelhos têm valores de centralidade 
mais altos nessa representação. 
A definição de 'central' varia de acordo com o contexto ou o objetivo denossa análise. A centralidade pode ser medida 
usando diferentes métricas e critérios: 
• Grau dos nós 
O grau dos nós pode ser usado como uma estimativa aproximada da centralidade. Como vimos anteriormente, os nós 
com um alto grau (hubs) são essenciais para manter algumas características de redes sem escala, como sua robustez e o 
efeito do mundo pequeno. No entanto, essa é uma medida local , pois não leva em consideração o restante da rede e a 
importância que damos a seu valor depende fortemente do tamanho da rede. 
• Medidas de centralidade global 
As medidas de centralidade global levam em consideração toda a rede. São medidas relativas que fornecem um valor 
normalizado, independente do tamanho da rede. Existem muitos tipos diferentes de medidas de centralidade global, cada 
uma abordando uma definição ligeiramente diferente de centralidade. Duas das medidas de centralidade global mais 
amplamente usadas são as centralidades de proximidade e de interatividade , que abordaremos em mais detalhes nas 
seções a seguir. 
• Outras medidas de centralidade 
Medidas mais complexas de centralidade podem ser definidas dependendo do método específico usado para calculá-
la. Por exemplo, as centralidades são frequentemente calculadas usando 'passeios aleatórios', onde nós aleatórios são 
escolhidos como ponto de partida e o 'tempo' ou 'velocidade' necessário para alcançar outros nós na rede é calculado. Isso 
pode ser combinado com os pesos atribuídos aos nós ou arestas no gráfico para influenciar o cálculo da centralidade 
derivado de outros recursos. Esse é o método usado pelo algoritmo do Google PageRank para atribuir peso a cada página 
da Web ( 12 ). 
Centralidade de proximidade 
A centralidade da proximidade é uma medida útil que estima a rapidez com que o fluxo de informações seria através 
de um determinado nó para outros nós. 
A centralidade de proximidade mede quão curtos os caminhos mais curtos são do nó i para todos os nós. É geralmente 
expresso como o inverso normalizado da soma das distâncias topológicas no gráfico (veja a equação no topo da Figura 
28). Essa soma também é conhecida como farness dos nós. Às vezes, a centralidade da proximidade também é expressa 
simplesmente como a inversidade da farsa ( 13 , 14 ). No exemplo mostrado na metade inferior da figura, você pode ver 
a matriz de distâncias do gráfico à esquerda e os cálculos para obter a centralidade da proximidade à direita. O nó B é o 
nó mais central de acordo com esses parâmetros. 
 
Figura 28 Calculando a centralidade de proximidade dos nós em um gráfico. 
Centralidade de intermediação 
A centralidade de intermediação é baseada no fluxo de comunicação. Os nós com uma alta centralidade entre os 
pontos de interesse são interessantes porque estão nos caminhos de comunicação e podem controlar o fluxo de 
informações. Esses nós podem representar proteínas importantes nas vias de sinalização e podem formar alvos para a 
descoberta de medicamentos. Combinando esses dados com a análise de interferência, podemos simular ataques 
https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-introduction/references
https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-introduction/references
https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-introduction/references
direcionados a redes de interação proteína-proteína e prever quais proteínas são melhores candidatas a medicamentos, 
por exemplo, ver Yu, et al. 2007 ( 15 ). 
O cálculo da centralidade de intermediação não é padronizado e há muitas maneiras de resolvê-lo. É basicamente 
definido como o número de caminhos mais curtos no gráfico que passa pelo nó dividido pelo número total de caminhos 
mais curtos. 
A centralidade de intermediação mede a frequência com que um nó ocorre em todos os caminhos mais curtos entre dois 
nós. Portanto, a intermediação de um nó N é calculada considerando pares de nós ( v1, v2 ) e contando o número de 
caminhos mais curtos que vinculam esses dois nós, que passam pelo nó N. Em seguida, o valor está relacionado ao 
número total de caminhos mais curtos vinculados v1 e v2 . 
 
Figura 29 Centralidade de intermediação. 
Para dar um exemplo mais intuitiva, no gráfico da Figura 29, cada nó B ou nó C pode ser removido e ainda haverá 
caminhos que levam ao nó E . Nó D , no entanto, é bastante central, uma vez que é necessário para qualquer caminho 
que conduz ao nó E . Você pode pensar neste gráfico como um mapa da cidade e nossa análise nos diz que D é a 
encruzilhada na qual é mais provável que haja engarrafamentos. De fato, a centralidade da intermediação pode ser usada 
no planejamento da cidade e existem estudos com o objetivo de otimizar o transporte urbano com base nessa métrica e 
em métricas relacionadas ( 16 ). 
Análise de agrupamento 
Procurar comunidades em uma rede é uma boa estratégia para reduzir a complexidade da rede e extrair módulos 
funcionais (por exemplo, complexos de proteínas) que refletem a biologia da rede. Existem vários termos que são 
comumente usados ao falar sobre análise de clustering (Figura 30): 
 
https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-introduction/references
https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-introduction/references
Figura 30 Alguns conceitos na análise da comunidade de rede. (As comunidades de rede figuram no Wikimedia 
commons por j_ham3 e são usadas sob a licença Creative Commons Attribution-Share Alike 3.0 Unported. Estrutura 
3D da hemoglobina do PDBe e diagrama complexo do IntAct ). 
Comunidade / Cluster 
Um termo geral abrangente que pode ser definido como um grupo de nós que estão mais conectados entre si do que com 
o restante da rede. A definição precisa de uma comunidade dependerá do método ou algoritmo usado para defini-la. Ao 
falar sobre PPINs, as comunidades se enquadram em duas categorias: módulos funcionais e complexos de proteínas. 
Módulo 
Em biologia, os módulos são unidades funcionais permutáveis nas quais os nós (proteínas) não precisam interagir no 
mesmo tempo ou espaço. A característica mais importante de um módulo é que suas propriedades funcionais intrínsecas 
não mudam quando ele é colocado em um contexto diferente. 
Complexo 
Um complexo é um grupo de proteínas que interagem entre si ao mesmo tempo e no mesmo espaço, formando máquinas 
multiproteínas relativamente estáveis. Você pode usar o Portal complexo para explorar complexos macromoleculares 
conhecidos em vários organismos modelo. 
Clique 
Um subconjunto de nós no qual todos os nós estão conectados a todos os outros membros da clique. Uma clique máxima 
é uma clique que não pode ser estendida adicionando um nó adicional não incluído anteriormente na clique. Existem 
vários tipos diferentes de panelinhas e elas podem ser usadas como base de algoritmos que usam critérios topológicos 
para procurar comunidades. 
Motivo 
Motivos são subgráficos estatisticamente super-representados em uma rede. Eles correspondem a um padrão de 
conexões que gera uma resposta dinâmica característica (por exemplo, um loop de feedback negativo). Eles são menos 
importantes para o tipo de redes às quais este tutorial é dedicado, mas são bastante úteis em redes direcionadas. 
Ao explorar um PPIN para clusters, o objetivo geralmente é encontrar módulos funcionais ou complexos de proteínas 
que executam funções biológicas definidas. Existem muitos métodos diferentes que podem nos ajudar a encontrar 
clusters e apresentaremos brevemente alguns deles nesta seção. 
Métodos de análise de agrupamento I 
Nesta seção, focaremos nos métodos que usam exclusivamente a topologia da rede para encontrar componentes 
intimamente conectados. Isso é geralmente conhecido na teoria dos grafos como 'métodos de detecção da 
comunidade'. Nenhuma suposição é feita sobre a estrutura interna dessascomunidades, estamos apenas olhando para 
regiões de alta densidade. 
É importante observar que encontrar a melhor estrutura da comunidade é algoritmicamente extremamente complexo e 
só é possível para redes muito pequenas. Por esse motivo, muitos métodos de aproximação, geralmente abordando 
diferentes cenários, foram desenvolvidos. Há muitos para cobrir neste curso. Alguns exemplos incluem: 
• Método de percolação por clique 
• Algoritmo de cluster de Markov (MCL) 
• Fuzzy C-Means 
• Propagação de afinidade 
• Sussurros chineses em cluster 
• Cluster de Propagação de Etiquetas 
https://commons.wikimedia.org/w/index.php?curid=17125894
https://commons.wikimedia.org/w/index.php?curid=17125894
https://www.ebi.ac.uk/pdbe/entry/pdb/2dn1
https://www.ebi.ac.uk/intact/complex/details/EBI-9008420
https://www.ebi.ac.uk/intact/complex/
https://en.wikipedia.org/wiki/Clique_percolation_method
http://micans.org/mcl/
https://en.wikipedia.org/wiki/Fuzzy_clustering#Fuzzy_C-means_Clustering
https://en.wikipedia.org/wiki/Affinity_propagation
https://en.wikipedia.org/wiki/Chinese_Whispers_(clustering_method)
https://en.wikipedia.org/wiki/Label_Propagation_Algorithm
Método de percolação de clique 
O método de percolação por clique [1] é uma abordagem popular para analisar a sobreposição 
da estrutura da comunidade de redes . O termo comunidade de rede (também chamado de módulo, cluster ou grupo 
coeso) não possui uma definição exclusiva amplamente aceita e geralmente é definido como um grupo de nós que são 
mais densamente conectados entre si do que com outros nós da rede. Existem inúmeros métodos alternativos para 
detectar comunidades em redes, [2] por exemplo, o algoritmo Girvan-Newman , cluster hierárquico e maximização 
da modularidade . 
Método de Percolação de Clique (CPM) 
O método de percolação por clique constrói as comunidades a partir de k -cliques , que correspondem 
a subgráficos completos (totalmente conectados) de k nós. (Por exemplo, uma k -clique em k = 3 é equivalente a um 
triângulo). Duas k- clínicas são consideradas adjacentes se compartilharem nós k -1. Uma comunidade é definida como 
a união máxima de k- panel que pode ser alcançada entre si através de uma série de k- panel adjacentes . Tais 
comunidades podem ser melhor interpretadas com a ajuda de um modelo da classe k (um objeto isomórfico para um 
gráfico completo de k nós). Esse modelo pode ser colocado em qualquerk -clique no gráfico e rolou para uma k -
clique adjacente realocando um de seus nós e mantendo seus outros nós k -1 fixos. Assim, as comunidades k -clique de 
uma rede são todos os subgráficos que podem ser totalmente explorados rolando um modelo k -clique neles, mas não 
podem ser deixados por esse modelo. 
Essa definição permite sobreposições entre as comunidades de uma maneira natural, como ilustrado na Fig.1, mostrando 
quatro comunidades de k -ique em k = 4. As comunidades são codificadas por cores e a sobreposição entre elas é 
enfatizada em vermelho. A definição acima também é local: se um determinado subgráfico atender aos critérios a serem 
considerados como uma comunidade, ele permanecerá uma comunidade independente do que acontece com outra parte 
da rede distante. Por outro lado, ao procurar as comunidades otimizando em relação a uma quantidade global, uma 
mudança distante na rede também pode remodelar as comunidades nas regiões imperturbadas. Além disso, foi 
demonstrado que métodos globais podem sofrer de um problema de limite de resolução, [3]onde o tamanho da menor 
comunidade que pode ser extraída depende do tamanho do sistema. Uma definição da comunidade local, como aqui, 
contorna esse problema automaticamente. 
Como até mesmo redes pequenas podem conter um grande número de k -cliques, a implementação dessa abordagem 
baseia-se na localização de todos os cliques máximos, em vez dos k -cliques individuais . [1] Isso inevitavelmente requer 
encontrar a camarilha máxima do gráfico , que é um problema difícil de NP . (Enfatizamos ao leitor que encontrar uma 
clique máxima é muito mais difícil do que encontrar uma única clique máxima.) Isso significa que, embora redes com 
poucos milhões de nós já tenham sido analisados com êxito com essa abordagem, [4] a pior complexidade de tempo de 
execução é exponencial. no número de nós. 
 
Figura 1. Ilustração dos k comunidades -clique em k = 4. 
Método de Percolação Dirigida por Clique (CPMd) 
Em uma rede com ligações dirigidas uma dirigido k -clique é um subgráfico completa com k nós cumprindo a seguinte 
condição. Os nós k podem ser ordenados de forma que, entre um par arbitrário deles, exista um link direcionado 
apontando do nó com a classificação mais alta para o nó com a classificação mais baixa. O método de percolação 
direcionada por clique define as comunidades de rede direcionadas como os clusters de percolação 
de k- cliques direcionadas . 
https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-cpm_nature-1
https://en.wikipedia.org/wiki/Community_structure
https://en.wikipedia.org/wiki/Community_structure
https://en.wikipedia.org/wiki/Social_network
https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-2
https://en.wikipedia.org/wiki/Girvan%E2%80%93Newman_algorithm
https://en.wikipedia.org/wiki/Hierarchical_clustering
https://en.wikipedia.org/wiki/Modularity_(networks)
https://en.wikipedia.org/wiki/Clique_(graph_theory)
https://en.wikipedia.org/wiki/Clique_(graph_theory)
https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-3
https://en.wikipedia.org/wiki/Clique_(graph_theory)
https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-cpm_nature-1
https://en.wikipedia.org/wiki/NP-hardness
https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-com_evolv-4
https://en.wikipedia.org/wiki/File:Illustration_of_overlapping_communities.svg
Método de percolação ponderada por clique (CPMw) 
Em uma rede com ligações ponderados um ponderada k -clique é um subgráfico completa com k nós de modo a que 
a média geométrica do k ( k - 1) / 2 pesos de ligação dentro do k -clique é maior do que um valor limite 
seleccionado, eu . O método de percolação ponderada por clique define comunidades de rede ponderadas como os 
clusters de percolação de k- cliques ponderadas . Observe que a média geométrica dos pesos dos links dentro de um 
subgráfico é chamada de intensidade desse subgráfico. [5] 
Clique em Generalizações de gráfico 
Os métodos de percolação por clique podem ser generalizados, registrando-se diferentes quantidades de sobreposição 
entre as várias k- clínicas. Isso então define um novo tipo de gráfico, um gráfico de clique , [6] onde cada k -ique no 
gráfico original é representada por um vértice no novo gráfico de clique. As arestas no gráfico de clique são usadas para 
registrar a força da sobreposição de cliques no gráfico original. Pode-se então aplicar qualquer método de detecção de 
comunidade a esse gráfico de clique para identificar os clusters no gráfico original por meio da estrutura k -clique. 
Por exemplo, em um gráfico simples, podemos definir a sobreposição entre duas k -cliques para ser o número de vértices 
comuns a ambas as k -cliques. O método de percolação de clique é equivalente a limitar esse gráfico de clique, 
diminuindo todas as arestas com peso menor que (k-1), com os demais componentes conectados formando as 
comunidades de panelinhas encontradas no CPM. Para k = 2, as cliques são as arestas do gráfico original e, neste caso, 
o gráfico de clique é o gráfico de linhas da rede original. 
Na prática, o uso do número de vértices comuns como uma medida da força da sobreposição de clique pode gerar 
resultados ruins, pois grandes panelinhas no gráfico original, aquelas com muito mais que k vértices, dominam o gráfico 
de clique. O problema surge porque, se um vértice estiver em n- k k diferentes, ele contribuirá para n (n-1) / 2 arestas 
em um gráfico de clique. Uma solução simples é permitir que cada vértice sejacomum a duas k cliques sobrepostas para 
contribuir com um peso igual a 1 / n ao medir a força de sobreposição das duas k- cliques. 
Em geral, o ponto de vista do gráfico de clique é uma maneira útil de encontrar generalizações dos métodos padrão de 
percolação de clique para obter quaisquer problemas redondos encontrados. Ele ainda mostra como descrever extensões 
destes métodos baseados em outros motivos , subgráficos diferente k cliques. Nesse caso, um gráfico de clique é melhor 
pensado em um exemplo específico de um hipergrafo . 
Transição de percolação no CPM 
O modelo Erdős – Rényi mostra uma série de transições interessantes quando a probabilidade p de dois nós estarem 
conectados é aumentada. Para cada k pode-se encontrar uma certa probabilidade de limiar p c acima da qual as clínicas k 
se organizam em uma comunidade gigante. [7] [8] [9] (O tamanho da comunidade gigante é comparável ao tamanho do 
sistema, em outras palavras, a comunidade gigante ocupa uma parte finita do sistema mesmo no limite termodinâmico.) 
Essa transição é análoga à percolação. transição na física estatística . Um fenômeno semelhante também pode ser 
observado em muitas redes reais: se ké grande, apenas as partes mais densamente ligadas são aceitas como comunidades, 
portanto, geralmente permanecem pequenas e dispersas. Quando k é reduzido, o número e o tamanho das comunidades 
começam a crescer. No entanto, na maioria dos casos, um valor crítico de k pode ser alcançado, abaixo do qual uma 
comunidade gigante emerge, obscurecendo os detalhes da estrutura da comunidade, mesclando (e tornando invisível) 
muitas comunidades menores. 
Aplicações 
O método de percolação por clique foi usado para detectar comunidades dos estudos 
de metástase do câncer [10] [11] através de várias redes sociais [4] [12] [13] [14] [15] para documentar agrupamentos [16] e redes 
econômicas . [17] 
Algoritmos e software 
Existem várias implementações de percolação de clique. O método de percolação por clique foi implementado e 
popularizado pelo software CFinder [1] (freeware para uso não comercial) para detectar e visualizar comunidades 
sobrepostas em redes. O programa permite a visualização personalizável e facilita o passeio pelas comunidades 
encontradas. O pacote também contém uma versão em linha de comando do programa, adequada para scripts. 
https://en.wikipedia.org/wiki/Geometric_mean
https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-5
https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-6
https://en.wikipedia.org/wiki/Community_structure
https://en.wikipedia.org/wiki/Community_structure
https://en.wikipedia.org/wiki/Line_graph
https://en.wikipedia.org/wiki/Line_graph
https://en.wikipedia.org/wiki/Line_graph
https://en.wikipedia.org/wiki/Network_motif
https://en.wikipedia.org/wiki/Hypergraph
https://en.wikipedia.org/wiki/Erd%C5%91s%E2%80%93R%C3%A9nyi_model
https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-7
https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-8
https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-9
https://en.wikipedia.org/wiki/Percolation
https://en.wikipedia.org/wiki/Statistical_physics
https://en.wikipedia.org/wiki/Metastasis
https://en.wikipedia.org/wiki/Metastasis
https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-10
https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-11
https://en.wikipedia.org/wiki/Social_network
https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-com_evolv-4
https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-12
https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-13
https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-14
https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-15
https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-16
https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-17
http://www.cfinder.org/
Uma implementação mais rápida ( disponível sob a GPL) foi implementada por outro grupo. [18] Outro exemplo, que 
também é muito rápido em certos contextos, é o algoritmo SCP. [19] 
Algoritmos paralelos 
Uma versão paralela do método de percolação por clique foi projetada e desenvolvida por S. Mainardi et al. . [20] Ao 
explorar as arquiteturas de computação de vários núcleos / processadores de hoje, o método permite a extração 
de comunidades do tipo k a partir de redes muito grandes, como a Internet. [21] Os autores divulgaram o código fonte do 
método sob a GPL e o disponibilizaram gratuitamente para a comunidade. 
MCL - um algoritmo de cluster para gráficos 
O algoritmo MCL é a abreviação de Markov Cluster Algorithm , um algoritmo de cluster não supervisionado rápido 
e escalável para gráficos (também conhecido como redes ) com base na simulação de fluxo (estocástico) em gráficos. O 
algoritmo foi inventado / descoberto por Stijn van Dongen (ou seja, eu ) no Centro de Matemática e Ciência da 
Computação (também conhecido como CWI) na Holanda. A tese de doutorado Gráfico de agrupamento por simulação 
de fluxo está centrado em torno desse algoritmo, sendo os principais tópicos a teoria matemática por trás dele, sua 
posição na análise de cluster e agrupamento de gráficos, questões relativas à escalabilidade, implementação e 
benchmarking e critérios de desempenho para o agrupamento de gráficos em geral. O trabalho desta tese foi realizado 
sob a supervisão de Jan van Eijck e Michiel Hazewinkel . A tese, relatórios técnicos e pré-impressões podem ser 
encontrados nesta seção . Para ter uma idéia rápida de como o MCL opera, considere o fluxo pictórico na parte superior 
desta página, ou melhor ainda, dê uma olhada em uma animação do processo MCL . 
A interface básica do algoritmo é muito simples - você precisa de apenas uma opção (o sinalizador -I ) para chegar ao 
cerne, e para gráficos grandes, você também deve estar ciente do sinalizador -scheme para regular os recursos. A 
abordagem padrão é variar o argumento para -I em algum intervalo (executando uma execução de mcl para cada valor) 
e analisar a saída de armazenamento em cluster com os outros programas que acompanham o MCL ( consulte os 
manuais da mcl ). 
Para obter uma descrição completa do algoritmo e do processo MCL , é recomendável ler um dos relatórios técnicos 
entre as publicações . Também é possível visualizar uma introdução um pouco mais longa ou uma introdução a algumas 
das matemáticas associadas ao MCL . 
O MCL foi aplicado em vários domínios diferentes, principalmente em bioinformática. Atualmente, o número de artigos 
que citam as principais publicações da MCL é superior a quatro mil. Obtenha uma rápida impressão do Google Scholar 
para o artigo de Enright / van Dongen / Ouzounis , minha tese ou um relatório técnico . Também é interessante 
o artigo OrthoMCL . 
simples 
O algoritmo simula o fluxo usando (alternando) duas operações algébricas simples em matrizes. Sua formulação é 
simples e elegante. Não há instruções procedimentais de alto nível para montagem, associação ou divisão de grupos - a 
estrutura do cluster é iniciada por meio de um processo de fluxo que é inerentemente afetado por qualquer estrutura de 
cluster presente. 
A primeira operação usada é a expansão , que coincide com a multiplicação normal da matriz. A expansão modela a 
dispersão do fluxo, tornando-se mais homogênea. O segundo é a inflação , que está matematicamente falando com uma 
potência Hadamard seguida de uma escala diagonal. A inflação modela a contração do fluxo, tornando-se mais espessa 
nas regiões de maior corrente e mais fina nas regiões de menor corrente. O processo MCL faz com que o fluxo se espalhe 
dentro de clusters naturais e evapore entre diferentes clusters. Este exemplo animado de um processo MCL pode dar 
uma impressão do seu modus operandi. 
 adaptável 
Variando um único parâmetro, podem ser encontrados agrupamentos em diferentes escalas de granularidade.O número 
de clusters não pode e não precisa ser especificado antecipadamente, mas o algoritmo pode ser adaptado a diferentes 
contextos. 
emergente 
https://github.com/aaronmcdaid/MaximalCliques
https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-18
https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-19
https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-20
https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-21
http://cosparallel.sf.net/
https://micans.org/mcl/sec_discovery.html
http://micans.org/stijn/
http://www.cwi.nl/
http://www.cwi.nl/
https://micans.org/mcl/sec_thesisetc.html
https://micans.org/mcl/sec_thesisetc.html
http://www.cwi.nl/~jve/
http://www.cwi.nl/~mich/
https://micans.org/mcl/sec_thesisetc.html
https://micans.org/mcl/ani/mcl-animation.html
https://micans.org/mcl/man/distindex.html
https://micans.org/mcl/man/distindex.html
https://micans.org/mcl/sec_thesisetc.html
https://micans.org/mcl/sec_description1.html
https://micans.org/mcl/sec_description2.html
http://scholar.google.com/scholar?q=%22an+efficient+algorithm+for+large-scale+detection+of+protein+families%22
http://scholar.google.com/scholar?q=%22graph+clustering+by+flow+simulation%22
http://scholar.google.com/scholar?q=%22a+cluster+algorithm+for+graphs%22
http://scholar.google.com/scholar?q=%22OrthoMCL+identification+of+ortholog+groups+for+eukaryotic+genomes
https://micans.org/mcl/ani/mcl-animation.html
A questão "quantos clusters?" não é tratado de maneira arbitrária, mas por forte lógica interna. A estrutura de cluster 
deixa suas marcas no processo de fluxo simulado pelo algoritmo, e os parâmetros de fluxo controlam a granularidade 
da impressão do cluster. 
escalável 
O limite do processo MCL (o processo simulado pelo algoritmo) é geralmente extremamente esparso, e os iterands são 
esparsos no sentido ponderado. Isso fornece os meios para escalar o algoritmo drasticamente, levando a uma 
complexidade do pior caso da ordem Nk ^ 2, onde N é o número de nós do gráfico de entrada e onde k é um limite para 
o número de recursos alocados por nó. 
intrínseco 
Os iterandos do processo MCL têm propriedades estruturais que permitem uma interpretação de cluster e que 
generalizam o mapeamento de limites nos agrupamentos. A matemática associada ao processo mostra que existe um 
relacionamento intrínseco entre o processo MCL e a estrutura do cluster nos gráficos. Isso é muito valioso, dadas as 
muitas abordagens heurísticas na análise de cluster. 
velozes 
Uma implementação otimizada da MCL , como a encontrada nesta página, deve ter complexidade O (N k 2 ) , onde N é 
o número de nós no gráfico e k é o número de recursos alocados por nó. Esse número pode ser escolhido 
surpreendentemente baixo sem afetar a qualidade do cluster. O motivo é que o MCL calcula muito um processo 
localizado e, consequentemente, é possível implementar um regime de remoção que tira proveito 
disso. Lamentavelmente, várias publicações afirmam que a complexidade da MCL é O (N 3 )no entanto, isso só é 
verdade se apenas uma implementação extremamente ingênua for considerada. O fato de o MCL ser descrito 
naturalmente na álgebra matricial talvez tenha levado as pessoas a postular uma complexidade de tempo cúbica no 
tamanho do gráfico, desconsiderando o fato de que essas matrizes geralmente são muito esparsas. Para mais 
informações, consulte a seção sobre velocidade e memória . 
Comunidades e detecção de comunidade 
Um algoritmo de cluster para gráficos significa exatamente o mesmo que um algoritmo de detecção de comunidade para 
redes e estrutura de comunidade em redes significa exatamente o mesmo que estrutura de cluster em gráficos. Este é um 
caso grave e realmente infeliz de terminologia divergente. Meu treinamento como matemático me levou a usar 
o gráfico predominantemente. Esta palavra tem outros significados, no entanto, e nem sempre é intuitiva para pessoas 
de outros domínios da ciência. Por isso, comecei a apreciar e usar cada vez mais a rede . Por outro lado, a frase detecção 
da comunidade parece bastante estreita e eu prefiro fortemente os idiomas mais antigos agrupando eanálise de 
agrupamento . Nessas páginas, o gráfico de documentação mcl é muito usado, hoje em dia intercalado com o uso 
da rede . Eles devem ser entendidos como totalmente intercambiáveis - não apenas nessas páginas, mas em um sentido 
muito amplo. Da mesma forma, as comunidades são iguais aos clusters no contexto de, bem, agrupamento de gráficos, 
também conhecido como detecção de comunidade em redes. 
Partições e particionamento gráfico 
O conceito de partição ou particionamento significa superficialmente o mesmo que agrupar , ou seja, uma separação em 
subconjuntos mutuamente disjuntos que cobrem todo o conjunto de interesses. 
A diferença mais importante é que o problema de particionamento de gráfico é definido universalmente como um 
problema em que o número e o tamanho dos clusters são especificados a priori . Esse não é o caso no agrupamento de 
gráficos ou na análise de agrupamentos em geral. A segunda diferença menos importante entre esses dois termos é que 
o agrupamento exclui a possibilidade de sobreposição por convenção, de modo que ainda é possível falar de 
um agrupamento sobreposto , enquanto uma partição ou particionamento exclui a possibilidade de sobreposição por 
definição. 
Cluster difuso 
O clustering difuso (também conhecido como clustering suave ou soft- k- médias ) é uma forma de clustering em que 
cada ponto de dados pode pertencer a mais de um cluster. 
https://micans.org/mcl/sec_speedmemory.html
https://en.wikipedia.org/wiki/Data_point
O agrupamento ou análise de agrupamento envolve a atribuição de pontos de dados a agrupamentos, de modo que os 
itens no mesmo agrupamento sejam os mais similares possíveis, enquanto os itens pertencentes a agrupamentos 
diferentes são os mais divergentes possíveis. Os clusters são identificados por meio de medidas de similaridade. Essas 
medidas de similaridade incluem distância, conectividade e intensidade. Diferentes medidas de similaridade podem ser 
escolhidas com base nos dados ou no aplicativo. [1] 
 
Propagação de afinidade 
Na estatística e na mineração de dados , a propagação de afinidade (AP) é um algoritmo de agrupamento baseado no 
conceito de "passagem de mensagens" entre pontos de dados. [1] Ao contrário de algoritmos de cluster, como k -
eans ou k -medoids , a propagação de afinidade não exige que o número de clusters seja determinado ou estimado antes 
da execução do algoritmo. Semelhante ao k- medóides, a propagação de afinidade encontra "exemplos", membros do 
conjunto de entrada que são representativos de clusters. [1] 
Aplicações 
Os inventores da propagação de afinidade mostraram que é melhor para determinadas tarefas de visão computacional e 
biologia computacional, por exemplo, agrupar imagens de rostos humanos e identificar transcrições regulamentadas, do 
que k- médias, [1] mesmo quando k- médias permitiu muitas reinicializações aleatórias e inicializadas 
usando PCA . [2] Um estudo comparando a propagação de afinidade e o agrupamento de Markov no particionamento 
de gráficos de interação proteica descobriu que o agrupamento de Markov funcionava melhor para esse 
problema. [3] Uma variante semi-supervisionada foi proposta para aplicações de mineração de texto . [4] 
https://en.wikipedia.org/wiki/Cluster_analysis
https://en.wikipedia.org/wiki/Cluster_analysis
https://en.wikipedia.org/wiki/Fuzzy_clustering#cite_note-1
https://en.wikipedia.org/wiki/Statistics
https://en.wikipedia.org/wiki/Data_mining
https://en.wikipedia.org/wiki/Cluster_analysis
https://en.wikipedia.org/wiki/Affinity_propagation#cite_note-science-1
https://en.wikipedia.org/wiki/K-means_clustering
https://en.wikipedia.org/wiki/K-means_clustering
https://en.wikipedia.org/wiki/K-medoids
https://en.wikipedia.org/wiki/Affinity_propagation#cite_note-science-1
https://en.wikipedia.org/wiki/Affinity_propagation#cite_note-science-1https://en.wikipedia.org/wiki/Principal_component_analysis
https://en.wikipedia.org/wiki/Affinity_propagation#cite_note-2
https://en.wikipedia.org/wiki/Markov_clustering
https://en.wikipedia.org/w/index.php?title=Protein_interaction_graph&action=edit&redlink=1
https://en.wikipedia.org/wiki/Affinity_propagation#cite_note-3
https://en.wikipedia.org/wiki/Text_mining
https://en.wikipedia.org/wiki/Affinity_propagation#cite_note-4
 
Sussurros chineses (método de agrupamento) 
O Whispers chinês é um método de agrupamento usado na ciência de redes, nomeado após o famoso jogo de 
sussurros . [1] Os métodos de clustering são basicamente usados para identificar comunidades de nós ou links em uma 
determinada rede. Esse algoritmo foi desenvolvido por Chris Biemann e Sven Teresniak em 2005. [1] O nome deriva do 
fato de que o processo pode ser modelado como uma separação de comunidades onde os nós enviam o mesmo tipo de 
informação. [1] 
O Chinese Whispers é um método de particionamento rígido, randomizado e de agrupamento plano (sem relações 
hierárquicas entre clusters ). [1] A propriedade random significa que executar o processo na mesma rede várias vezes 
pode levar a resultados diferentes, enquanto, devido ao particionamento rígido, um nó pode pertencer apenas a um 
cluster em um determinado momento. O algoritmo original é aplicável a gráficos não direcionados, ponderados e não 
ponderados. O Whispers chinês é linear no tempo, o que significa que é extremamente rápido, mesmo que o número de 
nós e links seja muito alto na rede. [1] 
Algoritmo 
 
Um exemplo de como o Whispers chinês funciona em ação. As cores diferentes representam diferentes classes. 
O algoritmo funciona da seguinte maneira em um gráfico não ponderado não direcionado: [1] 
1. Todos os nós são atribuídos a uma classe distinta (o número de classes iniciais é igual ao número de nós). 
https://en.wikipedia.org/wiki/Chinese_whispers
https://en.wikipedia.org/wiki/Chinese_whispers
https://en.wikipedia.org/wiki/Chinese_Whispers_(clustering_method)#cite_note-Biemann2006-1
https://en.wikipedia.org/w/index.php?title=Chris_Biemann&action=edit&redlink=1
https://en.wikipedia.org/w/index.php?title=Sven_Teresniak&action=edit&redlink=1
https://en.wikipedia.org/wiki/Chinese_Whispers_(clustering_method)#cite_note-Biemann2006-1
https://en.wikipedia.org/wiki/Chinese_Whispers_(clustering_method)#cite_note-Biemann2006-1
https://en.wikipedia.org/wiki/Hierarchical_clustering
https://en.wikipedia.org/wiki/Hierarchical_clustering
https://en.wikipedia.org/wiki/Chinese_Whispers_(clustering_method)#cite_note-Biemann2006-1
https://en.wikipedia.org/wiki/Chinese_Whispers_(clustering_method)#cite_note-Biemann2006-1
https://en.wikipedia.org/wiki/Chinese_Whispers_(clustering_method)#cite_note-Biemann2006-1
https://en.wikipedia.org/wiki/File:Chinese_Whispers_example_cluster.png
2. Todos os nós da rede são selecionados um por um em uma ordem aleatória. Cada nó se move para a classe à qual o nó 
fornecido se conecta com mais links. No caso de igualdade, o cluster é escolhido aleatoriamente entre as classes 
igualmente vinculadas. 
3. A etapa dois se repete até um número predeterminado de iteração ou até o processo convergir. No final, as classes 
emergentes representam os agrupamentos da rede. 
O limite predeterminado para o número de iterações é necessário porque é possível que o processo não converja. Por 
outro lado, em uma rede com aproximadamente 10000 nós, os clusters não mudam significativamente após 40-50 
iterações, mesmo se não houver convergência. [1] 
Pontos fortes e fracos 
A principal força dos sussurros chineses reside na propriedade linear do tempo. Devido ao tempo de processamento 
aumentar linearmente com o número de nós, o algoritmo é capaz de identificar comunidades em uma rede muito 
rapidamente. Por esse motivo, o Chinese Whispers é uma boa ferramenta para analisar estruturas da comunidade em 
gráfico com um número muito alto de nós. A eficácia do método aumenta ainda mais se a rede tiver a pequena 
propriedade mundial . [1] 
Por outro lado, como o algoritmo não é determinístico no caso de um número pequeno de nós, os clusters resultantes 
geralmente diferem significativamente um do outro. A razão para isso é que, no caso de uma rede pequena, importa 
mais de qual nó o processo de iteração é iniciado, enquanto nas redes grandes a relevância dos pontos de partida 
desaparece. [1] Por esse motivo, para gráficos pequenos, outros métodos de agrupamento são recomendados. 
Aplicações 
O Whispers chinês é usado em muitos subcampos da ciência de redes. É mencionado com mais frequência no contexto 
de problemas de processamento de linguagem natural . [2] [3] Por outro lado, o algoritmo é aplicável a qualquer tipo de 
problema de identificação da comunidade que esteja relacionado a uma estrutura de rede. O Chinese Whispers está 
disponível para uso pessoal como um pacote de extensão para o Gephi [4], que é um programa de código 
aberto desenvolvido para análise de rede. 
Algoritmo de propagação de rótulo 
A propagação de etiquetas é um algoritmo de aprendizado de máquina semi-supervisionado que atribui etiquetas a 
pontos de dados não rotulados anteriormente. No início do algoritmo, um subconjunto (geralmente pequeno) dos pontos 
de dados possui rótulos (ou classificações). Esses rótulos são propagados para os pontos não rotulados ao longo do curso 
do algoritmo. [1] 
Dentro de redes complexas , redes reais tendem a ter estrutura comunitária . A propagação de etiquetas é um 
algoritmo [2] para encontrar comunidades. Em comparação com outros algoritmos [3] , a propagação de rótulos tem 
vantagens em seu tempo de execução e quantidade de informações a priori necessárias sobre a estrutura da rede (nenhum 
parâmetro é necessário para ser conhecido antecipadamente). A desvantagem é que ela não produz uma solução 
exclusiva, mas um agregado de muitas soluções. 
https://en.wikipedia.org/wiki/Chinese_Whispers_(clustering_method)#cite_note-Biemann2006-1
https://en.wikipedia.org/wiki/Small-world_experiment
https://en.wikipedia.org/wiki/Small-world_experiment
https://en.wikipedia.org/wiki/Chinese_Whispers_(clustering_method)#cite_note-Biemann2006-1
https://en.wikipedia.org/wiki/Chinese_Whispers_(clustering_method)#cite_note-Biemann2006-1
https://en.wikipedia.org/wiki/Natural_language_processing
https://en.wikipedia.org/wiki/Chinese_Whispers_(clustering_method)#cite_note-2
https://en.wikipedia.org/wiki/Chinese_Whispers_(clustering_method)#cite_note-3
https://en.wikipedia.org/wiki/Gephi
https://en.wikipedia.org/wiki/Chinese_Whispers_(clustering_method)#cite_note-4
https://en.wikipedia.org/wiki/Open-source_software
https://en.wikipedia.org/wiki/Open-source_software
https://en.wikipedia.org/wiki/Machine_learning
https://en.wikipedia.org/wiki/Label_propagation_algorithm#cite_note-1
https://en.wikipedia.org/wiki/Complex_networks
https://en.wikipedia.org/wiki/Complex_networks
https://en.wikipedia.org/wiki/Community_structure
https://en.wikipedia.org/wiki/Label_propagation_algorithm#cite_note-raghavan-albert-kumara2007-2
https://en.wikipedia.org/wiki/Label_propagation_algorithm#cite_note-3
 
Introduziremos brevemente dois dos métodos mais populares usados para analisar redes de interação de proteínas: 
o algoritmo rápido ganancioso de Newman-Girvan e o algoritmo MCODE . 
Outra maneira de abordar a pesquisa de comunidades em uma rede é usar uma combinação da topologia da rede e 
algumas propriedades externas, como valores de expressão de proteínas, como uma camada adicional que define as 
comunidades. Um bom exemplo desse método popular é o aplicativo jActiveModules para Cytoscape ( 17 ). Este 
aplicativo “[…] pesquisa uma rede de interação molecular para encontrar sub-redes ativadas por expressão. Essas sub-
redes são regiões conectadas de uma rede que mostram mudanças significativas na expressão em subconjuntos de 
condições específicos ”( 18 ). Em essência, regiões conectadas em uma rede com expressão diferencialpodem ser 
identificadas usando esta ferramenta. 
Métodos de análise de agrupamento II 
Algoritmo rápido ganancioso de Newman-Girvan 
• Desenvolvido para o estudo de redes em geral, com foco especial em redes sociais e biológicas ( 19 ). 
• Identifica as comunidades usando a medida de centralidade da borda entre os dois. Bordas que conectam comunidades 
diferentes têm valores de centralidade mais altos, pois uma proporção maior de caminhos mais curtos passará por eles. 
• Para definir comunidades, ele usa as pontuações de centralidade das margens das arestas para classificar as arestas da 
rede, remove as arestas mais centrais e recalcula as pontuações das arestas até que nenhuma aresta seja deixada. As 
arestas afetadas pela remoção são consideradas parte da mesma comunidade. 
• Pode ser considerada uma abordagem "ingênua" que definirá as comunidades mesmo quando elas estiverem apenas 
marginalmente mais conectadas que o restante da rede. 
 
http://apps.cytoscape.org/apps/jactivemodules
https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-introduction/references
https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-introduction/references
https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-introduction/references
Figura 31 Comunidades definidas usando Newman-Girvan e MCODE. 
Algoritmo MCODE 
• Desenvolvido para encontrar complexos de proteínas em redes PPI ( 20 ). 
• Pode ser considerado mais rigoroso que o algoritmo de Newman-Girvan, pois visa encontrar apenas as sub-redes muito 
altamente interconectadas, representando complexos multiproteicos relativamente estáveis que funcionam como uma 
única entidade no tempo e no espaço. 
• Os parâmetros do algoritmo podem ser ajustados para torná-lo menos rigoroso, para que uma definição mais vaga de 
uma comunidade seja usada. 
• O algoritmo usa um processo de três estágios: 
1. Ponderação: uma pontuação mais alta é atribuída aos nós cujos vizinhos estão mais interconectados. 
2. Previsão do complexo molecular: começando com o nó de maior peso (semente), mova-se recursivamente, 
adicionando nós ao complexo que estão acima de um determinado limite. 
3. Pós-processamento: aplica filtros para melhorar a qualidade do cluster (corte de cabelo e cotão). 
É importante notar que, quando falamos em 'rigor', estamos falando sobre como os nós dentro de uma sub-rede devem 
estar interconectados para serem considerados uma comunidade separada. Isso muda dependendo da questão biológica 
subjacente à análise. Não é o mesmo procurar complexos proteicos estáveis, como o proteassoma, como procurar 
submódulos funcionais que representam uma etapa específica de uma via de sinalização. 
Análise de enriquecimento de anotação 
Existem muitas abordagens diferentes que podem ser usadas para entender o contexto biológico das redes de interação 
proteína-proteína. A análise de enriquecimento de anotação é um dos métodos mais populares. Embora não seja 
estritamente uma ferramenta de análise de rede, é frequentemente usada em combinação com a análise topológica de 
rede. 
Existem diferentes variedades desse tipo de análise, mas, na sua forma mais básica, a análise de enriquecimento de 
anotações usa anotações de genes / proteínas fornecidas por bases de conhecimento como Gene Ontology (GO) 
ou Reactome para inferir quais anotações estão super-representadas em uma lista. de genes / proteínas que podem ser 
retirados de uma rede (Figura 32). Essencialmente, as ferramentas de anotação realizam algum tipo de teste estatístico 
(geralmente um teste hipergeométrico, geralmente também um teste binomial) que tenta responder à seguinte pergunta: 
"Ao amostrar proteínas X (conjunto de teste) de proteínas N (conjunto de referência; gráfico ou anotação), qual é a 
probabilidade de que x, ou mais, dessas proteínas pertençam a uma categoria funcional C compartilhada 
por n das proteínas N na conjunto de referência ". ( 21 ) 
O resultado desse teste nos fornece uma lista de termos que descrevem a lista / rede, ou melhor, parte dela, como um 
todo. 
https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-introduction/references
https://www.ebi.ac.uk/training/online/glossary/gene-ontology
https://www.ebi.ac.uk/training/online/glossary/reactome
https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-introduction/references
 
Figura 32 Análise de enriquecimento de anotação usando GO e Reactome em uma rede. 
Esse tipo de análise é realizado com mais frequência usando a anotação GO como referência, mas ferramentas como os 
aplicativos Cytoscape BiNGO e ClueGO também podem gerenciar outros bancos de dados de anotações, 
como Reactome e KEGG . Essa é uma técnica amplamente usada que ajuda a caracterizar a rede como um todo ou 
subconjuntos, como comunidades interconectadas encontradas através da análise topológica de agrupamentos. 
Versões mais complexas dessa técnica podem levar em consideração variáveis variáveis, como a alteração da dobra da 
expressão. A ferramenta GSEA é um bom exemplo de uma técnica mais avançada que utiliza conceitos básicos 
semelhantes. Uma visão geral um pouco antiga, mas muito completa, das diferentes ferramentas dessa família e das 
vantagens e limitações de suas diferentes abordagens pode ser encontrada em Huang da et al 2009 ( 22 ). 
Limitações do enriquecimento da anotação 
Anotação 
As principais limitações do enriquecimento das anotações vêm das próprias anotações. Certas áreas da biologia são 
anotadas mais detalhadamente e melhor descritas do que outras, com mais detalhes e termos mais precisos para 
processos conhecidos. Por exemplo, no nível das proteínas, proteínas mais "populares" são melhor anotadas. Isso 
introduz um certo viés na análise estatística. 
Também é importante observar que os termos do GO podem ser atribuídos por um curador humano que 
realiza anotações manuais cuidadosas ou por abordagens computacionais que usam a base da anotação manual para 
inferir quais termos descreveriam adequadamente produtos genéticos desconhecidos. Eles usam vários critérios 
diferentes que sempre se referem a produtos gênicos anotados, como semelhança de sequência ou estrutura ou 
proximidade filogenética. A importância das anotações derivadas computacionalmente é bastante significativa, pois elas 
representam aproximadamente 99% das anotações que podem ser encontradas no GO. 
Simplificando a interpretação dos resultados do enriquecimento da anotação 
Outra limitação do enriquecimento da anotação é a complexidade e os detalhes da anotação associados a grandes 
conjuntos de genes ou proteínas. Isso acontece porque recursos como Reactome e, especialmente, GO podem ser muito 
complexos e detalhados em suas anotações, levando à geração de redes extremamente complicadas de termos inter-
relacionados e similares. Existem várias maneiras de tentar desvendar essa complexidade. 
A abordagem mais simples é usar ontologias simplificadas. Muitas ferramentas oferecem essa opção e usam ontologias 
em que termos detalhados são removidos e designados a termos pai mais amplos e gerais. No GO, essas ontologias 
simplificadas são chamadas de GOslims . 
Outras ferramentas, como os aplicativos Cytoscape BiNGO ou ClueGO, representam os resultados como uma rede de 
termos, em que as bordas direcionadas representam relacionamentos de termos, conforme definido 
http://www.geneontology.org/
http://apps.cytoscape.org/apps/bingo
http://apps.cytoscape.org/apps/cluego
http://www.reactome.org/
http://www.genome.jp/kegg/
http://software.broadinstitute.org/gsea/index.jsp
https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-introduction/references
https://www.ebi.ac.uk/training/online/glossary/curator
https://www.ebi.ac.uk/training/online/glossary/manual-annotation
http://geneontology.org/page/go-slim-and-subset-guide
na ontologia

Outros materiais