Análise de redes proteicas em biologia sistêmica

•

UFES

mat ca

09/11/2020

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 30 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 30 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 30 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Biologia Celular e Molecular

10.483 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Análise de redes em biologia
Os sistemas biológicos são frequentemente representados como redes que são conjuntos complexos de interações ou
relações binárias entre diferentes entidades. Essencialmente, toda entidade biológica tem interações com outras
entidades biológicas, do nível molecular ao nível do ecossistema, oferecendo a oportunidade de modelar a biologia
usando muitos tipos diferentes de redes, como redes de interação ecológica, neurológica, metabólica ou molecular
(Figura 1).
A explosão de dados que se originou na era da pesquisa biológica exigiu o desenvolvimento de abordagens mais
sistêmicas para a análise de dados e um afastamento da perspectiva de um único gene / proteína. A biologia de
sistemas visa compreender entidades biológicas no nível sistêmico, analisando-as não apenas como componentes
individuais, mas também como sistemas em interação e suas propriedades emergentes. Relacionado a isso está a
biologia de redes, que permite a representação e análise de sistemas biológicos usando ferramentas derivadas
da teoria dos grafos .

Figura 1 As redes podem ser usadas para modelar muitos tipos de dados biológicos.
Introdução à teoria dos grafos
A análise de redes biológicas se originou historicamente das ferramentas e conceitos da análise de redes sociais e da
aplicação da teoria dos grafos às ciências sociais.
A Wikipedia ( 1 ) define a teoria dos grafos como:
“[...] o estudo de gráficos, estruturas matemáticas usadas para modelar relações em pares entre objetos. Um gráfico
nesse contexto é composto de vértices, nós ou pontos conectados por arestas, arcos ou linhas ”.
Em termos práticos, é o conjunto de conceitos e métodos abstratos que podem ser usados para visualizar e analisar redes.
A história da teoria dos grafos
A teoria dos grafos e a idéia de topologia foram descritas pela primeira vez pelo matemático suíço Leonard Euler como
aplicado ao problema das sete pontes de Königsberg. Königsberg consistia em quatro ilhas conectadas por sete pontes
(Figura 2). Ninguém jamais havia encontrado um caminho que visitasse todas as quatro ilhas e cruzasse cada uma das
https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-introduction/references
sete pontes apenas uma vez. Naturalmente, as pessoas supuseram que esse caminho não existia, mas não havia prova
matemática disso.

Figura 2 As sete pontes de Königsberg. As imagens são do Wikimedia Commons e usadas sob a licença Creative
Commons Attribution-Share Alike 3.0 Unported.
Euler mostrou que, para resolver o problema, apenas as relações entre as massas terrestres são relevantes, não a forma
ou as distâncias reais no mapa. Essas relações podem ser representadas na forma de um gráfico em que as massas
terrestres são os nós e as pontes são as arestas do gráfico. Euler usou esse gráfico e suas características topológicas para
provar que o caminho não existia.
A formulação desse problema por Euler forneceu a base de toda uma área da matemática e é a base de todas as
ferramentas e conceitos que exploraremos neste curso.
Teoria dos grafos: tipos de grafos e propriedades das arestas
As redes podem representar muitos tipos diferentes de dados. Os nós representam entidades diferentes (por exemplo,
proteínas ou genes em redes biológicas) e as bordas transmitem informações sobre os links entre os nós. Primeiro
vamos nos concentrar nas bordas . Dependendo da natureza das informações de borda subjacentes, diferentes tipos de
análise podem ser executados. Por esse motivo, é útil destacar os principais tipos de arestas que podem ser encontrados
em uma rede (Figura 3).
Tipos de bordas da rede
Arestas não direcionadas
Esse tipo de borda é encontrado nas redes de interação proteína-proteína (PPINs). O relacionamento entre os nós é uma
conexão simples, sem um determinado 'fluxo' implícito, pois as evidências por trás do relacionamento apenas nos dizem
que A liga B.
Bordas direcionadas
Esse é o tipo de conexão encontrada, por exemplo, em redes de regulação metabólica ou de genes . Existe um fluxo
claro de sinal implícito e a rede pode ser organizada hierarquicamente.
Arestas ponderadas
As arestas direcionadas ou não direcionadas também podem ter peso ou um valor quantitativo associado a elas. Isso é
usado para descrever conceitos como a confiabilidade de uma interação, a mudança quantitativa da expressão que um
gene induz sobre outro ou mesmo a proximidade entre dois genes em termos de similaridade de sequência. As arestas
também podem ser ponderadas por seus valores de centralidade ou vários outros parâmetros topológicos.
https://commons.wikimedia.org/wiki/Category:Seven_Bridges_of_K%C3%B6nigsberg?uselang=en-gb
https://www.ebi.ac.uk/training/online/glossary/gene-regulation
https://www.ebi.ac.uk/training/online/glossary/gene-regulation

Figura 3 Os principais tipos de arestas encontrados em uma rede.
Teoria dos grafos: matrizes de adjacência
Toda rede pode ser expressa matematicamente na forma de uma matriz de adjacência (Figura 4). Nessas matrizes, as
linhas e colunas são atribuídas aos nós da rede e a presença de uma aresta é simbolizada por um valor numérico. Usando
a representação matricial da rede, podemos calcular propriedades da rede, como grau e outras centralidades, aplicando
conceitos básicos da álgebra linear (veja mais adiante neste curso).

Figura 4 Gráficos por tipo de aresta e suas matrizes de adjacência.
Uma rede com arestas não direcionadas e não ponderadas será representada por uma matriz simétrica contendo apenas
os valores 1 e 0 para representar a presença e ausência de conexões, respectivamente.
Redes direcionadas e ponderadas podem fazer uso de diferentes valores numéricos na matriz para expressar esses
relacionamentos mais complexos. O sinal dos valores, por exemplo, às vezes é usado para indicar estímulo ou inibição.
Teoria dos grafos: topologia de rede
Os gráficos têm algumas propriedades que são muito úteis ao desvendar as informações que eles contêm. É importante
perceber que o objetivo de qualquer tipo de análise de rede é trabalhar com a complexidade da rede para extrair
informações significativas que você não teria se os componentes individuais fossem examinados separadamente.
As propriedades de rede e, em particular , as propriedades topológicas , podem nos ajudar a identificar subestruturas
relevantes em uma rede.
Topologia é a maneira pela qual os nós e as arestas são organizados em uma rede. As propriedades topológicas podem
ser aplicadas à rede como um todo ou a nós e arestas individuais. Algumas das propriedades e conceitos topológicos
mais utilizados são:

As fontes de dados subjacentes às redes biológicas
É importante enfatizar que desafios significativos surgem não apenas do tamanho do conjunto de dados usado, mas
também devido ao fato de que os conjuntos de dados biológicos são inerentemente barulhentos e
incompletos. Freqüentemente, diferentes tipos de evidência não se sobrepõem ou serão contraditórios. A maneira como
os dados foram obtidos é um aspecto importante a ser considerado aqui, com as informações normalmente provenientes
das seguintes fontes:
Curadoria manual da literatura científica : curadores científicos ou especialistas em domínio avaliam as evidências
publicadas existentes e as armazenam em um banco de dados. Isso fornece informações de alta qualidade e bem
representadas, mas a curadoria é uma tarefa cara e demorada, e o tamanho dos conjuntos de dados é limitado por esses
fatores.
Conjuntos de dados de alto rendimento: algumas abordagens experimentais podem gerar grandes quantidades de
dados, como conjuntos de dados PPI em larga escala gerados por meio de levedura de dois híbridos ou purificação por
afinidade, além de identificação por espectrometria de massa. Eles fornecem conjuntos de dados grandes e produzidos
sistematicamente, mas as informações sofrem os preconceitosinerentes à técnica escolhida e variam em qualidade.
Previsões computacionais: Muitos métodos usam as evidências experimentais existentes como base e visam prever
relações inexploradas entre entidades biológicas. Por exemplo, as interações proteicas em humanos podem ser usadas
para prever interações semelhantes em camundongos se houver ortólogos próximos o suficiente neste organismo. Eles
fornecem uma ferramenta para ampliar e até refinar o espaço das interações derivadas experimentalmente, mas os
conjuntos de dados produzidos são compreensivelmente mais barulhentos do que com as fontes anteriores.
Mineração de texto da literatura: Vários algoritmos são usados para extrair computacionalmente relacionamentos
representados sistematicamente da literatura publicada. Como no caso anterior, embora eles possam aumentar bastante
a cobertura dos dados, o processamento de linguagem natural é um negócio complicado e os resultados tendem a ser
bastante barulhentos.
A importância das interações moleculares
As interações moleculares são importantes para os biólogos moleculares porque:
1. Eles nos ajudam a entender a função e o comportamento de uma proteína (Figura 2).
https://www.ebi.ac.uk/training/online/glossary/natural-language-processing
2. Eles podem nos ajudar a prever os processos biológicos nos quais uma proteína de função desconhecida está
envolvida:
Podemos assumir "culpa por associação" se uma proteína de função desconhecida se associa a uma de função
conhecida
As proteínas envolvidas no mesmo processo devem se agrupar em mapas de rede
3. Eles podem nos ajudar a caracterizar complexos e vias de proteínas; as redes de interação podem ser usadas como um
rascunho 'mapa' para adicionar detalhes aos processos e caminhos biológicos.

Figura 2. Contrariamente à crença original de que uma proteína tinha uma única função, as proteínas têm funções e
papéis celulares diferentes, dependendo de seu ambiente imediato, o que afeta sua posição nas redes de proteínas.
Redes de interação proteína-proteína
As interações proteína-proteína (IBPs) são essenciais para quase todos os processos em uma célula, portanto, entender
os IBPs é crucial para entender a fisiologia celular nos estados normal e da doença. Também é essencial no
desenvolvimento de medicamentos, uma vez que os medicamentos podem afetar os IBPs. As redes de interação
proteína-proteína (PPIN) são representações matemáticas dos contatos físicos entre proteínas na célula. Esses
contatos:
• são específicos;
• ocorrer entre regiões de ligação definidas nas proteínas; e
• têm um significado biológico específico (isto é, eles servem para uma função específica).
As informações de PPI podem representar interações transitórias e estáveis:
• Interações estáveis são formadas em complexos de proteínas (por exemplo, ribossomo, hemoglobina).
• Interações transitórias são breves interações que modificam ou transportam uma proteína, levando a alterações
adicionais (por exemplo, proteínas cinases, importinas de poros nucleares). Eles constituem a parte mais
dinâmica do interactoma.
O conhecimento dos PPIs pode ser usado para:
• atribuir papéis putativos a proteínas não caracterizadas;
• adicione detalhes refinados sobre as etapas em um caminho de sinalização; ou
• caracterizar as relações entre proteínas que formam complexos multi-moleculares, como o proteassoma.
O interatoma
O interatoma é a totalidade dos IBPs que ocorrem em uma célula, organismo ou contexto biológico específico. O
desenvolvimento de técnicas de triagem de PPI em larga escala, especialmente a purificação por afinidade de alto
rendimento combinada com espectrometria de massa e o ensaio de dois híbridos de levedura, causou uma explosão na
quantidade de dados de PPI e na construção de intertomesmas cada vez mais complexos e completos ( Figura 16). Essa
evidência experimental é complementada pela disponibilidade de algoritmos de previsão de PPI. Muitas dessas
informações estão disponíveis em bancos de dados de interação molecular, como o IntAct .

Figura 16 Interatossomas de levedura (esquerda) e humanos (direita) obtidos usando o método híbrido de levedura-
dois. Imagens reproduzidas com permissão da Macmillan Publishers Ltd: Jeong et al. Nature 2001. 411 ( 3 ) e Rual et
al. Nature 2005: 437 ( 4 ).
É importante enfatizar mais uma vez as limitações dos dados de PPI disponíveis. Nosso conhecimento atual do
intertomoma é incompleto e barulhento . Os métodos de detecção de PPI têm limitações em relação a quantas
interações fisiológicas reais eles podem detectar e todos encontram falsos positivos e negativos.
Propriedades dos PPINs: pequeno efeito mundial
As redes de interação proteína-proteína mostram um pequeno efeito mundial, o que significa que há uma grande
conectividade entre proteínas (Figura 17). Em outras palavras, pode-se dizer que o diâmetro da rede (o número máximo
de etapas que separam dois nós) é pequeno, não importa o tamanho da rede. Isso geralmente significa que quaisquer
dois nós são separados por menos de seis etapas, mais ou menos, refletindo a agora popularmente
popularizada teoria dos " seis graus de separação " usada nas ciências sociais.

Figura 17 O pequeno efeito mundial.
Esse nível de conectividade tem importantes consequências biológicas, pois permite um fluxo eficiente e rápido de
sinais dentro da rede. No entanto, também coloca uma questão interessante: se a rede está tão fortemente conectada, por
que as perturbações em um único gene ou proteína não têm consequências dramáticas para a rede?
Os sistemas biológicos são extremamente robustos e podem lidar com uma quantidade relativamente alta de
perturbações em genes / proteínas únicos. Para explicar como isso pode acontecer, precisamos dar uma olhada em outra
propriedade fundamental dos PPINs: são redes sem escala.
Propriedades de PPINs: redes sem escala
https://www.ebi.ac.uk/intact
https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-introduction/references
https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-introduction/references
https://en.wikipedia.org/wiki/Six_degrees_of_separation
https://en.wikipedia.org/wiki/Six_degrees_of_separation
As redes de interação proteína-proteína são redes sem escala (Figura 18A). A maioria dos nós (proteínas) em redes sem
escala tem apenas algumas conexões com outros nós, enquanto alguns nós (hubs) estão conectados a muitos outros nós
na rede.

Figura 18 Um exemplo de rede sem escala (A). A distribuição típica de graus de uma rede sem escala (B).
O número de conexões que cada nó possui é chamado de grau. Se representarmos a distribuição de graus de uma rede
sem escala em uma escala logarítmica, podemos ver como ela se encaixa em uma linha (eles se encaixam em uma lei
de potência), tendo um pequeno número de nós com alto grau (os hubs) e um grande número de nós com um baixo grau
(Figura 18B).
Redes sem escala podem ser construídas de acordo com o modelo preferencial de anexos , também conhecido como
princípio dos 'ricos ficam mais ricos'. Esse princípio simplesmente declara que redes sem escala podem ser construídas
adicionando arestas preferencialmente conectadas aos nós com o mais alto grau ( 5 ). Esse princípio de construção
fornece um mecanismo auto-organizado para a geração e expansão desse tipo de rede.
A natureza sem escala das redes de interação proteína-proteína fornece-lhes uma série de características importantes:
• Estabilidade
• Se as falhas ocorrerem aleatoriamente, e a grande maioria das proteínas são aquelas com um pequeno grau de
conectividade, a probabilidade de um hub ser afetado é pequena.
• Se ocorrer uma falha no hub, a rede geralmente não perderá a conexão devido aos hubs restantes.
• Invariável a mudanças de escala
• Não importa quantos nós ou arestas a rede possui, suas propriedades permanecem estáveis.
• A presençade hubs é o que permite que o efeito do mundo pequeno esteja presente, independentemente do
tamanho da rede.
• Vulnerável a ataques direcionados
• Se perdermos alguns hubs importantes da rede, a rede será transformada em um conjunto de gráficos bastante
isolados.
• Os hubs são enriquecidos com genes essenciais / letais. Por exemplo, muitas proteínas ligadas ao câncer são
proteínas centrais (por exemplo, a proteína supressora de tumor p53).
É importante observar que, dados os atuais níveis limitados de cobertura e a qualidade variável dos dados de interação,
a topologia observada sem escala das redes de interação proteína-proteína existentes não pode ser extrapolada com
segurança para concluir os interomassomas. De fato, alguns trabalhos têm questionado até que ponto as redes biológicas
se encaixam na distribuição da lei de energia sem escala ( 6 ).
Propriedades dos PPINs: transitividade
Outra característica crucial dos PPINs é sua modularidade. O coeficiente de transitividade ou clustering de uma rede
é uma medida da tendência dos nós de se agruparem. Alta transitividade significa que a rede contém comunidades ou
grupos de nós densamente conectados internamente. Seguindo uma analogia das ciências sociais, "os amigos dos meus
https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-introduction/references
https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-introduction/references
amigos são meus amigos". Nas redes biológicas, encontrar essas comunidades é muito importante, pois elas podem
refletir módulos funcionais e complexos de proteínas (Figura 19).

Figura 19 Clusters topológicos que refletem a função biológica. Os aglomerados são destacados nos quadrados de
linhas tracejadas: I - Máquinas proteasomais; II - agrupamento de proteínas relacionadas à tradução, contendo várias
proteínas ribossômicas; III - cluster relacionado à produção de energia, contendo várias ATPases mitocondriais. Imagem
reproduzida com permissão dos autores de Hsia et al. Int J Mol. Sci. 2015: 16. ( 7 ).
Um módulo é uma unidade funcional intercambiável. Eles são componentes independentes de um sistema com
interfaces bem definidas com outros componentes. O recurso definidor de um módulo é que suas propriedades
funcionais intrínsecas não mudam quando ele é colocado em um contexto diferente. Os módulos ajudam a reduzir a
complexidade das redes biológicas, fornecendo um conjunto de unidades funcionais e redutíveis que podem ser
estudadas como uma entidade integrada. O estudo topológico de PPINs pode ajudar a detectar e definir esses módulos.
Os complexos proteicos podem ser considerados um tipo de módulo no qual as proteínas estão interagindo entre si de
maneira estável, mantendo uma configuração mais ou menos fixa no tempo e no espaço. Eles representam máquinas
multiproteínas com funções específicas. Um tipo mais amplo de módulo funcional não requer que as proteínas sejam
ligadas de forma estável uma à outra, desde que suas propriedades funcionais intrínsecas não mudem quando colocadas
em outro contexto.
O estudo de módulos também é útil na definição de interações e proteínas intermodulares . Esses são os limites / nós
que vinculam diferentes comunidades em uma rede. Eles podem atuar como comutadores ou moduladores de alto nível
que, por exemplo, mediam a conversa cruzada entre diferentes complexos ou caminhos.
Falaremos mais detalhadamente sobre a pesquisa de módulos em PPINs em uma seção adicional. Agora vamos falar
sobre as principais estratégias que podem ser usadas para analisar PPINs.
Construindo e analisando PPINs
Agora que sabemos um pouco sobre a teoria dos grafos e as redes de interação proteína-proteína, podemos observar as
etapas, estratégias e ferramentas usadas para construir e analisar essas redes (Figura 20).
https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-introduction/references

Figura 20 Um fluxo de trabalho potencial para criar e analisar redes de interação proteína-proteína.
Primeiro, apresentaremos brevemente vários pacotes de software ou métodos programáticos usados para construir e
analisar redes. A seguir, falamos sobre fontes das quais você pode obter dados PPI e discutimos várias maneiras de
analisar os dados, dos quais a análise topológica das centralidades e as abordagens de busca da comunidade são
estratégias comuns. Finalmente, examinamos maneiras pelas quais dados adicionais podem ser adicionados para
entender o contexto biológico da rede.
Ferramentas de representação e análise de rede
Existem várias ferramentas que podem ser usadas para obter, integrar e analisar dados de PPI para entender seu contexto
biológico. Vamos dar uma breve olhada em alguns deles.
Cytoscape
O Cytoscape é uma das ferramentas de análise de rede mais populares. É um aplicativo de desktop multiplataforma
baseado em Java e de código aberto amplamente utilizado para representação, integração e análise de rede. Foi
originalmente projetado para a análise de redes biológicas, que permanece como sua principal aplicação, mas também
pode ser usado para análises de redes de uso geral.

Figura 21 O Cytoscape é uma ferramenta popular para análise de rede.
Vantagens
Aplicativos Cytoscape
• Uma das principais razões para sua popularidade é a grande variedade de aplicativos (quase 300 na época em
que escrevemos este curso) que fornecem funcionalidade específica e adicional à distribuição principal do
Cytoscape. Isso fornece grande flexibilidade, tornando a ferramenta adaptável a vários tipos de análise em
vários domínios do conhecimento.
• Para análise de rede PPI existem aplicativos específicos para a pesquisa da comunidade, (por
exemplo MCODE , clusterMaker2 , JActiveModules ) ou para realizar Gene Set Enriquecimento Análise
( bingo , ClueGO , EnrichmentMap ).
• Alguns aplicativos Cytoscape funcionam apenas com uma versão específica da distribuição principal do
Cytoscape. É importante verificar se você possui a versão correta para o tipo de análise que precisa executar.
http://www.cytoscape.org/
http://apps.cytoscape.org/apps/mcode
http://apps.cytoscape.org/apps/clustermaker2
http://apps.cytoscape.org/apps/jactivemodules
http://apps.cytoscape.org/apps/bingo
http://apps.cytoscape.org/apps/cluego
http://apps.cytoscape.org/apps/enrichmentmap
http://www.cytoscape.org/
Automação
• As tarefas do Cytoscape podem ser automatizadas por meio de argumentos da linha de comando, embora o
número de recursos que você possa acessar dessa maneira ainda seja limitado.
Limitações
• É bastante exigente em termos de recursos de computação quando se trata de redes de grande escala e atinge
um limite do que pode suportar quando as redes se tornam muito grandes (centenas de milhares de nós e arestas).
Opções não programáticas para redes grandes
Uma opção não programática para lidar com grandes redes é o Gephi . O Gephi é capaz de lidar com centenas de
milhares de nós e milhões de bordas, embora o processamento e o desenho especialmente de tais redes exijam uma
enorme capacidade de computação.

Figura 22 Gephi é uma ferramenta não programática para analisar grandes redes.
Os benefícios do Gephi são que ele é de código aberto, multiplataforma e possui uma ampla variedade de algoritmos
avançados relacionados à rede (geralmente não encontrados em nenhum outro lugar) na forma de plugins. A única
desvantagem é a falta de capacidade para processar informações especificamente biológicas. É uma ferramenta geral de
rede e deve ser tratada como tal e usada para enumeração, estatística e visualização.
Soluções programáticas
As soluções programáticas para análise de rede em larga escala incluem pacotes como igraph (para R, Python e C)
ou NetworkX (para Python). Estes são pacotes de scripts que têm uma demanda muito menor nos recursos do
computador e são mais acessíveis para tarefasautomatizadas. Isso significa que eles podem ser facilmente
implementados como parte de dutos maiores de análise de bioinformática. Por exemplo, a implementação R do igraph
é frequentemente usada em conjunto com outros pacotes de bioestatística disponíveis por meio dessa linguagem.

Figura 23 igraph e NetworkX são soluções programáticas para análise de rede em larga escala.
Fontes de dados PPI
O primeiro passo na realização da análise PPIN é, obviamente, construir uma rede. Existem diferentes fontes de dados
PPI (Figura 24) que podem ser usadas para fazer isso e é importante estar ciente de suas vantagens e desvantagens.
Essencialmente, você pode obter dados PPI em:
• Seu próprio trabalho experimental, onde você pode escolher como os dados são representados e armazenados.
http://gephi.org/
http://igraph.org/
http://networkx.github.io/
https://gephi.org/
http://igraph.org/
https://networkx.github.io/
• Um banco de dados PPI primário. Esses bancos de dados extraem os IBPs das evidências experimentais relatadas na
literatura usando um processo de curadoria manual. Eles são os principais fornecedores de dados PPI e podem
representar muitos detalhes sobre interações, dependendo do banco de dados.
• Um metadatabase ou um banco de dados preditivo. Esses recursos reúnem as informações fornecidas por diferentes
bancos de dados primários e fornecem uma representação unificada dos dados para o usuário. Os bancos de dados
preditivos vão além disso e usam os conjuntos de dados produzidos experimentalmente para prever computacionalmente
interações em áreas inexploradas do intertomoma . Os bancos de dados preditivos fornecem uma maneira de ampliar ou
refinar o espaço das interações derivadas experimentalmente, mas os conjuntos de dados produzidos são mais
barulhentos que os de outras fontes.

Figura 24 Fontes de dados de PPI e desafios ao criar um PPIN.
Muitas vezes, será necessário integrar dados PPI de várias fontes, pois nenhum banco de dados tem uma representação
completa de todas as evidências de PPI disponíveis. Isso cria alguns desafios interessantes porque bancos de dados
diferentes usam identificadores diferentes e contêm tipos diferentes de dados.
Para evitar redundâncias e inconsistências, é importante entender as diferenças entre os diferentes bancos de dados em
termos de:
i) O tipo de dados e metadados que eles incluem. Por exemplo, alguns bancos de dados fornecerão apenas dados
derivados experimentalmente e outros também incluirão previsões. Da mesma forma, o nível de detalhe fornecido sobre
a configuração experimental varia entre os bancos de dados.
ii) Os identificadores usados pelo banco de dados. Bancos de dados diferentes fazem escolhas diferentes nesse sentido;
portanto, às vezes você pode precisar mapear tipos diferentes de identificadores para integração de dados.
A criação do consórcio IMEx , reforçando o uso de padrões comuns de representação e modelos de curadoria, foi um
passo importante para solucionar problemas de redundância e inconsistência. Visite o site da IMEx para saber mais.
Avaliando a confiabilidade e medindo a confiança
Uma preocupação importante na análise de rede é se a rede de interação pode ser confiável para representar uma
interação biológica "real". Dado o ruído inerente às informações interativas, é importante ser rigoroso ao avaliar os
dados de interação proteína-proteína que usamos em nossa análise. É importante levar em consideração que a cobertura
interativa também é incompleta e irregular, portanto nem sempre temos o luxo de filtrar evidências menos confiáveis.
Existem muitos métodos diferentes para determinar a confiabilidade e fornecer uma medida de confiança. Algumas
estratégias fazem uso de:
• Informação biológica contextual relativa às proteínas ou moléculas envolvidas na interação. Por exemplo,
sobreposição de padrões de co-expressão ( 8 , 9 ).
https://www.ebi.ac.uk/training/online/glossary/interactome
https://www.ebi.ac.uk/training/online/glossary/metadata
https://www.ebi.ac.uk/training/online/glossary/imex
http://www.imexconsortium.org/about-imex
http://www.imexconsortium.org/about-imex
https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-introduction/references
https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-introduction/references
• Conte quantas vezes uma determinada interação foi relatada na literatura , como uma medida de validação
ortogonal experimental. Essa é uma abordagem popular e direta e há variações mais elaboradas dessa estratégia, como
o MIscore (consulte o texto em caixa).
• Métodos agregados que usam várias estratégias diferentes e as integram em uma única pontuação,
como INTscore ( 10 ).
O método MIscore
O MIscore é um método para avaliar a confiabilidade dos dados de interação proteína-proteína com base no uso de
padrões ( 11 ). O MIscore fornece uma estimativa do peso da confiança em todas as evidências disponíveis para um par
de proteínas em interação. O método permite ponderar as evidências fornecidas por diferentes fontes, desde que os dados
sejam representados seguindo os padrões criados pelo consórcio IMEx.
Conforme mostrado na Figura 25, o método pondera:
• número de publicações;
• método de detecção;
• tipo de evidência de interação.
Diferentes métodos de detecção de interação e tipos de interação têm pesos diferentes, atribuídos por um grupo de
curadores especializados. Esses parâmetros são agregados para cada par de interação e depois normalizados, fornecendo
uma medida quantitativa de quanta evidência experimental existe por trás de uma determinada interação.

Figura 25 A pontuação normalizada do MIscore calcula uma pontuação composta para uma interação com base no
número de publicações que relatam a interação, nos métodos de detecção de interação relatados e nos tipos de
interação. Reproduzido de Villaveces et al. Mesclando e pontuando interações moleculares utilizando os padrões da
comunidade existentes: ferramentas, casos de uso e um estudo de caso. Database (Oxford), 2015 ( 11 ). Com permissão
da Oxford University Press.
Análise topológica de PPIN
Analisar os recursos topológicos de uma rede é uma maneira útil de identificar participantes e subestruturas relevantes
que podem ter significado biológico. Existem muitas estratégias diferentes que podem ser usadas para fazer isso (Figura
26). Nesta seção, focaremos na análise de centralidade e no agrupamento topológico , embora existam outras
estratégias, como a busca por caminhos mais curtos ou motivos que são mais frequentemente aplicados a redes com
direcionalidade e não serão abordados aqui.
http://intscore.molgen.mpg.de/
https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-introduction/references
https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-introduction/references
https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-introduction/references

Figura 26 Estratégias comuns de análise estrutural para PPINs.
Análise de centralidade
A centralidade faz uma estimativa da importância de um nó ou borda para a conectividade ou o fluxo de informações
da rede (Figura 27). É um parâmetro útil nas redes de sinalização e é frequentemente usado ao tentar encontrar alvos de
drogas.
A análise de centralidade nos PPINs geralmente visa responder à seguinte pergunta:
Qual proteína é a mais importante e por quê?
A centralidade da borda também pode ser analisada, mas isso é menos comum e os conceitos podem ser facilmente
traduzidos a partir das centralidades baseadas em nós, portanto, focaremos o último nesta seção.

Figura 27 Centralidade do nó representada em uma rede. Nós maiores e mais vermelhos têm valores de centralidade
mais altos nessa representação.
A definição de 'central' varia de acordo com o contexto ou o objetivo denossa análise. A centralidade pode ser medida
usando diferentes métricas e critérios:
• Grau dos nós
O grau dos nós pode ser usado como uma estimativa aproximada da centralidade. Como vimos anteriormente, os nós
com um alto grau (hubs) são essenciais para manter algumas características de redes sem escala, como sua robustez e o
efeito do mundo pequeno. No entanto, essa é uma medida local , pois não leva em consideração o restante da rede e a
importância que damos a seu valor depende fortemente do tamanho da rede.
• Medidas de centralidade global
As medidas de centralidade global levam em consideração toda a rede. São medidas relativas que fornecem um valor
normalizado, independente do tamanho da rede. Existem muitos tipos diferentes de medidas de centralidade global, cada
uma abordando uma definição ligeiramente diferente de centralidade. Duas das medidas de centralidade global mais
amplamente usadas são as centralidades de proximidade e de interatividade , que abordaremos em mais detalhes nas
seções a seguir.
• Outras medidas de centralidade
Medidas mais complexas de centralidade podem ser definidas dependendo do método específico usado para calculá-
la. Por exemplo, as centralidades são frequentemente calculadas usando 'passeios aleatórios', onde nós aleatórios são
escolhidos como ponto de partida e o 'tempo' ou 'velocidade' necessário para alcançar outros nós na rede é calculado. Isso
pode ser combinado com os pesos atribuídos aos nós ou arestas no gráfico para influenciar o cálculo da centralidade
derivado de outros recursos. Esse é o método usado pelo algoritmo do Google PageRank para atribuir peso a cada página
da Web ( 12 ).
Centralidade de proximidade
A centralidade da proximidade é uma medida útil que estima a rapidez com que o fluxo de informações seria através
de um determinado nó para outros nós.
A centralidade de proximidade mede quão curtos os caminhos mais curtos são do nó i para todos os nós. É geralmente
expresso como o inverso normalizado da soma das distâncias topológicas no gráfico (veja a equação no topo da Figura
28). Essa soma também é conhecida como farness dos nós. Às vezes, a centralidade da proximidade também é expressa
simplesmente como a inversidade da farsa ( 13 , 14 ). No exemplo mostrado na metade inferior da figura, você pode ver
a matriz de distâncias do gráfico à esquerda e os cálculos para obter a centralidade da proximidade à direita. O nó B é o
nó mais central de acordo com esses parâmetros.

Figura 28 Calculando a centralidade de proximidade dos nós em um gráfico.
Centralidade de intermediação
A centralidade de intermediação é baseada no fluxo de comunicação. Os nós com uma alta centralidade entre os
pontos de interesse são interessantes porque estão nos caminhos de comunicação e podem controlar o fluxo de
informações. Esses nós podem representar proteínas importantes nas vias de sinalização e podem formar alvos para a
descoberta de medicamentos. Combinando esses dados com a análise de interferência, podemos simular ataques
https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-introduction/references
https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-introduction/references
https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-introduction/references
direcionados a redes de interação proteína-proteína e prever quais proteínas são melhores candidatas a medicamentos,
por exemplo, ver Yu, et al. 2007 ( 15 ).
O cálculo da centralidade de intermediação não é padronizado e há muitas maneiras de resolvê-lo. É basicamente
definido como o número de caminhos mais curtos no gráfico que passa pelo nó dividido pelo número total de caminhos
mais curtos.
A centralidade de intermediação mede a frequência com que um nó ocorre em todos os caminhos mais curtos entre dois
nós. Portanto, a intermediação de um nó N é calculada considerando pares de nós ( v1, v2 ) e contando o número de
caminhos mais curtos que vinculam esses dois nós, que passam pelo nó N. Em seguida, o valor está relacionado ao
número total de caminhos mais curtos vinculados v1 e v2 .

Figura 29 Centralidade de intermediação.
Para dar um exemplo mais intuitiva, no gráfico da Figura 29, cada nó B ou nó C pode ser removido e ainda haverá
caminhos que levam ao nó E . Nó D , no entanto, é bastante central, uma vez que é necessário para qualquer caminho
que conduz ao nó E . Você pode pensar neste gráfico como um mapa da cidade e nossa análise nos diz que D é a
encruzilhada na qual é mais provável que haja engarrafamentos. De fato, a centralidade da intermediação pode ser usada
no planejamento da cidade e existem estudos com o objetivo de otimizar o transporte urbano com base nessa métrica e
em métricas relacionadas ( 16 ).
Análise de agrupamento
Procurar comunidades em uma rede é uma boa estratégia para reduzir a complexidade da rede e extrair módulos
funcionais (por exemplo, complexos de proteínas) que refletem a biologia da rede. Existem vários termos que são
comumente usados ao falar sobre análise de clustering (Figura 30):

https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-introduction/references
https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-introduction/references
Figura 30 Alguns conceitos na análise da comunidade de rede. (As comunidades de rede figuram no Wikimedia
commons por j_ham3 e são usadas sob a licença Creative Commons Attribution-Share Alike 3.0 Unported. Estrutura
3D da hemoglobina do PDBe e diagrama complexo do IntAct ).
Comunidade / Cluster
Um termo geral abrangente que pode ser definido como um grupo de nós que estão mais conectados entre si do que com
o restante da rede. A definição precisa de uma comunidade dependerá do método ou algoritmo usado para defini-la. Ao
falar sobre PPINs, as comunidades se enquadram em duas categorias: módulos funcionais e complexos de proteínas.
Módulo
Em biologia, os módulos são unidades funcionais permutáveis nas quais os nós (proteínas) não precisam interagir no
mesmo tempo ou espaço. A característica mais importante de um módulo é que suas propriedades funcionais intrínsecas
não mudam quando ele é colocado em um contexto diferente.
Complexo
Um complexo é um grupo de proteínas que interagem entre si ao mesmo tempo e no mesmo espaço, formando máquinas
multiproteínas relativamente estáveis. Você pode usar o Portal complexo para explorar complexos macromoleculares
conhecidos em vários organismos modelo.
Clique
Um subconjunto de nós no qual todos os nós estão conectados a todos os outros membros da clique. Uma clique máxima
é uma clique que não pode ser estendida adicionando um nó adicional não incluído anteriormente na clique. Existem
vários tipos diferentes de panelinhas e elas podem ser usadas como base de algoritmos que usam critérios topológicos
para procurar comunidades.
Motivo
Motivos são subgráficos estatisticamente super-representados em uma rede. Eles correspondem a um padrão de
conexões que gera uma resposta dinâmica característica (por exemplo, um loop de feedback negativo). Eles são menos
importantes para o tipo de redes às quais este tutorial é dedicado, mas são bastante úteis em redes direcionadas.
Ao explorar um PPIN para clusters, o objetivo geralmente é encontrar módulos funcionais ou complexos de proteínas
que executam funções biológicas definidas. Existem muitos métodos diferentes que podem nos ajudar a encontrar
clusters e apresentaremos brevemente alguns deles nesta seção.
Métodos de análise de agrupamento I
Nesta seção, focaremos nos métodos que usam exclusivamente a topologia da rede para encontrar componentes
intimamente conectados. Isso é geralmente conhecido na teoria dos grafos como 'métodos de detecção da
comunidade'. Nenhuma suposição é feita sobre a estrutura interna dessascomunidades, estamos apenas olhando para
regiões de alta densidade.
É importante observar que encontrar a melhor estrutura da comunidade é algoritmicamente extremamente complexo e
só é possível para redes muito pequenas. Por esse motivo, muitos métodos de aproximação, geralmente abordando
diferentes cenários, foram desenvolvidos. Há muitos para cobrir neste curso. Alguns exemplos incluem:
• Método de percolação por clique
• Algoritmo de cluster de Markov (MCL)
• Fuzzy C-Means
• Propagação de afinidade
• Sussurros chineses em cluster
• Cluster de Propagação de Etiquetas
https://commons.wikimedia.org/w/index.php?curid=17125894
https://commons.wikimedia.org/w/index.php?curid=17125894
https://www.ebi.ac.uk/pdbe/entry/pdb/2dn1
https://www.ebi.ac.uk/intact/complex/details/EBI-9008420
https://www.ebi.ac.uk/intact/complex/
https://en.wikipedia.org/wiki/Clique_percolation_method
http://micans.org/mcl/
https://en.wikipedia.org/wiki/Fuzzy_clustering#Fuzzy_C-means_Clustering
https://en.wikipedia.org/wiki/Affinity_propagation
https://en.wikipedia.org/wiki/Chinese_Whispers_(clustering_method)
https://en.wikipedia.org/wiki/Label_Propagation_Algorithm
Método de percolação de clique
O método de percolação por clique [1] é uma abordagem popular para analisar a sobreposição
da estrutura da comunidade de redes . O termo comunidade de rede (também chamado de módulo, cluster ou grupo
coeso) não possui uma definição exclusiva amplamente aceita e geralmente é definido como um grupo de nós que são
mais densamente conectados entre si do que com outros nós da rede. Existem inúmeros métodos alternativos para
detectar comunidades em redes, [2] por exemplo, o algoritmo Girvan-Newman , cluster hierárquico e maximização
da modularidade .
Método de Percolação de Clique (CPM)
O método de percolação por clique constrói as comunidades a partir de k -cliques , que correspondem
a subgráficos completos (totalmente conectados) de k nós. (Por exemplo, uma k -clique em k = 3 é equivalente a um
triângulo). Duas k- clínicas são consideradas adjacentes se compartilharem nós k -1. Uma comunidade é definida como
a união máxima de k- panel que pode ser alcançada entre si através de uma série de k- panel adjacentes . Tais
comunidades podem ser melhor interpretadas com a ajuda de um modelo da classe k (um objeto isomórfico para um
gráfico completo de k nós). Esse modelo pode ser colocado em qualquerk -clique no gráfico e rolou para uma k -
clique adjacente realocando um de seus nós e mantendo seus outros nós k -1 fixos. Assim, as comunidades k -clique de
uma rede são todos os subgráficos que podem ser totalmente explorados rolando um modelo k -clique neles, mas não
podem ser deixados por esse modelo.
Essa definição permite sobreposições entre as comunidades de uma maneira natural, como ilustrado na Fig.1, mostrando
quatro comunidades de k -ique em k = 4. As comunidades são codificadas por cores e a sobreposição entre elas é
enfatizada em vermelho. A definição acima também é local: se um determinado subgráfico atender aos critérios a serem
considerados como uma comunidade, ele permanecerá uma comunidade independente do que acontece com outra parte
da rede distante. Por outro lado, ao procurar as comunidades otimizando em relação a uma quantidade global, uma
mudança distante na rede também pode remodelar as comunidades nas regiões imperturbadas. Além disso, foi
demonstrado que métodos globais podem sofrer de um problema de limite de resolução, [3]onde o tamanho da menor
comunidade que pode ser extraída depende do tamanho do sistema. Uma definição da comunidade local, como aqui,
contorna esse problema automaticamente.
Como até mesmo redes pequenas podem conter um grande número de k -cliques, a implementação dessa abordagem
baseia-se na localização de todos os cliques máximos, em vez dos k -cliques individuais . [1] Isso inevitavelmente requer
encontrar a camarilha máxima do gráfico , que é um problema difícil de NP . (Enfatizamos ao leitor que encontrar uma
clique máxima é muito mais difícil do que encontrar uma única clique máxima.) Isso significa que, embora redes com
poucos milhões de nós já tenham sido analisados com êxito com essa abordagem, [4] a pior complexidade de tempo de
execução é exponencial. no número de nós.

Figura 1. Ilustração dos k comunidades -clique em k = 4.
Método de Percolação Dirigida por Clique (CPMd)
Em uma rede com ligações dirigidas uma dirigido k -clique é um subgráfico completa com k nós cumprindo a seguinte
condição. Os nós k podem ser ordenados de forma que, entre um par arbitrário deles, exista um link direcionado
apontando do nó com a classificação mais alta para o nó com a classificação mais baixa. O método de percolação
direcionada por clique define as comunidades de rede direcionadas como os clusters de percolação
de k- cliques direcionadas .
https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-cpm_nature-1
https://en.wikipedia.org/wiki/Community_structure
https://en.wikipedia.org/wiki/Community_structure
https://en.wikipedia.org/wiki/Social_network
https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-2
https://en.wikipedia.org/wiki/Girvan%E2%80%93Newman_algorithm
https://en.wikipedia.org/wiki/Hierarchical_clustering
https://en.wikipedia.org/wiki/Modularity_(networks)
https://en.wikipedia.org/wiki/Clique_(graph_theory)
https://en.wikipedia.org/wiki/Clique_(graph_theory)
https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-3
https://en.wikipedia.org/wiki/Clique_(graph_theory)
https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-cpm_nature-1
https://en.wikipedia.org/wiki/NP-hardness
https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-com_evolv-4
https://en.wikipedia.org/wiki/File:Illustration_of_overlapping_communities.svg
Método de percolação ponderada por clique (CPMw)
Em uma rede com ligações ponderados um ponderada k -clique é um subgráfico completa com k nós de modo a que
a média geométrica do k ( k - 1) / 2 pesos de ligação dentro do k -clique é maior do que um valor limite
seleccionado, eu . O método de percolação ponderada por clique define comunidades de rede ponderadas como os
clusters de percolação de k- cliques ponderadas . Observe que a média geométrica dos pesos dos links dentro de um
subgráfico é chamada de intensidade desse subgráfico. [5]
Clique em Generalizações de gráfico
Os métodos de percolação por clique podem ser generalizados, registrando-se diferentes quantidades de sobreposição
entre as várias k- clínicas. Isso então define um novo tipo de gráfico, um gráfico de clique , [6] onde cada k -ique no
gráfico original é representada por um vértice no novo gráfico de clique. As arestas no gráfico de clique são usadas para
registrar a força da sobreposição de cliques no gráfico original. Pode-se então aplicar qualquer método de detecção de
comunidade a esse gráfico de clique para identificar os clusters no gráfico original por meio da estrutura k -clique.
Por exemplo, em um gráfico simples, podemos definir a sobreposição entre duas k -cliques para ser o número de vértices
comuns a ambas as k -cliques. O método de percolação de clique é equivalente a limitar esse gráfico de clique,
diminuindo todas as arestas com peso menor que (k-1), com os demais componentes conectados formando as
comunidades de panelinhas encontradas no CPM. Para k = 2, as cliques são as arestas do gráfico original e, neste caso,
o gráfico de clique é o gráfico de linhas da rede original.
Na prática, o uso do número de vértices comuns como uma medida da força da sobreposição de clique pode gerar
resultados ruins, pois grandes panelinhas no gráfico original, aquelas com muito mais que k vértices, dominam o gráfico
de clique. O problema surge porque, se um vértice estiver em n- k k diferentes, ele contribuirá para n (n-1) / 2 arestas
em um gráfico de clique. Uma solução simples é permitir que cada vértice sejacomum a duas k cliques sobrepostas para
contribuir com um peso igual a 1 / n ao medir a força de sobreposição das duas k- cliques.
Em geral, o ponto de vista do gráfico de clique é uma maneira útil de encontrar generalizações dos métodos padrão de
percolação de clique para obter quaisquer problemas redondos encontrados. Ele ainda mostra como descrever extensões
destes métodos baseados em outros motivos , subgráficos diferente k cliques. Nesse caso, um gráfico de clique é melhor
pensado em um exemplo específico de um hipergrafo .
Transição de percolação no CPM
O modelo Erdős – Rényi mostra uma série de transições interessantes quando a probabilidade p de dois nós estarem
conectados é aumentada. Para cada k pode-se encontrar uma certa probabilidade de limiar p c acima da qual as clínicas k
se organizam em uma comunidade gigante. [7] [8] [9] (O tamanho da comunidade gigante é comparável ao tamanho do
sistema, em outras palavras, a comunidade gigante ocupa uma parte finita do sistema mesmo no limite termodinâmico.)
Essa transição é análoga à percolação. transição na física estatística . Um fenômeno semelhante também pode ser
observado em muitas redes reais: se ké grande, apenas as partes mais densamente ligadas são aceitas como comunidades,
portanto, geralmente permanecem pequenas e dispersas. Quando k é reduzido, o número e o tamanho das comunidades
começam a crescer. No entanto, na maioria dos casos, um valor crítico de k pode ser alcançado, abaixo do qual uma
comunidade gigante emerge, obscurecendo os detalhes da estrutura da comunidade, mesclando (e tornando invisível)
muitas comunidades menores.
Aplicações
O método de percolação por clique foi usado para detectar comunidades dos estudos
de metástase do câncer [10] [11] através de várias redes sociais [4] [12] [13] [14] [15] para documentar agrupamentos [16] e redes
econômicas . [17]
Algoritmos e software
Existem várias implementações de percolação de clique. O método de percolação por clique foi implementado e
popularizado pelo software CFinder [1] (freeware para uso não comercial) para detectar e visualizar comunidades
sobrepostas em redes. O programa permite a visualização personalizável e facilita o passeio pelas comunidades
encontradas. O pacote também contém uma versão em linha de comando do programa, adequada para scripts.
https://en.wikipedia.org/wiki/Geometric_mean
https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-5
https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-6
https://en.wikipedia.org/wiki/Community_structure
https://en.wikipedia.org/wiki/Community_structure
https://en.wikipedia.org/wiki/Line_graph
https://en.wikipedia.org/wiki/Line_graph
https://en.wikipedia.org/wiki/Line_graph
https://en.wikipedia.org/wiki/Network_motif
https://en.wikipedia.org/wiki/Hypergraph
https://en.wikipedia.org/wiki/Erd%C5%91s%E2%80%93R%C3%A9nyi_model
https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-7
https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-8
https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-9
https://en.wikipedia.org/wiki/Percolation
https://en.wikipedia.org/wiki/Statistical_physics
https://en.wikipedia.org/wiki/Metastasis
https://en.wikipedia.org/wiki/Metastasis
https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-10
https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-11
https://en.wikipedia.org/wiki/Social_network
https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-com_evolv-4
https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-12
https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-13
https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-14
https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-15
https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-16
https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-17
http://www.cfinder.org/
Uma implementação mais rápida ( disponível sob a GPL) foi implementada por outro grupo. [18] Outro exemplo, que
também é muito rápido em certos contextos, é o algoritmo SCP. [19]
Algoritmos paralelos
Uma versão paralela do método de percolação por clique foi projetada e desenvolvida por S. Mainardi et al. . [20] Ao
explorar as arquiteturas de computação de vários núcleos / processadores de hoje, o método permite a extração
de comunidades do tipo k a partir de redes muito grandes, como a Internet. [21] Os autores divulgaram o código fonte do
método sob a GPL e o disponibilizaram gratuitamente para a comunidade.
MCL - um algoritmo de cluster para gráficos
O algoritmo MCL é a abreviação de Markov Cluster Algorithm , um algoritmo de cluster não supervisionado rápido
e escalável para gráficos (também conhecido como redes ) com base na simulação de fluxo (estocástico) em gráficos. O
algoritmo foi inventado / descoberto por Stijn van Dongen (ou seja, eu ) no Centro de Matemática e Ciência da
Computação (também conhecido como CWI) na Holanda. A tese de doutorado Gráfico de agrupamento por simulação
de fluxo está centrado em torno desse algoritmo, sendo os principais tópicos a teoria matemática por trás dele, sua
posição na análise de cluster e agrupamento de gráficos, questões relativas à escalabilidade, implementação e
benchmarking e critérios de desempenho para o agrupamento de gráficos em geral. O trabalho desta tese foi realizado
sob a supervisão de Jan van Eijck e Michiel Hazewinkel . A tese, relatórios técnicos e pré-impressões podem ser
encontrados nesta seção . Para ter uma idéia rápida de como o MCL opera, considere o fluxo pictórico na parte superior
desta página, ou melhor ainda, dê uma olhada em uma animação do processo MCL .
A interface básica do algoritmo é muito simples - você precisa de apenas uma opção (o sinalizador -I ) para chegar ao
cerne, e para gráficos grandes, você também deve estar ciente do sinalizador -scheme para regular os recursos. A
abordagem padrão é variar o argumento para -I em algum intervalo (executando uma execução de mcl para cada valor)
e analisar a saída de armazenamento em cluster com os outros programas que acompanham o MCL ( consulte os
manuais da mcl ).
Para obter uma descrição completa do algoritmo e do processo MCL , é recomendável ler um dos relatórios técnicos
entre as publicações . Também é possível visualizar uma introdução um pouco mais longa ou uma introdução a algumas
das matemáticas associadas ao MCL .
O MCL foi aplicado em vários domínios diferentes, principalmente em bioinformática. Atualmente, o número de artigos
que citam as principais publicações da MCL é superior a quatro mil. Obtenha uma rápida impressão do Google Scholar
para o artigo de Enright / van Dongen / Ouzounis , minha tese ou um relatório técnico . Também é interessante
o artigo OrthoMCL .
simples
O algoritmo simula o fluxo usando (alternando) duas operações algébricas simples em matrizes. Sua formulação é
simples e elegante. Não há instruções procedimentais de alto nível para montagem, associação ou divisão de grupos - a
estrutura do cluster é iniciada por meio de um processo de fluxo que é inerentemente afetado por qualquer estrutura de
cluster presente.
A primeira operação usada é a expansão , que coincide com a multiplicação normal da matriz. A expansão modela a
dispersão do fluxo, tornando-se mais homogênea. O segundo é a inflação , que está matematicamente falando com uma
potência Hadamard seguida de uma escala diagonal. A inflação modela a contração do fluxo, tornando-se mais espessa
nas regiões de maior corrente e mais fina nas regiões de menor corrente. O processo MCL faz com que o fluxo se espalhe
dentro de clusters naturais e evapore entre diferentes clusters. Este exemplo animado de um processo MCL pode dar
uma impressão do seu modus operandi.
adaptável
Variando um único parâmetro, podem ser encontrados agrupamentos em diferentes escalas de granularidade.O número
de clusters não pode e não precisa ser especificado antecipadamente, mas o algoritmo pode ser adaptado a diferentes
contextos.
emergente
https://github.com/aaronmcdaid/MaximalCliques
https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-18
https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-19
https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-20
https://en.wikipedia.org/wiki/Clique_percolation_method#cite_note-21
http://cosparallel.sf.net/
https://micans.org/mcl/sec_discovery.html
http://micans.org/stijn/
http://www.cwi.nl/
http://www.cwi.nl/
https://micans.org/mcl/sec_thesisetc.html
https://micans.org/mcl/sec_thesisetc.html
http://www.cwi.nl/~jve/
http://www.cwi.nl/~mich/
https://micans.org/mcl/sec_thesisetc.html
https://micans.org/mcl/ani/mcl-animation.html
https://micans.org/mcl/man/distindex.html
https://micans.org/mcl/man/distindex.html
https://micans.org/mcl/sec_thesisetc.html
https://micans.org/mcl/sec_description1.html
https://micans.org/mcl/sec_description2.html
http://scholar.google.com/scholar?q=%22an+efficient+algorithm+for+large-scale+detection+of+protein+families%22
http://scholar.google.com/scholar?q=%22graph+clustering+by+flow+simulation%22
http://scholar.google.com/scholar?q=%22a+cluster+algorithm+for+graphs%22
http://scholar.google.com/scholar?q=%22OrthoMCL+identification+of+ortholog+groups+for+eukaryotic+genomes
https://micans.org/mcl/ani/mcl-animation.html
A questão "quantos clusters?" não é tratado de maneira arbitrária, mas por forte lógica interna. A estrutura de cluster
deixa suas marcas no processo de fluxo simulado pelo algoritmo, e os parâmetros de fluxo controlam a granularidade
da impressão do cluster.
escalável
O limite do processo MCL (o processo simulado pelo algoritmo) é geralmente extremamente esparso, e os iterands são
esparsos no sentido ponderado. Isso fornece os meios para escalar o algoritmo drasticamente, levando a uma
complexidade do pior caso da ordem Nk ^ 2, onde N é o número de nós do gráfico de entrada e onde k é um limite para
o número de recursos alocados por nó.
intrínseco
Os iterandos do processo MCL têm propriedades estruturais que permitem uma interpretação de cluster e que
generalizam o mapeamento de limites nos agrupamentos. A matemática associada ao processo mostra que existe um
relacionamento intrínseco entre o processo MCL e a estrutura do cluster nos gráficos. Isso é muito valioso, dadas as
muitas abordagens heurísticas na análise de cluster.
velozes
Uma implementação otimizada da MCL , como a encontrada nesta página, deve ter complexidade O (N k 2 ) , onde N é
o número de nós no gráfico e k é o número de recursos alocados por nó. Esse número pode ser escolhido
surpreendentemente baixo sem afetar a qualidade do cluster. O motivo é que o MCL calcula muito um processo
localizado e, consequentemente, é possível implementar um regime de remoção que tira proveito
disso. Lamentavelmente, várias publicações afirmam que a complexidade da MCL é O (N 3 )no entanto, isso só é
verdade se apenas uma implementação extremamente ingênua for considerada. O fato de o MCL ser descrito
naturalmente na álgebra matricial talvez tenha levado as pessoas a postular uma complexidade de tempo cúbica no
tamanho do gráfico, desconsiderando o fato de que essas matrizes geralmente são muito esparsas. Para mais
informações, consulte a seção sobre velocidade e memória .
Comunidades e detecção de comunidade
Um algoritmo de cluster para gráficos significa exatamente o mesmo que um algoritmo de detecção de comunidade para
redes e estrutura de comunidade em redes significa exatamente o mesmo que estrutura de cluster em gráficos. Este é um
caso grave e realmente infeliz de terminologia divergente. Meu treinamento como matemático me levou a usar
o gráfico predominantemente. Esta palavra tem outros significados, no entanto, e nem sempre é intuitiva para pessoas
de outros domínios da ciência. Por isso, comecei a apreciar e usar cada vez mais a rede . Por outro lado, a frase detecção
da comunidade parece bastante estreita e eu prefiro fortemente os idiomas mais antigos agrupando eanálise de
agrupamento . Nessas páginas, o gráfico de documentação mcl é muito usado, hoje em dia intercalado com o uso
da rede . Eles devem ser entendidos como totalmente intercambiáveis - não apenas nessas páginas, mas em um sentido
muito amplo. Da mesma forma, as comunidades são iguais aos clusters no contexto de, bem, agrupamento de gráficos,
também conhecido como detecção de comunidade em redes.
Partições e particionamento gráfico
O conceito de partição ou particionamento significa superficialmente o mesmo que agrupar , ou seja, uma separação em
subconjuntos mutuamente disjuntos que cobrem todo o conjunto de interesses.
A diferença mais importante é que o problema de particionamento de gráfico é definido universalmente como um
problema em que o número e o tamanho dos clusters são especificados a priori . Esse não é o caso no agrupamento de
gráficos ou na análise de agrupamentos em geral. A segunda diferença menos importante entre esses dois termos é que
o agrupamento exclui a possibilidade de sobreposição por convenção, de modo que ainda é possível falar de
um agrupamento sobreposto , enquanto uma partição ou particionamento exclui a possibilidade de sobreposição por
definição.
Cluster difuso
O clustering difuso (também conhecido como clustering suave ou soft- k- médias ) é uma forma de clustering em que
cada ponto de dados pode pertencer a mais de um cluster.
https://micans.org/mcl/sec_speedmemory.html
https://en.wikipedia.org/wiki/Data_point
O agrupamento ou análise de agrupamento envolve a atribuição de pontos de dados a agrupamentos, de modo que os
itens no mesmo agrupamento sejam os mais similares possíveis, enquanto os itens pertencentes a agrupamentos
diferentes são os mais divergentes possíveis. Os clusters são identificados por meio de medidas de similaridade. Essas
medidas de similaridade incluem distância, conectividade e intensidade. Diferentes medidas de similaridade podem ser
escolhidas com base nos dados ou no aplicativo. [1]

Propagação de afinidade
Na estatística e na mineração de dados , a propagação de afinidade (AP) é um algoritmo de agrupamento baseado no
conceito de "passagem de mensagens" entre pontos de dados. [1] Ao contrário de algoritmos de cluster, como k -
eans ou k -medoids , a propagação de afinidade não exige que o número de clusters seja determinado ou estimado antes
da execução do algoritmo. Semelhante ao k- medóides, a propagação de afinidade encontra "exemplos", membros do
conjunto de entrada que são representativos de clusters. [1]
Aplicações
Os inventores da propagação de afinidade mostraram que é melhor para determinadas tarefas de visão computacional e
biologia computacional, por exemplo, agrupar imagens de rostos humanos e identificar transcrições regulamentadas, do
que k- médias, [1] mesmo quando k- médias permitiu muitas reinicializações aleatórias e inicializadas
usando PCA . [2] Um estudo comparando a propagação de afinidade e o agrupamento de Markov no particionamento
de gráficos de interação proteica descobriu que o agrupamento de Markov funcionava melhor para esse
problema. [3] Uma variante semi-supervisionada foi proposta para aplicações de mineração de texto . [4]
https://en.wikipedia.org/wiki/Cluster_analysis
https://en.wikipedia.org/wiki/Cluster_analysis
https://en.wikipedia.org/wiki/Fuzzy_clustering#cite_note-1
https://en.wikipedia.org/wiki/Statistics
https://en.wikipedia.org/wiki/Data_mining
https://en.wikipedia.org/wiki/Cluster_analysis
https://en.wikipedia.org/wiki/Affinity_propagation#cite_note-science-1
https://en.wikipedia.org/wiki/K-means_clustering
https://en.wikipedia.org/wiki/K-means_clustering
https://en.wikipedia.org/wiki/K-medoids
https://en.wikipedia.org/wiki/Affinity_propagation#cite_note-science-1
https://en.wikipedia.org/wiki/Affinity_propagation#cite_note-science-1https://en.wikipedia.org/wiki/Principal_component_analysis
https://en.wikipedia.org/wiki/Affinity_propagation#cite_note-2
https://en.wikipedia.org/wiki/Markov_clustering
https://en.wikipedia.org/w/index.php?title=Protein_interaction_graph&action=edit&redlink=1
https://en.wikipedia.org/wiki/Affinity_propagation#cite_note-3
https://en.wikipedia.org/wiki/Text_mining
https://en.wikipedia.org/wiki/Affinity_propagation#cite_note-4

Sussurros chineses (método de agrupamento)
O Whispers chinês é um método de agrupamento usado na ciência de redes, nomeado após o famoso jogo de
sussurros . [1] Os métodos de clustering são basicamente usados para identificar comunidades de nós ou links em uma
determinada rede. Esse algoritmo foi desenvolvido por Chris Biemann e Sven Teresniak em 2005. [1] O nome deriva do
fato de que o processo pode ser modelado como uma separação de comunidades onde os nós enviam o mesmo tipo de
informação. [1]
O Chinese Whispers é um método de particionamento rígido, randomizado e de agrupamento plano (sem relações
hierárquicas entre clusters ). [1] A propriedade random significa que executar o processo na mesma rede várias vezes
pode levar a resultados diferentes, enquanto, devido ao particionamento rígido, um nó pode pertencer apenas a um
cluster em um determinado momento. O algoritmo original é aplicável a gráficos não direcionados, ponderados e não
ponderados. O Whispers chinês é linear no tempo, o que significa que é extremamente rápido, mesmo que o número de
nós e links seja muito alto na rede. [1]
Algoritmo

Um exemplo de como o Whispers chinês funciona em ação. As cores diferentes representam diferentes classes.
O algoritmo funciona da seguinte maneira em um gráfico não ponderado não direcionado: [1]
1. Todos os nós são atribuídos a uma classe distinta (o número de classes iniciais é igual ao número de nós).
https://en.wikipedia.org/wiki/Chinese_whispers
https://en.wikipedia.org/wiki/Chinese_whispers
https://en.wikipedia.org/wiki/Chinese_Whispers_(clustering_method)#cite_note-Biemann2006-1
https://en.wikipedia.org/w/index.php?title=Chris_Biemann&action=edit&redlink=1
https://en.wikipedia.org/w/index.php?title=Sven_Teresniak&action=edit&redlink=1
https://en.wikipedia.org/wiki/Chinese_Whispers_(clustering_method)#cite_note-Biemann2006-1
https://en.wikipedia.org/wiki/Chinese_Whispers_(clustering_method)#cite_note-Biemann2006-1
https://en.wikipedia.org/wiki/Hierarchical_clustering
https://en.wikipedia.org/wiki/Hierarchical_clustering
https://en.wikipedia.org/wiki/Chinese_Whispers_(clustering_method)#cite_note-Biemann2006-1
https://en.wikipedia.org/wiki/Chinese_Whispers_(clustering_method)#cite_note-Biemann2006-1
https://en.wikipedia.org/wiki/Chinese_Whispers_(clustering_method)#cite_note-Biemann2006-1
https://en.wikipedia.org/wiki/File:Chinese_Whispers_example_cluster.png
2. Todos os nós da rede são selecionados um por um em uma ordem aleatória. Cada nó se move para a classe à qual o nó
fornecido se conecta com mais links. No caso de igualdade, o cluster é escolhido aleatoriamente entre as classes
igualmente vinculadas.
3. A etapa dois se repete até um número predeterminado de iteração ou até o processo convergir. No final, as classes
emergentes representam os agrupamentos da rede.
O limite predeterminado para o número de iterações é necessário porque é possível que o processo não converja. Por
outro lado, em uma rede com aproximadamente 10000 nós, os clusters não mudam significativamente após 40-50
iterações, mesmo se não houver convergência. [1]
Pontos fortes e fracos
A principal força dos sussurros chineses reside na propriedade linear do tempo. Devido ao tempo de processamento
aumentar linearmente com o número de nós, o algoritmo é capaz de identificar comunidades em uma rede muito
rapidamente. Por esse motivo, o Chinese Whispers é uma boa ferramenta para analisar estruturas da comunidade em
gráfico com um número muito alto de nós. A eficácia do método aumenta ainda mais se a rede tiver a pequena
propriedade mundial . [1]
Por outro lado, como o algoritmo não é determinístico no caso de um número pequeno de nós, os clusters resultantes
geralmente diferem significativamente um do outro. A razão para isso é que, no caso de uma rede pequena, importa
mais de qual nó o processo de iteração é iniciado, enquanto nas redes grandes a relevância dos pontos de partida
desaparece. [1] Por esse motivo, para gráficos pequenos, outros métodos de agrupamento são recomendados.
Aplicações
O Whispers chinês é usado em muitos subcampos da ciência de redes. É mencionado com mais frequência no contexto
de problemas de processamento de linguagem natural . [2] [3] Por outro lado, o algoritmo é aplicável a qualquer tipo de
problema de identificação da comunidade que esteja relacionado a uma estrutura de rede. O Chinese Whispers está
disponível para uso pessoal como um pacote de extensão para o Gephi [4], que é um programa de código
aberto desenvolvido para análise de rede.
Algoritmo de propagação de rótulo
A propagação de etiquetas é um algoritmo de aprendizado de máquina semi-supervisionado que atribui etiquetas a
pontos de dados não rotulados anteriormente. No início do algoritmo, um subconjunto (geralmente pequeno) dos pontos
de dados possui rótulos (ou classificações). Esses rótulos são propagados para os pontos não rotulados ao longo do curso
do algoritmo. [1]
Dentro de redes complexas , redes reais tendem a ter estrutura comunitária . A propagação de etiquetas é um
algoritmo [2] para encontrar comunidades. Em comparação com outros algoritmos [3] , a propagação de rótulos tem
vantagens em seu tempo de execução e quantidade de informações a priori necessárias sobre a estrutura da rede (nenhum
parâmetro é necessário para ser conhecido antecipadamente). A desvantagem é que ela não produz uma solução
exclusiva, mas um agregado de muitas soluções.
https://en.wikipedia.org/wiki/Chinese_Whispers_(clustering_method)#cite_note-Biemann2006-1
https://en.wikipedia.org/wiki/Small-world_experiment
https://en.wikipedia.org/wiki/Small-world_experiment
https://en.wikipedia.org/wiki/Chinese_Whispers_(clustering_method)#cite_note-Biemann2006-1
https://en.wikipedia.org/wiki/Chinese_Whispers_(clustering_method)#cite_note-Biemann2006-1
https://en.wikipedia.org/wiki/Natural_language_processing
https://en.wikipedia.org/wiki/Chinese_Whispers_(clustering_method)#cite_note-2
https://en.wikipedia.org/wiki/Chinese_Whispers_(clustering_method)#cite_note-3
https://en.wikipedia.org/wiki/Gephi
https://en.wikipedia.org/wiki/Chinese_Whispers_(clustering_method)#cite_note-4
https://en.wikipedia.org/wiki/Open-source_software
https://en.wikipedia.org/wiki/Open-source_software
https://en.wikipedia.org/wiki/Machine_learning
https://en.wikipedia.org/wiki/Label_propagation_algorithm#cite_note-1
https://en.wikipedia.org/wiki/Complex_networks
https://en.wikipedia.org/wiki/Complex_networks
https://en.wikipedia.org/wiki/Community_structure
https://en.wikipedia.org/wiki/Label_propagation_algorithm#cite_note-raghavan-albert-kumara2007-2
https://en.wikipedia.org/wiki/Label_propagation_algorithm#cite_note-3

Introduziremos brevemente dois dos métodos mais populares usados para analisar redes de interação de proteínas:
o algoritmo rápido ganancioso de Newman-Girvan e o algoritmo MCODE .
Outra maneira de abordar a pesquisa de comunidades em uma rede é usar uma combinação da topologia da rede e
algumas propriedades externas, como valores de expressão de proteínas, como uma camada adicional que define as
comunidades. Um bom exemplo desse método popular é o aplicativo jActiveModules para Cytoscape ( 17 ). Este
aplicativo “[…] pesquisa uma rede de interação molecular para encontrar sub-redes ativadas por expressão. Essas sub-
redes são regiões conectadas de uma rede que mostram mudanças significativas na expressão em subconjuntos de
condições específicos ”( 18 ). Em essência, regiões conectadas em uma rede com expressão diferencialpodem ser
identificadas usando esta ferramenta.
Métodos de análise de agrupamento II
Algoritmo rápido ganancioso de Newman-Girvan
• Desenvolvido para o estudo de redes em geral, com foco especial em redes sociais e biológicas ( 19 ).
• Identifica as comunidades usando a medida de centralidade da borda entre os dois. Bordas que conectam comunidades
diferentes têm valores de centralidade mais altos, pois uma proporção maior de caminhos mais curtos passará por eles.
• Para definir comunidades, ele usa as pontuações de centralidade das margens das arestas para classificar as arestas da
rede, remove as arestas mais centrais e recalcula as pontuações das arestas até que nenhuma aresta seja deixada. As
arestas afetadas pela remoção são consideradas parte da mesma comunidade.
• Pode ser considerada uma abordagem "ingênua" que definirá as comunidades mesmo quando elas estiverem apenas
marginalmente mais conectadas que o restante da rede.

http://apps.cytoscape.org/apps/jactivemodules
https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-introduction/references
https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-introduction/references
https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-introduction/references
Figura 31 Comunidades definidas usando Newman-Girvan e MCODE.
Algoritmo MCODE
• Desenvolvido para encontrar complexos de proteínas em redes PPI ( 20 ).
• Pode ser considerado mais rigoroso que o algoritmo de Newman-Girvan, pois visa encontrar apenas as sub-redes muito
altamente interconectadas, representando complexos multiproteicos relativamente estáveis que funcionam como uma
única entidade no tempo e no espaço.
• Os parâmetros do algoritmo podem ser ajustados para torná-lo menos rigoroso, para que uma definição mais vaga de
uma comunidade seja usada.
• O algoritmo usa um processo de três estágios:
1. Ponderação: uma pontuação mais alta é atribuída aos nós cujos vizinhos estão mais interconectados.
2. Previsão do complexo molecular: começando com o nó de maior peso (semente), mova-se recursivamente,
adicionando nós ao complexo que estão acima de um determinado limite.
3. Pós-processamento: aplica filtros para melhorar a qualidade do cluster (corte de cabelo e cotão).
É importante notar que, quando falamos em 'rigor', estamos falando sobre como os nós dentro de uma sub-rede devem
estar interconectados para serem considerados uma comunidade separada. Isso muda dependendo da questão biológica
subjacente à análise. Não é o mesmo procurar complexos proteicos estáveis, como o proteassoma, como procurar
submódulos funcionais que representam uma etapa específica de uma via de sinalização.
Análise de enriquecimento de anotação
Existem muitas abordagens diferentes que podem ser usadas para entender o contexto biológico das redes de interação
proteína-proteína. A análise de enriquecimento de anotação é um dos métodos mais populares. Embora não seja
estritamente uma ferramenta de análise de rede, é frequentemente usada em combinação com a análise topológica de
rede.
Existem diferentes variedades desse tipo de análise, mas, na sua forma mais básica, a análise de enriquecimento de
anotações usa anotações de genes / proteínas fornecidas por bases de conhecimento como Gene Ontology (GO)
ou Reactome para inferir quais anotações estão super-representadas em uma lista. de genes / proteínas que podem ser
retirados de uma rede (Figura 32). Essencialmente, as ferramentas de anotação realizam algum tipo de teste estatístico
(geralmente um teste hipergeométrico, geralmente também um teste binomial) que tenta responder à seguinte pergunta:
"Ao amostrar proteínas X (conjunto de teste) de proteínas N (conjunto de referência; gráfico ou anotação), qual é a
probabilidade de que x, ou mais, dessas proteínas pertençam a uma categoria funcional C compartilhada
por n das proteínas N na conjunto de referência ". ( 21 )
O resultado desse teste nos fornece uma lista de termos que descrevem a lista / rede, ou melhor, parte dela, como um
todo.
https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-introduction/references
https://www.ebi.ac.uk/training/online/glossary/gene-ontology
https://www.ebi.ac.uk/training/online/glossary/reactome
https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-introduction/references

Figura 32 Análise de enriquecimento de anotação usando GO e Reactome em uma rede.
Esse tipo de análise é realizado com mais frequência usando a anotação GO como referência, mas ferramentas como os
aplicativos Cytoscape BiNGO e ClueGO também podem gerenciar outros bancos de dados de anotações,
como Reactome e KEGG . Essa é uma técnica amplamente usada que ajuda a caracterizar a rede como um todo ou
subconjuntos, como comunidades interconectadas encontradas através da análise topológica de agrupamentos.
Versões mais complexas dessa técnica podem levar em consideração variáveis variáveis, como a alteração da dobra da
expressão. A ferramenta GSEA é um bom exemplo de uma técnica mais avançada que utiliza conceitos básicos
semelhantes. Uma visão geral um pouco antiga, mas muito completa, das diferentes ferramentas dessa família e das
vantagens e limitações de suas diferentes abordagens pode ser encontrada em Huang da et al 2009 ( 22 ).
Limitações do enriquecimento da anotação
Anotação
As principais limitações do enriquecimento das anotações vêm das próprias anotações. Certas áreas da biologia são
anotadas mais detalhadamente e melhor descritas do que outras, com mais detalhes e termos mais precisos para
processos conhecidos. Por exemplo, no nível das proteínas, proteínas mais "populares" são melhor anotadas. Isso
introduz um certo viés na análise estatística.
Também é importante observar que os termos do GO podem ser atribuídos por um curador humano que
realiza anotações manuais cuidadosas ou por abordagens computacionais que usam a base da anotação manual para
inferir quais termos descreveriam adequadamente produtos genéticos desconhecidos. Eles usam vários critérios
diferentes que sempre se referem a produtos gênicos anotados, como semelhança de sequência ou estrutura ou
proximidade filogenética. A importância das anotações derivadas computacionalmente é bastante significativa, pois elas
representam aproximadamente 99% das anotações que podem ser encontradas no GO.
Simplificando a interpretação dos resultados do enriquecimento da anotação
Outra limitação do enriquecimento da anotação é a complexidade e os detalhes da anotação associados a grandes
conjuntos de genes ou proteínas. Isso acontece porque recursos como Reactome e, especialmente, GO podem ser muito
complexos e detalhados em suas anotações, levando à geração de redes extremamente complicadas de termos inter-
relacionados e similares. Existem várias maneiras de tentar desvendar essa complexidade.
A abordagem mais simples é usar ontologias simplificadas. Muitas ferramentas oferecem essa opção e usam ontologias
em que termos detalhados são removidos e designados a termos pai mais amplos e gerais. No GO, essas ontologias
simplificadas são chamadas de GOslims .
Outras ferramentas, como os aplicativos Cytoscape BiNGO ou ClueGO, representam os resultados como uma rede de
termos, em que as bordas direcionadas representam relacionamentos de termos, conforme definido
http://www.geneontology.org/
http://apps.cytoscape.org/apps/bingo
http://apps.cytoscape.org/apps/cluego
http://www.reactome.org/
http://www.genome.jp/kegg/
http://software.broadinstitute.org/gsea/index.jsp
https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-introduction/references
https://www.ebi.ac.uk/training/online/glossary/curator
https://www.ebi.ac.uk/training/online/glossary/manual-annotation
http://geneontology.org/page/go-slim-and-subset-guide
na ontologia