Interactions entre proteines PPI Interactome et interactomique Enseignement recherche biochimie enzymologie bioinformatique Emmanuel Jaspard Universite Angers biochimej

Interactions protéine-protéine : interactomique et interactome

1. Les domaines en omique

2. Présentation de l'interactomique

a. Caractéristiques physico-chimiques et biologiques des interactions entre molécules biologiques
b. L'interactomique

3. Présentation des interactomes

a. Généralité
b. Types d'interactions protéine-protéine
c. Démarche générale pour l'identification des interactions protéine-protéine et leur représentation
d. Exemples du portail d'interactions protéine-protéine de la levure

4. Différents types de bases de données d'interactions moléculaires

5. Démarche pour la construction de réseaux d'interactions

a. Principe
b. Quelques caractéristiques importantes d'un réseau d'interactions
c. Illustration : réseau d'interactions des protéines du SARS-CoV-2 avec des protéines de l'homme

6. Différents types de graphes pour représenter les interactions

7. Quelques ressources pour utiliser le logiciel CYTOSCAPE

8. Outils d'analyse et de visualisation des réseaux d'interactions

9. Liens Internet et références bibliographiques

1. Les domaines en omique

Il existe de nombreux sous-domaines scientifiques biologiques dont le nom a été créé avec le suffixe "omique".

En voici les principaux exemples : génomique - métagénomique - épigénomique - transcriptomique - épitranscriptomique - translatomique - protéomique - métabolomique - interactomique - connectomique - fluxomique - integromique - glycomique - glycoprotéomique - lipidomique - pharmacogénomique, ...

big data omique omics genomique proteomique transcriptomique metabolomique genomics metagenomics epigenomics transcriptomics proteomics proteogenomics metabolomics metabonomics connectomics pharmacogenomics foodomics integromics glycomics lipidomics interactomics PPI fluxomics protein enzyme biochimej

Les anglo-saxons emploient le suffixe "omics".
Voir : "List of omics topics in biology".
La protéogénomique est l'analyse intégrative des données de génomique, de transcriptomique, de protéomique et de modifications post-traductionnelles.

Les figures ci-dessous montrent la répartition des publications (articles) scientifiques dans la base de données bibliographique PubMed qui mentionnent un ou plusieurs domaine(s) en "omique" :

Source : Noor et al. (2019)

(a) Nombre total d'articles par année depuis 2000 dans 4 domaines en "omique".
(b) Diagramme de Venn montrant le chevauchement des articles qui mentionnent un ou plusieurs domaine(s) en "omique". Les approches "multiomiques" les plus courantes sont pour l'instant [génomique + protéomique] et [génomique + transcriptomique] qui représentent plus de 10% des articles.
(c) Pourcentage de publications "multiomiques" mentionnant au moins deux des trois domaines transcriptomique, protéomique et métabolomique (la génomique est omise).

Tous ces domaines évoluent très rapidement. Ils sont de plus en plus intégrés : on peut émettre l'hypothèse qu'ils se fondront en une discipline générale peut-être gérée par une intelligence artificielle.

2. Présentation de l'interactomique

a. Caractéristiques physico-chimiques et biologiques des interactions entre molécules biologiques

Les interactions qu'établissent les milliards de molécules au sein d'une cellule et avec l'extérieur sont l'élément clé de tous les processus biologiques, donc du fonctionnement cellulaire, donc de la vie.

Il s'établit à tout instant dans une cellule ou un compartiment sub-cellulaire un nombre incalculable d'interactions physico-chimiques de divers types : liaisons hydrogène, ioniques, covalentes, électrostatiques, interactions hydrophobes, ...

Elles s'établissent entre toutes les catégories de molécules biologiques : acides nucléiques, protéines, oses, lipides, métabolites, la multitude d'ions ...
- Beaucoup de protéines sont nativement non structurées. Cette caractéristique accentue le caractère transitoire des interactions entre protéines (ou entre protéine et ligand au sens large).
- Les molécules d'eau (d'hydratation des protéines ou intrinsèques à la stabilisation de la structure des protéines) jouent un rôle primordial dans la dynamique conformationnelle des protéines, donc dans leur interactivité.

Ces interactions régissent chacune des réactions élémentaires :
- constitutives des dizaines de processus cellulaires (métabolisme, transcription - traduction, cycle cellulaire, photosynthèse, ...)
- constitutives des dizaines de mécanismes de régulation de ces processus

Ces processus, à leur tour, assurent le fonctionnement d'un ensemble plus vaste : un compartiment sub-cellulaire, une cellule, un tissu, un organe, un organisme, un groupe d'organismes.

Le tout est programmé, contrôlé, orchestré avec une précision inégalée dans l'espace et dans le temps.

Voir un ensemble de cours sur les interactions entre les macromolécules biologiques : leurs caractéristiques et les méthodes d'étude.

b. L'interactomique

L'interactomique est un domaine en omique récent qui s'appuie sur les données :

Générées par les multiples méthodes biochimiques et/ou physiques développées pour la mise en évidence des interactions entre biomolécules et l'identification de ces dernières.

Générées par l'analyse bioinformatique des données (en particulier) de génomique, de transcriptomique, de protéomique et de métabolomique.

Regroupées dans des bases de données spécialisées qui recensent des dizaines de millions d'interactions (toutes bases de données confondues) établies entre des millions de biomolécules (notamment des protéines).

Analysées avec des modèles théoriques pour beaucoup issus de la théorie des graphes et des méthodes de classification ("clustering, distribution") et avec des outils logiciels développés spécifiquement pour ce domaine en omique.

D'annotation : l'identification des molécules est capitale pour décrypter la signification biologique d'un réseau d'interactions. On parle d'enrichissement ontologique.

Enfin, les techniques de multi-omiques spatiales appliquées aux cellules individualisées ("single-cell spatial multi-omics approaches") permettent d’établir un panorama dans l'espace d’une précision inégalée de la répartition, de l’abondance et du temps de demi-vie des protéines (en particulier), des ARN de divers types et du taux de transcription des gènes (en général).

3. Présentation des interactomes

a. Généralité

Un interactome est l'ensemble des interactions physiques entre les molécules d'une cellule ou d'un compartiment sub-cellulaire.

Exemples :

L'interactome des protéines correspond à l'ensemble des interactions protéines-protéines ("Protein - Protein Interactions" - PPI).
L'interactome protéines - ADN (appelé aussi réseau régulateur de gènes - "gene-regulatory network") correspond au réseau formé par les facteurs de transcription, les protéines régulatrices de la structure de la chromatine (exemple : les histones) et leurs gènes cibles.
L'interactome protéines - métabolites est étudié depuis moins longtemps et plus complexe à décrypter (voir un cours sur la métabolomique).

L’un des paramètres clé des interactions protéines-protéines est l'abondance et la localisation des protéines qui interagissent : les concentrations des protéines varient selon le type de cellules, le compartiment sub-cellulaire et l’état cellulaire.

Un interactome est de taille plus réduite que la somme de toutes les interactions possibles impliquant les protéines concernées. En effet, si un grand nombre de protéines peuvent s'associer de diverses manières avec de multiples partenaires, seul un sous-ensemble de ces interactions ont un rôle biologique.

b. Types d'interactions protéine-protéine

La dynamique d'un interactome est plus complexe que le nombre d'interactions qui le composent. En effet :

Les interactions protéine-protéine sont permanentes ou transitoires, faibles ou fortes.

Elles sont régies par des éléments physico-chimiques, notamment :
- (i) La stabilité structurale intrinsèque des protomères (les sous-unités en interactions au sein des complexes protéiques).
- (ii) L'affinité entre ces protomères.
- La proportion très importante de protéines ou de régions intrinsèquement non structurées.

Les interactions protéine-protéine d'un interactome dépendent des modifications post-traductionnelles (pour la plupart transitoires) des protéines impliquées.

Les interactions protéine-protéine obligatoires

Les interactions protéine-protéine non obligatoires

Elles caractérisent les sous-unités protéiques constitutives d'un complexe (homo-oligomères ou hétéro-oligomères) qui n'adoptent pas une structure stable individuellement.

Elles permettent la stabilisation de complexes protéiques impliqués, par exemple, dans les voies de signalisation (ou d'autres processus cellulaires) qui nécessitent une interaction protéine-protéine permanente.

Elles caractérisent les protomères qui adoptent une structure stable indépendamment les uns des autres.

Elles contribuent à la modulation des processus cellulaires (par exemple, la régulation ou la réponse à des stimuli) au cours desquels les protéines interagissent de manière temporaire.

Exemples :

Homodimère obligatoire : P22 transcriptional repressor arc
Hétérodimère obligatoire : cathepsine D humaine - code PDB 1LYB

Exemples :

Hétérodimère non obligatoire : le complexe de signalisation RhoA et RhoGAP.
Hétérodimère non obligatoire permanent : thrombine et inhibiteur rodniine.
Homodimère non obligatoire transitoire : Sperm lysin.

Les interactions protéine-protéine non obligatoires peuvent être classées selon la stabilité du complexe formé.

Les interactions non obligatoires permanentes (K_D de l'ordre du nM).

Exemples :

La plupart des complexes enzymes - inhibiteur protéique.
Les complexes constituées de protomères de durée de vie longue (exemple des protéines au sein des ribosomes, des complexes de la chaîne respiratoire, ...).

Les interactions non obligatoires transitoires (K_D de l'ordre du µM).

Elles sont caractérisées par une large gamme d'affinités et de durées de vie.
Elles impliquent une association temporaire des protéines qui interagissent le temps nécessaire pour qu'un processus cellulaire ait lieu.

Exemples :

L'interaction entre une protéine kinase et sa protéine cible phosphorylée.
L'interaction calmoduline - protéine cible.

Les interactions non obligatoires transitoires sont elles-mêmes classées.

Les interactions faibles caractérisées par une affinité de liaison faible et une spécificité élevée.

Exemple : les protéines impliquées dans la transduction des signaux.

Les interactions fortes avec une affinité de liaison élevée et une spécificité élevée.

Exemple : les complexes antigène - anticorps.

Interactions entre domaines structuraux

La plupart des protéines sont des assemblages de domaines structuraux (l'unité structurale de base des protéines) selon diverses combinaisons.

Les interactions protéine-protéine dites homotypiques sont établies entre des domaines protéiques identiques au sein d'une protéine ou entre protomères différents d'un complexe.

Les interactions dites hétérotypiques sont établies entre des domaines protéiques différents au sein d'une protéine ou entre protomères différents d'un complexe.

c. Démarche générale pour l'identification des interactions protéine-protéine et leur représentation

(A) Exemples de méthodes biologiques, biophysiques ou associées à la spectromètrie de masse, pour identifier des PPI.
(B) Réseau des PPI de la base de données STRING pour Arabidopsis thaliana avec un seuil de 0,7.

interaction proteine interactome interactomique PPI protein reseau net biochimej

Source : Di Silvestre et al. (2018)

(C) Exemple d'un graphe [non orienté / non pondéré] et d'un graphe [orienté / pondéré].
(D) Matrice d'adjacence associée à chacun de ces graphes.

Complément des définitions d'interactions et d'interactome

Les interactions entre macromolécules biologiques sont toutes physiques (interactions macromoléculaires).

Cependant, leur représentation sous la forme d'un interactome s'appuie sur différents types de preuves :
- Les preuves expérimentales (méthodes biochimiques ou biophysiques).
- Les preuves indirectes issues de la littérature scientifique (fouille de données textuelles ou "text mining") ou de données expérimentales indirectes.

Cette distinction est capitale car elle explique :

Les différents outils (notamment le type de graphe) utilisés pour la représentation des interactomes.
Les logiques d'acquisition des données pour développer les différents types de bases de données d'interactomes.

Exemples de critères de preuves des PPI

"BioGRID interactions" : Experimental Evidence Codes.
UNIPROT : 5 niveaux d'évidence d'existence des protéines.

Estimation du nombre d'interactions protéine-protéine binaires dans les interactomes

Le mot clé est "estimation" car :

Toutes les protéines de tous les protéomes ne sont pas encore identifiées et leur structure encore moins élucidées.

La validation expérimentale de chaque interaction entre une protéine et les autres est un travail très complexe donc chronophage. Toutes les PPI n'ont pas la même fiabilité et les seuils de confiance modifient le jeu de données des PPI.

Il faut ensuite estimer avec certitude les PPI non redondantes (P1 -> P2 vs. P2 -> P1) et les interactions identiques dans différentes bases de données.

Quelques chiffres pour l'estimation de l'interactome humain :
- En 2006 : de 150.000 à 370.000 PPI (Hart et al., 2006)
- En 2008 : de 130.000 à 650.000 PPI
- En 2009 : de 74.000 à 200.000 PPI (Venkatesan et al., 2009)
- En 2020 : 64.000 PPI (Luck et al., 2020)
- En 2024 : 118.000 PPI (Kosoglu et al., 2024)
- La base de données BioGrid ("The Biological General Repository for Interaction Datasets") recence presque 2 millions de PPI (cumulées) pour un trés grand nombre d'organismes, dont environ 500.000 PPI non redondantes pour l'homme (voir "BioGRID Database Statistics").

Certaines protéines établissent des dizaines de PPI, constituant ainsi des noeuds centraux de réseaux d'interactions ("hub protein") et cette caractéristique est souvent associée à leur taux de désordre intrinsèque (voir Hu et al., 2017).

d. Exemples du portail d'interactions protéine-protéine au sein de la levure : Yeast Interactome Browser

Une bibliothèque de levures marquées par la protéine GFP a permis de générer plus de 4.000 protéines détectables par fluorescence.
Puis l'analyse à très haut débit par chromatographie liquide couplée à la spectrométrie de masse a permis d'établir un réseau de plus de 31.000 interactions (incluant, notamment, les complexes épigénétiques de très faible abondance et les complexes membranaires d'organites).
Voir Michaelis et al. (2023).

L'interactome de la levure révèle que la grande majorité des protéines de cet organisme sont hautement connectées : 16 interactants en moyenne par protéine et une distance moyenne minimale entre protéines de 4 interactions.

Le couplage des données à l'algorithme d'apprentissage profond pour la prédiction de contacts entre structures 3D des protéines "AlphaFold-Multimer" fournit des informations sur les fonctions de protéines au sein de complexes.

Figure ci-dessous : partie de la carte d'interactions au sein de la levure qui indiquent les regroupements ("clusters") par des cercles et la localisation cellulaire par le terme d'ontologie le plus fréquent au sein d'un regroupement.

Source : Yeast Interactome Browser

Menu déroulant de la renêtre "Sub-Networks" de l'interface : RSC2 ("Chromatin structure-remodeling complex subunit") :

Composant du complexe de remodelage de la structure de la chromatine impliqué dans la régulation de la transcription et le positionnement des nucléosomes.
Les complexes interagissent avec les histones et les variants d'histones de la chromatine centromérique.

4. Différents types de bases de données d'interactions moléculaires

Il existe trois catégories de bases de données d'interactions moléculaires selon leurs politiques d'acquisition des données :

Les bases de données dites "primaires" collectent des données expérimentales exclusivement à partir de publications scientifiques. Exemples : IntAct, MINT et MatrixDB.

Les bases de données dites "secondaires" (ou méta-bases de données) intégrent les données conservées par plusieurs bases de données primaires dans un seul référentiel intégré.
- Exemples : APID et PINA.
- La figure ci-dessous représente la direction du flux de données (flèches) entre bases de données d'interactions protéine–protéine primaires (nœuds rouges) et secondaires (noeuds bleus).

Les bases de données prédictives combinent les données déduites expérimentalement (bases de données primaires) avec des prédictions bioinformatiques des interactions moléculaires. Exemples : STRING et UniHI.

reseau network interaction PPI interactome interactomique interactomics MINT Intact STRING BIND protein cytoscape network edge node noeud arete layout biochimej

Figure : Bajpai et al. (2020).

Illustration

Le réseau PPI de l'homme peut être téléchargé à partir de la base de données STRING ("Search Tool for Retrieval of Interacting Genes/Proteins").
Les PPI prouvées expérimentalement peuvent être récupérées à partir de toutes les PPI répertoriées dans STRING en les filtrant en fonction de leur sous-score appelé "experiments subscore".
Ce score reflète la "quantité de support expérimental", c'est-à-dire l’ensemble des informations obtenues par des méthodes biochimiques et/ou biophysiques pour prouver chaque interaction protéine-protéine.

Quelques bases de données d'interactions protéines-protéines

MPIDB : Goll et al. (2008) "MPIDB: the microbial protein interaction database" Bioinformatics 24, 1743 - 1744
BioGRID : Breitkreutz et al. (2008) "The BioGRID Interaction Database: 2008 update" Nucleic Acids Res. 36, D637 - D640
GeneMANIA : Warde-Farley et al. (2010) "The GeneMANIA prediction server: biological network integration for gene prioritization and predicting gene function" Nucleic Acids Res. 38, W214 - W220
SPIKE : Paz et al. (2011) "SPIKE: a database of highly curated human signaling pathways" Nucleic Acids Res. 39, D793 - D799
MINT : Licata et al. (2012) "MINT, the molecular interaction database: 2012 update" Nucleic Acids Res. 40, D857 - D861
Mentha : Calderone et al. (2013) "Mentha: a resource for browsing integrated protein-interaction networks" Nature Meth. 10, 690 - 691
IntAct : Orchard et al. (2014) "The MIntAct project-IntAct as a common curation platform for 11 molecular interaction databases" Nucleic Acids Res. 42, D358 - D363
STRING : Szklarczyk et al. (2015) "STRING v10: protein-protein interaction networks, integrated over the tree of life" Nucleic Acids Res. 43, D447 - D452
PINA : Cowley et al. (2012) "PINA v2.0: mining interactome modules" Nucleic Acids Res. 40, D862 - 865
APID : Alonso-Lopez et al. (2016) "APID interactomes: providing proteome-based interactomes with controlled quality for multiple species and derived networks" Nucleic Acids Res. 44, W529 - W535
I2D : Kotlyar et al. (2016) "Integrated interactions database: tissue-specific view of the human and model organism interactomes" Nucleic Acids Res. 44, D536 - D541

Autres types de bases de données de PPI

Ensemble de bases de données "Interactome Projects at CCSB".
Données d'interactions validées de la base de données "Reactome" ("Reactome curated interaction data") par des preuves biochimiques et/ou biophysiques estampillées "grande confiance" ("high confidence biochemical/biophysical assays").
Quelques bases de données spécifiques des plantes : voir le tableau 1 de l'article Di Silvestre et al. (2018)

5. Démarche pour la construction de réseaux d'interactions

a. Principe

La première étape consiste, bien évidemment, à obtenir des données d'interactions entre biomolécules (si possible prouvées / avérées) avec une très large panoplie de méthodes biochimiques, physiques ou bioinformatiques (fouille de données textuelles et autres).

Ces données sont regroupées dans des bases de données spécialisées. Exemples :

BIND, STRING, BioGrid, MINT, DIP, IntAct, APID, ...
HPA ("The Human Protein Atlas") : réseaux d'interactions protéine-protéine basés sur la base de données IntAct (EMBL-EBI).
PrePPI ("Predicting Protein-Protein Interactions webserver"), HuRI ("The Human Reference Interactome") ...
Voir une comparaison de 16 bases de données d'interactions protéine-protéine : article de Bajpai et al. (2020).

Ces bases de données permettent d'établir des listes d'identifiants de gènes ou de protéines :

Les informations afférentes aux biomolécules peuvent être enrichies par une ontologie (annotation), si celle-ci a été établie.
Des programmes (en ligne ou non) analysent les données afin de créer un/des réseau(x) d'interactions entre tout ou partie de ces biomolécules et de les visualiser.

reseau network graph oriente directed weighted interaction proteine PPI interactome interactomique interactomics omique omics protein structure cytoscape network edge node noeud arete layout biochimej

Figure ci-dessous : exemple de 3 types de graphe fréquemment utilisés pour créer des réseaux d'interactomes.
Voir un exercice de remplissage d'une matrice d'adjacence associée à un graphe simple (EBI/UK).

reseau network graph oriente directed weighted interaction PPI interactome interactomique interactomics network edge node noeud arete layout biochimej

Figure adaptée de : "Network analysis of protein interaction data" - EBI

Illustration d'un graphe orienté : voir la figure 6 - Srivastava et al. (2022)

b. Quelques caractéristiques importantes d'un réseau d'interactions

Les statistiques de topologie du réseau ("network topology statistics") : degré de nœud, distribution des degrés, centralité, coefficient de regroupement, chemins les plus courts, robustesse du réseau à la suppression aléatoire de nœuds uniques.

La centralité de degré ("degree centrality") correspond au nombre de liens vers un noeud donné. Dans les réseaux PPI, les noeuds ayant un degré plus élevé sont considérés comme des hubs et sont généralement situés au centre du réseau.

cytoscape edge node noeud arete layout network interactome interactomique PPI interactomics protein interaction biochimej

La centralité intermédiaire ("betweenness centrality") mesure la centralité d'un sommet d'un graphe, c'est-à-dire qu'elle permet d'en évaluer l'importance.

La centralité de proximité ("closeness centrality") d'un noeud une mesure sa centralité dans un réseau. Plus un noeud est central, plus il est proche de tous les autres noeuds.

La modularité ("modularity") : identification de sous-réseaux de nœuds interconnectés représentant des molécules physiquement ou fonctionnellement liées, qui fonctionnent de manière coordonnée pour assurer une fonction spécifique.

L'analyse de motif ("motif analysis") : identification de petits modèles d'un réseau d'interactions surreprésentés par rapport à une version aléatoire du même réseau. Les éléments de régulation sont souvent composés de tels motifs.

Les outils d'alignement et de comparaison de réseaux d'interactions ("network alignment and comparison tools") permettent d'identifier les similitudes entre réseaux. Ils sont utiles pour étudier les relations évolutives entre les réseaux protéiques.

c. Illustration : réseau d'interactions des protéines du SARS-CoV-2 avec des protéines de l'homme

Les gènes codants 26 des 29 protéines du virus SARS-CoV-2 ont été clonés dans des cellules humaines (cellules épithéliales de rein HEK293T).

Les 26 protéines virales ont été synthétisées dans ces cellules et les protéines de l'homme physiquement associées à chacune d'elles ont été identifiées par chromatographie d'affinité couplée à la spectrométrie de masse (voir un développement de l'AP-MS).

Les résultats ont révélé de nombreuses interactions (voir le réseau en ligne) avec des protéines de l'homme impliquées dans un grand nombre de processus cellulaires :

Protéines de la réplication de l'ADN, régulateurs épigénétiques et régulateurs de l'expression génique, protéines de traitement et de régulation des ARN.
Protéines du trafic vésiculaire, protéines de modification des lipides.
Protéines de la machinerie de transport nucléaire, protéines de voies de signalisation de l'immunité innée (voie IFN et voie NF-κB) …

Les résultats ont permis d'identifier :

332 interactions [protéine SARS-protéine humaine] de haute confiance.
66 protéines humaines ou facteurs des cellules hôtes qui sont la cible de 69 médicaments.

Le criblage d'un sous-ensemble de ces médicaments a identifié des agents antiviraux : des inhibiteurs de la traduction des ARN messagers et des régulateurs des récepteurs Sigma1 et Sigma2.

cytoscape edge node noeud arete layout network interactome interactomique PPI proteome spectrometrie masse spectrometry tandem protein sequence domaine omics biochimej

Source : Gordon et al. (2020) - Losanges rouges : protéine du virus SARS-CoV-2 / Cercles : protéines de l'homme (cercles oranges : cibles de médicaments).

Voir un développement de ces notions et des résultats de cette étude.

6. Différents types de graphes pour représenter les interactions protéine-protéine

Un interactome peut décrire des dizaines de milliers d'interactions qui forment un réseau biologique généralement représenté par un graphe qui peut être défini comme une paire (V,E) :

V est un ensemble de sommets représentant les noeuds. Dans un réseau d'interactions protéine-protéine, les noeuds représentent les protéines.
E est un ensemble d'arêtes (ou arcs) représentant les interactions entre les noeuds (protéines).

Exemple ci-dessous : une partie du réseau d'interactions établies par Dnm1, protéine clé de la fission des mitochondries.

interactome interactomique PPI proteome spectrometrie masse spectrometry tandem protein sequence domaine omics biochimej

Source : STRING

α. Graphe unique non orienté ("undirected single graph")

Les modèles d'interactions physiques utilisent fréquemment des arêtes non orientées :

Si la protéine A interagit avec la protéine B, alors B interagit avec A. L'interaction est établie dans les deux sens (relation symétrique) : le graphe est dit non orienté.
Le nombre d'arêtes reliant un noeud dans un graphe non orienté est le degré du noeud.

Une connexion à tronçons multiples se compose d'au moins 2 tronçons ayant les mêmes extrémités : chaque connexion indique un type d'information différent.

Cette caractéristique est importante car, au sein des les réseaux d'interactions protéine-protéine, deux protéines peuvent être : (i) liées sur le plan évolutif; (ii) co-citées dans la littérature; (iii) co-exprimées dans certaines expériences.

Ces 3 types d'interactions ont des significations différentes.
La base de données d'interactions protéine-protéine STRING est construite sur ces 3 types d'interactions entre protéines.

β. Graphe orienté ("directed graph")

Les techniques expérimentales peuvent se traduire par une "asymétrie" :

Si la protéine A est une proie ("prey"), une interaction avec la protéine B peut être mise en évidence.
Inversement, l'utilisation de B comme proie peut ne pas révéler d'interaction avec A.

Un graphe orienté est défini comme un triplet ordonné G = (V,E,f), où f est une fonction qui associe chaque élément de E à une paire ordonnée de sommets dans V.

Les paires ordonnées de sommets sont appelées arêtes orientées ou flèches : une arête E = (i,j) est orientée de i vers j.

Les graphes orientés sont adaptés à la représentation de processus biologiques caractérisés par des interactions séquentielles entre protéines avec un flux d'information au travers du réseau.
Il traduisent donc particulièrement bien les voies métaboliques, les voies de transduction du signal ou les voies de régulation.

δ. Graphique pondéré ("weighted graph")

Un graphe pondéré est défini comme un graphe G = (V,E) où V est un ensemble de sommets et E un ensemble d'arêtes entre ces sommets lui associant une fonction de poids (w : E->R, R est l'ensemble des nombres réels).

Les graphes pondérés sont les réseaux les plus utilisés en bioinformatique.

Le plus souvent, le poids w_ij de l'arête entre les nœuds i et j représente la pertinence de l'interaction : plus l'interaction est prouvée, plus son poids est important.
Exemple de co-occurrence de données biologiques ayant une incidence sur leur pertinence et donc sur le poids des interactions : fouille de données textuelles et/ou co-expression de gènes et/ou similarités de séquences ou de structures entre protéines.

γ. Graphe bipartie ("bipartite graph")

Un graphe bipartie (ou bigraphe ou réseau à 2 modes) est un graphe non orienté G = (V, E) dans lequel V peut être partitionné en 2 ensembles V1 et V2 tels que (u,v) ∈ E implique soit (u ∈ V1 et v ∈ V2) OU (v ∈ V1 et u ∈ V2).

En d'autres termes, chaque arête (E) relie un sommet de V1 à un sommet de V2.
Ce type de graphe est adapté à la représentation des liens [enzyme - réaction] dans les voies métaboliques et à l'annotation sur la base d'une ontologie.

V est un ensemble de sommets représentant les noeuds. Dans un réseau d'interactions protéine-protéine, les noeuds représentent les protéines.

E est un ensemble d'arêtes (ou arcs) représentant les interactions entre les noeuds (protéines).

Figure ci-contre :

A. Graphe non orienté : |V| = 4, |E| = 4

B. Graphe orienté : flèches, |V| = 4, |E| = 5

C. Graphe pondéré : valeurs de poids le long des flèches, |V| = 4, |E| = 5

D. Graphe bipartie : ensemble U et ensemble V, |V| = 7, |E| = 6

Source : Pavlopoulos et al. (2011)

cytoscape edge node noeud arete layout network interactome interactomique PPI interactomics protein interaction biochimej

7. Quelques ressources pour utiliser le logiciel CYTOSCAPE

Ce logiciel peut-être utilisé en ligne directement (web.cytoscape.org).
"Basic Data Visualization" : explication complète d'un cas concret (Gal1, Gal4 / répression , ... ) et interprétation biologique du résultat final.
Tutoriel : analyse de données d'expression; enrichissement fonctionnel; chargement de réseaux; import de données; visualisation des données ...
Description de l'utilisation des bases de données (String, IntAct, ...) et enrichissement.
Analyse spécifique de réseaux d'ARN issus d'une analyse "RNA-Seq".

Publications scientifiques qui ont utilisé Cytoscape : de superbes figures qui illustrent toutes les facettes de représentation des graphes de réseaux d'interactions.

Quelques éléments concernant le logiciel Cytoscape
Caractéristiques du réseau d'interactions	Degré : information sur les noeuds uniques Diamètre : la plus grande distance entre deux noeuds Rayon : le minimum du chemin maximum entre deux noeuds Longueur de trajet caractéristique ("characteristic path") : longueur moyenne du trajet le plus court Densité : mesure dans laquelle un réseau est entièrement connecté Hétérogénéité : tendance du réseau à contenir des noeuds du "hub" Composants connectés : nombre de groupes de noeuds déconnectés Motif : 3 noeuds ou plus / modules ou communautés ("modules", "communities") : groupes plus importants de noeuds
Types de dispositions ("layout") Source des images : Cytoscape Tutorials	L'algorithme pour effectuer la disposition des interactions est choisi dans le menu "Layout -> Settings". La disposition par défaut de Cytoscape est "Prefuse Force-directed Layout". Simple : grille ("grid") - figure ci-contre. Hiérarchique ("hierarchical") : données sous forme d'arborescence ou hiérarchique. Mieux adaptée lorsqu'il n'y a pas de boucles. Circulaire - radial ("circular - radial" - ci-dessous à gauche) : organise les noeuds autour d'un cercle. Elle peut utiliser les attributs de noeud pour gouverner la position (exemple : degré trié - "degree sorted"). Dirigée de force ("force-directed" - ci-dessous à droite) : simule les bords comme des ressorts. Représentation qui peut être pondérée ou non pondérée. Combinaison de disposition ("combining layouts") : Utilise une disposition générale (dirigée de force) pour l'ensemble du graphe. Utilise une disposition hiérarchique ou radiale pour focaliser sur une partie du graphe. Disposition multicouches ("multi-layer layouts") : graphe qui arrange chaque partition puis arrange les partitions. Disposition de cercles triés par degrés ("Degree Sorted Circle Layout") : Les noeuds sont triés par degré (connectivité - "connectedness"). Le noeud de degré le plus élevé est à la position "6 heures". Les autres noeuds sont triés dans le sens antihoraire par degré décroissant.
Import des données de réseaux ("network data") PPI (ou autres) contenues dans des fichiers ou des bases de données	Import des données de réseau d'interactions dans de très nombreux formats. Par exemple : Excel, TSV, CSV, ... BioPAX : ontologie pour représenter les connaissances des voies biologiques (PPI, métabolisme, signalisation, voies de régulation des gènes). C'est un format d'échange de données des voies biologiques. XGMML ("eXtensible Graph Markup and Modelling Language") : langage de balise et de modélisation de graphes. SBML ("Systems Biology Markup Language") : format basé sur XML. Norme pour représenter les modèles informatiques en biologie des systèmes. SIF ("Simple Interaction Format") : format d'interaction simple. GML ("Graph Markup Language") : langage de balise graphique.
Import de réseaux d'interactions depuis les bases de données	En implémentant des applications additionnelles ("apps"), le logiciel Cytoscape peut importer des données de réseaux d'interactions depuis de nombreuses bases de données ("public repositories"). En voici quelques exemples : PSICQUIC NDEx STRING (application "stringApp") IntAct (application "IntActApp") Reactome (application "ReactomeFI app") WikiPathways (application "WikiPathways app") Pathway Commons (application "CyPath2 app") Automatisation des taches avec des scripts (ligne de commande / CyREST via R / Python / ...).

8. Outils d'analyse et de visualisation en ligne des réseaux de PPI

NetworkAnalyst : "integrative approaches for protein–protein interaction network analysis and visual exploration": outil remarquable d'analyse en ligne.

MIST (Harvard) ("Molecular interaction Search Tool") : notamment de très nombreux organismes et des listes pré-établies de protéines.

NetworkX : ensemble logiciel en Python pour la création, la manipulation et l'étude de la structure, de la dynamique et des fonctions de réseaux complexes.

AlphaPulldown : ensemble logiciel en Python pour l'analyse des PPI et la modélisation - visualisation d'oligomères avec AlphaFold-Multimer.

Outil en ligne de visualisation des interactomes du SARS-CoV-2 : 3D SARS-CoV-2-Human Interactome Browser

9. Liens Internet et références bibliographiques

Cours en ligne "Protein-protein interactions"

Pathway Figure OCR : extraction d'informations publiées dans la littérature.

Pathway Commons

Cytoscape User Manual

Figures d'articles scientifiques créées avec Cytoscape

Human Reference Interactions

3D SARS-CoV-2-Human Interactome Browser

HURI

SARS Browser

Hart et al. (2006) "How complete are current yeast and human protein-interaction networks ?" Genome Biol. 7, 120

Chatr-aryamontri et al. (2007) "MINT: the Molecular INTeraction database" Nucleic Acids Res. 35, D572 - D574

Venkatesan et al. (2009) "An empirical framework for binary interactome mapping" Nat. Methods 6, 83 - 90

Pavlopoulos et al. (2011) "Using graph theory to analyze biological networks" BioData Min. 4, 10

Szklarczyk et al. (2011) "The STRING database in 2011: functional interaction networks of proteins, globally integrated and scored" Nucleic Acids Res. 39, D561 - D568

Kerrien et al. (2012) "The IntAct molecular interaction database in 2012" Nucleic Acids Res. 04, D841- D846

Article

Fernandes et al. (2016) "Systematic analysis of the gerontome reveals links between aging and age-related diseases" Hum. Mol. Genet. 25, 4804 - 4818

Hu et al. (2017) "Functional Analysis of Human Hub Proteins and Their Interactors Involved in the Intrinsic Disorder-Enriched Interactions" Int. J. Mol. Sci. 18, 2761

Article

Noor et al. (2019) "Biological insights through omics data integration" Curr. Opin. Sys. Biol. 15, 39 - 47

Ivarsson & Jemth (2019) "Affinity and specificity of motif-based protein-protein interactions" Curr. Opin. Struct. Biol. 54, 26 - 33

Gordon et al. (2020) "A SARS-CoV-2 protein interaction map reveals targets for drug repurposing" Nature 583, 459 - 468

Gogl et al. (2020) "Dual Specificity PDZ- and 14-3-3-Binding Motifs: A Structural and Interactomics Study" Structure 28, 747 - 759

Bajpai et al. (2020) "Systematic comparison of the protein-protein interaction databases from a user's perspective" J. Biomed. Inform. 103, 103380

Luck et al. (2020) "A reference map of the human binary protein interactome" Nature 580, 402 - 408

Article

Karatzas et al. (2022) "The network makeup artist (NORMA-2.0): distinguishing annotated groups in a network using innovative layout strategies" Bioinform. Adv. 2, vbac036

Srivastava et al. (2022) "Protein prediction models support widespread post-transcriptional regulation of protein abundance by interacting partners" PLoS Comput. Biol. 18, e1010702

Ghadie & Xia (2022) "Are transient protein-protein interactions more dispensable ?" PLoS Comput. Biol. 18, e1010013

Kim et al. (2023) "A proteome-scale map of the SARS-CoV-2-human contactome" Nat. Biotechnol. 41, 140 - 149

Szklarczyk et al. (2023) "The STRING database in 2023: protein-protein association networks and functional enrichment analyses for any sequenced genome of interest Nucleic Acids Res. 51, D638 - D646

Article

Kurbatov et al. (2023) "The Knowns and Unknowns in Protein–Metabolite Interactions" Int. J. Mol. Sci. 24, 4155

Teulière et al. (2023) "Interactomics: Dozens of Viruses, Co-evolving With Humans, Including the Influenza A Virus, may Actively Distort Human Aging" Mol. Biol. Evol. 40, msad012

Michaelis et al. (2023) "The social and structural architecture of the yeast protein interactome" Nature 624, 192 - 200

Kosoglu et al. (2024) "Structural coverage of the human interactome" Brief. Bioinform. 25, bbad496

Arteaga & Poptsova (2025) "Prediction of protein-protein interactions using point transformer and spherical Convex Hull graphs" Comput. Struct. Biotechnol. J. 31, 82 - 93

Article