Réseau d'interactions protéine-protéine - Cellules individualisées ("Single-Cell").


Voir l'ensemble de ressources dédiés aux interactions entre macromolécules biologiques.

 

Exercice 1

Soit une cellule d'un volume de 103 µm3 avec une concentration totale de protéines = 5 µM :

  • Combien de molécules de protéines y a-t-il dans cette cellule ?
  • Combien de molécules de protéines d'un type donné y a-t-il si l'on considère qu'il y a 10.000 types différents de protéines dans cette cellule ?
  • Le nombre d'Avogadro (N) est le nombre d'atomes ou de molécules dans une mole de matière = 6,022 1023 mol-1.

a. Concentration totale de protéines :

5 µM (5 10-6 moles.L-1) dans 1 cellule de volume 1 pL
Soit : 5 10-6 moles dans 1012 pL => 5 10-18 moles dans 1 pL

c. Nombre de molécules d'une protéine d'un type donné :

x = (5 10-18 moles . 6,022 1023 molécules / 1 mole)
3 106 molécules de protéines dans 1 cellule de volume 1 pL.

Et : (3 106 molécules / 104 types de protéines) ≈ 300 molécules d'une protéine d'un type donné.

b. Nombre d'Avogadro (N) :

1 mole -> 6,022 1023 molécules
soit : 5 10-18 moles -> x molécules

Retour haut de page

Exercice 2

Aller au site "STRING exercises" : faire l'exercice 1.

Coller "INSR" dans la fenêtre "Protein Name" et choisir "Homo sapiens". Puis "SEARCH" puis "CONTINUE".

Analyser le réseau créé en explorant les options des différentes fenêtres en bas. En particulier :

  • "Legends" pour comprendre les symboles, les couleurs et la signification de la représentation.
  • "Settings" => "full STRING network" vs. "physical subnetwork"; "evidence" vs. "confidence"
  • Interpréter les données dans "Analysis", en particulier les données d'ontologie "Functional enrichments in your network".
  • Créer des sous-groupes en modifiant les paramètres "Clustering Options" de la fenêtre "Clusters".

Retour haut de page

Exercice 3 : représentation de réseau avec Cytoscape

a. Aller aux réseaux analysables en ligne de NDEX. Choisir l'exemple "PANCREATIC BETA CELL" [passer "Skip" & "Got it"].

Qu'est-ce que STAT3 ?

  • STAT3 ("Signal transducer and activator of transcription 3") est un membre de la famille des facteurs de transcription STAT.
  • C'est une protéine impliquée dans la transduction de signal. Elle active la transcription en médiant les réponses cellulaires aux interleukines et autres facteurs de croissance.

Retour haut de page

b. Trouver un article scientifique décrivant un lien entre STAT3 et FOXA2.

Tang et al. (2024) "Mediation of FOXA2/IL-6/IL-6R/STAT3 signaling pathway mediates benzo[a]pyrene-induced airway epithelial mesenchymal transformation in asthma" Environmental Pollution 357, 124384

Le benzo[a]pyrène (BaP) est un polluant toxique qui augmente l'incidence et la gravité de l'asthme. Après action du BaP :

  • La transcription de FOXA2 dans les poumons de souris asthmatiques diminue. FOXA2 ("Forkhead box protein A2") est un facteur de transcription de la sous-famille "Forkhead box" - FOX.
  • La production et la sécrétion de la cytokine interleukine-6 (IL-6) sont stimulées.
  • La phosphorylation de STAT3 et sa translocation dans le noyau augmentent.
  • Ces effets entraînent des modifications des marqueurs de la transition épithélio-mésenchymateuse ("epithelial-to-mesenchymal transition") ou TME.

Le BaP active la voie de signalisation [IL-6 / IL-6R (récepteur de l'interleukine 6 / STAT3] pour favoriser la TME des voies respiratoires dans l'asthme.

protein interaction interactomique network reseau node omique omics interactomics STAT3 FOXA2 IL6 biochimej

Source : Tang et al. (2024)

Autre article : Hao et al. (2014) "Mycoplasma pneumoniae Modulates STAT3-STAT6/EGFR-FOXA2 Signaling To Induce Overexpression of Airway Mucins" Infect. Immun. 82, 5246 - 5255

Retour haut de page

c. Revenir à la page de NDEX. Cliquer sur l'icône orange protein interaction interactomique network reseau node omique omics interactomics STAT3 FOXA2 IL6 cytoscape biochimej (en haut à droite) pour ouvrir le réseau dans l'application Cytoscape.

On peut afficher le réseau dans une fenêtre séparée en cliquant sur l'icône "Detach View" (flèche blanche vers le haut dans un petit cadre noir, en bas de la fenêtre qui affiche le réseau).

Retour haut de page

d. Cliquer sur le noeud "STAT3" puis sur l'icône "deux maison" ("First Neighbors of Selected Nodes") en haut.

Déterminer les plus proches voisins de STAT3 : SHH, SOX2, FGF8, FOXA2 et MSX1.

Retour haut de page

e. Regroupement des nœuds

  • Avec la touche "cmd" (Mac) ou touche "Maj" (PC), sélectionner tous les nœuds (rectangles de la colonne) du sous-réseau "Regionalisation" : ils sont surlignés en jaune.
  • Avec un "clic droit" ouvrir le menu "Group -> Group Selected Nodes" et attribuer le nom "Regionalisation" au groupe créé.
  • Puis faire un "double-clic" sur l'un des nœuds jaunes pour tous les regrouper en un seul qui affiche le nom choisi.
  • On restaure le sous-réseau dégroupé avec un "double-clic" sur le nœud.

Recommencer avec les 3 autres sous-réseaux (nœuds en colonnes) du réseau.

f. Modification de l'apparence du réseau

  • Ouvrir l'onglet vertical "Style" (icône "pinceau" tout à gauche).
  • Ouvrir le menu "WP2855 – Dopaminergic neurogenesis - Homo sapiens-Style" : choisir "Default" ou "Gradient1" (par exemple) ou tout autre selon l'inspiration.
  • Sélectionner la fenêtre "Node" (tout en bas). Avec les valeurs des paramètres de la colonne "Default", modifier l'apparence des nœuds (couleur, encadrement, épaisseur du trait, largeur du cadre, ...).
  • Sélectionner la fenêtre "Edge" (tout en bas) et modifier les arrêtes entre les nœuds (flèche ou autre).
  • Sélectionner la fenêtre "Network" (tout en bas) et modifier le fond de l'image ("Background paint").

Essayer de reproduire un réseau ayant une apparence comme ceux présentés en exemple ci-dessous (1er = "Default" / 2è = "Gradient1" ) ou toute autre apparence selon l'inspiration).

protein interaction interactomique network reseau node omique omics interactomics biochimej

Sauvegarder la figure au format et à la taille désirés avec le menu protein interaction interactomique network reseau node omique omics interactomics biochimej.

Retour haut de page

Exercice 4

Voir le paragraphe "4. Démarche pour la construction de réseaux d'interactions".

Aller à l'exercice en ligne de l'EBI sur l'interactomique : remplir la matrice d'adjacence ("the adjacency matrix") du graphe proposé.

Retour haut de page

Exercice 5

Analyser le paragraphe "Identification of existing drugs targeting SARS-CoV-2 human host factors" et la Figure 5 de l'article Gordon et al. (2020) "A SARS-CoV-2 Protein Interaction Map Reveals Targets for Drug-Repurposing" Nature 583, 459 – 468.

Des ligands interagissant avec certaines protéines humaines ont été recherchés afin de perturber l'interactome entre ces protéines et celles du virus SARS-CoV-2.

Les molécules ont été classées par ordre de priorité en fonction :

  • De la signification statistique de l'interaction [protéines humaines - protéines virales].
  • De leur statut en tant que médicament : (i) médicament approuvé ; (ii) nouveau médicament expérimental (IND : "clinique") ; (iii) candidat préclinique.
  • De leur sélectivité.
  • De leur disponibilité.

protein interaction interactomique network reseau node omique omics interactomics virus SARS biochimej

Source : Figure 5 "Drug-human target network" - Gordon et al. (2020)

  • Les recherches chimio-informatiques sur les interactions humaines dans le "Guide de pharmacologie" IUPHAR/BPS (2020-3-12) et dans la base de données ChEMBL25 ont révélé 16 médicaments approuvés (en vert), 3 nouveaux médicaments expérimentaux (test cliniques, en jaunes) et 18 candidats précliniques (en violet).
  • La recherche bibliographique spécifique de la cible et de la voie a révélé 13 médicaments approuvés, 9 nouveaux médicaments expérimentaux (test cliniques) et 10 candidats précliniques.

Sur les 332 cibles humaines qui interagissent avec les protéines d'appât viral avec une signification élevée, 63 cibles possèdent 69 [médicaments/IND/molécules précliniques] qui les modulent et sont intégrées au réseau d'interactions protéiques.

Parmi ces molécules, des ligands des récepteurs sigma1 et sigma2 ont été testés : halopéridol, PB28, PD-144418 et hydroxychloroquine (essais cliniques chez des patients atteint par la COVID-19).

La zotatifine (IC90 = 37 nM) et PB28 (IC90 = 278 nM) inhibent puissamment le virus SARS-CoV-2 :

Retour haut de page

Exercice 6

a. Analyser la figure 3 de l'article Reys & Labesse (2022) "SLiMAn: An Integrative Web Server for Exploring Short Linear Motif-Mediated Interactions in Interactomes".

De très nombreuses interactions protéine-protéine impliquent des domaines qui contiennent des motifs appelés "motifs linéaires courts" ("Short Linear Motifs" - SLiM) :

  • Ces motifs sont situés fréquemment dans des régions ou des boucles désordonnées (IDR/IPR).
  • La longueur en acides aminés réduite et la faible conservation de leurs séquences, de même que leur nature intrinsèquement non structurée, rendent difficile la détection des SLiM.
  • Le serveur Web SLiMAn ("Short Linear Motif Analysis") permet d'analyser des données d'interactomique.

La figure ci-dessous représente 4 réseaux incluant 13 protéines (mentionnées dans la base de données BioGRID) qui interagissent avec la protéine FRAT2.

FRAT2 inhibe la protéine-kinase GSK-3 ("Glycogen Synthase Kinase-3") et régule positivement la voie de signalisation Wnt en stabilisant la β-caténine grâce à l'association avec GSK-3.

omique omics transcriptomique transcriptomics interactomics protein interaction interactomique network reseau node enzyme biochimej

Source : Reys & Labesse (2022)

Réseau A : généré avec les données d'interactions de la base de données d'interactions STRING.

Réseau B : Idem à partir de la base de données Interactome3D.

Réseau C : Idem à partir de la base de données Proteo3DNet.

  • La ligne épaisse traduit l'interaction domaine - domaine [ERB2-EGFR].
  • La ligne pointillée rose traduit l'interaction [ERB2-XPO1] basée sur la prédiction avec l'algorithme ELM.
  • Les lignes pointillées bleues traduisent les interactions liées à la phosphorylation des protéines basée sur la prédiction avec ELM.
    • ELM ("Extreme Learning Machines") : algorithme d'apprentissage machine.
    • Il attribue de manière aléatoire tous les paramètres cachés des nœuds de réseaux appelés "réseau à action directe à une seule couche cachée" ("Single-hidden Layer Feed-forward Networks" - SLFN) et calcule les poids de sortie des SLFN.

Réseau D : Idem à partir de la base de données SLiMAn.

  • Ligne pointillée rose : interaction [FRAT2-XPO1] avec un niveau de confiance élevé.
  • Lignes pointillées bleues : interaction basée sur les phosphorylations par GSK-3β avec un niveau de confiance faible.

b. Aller à BioGRID.

  • Combien de protéines interagissent avec FRAT2 de l'homme ?
  • Pourquoi le chiffre est-il différent de celui de l'article ?

Réponses : 26 protéines. Les données de l'article sont antérieures à 06/2022 (date de publication de l'article).

Retour haut de page

Exercice 7 - "Single-Cell"

Analyser et décrire la figure 1 de l'article Clark et al. (2023) "Microfluidics-free single-cell genomics with templated emulsification" Nat. Biotechnol. 41, 1557 - 1566

La technique de séquençage instantané par répartition des particules ("Particle-templated instant partition sequencing" - PIP-seq) permet l'encapsulation de cellules dans des gouttelettes en utilisant la taille de billes pour contrôler le volume des gouttelettes :

  • Contrairement à la microfluidique, le nombre de gouttelettes évolue en fonction du volume total du récipient, et non du temps d'émulsification.
  • Cette technique permet ainsi de traiter des milliers d'échantillons ou des millions de cellules en quelques minutes.

Par exemple, avec un taux de collision de 6% incluant les doublets de cellules et la réutilisation des codes-barres, l'émulsification à base de particules dans des tubes de différents volumes génère des émulsions monodispersées capables de coder par codes-barres (figure du haut ci-dessous) :

  • 3.500 cellules avec 35 µl d'hydrogel à codes-barres dans un tube de 500 µl.
  • 225.000 cellules avec 2 ml d'hydrogel à codes-barres dans un tube de 15 ml.
  • 1 million de cellules avec 10 ml d'hydrogel à codes-barres dans un tube de 50 ml.

La technique PIP-seq est également adaptable aux formats de plaques à 96, 384 et 1536 puits (figure du bas).

microfluidique microfluidic single cell multimodal cellule unique individualise goutelette droplet code barre barcode omique omics transcriptomique transcriptomics interactomics protein enzyme biochimej

Source : Clark et al. (2023)

Retour haut de page

Exercice 8 - "Single-Cell trajectories"

a. Rappeler la notion de trajectoires. Expliquer la signification des bifurcations et des branches.

La grande diversité cellulaire résulte du caractère asynchrone de l'évolution des cellules et de l'ensemble des processus biologiques.

L'analyse bioinformatique de l'inférence des trajectoires permet de décrire la progression de chaque cellule individualisée de chaque type de cellules au cours des processus biologiques qui impliquent une évolution de ces cellules (différenciation, développement, processus pathologique, ...).

Les trajectoires mettent en évidence des points de ramifications où le devenir des cellules diverge : ces ramifications traduisent donc des décisions cruciales, à certains stades de ces processus, qui déterminent des destins cellulaires distincts.

Retour haut de page

b. Analyser la figure suivante.

microfluidique microfluidic single cell multimodal cellule unique individualise goutelette droplet code barre barcode omique omics transcriptomique transcriptomics interactomics protein enzyme biochimej

Source : Dynverse & Cannoodt R. (2019)

Cette figure est la visualisation d'un modèle de trajectoires après réduction de dimensionnalité et regroupement de différents types de cellules.

Ces analyses bioinformatiques sont appliquées à un ensemble de cellules individualisées où les fibroblastes embryonnaires de souris (MEF) se différencient en neurones et myocytes.

Retour haut de page

Exercice 9
Assertions Réponses
A1. Seules les protéines ont une dynamique conformationnelle. FAUX
A2. Toutes les protéines interagissent avec un gène. FAUX
A3. Toutes les méthodes d'étude des interactions protéine-protéine permettent de déterminer la cinétique d'association de ces protéines. FAUX
A4. Certaines protéines interagissent avec un gène. VRAI
A5. Toutes les méthodes d'étude des interactions protéine-protéine permettent de déterminer la constante de dissociation de ces protéines. VRAI
A6. Le pseudo-temps est le positionnement d'une cellule le long de la trajectoire qui quantifie la progression d'un processus biologique. VRAI
A7. Une technique utilisant une/des protéine(s) de fusion est rapide et simple à appliquer. FAUX
A8. La structure des macromolécules est l'élément central qui contrôlent leurs interactions. VRAI
A9. Les anticorps sont un outils important pour l'étude des interactions protéine-protéine. VRAI
A10. Les interactions protéines connues sont en très grande majorité issues de données expérimentales (biochimiques, biophysiques, …). FAUX
A11. La technique appelée double-hybrides est une technique à très haut débit. VRAI
A12. Tout comme les alignements de séquences et les arbres phylogénétiques, il n'y a pas de réseau d'interactions « juste » ou faux ». VRAI
A13. Certaines protéines interagissent avec plusieurs dizaines d'autres protéines. VRAI
A14. Toutes les protéines interagissent avec au moins une autre protéine. FAUX
A15. Plus le nombre de molécules d'un ligand se fixant sur les sites de fixation d'une protéine est élevé, plus la variation d'enthalpie de cette réaction est faible. FAUX
A16. Plus KD est petite, plus l'affinité de liaison du ligand pour son site de fixation est grande. VRAI
A17. La prédiction de trajectoire décrit l'évolution de chaque cellule en ordonnant ses états selon son processus de développement. VRAI
Voir l'ensemble de ressources dédiés aux interactions entre macromolécules biologiques.

Retour haut de page

Exercice 10

a. Analyser le paragraphe "2.2. Protein Enrichment Analysis" et la Figure 2 de l'article Chiaradia et al. (2019) "Proteome Alterations in Equine Osteochondrotic Chondrocytes" Int. J. Mol. Sci. 20, 6179

b. Partie "Materials and Methods" => paragraphe "4.4. Protein Enrichment Analysis" : quelles sont les 2 bases de données et les 2 applications ("plugins") de Cytoscape utilisés pour analyser les réseaux regroupés sur la base de la fonction des protéines dérégulées dans OC ?

Réponse :

  • 2 bases de données STRING et Panther
  • Les "plugins" CluePedia et ClueGO

ClueGO permet de visualiser les termes biologiques non redondants pour de grands groupes de gènes dans un réseau fonctionnellement regroupé.

  • A partir des sources d'ontologies utilisées, les termes sont sélectionnés selon différents critères de filtrage.
  • Les termes apparentés qui partagent des gènes associés similaires peuvent être fusionnés pour réduire la redondance.

CluePedia permet de rechercher de nouveaux marqueurs potentiellement associés à des voies ("pathways").

  • CluePedia calcule les dépendances statistiques linéaires et non linéaires à partir de données expérimentales.
  • Les gènes, les protéines et les miARN liés sur la base d'informations in silico et/ou expérimentales sont intégrés dans un réseau avec les termes/voies ClueGO.

c. Quelles informations ontologiques et quelles ressources ont permis d'enrichir les réseaux ?

Réponse : les processus biologiques, les fonctions moléculaires, le composant cellulaire, la base de données Reactome, les annotations de KEGG et de WikiPathways.

d. Quels sont les groupes fonctionnels les plus importants ?

Réponse : la glycolyse et la gluconéogenèse, le développement de la plaque de croissance et du cartilage, la régulation positive de l'import de protéines, l'activité du médiateur de l'adhésion cellule-cellule et le nucléoïde mitochondrial.

 

Liens Internet et références bibliographiques

Cours en ligne "Protein-protein interactions"

Pathway Figure OCR : extraction d'informations publiées dans la littérature.

Pathway Commons

Cytoscape User Manual

Figures d'articles scientifiques créées avec Cytoscape

EMBL-EBI Training

OCR

Pathway Commons

Cytoscape

PMC - PubMed (NCBI)

3D SARS-CoV-2-Human Interactome Browser

SARS-CoV-2 Interactome 3D

SARS Browser

Interactome 3D

Chatr-aryamontri et al. (2007) "MINT: the Molecular INTeraction database" Nucleic Acids Res. 35, D572 - D574

Pavlopoulos et al. (2011) "Using graph theory to analyze biological networks" BioData Min. 4, 10

Szklarczyk et al. (2011) "The STRING database in 2011: functional interaction networks of proteins, globally integrated and scored" Nucleic Acids Res. 39, D561 - D568

Kerrien et al. (2012) "The IntAct molecular interaction database in 2012" Nucleic Acids Res. 04, D841- D846

Article

Article

Article

Article

Fernandes et al. (2016) "Systematic analysis of the gerontome reveals links between aging and age-related diseases" Hum. Mol. Genet. 25, 4804 - 4818

Hu et al. (2017) "Functional Analysis of Human Hub Proteins and Their Interactors Involved in the Intrinsic Disorder-Enriched Interactions" Int. J. Mol. Sci. 18, 2761

Article

Article

Noor et al. (2019) "Biological insights through omics data integration" Curr. Opin. Sys. Biol. 15, 39 - 47

Ivarsson & Jemth (2019) "Affinity and specificity of motif-based protein-protein interactions" Curr. Opin. Struct. Biol. 54, 26 - 33

Cannoodt R. (2019) "Modelling single-cell dynamics with trajectories and gene regulatory networks" PhD thesis - Université de Gand

Saelens et al. (2019) "A comparison of single-cell trajectory inference methods" Nat. Biotechnol. 37, 547 - 554

Article

Article

Thèse

Article

Gordon et al. (2020) "A SARS-CoV-2 protein interaction map reveals targets for drug repurposing" Nature 583, 459 - 468

Gogl et al. (2020) "Dual Specificity PDZ- and 14-3-3-Binding Motifs: A Structural and Interactomics Study" Structure 28, 747 - 759

Bajpai et al. (2020) "Systematic comparison of the protein-protein interaction databases from a user's perspective" J. Biomed. Inform. 103, 103380

Article

Article

Article

Karatzas et al. (2022) "The network makeup artist (NORMA-2.0): distinguishing annotated groups in a network using innovative layout strategies" Bioinform. Adv. 2, vbac036

Kim et al. (2023) "A proteome-scale map of the SARS-CoV-2-human contactome" Nat. Biotechnol. 41, 140 - 149

Szklarczyk et al. (2023) "The STRING database in 2023: protein-protein association networks and functional enrichment analyses for any sequenced genome of interest Nucleic Acids Res. 51, D638 - D646

Article

Article

Article

Kurbatov et al. (2023) "The Knowns and Unknowns in Protein–Metabolite Interactions" Int. J. Mol. Sci. 24, 4155

Teulière et al. (2023) "Interactomics: Dozens of Viruses, Co-evolving With Humans, Including the Influenza A Virus, may Actively Distort Human Aging" Mol. Biol. Evol. 40, msad012

Michaelis et al. (2023) "The social and structural architecture of the yeast protein interactome" Nature 624, 192 - 200

Article

Article

Article

Lim et al. (2024) "Advances in single-cell omics and multiomics for high-resolution molecular profiling" Exp. Molec. Med.

Cui et al. (2024) "scGPT: toward building a foundation model for single-cell multi-omics using generative AI" Nat. Methods 21, 1470 - 1480

You et al. (2024) "Systematic comparison of sequencing-based spatial transcriptomic methods" Nat. Methods 21, 1743 - 1754

Wu et al. (2024) "Simultaneous single-cell three-dimensional genome and gene expression profiling uncovers dynamic enhancer connectivity underlying olfactory receptor choice" Nat. Methods 21, 974 - 982

Article

Article

Article

Article

Retour haut de page