Caractéristiques et moyens d'étude des interactions entre macromolécules biologiques

Préambule

1. La relation structure - fonction des macromolécules biologiques

2. Identification et quantification des protéines

a. Les protéomes et la protéomique
b. La protéomique spatiale

3. Notions d'interactomes

4. Quantification de l'interaction entre macromolécules biologiques

a. Constantes d'équilibre d'association KA et de dissociation KD
b. Equilibre de fixation d'un ligand sur une protéine et représentation de Scatchard

5. Les protéines ou régions intrinsèquement désordonnées (IDP/IDR)

a. Introduction et définitions
b. Affinité, spécificité et multivalence des interactions entre protéines
c. Rôles biologiques des IDP/IDR et avantages pour la cellule

6. Quelques méthodes pour prouver les interactions protéine-protéine

a. La technique de complémentation double-hybride
b. Autres méthodes de complémentation ou biochimiques
c. Méthodes physiques
 

7. La purification par chromatographie d'affinité couplée à la spectromètrie de masse ("AP-MS")

8. Application de la fluorescence à l'analyse des macromolécules biologiques

a. Principe de la fluorescence
b. L'extinction de fluorescence ("fluorescence quenching")
c. Le développement et la performance de molécules fluorescentes
d. La protéine fluorescente verte (GFP)

9. La technique du FRET appliquée aux molécules biologiques

a. Principe du phénomène de FRET entre protéines fluorescentes
b. Principe physique du FRET
c. Le couple [donneur / accepteur] du FRET
d. Le BRET ("Bioluminescence Resonance Energy Transfer")

10. Le FRET appliquée à l'étude de molécule unique ("single-molecule FRET")

a. Introduction
b. Le FRET dépend de la distance entre les deux fluorophores
c. Application du smFRET à l'étude de processus biologiques

11. La technique FISH

12. Apprentissage profond et prédiction des interactions protéine-protéine

13. Liens Internet et références bibliographiques

Retour haut de page

Préambule

Les interactions entre molécules au sein de la cellule et à la surface de la cellule sont l'élément clé de tous les processus cellulaires, donc de la vie.

  • Il s'établit à tout instant dans une cellule ou un compartiment sub-cellulaire un nombre incalculable d'interactions de divers types : liaisons hydrogène, ioniques, covalentes, électrostatiques, interactions hydrophobes, ...
  • Elles s'établissent entre toutes les catégories de molécules biologiques : acides nucléiques, protéines, oses, lipides, métabolites, ... sans oublier les molécules d'eau omniprésentes (ou presque) et la multitude d'ions.
  • Ces interactions régissent chacune des réactions élémentaires :
    • constitutives des dizaines de processus cellulaires (métabolisme, transcription - traduction, cycle cellulaire, photosynthèse, ...)
    • constitutives des dizaines de mécanismes de régulation de ces processus
  • Ces processus, à leur tour, assurent le fonctionnement d'un ensemble plus vaste : un compartiment sub-cellulaire, une cellule, un tissu, un organe, un organisme, un groupe d'organismes.
  • Le tout est programmé, contrôlé, orchestré avec une précision inégalée dans l'espace et dans le temps

En conséquence, il n'est pas un évènement qui se déroule dans une cellule ou à sa surface (reconnaissance et communication, réactions biochimiques, voie de signalisation, transports, processus plus globaux, ...) qui ne mette en jeu la rencontre (collision) suivie d'une éventuelle interaction entre molécules.

Cette rencontre est contrôlée notamment par de nombreux paramètres et/ou "acteurs".

Retour haut de page

a. Les molécules d'eau dans les cellules

Rappel : l'eau "libre" a une concentration de 55,5 M (masse d'1 L H20 = 1000 g / masse molaire (H20) = 18 g.mol-1).

Rappel du Nombre d'Avogadro ≈ 6,022 × 1023 mol-1
Masse d'une cellule de E. coli ≈ 10-12 g
Contenu en eau de E. coli ≈ 70%
N = [0,7 × 10-12 g / 18 g.mol-1] × 6,022 × 1023 mol-120 milliards de molécules d'eau / cellule E. coli.

L'eau représente 60 à 75 % du poids du corps humain. Elle est présente à l'intérieur (environ 2/3 des molécules) et à l'extérieur (environ 1/3 des molécules) des cellules d'un mammifère.

La distance moyenne entre les macromolécules dans le cytoplasme est d'environ 1 nm, soit 3 à 4 couches de molécules d'eau.

L'eau liquide forme un réseau dynamique de liaisons hydrogène, chaque liaison ayant une durée de vie moyenne d'environ 1 ps (10-12 s). Les molécules d'eau sont donc en mouvement permanent (liaison H établie / rompue) et contribuent à l'hydratation et la diffusion des molécules biologiques.

Il est capital de mentionner que le cytoplasme est dans un état physique qui s'apparente davantage à du "verre liquide" aux propriétés hydrodynamiques très différentes de l'eau liquide.

Retour haut de page

b. La concentration très élevée des molécules biologiques

Gamme de concentrations : 100 à 450 mg.mL-1 (5 - 40 % du volume cytoplasmique) / 300 à 400 mg.mL-1 chez E. Coli.

Or la concentration régit la vitesse des molécules donc la fréquence de leurs collisions efficaces (celles qui débouchent sur l'action attendue de cette rencontre).

interaction proteine interactome interactomique PPI molecule concentration eau H2O crowded cell collision biochimej

Figure ci-dessus : modèle d'un cytoplasme bactérien composé de protéines, d'ARN, de métabolites, d'ions et d'eau.
Source : Feig et al. (2017)

Quelques chiffres clés de la cellule
Type de molécule Quantité dans 1 cellule Type de cellule
Une concentration de 1 nM correspond à ≈ 1 molécule Escherichia coli
≈ 1000 molécules Hela
Une concentration de 100 mg/ml correspond à ≈ 106 - 107 molécules Escherichia coli
Nombre de protéines
Nombre de métabolites
Nombre de lipides
3 106 - 4 106
3 108
2 107
Escherichia coli
Nombre d'ARNm 15 103 - 40 103 Saccharomyces cerevisiae
Nombre de protéines "TATA Binding Protein"
Nombre de protéines LipL30
Nombre de facteurs de transcription AHR
20 103
40 103
12 103
Saccharomyces cerevisiae
Leptospira interrogans
lignée cellulaire de fibroblastes murins NIH 3T3
Source : B10NUMB3R5 ("Bionumbers", Harvard)

Retour haut de page

c. Les entités cellulaires (membranes, cytosquelette) qui délimitent et confèrent leur structure à certaines cellules.

d. La compartimentation de certaines cellules en organites :

  • Les types de molécules sont sélectionnés et séparés en fonction de la spécialisation de l'organite.
  • Les mécanismes de transport au travers de tous les types de membranes permettent la rencontre de molécules séparées physiquement.

Retour haut de page

e. Les condensats biomoléculaires ("biomolecular condensates") au sein de quasiment tous les types de cellules (procaryotes et eucaryotes) :

  • Ce sont des assemblages cellulaires sans membrane (par exemple, les granules P) qui concentrent et excluent sélectivement les biomolécules.
  • Ils jouent un rôle central dans divers processus cellulaires. Par exemple : la formation de l'hétérochromatine, la réparation de l'ADN, la transcription, le transport des ARN, la régulation du cycle cellulaire et la recombinaison méiotique, la spécification des cellules germinales, la signalisation cellulaire, la protection de la cellule contre certains stress ...

interaction proteine interactome interactomique PPI condensat membrane collision biochimej

Source : Goodsell & Lasker (2023)

  • Dans la figure ci-dessus, un microdomaine cellulaire sous la forme d'un condensat sans membrane défini (en jaune) est formé par la protéine désordonnée PopZ ("Polar organizing protein Z") aux 2 extrémités (pôles) de la bactérie Caulobacter crescentus.
  • Ces condensats de protéine PopZ rassemblent des complexes macromoléculaires et excluent les grosses molécules du cytoplasme (par exemple, les ribosomes) : ils recrutent ainsi sélectivement de nombreuses protéines qui régulent les 2 formes de vie de cette bactérie.
  • Dans cette figure, le microdomaine interagit avec des protéines du cytoplasme impliquées dans la régulation (en orange), des protéines liées à la membrane (en jaune-vert) et des protéines de liaison à l'ADN (en magenta).

Retour haut de page

1. La relation structure - fonction des macromolécules biologiques

a. Les différents types de ligands

La molécule qui se fixe sur une autre macromolécule biologique est appelée ligand de manière générique.

Un ligand peut être n'importe quel type de molécule biologique :

Retour haut de page

b. Propriétés physico-chimiques des macromolécules biologiques qui modulent et contrôlent leurs interactions

Les interactions physiques entre les molécules d'une cellule ou d'un compartiment sub-cellulaire traduisent, entre autre, l'aptitude structurale de ces molécules à se reconnaître.

  • La structure tridimensionnelle génère des conformations spatiales locales uniques aux propriétés physiques spécifiques (polarité, hydrophobicité, encombrement stérique, accessibilité au solvant, …) : ces conformations spatiales constituent les sites de fixation (ou de liaison, selon la terminologie).
  • La complémentarité de leur structure tridimensionnelle est ainsi l'élément clé de la reconnaissance entre deux ou plusieurs macromolécules biologiques.

Exemples :

  • Le site actif des enzymes : il est lui-même constitué du site de fixation des substrat(s), inhibiteur(s), effecteur(s) et du site catalytique où se déroule la réaction enzymatique.
  • La reconnaissance hautement spécifique entre un anticorps et l'épitope porté par son antigène.
  • La reconnaissance entre un facteur de transcription (protéine) et l'élément de réponse d'un gène (ADN) dont il est spécifique et dont il contrôle la transcription.

Retour haut de page

c. Forces de liaison qui maintiennent la structure des macromolécules

Ces forces sont non covalentes ou covalentes (ponts disulfures dans le cas des protéines) et très variées en nombre et du point de vue énergétique.

Dans le cas des protéines, ces forces sont intimement liées aux propriétés physico-chimiques des résidus d'acides aminés donc liées aux conditions cellulaires (pH, température, viscosité, pression).

Tous ces paramètres physico-chimiques sont maintenus relativement constants dans la cellule.

  • L'ensemble de ces paramètres dictent l'acquisition de la structure tridimensionnelle qui confère sa fonction à une macromolécule biologique.
  • La structure tridimensionnelle des macromolécules biologiques, notamment les protéines, résulte d'un grand nombre de conformations proches qui sont en équilibre.

Ces paramètres physico-chimiques contrôlent ces équilibres, donc la flexibilité ou dynamique conformationnelle de toutes les molécules biologiques.

  • Ce processus extrêmement fin permet à toutes les molécules d'adapter leurs structures les unes aux autres (exemple de l'ajustement induit du complexe enzyme-substrat).
  • Cette propriété est essentielle à la modulation (dans certains cas, la réversibilité) de la fonction des macromolécules dans la cellule.

Retour haut de page

d. La notion d'affinité entre macromolécules biologiques

C'est la caractéristique qui traduit la propension, dans un environnement et des conditions cellulaires donnés, de 2 (ou plus) macromolécules biologiques à se reconnaître et à interagir de manière réversible.

Outre la complémentarité de structure, le paramètre clé de l'interaction entre molécules est leur concentration respective.

  • L'affinité de liaison est quantifiable via la constante macroscopique de l'équilibre d'association (KA) ou de l'équilibre de dissociation (KD) des molécules qui interagissent.
  • Plus la valeur de la constante KD est petite, plus l'affinité de liaison du ligand pour son site de fixation est grande.

L'affinité de liaison est influencée par les paramètres physico-chimiques qui influencent la structure des macromolécules biologiques qui interagissent :

  • L'ensemble des interactions intermoléculaires non covalentes (liaison hydrogène, interactions électrostatiques, forces de Van der Waals et interactions hydrophobes).
  • La présence d'autres molécules effectrices qui modulent l'interaction.

Retour haut de page

e. Rôle majeur des modifications post-traductionnelles sur les interactions protéines-protéines

Les modifications post-traductionnelles (MPT) jouent un rôle déterminant dans la diversité des protéines (et leur localisation). Les MPT ont donc une importance capitale dans les interactions protéine-protéine et participent ainsi à la régulation de pratiquement tous les processus cellulaires.

interaction proteine interactome interactomique PPI translational modification post traductionnelle protein biochimej

Source : Virag et al. (2020)

Le protéome humain est dynamique : il varie en réponse à une multitude de stimuli et les MPT régulent l'activité cellulaire.

Selon la littérature, on estime que environ 5 % du protéome correspond aux enzymes qui catalysent 200 à 400 types de MPT :

Les MPT peuvent être introduites dans les protéines n'importe quand au cours de leur existence :

  • De nombreuses protéines sont modifiées à la fin de la traduction pour assurer leur repliement correct ou pour les diriger vers le compartiment sub-cellulaire où elles fonctionneront.
  • Certaines MPT ont lieu après que la protéine soit repliée et relocalisée pour activer ou inactiver leur activité catalytique ou moduler sa fonction biologique.
  • Enfin, certaines protéines sont marquées par des étiquettes (par exemple, l'ubiquitine) afin de les diriger vers les protéasomes pour qu'elles y soient hydrolysées.

Retour haut de page

Stratégies pour identifier les interactions protéine-protéine médiées par des MPT

Il n'est pas aisé de développer des méthodes fiables pour identifier des protéines interagissant exclusivement avec une MPT d'une autre protéine.

En effet :

  • Les acides aminés porteurs de MPT ne sont pas facilement incorporables dans les protéines, ce qui limite l'emploi de techniques telle que le double hybride.
  • Les MPT sont des modifications transitoires dynamiques, à des niveaux sous-stoechiométriques qui induisent des interactions relativement faibles (KD de l'ordre du µM).
  • L'une des conséquence est le faible rendement des expériences de type "pull-down assay" (technique de purification par affinité à petite échelle similaire à l'immuno-précipitation, mais l'anticorps est remplacé par un autre système d'affinité).
Stratégies pour générer et analyser des MPT des protéines
Stratégie Avantages Limitations
Protéines modifiées dans les cellules dans des conditions contrôlées Utilisation simple et peu de manipulations.
L'absence de MPT peut être facilement modélisée en mutant le site cible ou en éliminant/désactivant la protéine qui crée la MPT.
Les conditions pour introduire de nombreuses MPT ne sont pas complètement connues.
Le degré de modification endogène est souvent hétérogène.
La modification spécifique d'un site MPT peut être difficile.
Utilisation de peptides synthétiques contenant la MPT Génération facile par synthèse chimique.
Etude d'une grande variété de MPT.
Possibilité d'introduire plusieurs MPT au sein du même peptide.
Possibilité d'ajouter des photo-réticulateurs.
Peut être utilisé dans un format à débit plus élevé tel que les puces de peptides.
Ne traduit pas le comportement de la protéine entière repliée, ce qui peut abolir partiellement ou complètement l'interaction avec le(s) partenaire(s).
Ne peut pas être utilisé pour étudier les interactions protéine-protéine induites par une MPT qui n'impliquent pas directement le résidu modifié.
Utilisation d'acides aminés naturels qui imitent une MPT Facile à mettre en œuvre par mutagenèse simple.
Introduit des MPT sur des sites spécifiques.
Des différences importantes de structure entrainent un mimétisme imparfait.
La plupart des MPT ne peuvent pas être simulées par un acide aminé naturel.
Utilisation de la ou des protéine(s) endogène(s) qui crée(nt) une MPT Relativement simple avec des protéines de modification recombinantes.
La modification de protéines qui introduisent des MPT permet de modifier des protéines substrat spécifiques.
L'origine biochimique de nombreuses MPT est inconnue ou difficile à reconstituer.
Il peut être difficile de modifier de manière homogène des sites spécifiques.
Certaines MPT ne sont pas introduites par voie enzymatique.
Semi-synthèse protéique par ligature de protéines exprimées ("Expressed Protein Ligation" - EPL) Synthèse de protéines pleine longueur modifiées de manière homogène.
Synthèse d'une grande variété de MPT naturelles ou synthétiques.
Plusieurs MPT différentes peuvent être introduites.
Technique complexe et exigeante.
L'EPL est réalisée dans des conditions dénaturantes : replier la protéine résultante peut être difficile.
Expériences dans des cellules vivantes en général impossibles.
Les MPT internes sur de longues protéines sont difficiles à analyser.
Expansion du code génétique Des protéines de pleine longueur modifiées de manière homogène peuvent être générées.
Des similitudes de structure proches des MPT peuvent être incorporées sans être supprimées.
Les protéines modifiées peuvent être exprimées dans des cellules vivantes.
Le résidu modifié peut théoriquement être incorporé dans n'importe quel site d'une protéine recombinante.
Un nombre limité de MPT ont été génétiquement codées.
L'efficacité de l'incorporation dépend du site d'incorporation.
L'incorporation de multiples MPT dans une protéine peut être difficile.
Source : Wang et al. (2022)

Retour haut de page

Apport des méthodes issues de l'apprentissage profond dans l'identification d'interactions protéine-protéine médiées par des MPT

Comme dans tous les domaines biologiques, les méthodes issues de l'apprentissage profond et des grands modèles de langage ("Large Language Model" - LLM) constituent une approche complémentaire.

Un ensemble d'interactions protéine-protéine modulées par les MPT chez l'homme a été extrait de la base de données IntAct : sur plus de 100.000 interactions protéine-protéine décrites, environ 3000 sont médiées par des MPT.

  • L'ensemble des données retenues a été sub-divisé en 3 sous-ensembles (entraînement, test et validation du modèle) stratifiés par type d'interaction avec un identifiant de référence bibliographique PubMed unique.
  • Un ensemble de modèles BioBERT (modèle de représentation du langage biomédical pour la fouille de données textuelles biomédicales) a ensuite été créé.

Enfin, ce dernier a été appliqué à la fouille textuelle de 18 millions de résumés d'articles de PubMed (2019) : environ 547.000 interactions protéine-protéine médiées par les MPT sont ainsi prédites dont environ 4600 avec une confiance élevée et une faible variation (Elangovan et al., 2022).

Retour haut de page

2. Identification et quantification des protéines

a. Les protéomes et la protéomique

La protéomique a pour but d'identifier (et de quantifier) l'ensemble des protéines synthétisées ou protéome, à un moment donné et dans des conditions données au sein d'un tissu, d'une cellule ou d'un compartiment cellulaire.

Le protéome est extrêmement complexe à plusieurs titres :

  • Compte-tenu de l'épissage alternatif des transcrits primaires (plusieurs ARN messagers pour un gène) et compte-tenu des modifications post-traductionnelles des protéines, on peut estimer à plusieurs centaines de milliers les formes des protéines synthétisées dans les différents tissus humains par exemple.
  • Pour chaque condition environnementale (condition physiologique normale vs. conditions de stress) une cellule est caractérisée par un protéome adapté à cette condition alors qu'elle a toujours le même génome. Le cas des plantes est un exemple flagrant compte-tenu de leur nécessité de s'adapter tant aux variations de la lumière qu'aux effets de stress biotiques ou abiotiques.
  • Outre les modifications post-traductionnelles, les protéines subissent des transformations une fois synthétisées : clivage du peptide signal d'adressage, activation de la forme native à partir d'un précurseur (zymogène), assemblage en complexes oligomèriques, association à des cofacteurs.
  • Il existe une grande dynamique de la synthèse des protéines : le rapport entre les protéines les moins abondantes et les plus abondantes dans une cellule dépasse 106 pour atteindre 1012 dans le sérum.
  • Les protéines ont des demi-vies trés variables : ornithine décarboxylase 11 min - tryptophane oxygénase 2 h - myosine 30 j.
Grandes étapes du génome et du protéome de l'homme
Analyse aboutie du génome de l'homme 2012 "The ENCODE Project Consortium" : 20 687 gènes codant des protéines
Nature 489, 57-74 (2012)
Protéome de l'homme 2014 Kim et al. (2014) "A draft map of the human proteome" Nature 509, 575-581
Bases de données : Human Proteome Map et ProteomicsDB
Analyse conjointe du génome et du protéome (5 niveaux d'évidence d'existence des protéines) de l'homme 2018 - 2020

19 823 gènes codant des protéines
HUPO (Human Proteome Project)

20 399 protéines (dont 17 694 protéines PE1)
NextProt (Swiss Institute of Bioinformatics)

Voir la liste des protéomes (en particulier les protéomes de référence) dans la base de données UNIPROT.

Retour haut de page

b. La protéomique spatiale

La protéomique spatiale est en pleine expansion (techniques de plus en plus performantes et bases de données de plus en plus exhaustives) : elle fournit des informations essentielles sur l'organisation spatiale des protéines dans les tissus.

La protéomique spatiale est à la base de nombreux projets d'atlas mondiaux. Exemple : "The human protein atlas".

Le terme "protéomique spatiale" est générique : il englobe un très large éventail de méthodes basées sur l'immunohistochimie. En particulier :

  • L'immunofluorescence cyclique ("cyclic ImmunoFluorescence" - cycIF)
  • La codétection par indexation ("CO-detection by inDEXing" - CODEX)
  • Le blanchiment itératif qui étend la multiplexité ("Iterative Bleaching Extends Multiplexity" - IBEX)
  • L'imagerie par faisceau ionique multiplexé ("Multiplexed Ion Beam Imaging" - MIBI)
  • L'immunofluorescence multiplexée rapide ("Rapid Multiplexed ImmunoFluorescence" - RapMIF)
  • La cytométrie de masse par imagerie ("Imaging Mass Cytometry" - IMC)

Pus récente, la technique de protéomique visuelle profonde ("Deep Visual Proteomics" - DVP) :

  • Permet de disséquer les échantillons complexes avec un laser et les cellules ainsi dissociées sont analysées individuellement par spectrométrie de masse.
  • Les informations de l'environnement spatial permettent de créer des cartes spatiales des protéines.
  • Cette technique n'est pas limitée par le nombre d'anticorps disponibles ce qui lui confère une couverture protéomique nettement plus importante.

Toutes ces méthodes (conjuguées ou non) génèrent des images hautement multiplexées d'échantillons telles que des tranches de tissus ou d'organes : elles dévoilent ainsi leur composition protéique et l'organisation spatiale de ces protéines.

Par ailleurs, ces méthodes sont accompagnées d'algorithmes d'apprentissage profond pour l'analyse du très grand nombre et de la diversité de données qu'elles génèrent.

De très nombreux laboratoires (entreprises privées ou publics) développent des outils d'analyse via le WEB appelés plateforme d'imagerie tissulaire multiplexée ("Multiplexed Tissue Imaging" - MTI).

Retour haut de page

3. Les interactomes

a. Caractéristiques et paramètres clés des interactions entre molécules biologiques

Les interactions qu'établissent les milliards de molécules au sein d'une cellule et avec l'extérieur sont l'élément clé de tous les processus biologiques, donc du fonctionnement cellulaire, donc de la vie.

L’un des paramètres clés des interactions protéine-protéine est donc l'abondance des protéines qui interagissent.

  • Les concentrations des protéines varient selon le type de cellules, le compartiment sub-cellulaire et l’état cellulaire.
  • Gamme de concentrations typique d'une protéine de signalisation dans une cellule de mammifère ≈ 10 nM - 1 mM.
  • Rappel du Nombre d'Avogadro ≈ 6,022 × 1023 mol-1.

Les techniques de multi-omiques spatiales appliquées aux cellules individualisées ("single-cell spatial multi-omics approaches") permettent d’établir un panorama complet d’une précision inégalée de la répartition, de l’abondance et du temps de demi-vie des protéines (en particulier), des ARN de divers types et du taux de transcription des gènes (en général).

 

b. Les interactomes impliquant les protéines

L'interactome des protéines correspond à l'ensemble des interactions protéine-protéine ("Protein - Protein Interactions" - PPI).

Exemple d'interactome de l'homme : "The Human Reference Protein Interactome Mapping Project" - HuRI.

interaction proteine interactome interactomique PPI protein reseau net omics biochimej

Source : Singh A. (2024)

Beaucoup de protéines sont nativement non structurées. Cette caractéristique accentue le caractère transitoire des interactions entre protéines (ou entre protéine et ligand au sens large).

De plus, les molécules d'eau (d'hydratation des protéines ou intrinsèques à la stabilisation de la structure des protéines) jouent un rôle primordial dans la dynamique conformationnelle des protéines, donc dans leur interactivité.

Retour haut de page

c. Démarche générale pour l'identification des interactions protéine-protéine

interaction proteine interactome interactomique PPI protein reseau net biochimej

Source : Di Silvestre et al. (2018)

Figure ci-dessus :

(A) Exemples de méthodes biologiques, biophysiques ou associées à la spectromètrie de masse, pour identifier des PPI.
(B) Réseau des PPI de la base de données STRING pour Arabidopsis thaliana avec un seuil de 0,7.
(C) Exemple d'un graphe [non orienté / non pondéré] et d'un graphe [orienté / pondéré].
(D) Matrice d'ajacence associée à chacun de ces graphes.
Les abréviations dans cette figure sont définies dans le reste de ce cours.

Voir un cours sur l'interactomique et les réseaux d'interactions protéine-protéine.

Retour haut de page

4. Quantification de l'interaction entre macromolécules biologiques

a. Constantes d'équilibre d'association KA et de dissociation KD

Toute réaction d'association (inversement de dissociation) entre 2 (ou plus) molécules M1 et M2 peut s'écrire : M1 + M2 <=> M1-M2

Cette réaction d'association est régie par une constante d'équilibre d'association KA (inversement, par une constante d'équilibre de dissociation KD) quantifiables si on dispose d'une méthode permettant :

  • De mettre en évidence l'association entre M1 et M2.
  • De mesurer la concentration respective (ou tout autre signal dont la valeur est proportionnelle à cette concentration) de M1, M2 et du complexe M1-M2.

Exemple de l'équilibre de fixation d'un ligand L sur une protéine P :

                        Equilibre fixation proteine ligand binding equilibrium biochimej

La vitesse d'association s'écrit : vaka . [P].[L]       -     La vitesse de dissociation s'écrit : vdkd . [PL]

  • ka : constante de vitesse microscopique du second ordre (réaction bimoléculaire). Unités : mol-1.L.s-1 ou M-1.s-1
  • kd : constante de vitesse microscopique du premier ordre (réaction monomoléculaire). Unités : s-1
  • [L] = concentration du ligand libre; [PL] = concentration du ligand lié.

Quand le système est à l'équilibre, les vitesses d'association et de dissociation sont égales :

enzyme demonstration representation Scatchard constante equilibre fixation site protein ligand binding equilibrium association dissociaton biochimej

  • Ka = 1 / Kd
  • Ka et Kd sont des constantes d'équilibre macroscopiques

interaction proteine interactome interactomique PPI proteome equilibrium constante equilibre dissociation association biochimej

Source : Xing et al. (2016)
Dans cette figure, deux protéines (dénotées A et B) interagissent avec une constante de dissociation KD.

Plus KD est faible, plus l'affinité entre le ligand et la protéine est élevée.

La liaison [biotine - streptavidine] et la liaison [inhibiteur de la ribonucléase - ribonucléase] sont caractérisées par KD ≈ 10-15 M (ou KA ≈ 1015 M-1) et sont parmi les interactions biologiques les plus fortes connues.

Exemples d'association protéine - ligand

  • Tous les processus cellulaire impliquent un ensemble de réactions de reconnaissance [protéine - ligand] ordonnées et finement coordonnées.
  • Le ligand d'une protéine peut donc être n'importe quel type de molécule biologique.
  • Certaines protéines établissent des interactions avec un très grand nombre d'autres protéines. Elles sont appelées "hub" et constituent des nœuds protéiques hautement connectés dans les réseaux d'interaction PPI.
  • Certaines protéines subissent de nombreuses modifications post-traductionnelles qui modulent leurs PPI.
hémoglobine - oxgène le complexe enzyme - substrat(s)
antigène - anticorps enzyme - régulateur (inhibiteur, activateur, coenzymes, ...)
histones - ADN (épigénétique) protéine de transport - soluté spécifique
facteur de transcription - élément de réponse (gène) récepteur - hormone (ou toute autre forme de signal)
protéine chaperon - protéine à replier calmoduline - protéine cible activée
ribosome (complexe ribonucléoprotéique) - ARN messager (traduction) l'eau : "ligand" universel des toutes les molécules biologiques

Retour haut de page

b. Développement théorique des équilibres d'association - dissociation

Equilibre de fixation d'un ligand sur une protéine et représentation de Scatchard.

Ensemble d'excercices : détermination du nombre de site(s) de fixation d'un ligand et de la constante KD.

Cours sur l'interactomique et les réseaux d'interactions protéine-protéine.

Retour haut de page

5. Les protéines ou régions intrinsèquement désordonnées (IDP/IDR)

a. Introduction et définitions

Certaines protéines sont fonctionnelles sans avoir une structure native pleinement ordonnée/structurée, aussi bien chez les procaryotes que chez les eucaryotes.

Ces protéines ou régions intrinsèquement désordonnées ("Intrinsically Disordered Proteins or Regions" - IDP/IDR) :

  • Peuvent se replier ou s'enrichir en structures secondaires lorsqu'elles interagissent avec leur(s) cible(s) biologique(s).
  • Sont désordonnées sur une grande partie de la chaîne polypeptidique ou contiennent des régions désordonnées en nombre variable.
  • Sont caractérisées par une faible complexité de séquence, un biais dans leur composition en acides aminés et une forte flexibilité prédite.

De nombreuses interactions protéine-protéine résultent de la liaison, après leur repliement, des IDR de l’une des protéines, à un domaine replié de l’autre protéine ou (moins fréquemment) à une IDR de cette autre protéine.

Les séquences de liaison désordonnées les plus courtes (3 à 12 résidus d’acides aminés) sont appelées motifs linéaires courts ("Short Linear Motifs" - SLiM) ou motifs linéaires eucaryotes ("Eukaryotic Linear Motifs" - ELM) et sont extrêmement fréquents dans les protéomes des eucaryotes :

  • Plus de 100 familles de domaines se lient aux SLiM.
  • Le nombre de SLiM dans le protéome de l’homme impliqués dans les interactions protéine-protéine est supérieur à 100.000.

Voir un cours sur les IDP/IDR et les acides aminés qui en sont spécifiques.

Retour haut de page

b. Rôles biologiques des IDP/IDR et avantages pour la cellule

En raison de leur plasticité conformationnelle, les IDP/IDR s'associent à des partenaires moléculaires avec lesquels des protéines complètement repliées ne pourraient interagir.

Par ailleurs, certaines IDP/IDR sont dotées de la propriété de promiscuité : une même région d'une IDP/IDR fixe plusieurs partenaires et agit comme une "plaque tournante" dans les réseaux d'interactions protéine-protéine qui sont au coeur des processus de signalisation cellulaire.

Comme toutes les interactions protéine-protéine, les interactions [IDP/IDR - partenaire moléculaire] sont modulées par l'environnement ou par des modifications covalentes.

Quelques caractéristiques des IDP/IDR qui en démontrent le potentiel pour la cellule :

  • "Economie" du nombre de gènes codant des protéines dans les génomes.
  • Possibilité de surmonter les contraintes stériques de fixation à une molécule.
  • Spécificité élevée malgré une faible affinité.
  • Modifications post-traductionnelles facilitées : sites de modification plus exposés aux enzymes de modification; processus d'agrégation moindre ...

interaction protein interactome interactomique PPI proteome specificity specificite affinity affinite kd dissociation association IDP IDR desordre desordonne intrinsically disordered region domaine biochimej

Figure adaptée de : Chakrabarti & Chakravarty (2022)

Retour haut de page

c. Affinité, spécificité et multivalence des interactions entre protéines

L'affinité est généralement quantifiée par la constante de dissociation à l'équilibre KD. Les interactions basées sur les motifs de type SLiM ont une spécificité particulière : des SLiM différents peuvent se lier au même domaine avec des affinités similaires et, inversement, plusieurs domaines peuvent se lier au même SLiM.

La spécificité est une indication qualitative : elle traduit qu'une protéine donnée reconnaît mieux une certaine molécule (un ligand) que d'autres molécules (d’autres ligands). Si cette protéine reconnaît simultanément plusieurs ligands, on emploie la notion de sélectivité.

Traduire les interactions entre protéines en terme de spécificité plutôt que d'affinité présente l’avantage de s’affranchir des paramètres physico-chimiques (pH, force ionique, encombrement stérique, ...) qui influencent plus fortement l'affinité.

Différents modes de spécificité dans les interactions protéine-protéine impliquant des motifs de reconnaissance désordonnés

  • Figure A ci-dessous : Interactions entre les acides aminés constitutifs d’un motif linéaire de reconnaissance et ceux de la poche de liaison de ce motif d’un domaine replié.
  • (B) Des interactions de différentes spécificités établies en dehors de la poche de liaison peuvent augmenter ou diminuer l'affinité pour certain motif de liaison.
  • (C) La multivalence résulte d'interactions bivalentes qui augmentent l'affinité et la spécificité :
    • (i) En augmentant la fréquence des collisions efficaces (liaison réelle entre les molécules).
    • (ii) Par l’établissement d’une interaction intramoléculaire. La surface d'interaction est ainsi accrue et la dissociation des molécules est ralentie puisque les 2 types de contacts doivent se rompre simultanément.

interactome interactomique protein interaction PPI proteome specificity specificite affinity affinite allovalence kd dissociation association domaine biochimej

Source : Ivarsson & Jemth (2019)

  • (D) L'allovalence émane de la probabilité qu’une liaison soit de nouveau établie avant que les protéines impliquées ne soient hors de leur sphère d’interactions commune donc dissociées. Ce processus est fréquent lorsque plusieurs sites de liaison sont impliqués (exemple de 3 motifs d'interactions dans la figure).
  • (E, F) Les interactions entre molécules sont tributaires de l’endroit dans la cellule (espace) et du temps (exemple des phases du cycle cellulaire) où motifs et domaines de liaison sont communément présents. De plus, cette dichotomie garantit que de nombreuses interactions non spécifiques ne soient pas établies.

PRISMA ("PRotein Interaction Screen on a peptide MAtrix") associée à la spectromètrie de masse quantitative permet d'identifier et cartographier les motifs d'interaction de type SLiM et MoRF ("Molecular Recognition Features" - séquences de 10 à 70 residus d'acides aminés) des protéines.

Retour haut de page

6. Quelques méthodes pour prouver les interactions protéine-protéine

Voir un cours détaillé sur l'interactomique.

a. La technique de complémentation double-hybride

La construction génétique appelée double-hybride dans la levure ("Yeast Two-Hybrid system", "Two-hybrid screening" ou "Yeast two-Hybrid" - Y2H) est une technique très haut débit.

Cette construction génétique utilise les propriétés structurales et fonctionnelles du facteur de transcription GAL4 ("Regulatory protein GAL4" - 881 acides aminés) de la levure Saccharomyces cerevisiae :

  • Gal4 contient un domaine N-terminal appelé "DNA Binding Domain" - DBD (acides aminés 1 à 147) qui se fixe à la séquence d'activation située en amont ("Upstream Activating Sequence" - UAS) du gène rapporteur ("reporter gene").
  • Ce domaine protéique est fusionné à une protéine dite "appât" ("bait").
  • Gal4 contient un domaine C-terminal appelé "Activation Domain" - AD (acides aminés 768 à 881) responsable de l'initiation de la transcription en aval de l'UAS quand il se fixe à d'autres composants de la machinerie de la transcription.
  • Ce domaine protéique est fusionné à plusieurs protéines dites "proies" ("prey").

Retour haut de page

Principe de la technique de complémentation double-hybride

Figure A ci-dessous :

  • Les domaines DBD ou AD ne peuvent pas activer, isolément, la transcription.
  • Sans interaction entre la protéine "appât" et la protéine "proie", il n'y a pas transcription du gène rapporteur.

Figure B :

  • Lorsque les protéines "appât" et "proie" interagissent, elles réunissent les 2 domaines DBD et AD : le facteur de transcription GAL4 est ainsi reconstitué.
  • GAL4 active alors le promoteur situé en aval de l'UAS.
  • Le gène sous le contrôle de ce promoteur est transcrit.

interactome interactomique protein interaction PPI affinity affinite kd dissociation association double hybride GAL4 domain biochimej

Source : Mehla et al. (2015)

Avantages de cette technique

  • Technique facilement utilisable en laboratoire : réactifs et appareils peu coûteux, pas d'équipement spécifique sauf pour les études à très haut débit (robots coûteux nécessaires).
  • Technique très sensible : des interactions faibles et transitoires peuvent être détectées.
  • Détection d'interactions protéine-protéine in vivo, sans limite de taille des protéines criblées qui peuvent provenir d'organismes différents.
  • Des protéines entières, des domaines protéiques ou des fragments de protéines peuvent être criblées.

Limitations de cette technique

  • Le taux potentiellement élevé de faux positifs : ceux-ci peuvent être réduits par des conditions expérimentales strictes.
  • Problème des protéines "appâts" auto-activés qui activent le gène rapporteur sans interagir avec la protéine "proie".
  • Les interactions qui impliquent certains types de protéines ne peuvent pas être détectées :
    • Les protéines qui ne peuvent pas se replier dans le milieu intracellulaire (par exemple, les protéines membranaires).
    • Les protéines qui ne peuvent pas pénétrer dans le noyau et ne peuvent donc pas être étudiées avec cette technique basée sur la transcription.
    • Les protéines toxiques ou instables dans la levure.
    • Les protéines qui nécessitent des modifications post-traductionnelles qui ne peuvent avoir lieu chez la levure.

Retour haut de page

b. Autres méthodes de complémentation ou biochimiques

  • La technique "Phage display"
    • Un gène codant une protéine d'intérêt est associé au gène codant une protéine d'enveloppe d'un phage (à l'origine le bactériophage filamenteux M13).
    • Il y a alors synthèse d'une protéine de fusion qui se retrouve à la surface du phage : le phage affiche ("displays") la protéine d'intérêt. C'est une technique à haut débit.
  • La complémentation de fluorescence bimoléculaire ("Bimolecular fluorescence complementation" - BiFC)
    • Deux protéines d'intérêt sont fusionnées à un fragment N- ou C-terminal non fluorescent d'une protéine fluorescente puis traduites dans une cellule.
    • Si une interaction a lieu entre les deux protéines d'intérêt, il y a reconstitution de la protéine fluorescente (formation d'un complexe fluorescent). Le signal est ainsi visualisé par microscopie de fluorescence ou par cytométrie en flux.
  • La technique "Strep - Protein INteraction Experiment" (SPINE) : le marqueur Strep est un octapeptide synthétique.
  • La technique "Far-Western Blotting" : démarche similaire au Western blot avec une différence : la sonde anticorps est substituée par une sonde protéine "appât" marquée.

Retour haut de page

Techniques d'immunoprécipitation

  • L'immunoprécipitation de la chromatine ("Chromatin immunoprecipitation") pour identifier et étudier les protéines qui interagissent avec l'ADN (facteurs de transcription, histones) et pour l'étude des processus épigénétiques.
  • La purification par immunoprécipitation ("Tandem Affinity Purification") : billes enrobées d'un anticorps et synthèse d'une protéine de fusion.
  • La co-immunoprécipitation ou immunoprécipitation d'un complexe de protéines ("Co-Immunoprecipitation" - Co-IP) utilise un anticorps spécifique d'une protéine cible pour capturer indirectement les protéines qui sont fixées à cette protéine cible.

interactome interactomique protein interaction PPI affinity affinite kd dissociation association double hybride GAL4 domain biochimej

Source : Biologics International Corp.

  • L'analyse par extraction ("pull-down assay") :
    • Elle utilise une protéine "appât" immobilisée ("immobilized bait protein") sur une résine d'affinité (exemples : glutathion-S-transférase, His-tag, biotine) : cette protéine "appât" fixe et retient la protéine "proie" contenue dans un lysat cellulaire qui traverse la résine.
    • La protéine "proie" est éluée dans des conditions qui la désorbent.
    • La technique d'origine utilisait une protéine de fusion "appât" glutathion-S-transférase immobilisée sur un support glutathion-agarose et une protéine "proie" radiomarquée : les 2 protéines étaient analysées par électrophorèse sur gel SDS-PAGE et quantifiées par autoradiographie (Smith & Johnson, 1988).

Retour haut de page

c. Méthodes physiques

  • La technique "Membrane-Strep-tagged Protein INteraction Experiment" (Membrane-SPINE) : combinaison de la purification spécifique d'une protéine membranaire marquée par Strep avec la fixation réversible de complexes protéiques par réticulation avec le formaldéhyde. Analyse finale par spectrométrie de masse.
  • Quelques méthodes qui utilisent la fluorescence :
    • Le transfert d'énergie par résonance de fluorescence ("Fluorescence resonance energy transfer" - FRET) : transfert d'énergie sans émission de lumière résultant d'une interaction entre deux molécules (donneur et accepteur d'énergie respectivement).
    • La spectroscopie de corrélation de fluorescence ("Fluorescence Correlation Spectroscopy" - FCS - Magde et al., 1972) permet de déterminer le coefficient de diffusion et un nombre de molécules en détectant les fluctuations de l'intensité de fluorescence provoquées par le passage de molécules fluorescentes à travers un volume de détection ou dans une cellule. Cette technique est très utilisée pour détecter l'agrégation de protéines associées aux maladies neurodégénératives
  • Méthodes d'interférométrie
    • L'interférométrie de biocouches ("Bio-Layer Interferometry" - BLI) : technique optique sans marquage fluorescent qui analyse le profil d'interférence de la lumière blanche réfléchie par 2 surfaces. Ce profil permet de déterminer des valeurs de constantes de vitesse et d'autres données cinétiques.
    • L'interférométrie par double polarisation ("Dual Polarisation Interferometry" - DPI) : elle permet d'obtenir des mesures très précises de la taille, de la densité et de la masse des molécules avec une lumière intense d'un faisceau laser.

d. Méthodes bioinformatiques

Les méthodes issues de l'apprentissage profond. Notamment :

  • La fouille de données bibliographiques ("Text mining").
  • L'analyse de la structure des protéines (PDB, Alphafold, Rosetta) :

Retour haut de page

7. La purification par chromatographie d'affinité couplée à la spectromètrie de masse ("Affinity-Purification coupled to Mass Spectrometry") - AP-MS

  • C'est une technique très haut débit.
  • Les complexes protéiques peu stables (interactions faibles et/ou transitoires) sont difficiles à purifier par AP-MS en raison de leur nature très dynamique.

Principe de l'AP-MS

  • Les protéines totales d'un échantillon sont extraites afin de purifier la protéine "appât" ("bait") d'intérêt, par chromatographie liquide d'affinité (anticorps greffé sur des billes - "beads").
  • Chaque protéine purifiée établit un ensemble caractéristique d'interactions avec une ou plusieurs autre(s) protéine(s).
  • Ces complexes sont ensuite analysées par spectromètrie de masse et permettent d'identifier les protéines qui interagissent.

Figure a ci-dessous

  • Des anticorps spécifiques de la protéine "appât" (s'il en existe) sont liés covalemment à des billes pour l'immunoprécipitation des complexes protéiques dans des conditions natives, c'est-à-dire sans traitement particulier de l'extrait brut des protéines totales.

Figure b

  • Ce principe permet de purifier :
    • Des protéines endogènes de l'organisme.
    • Des protéines de fusion : un complexe [protéine "appât" - protéine portant une étiquette ("tag") peptidique] (purification par affinité unique).
    • Des protéines de fusion avec deux étiquettes peptidiques (purification par double affinité).
  • Les contrôles sont très importants et ont pour but de réduire la [purification / identification] de faux positifs (FP). Ces contrôles peuvent être un extrait :
    • De protéines de l'organisme de type sauvage.
    • De protéines de cellules exprimant uniquement l'étiquette.
    • De protéines non apparentées (UP) fusionnées avec une étiquette.

interactome interactomique protein interaction PPI affinity affinite kd dissociation association biotine steptavidine affinie affinity LCMS chromatographie spectrometrie masse etiquette tag anticorps antibbody biochimej

Source : Kerbler et al. (2021)

Figure c

  • Plusieurs étapes de lavage, dans des conditions physico-chimiques adaptées aux caractéristiques du complexe [protéine "appât" - anticorps] sont nécessaires.
  • Elles ont pour but de réduire les interactions non spécifiques (complexes [protéine "appât" - autres protéines] ou [anticorps - autres protéines]) et ainsi éluer la protéine "appât" d'intérêt dans sa forme la plus pure et concentrée possible.

Figure d : des séquences des protéines purifiées sont fractionnées, séparées et analysées par une technique de spectrométrie de masse couplée à la technique de chromatographie liquide en amont (technique "Liquid Chromatography - Mass Spectrometry" - LC-MS).

Figure e : l'analyse bioinformatique et biostatistique des données permet, entre autres, d'établir un réseau d'interactions protéine-protéine.

Exemples d'étiquettes
Etiquette Séquence ou taille Molécule greffée sur la résine d'affinité Condition(s) d'élution
TAPi 45 kDa Peptide de liaison à la calmoduline avec 2 domaines Protéine A Protéine A - abaissement du pH
Peptide de liaison à la streptavidine (SBP) WSHPQFEK Streptavidine Desthiobiotine
GSyellow 37 kDa Étiquette peptidique se liant à la streptavidine avec protéine fluorescente jaune citrine Desthiobiotine et changement de pH
Protéines fluorescentes (GFP, YFP) 26.9 kDa Anti-GFP pH
GSrhino 21.9 kDa 2 domaines de liaison aux IgG de la protéine G et 1 étiquette SBP Streptavidine
TAPa 26 kDa Domaine de liaison IgG avec XHis et Xmyc Protéolyse avec HR3C - imidazole - abaissement du pH
TAP ("Tandem Affinity Purification") : purification par affinité en tandem (2 étiquettes)
SBP : "Streptavidin binding peptide"
Étiquette GSrhino : 2 domaines de liaison à l'IgG anti-protéine G et 1 SBP séparés par 2 sites de protéolyse par la protéase HR3C ("Human Rhinovirus 3C")
GFP : "Green Fluorescent Protein" ; YFP : "Yellow Fluorescent Protein"
TAPa : "Alternative TAP"

La streptavidine est une protéine de la bactérie Streptomyces avidinii.

  • Elle forme un complexe spécifique non covalent extrêmement fort avec la biotine (1 molécule de biotine par sous-unité de streptavidine).
  • La liaison [biotine - streptavidine] caractérisée par KD ≈ 10-15 M est l'une des interactions biologiques les plus fortes connues.

Retour haut de page

8. Application de la fluorescence à l'analyse des macromolécules biologiques

a. Principe de la fluorescence

L'énergie E d'un photon est proportionnelle à sa fréquence ν (h est la constante de Planck).

Pour qu'un électron passe de l'état fondamental à un état excité, il faut qu'il reçoive une quantité d'énergie équivalente à la différence d'énergie entre ces deux niveaux d'énergie.

  • Certaines molécules possèdent des électrons qui peuvent absorber l'énergie de certains photons du rayonnement électromagnétique : ces photons sont appelés lumière d'excitation.
  • Le niveau d'énergie de l'électron ainsi excité augmente (S0 désigne l'état singulet fondamental de l'électron) : S0 + hνexcitation -> S1
  • L'excitation de l'électron est immédiatement (< 1 ns) suivie d'une émission de fluorescence : S1-> S0 + hνémision
  • Ces molécules sont appelées fluorophores ou fluorochromes.

Un diagramme de Jablonski (ou Perrin - Jablonski) représente les transitions entre les différents états électroniques d'une molécule à l'origine des différents mécanismes : absorption, fluorescence, phosphorescence, mécanismes non-radiatifs, ... (voir A. Jablonski).

interactome protein interaction affinite transfert fluorescence absorption phosphorescence emisssion electron niveau energie singulet triplet spectre biochimej

Source : Starck M. (2010)

Dans le cas d'une molécule complexe comme une protéine, les niveaux énergétiques S0 et S1 sont multiples : il y a des pertes d'énergie au sein de la protéine lors du retour d'un sous-état excité S1' à un sous-état excité S1 (exemple ci-dessus).

  • En conséquence, l'énergie d'émission est dans la plupart des cas plus faible que l'énergie d'excitation : Eemission = h/λem < Eexcitation = h/λexc
  • En d'autres termes, la longueur d'onde de la lumiére d'émission est dans la plupart des cas plus élevée que celle de la lumiére d'excitation.

Remarques :

  • Dans certains cas, la longueur d'onde de la lumière d'émission est plus faible (phénomène d'absorption de 2 photons) ou identique (fluorescence de résonance) à la lumiére d'excitation.
  • Les photons ré-émis ne sont pas seulement du domaine du visible. Si la molécule est bombardée par des rayons X, des rayons X secondaires sont ré-émis (fluorescence X).

Retour haut de page

Processus non radiatifs

Outre par émission de fluorescence, l'état excité S1 peut revenir à l'état fondamental S0 par deux mécanismes dits non radiatifs.

Ces mécanismes sont en compétition avec l'émission de fluorescence et en diminuent le rendement (diminution de l'intensité de fluorescence ou "quenching").

  • Le passage intersystème de l'état singulet excité à l'état triplet. Ce processus conduit à la phosphorescence (durée d'émission plus longue que la fluorescence).
  • Le transfert d'énergie vers une autre molécule dont une illustration est le transfert d'énergie par résonance de Förster ou FRET.

interactome protein interaction affinite transfert fluorescence absorption phosphorescence emisssion electron niveau energie singulet triplet spectre biochimej

Source : Horiba Scientific

Retour haut de page

b. La diminution de l'intensité de fluorescence ou extinction de fluorescence ("fluorescence quenching")

La réaction physico-chimique de ce phénomène est schématiquement : Mf*+D -> M+D
Mf* est la molécule fluorescente (fluorophore) dans un état activé (*) et D est le désactivateur ("quencher").

La cinétique de désactivation suit l'équation de Stern - Volmer :

extinction quenching fluorescence fret Stern Volmer emission excitation donneur accepteur radiatif GFP YFP BFP donor acceptor biochimej

La représentation f0/f[Q] - 1 = f([Q]) est donc une droite de pente KSV.

  • f0 : intensité de fluorescence en absence du désactivateur.
  • f[Q] : intensité de fluorescence en présence du désactivateur à différentes concentrations [Q].
  • KSV (constante de Stern - Volmer) = τ0 . kq
    • τ0 : durée de vie de l'état excité émissif de Mf en absence du désactivateur.
    • kq : constante de vitesse de la diffusion du désactivateur (taux de désactivation).

Remarque : seule une fraction des collisions [fluorophore - désactivateur] est efficace pour la désactivation. La valeur réelle de kq ne peut donc être déterminée qu'expérimentalement.

Retour haut de page

c. Le développement et la performance de molécules fluorescentes

Du fait de son extrême sensibilité et de son aspect quantitatif (comptage des désintégrations), la radioactivité d'isotopes d'atomes constitutifs des molécules biologiques a été pendant de très longues années la méthode de choix pour décrypter les processus biologiques (cycle de Krebs, cycle de Calvin, méthode d'origine de séquençage de Sanger, …).

Inconvénients de l'utilisation de radioéléments :

  • La dangerosité des radiations.
  • La complexité des conditions de [détention/utilisation] de radionucléides (autorisation administrative, gestion drastique des locaux et des déchets, sécurité, formation des utilisateurs, ...).
  • Le nombre relativement restreint d'isotopes utilisables (2H, 3H, 13N, 14C, 15O, 32P, 35S, 60Co, 131I, ....) en regard de la très grande diversité des [fluorophores / fluorochromes] développés régulièrement (voir la gamme "Alexa Fluor").
  • La complexité du marquage des molécules biologies, des appareils et des produits pour détecter et compter les désintégrations (liquide à scintillations de type POPOP à base de solvants organiques potentiellement dangereux, ...).

Retour haut de page

Définitions

Une molécule fluorescente (fluorophore ou fluorochrome) :

  • Possède la propriété d'absorber de l'énergie lumineuse (ou lumière d'excitation) et de la restituer rapidement (< 1 nsec) sous forme de lumière fluorescente (ou lumière d'émission).
  • Une partie de l'énergie de la lumière d'excitation est absorbée par d'autres molécules du milieu et une autre partie de l'énergie est dissipée sous forme de chaleur.
  • En conséquence : l'énergie de la lumière d'émission est plus faible que celle de la lumière d'excitation : la lumière d'émission (la fluorescence) a donc une longueur d'onde plus élevée que la lumière d'excitation (l'absorption).
  • Est constituée en général de plusieurs groupes aromatiques combinés ou peut être une molécule planaire ou cyclique avec des liaisons π.
  • Photoblanchiment ("photobleaching") : modification d'un fluorophore due à une irradiation. Le fluorophore perd graduellement sa capacité à émettre une fluorescence.

Retour haut de page

Le développement de fluorophores / fluorochromes adaptés à l'étude des molécules biologiques

L'avènement du séquençage des génomes par des techniques remplaçant la méthode classique de Sanger a très largement contribué au développement très rapide d'une palette sans cesse croissante de molécules fluorescentes extrêmement efficaces.

Leur seuil de détection est désormais de l'odre de la molécule individualisée ("single molecule").

Ces molécules peuvent être fixées de manière covalentes aux molécules biologiques.

  • Elles peuvent être photoactivables (exemples : PAmCherry, PATagRFP, PAmKate, ...).
  • Elles peuvent être photoconvertibles (exemples : protéines fluorescentes de la série Eos, Dendra2, mMaple, ...).
  • Elles peuvent être "clignotantes" en fonction du pH (exemple : hydroxymethyl Si-rhodamine HMSiR).
  • Elles peuvent être à fixation temporaire ("DNA-painting") ...
  • Voir la base de données de protéines fluorescentes FPbase.

Ces molécules ont révolutionné les performances des techniques d'imagerie cellulaire, en particulier en microscopie :

  • La nano-microscopie à fluorescence : les lauréats du prix Nobel de chimie 2014 (Eric Betzig, Stefan Hell et William Moerner) ont développé la microscopie à fluorescence à très haute résolution ("Super-resolved fluorescence microscopy") qui contourne la limite physique supposée de la résolution des microscopes optiques (estimée jusqu'à lors à environ 0,2 microns, la moitié de la longueur d'onde de la lumière utilisée - (∂xmin , ∂ymin ) ≈ λ/2).
  • La microscopie par localisation de molécule unique ("Single Molecule Localization Microscopy" - SMLM) - voir Lelek et al. (2021).
  • On atteind désormais une résolution des nucléotides de l'ADN à l'échelle de l'angström - voir Reinhardt et al. (2023).

Retour haut de page

d. La protéine fluorescente verte (GFP)

La protéine fluorescente verte ("Green Fluorescent Protein" - GFP) est synthétisée dans les photocytes (cellule qui produit de la bioluminescence) de la méduse Aequorea victoria.

La découverte de cette protéine fluorescente et ses très nombreuses applications en biologie ont été couronnées par le prix Nobel de chimie 2008.

  • Le gène codant la GFP a été cloné en 1992 (Prasher et al.)
  • La GFP naturelle de Aequorea victoria est un monomère constitué de 238 résidus d'acides aminés : elle est dénommée avGFP (wtGFP).

La GFP est un accepteur de transfert d'énergie :

  • In vivo, elle transduit la bioluminescence bleue (pic d'émission à λ = 470 nm) de la photoprotéine aequorine (activée par Ca2+) en fluorescence verte par transfert d'énergie.
    • Le pic d'absorption (excitation) de avGFP est à λ = 395 nm.
    • Le spectre d'émission de fluorescence de avGFP a un pic à λ = 509 nm.

interactome protein interaction affinite transfert fluorescence bioluminescence Aequorea victoria GFP aequorine cyclic hexapeptide chromophore biochimej

Retour haut de page

Le chromophore de la GFP

  • L'hexapeptide commençant au résidu d'acide aminé 64 de la séquence de de la GFP est responsable de l'absorption de l'énergie de la lumière bleue de l'aequorine.
  • Le chromophore de la GFP naturelle est formé par la cyclisation autocatalytique post-traductionnelle des résidus [S65-Y66-G67] au sein de l'hexapeptide.

La fluorescence se produit lorsque l'oxydation de la liaison entre les carbones α et β de Y66 par l'oxygène moléculaire étend la conjugaison électronique du cycle imidazoline pour inclure le cycle phényl de Y et son substituant para-oxygène (figure d ci-dessous).

interactome protein interaction affinite transfert fluorescence absorption phosphorescence emisssion Aequorea victoria GFP YFP CFP mutant  biochimej

Source : Zeiss - Illustration du mécanisme de cyclisation du mutant S65T.

Visualisation de la GFP de Aequorea victoria à une résolution de 1,90 Å

Code PDB : 1EMA

La structure cristalline de la GFP a révélé que le chromophore tripeptide cyclique est enfoui au centre d'un "tonneau β" à onze brins entrelacés.

Au cours du repliement, le tripeptide est positionné au cœur du tonneau β : les réactions de cyclisation et de déshydratation nécessaires à la formation du chromophore mature ont alors lieu.

Retour haut de page

GFP et mutants de la GFP : utilisations très larges et intenses en biotechnologie

La GFP a été mutée sur de nombreux résidus d'acides aminés afin de générer un très grand nombre de protéines fluorescentes avec des longueurs d'onde d'émission spécifiques.

Voir la base de données de protéines fluorescentes FPbase.

La figure suivante illustre diverses mutations de la GFP de Aequorea victoria (brins β = flèches vertes et hélices α = cylindres gris-bleus).

  • Les couleurs des mutations se rapportent à certaines protéines fluorescentes : en vert pour la GFP, en bleu pour la BFP, en cyan pour la CFP, en jaune pour la YFP et en violet pour Sapphire.
  • Presque 75% des mutations sont situées dans l'hélice α centrale et les brins β 7, 8 et 10.
  • Les mutations qui modifient la longueur d'onde sont essentiellement situées près de l'hélice α centrale qui contient le chromophore.
  • Les mutations qui accroissent la stabilité et le repliement sont situées tout au long de la séquence.

interactome protein interaction affinite transfert fluorescence absorption phosphorescence emisssion Aequorea victoria GFP YFP CFP mutant  biochimej

Source : Zeiss

  • Les mutants de la GFP sont traduits dans la plupart des types de cellules connus : ce sont donc des marqueurs fluorescents non invasifs et non léthaux. Cela permet le développement de protéines de fusion et de biocapteurs ("biosensor").
  • Certains mutants débouchent sur des protéines fluorescentes plus thermostables, avec une fluorescence plus brillante et une durée de vie de fluorescence plus longue.
  • Les formes alléliques mutées des protéines fluorescentes sont très utilisées pour la synthèse de protéines chimères employées comme étiquettes protéiques fluorescentes.
  • L'ensemble des sont utilisés pour une très grande variété d'analyses et d'applications : traceur de lignée cellulaire, rapporteur de la transcription génique, détection des interactions protéine-protéine.
Protéine fluorescente Séquence du chromophore λexcitation (nm) λémission (nm)
GFP ("Green Fluorescent Protein") V61TTFSYGVQC70 395 509
BFP ("Blue Fluorescent Protein") V61TTFSHGVQC70 381 445
CFP ("Cyan Fluorescent Protein") V61TTFSWGVQC70 456 480
YFP ("Yellow Fluorescent Protein") L61VTTLGYGLM70 514 529
Venus (YFP) L61VTTLGYGLQ70 515 528
Voir les paramètres physicochimiques d'une collection de ≈ 1000 protéines fluorescentes par ordre alphabétique (FPbase).

Limitations des protéines de fusion [protéine fluorescente - protéine étudiée]

La plupart des gènes disponibles dans le commerce pour la GFP et les protéines fluorescentes similaires contiennent environ 730 paires de bases.

  • La GFP naturelle contient 238 acides aminés (masse molaire = 27 kDa).
  • Par conséquent, la fusion [gène GFP - gène protéine étudiée] génère une protéine de fusion dont la taille et la masse molaire sont considérablement supérieures à celle de la protéine d'intérêt seule : la protéine de fusion peut donc avoir une fonction altérée ou une localisation finale différente du fait d'un processus de transport modifié.

Voir un développement concernant la GFP.

Retour haut de page

9. La technique du FRET appliquée aux molécules biologiques

a. Principe du phénomène de FRET entre protéines fluorescentes

Le FRET ("Förster Resonance Energy Transfer" - décrit par Theodor Förster en 1948) est un processus de transfert d'énergie entre une molécule fluorescente (un fluorophore appelé donneur) et une autre molécule fluorescente (un fluorophore appelé accepteur).

Le phénomène FRET n'a lieu que si les 2 fluorophores sont distants de 10 Å à 100 Å.

La technique du FRET, appliquée à la microscopie optique, permet donc d'analyser la proximité de deux biomolécules dans une cellule à l'échelle du nanomètre : elle permet de déterminer les interactions entre ces molécules quand elles se rapprochent suffisament l'une de l'autre.

interactome interactomique protein interaction PPI affinity affinite kd dissociation association transfert fluorescence FRET biochimej

Source : "Evident - Olympus"

Retour haut de page

b. Principe physique du FRET

Un électron de la molécule donneuse génère un champ électrique qui entre en résonnance avec les électrons des orbitales électroniques de la molécule acceptrice : la molécule acceptrice passe dans un état excité et son retour à l'état fondamental émet un photon (émission de fluorescence).

Formule très théorique du calcul du FRET :

fluorescence fret bret emission excitation donneur accepteur GFP YFP BFP mKalama biochimej

R0 = rayon de Förster, J(λ) = intégrale de chevauchement des aires, QD = rendement quantique, ε = coefficient d'extinction, κ = facteur d'orientation, n = indice de réfraction.

Efficacité du FRET (E)

C'est le rendement quantique du transfert d'énergie (la fraction de l'événement "transfert d'énergie" par événement "excitation du donneur de FRET") :

E = kET / (kET + kf + ∑ki)

  • kET est le taux de FRET.
  • kf est le taux de relaxation radiative, c'est-à-dire la fluorescence.
  • ki sont les taux des mécanismes non radiatifs.

Dans le cadre d'une approximation ponctuelle [dipôle-dipôle], l'efficacité du FRET peut être reliée à la distance [donneur-accepteur] par les relations :

efficacite fluorescence fret rayon Forster emission excitation donneur accepteur radiatif GFP YFP BFP donor acceptor biochimej

  • R est la distance [fluorophore donneur - fluorophore accepteur] du FRET.
  • R0 est la distance de Förster (ou rayon de Förster, en Å) pour une efficacité de transfert de 50 %.
  • R0 est caractéristique de la paire [donneur - accepteur] étudiée.
  • IFDA est l'intensité de fluorescence du fluorophore donneur en présence de l'accepteur.
  • IFD est l'intensité de fluorescence du fluorophore donneur en absence de l'accepteur.

Retour haut de page

Chevauchement des spectres [fluorescence (émission) du donneur - absorption de l'accepteur]

Pour augmenter l'efficacité du FRET, le groupe donneur doit avoir de bonnes capacités à absorber et à émettre des photons : le groupe donneur doit être caractérisé par un coefficient d'extinction ε élevé et un rendement quantique élevé (voir ci-dessus).

Le chevauchement du spectre d'émission du groupe donneur et du spectre d'absorption du groupe accepteur traduit l'énergie du donneur excité qui contribue à exciter le groupe accepteur.

Le chevauchement des spectres [fluorescence (émission) du donneur - absorption de l'accepteur] signifie que l'énergie perdue par le donneur excité, lors de son retour à l'état fondamental, excite le groupe accepteur : plus les spectres se chevauchent, plus le donneur transfère de l'énergie à l'accepteur.

interactome protein interaction transfert fluorescence absorption emisssion energie chevauchement spectre biochimej

Source : Broussard & Green (2017)

L'intégrale de chevauchement J(λ) [donneur - accepteur] représente l'amplitude du chevauchement des spectres. La valeur de cette intégrale est donnée par la relation :

efficacite fluorescence fret emission excitation donneur accepteur donor acceptor radiatif GFP YFP BFP integrale chevauchement overlap biochimej

  • FD(λ) est le spectre d'émission normalisé du donneur.
  • εA(λ) est le coefficient d'absorption molaire de l'accepteur.
  • λ est la longueur d'onde.

Retour haut de page

c. Le couple [donneur / accepteur] du FRET

C'est donc l'élément clé de la technique du FRET car le transfert d'énergie s'effectue si le spectre de fluorescence (émission) du donneur et le spectre d'absorption de l'accepteur se chevauchent.

Exemple de couples [donneur / accepteur] fréquemment utilisés en biologie pour détecter des interactions protéine-protéine (entre macromolécules ou intramoléculaires, de manière générale) :

  • protéine fluorescente cyan (CFP) / protéine fluorescente jaune (YFP)
  • protéine fluorescente verte (GFP) / rhodamineémission ≈ 610 nm)
  • isothiocyanate de fluorescéineexcitation ≈ 495 nm - λémission ≈ 521 nm) / cyanine 3 (Cy3 - λexcitation ≈ 550 nm - λémission ≈ 570 nm)
  • CFP / ligand hélicoïdal de l'arsenic fluorescéine ("the fluorescein arsenical helix binder" - FlAsH) : fixation sélective de protéines contenant le motif riche en cystéines [C-C-(x)2-C-C], il fluoresce une fois fixé.
Protéines fluorescentes utilisées dans diverses méthodes
Protéine (noms divers) pic excitation (nm) pic émission (nm) Organisme
GFP ("Green Fluorescent Protein") 513 527 Aequorea victoria
CFP ("Cyan Fluorescent Protein" : ECFP, Cerulean, CyPet, mTurquoise2)
mutation Y66W de la GFP
433 475
YFP ("Yellow Fluorescent Protein" : Citrine, Venus, YPet)
mutation T203Y de la GFP
516 529
BFP ("Blue fluorescent protein" : EBFP, EBFP2, Azurite)
mutation Y66H de la GFP
383 448
Illustration de BFP mKalama1
fluorescence fret bret emission excitation donneur accepteur GFP YFP BFP mKalama biochimej
Source : Vegh et al. (2015)

La désintégration non radiative de l'état excité de BFP mKalama comprend deux évènements :

  • La conversion interne couplée au transfert de protons intraprotéique où le résidu conservé E222 sert d'accepteur de protons.
  • L'ionisation induite par 2 processus d'absorption résonante consécutifs, suivis de la déprotonation du cation radical chromophore vers le solvant.
mCherry (mRFPs) 587 610 Discosoma sp
FPbase : base de données de protéines fluorescentes ("Fluorescent Proteins" - FP) et de leurs propriétés.
  • Cette remarquable base de données est gratuite, open source, modifiable par la communauté.
  • Elle regroupe des données structurées de protéines fluorescentes pour la communauté scientifique qui utilise l'imagerie et les concepteurs de protéines fluorescentes.
  • Chaque protéine de la base de données possède une page dédiée : séquence en acides aminés, numéros d'accession dans des grandes bases de données généralistes, lignées cellulaires et mutations évolutives, attributs de fluorescence, données de structure des protéines, références bibliographiques liées à la protéine, ...

Retour haut de page

d. Le BRET ("Bioluminescence Resonance Energy Transfer")

Cette technique mesure le transfert d'énergie entre une molécule bioluminescente donneur de BRET et une molécule fluorescente accepteur (par exemple la GFP ou la YFP, comme pour le FRET). Cette technique génère un bruit de fond très faible.

La coelenterazine est une molécule bioluminescente donneur. C'est une luciférine dont l'excitation est déclenchée par la luciférase "renilla-luciferin 2-monooxygenase" (Rluc - E.C. 1.13.12.5).

coelenterazine h + O2 <=> CO2 + coelenteramide h monoanion (excité) + H+ + hν

Une luciférase extrêmement performante a été développée : la NanoLuc (NLuc).

fluorescence fret bret emission excitation donneur accepteur GFP YFP bioluminescence luminescence coelenterazine Rluc biochimej

Source : Weihs et al. (2020)

Retour haut de page

10. Le FRET appliquée à l'étude de molécule unique ("single-molecule FRET")

a. Introduction

La dynamique des changements conformationnels d'une population de biomolécules n'est pas un processus homogène.

En effet, les mouvements de ces molécules ne sont pas synchronisés et ils se déroulent sur une échelle de temps qui s'échelonne de la femtoseconde (fs; vibration des liaisons des chaînes latérales des rotamères) à la microseconde (µs; mouvement des structures secondaires) et, pour des mouvements de plus grande ampleur la seconde (mouvements globaux des domaines structuraux).

Ces caractéristiques structurales sont donc extrêmement difficiles à analyser avec des méthodes d'imagerie reflétant le comportement moyen d'un vaste ensemble de molécules.

La technique FRET à molécule unique ("single-molecule FRET" - smFRET) permet :

  • D'étudier la dynamique conformationnelle de biomolécules individualisées ("single-molecule") et les interconversions entre structures clés d'une même protéine (fixation de ligand, interactions protéine-protéine, régulation allostérique, …).
  • De déterminer directement les distances intramoléculaires au sein des biomolécules et d'analyser leur modulation au cours du temps.

La technique smFRET est une application du phénomène de FRET dans laquelle des paires uniques de FRET [donneur et accepteur] sont excitées et détectées.

  • La sensibilité de smFRET est liée à la forte dépendance du transfert d'énergie d'excitation à la distance entre des colorants fluorescents.
  • Les mesures smFRET sont généralement effectuées avec des microscopes à fluorescence : la source lumineuse est un faisceau laser très intense afin que, bien qu'il ne s'agisse que d'une molécule, le signal de fluorescence soit détectable et mesurable (significatif).

Retour haut de page

b. Le FRET dépend de la distance entre les deux fluorophores

Le FRET est favorisé quand la distance [donneur – accepteur] est comprise entre 1 et 10 nm, ce qui souligne l'intérêt de smFRET : en effet, cette distance nécessaire au transfert d'énergie est du même ordre de grandeur que la taille d'une protéine ou l'épaisseur d'une membrane lipidique.

fluorescence fret smFRET single molecule emission excitation dynamique conformationnelle repliement folding biochimej

Sources : Roy et al. (2008) & Lerner et al. (2018)

Rappel de l'éfficacité du transfert d'énergie en fonction de la distance [donneur-accepteur] :

efficacite fluorescence fret rayon Forster emission excitation donneur accepteur radiatif GFP YFP BFP mKalama biochimej

  • R est la distance [fluorophore donneur - fluorophore accepteur] du FRET.
  • R0 est la distance de Förster (ou rayon de Förster, en Å) pour une efficacité de transfert de 50%.

R0 est caractéristique de la paire [donneur - accepteur] étudiée et sa valeur dépend notamment :

  • De l'indice de réfraction du milieu situé entre le donneur et l'accepteur.
  • Du rendement quantique de fluorescence du donneur en absence de l'accepteur.
  • Du facteur d'orientation des colorants.

La gamme de distances mesurées précisément par FRET [0,5 R0 - 1,5 R0] : cela se traduit par une plage dynamique de 2 à 10 nm pour les paires de colorants smFRET couramment utilisées. Exemple : R0 de la paire [Cy3 - Cy5] = 5,4 nm.

Le fluorophore le mieux adapté aux études smFRET est :

  • Petit.
  • Brillant : coefficient d'extinction molaire εM > 50.000 M-1.cm-1 ; rendement quantique > 0,1)
  • Photostable : un minimum d'effets [photophysiques – photochimiques] et un minimum d'effets d'agrégation
  • Soluble dans l'eau avec suffisamment de formes chimiques de bio-conjugaison.

Retour haut de page

Une excellente paire smFRET est caractérisée par :

  • Une grande séparation entre les spectres d'émissions du donneur et de l'accepteur. En effet, l'étendue du FRET est traduite par l'aire de chevauchement du spectre d'émission d'un donneur D et du spectre d'absorption d'un accepteur A : plus l'aire de chevauchement est large, plus le transfert d'énergie est efficace.
  • Des rendements quantiques et des efficacités de détection similaires.

Des protéines fluorescentes et des semi-conducteurs ont été utilisées pour des études smFRET sans réel succès.

Les fluorophores monomoléculaires les plus efficaces s'avèrent les petits (< 1 nm) colorants organiques comme l'indique le tableau ci-dessous.

Propriétés spectrales de quelques fluorophores pour l'analyse de molécule individualisée ("single-molecule").
----- Fluorophores λmax excitation (nm) λmax émission (nm) εM à λmax (M-1.cm-1) Rendement quantique R0 (Å)
donneur Cy3 555 570 150 000 0,31 54
accepteur Cy5 646 662 250 000 0,20
donneur sulfo-Cy3 548 563 162 000 0,10 56
accepteur sulfo-Cy5 646 662 271 000 0,28
donneur Cy3B 558 572 130 000 0,67 51
accepteur Cy7 750 773 199 000 0,30
donneur Alexa Fluor 555 555 580 155 000 0,10 47
accepteur Alexa Fluor 647 650 665 270 000 0,33
donneur Atto 550 554 574 120 000 0,80 63
accepteur Atto 647 N 644 667 150 000 0,65
donneur Alexa Fluor 488 490 525 73 000 0,92 62
accepteur Alexa Fluor 568 578 603 88 000 0,69

Figure ci-dessous, exemple du pigment "ATTO 550".

  • C'est un marqueur fluorescent lié aux colorants Rhodamine 6G et Rhodamine B.
  • Il a forte absorption, un rendement quantique de fluorescence élevé et une stabilité thermique et photologique élevée.
  • Il est modérément hydrophile et cationique. Après couplage il porte une charge électrique nette de +1.

fluorescence fret smFRET single molecule emission excitation dynamique conformationnelle repliement folding biochimej

Sources : Atto-Tech

Voir une application des cyanines en protéomique ("technique 2D-DIGE).

Retour haut de page

c. Application du smFRET à l'étude de processus biologiques

smFRET a été utilisé pour étudier divers types de processus et de systémes biomoléculaires.

  • Repliement et dynamique conformationnelle des protéines repliées et des protéines intrinsèquement désordonnées.
  • Simulation des changements conformationnels dans les membranes (transporteur intégré dans des micelles de détergent ou dans des nanoparticules de saposine).
  • Interactions [récepteurs des lymphocytes - antigènes], [récepteur du facteur de croissance épidermique - ligands], ...
  • Dynamique conformationnelle des acides nucléiques (exemples : ribozyme en épingle à cheveux, la jonction Holliday et le G-quadruplex).
  • Mécanisme de fusion des vésicules médié par la protéine SNARE.
  • Processus de reconnaissance et d'infection de cellules par des virus.

Illustration des machineries moléculaires

ClpB est une machinerie protéolytique homohexamérique de bactéries appartenant à la famille des ATPases Hsp100 associées à diverses activités cellulaires ("ATPases associated with diverse cellular activities" - AAA+).

Chaque sous-unité de ClpB contient un domaine structural intermédiaire unique en spirale (le domaine M) qui est un élément de contrôle de la fixation du co-chaperon DnaK.

La technique sMFRET a permis de démontrer que le domaine M bascule entre 2 états conformationnels majeurs sur une échelle de temps très rapide d'environ 150 µs (plus rapides que l'activité globale de ClpB).

Retour haut de page

11. La technique FISH ("Enhanced ELectric Fluorescence in situ Hybridization")

a. Principe

L'hybridation in situ par fluorescence ou FISH est une technique cytogénétique moléculaire qui détecte et localise une séquence d'ADN spécifique sur les chromosomes entiers.

  • L'ensemble des chromosomes d'une cellule est déposé sur une lame de verre et la structure en double hélice de l'ADN est déroulée.
  • L'ADN échantillon est exposé à une courte séquence d'ADN marquée par une molécule fluorescente : cette sonde s'hybride à sa séquence complémentaire dans l'ensemble des gènes chromosomiques.
  • L'observation de l'échantillon en microscopie en fluorescence situe précisément la sonde et donc l'emplacement sous-chromosomique du gène d'intérêt.

fluorescence fret FISH in situ hybridization emission excitation mouse brain cerveau souris transcriptome single cell spatial biochimej

Source : National Human Genome Research Institute

La technique FISH est employée pour le diagnostic de maladies génétiques, pour la cartographie génétique et l'identification d'anomalies chromosomiques et pour la comparaison d'arrangements chromosomiques de gènes d'espèces apparentées.

Retour haut de page

b. Application du FISH à la transcriptomique spatiale à haut débit

Les méthodes de détermination du profil transcriptomique dans l'espace tissulaire sont assujetties à un équilibre entre entre résolution et débit.

La méthode nommée EEL-FISH ("Enhanced ELectric Fluorescence in situ Hybridization") traite rapidement de très nombreux échantillons de tissus sans perte de résolution spatiale. Les ARN d'une section de tissu sont transférés par électrophorèse sur une surface qui les capture.

  • L'acquisition de données est accélérée réduisant ainsi le nombre d'image nécessaire.
  • Les ARN accèdent directement à la surface ce qui permet d'obtenir une résolution à l'échelle de la cellule individualisée (voir un cours sur le "single-cell").

La méthode EEL-FISH appliquée à 8 sections entières d'un cerveau de souris a permis de mesurer le taux de transcription de 440 gènes, révéler ainsi son organisation tissulaire complexe (voir la base de données "Mouse Brain Atlas").

fluorescence fret FISH in situ hybridization emission excitation mouse brain cerveau souris transcriptome single cell spatial biochimej

Source : Borm et al. (2023)

Cette méthode peut être utilisée pour l'étude d'échantillons humains (difficiles à analyser) en supprimant la lipofuscine autofluorescente : le transcriptome spatial du cortex visuel humain peut-être ainsi visualisé.

La lipofuscine est le nom donné aux fins granules pigmentaires jaune-brun composés de résidus lipidiques issus de la digestion par les lysosomes.

Retour haut de page

12. Apprentissage profond et prédiction des interactions protéine-protéine

Comme dans tous les domaines de la biologie (et d'autres disciplines), les méthodes issues de l'apprentissage machine apportent des informations complémentaires en traitant une quantité de données qu'aucune autre méthode ne peut traiter.

Ces informations, aussi riches soient-elles, ne sont que prédictives (théoriques) et leur obtention s'appuient sur des modèles plus ou moins sophistiqués et représentatifs de la réalité biologique. Il est donc capital de ne pas perdre de vue que seule la confirmation expérimentale est une preuve tangible.

Un nombre croissant de méthodes sont développées : l'une des difficultés est de faire un choix pertinent compte-tenu de la problèmatique biologique et des connaissances en informatique et en modèles mathématiques nécessaires pour effectuer ce choix.

Voir un développement de l'intelligence artificielle en biologie.

Retour haut de page

a. Prédominance des GAFAM dans les domaines de l'intelligence artificielle

Les GAFAM sont les pionniers et dorénavant les leaders du marché de l'apprentissage machine.

interaction protein apprentissage profond deep learning autoencoder neural network convolutional reseau neurone profond convolutif CNN biochimej

Source : Statista

Nom But Développeur
TensorFlow
(écrit en C++ et en Python)
Bibliothèque logicielle pour l'apprentissage automatique, en particulier la formation et l'inférence de réseaux neuronaux. Développé par Alphabet (Google)
PyTorch
(écrit en C++, Python et autres)
Bibliothèque d'apprentissage automatique basée sur la bibliothèque Torch. Initialement développée par Meta-AI et désormais gérée par Linux Foundation
Scikit-learn
(écrit en Python)
Bibliothèque d'apprentissage machine construite sur la base des bibliothèques NumPy, SciPy et Matplotlib. Le projet d'origine (2007) est issu du programme annuel organisé par Google ("Google Summer of Code").
Keras
(écrit en Python)
Bibliothèque qui permet d'interagir avec les algorithmes de réseaux de neurones profonds et d'apprentissage automatique tels que Tensorflow ou PyTorch. Développé dans le cadre du projet ONEIROS en grande partie par un ingénieur de Google (F. Chollet).
ChatGPT
(écrit en Python)

Agent conversationnel
GPT ("Generative Pre-trained Transformer") : transformeur génératif pré-entraîné.

Développé par OpenAI dont l'un des principaux investisseur est Microsoft.
Le langage Python est très largement employé pour écrire les programmes d'apprentissage machine (et bien d'autres programmes) en biologie.

Retour haut de page

Exemples de logiciels et de modèles basés sur l'apprentissage machine pour la prédiction d'interactions protéine-protéine
Nom Algorithme But
Prédiction de la structure de la protéine cible
Serveur trRosetta
AlphaFold
DNN Prédiction de la structure 3D des protéines
Complexe QA GNN Prédiction de la structure 3D des complexes protéiques
Protein BERT Transformeur Prédiction des structures secondaires des protéines
ESMfold Transformeur Prédiction de la structure 3D des protéines
Prédiction des interactions protéine – protéine
IntPred RF Prédiction de l'interface des sites d'interactions protéine-protéine
eFindSite SVM - NBC Prédiction de l'interface des d'interactions protéine-protéine
DELPHI RNN - CNN Prédiction des sites d'interactions protéine-protéine
PPISP-XGBoost XGBoost Prédiction des sites d'interactions protéine-protéine
HN-PPISP
DeepSG2PPI
CNN Prédiction des sites d'interactions protéine-protéine
TAGPPI
SGPPI
DL-PPI
GCN Prédiction des interactions protéine-protéine
Struct2Graph GAT Prédiction des interactions protéine-protéine
DeepFE-PPI
DeepPPI
DNN Prédiction des interactions protéine-protéine
MaTPIP Transformeur - CNN Prédiction des interactions protéine-protéine
ProtInteract Autoencodeur - CNN Prédiction des interactions protéine-protéine
DNN - "deep neural network" : réseau de neurones profond ; GNN - "graph neural networks" : réseaux de neurones graphiques ; RNN - "recurrent neural network" : réseau de neurones récurrent ; RF - "random forest" : forêt aléatoire ; CNN - "convolutional neural network" : réseau de neurones convolutif ; GCN - "graph convolutional network" : réseau convolutif graphique ; GAT - "graph attention network" : réseau graphique avec attention ; SVM - "support vector machine" : machine à vecteurs de support ; NBC : "naïve Bayes classifier" : classificateur bayésien naïf ; XGBoost - "extreme gradient boosting" : amplification de gradient extrême.

Les méthodes RF et SVM réduisent la haute dimensionnalité des structures protéiques (remplacement des données dans un espace de grande dimension par celles dans un espace de plus petite dimension).

Source : Qi et al (2024)
D-SCRIPT ("Deep Sequence Contact Residue Interaction Prediction Transfer") est une méthode de prédiction des interactions protéine-protéine basée sur la séquence, qui modélise la structure des protéines en utilisant un modèle de langage pré-entraîné.

Exemples de modèles de langage pré-entraînés :

  • GPT ("Generative Pre-trained Transformer") : transformeur génératif pré-entraîné.
  • BERT ("Bidirectional Encoder Representations from Transformers") : représentations d'encodeurs bidirectionnels à partir de transformeurs.

Retour haut de page

b. Illustration : le programme de prédiction ProtInteract

Le programme ProtInteract est une méthode basée sur les séquences des protéines qui prédit les interactions protéine-protéine via deux tâches principales : l'encodage et la prédiction.

Une architecture spécifique d'autoencodeur encode la séquence en acide aminés de chaque protéine :

  • Pour remédier à la complexité du calcul que pose la haute dimensionnalité de la représentation des protéines.
  • Pour extraire les informations clé de cette séquence.

interaction protein apprentissage profond deep learning autoencoder neural network convolutional reseau neurone profond convolutif CNN biochimej

Source : Soleymani et al. (2023)

Retour haut de page

 

c. Jeu d'entraînement de ProtInteract

ProtInteract est entraîné avec les données d'interactions protéine-protéine de la base de données STRING :

  • Les paires de protéines en interaction sont associées à un score d'interaction qui traduit la confiance de l'évaluation STRING quant à la validité de cette interaction.
  • Ces scores d'interaction sont l'élément clé du processus de prédiction de ProtInteract.

Ces scores d'interaction sont ensuite normalisés entre 0 (paires de protéines qui n'interagissent pas) et 1 (paires de protéines qui interagissent avec la plus grande confiance).

Retour haut de page

d. Encodage avec l'autoencodeur de ProtInteract

ProtInteract intègre la séquence en acides aminés d'une protéine dans une pseudo-série "temporelle" où le "temps" est un équivalent algorithmique de la position des acides aminés dans la chaîne polypeptidique.

  • La nature de la série temporelle d'une protéine (sa séquence donc) et ses propriétés physicochimiques permettent d'encoder la séquence d'acides aminés dans un espace vectoriel de dimension inférieure ("dimensionality reduction"). Cette approche extrait ainsi les attributs de séquence hautement informatifs tout en réduisant la complexité du calcul.
  • ProtInteract utilise ces informations pour identifier les interactions protéine-protéine en fonction de leur composition en acides aminés.

Chaque acide aminé est d'abord encodé ("encoding") selon 10 caractéristiques physicochimiques très informatives :

  • Volume; point isoélectrique; probabilité d'être inclu dans une hélice; probabilité d'être inclu dans un feuillet; hydrophobicité; hydrophilicité; polarité; polarisabilité; charge nette de la chaîne latérale; surface accessible aux solvants.
  • Ces dix caractéristiques physicochimiques s'avèrent efficaces pour prédire les interactions protéine-protéine.

Retour haut de page

e. Prédiction des interactions protéine-protéine de ProtInteract

La tâche de prédiction du programme correspond à 3 scénarios de classification des interaction protéine-protéine. Ces scénarios comprennent respectivement 2, 3 et 5 classes d'interaction protéine-protéine.

  • Scénario à 2 classes : les interactions sont divisées en paires de protéines qui n'interagissent pas (0 ≤ score d'interaction ≤ 0,5) et en paires qui interagissent (0,5 < score d'interaction ≤ 1).
  • Scénario à 3 classes : (i) paires de protéines qui n'interagissent pas (0 ≤ score d'interaction ≤ 0,4); (ii) une plage de résultats erronés (0,4 < score d'interaction ≤ 0,7); (iii) paires de protéines qui interagissent (0,7 < score d'interaction ≤ 1).
  • Scénario à 5 classes : dans la base de données STRING, un score d'interaction de 0,5 suggére, qu'en moyenne, une interaction sur deux est étiquetée de manière incorrecte (c'est-à-dire, un faux positif). Ce scénario comprend donc 5 classes car les paires de protéines sans interaction et en interaction sont elles-mêmes subdivisées en classes de confiance faible et élevée.

Finalement :

Dans chaque scénario, un réseau de neurones convolutif profond ("deep Convolutional Neural Network" - deep CNN) prédit la probabilité de classer correctement une interaction protéine-protéine.

 

13. Liens Internet et références bibliographiques

Cours en ligne "Protein-protein interactions"

Pathway Figure OCR : extraction d'informations publiées dans la littérature.

Pathway Commons

The Human Reference Protein Interactome Mapping Project

EMBL-EBI Training

OCR

Pathway Commons

HuRI

Base de données de protéines fluorescentes

FPbase : collection de ≈ 1000 protéines fluorescentes (paramètres physicochimiques et ordre alphabétique)

The Eukaryotic Linear Motif (ELM) resource

MaxQuant : progiciel de protéomique quantitative pour l'analyse de grands jeux de données obtenues par spectrométrie de masse

Guide de sélection de fluorophores

FPbase

Collection

ELM

MaxQuant

Aller au site

Smith & Johnson (1988) "Single-step purification of polypeptides expressed in Escherichia coli as fusions with glutathione S-transferase" Gene 67, 31 - 40

Fields  & Song (1989) "A novel genetic system to detect protein-protein interactions" Nature 340, 245 - 246

Guan & Dixon (1991) "Eukaryotic proteins expressed in Escherichia coli: an improved thrombin cleavage and purification procedure of fusion proteins with glutathione S-transferase" Anal. Biochem. 192, 262 - 267

Prasher et al. (1992) "Primary structure of the Aequorea victoria green-fluorescent protein" Gene 111, 229 - 233

Article

Article

Article

Article

Zhu et al. (2001) "Global analysis of protein activities using proteome chips" Science 293, 2101 – 2105

Chatr-aryamontri et al. (2007) "MINT: the Molecular INTeraction database" Nucleic Acids Res. 35, D572 - D574

Starck M. (2010) "Synthèse, propriétés photophysiques et marquage biologique par des complexes de lanthanides luminescents" Thèse de doctorat

Article

Article

Article

Pavlopoulos et al. (2011) "Using graph theory to analyze biological networks" BioData Min. 4, 10

Szklarczyk et al. (2011) "The STRING database in 2011: functional interaction networks of proteins, globally integrated and scored" Nucleic Acids Res. 39, D561 - D568

Kerrien et al. (2012) "The IntAct molecular interaction database in 2012" Nucleic Acids Res. 04, D841- D846

Article

Article

Article

Mehla et al. (2015) "The yeast two-hybrid system: a tool for mapping protein-protein interactions" Cold Spring Harb. Protoc. (5), 425 - 430

Xing et al. (2016) "Techniques for the analysis of protein-protein interactions in vivo" Plant Physiol. 171, 727 - 758

Fernandes et al. (2016) "Systematic analysis of the gerontome reveals links between aging and age-related diseases" Hum. Mol. Genet. 25, 4804 - 4818

Article

Article

Article

Broussard & Green (2017) "Research Techniques Made Simple: Methodology and Applications of Förster Resonance Energy Transfer (FRET) Microscopy" J. Invest. Dermatol. 137, e185 - e191

Hu et al. (2017) "Functional Analysis of Human Hub Proteins and Their Interactors Involved in the Intrinsic Disorder-Enriched Interactions" Int. J. Mol. Sci. 18, 2761

Feig et al. (2017) "Crowding in Cellular Environments at an Atomistic Level from Computer Simulations" J. Phys. Chem. B 121, 34, 8009 - 8025

Di Silvestre et al. (2018) "Large Scale Proteomic Data and Network-Based Systems Biology Approaches to Explore the Plant World" Proteomes 6, 27

Article

Article

Article

Article

Lambert T.J. (2019) "FPbase: a community-editable fluorescent protein database" Nat. Methods 16, 277 - 278

Ivarsson & Jemth (2019) "Affinity and specificity of motif-based protein-protein interactions" Curr. Opin. Struct. Biol. 54, 26 - 33

Kumar et al. (2020) "ELM-the eukaryotic linear motif resource in 2020" Nucleic Acids Res. 48, D296-D306

Gordon et al. (2020) "A SARS-CoV-2 protein interaction map reveals targets for drug repurposing" Nature 583, 459 - 468

Gogl et al. (2020) "Dual Specificity PDZ- and 14-3-3-Binding Motifs: A Structural and Interactomics Study" Structure 28, 747 - 759

Weihs et al. (2020) "Experimental determination of the bioluminescence resonance energy transfer (BRET) Förster distances of NanoBRET and red-shifted BRET pairs" Anal. Chim. Acta X. 6, 100059

Article

Article

Article

Article

Article

Article

Kerbler et al. (2021) "From Affinity to Proximity Techniques to Investigate Protein Complexes in Plants" Int. J. Mol. Sci. 22, 7101

Lelek et al. (2021) "Single-molecule localization microscopy" Nat. Rev. Methods Primers 1, 39

Karatzas et al. (2022) "The network makeup artist (NORMA-2.0): distinguishing annotated groups in a network using innovative layout strategies" Bioinform. Adv. 2, vbac036

Chakrabarti & Chakravarty (2022) "Intrinsically disordered proteins/regions and insight into their biomolecular interactions" Biophys. Chem. 283, 106769

Soleymani et al. (2022) "Protein - protein interaction prediction with deep learning: A comprehensive review" Comput. Struct. Biotechnol. J. 20, 5316 - 5341

Hu et al. (2022) "Deep learning frameworks for protein - protein interaction prediction" Comput. Struct. Biotechnol. J. 20, 3223 - 3233

Article

Article

Article

Article

Article

Article

smFRET

Roy et al. (2008) "A Practical Guide to Single Molecule FRET" Nat. Methods.5, 507 - 516

Sasmal et al. (2016) "Single-Molecule Fluorescence Resonance Energy Transfer in Molecular Biology" Nanoscale 8, 19928 – 19944

Lerner et al. (2018) "Toward dynamic structural biology: Two decades of single-molecule Förster resonance energy transfer" Science 359, eaan1133

Mazal et al. (2019) "Tunable microsecond dynamics of an allosteric switch regulate the activity of a AAA+ disaggregation machine" Nat. Commun. 10, 1438

Groves et al. (2023) "Single-molecule FRET for virology: 20 years of insight into protein structure and dynamics" Q. Rev. Biophys. 56, e3

 

Article

Article

Article

Article

Article

Kim et al. (2023) "A proteome-scale map of the SARS-CoV-2-human contactome" Nat. Biotechnol. 41, 140 - 149

Kurbatov et al. (2023) "The Knowns and Unknowns in Protein–Metabolite Interactions" Int. J. Mol. Sci. 24, 4155

Liu et al. (2023) "Depicting a cellular space occupied by condensates" Mol Biol Cell. 34, tp2

Goodsell & Lasker (2023) "Integrative visualization of the molecular structure of a cellular microdomain" Protein Sci. 32, e4577

Article

Article

Article

Article

Borm et al. (2023) "Scalable in situ single-cell profiling by electrophoretic capture of mRNA using EEL FISH" Nat. Biotechnol. 41, 222 - 231

Reinhardt et al. (2023) "Ångström-resolution fluorescence microscopy" Nature 617, 711 - 716

Soleymani et al. (2023) "ProtInteract: A deep learning framework for predicting protein - protein interactions" Comput. Struct. Biotechnol. J. 21, 1324 - 1348

Article

Article

Article

Singh A. (2024) "Understanding protein interaction dynamics" Nat. Met. 21, 2226 - 2227

Qi et al. (2024) "Machine Learning Empowering Drug Discovery: Applications, Opportunities and Challenges" Molecules 29, 903

Article

Article

Retour haut de page