Détermination et prédiction des structures des protéines
biochimej Flux RSS

 

1. Introduction

2. Classifications hiérarchiques des structures des protéines

3. Les techniques pour déterminer - analyser les structures des protéines

a. La diffraction des rayons X

b. La résonance magnétique nucléaire

c. La cryo-microscopie électronique

d. Autres techniques moins fréquemment utilisées

4. La mécanique et la modélisation moléculaires

 

5. Les méthodes "ab initio"

a. Introduction

b. Démarche "Template-based modeling"

c. Description schématique de la démarche "Template-based modeling"

d. Démarche "de novo protein design" - Rosetta

e. Exemple de la protéine "artificielle" TOP7 (2003)

6. Liens Internet et références bibliographiques

 

1. Introduction

Les protéines se replient dans l'espace pour adopter une structure tridimensionnelle native unique qui leur confère leur propriétés biologiques.

Il y a un grand nombre, mais qui semble fini, de repliements des protéines observés dans la nature. On en comptabilise environ 1400 (selon les modes de classification et les bases de données).

La figure ci-dessous montre le nombre de nouveaux repliements au cours du temps.

biochimej Growth unique folds SCOP nouveau repliement

Source : PDB

On constate qu'aucun nouveau repliement n'a été mis en évidence depuis 2009 : 1393 repliements ont été comptabilisés en novembre 2012 dans la Protein DataBank (PDB).

Celà tend à démontrer qu'il n'existe qu'un nombre fini de repliements.

De plus, ce chiffre semble relativement modeste en regard des combinaisons quasi infinies de chaînes polypeptidiques "théoriques" (mais dont le nombre dans la nature est limité par les séquences des gènes des génomes).

On ne sait pas si les structures non encore observées sont physiquement impossibles ou si elles n'ont pas encore été "testées" par le processus évolutif ou caractérisées par les biologistes structuraux.

Remarque : certaines protéines sont dites intrinsèquement non structurées et certaines nécessitent une aide au repliement par des protéines chaperonnes. Quoi qu'il en soit, ces protéines adoptent à un moment ou un autre une structure tridimensionnelle unique.

Retour haut de page

a. Les 3 grands types de protéines

α. Les protéines fibreuses : ce sont des protéines allongées dont les éléments de structure secondaire sont les structures dominantes. Exemple : la kératine.

β. Les protéines membranaires :

  • elles sont enchâssées dans la bicouche lipidique et la traversent ou elles sont fixées à l'un des feuillets.
  • ces protéines sont de formes et de tailles très diverses.
  • leurs structures sont regroupées en 2 grandes catégories : toute α ("all helical structures") comme la bactériorhodopsine ou toute β ("all beta structures") comme les porines.

γ. Les protéines globulaires :

  • elles ont des séquences en acides aminés non répetitives. Elles ont des tailles de 100 à plusieurs centaines d'acides aminés et adoptent une structure compacte.
  • les chaînes latérales des acides aminés non polaires ont tendance à être enfouis et à constituer le "coeur" hydrophobe. Les chaînes latérales des acides aminés polaires ou chargés (hydrophiles) ont tendance à être à la surface de la protéine et accessibles au solvant.
  • les brins β sont en général appariés de manière parallèle ou anti-parallèle et forment des feuillets β.
  • en moyenne, 25% des acides aminés sont impliqués dans la formation d'hélices, 25% dans la formation de feuillets et 50% adoptent des arrangements structuraux moins ordonnées / réguliers.

Retour haut de page

b. Terminologies liées aux structures des protéines

Domaines : ce sont des unités fonctionnelles et/ou structurales distinctes des protéines. Ils sont en général responsables d'une fonction ou d'une interaction particulière et contribuent à la fonction de la protéine.

Les domaines peuvent en général se replier de manière indépendante.

Figure ci-dessous : les motifs répétés "Leucine-rich repeat" (LRR) du domaine N-terminal de RanGAP1 ("Ran GTPase-activating protein 1"). Type de repliement : superhélice [β-α] de pas droit ("right-handed beta-alpha superhelix").

biochimej Rna1P

Source : SCOP

Motif ("motif") :

  • 1ère définition : courtes séquences d'acides aminés caractérisées par des liaisons hydrogène entre certains de ces acides aminés et des valeurs spécifiques des angles de torsion de la liaison peptidique (angles Φ, Ψ et ω). Voir le tableau ci-dessous.
  • 2ème définition : association de plusieurs éléments de structure secondaire assurant une fonction biologique particulière. Exemple : fixation du NAD+ par le pli Rossmann.

Courts motifs (2 à 6 acides aminés) stabilisés par des liaisons hydrogène, trouvés dans les protéines
alpha-beta-motif asx-motif

Exemple de définition : motif α-β (figure ci-dessous)

biochimej motif alpha beta

Motif fréquent dans les hélices α en position C- et N-terminales. Les motifs α-β de pas gauche sont rares.

Caractéristiques structurales :

  • motif de 5 résidus d'acides aminés consécutifs avec 2 liaisons hydrogène
  • 1 liaison hydrogène entre le groupe CO du résidu i et le groupe NH du résidu i+3
  • 1 liaison hydrogène entre le groupe CO du résidu i et le groupe NH du résidu i+4
  • les angles Φ des résidus (i+1), (i+2) et (i+3) sont négatifs
asx-turn-iL asx-turn-iR
asx-turn-iiL asx-turn-iiR
beta-bulge -----------
beta-bulge-loop-5 beta-bulge-loop-6
beta-turn-iL beta-turn-iR
beta-turn-iiL beta-turn-iiR
gamma-turn-classic gamma-turn-inverse
nest-LR nest-RL
niche-3R niche-3L
niche-4L niche-4L
schellmann-loop-6 schellmann-loop-7
st-staple st-motif
st-turn-iL st-turn-iR

st-turn-iiL

st-turn-iiR
PDBeMotif: interface Web pour la recherche de motifs selon divers critères dans les protéines de la PDB.

Patron ("pattern") : courte séquence en acides aminés essentiels à la fonction d'une protéine (site de fixation, site actif, ...). Ils sont mis en évidence par alignements multiples de séquences de protéines ayant des fonctions comparables. Si les séquences des "pattern" ne sont pas exactes, on les exprime sous forme d'expression régulière (exemple : [FY]-x-E-x(4)-{ILV}).

Empreinte ("fingerprints") : ensemble de courts motifs conservés (mis en évidence par alignements multiples de séquences).

Retour haut de page

c. La "Protein DataBank"

La base de données mondiale recueil des structures tri-dimensionnelles des macromolécules biologiques est la Protein DataBank (PDB).

Elle contient plus de 131.000 structures de protéines, d'acides nucléiques (ADN et ARN) et de complexes ribonucléoprotéiques, déterminées par différentes techniques :

  • cristallographie - diffraction des rayons X : plus de 117 000 structures
  • résonance magnétique nucléaire : plus de 12 000 structures
  • cryo-microscopie électronique (technique la plus récemment utilisée) : plus de 1600 structures

Les 10 organismes les plus représentés sont : Homo sapiens, Escherichia coli, Mus musculus, Saccharomyces cerevisiae, Bos taurus, Gallus gallus, Sus scrofa, Thermus thermophilus, ...

Retour haut de page

2. Classifications hiérarchiques des structures des protéines

La base de données SCOP ("Structural Classification of Proteins") - MRC Laboratory of Molecular Biology - Cambridge - Angleterre

Sa classification est basée sur la similarité des structures et des séquences en acides aminés des domaines structuraux des protéines.

L'unité de classification est le domaine d'une protéine. Pour les auteurs de cette classification, la définition de domaine SCOP se base sur le fait que les petites protéines ne contiennent généralement qu'un domaine.

Exemple : l'hémoglobine (structure α2β2) est considérée comme ayant 2 domaines SCOP, un domaine α et un domaine β.

Attention : ici la terminologie "α" et "β" n'a rien à voir avec une hélice α ou un feuillet β.

Les niveaux de la classification SCOP :

  1. classe ("Class") : type de repliements ("folds"). Les classes de SCOP sont : toute alpha / toute beta / alpha et beta (a/b - mélangé) / alpha plus beta (a+b - séparé) / protéines multi-domaines / protéines membranaires / petites protéines / "coiled coil proteins" / structures de protéines de faibles résolution protein / peptides / protéines "artificielles" ("de novo designed proteins").
  2. repliement ("Fold") : les différentes formes des domaines au sein d'une classe. Exemple : "TIM beta/alpha-barrel".
  3. superfamille ("Superfamily") : les domaines qui adoptent un type de repliement sont regroupés en superfamilles qui possèdent au moins un ancêtre structural commun distant. Exemple : triosephosphate isomérase, phosphate aldolase.
  4. superfamille ("Family") : les domaines au sein d'une superfamille sont regroupés en familles qui possèdent un ancêtre structural commun plus récent.
  5. domaine protéique ("Protein domain") : les domaines au sein d'une famille sont regroupés en domaines protéiques qui sont essentiellement la même protéine.
  6. espèce ("Species") : les domaines protéiques sont regroupés selon les espèces.
  7. domaine ("Domain") : partie d'une protéine. Pour les protéine simples, celà peut être la protéine en entier.

Exemple de classification SCOP (les liens renvoient vers les données au niveau hiérarchique considéré de la classification) :


Comparaison des terminologies SCOP et CATH ("Class Architecture Topology Homology")
SCOP : > 1200 repliements (Juin 2017) Base de données CATH

Classe

Classe : essentiellement alpha, essentiellement beta, (alpha/beta) mélangé

Exemple de classes de protéines et nombre de repliements

  • protéines toute alpha : 289 repliements
  • protéines toute beta : 177 repliements
  • protéines alpha et beta (a/b - mélangé) : 148 repliements
  • protéines alpha plus beta (a+b - séparé) : 385 repliements
  • protéines multi-domaines : 69 repliements
  • protéines et peptides membranaires : 59 repliements

Architecture : classification selon la conformation globale, en ignorant toute connectivité

Superfamille Topologie ("Topology") : groupes de repliements (forme et connectivité)
Famille Superfamille homologue ("Homologous Superfamily")
Domaines : définition manuelle Domaines : définition automatique

Bases de données liées à SCOP

  • SuperFamily : base de données d'annotation ("Hidden Markov models") structurale et fonctionnelle des protéines.
  • Astral : "databases and tools useful for analyzing protein structures and their sequences".

Les autres bases de données de classification

SMART : "Small motif database" / PRODOM : "Protein domain database" / InterPro : "Databases of protein families and domains" / HOMSTRAD : "Homologous structure alignment database"

Exemples de programmes et de serveurs d'alignement de structures

SSAP ("Sequential Structure Alignment Program") / DALI / STRUCTAL ("Structural Alignment Server") / VAST ("Vector Alignment Search Tool" - NCBI) / LSQMAN / SSM ("PDBeFold").

Retour haut de page

3. Les techniques pour déterminer - analyser les structures des protéines

Il n'y a pas une technique meilleure qu'une autre. Elles ont toutes leur spécificité avec leurs avantages et leurs inconvénients.

Les meilleurs modèles structuraux de macromolécules biologiques ou de complexes biologiques résultent de combinaisons de données obtenues par plusieurs de ces techniques.

a. La diffraction des rayons X

Voir le principe de la diffraction des rayons X.

L'histoire raconte qu'en skiant dans les Alpes en 1912, le physicien allemand Max von Laue énonça à ses collègues une idée novatrice : il postulait que les rayons X en passant au travers d'un cristal seraient réfléchis par les centres atomiques du réseau cristallin et interfèreraient entre eux pour créer un diagramme de diffraction.

biochimej diffraction rayon X ray

Source : N. Jones (2014)

L'idée de von Laue était correcte et en 1914, il a reçu le prix Nobel de physique « pour sa découverte de la diffraction des rayons X par les cristaux ».

En 2012, on fête le 100ème anniversaire de la loi énoncée par Lawrence Bragg : n . λ = 2 d sin θ.

Figure ci-dessous : image radiographique de l'ADN obtenue en 1952 par Rosalind Franklin (appelée photo 51).

biochimej diffraction rayon X ray

Source : King's College London

Ces photographies ont été déterminantes pour l'élucidation de la structure en double hélice de l'ADN par J. Watson, F. Crick, et M. Wilkins en 1953 (Prix Nobel en 1962).

R. Lefkowitz & B. Kobilka ont reçu le prix Nobel de Chimie en 2012 pour leurs travaux sur la détermination de la structure des RCPG.

La cristallographie étudie les macromolécules sous forme cristalline à l'échelle atomique : c'est actuellement la technique la plus résolutive qui peut être inférieure à 1 Å.

biochimej diffraction rayon X ray

Source : Wikipedia

L'état cristallin est défini par un caractère périodique et ordonné à l'échelle atomique ou moléculaire. Ce caractère périodique est appelé la maille élémentaire.

La cristallogénèse est la formation d'un cristal, soit en milieu naturel, soit de façon expérimentale. C'est le passage d'un état désordonné liquide à un état ordonné solide, contrôlé par la température, la pression, le temps d'évaporation et des lois cinétiques complexes :

  • 1ère phase : la germination correspond à l'apparition d'une phase cristalline stable à partir d'un liquide surfondu ou d'une solution sursaturée
  • 2ème phase : la croissance est le processus qui va suivre la germination et permettre l'augmentation de taille des germes pour conduire aux cristaux

Des automates permettent maintenant de tester en parallèle des centaines de conditions physico-chimiques de cristallogénèse.

La plupart des substances minérales et des petites molécules organiques cristallisent facilement et les cristaux obtenus sont en général sans défaut.

En revanche les macromolécules biologiques, comme les protéines (a fortiori les protéines membranaires), sont souvent très difficiles à cristalliser.

Techniques de pointe pour générer des rayons X :

  • XFELs : "X-ray free-electron lasers"
  • "Third-generation synchrotrons" ou "undulator-based storage rings"
  • "Femtosecond X-ray protein nanocrystallography" : les impulsions des rayons X issus des systèmes XFELs sont extrêmement intenses et détruisent complètement les molécules et les cristaux. Mais ces impulsions n'ayant une durée que de 1 femtoseconde (10-15 seconde), des diagrammes de diffraction peuvent être obtenus avant que les molécules ne soient détruites.

La diffraction des rayons X par des monocristaux ("X-ray single-crystal diffraction" - SCD) a une limitation évidente : les molécules cibles doivent être obtenues comme des monocristaux.

En 2013, un protocole d'analyse SCD ne nécessitant pas la cristallisation de l'échantillon a été développé (Inokuma et al., 2013):

  • l'échantillon est mélangé à une solution de minuscules cristaux d'un complexe poreux : ce complexe absorbe les molécules de l'échantillon.
  • l'analyse SCD étant effectuée sur un minuscule monocristal de complexe, la masse requise d'échantillon est réduite à l'ordre du nanogramme ou du microgramme.
  • de plus, cette technique peut-être couplée à la chromatographie liquide haute performance, ce qui permet la caractérisation directe de plusieurs molécules.

Retour haut de page

b. La résonance magnétique nucléaire

Voir le principe de la RMN.

Du fait de son caractère non destructif, la RMN est employée en biologie et en chimie organique pour déterminer la structure de certaines protéines ou de fragments d'ADN, de molécules organiques, ...

C'est une technique où les molécules sont en solution.

L'un des avantages de la RMN est d'obtenir des informations sur la dynamique des arrangements conformationnels au sein des macromolécules biologiques par mesure des temps de relaxation (T1, T2), des temps de corrélation, des vitesses d'échange chimique.

Ces arrangements conformationnels peuvent être :

Kurt Wüthrich a reçu le prix Nobel de chimie en 2002 pour le développement de la RMN pour la détermination de la structure des macromolécules en solution.

Terminologie :

a. Protéine non marquée par des isotopes ("2D Homonuclear nuclear magnetic resonance" - spectre RMN en 2 dimensions) : davantage appliqué aux peptides et aux petites protéines

  • expérience COSY : "COrrelation SpectroscopY"
  • expérience TOCSY : "TOtal Correlation SpectroscopY"
  • expérience NOESY : "Nuclear Overhauser Effect SpectroscopY"

b. Attribution des déplacements chimiques observés à chaque type d'atome (marquage isotopique / carbone 13 et azote 15) : expérience HSQC ("2D Heteronuclear Single Quantum Correlation") pour les noyaux autres que l'hydrogène.

c. Grosses protéines : expérience TROSY ("Transverse Relaxation Optimized SpectroscopY").

d. Protéines membranaires et fibrillaires : elles sont "sous-étudiées" structuralement car les agents chimiques chaotropes (détergents) nécessaires à leur solubilisation des membranes limitent (voire empêchent) l'obtention de cristaux qui diffractent. Une méthode est de plus en plus employée pour déterminer la structure de ces protéines : "Magic-angle spinning solid-state NMR (MAS ssNMR) spectroscopy".

Voir : "Magic-Angle Spinning (MAS)".

Retour haut de page

c. La cryo-microscopie électronique

La cryo-microscopie électronique ("single-particle cryo-electron microscopy" - Cryo-EM) est une forme de microscopie électronique à transmission où l'échantillon est étudié à des températures cryogèniques (azote liquide, environ -195°C). Dans ces conditions de congélation rapide, l'eau n'a pas le temps de former des cristaux.

cryomicroscopie electronique Prix Nobel biochimej cryoelectron microscopy cryoEM

Source : Jarnestad J. - The Royal Swedish Academy of Sciences

La cryo-EM permet donc l'observation d'échantillons dans leur état natif, non cristallin, par opposition à la diffraction des rayons X qui requière en général des conditions non physiologiques. Les besoins en quantité de matériel biologique purifié sont moindres que pour la diffraction des rayons X ou la RMN.

EM Databank ("Unified Data Resource for 3-Dimensional Electron Microscopy") : Base de données de structures déterminées par cryo-EM.

La cryo-EM est de plus en plus utilisée pour la détermination de la structure des macromolécules biologiques.

La cryo-EM est surtout utilisée pour les complexes biologiques (virus, ribosome, spliceosome, ...) : en effet, leur très grande taille empêche de les étudier par diffraction des rayons X ou RMN.

La résolution de la cryo-EM est désormais comparable à celle des deux autres grandes techniques de détermination de la structure des macromolécules biologiques.

Pour obtenir des modèles à l'échelle atomique, il est nécessaire d'affiner ("in silico modeling") les données de densité électronique de cryo-EM avec celles des structures cristallographiques d'entités constitutives de ces complexes.

Figure ci-dessous : Evolution des technologies de Cryo-EM.

cryomicroscopie electronique biochimej cryoelectron microscopy cryoEM

Source : Fujiyoshi, Y. (2011)

Le microscope enregistre les données d'un trés grand nombre de particules orientées au hasard.

Un modèle tri-dimensionnel est ensuite reconstruit par ordinateur à partir d'images 2D sélectionnées.

Figure ci-dessous :

  • Images 3D d'une apolipoprotéine A-1 prises sous les différents angles indiqués.
  • Puis 4 traitements successifs de l'image (amélioration des projections - "Raw projection") clarifient le signal.
  • On aboutit à la structure 3D : colonne de droite et figures B, C.

cryomicroscopie electronique biochimej cryoelectron microscopy  cryoEM

Source : Berkeley lab

Retour haut de page

Les avancées de la cryo-microscopie électronique

Plusieurs facteurs sont cause d'une perte importante d'information dans les images de cryo-EM (et donc de la limitation de la résolution actuelle de cette technique) :

  • les dommages subis par l'échantillons à cause de l'énergie des électrons : la dose d'électrons doit être limitée pour empêcher les molécules de se désagréger pendant l'acquisition des images
  • une faible efficacité de détection quantique ("Detective Quantum Efficiency" - DQE) des appareils de mesure classiques : la DQE est la mesure fréquence-dépendante de la performance [signal-bruit]
  • le mouvement ou la charge de l'échantillon induits par l'énergie du faisceau pendant l'acquisition des images

L'utilisation de nouveaux détecteurs d'électrons dits "à conversion directe" ("direct-conversion electron detectors") et d'algorithmes de correction des mouvements spécifiquement développés à cet usage a démontré que cette technique permet de résoudre des structures macromoléculaires à une résolution quasi atomique.

Ces caméras ont non seulement des performances améliorées dans la détection [signal-bruit], mais surtout elles sont suffisamment rapides pour suivre les mouvements de particules lors de l'irradiation par les électrons. Ainsi les mouvements de l'échantillon (pendant l'acquisition des données) induits par l'énergie du faisceau peuvent être corrigés.

Deux exemples d'application :

  • Bai et al. (2013) ont obtenu une image du ribosome 80S de Saccharomyces cerevisiae à une résolution de 4,5 Å : environ 30.000 particules de ribosome ont été nécessaires, soit 50 à 100 fois moins que pour les déterminations précédentes de la structure du ribosome. Visualisation de cette structure à l'EBI.
  • Li et al. (2013) ont obtenu une image du protéasome 20S (700 kDa - groupe de symmétrie D7) de Thermoplasma acidophilum à une résolution de 3,3 Å. Seules 120.000 particules de protéasome ont été nécessaires.

Les protéines membranaires

Lorsque les protéines membranaires intégrales sont visualisées dans des détergents ou d'autres systèmes artificiels, une information capitale est perdue : les interactions avec les lipides et leurs effets sur la structure réelle de la protéine dans la membrane. C'est d'autant plus marquant dans le cas des protéines pour lesquelles les lipides ont un rôle structural et un rôle de régulation.

La cryo-EM / couplée à la technologie des lipides nanodisques permet de déterminer la structure d'une protéine membranaire dans une bicouche lipidique.

Exemple : l'étude du récepteur ionotrope TRPV1 ("Transient Receptor Potential cation channel subfamily V member 1") du rat. Ce type de récepteur est activé par des molécules de la famille des vanilloïdes (exemple : la capsaïcine du piment) ou une température supérieure à 42°C.

biochimej lipide nanodisque TRPV1 diffraction rayon X RMN nuclear resonance cryomicroscopie electronique electronic cryomicroscopy cryoEM ab initio determination structure macromolecule rosetta Top7

Source : Gao et al. (2016)

La cryo-EM / couplée à la technologie des lipides nanodisques :

  • a permis de déterminer la localisation des lipides structuraux et des lipides de régulation
  • a montré que des interactions avec des phospholipides spécifiques augmente la fixation d'une toxine d'araignée sur TRPV1 par la formation d'un complexe ternaire
  • a montré que des lipides dérivés du phosphatidylinositol occupent le site de fixation de la capsaïcine (et d'autres ligands vanilloïdes) ce qui suggère un mécanisme par lequel des stimuli chimiques ou thermiques provoquent l'activation du canal ionique TRPV1 en favorisant la libération de lipides bioactifs d'un site de régulation allostérique critique.

Retour haut de page

Prix Nobel 2017

Le Prix Nobel de Chimie a été attribué en 2017 à Jacques Dubochet, Joachim Frank et Richard Henderson pour le développement de la technique de cryomicroscopie électronique.

diffraction rayon X RMN nuclear resonance cryomicroscopie electronique electronic cryomicroscopy cryoEM biochimej

Source : Cressey & Callaway (2017) "Cryo-electron microscopy wins chemistry Nobel" Nature

La résolution de la cryomicroscopie électronique a notablement augmenté en évoluant d'une carte de densité à basse résolution (partie gauche de la structure de la β-galactosidase, figure ci-dessous) aux coordonnées atomiques (environ 2 Å - partie droite).

Retour haut de page

d. Autres techniques moins fréquemment utilisées

La diffusion des rayons X aux petits angles ("Small-angle X-ray scattering" - SAXS) :

  • Elle utilise des sources de radiation de type synchrotron ("high-flux synchrotron sources") : λ ≈ 0,15 nm.
  • Cette technique s'appuie sur l'interaction élastique des photons avec les électrons des atomes. Quand ils interagissent avec la macromolécule, les photons sont diffusés en fonction des densités électroniques. Plus l'atome est léger, moins l'interaction est forte : les atomes d'hydrogène sont difficiles à localiser pour une résolution supérieure à 1,2 Å.
  • Elle permet d'analyser la forme globale d'un complexe.
  • Elle permet d'étudier l'échantillon (protéines membranaires, ARN, ...) dans différentes conditions physico-chimiques. Par exemple, en conditions dénaturantes donc à divers degrés de repliement.

La diffusion des neutrons aux petits angles ("Small angle neutron scattering" - SANS) :

  • Elle utilise des neutrons termiques : λ ≈ 0,5 nm.
  • Elle est combinée avec un marquage au deutérium.
  • Les neutrons interagissent avec le noyau des atomes indépendamment de leur numéro atomique. En conséquence l'atome d'hydrogène est aussi bien localisé que des atomes plus lourds (carbone, oxygène, azote - "similar scattering length densities").
  • Elle permet d'analyser la position relative d'un composant au sein d'un complexe.
  • Les échantillons sont ré-utilisables pour des études combinées à la RMN, par exemple.

La spectroscopie infrarouge par transformée de Fourier ("Fourier Transform Infrared Spectroscopy" - FTIR) :

  • Petites quantités de matériel analysable dans diverses conditions expérimentales.
  • Voir le principe de la spectroscopie infrarouge.

La fluorescence et les fluorochromes :

  • Ces techniques sont plus indirectes et ne permettent pas de déterminer la structure des macromolécules. En revanche, elles apportent des informations quant à leur localisation sub-cellulaire ou leur interaction avec d'autres molécules biologiques.
  • "X-ray fluorescence microscopy" - XRF
  • "Green Flurescent Protein" - GFP
  • "Fluorescence Resonance Energy Transfer"

La spectromètrie de masse :

  • Etude de l'assemblage de protéines (pour l'instant jusqu'à 1 million Da) par spectromètrie de masse "Orbitrap mass analyser" (quadrupôle / "time of flight").

Retour haut de page

Exemple d'utilisation de plusieurs méthodes

Modèle d'activation de la Ca2+-ATPase :

  • cristallographie
  • modèles de faible résolution SAXS obtenus avec le programme ab initio DAMMIN
  • "homology modeling" : modèles de la Ca2+-ATPase obtenus avec le programme Modeller (sur la base des structures PDB 3N5K et 3N8G)
  • calcul de la compacité ("docking") de l'extrémité N-terminale (domaine auto-inhibiteur) avec le programme HADDOCK

Figure ci-dessous - à gauche : forme auto-inhibée de la Ca2+-ATPase de la membrane plasmique ("Plasma-Membrane Ca2+-ATPase").

Figure ci-dessous - à droite : fixation de deux molécules de calmoduline (complexée au calcium) sur les sites de fixation à haute affinité (en vert clair et en bleu clair). Cette fixation déplace l'hélice auto-inhibitrice du coeur catalytique, ce qui active la pompe à ion.

biochimej cryoelectron microscopy  cryoEM

Source : Tidow et al. (2012)

Retour haut de page

4. La mécanique et la modélisation moléculaires

Ce type d'approche est complémentaire des techniques physiques qui précèdent. Ces objectifs sont entre autres :

  • l'obtention d'informations sur la dynamique et l'énergie des molécules. Exemples : AMBER, CHARMM, GROMACS.
  • calculer le champ de force pour déterminer les propriétés des molécules. Exemples : AMBER, CHARMM, GROMACS.
  • corréler ces propriétés à une structure moléculaire et valider la structure moléculaire.
  • simuler des phénomènes biologiques complexes (exemple le transport d'ions par des canaux ioniques) - méthode Monte-Carlo. Exemple : BOSS, BioMOCA.
  • la visualisation des molécules à partir de données structurales déterminées par cristallographie, RMN, Cryo-EM. Exemples : Jmol, RasMol.
  • ...

Voir le principe de la mécanique moléculaire et la notion de champs de force.

Exemple de terminologie anglo-saxonne : "Backbone torsion angles optimization with Monte Carlo minimization protocol" / "Energy minimization using a quasi-Newton method" / "Lazaridis–Karplus implicit solvation model".

Différents outils informatiques sont utilisés pour :

  • visualiser la structure des molécules en 3 dimensions. Exemples : Chimera, DeepView.
  • les "manipuler" (rotation, translation, changement de conformation). Exemples : Chimera, PyMol, VMD.
  • calculer les paramètres géométriques (distance inter-atomique, angle, ...) ou énergétiques. Exemples : Modeller, Chimera, PyMol.
  • comparer des structures de macromolécules. Exemples : Modeller, Chimera, PyMol.
  • simuler des structures inconnues à partir de structures 3D (déja déterminées) homologues ou similaires ("homology modeling" - "protein threading", ...). Exemples : Modeller, EsyPred3D.
  • ...

Voir une liste quasi exhaustive des programmes de mécanique et modélisation moléculaires.

Retour haut de page

5. Les méthodes "ab initio" ("depuis le commencement")

a. Introduction

Il y a un grand nombre, fini, de repliements des protéines observés dans la nature. A ce jour on comptabilise environ 1400 repliements (selon les modes de classification et les bases de données).

On ne sait pas si les structures non encore observées sont physiquement impossibles ou si elles n'ont pas encore été "testées" par le processus évolutif ou caractérisées par les biologistes structuraux.

Les méthodes informatiques (algorithmiques) de conception de nouvelles structures protéiques :

  • "Template-based modeling" qui s'appuie sur des structures 3D déterminées ("Protein Data Bank")
  • "de novo protein design" : qui ne s'appuie pas sur des structures 3D déterminées

sont un moyen de répondre (peut-être) rapidement à cette question mais aussi de concevoir des protéines "artificielles" aux propriétés thérapeutiques originales.

Exemples de champs d'application :

b. Démarche "Template-based modeling"

Le but est de générer une séquence ou un ensemble de séquences d'acides aminés qui se replie(nt) dans une structure 3D préalablement déterminée ("template").

  • L'une des principales caractéristiques de cette démarche par [simulations / calculs] est qu'elles génèrent des (dizaines de) milliers de séquences donc de modèles moléculaires ("decoys").
  • Ces modèles reflètent le sous-ensemble de conformations les plus stables parmi l'ensemble total des conformations spatiales adoptables a priori par une séquence d'acides aminés (compte-tenues de tout ou partie des contraintes stériques, chimiques, de solvatation, ...).
  • Il est possible que différentes séquences aboutissent au même repliement, certaines de ces séquences révélant des propriétés particulières (protéine plus stable, protéine plus active, ...).
  • Cette démarche suit donc une logique inverse à celle du problème du repliement d'une protéine ("protein folding") qui est de prédire le repliement qu'adopte une séquence d'acides aminés donnée.

Limitations actuelles

  • Il est difficile de concevoir une protéine de plus de 100 acides aminés : avec une moyenne de 100 rotamères pour chacun des 20 acides aminés à chaque position, la complexité du problème (NP-complet) peut-être estimée à 100100 = 10200. L'une des limitations actuelles est donc liée à l'efficacité des algorithmes.
  • L'autre difficulté est d'incorporer, dans les étapes de sélection des conformations les plus vraisemblables par rapport à la structure "template", la fléxibilité réelle du squelette carboné de la chaîne polypeptidique.
  • De plus, ces 2 aspects sont liés : introduire le paramètre fléxibilité augmente la complexité des algorithmes.
  • Près de 80.000 protéines dont la structure 3D a été déterminée (PDB) sont cytosoliques et seules quelques centaines sont membranaires. On ne dispose donc pas d'informations suffisantes pour les 3 types de protéines.

Retour haut de page

c. Description schématique de la démarche "Template-based modeling"

1ère étape

Génération des séquences d'acides aminés susceptibles de déboucher sur un repliement donné ("template").

Ci-dessous : cette équation décrit un moyen de générer ces séquences d'acides aminés "artificielles".

biochimej Template-based modeling protein design equation

Source : Fung et al. (2008)

1er cas : une structure protéique de départ ("template")

  • i = 1, …, n : nombre de positions des acides aminés le long de la chaîne polypeptidique de départ (équation ci-dessus).
  • A chaque position i, il peut y avoir un ensemble de mutations, representé par : j{i} = 1, …, mi (mi = 20 acides aminés).
  • k > i est nécessaire pour tenir compte de toutes les interactions 2 à 2 entre acides aminés.
  • Les variables binaires yji et ylk indiquent les mutations possibles à une position donnée.
  • La variable binaire wjlik est le produit de yji par ylk' .

La fonction à minimiser est la somme des énergies d'interactions 2 à 2 entre les acides aminés de la séquence de départ.

Le terme Ejlik (xi, xk) est l'énergie d'interaction entre la position i occupée par l'acide aminé j et la position k occupée par l'acide aminé l.

Ce terme dépend :

  • de la distance entre les carbones α ou le centre de gravité des chaînes latérales aux deux positions (xi, xk)
  • du type d'acides aminés j et l

2ème cas : plusieurs structures protéiques de départ

Le terme Ejlik (xi, xk) est remplacé par un terme d'énergie moyenne pondéré :

biochimej Template-based modeling& protein design equation

La distance entre xi etxk est donc remplacée par une distance moyenne pondérée entre toutes les structures.

Des centaines, voire des milliers de séquences potentielles ("decoys") peuvent ainsi être générées.

Deuxième étape

Recherche des conformations les plus stables thermodynamiquement (fonctions de minimisation d'énergie) et semblables à la structure native :

  • prédiction des hélices α et des feuillets β
  • maximisation de l'énergie des interactions hydrophobes entre feuillets
  • prédiction des contraintes d'angles et de distances via la prédiction des contacts entre résidus et des contacts entre les boucles
  • recherche d'une solution au problème contraint - non convexe d'optimisation globale par une combinaison de plusieurs algorithmes :
    1. d'optimisation globale déterministe
    2. d'optimisation globale stochastique
    3. de dynamique moléculaire dans l'espace des angles de torsion

La stabilité des modèles ("decoys") est évaluée par des fonctions de scores qui combinent :

  • des termes énergétiques basés sur la physique ("physics-based scoring functions") de la molécule. Exemple : sa compacité - interactions van der Waals.
  • des termes énergétiques basés sur la connaissance ("knowledge-based scoring functions") des molécules : analyse statistique des données de la PDB - interactions entre acides aminés.

Des étapes finales d'affinements pour augmenter la résolution de la structure native calculée sont parfois nécessaires.

Voir la procédure suivie par "ASTRO-FOLD".

Troisième étape

Les conformations proches ou équivalentes à la structure native ("native-like conformation") sont alors sélectionnées :

  • sur la base de ces fonctions de score
  • par regroupement de conformères semblables

Retour haut de page

d. Démarche "de novo protein design" - Rosetta

L'originalité de cette méthode est qu'elle ne s'appuie sur aucune structure 3D préalablement déterminée.

Terminologies équivalentes : "de novo structure prediction" / "de novo structure modeling".

Rosetta est un projet dédié à la prédiction de nouvelles structures de protéines ("ab initio protein structure prediction method Rosetta") par calculs partagés sur ordinateurs ou grille de calcul distribué (plateforme BOINC - "Berkeley Open Infrastructure for Network Computing").

Des petits fragments d'environ 10 acides aminés sont assemblés en molécules plus grandes, ce qui réduit considérablement les degrés de liberté conformationnels de l'échantillon.

Cette approche s'appuie sur l'hypothèse que l'information concernant la stabilité de la structure est contenue localement au sein de chaque fragment.

Figure ci-dessous : un exemple de démarche Rosetta.

biochimej demarche rosetta de novo protein design

Source : Nanda & Koder (2010)

Des règles trés précises de topographie des acides aminés au sein de structures secondaires ont pu être énoncées (Koga et al., 2012) :

règle ββ : la chiralité des épingles qui relient des brins β est déterminée par la longueur de la boucle de l'épingle

biochimej Structure proteine diffraction rayon X ray

règle βα : la direction d'une hélice est déterminée par la direction du dernier acide aminé d'un feuillet et la longueur de la boucle qui l'y rattache : direction P si la boucle contient 2 résidus et direction A si elle en contient 3.

biochimej Structure proteine diffraction RMN resonance magnetique nucleaire

règle αβ : le premier acide aminé d'un feuillet pointe en direction opposée de l'hélice adjacente : la direction préférée est P.

biochimej Structure proteine cryo-microscopie elecronique CryoME

Source : Koga et al. (2012)

Aller à la base de données "Motivated proteins" : elle contient un trés grand nombre de motifs stabilisés par des liaisons hydrogène et des règles qui en découlent.

Retour haut de page

Les protéines naturelles ont évolué pour reconnaître un ensemble relativement faible de molécules de ligand avec une grande affinité et une grande spécificité. Élargir cet ensemble de couples [protéine - ligand] avec des protéines synthétiques spécifiques de ces ligands pourrait modifier radicalement le développement de biocapteurs, de médicaments à base de protéines, d'enzymes artificielles et autres outils pour la biologie chimique.

De nouvelles méthodes de calcul utilisent la sélection virtuelle du meilleur conformère dans un très vaste ensemble de conformations (Tinberg et al., 2013).

  • On définit les positions géométriques d'un ensemble de chaînes latérales qui interagissent avec le ligand et les rotamères pour chaque chaîne latérale interagissante sont énumérés.
  • On cherche ensuite les squelettes carbonés (banque PDB) des conformères susceptibles d'accommoder toutes les interactions désirées.
  • Dans le cas où tous les résidus choisis qui interagissent peuvent être placés dans le squelette d'une protéine et que ces interactions orientent convenablement le ligand dans le site de fixation, la séquence du site de liaison est optimisée pour augmenter l'affinité (panneau central).
  • Les conformères conçus théoriquement qui ont des propriétés proches ou semblables à la protéine naturelle sont sélectionnés puis caractérisés expérimentalement (cytométrie de flux des levures chez lesquelles on exprime les conformères conçus théoriquement).

Exemple de lignes de commande pour générer les conformères:
~/rosetta/bin/generate_ligens.linuxiccrelease –database <rosetta_database_path>
–in:file::s <ligand_pdb_model.pdb> -in:file::exra_res_fa <ligand.params> @flags
@flags:
-packing -use_input_sc –enzdes –rot_ensemble_ecutoff 0.25 –cst_design – no_unconstrained_repack

Exemple de lignes de commande pour la recherche de structures concordantes :
~/rosetta/bin/match.static.linuxiccrelease –database <rosetta_database_path>
-extra_res_fa <ligand.params> -s <scaffold.pdb> -match:scaffold_active_site_residues <scaffold.pos> –match:geometric_constraint_file <constraint.cst> @match.flags
@match.flags:
-match:lig_name:DIG -match:filter_colliding_upstream_residues
-match:filter_upstream_downstream_collisions -match:updown_collision_tolerance 0.3
-match::bump_tolerance 0.3 -match_grouper SameSequenceAndDSPositionGrouper
-match:euclid_bin_size 0.9 -match:euler_bin_size 9.0 -packing -extrachi_cutoff 0
-use_input_sc -in:ignore_unrecognized_res -output_format CloudPDB
-enumerate_ligand_rotamers -only_enumerate_non_match_redudant_ligand_rotamers
-out::file::output_virtual

Exemple de lignes de commande pour le "design" de structures:
~/rosetta/bin/rosetta_scripts.static.linuxiccrelease -nstruct 1 -jd2:ntrials 1
-parser:protocol <RosettaScripts_protocol.xml> –database <rosetta_database_path>
-out::overwrite –s <input.pdb> @ligdes.flags
@ligdes.flags:
-run::preserve_header -enzdes::minimize_ligand_torsions 5.0
-enzdes::detect_design_interface -enzdes::cut1 6.0 -enzdes::cut2 8.0
-enzdes::cut3 10.0 -enzdes::cut4 12.0 -enzdes::bb_min_allowed_dev 0.05
-score:weights ~/rosetta_database/scoring/weights/enzdes.wts -packing::use_input_sc
-packing::extrachi_cutoff 1 -packing::ex1 -packing::ex2 -linmem_ig 10
-no_optH false -in:file::pssm scaffold.fasta.pssm
-extra_res_fa <DIG.params>

Retour haut de page

e. Exemple de la protéine "artificielle" TOP7 (2003)

C'est une protéine "artificielle" de 93 acides aminés issue de simulations / calculs de prédiction ("de novo protein design") effectués par Brian Kuhlman et Gautam Dantas (équipe de David Baker - Université de Caroline du Nord) .

Ces chercheurs ont utilisé comme point de départ un repliement encore jamais mis en évidence dans la nature.

Les séquences ont été générées avec le programme "Rosetta design Monte Carlo search protocol and energy function" :

  • un potentiel de Lennard-Jones 12-6
  • un terme pour les liaisons hydrogène dépendant de l'orientation
  • un modèle de solvatation implicite

Tous les acides aminés (excepté la cystéine) ont été autorisés pour 71 des 93 positions (≈ 110 rotamères par position) et les 22 positions restantes (surface des feuillets) ont été restreintes à des acides aminés polaires (≈ 75 rotamères par position). L'espace de recherche était de 11071 × 7522, soit ≈ 10186 rotamères.

Les conformations du squelette carboné ont été générées sans contrainte pour optimiser la compacité des chaînes latérales : en conséquence, les séquences de plus basse énergie avaient une énergie très supérieure à celle de protéines natives de même taille.

La structure la plus stable a été baptisée TOP7 : 2 hélices α compactées à 5 feuillets β anti-parallèles (figure ci-contre). Ce type de repliement n'a pas encore été observé dans la nature.

En parallèle, la protéine TOP7 recombinante a été produite in vivo dans Escherichia coli puis cristallisée.

La comparaison de la structure modèle conçue par calcul et de la structure cristalline est saisissante (figure ci-dessous) :

biochimej TOP7 de novo protein design

Source : Kuhlman et al. (2003)

  • ensemble de la chaîne carbonée : RMSD = 1,17 Å
  • peptide Asp78 - Gly85 : RMSD = 0,79 Å

Visualisation de TOP7 à une résolution de 2,5 Å

Le chargement de la structure peut prendre du temps.

Code PDB : 1QYS

 

6. Liens Internet et références bibliographiques

PDB : Protein Data Bank

SCOP : Structural Classification of Proteins

TOPS : Topology of Protein Structure database

CASP : Critical Assessment of Techniques for Protein Structure Prediction

PDB

SCOP

TOPS

CASP

Rosetta@home : Baker laboratory, University of Washington; Rosetta Commons

Foldit : online protein structure prediction game based on the Rosetta platform

Folding@home

Rosetta

Foldit

Folding@home

HPF : Human Proteome Folding Project

TOP7 : molecule of the month - PDB

SBKB : PSI Structural Genomics Knowledgebase (PSI : Protein Structure Initiative)

Motivated proteins : A Web Facility for Studying Small Hydrogen-Bonded Motifs (très beau travail pédagogique)

HPF

TOP7

SBKB

Aller au site

GROMACS : a versatile package to perform molecular dynamics, i.e. simulate the Newtonian equations of motion for systems with hundreds to millions of particles

I-TASSER : "Protein structure and function predictions"

GalaxyWEB : "Web server for protein structure prediction and refinement"

Gromacs

I-TASSER

GalaxyWEB

Kuhlman et al. (2003) "Design of a Novel Globular Protein Fold with Atomic-Level Accuracy" Science 302, 1364 - 1368

Fung et al. (2008) "Toward Full-Sequence De Novo Protein Design with Flexible Templates for Human Beta-Defensin-2" Biophys J. 94, 584 - 599

Nanda & Koder (2010) "Designing Artificial Enzymes by Intuition and Computation" Nat. Chem. 2, 15 - 24

Fujiyoshi, Y. (2011) "Structural physiology based on electron crystallography" Protein Sci. 20, 806 - 817

Article

Article

Article

Article

Koga et al. (2012) "Principles for designing ideal protein structures" Nature 491, 222 - 227

Tidow et al. (2012) "A bimodular mechanism of calcium control in eukaryotes" Nature 491, 468 - 472

Rose et al. (2012) "High-sensitivity Orbitrap mass analysis of intact macromolecular assemblies" Nat. Meth. 9, 1084 - 1086

Vogeli et al. (2012) "Spatial elucidation of motion in proteins by ensemble-based structure calculation using exact NOEs" Nat. Struc. Mol. Biol. 19, 1053 - 1057

Article

Article

Article

Article

Shahid et al. (2012) "Membrane-protein structure determination by solid-state NMR spectroscopy of microcrystals" Nature Meth. 9, 1212 - 1217

Gopinath & Veglia (2012) "Dual Acquisition Magic-Angle Spinning Solid-State NMR-Spectroscopy: Simultaneous Acquisition of Multidimensional Spectra of Biomacromolecules" Angew Chem. Int. Ed. Engl. 51, 2731 - 2735

Banigan & Traaseth (2012) "Utilizing Afterglow Magnetization from Cross-Polarization Magic-Angle-Spinning Solid-State NMR Spectroscopy to Obtain Simultaneous Heteronuclear Multidimensional Spectra" J. Phys. Chem. B 116, 7138 - 7144

Inokuma et al. (2013) "X-ray analysis on the nanogram to microgram scale using porous complexes" Nature 495, 461 - 466

Article

Article

Article

Article

Bai et al. (2013) "Ribosome structures to near-atomic resolution from thirty thousand cryo-EM particles" eLife 2, e00461

Li et al. (2013) "Electron counting and beam-induced motion correction enable near-atomic-resolution single-particle cryo-EM" Nat. Methods 10, 584 - 590

Tinberg et al. (2013) "Computational design of ligand-binding proteins with high affinity and selectivity" Nature 501, 212 - 216

Gao et al. (2016) "TRPV1 structures in nanodiscs reveal mechanisms of ligand and lipid action" Nature 534, 347 - 351

Article

Article

Article

Article

Le Prix Nobel de Chimie a été attribué en 2017 à Jacques Dubochet, Joachim Frank et Richard Henderson pour le développement de la technique de cryomicroscopie électronique.

Henderson et al. (1990) "Model for the structure of bacteriorhodopsin based on high-resolution electron cryo-microscopy" J. Mol. Biol. 213, 899 - 929

Dubochet, J. (2016) "A reminiscence about early times of vitreous water in electron cryomicroscopy" Biophys. J. 110, 756 - 757

Cressey & Callaway (2017) "Cryo-electron microscopy wins chemistry Nobel" Nature

Site Prix Nobel

Article

Article

Article

Retour haut de page

biochimej Valid XHTML 1.0 Transitional