Notions de base de mécanique moléculaire et de modélisation moléculaire des protéines
biochimej Flux RSS

1. Principe de la mécanique moléculaire

a. Les catégories de méthodes
b. Fonction d'interaction et équations de mouvement

2. Le champ de force associé aux atomes d'une protéine

3. Modélisation de structures de protéines par homologie

a. Démarche de la modélisation par homologie
b. Validation de la structure de la protéine cible construite à partir du modèle

4. Les scores de distances inter-atomiques entre des structures comparées

 

5. Exemples de programmes de modélisation et de visualisation de structures de protéines

a. PyMOL
b. Jmol et JSMol
c. MODELLER
d. MODELLER : détail de la syntaxe de la commande profile.build()
e. Autres programmes

6. "Protein threading"

7. Démarche "de novo protein design" : exemple de la protéine artificielle TOP7

8. Méthode Rosetta

9. Liens Internet et références bibliographiques

 

1. Principe de la mécanique moléculaire

La mécanique moléculaire a pour but de prédire l'énergie associée à une conformation donnée d'une molécule. Le résultat obtenu est comparé aux propriétés physiques de la molécule observées expérimentalement (structure tri-dimensionnelle déterminée par une méthode physique).

C'est une méthode empirique qui utilise un modèle mathématique et divers paramètres de potentiels : l'ensemble [modèle mathématique / paramètres de potentiels] s'appelle un champ de force ("force field").

Les protéines sont constitués de centaines ou de milliers d'atomes et les seules méthodes de calculs pour des systèmes de cette taille sont les calculs de mécanique moléculaire. La mécanique quantique permet d'étudier des systèmes ne comportant que quelques centaines d'atomes.

La mécanique moléculaire s'appuie sur 3 principes qui simplifient l'approche physique :

  • Les vitesses des molécules sont faibles par rapport à la vitesse de la lumière.
  • Le mouvement des électrons est plus rapide que celui des noyaux car leur masse est beaucoup plus faible : cette différence permet l'approximation de Max Born & Julius Robert Oppenheimer (Ann. Phys. 84, 457-484, 1927).
  • Les lois de Newton de la mécanique classique décrivent le mouvement des atomes. Sous l'effet d'une force F, une masse m subit une accélération γ = F / m (avec F en N ou kg.m.s-2; m en kg; γ en m.s-2).

Les atomes qui constituent les molécules sont représentés, dans certains modèles, par des boules reliées par des bâtonnets (les liaisons) :

  • les atomes (boules) sont caractérisés par un rayon, une masse et une charge
  • les liaisons (bâtonnets) sont assimilées à des ressorts
  • L'ensemble [atomes/boules - liaisons/bâtonnets] est lui-même caractérisé par un champ de force

Les interactions physiques entre atomes sont décrites par l'équation de l'énergie potentielle. Le principe clé est que la conformation spatiale optimale est caractérisée par l'énergie la plus basse. Il faut donc minimiser l'énergie par diverses méthodes (plus grande pente, Newton-Raphson, recuit simulé, gradients conjugués, ...).

Si le système d'équations utilisé le permet, la mécanique moléculaire permet de décrire certaines propriétés des molécules : arrangement géométrique des atomes, stabilité des conformères, calcul des propriétés des molécules (moment dipolaire, polarisabilité, vibration, ...), forces qui s'exercent entre les molécules, rôle du solvant, éventuellement la réactivité chimique, ...

biochimej Retour haut de page

a. Les catégories de méthodes de mécanique moléculaire

La figure ci-dessous décrit les gammes d'application des méthodes de modélisation moléculaire à différentes résolutions (échelles approximatives de temps et de longueurs de système) : méthodes quantique ("quantum"), tout-atome ("all-atom"), à grain grossier ("coarse-grained") et méso-échelle ("mesoscale"). Les gammes d'applications peuvent être étendues en fusionnant des outils de résolutions différentes.

Mecanique modelisation dynamique moleculaire champ force field energie cinetique potentielle proteine de novo molecular dynamics amber charmm gromos monte carlo ab initio rosetta interaction modeller coarse grained biochimej

Source : Kmiecik et al. (2016)

Les catégories de méthodes sont donc liées au nombre d'atomes des molécules dont on veut calculer l'énergie :

a. Petites molécules (environ < 300 atomes) : méthodes quantiques - les interactions des noyaux et des électrons sont décrites explicitement.

b. Méthodes dites tout atome (systèmes jusqu'à 100.000 atomes) : les atomes sont assimilés à des sphères et les interactions sont représentées par des oscillateurs autour d'une position d'équilibre. Ces positions d'équilibres constituent ce qu'on appelle le champ de forces qui sert de référentiel.

c. Méthode de simulation à granularité grossière ("Coarse - Grained" - CG) : elles permettent d'explorer des échelles de temps et d'espace inaccessibles aux modèles traditionnels de résolution atomique. L'eau étant le solvant universel de tous les systèmes biologiques, son traitement moléculaire est crucial dans les études de simulation. L'une des principales simplifications des modèles CG est donc la représentation du solvant : celle-ci est soit implicite, soit modélisée explicitement comme une particule de van der Waals.

Figure ci-dessous : comparaison des caractéristiques de 2 simulations d'ordres de grandeur très différents. Sont indiqués : l'entité biologique étudiée; le type de simulation; le nombre d'atomes - particules (y compris l'eau) inclus dans la simulation; la dimension approximative linéaire de la boîte de simulation; la durée du cycle de production de la simulation; la taille du fichier résultant de la trajectoire.

Mecanique modelisation dynamique moleculaire champ force field energie cinetique potentielle proteine de novo molecular dynamics amber charmm gromos monte carlo ab initio rosetta interaction modeller coarse grained biochimej

Source : Chavent et al. (2016)

Figure ci-dessous : Représentation tout atome d'un tripeptide et modèles à grains grossiers ("coarse-grained models") correspondants : mode de représentation centroïde de la méthode Rosetta, modèle de Levitt et Warshel et modèle SICHO. Les atomes de la chaîne latérale sont en orange et les pseudo-liaisons de longueur fluctuante sont représentées sous forme de ressorts.

Mecanique modelisation dynamique moleculaire champ force field energie cinetique potentielle proteine de novo molecular dynamics amber charmm gromos monte carlo ab initio rosetta interaction modeller coarse grained biochimej

Source : Kmiecik et al. (2016)

Le mode de représentation centroïde est un mode de représentation réduit, qui simplifie la représentation du système et permet un échantillonnage et une notation plus rapides. Pour les protéines, chaque résidu d'acide aminé est représenté par 5 atomes du squelette carboné (N, Cα, C, O et H lié à N) et 1 pseudo-atome appelé centroïde (CEN) qui représente la chaîne latérale dont le rayon et les propriétés (polarité, charge, …) sont déterminés par l'identité du résidu.

biochimej Retour haut de page

b. Fonction d'interaction et équations de mouvement

energie cinetique interaction potentiel champ force bond stretching CHARMM Gromos amber biochimej

Algorithme de résolution des équations du mouvement

Les trajectoires de l'espace des phases, caractérisées par une petite différence de conditions initiales, divergent de manière exponentielle au bout d'un certain temps : il n'existe donc pas d'algorithme d'intégration des équations du mouvement qui permette d'obtenir une solution exacte.

Une solution satisfaisante est en revanche obtenue avec des algorithmes qui calculent de bonnes approximations des équations différentielles sur des temps courts. L'algorithme d'intégration de Loup Verlet (1967) est fréquemment utilisé car il fournit des solutions stables pour des temps plus longs.

Cet algorithme réduit les erreurs : la position pour un pas de temps donné est calculée à partir de la position précédente et de la position actuelle sans utiliser la vitesse.

algorithme Loup Verlet integration pas mouvement energie cinetique interaction potentiel champ force bond stretching CHARMM Gromos amber biochimej

L'accélération ai(t + Δt) ne dépend que de la position ri(t + Δt) et non de la vitesse vi(t + Δt).

  • On renouvelle ce calcul à chaque pas d’intégration Δt : le coût/temps de calcul est proportionnel à ce pas et il devient rapidement très important.
  • De plus, pour pouvoir représenter le mouvement, ce pas doit être petit (environ 10-15 s, 1 femtoseconde) en regard de la période de vibration la plus courte du système étudié (Δt ≤ 1/100 νmax avec νmax ≈ 1013 Hz).

Sources :

  • Baaden M. (2003) "Dynamique Moléculaire in silico : Fondements théoriques et liste détaillée de références bibliographiques" Ecole thématique du CNRS
  • Thèse LEROUX V. (2006) "Modélisation d'inhibiteurs du domaine SH2 de la protéine Grb2 par dynamique moléculaire, docking et criblage virtuel"
  • Cours de Modélisation Moléculaire

biochimej Retour haut de page

2. Le champ de force associé aux atomes d'une protéine

Voir un cours : "La mécanique moléculaire" (Unisciel).

Les atomes sont donc traités comme des boules de différentes tailles reliées entre elles par des ressorts (les liaisons) de différentes longueurs. Un champ de force est associé à chaque atome dans la protéine.

Le schéma ci-dessous représente les cinq types de potentiels élémentaires d'un champ de force "simple" :

potentiel champ de force bond stretching CHARMM biochimej

Source : Tug Sezen - Folding@home

  • l'élongation des liaisons ("bond stretching")
  • la courbure des angles ("angle bending")
  • la torsion ("torsional terms")
  • les interactions de Van der Waals entre atomes non liés directement ("non-bonded interactions")
  • les interactions électrostatiques entre atomes non liés directement

Les champs de force les plus récents sont plus sophistiqués et incluent des termes mixtes qui tiennent compte des interdépendances des différents types d'interactions.

L'énergie totale Etotale (appelée aussi énergie potentielle) d'une protéine est donnée par l'équation suivante :

Etotale = Eliée + Enon liée = [Estretch + Ebend + Etorsion + Eimpropers] + [EVdW + Eelec] (en N.m ou J)

Exemples de formulation de chaque terme d'un champ de force.

Estretch : l'énergie d'élongation (ou de tension - "bond stretching") d'une liaison par rapport à sa distance d'équilibre est une fonction quadratique. potentiel champ de force bond stretching CHARMM biochimej
  • di : distance entre les atomes liés
  • d0,i : distance d'équilibre standard pour la liaison i
  • Kd,i : constante de force d'élongation de la liaison i (exemple : Kd,i = 3,16 105 kJ.mol-1-2)
Ebend : l'énergie de déformation angulaire ou de courbure des angles ("angle bending") par rapport aux angles de valence standard est une fonction quadratique. potentiel champ de force bond stretching CHARMM biochimej
  • θi : angle entre les liaisons
  • θ0,i : angle de valence standard d'un atome donné
  • Kθ,i : constante de force de déformation angulaire (exemple : Kθ,i = 6,33 102 kJ.mol-1.deg-2)

Etorsion : énergie de torsion ("bond rotation (torsion)") - énergie dihédrale

potentiel champ de force bond stretching CHARMM biochimej

potentiel champ de force bond stretching CHARMM biochimej
  • Φi : angle de torsion dièdre entre les liaisons
  • δ : angle de phase du dièdre
  • Vn,i : constante de force de torsion (en kJ.mol-1)
  • ni : périodicité de la rotation (ordre de la série de Fourier)

Un angle dièdre est l'angle entre les plans formés par 2 séries de 3 atomes, ayant 2 atomes en commun.

L'énergie totale de rotation autour d'une liaison est la somme :

  • de l'énergie de torsion proprement dite
  • de l'énergie de van der Waals et de l'énergie d'interaction électrostatique impliquant les atomes non liés qui changent de position après cette rotation.

Le schéma ci-contre illustre l'interaction entre 2 atomes non liés.

potentiel champ de force bond stretching CHARMM biochimej

Cette interaction est responsable de l'encombrement stérique qui joue un rôle important dans la géométrie des protéines.

Cette interaction résulte de l'attraction de van der Waal et de [l'attraction/répulsion] électrostatique qui s'exercent sur ces deux atomes.

EVdW : énergie des interactions de Van der Waals entre atomes non liés directement ("non-bonded interactions").

Elle est exprimée en général sous la forme d'un potentiel de John Lennard-Jones (dispersion et de répulsion) ou d'un potentiel de Buckingham).

potentiel champ de force bond stretching CHARMM biochimej
  • di,j : distance entre les atomes non liés i et j
  • Ai,j : paramètres du champ de force lié à la répulsion entre les atomes i et j
  • Bi,j : paramètres du champ de force lié à l'attraction entre les atomes i et j
  • Le rayon de van der Waals correspond à la distance minimale entre les 2 atomes (exemples : H = 1,2 Å, O = 1,4 Å, N = 1,5 Å, P = 1,9 Å)

Eelec : énergie des interactions électrostatiques entre atomes non liés directement. Elle est exprimée en utilisant un potentiel Coulombien.

Ce terme augmente avec la polarité des liaisons chimiques et peut être particulièrement important, par exemple dans le cas de molécules qui contiennent des hétéroatomes.

potentiel champ de force bond stretching CHARMM biochimej
  • di,j : distance entre les atomes i et j
  • qi et qj : charge partielle des atomes non liés i et j. Les charges partielles atomiques sont calculables pour de petites molécules en utilisant une méthode quantique ab initio ou semi-empirique (exemple : MOPAC et AMPAC)
  • ε : permitivité du milieu = constante diélectrique de l'environnement (le solvant ou la molécule elle-même - ε = 78 pour l'eau; ε = 1 pour le vide)

Exemple d'une autre formulation de Eelec : potentiel de Coulomb avec une longueur de criblage de Debye (λD) appliquée à tous les résidus avec des charges non nulles qi.

potentiel champ de force bond stretching CHARMM biochimej
  • λD : longueur de Debye
  • kB : constante de Boltzmann; T : température
  • NA : constante d'Avogadro; e : charge élémentaire
  • I : force ionique (en M)
  • ε0 : permittivité dans le vide; εd : constante diélectrique (souvent égale à 80)

biochimej Retour haut de page

Exemples de champs de force en mécanique moléculaire

Selon la méthode de calcul utilisée pour le calcul de l'énergie, les structures moléculaires modélisées et leurs propriétés seront ou non exactes. Le choix du champs de force est donc à faire en se basant sur les résultats déjà obtenus dans la littérature concernant leurs applications aux systèmes moléculaires.

  • CHARMM ("Chemistry at HARvard Molecular Mechanics") : protéines, acides nucléiques et lipides (co-auteur : M. Karplus, Prix Nobel 2013)
  • AMBER ("Assisted Model Building and Energy Refinement") : protéines et acides nucléiques
  • GROMACS ("GROningen MAchine for Chemical Simulations") : protéines
  • SYBYL (Tripos) : molécules organiques
  • MARTINI : lipides, protéines - champs de force "coarse-grained"
  • UNRES ("UNited RESidue") : repliement des protéines et dynamique moléculaire - champs de force "coarse-grained"

Un fichier PSF ("Protein Structure File") contient les informations (spécifiques d'une molécule) nécessaires pour lui appliquer un champ de force.

Par exemple, le champ de force CHARMM contient entre autres :

Un fichier de topologie qui génère le fichier PSF. Exemple ci-dessous : extrait du fichier PSF pour l'ubiquitine (qui commence par le titre et les données des atomes) :

PSF CMAP
 6 !NTITLE
   REMARKS original generated structure x-plor psf file
   REMARKS 2 patches were applied to the molecule.
   REMARKS topology top_all27_prot_lipid.inp
   REMARKS segment U { first NTER; last CTER; auto angles dihedrals }
   REMARKS defaultpatch NTER U:1
   REMARKS defaultpatch CTER U:76
 1231 !NATOM
   1 U    1    MET  N    NH3   -0.300000       14.0070     0
   2 U    1    MET  HT1  HC     0.330000        1.0080     0
   3 U    1    MET  HT2  HC     0.330000        1.0080     0
   4 U    1    MET  HT3  HC     0.330000        1.0080     0
Un fichier de paramètres qui contient les valeurs numériques spécifiques pour la fonction potentielle générique CHARMM :
  • di, di,j, θi, ni, : topologie
  • Kd,i, d0,i, Kθ,i, θ0,i, Vn,i, ni, δ, Ai,j, Bi,j, ε, qi et qj : fichier de paramètres
Voir une liste de programmes sur le site de la PDB.

biochimej Retour haut de page

3. Modélisation de structures de protéines par homologie ("Homology modeling")

Les algorithmes de comparaison de structures 3D de deux protéines peuvent être classés en plusieurs catégories :

  • ceux basés sur l'alignement du "corps rigide" ("rigid body alignment") en superposant (par une méthode heuristique) les structures protéiques avec mise à l'échelle, rotation, transformation et enfin superposition. Ils s'appliquent à des protéines de petites tailles qui ont le même nombre d'acides aminés. Exemples : les serveurs de comparaison de structures de protéines DALI, VAST ("Vector Alignment Search Tool").
  • ceux basés sur la fragmentation des structures et assemblage par alignement non séquentiel (exemples : FATCAT, FlexProt, FlexSnap). Ils nécessitent une sélection appropriée de la taille des fragments et des temps de calculs importants.
  • ceux qui utilisent une analyse de forme élastique ("elastic shape analysis") dans laquelle les coordonnées atomiques sont complétées par les propriétés des chaînes latérales des acides aminés. La structure de la protéine est représentée par une fonction appelée fonction de la vitesse de la racine carrée ("square-root velocity function"). Exemple : ProtSComp.

a. Démarche de la modélisation par homologie

La structure inconnue (que l'on veut modéliser) est appelée cible ("target") et la structure connue est appelée modèle ("template").

Mecanique homology modelisation homologie dynamique moleculaire champ force field energie cinetique potentielle proteine de novo molecular dynamics amber charmm gromos monte carlo ab initio rosetta interaction modeller coarse grained biochimej

Recherche (reconnaissance) d'un modèle et alignement initial ("template recognition and initial alignment")

La séquence de la protéine de structure inconnue (cible) est comparée aux séquences des protéines dont les structures sont connues et stockées dans la banque de données de structures de protéines (Exemple : "Protein Data Bank" - PDB). Cette recherche de modèle dans la base de données s'effectue avec un programme tel que PSI-BLAST (utilisation d'un profil plus spécifique de la protéine cible) : elle renvoie la liste des protéines de structures connues (les modèles potentiels) qui correspondent à la séquence cible.

La recherche d'un modèle correct est plus difficile quand on a une protéine cible qui contient de multiples domaines.

Si BLAST ne trouve pas de modèle, une technique plus sophistiquée est nécessaire pour identifier la structure d'une molécule : le "protein threading", la modélisation "ab initio".

Correction des alignements multiples

Les alignements multiples doivent être corrigés (optimisés) avec des programmes tels que T-Coffee ou Muscle et aussi par une inspection visuelle ("à la main").

Il est nécessaire d'identifier les résidus d'acides aminés qui doivent être conservés. Par exemple : un changement Ala (hydrophobe) -> Glu (chargé) est possible, mais il est peu probable qu'il se produise dans une région hydrophobe, donc ces 2 résidus ne doivent pas être alignés. La structure du modèle indique les résidus potentiellement situés à l'intérieur, moins susceptibles de substitution que ceux situés à la surface de la protéine.

Par ailleurs, les alignements de séquences introduisent des "gaps" (insertion - délétion de résidus d'acides aminés). Les insertions - délétions sont davantage compatibles avec la conservation de la structure si elles ont lieu dans des régions divergentes (par exemple, en dehors des régions qui adoptent une structure secondaire). Les alignements multiples corrigés ont pour but de de mettre en évidence ces régions. Les gaps doivent être aussi peu nombreux et contigus que possible.

Enfin des acides aminés critiques tels que ceux qui constituent le site actif d'une enzyme doivent être hautement conservés.

Modélisation des boucles

S'il y a un/des gap(s) dans la séquence cible, on supprime le/les résidu(s) correspondant(s) dans le modèle.

S'il y a une insertion dans la cible, c'est le modèle qui contient un gap : en d'autres termes, il n'y a pas de coordonnées tridimensionnelles pour ce résidu additionnel dans le modèle. En conséquence, le squelette carboné du modèle doit être "coupé" pour insérer ce résidu. Des modifications de cette ampleur ne sont pas modélisables dans des éléments de structures secondaires : ils doivent être placés dans des boucles.

Les boucles à la surface des structures de protéines sont flexibles donc difficiles à prédire. Une méthode consiste donc à inclure des résidus d'acides aminés avant et après l'insertion (ce sont des résidus dits d'ancrage - "anchor-residues") puis de rechercher dans la base de données PDB les boucles qui possèdent les mêmes résidus d'ancrage : la boucle la plus similaire est copiée dans le modèle.

SWISS-MODEL Repository (SMR)

  • Base de données de modèles de structures protéiques 3D annotées.
  • SMR contient plus de 400.000 modèles de haute qualité (> 18.000 modèles pour Homo sapiens) qui couvrent près de 20% des entrées Swiss-Prot/UniProtKB.
  • Les modèles son générés automatiquement par la suite logicielle (pipeline) de modélisation par homologie SWISS-MODEL.

Retour haut de page

b. Validation de la structure de la protéine cible construite à partir du modèle

Exemples de caractéristiques structurales qu'il est indispensable de valider pour proposer une structure qui représente de manière fiable la protéine que l'on veut modéliser.

Un angle dièdre est l'angle formé entre 2 plans en intersection. Dans la structure des protéines, c'est l'angle entre les plans formés par 2 séries de 3 atomes, ayant 2 atomes en commun. Dans une chaîne polypeptidique, on définit 3 angles dièdres qui sont reportés dans les diagrammes de Ramachandran :

  • Φ (phi) : angle de rotation de la liaison entre l'atome Ni et l'atome Cαi (valeurs de -180° à +180°; valeur = 0 si la liaison Cα-C est en cis par rapport à la liaison C-N)
  • Ψ (psi) : angle de rotation de la liaison entre l'atome Cαi et l'atome C'i (valeurs de -180° à +180°; valeur = 0 si la liaison C-N est en cis par rapport à la liaison N-Cα)
  • ω (omega) : angle de rotation de la liaison entre l'atome C'i et l'atome Ni+1
  • Voir une définition et des valeurs de tous les angles d'une chaîne polypeptidique.

La planarité de la liaison peptidique limite généralement ω à 0° (conformation cis, rare - principalement observé dans les liaisons peptidiques acide aminé-Pro) ou à 180° (conformation trans, la plus fréquente) . La distance entre les atomes Cα des isomères cis et trans est respectivement d'environ 2.9 Å et 3.8 Å.

  • La géométrie des liaisons covalentes d'un modèle est évaluée en comparant les longueurs et les angles des liaisons à une bibliothèque de valeurs considérées comme "idéales". Les premières versions des programmes d'affinement et de modélisation de structures possédaient leurs ensembles de valeurs "idéales". Maintenant, des ensembles de valeurs standards (dérivées des analyses des structures cristallines de petites molécules) sont utilisées pour les protéines et les acides nucléiques. Les écart par rapport aux valeurs standards peuvent être exprimés comme une déviation angulaire ou en terme de distances angulaires.
  • Les combinaisons de valeurs des angles de torsion chi1 et chi2 (conformations des rotamères) sont très performantes pour la validation de structures.

Mecanique homology modelisation homologie dynamique moleculaire champ force field energie cinetique potentielle proteine de novo molecular dynamics amber charmm gromos monte carlo ab initio rosetta interaction modeller coarse grained biochimej

Source : Expasy - SwissModel

  • La méthode d'analyse directionnelle des contacts atomiques ("Directional Atomic Contact Analysis"  - DACA) calcule un score pour chaque groupe d'atomes dans une protéine : ce score traduit l'adéquation de ce groupe dans son environnement (par exemple un résidu d'acide aminé chargé dans une poche hydrophobe).
  • Les autres tests de validité de la structure sont les tests de chiralité et de planéarité.
Portée de la validation
tests géometriques faible facteur de température faible
angle ω faible résolution modérée
combinaisons Φ, Ψ très forte facteur R faible
carbones alpha ("CA-only tests") forte facteur Rfree très forte
analyse DACA très forte facteur Rfree - R forte
symétrie non-cristallographique modérée estimées des coordonnées modérée

Voir un cours très complet sur la validation des structures modélisées.

Voir : CAMEO ("Continuous Automated Model EvaluatiOn").

Retour haut de page

4. Les scores de distances inter-atomiques entre des structures comparées

La modélisation par homologie de structures nécessite de superposer les structures des protéines qui sont comparées pour établir la correspondance spatiale entre les acides aminés équivalents dans ces structures.

Le score RMSD et le score RMSD local

Pour mesurer ces distances inter-atomiques on utilise fréquemment une grandeur appelée écart quadratique moyen (RMSD - "Root Mean Square Deviation", en Å) entre les coordonnées spatiales des atomes des acides aminés appariés.

Par exemple, si on considère n atomes de 2 structures, on compare les coordonnées (xi, yi, zi) d'un atome i de l'une de ces structures aux coordonnées (x'i, y'i, z'i) d'un atome i apparié de l'autre structure :

On superpose ainsi les structures en minimisant la valeur de RMSD.

protein structure prediction macromolecule bioinformatique bioinformatics script langage Python biopython programmation programming sequence motif modelisation pfam PDB hydrophobicity hydropathy hydrophilicity amino acid amine HMM hidden markov model comparison score RMSD TM TM-score biochimej

Limites du score RMSD

  • Il faut que les 2 structures soient dans le même système de repères orthonormés.
  • Cette méthode attribue un poids statistique équivalent à tous les atomes (carbone α et atomes des chaînes latérales)
  • Il faut préciser la liste des atomes à comparer : c'est un problème si les protéines n'ont pas des séquences de longueurs identiques

Pour effectuer un choix pertinent des acides aminés à comparer, on calcule un RMSD local avec les carbones α des acides aminés inclus dans une fenêtre de longueur L+1 :

protein structure prediction macromolecule bioinformatique bioinformatics script langage Python biopython programmation programming sequence motif modelisation pfam PDB hydrophobicity hydropathy hydrophilicity amino acid amine HMM hidden markov model comparison score RMSD TM TM-score biochimej

Des équations ont été proposées pour établir un lien entre la déviation du RMSD des repliements et le degré d'homologie des séquences. Par exemple :

RMSD = 0.4 e1.87 S, S=12.3 + 98.4 e-0.95 RMSD où S est la valeur d'identité des séquences.

Le score GDT

Le score GDT ("Global Distance Test") est aussi une mesure de la similarité entre 2 structures protéiques qui ont des structures tertiaires différentes.

Ce score est calculé sur la base du plus grand ensemble de carbone α des résidus d'acides aminés de la structure de la protéine cible dont la position dans l'espace correspond (selon un seuil donné : 1 Å, 2 Å, 4 Å et 8 Å) à celles des résidus d'acides aminés de la structure de la protéine modèle.

Les scores GDT sont les principaux critères d'évaluation des résultats de prédiction issus de l'expérience CASP ("Critical Assessment of Structure Prediction"). CASP est une expérience à grande échelle de la communauté scientifique qui travaille sur la prédiction de structure. CASP évalue et améliore les différentes techniques de modélisation de structures de protéines.

Le score TM

Le score TM ("Template Modeling score") est également une mesure de la similarité entre 2 structures protéiques qui ont des structures tertiaires différentes.

Le score TM est une mesure plus précise de la qualité des structures protéiques que le score RMSD et le score GDT. Dans le calcul du score TM, les distances faibles ont un poids plus élevé que les distances fortes : ce score est donc insensible aux erreurs de modélisation locales.

  • un score TM > 0. 5 indique une topologie correcte du modèle calculé : les protéines comparées ont un repliement similaire
  • un scoreTM < 0. 17 correspond à des protéines non apparentées choisies au hasard
  • ces seuils de score ne dépendent pas de la longueur de la protéine

protein structure prediction macromolecule bioinformatique bioinformatics script langage Python biopython programmation programming sequence motif modelisation pfam PDB hydrophobicity hydropathy hydrophilicity amino acid amine HMM hidden markov model comparison score RMSD TM TM-score biochimej

  • max : la somme doit être maximisée (matrice de superposition optimale).
  • Lnative est la longueur de la protéine native (la structure de référence avec laquelle s'effectue la comparaison) et Laligné est la longueur de la région d'acides aminés qui est alignée.
  • di est la distance entre la ième paire de résidus d'acides aminés alignés entre les 2 structures. Cette distance dépend de la matrice de superposition.
  • d0(Lnative) est une échelle de distance qui normalise les différences de distances.

Exemples de superpositions (comparaisons) de structures de protéines avec différents algorithmes (CE, SAL, DALI et TM-align). Les scores RMSD et TM sont indiqués.

protein structure prediction macromolecule bioinformatique bioinformatics script langage Python biopython programmation programming sequence motif modelisation pfam PDB hydrophobicity hydropathy hydrophilicity amino acid amine HMM hidden markov model comparison score RMSD TM TM-score biochimej

Source : Zhang & Skolnick (2005)

Le score lDDT

Le score lDDT ("Local Distance Difference Test") est calculé sur toutes les paires d'atomes dans la structure de référence à une distance inférieure à un seuil prédéfini (appelé rayon d'inclusion), et n'appartenant pas au même résidu d'acide aminé.

Ces paires d'atomes définissent un ensemble de distances locales L :

  • Une distance est conservée dans le modèle M si elle est (selon un seuil de tolérance) la même que la distance correspondante dans l'ensemble L.
  • Si un ou les deux atomes définissant une distance dans l'ensemble L ne sont pas présents dans le modèle M, la distance est non conservée.

Pour un seuil donné, la fraction des distances conservées est calculée. Le score IDDT est la moyenne de 4 fractions calculées en utilisant des seuils identiques à ceux utilisés pour calculer le score GDT (voir ci-dessus).

Voir Mariani et al. (2013).

Divers

Voir un très grand nombre de programmes de superposition de structures.

biochimej Retour haut de page

5. Exemples de programmes de modélisation et de visualisation de structures de protéines

a. PyMOL

PyMOL est un programme de modélisation par homologie et de visualisation de structures de molécules (écrit en partie en Python).

Il existe des versions pour plusieurs environnements (MacOS, Windows, Linux).

Plugin PyMod pour PyMOL : recherches de similarité de séquence, alignements séquence à structure multiple, modélisation par homologie. C'est une interface simple et intuitive entre PyMOL et plusieurs outils bioinformatiques (exemples : PSI-BLAST, Clustal, Muscle, PSI-PRED, MODELLER, ...).

Figure ci-dessous : procédure de "PyMod" qui intègre divers types de données et permet divers types d'analyses.

Mecanique modelisation dynamique moleculaire champ force energie potentielle proteine de novo molecular dynamics force field amber charmm monte carlo ab initio rosetta potentiel biochimej

Source : Bramucci et al. (2012)

  • recherche dans une base de données de similarités (de séquences et de structures) avec la séquence requête
  • alignement multiple de séquences sur la base d'homologies de structures
  • modélisation de structures 3D par homologie avec le logiciel MODELLER.

Chaque "bloc de procédure" est indépendant des autres : on peut donc, par exemple, effectuer un alignement multiple de séquences sans recherche préalable dans une base de données.

Voir la syntaxe de la commande "align" de PyMOL.

biochimej Retour haut de page

b. Jmol et JSMol

Logiciels libres de visualisation de structures de molécules.

JSmol ("Jmol JavaScript Object")

  • C'est une infrastructure de développement ("framework") écrite en JavaScript.
  • Elle permet aux développeurs web de créer des pages en HTML5 (ou HTML5/WebGL) et d'y inclure des scripts qui permettent de visualiser des structures de molécules de manière interactive.
  • Cette solution permet d'utiliser des ordinateurs où Java n'est pas émulé (risques de sécurité) ou pas disponible (smartphones ou tablettes).

Jmol est l'applet écrite en Java, précurseur de JSmol. Il existe des versions pour plusieurs environnements (MacOS, Windows, Linux).

Exemple de la calmoduline

7 atomes d'oxygène constitue le réseau de coordination du calcium :

  • 5 atomes d'oxygène proviennent des chaînes latérales d'Asp et de Glu
  • le 6ème atome provient du groupement carbonyle de la liaison peptidique impliquant une Gln
  • le 7ème atome provient d'une molécule d'eau
Exemple de 5 acides aminés particuliers du motif EF-Hand 1

biochimej Retour haut de page

c. MODELLER

La recherche de séquences similaires dont les structures sont connues est effectuée avec la commande "profile. build ()" (contenue dans le script "build_profile.py") du programme MODELLER.

Le script "build_profile. py" effectue les opérations suivantes :

1. Il initialise l'environnement de la modélisation en créant un objet "environ" (appelé "env"). Presque tous les scripts MODELLER nécessitent cette étape, car ce nouvel objet est nécessaire pour construire la plupart des autres objets utiles à la modélisation.

2. Il crée un objet "sequence_db" (appelé "sdb") utilisé pour contenir de grandes bases de données de séquences de protéines.

3. Il lit, dans la base de données "sdb", un fichier (au format texte) contenant des séquences non redondantes de la PDB. Les séquences sont aussi dans le fichier "pdb_95.pir" au format PIR. Chaque séquence de ce fichier est représentative d'un groupe de séquences de la PDB qui ont 95% ou plus d'identité de séquence et qui ont moins de 30 résidus ou une différence de longueur de séquence inférieure à 30%.

4a. Il écrit un fichier au format binaire contenant toutes les séquences lues à l'étape précédente.

4b. Il relit le fichier au format binaire pour une exécution plus rapide du script.

Mecanique modelisation dynamique moleculaire champ force energie potentielle proteine de novo molecular dynamics force field amber charmm monte carlo ab initio rosetta potentiel biochimej

Source :

5a. Il crée un objet "alignment" ("aln").

5b. Il lit la séquence cible TvLDH (dans l'exemple choisi) à partir du fichier "TvLDH.ali".

5c. Il convertit la séquence cible lue en un objet "profil " (appelé "prf"). Les profils contiennent des informations similaires à celles des alignements, mais ils sont plus compacts, plus complets et plus performants pour une recherche dans la base de données de séquences.

6. L'instruction "prf.build()" effectue la recherche dans "sdb" avec le profil "prf". Les correspondances qui sont trouvées sont ajoutées au profil.

7. L'instruction "prf.write()" écrit le nouveau profil contenant la séquence cible et ses homologues dans le fichier (au format texte) de sortie spécifié (le fichier "build_profile.prf").

8. Conversion du nouveau profil en un nouvel alignement.

9. L'instruction "aln.write()" écrit le nouvel alignement contenant la séquence cible et ses homologues dans le fichier (au format PIR) de sortie spécifié (le fichier "build_profile.ali").

Récupérer le script "build_profile.py".

Exécution du script

Si le fichier est enregistré avec le nom "toto.py" et si la version de MODELLER est 9.19 (juillet 2017), la commande pour exécuter ce script est "mod9.19 toto.py".

  • Après exécution, le programme produit un fichier journal ("log file") : c'est un enregistrement de la séquence des événements au cours de l'exécution du script. Dans l'exemple choisi, le fichier s'apelle "toto.log".
  • L'ajustement entre les distributions observées et théoriques des z-scores est calculé (statistique D de Kolmogorov-Smirnov) après chaque itération et rapporté dans le fichier journal ("check_profile=True").
  • Le programme écrit le profil dans un fichier appelé "toto.prf" (dans l'exemple choisi).

Voir un descriptif très précis de toutes les étapes de MODELLER.

biochimej Retour haut de page

d. MODELLER : détail de la syntaxe de la commande profile.build()

Cette commande analyse (de manière itérative) une base de données contenant un très grand nombre de séquences protéiques dans le but de créer un profil pour la séquence (ou l'alignement) que l'on veut modéliser.

Cette commande calcule le score d'un alignement local (méthode de Smith-Waterman) entre la séquence à modéliser et chacune des séquences de la base de données.

build(
sdb,
gap_penalties_1d=(-900.0, -50.0),
matrix_offset=0.0,
rr_file='$(LIB)/as1.sim.mat',
n_prof_iterations=3,
max_aln_evalue=0.1,
matrix_scaling_factor=0.0069,
check_profile=True,
output_score_file=None,
gaps_in_target=False,
score_statistics=True,
pssm_weights_type='HH1',
pssm_file=None
)

Les alignements avec des E-values inférieures à la valeur du paramètre "max_aln_evalue" sont ajoutés à l'alignement en cours.

Une matrice PSSM ("Position Specific Scoring Matrix") est générée à partir de l'alignement en cours : cette matrice est utilisée pour rechercher dans la base de données de séquences choisies.

Cette procédure itérative est répétée :

  • un nombre de fois égal à la valeur du paramètre "n_prof_iterations"
  • ou jusqu'à ce qu'il n'y ait pas d'alignement significatif en dessous du seuil.

Remarque : la recherche d'un repliement nécessite un drapeau "gaps_in_target=True".

Retour haut de page

e. Autres logiciels de modèlisation structurale par homologie

Retour haut de page

6. "Protein threading"

Le terme "protein threading" n'est pas facile à traduire, car "threading" a pour signification "filetage, enfiler une aiguille". On peut donc traduire cette expression par :

  • "ajuster la séquence d'une protéine à une structure repliée qui sert de patron ou modèle"
  • "reconnaissance du repliement d'une protéine par enfilage de sa séquence sur tous les repliements connus"

C'est donc une méthode de modélisation de la structure des protéines utilisée pour une protéine :

  • qui a le même repliement ("fold") qu'une protéine de structure connue (par rapport à laquelle on effectue la modélisation)
  • mais pour laquelle il n'existe pas de protéines homologues dont la structure serait connue et déposée dans la PDB
  • la démarche "protein threading" s'appuie sur des données statistiques qui décrivent la relation entre les structures déposées dans la PDB et la séquence de la protéine que l'on veut modéliser.

En conséquence, bien que comparable, la démarche "protein threading" se distingue de la modélisation par homologie de structure :

  • La modélisation par homologie aligner une (des) séquence(s) par rapport à d'autre(s) séquence(s) : le principe est que des protéines de séquences homologues ont des structures similaires.
  • Le "protein threading" aligne une (des) séquence(s) par rapport à une (des) structure(s) modèle(s) ou repliement(s)
  • En d'autres termes, le "protein threading" traite le(s) modèle(s) alignés en tant que structure : il en découle que les 2 types d'information (séquence et structure) extraits de l'alignement sont utilisés pour la prédiction.

Etapes du "protein threading"

  • Construction d'une base de données de repliements ("structure template database") : sélection des structures de protéines qui servent de modèle. Cette sélection s'effectue dans des bases de données telles que PDB, SCOP ou CATH, après élimination des structures de protéines ayant des similitudes de séquence élevées.
  • Elaboration de la fonction de score ("scoring function") : cette fonction a pour but de mesurer l'adéquation entre la séquence à modéliser et chacun des modèles structuraux (repliements) sélectionnés.
  • Ajustement de l'alignement ("threading alignment") : pour chaque repliement sélectionné, on ajuste les atomes du squelette carboné de la séquence à modéliser à leurs positions dans le squelette carboné du repliement testé (en optimisant la fonction de score). L'énergie de chaque ajustement est calculée par la somme des interactions des résidus d'acides aminés 2 à 2. Les repliements sont classés par ordre d'énergie : la conformation la plus stable est celle qui a l'énergie la plus basse.
  • Prédiction de l'ajustement ("threading prediction" ) : on sélectionne l'alignement qui est statistiquement le plus probable pour obtenir le meilleur couple [séquence à modéliser - modèle structural (repliement)].

Le serveur de prédiction de structures de protéines et le programme HHpred

  • HHpred est un serveur basé sur la comparaison 2 à 2 de profils de modèles de Markov cachés (HMM).
  • HHpred est aussi une méthode de recherche dans les bases de données d'alignement comme Pfam ou SMART.
  • Enfin, c'est également un programme de prédiction de structure très sensible qui permet de trouver des homologues distants.

HHpred :

  • Accepte une séquence unique ou un alignement multiple comme requête.
  • Les options de recherche incluent l'alignement local ou l'alignement global et le calcul de score de similarité de structure secondaire.
  • Les résultats sont fournis dans un format similaire à celui de PSI-BLAST.
  • HHpred fournit des alignements multiples et des modèles structuraux 3D calculés par MODELLER (à partir des alignements HHpred).

Retour haut de page

7. Démarche "de novo protein design" : exemple de la protéine "artificielle" TOP7

C'est une protéine "artificielle" de 93 acides aminés issue de simulations / calculs de prédiction ("de novo protein design") effectués par B. Kuhlman et G. Dantas (Université de Caroline du Nord) .

Ces chercheurs ont utilisé comme point de départ un repliement encore jamais mis en évidence dans la nature.

Les séquences ont été générées avec le programme "Rosetta design Monte Carlo search protocol and energy function" : un potentiel de Lennard-Jones 12-6; un terme pour les liaisons hydrogène dépendant de l'orientation; un modèle de solvatation implicite.

Tous les acides aminés (excepté la cystéine) ont été autorisés pour 71 des 93 positions (≈ 110 rotamères par position) et les 22 positions restantes (surface des feuillets) ont été restreintes à des acides aminés polaires (≈ 75 rotamères par position). L'espace de recherche était de 11071 × 7522, soit ≈ 10186 rotamères.

Les conformations du squelette carboné ont été générées sans contrainte pour optimiser la compacité des chaînes latérales : en conséquence, les séquences de plus basse énergie avaient une énergie très supérieure à celle de protéines natives de même taille.

  • La structure la plus stable a été baptisée TOP7 : 2 hélices α compactées à 5 feuillets β anti-parallèles (ci-dessous). Ce type de repliement n'a pas encore été observé dans la nature.
  • En parallèle, la protéine TOP7 recombinante a été produite in vivo dans Escherichia coli puis cristallisée.

La comparaison de la structure modèle conçue par calcul et de la structure cristalline est saisissante :

  • ensemble de la chaîne carbonée : RMSD = 1,17 Å
  • peptide Asp78 - Gly85 : RMSD = 0,79 Å
  • Voir Kuhlman et al., 2003

Visualisation de TOP7 à une résolution de 2,5 Å

Le chargement de la structure peut prendre du temps.

Code PDB : 1QYS

 

9. Liens Internet et références bibliographiques

"Introduction à la structure des protéines" - C. Branden & J. Tooze (1996) - ed. De Boeck Université

Anfinsen et al. (1961) Proc. Natl. Acad. Sci. USA 47, 1309 - 1314

Levinthal C. (1968) "Are there pathways for protein folding ?" J. Chem. Phys. 65, 44 - 45

Baaden M. (2003) "Dynamique Moléculaire in silico : Fondements théoriques et liste détaillée de références bibliographiques" Ecole thématique du CNRS

Thèse LEROUX V. (2006) "Modélisation d'inhibiteurs du domaine SH2 de la protéine Grb2 par dynamique moléculaire, docking et criblage virtuel"

Voir une liste quasi exhaustive des programmes de mécanique et modélisation moléculaires.

The Nobel Prize in Chemistry 2013 was awarded jointly to Martin Karplus, Michael Levitt and Arieh Warshel "for the development of multiscale models for complex chemical systems".

Liste

Prix Nobel 2013

"RosettaAThome": détermination de structures tridimensionnelles avec temps de calcul partagé

FragBuilder: bibliothèque pour des calculs de chimie quantique avec des peptides modèles

ProDy : ensemble de scripts ("free and open-source Python package") pour l'étude de la dynamique structurale des protéines

"ASTRO-FOLD : Protein Structure Prediction from First Principles"

SWISS-MODEL Repository (SMR) : base de données de modèles de structures protéiques 3D annotées

RosettaAThome

FragBuilder

ProDy

ASTRO-FOLD

SMR

Kuhlman et al. (2003) "Design of a Novel Globular Protein Fold with Atomic-Level Accuracy" Science 302, 1364 - 1368

Zhang & Skolnick (2004) "Scoring function for automated assessment of protein structure template quality" Proteins 57, 702 - 710

Zhang & Skolnick (2005) "TM-align: a protein structure alignment algorithm based on the TM-score" Nucleic Acids Res. 33, 2302 - 2309

Eswar et al. (2006) "Comparative Protein Structure Modeling with MODELLER" Current Protocols in Bioinformatics, John Wiley & Sons, Inc., Supp. 15, 5.6.1-5.6.30

Marrink et al. (2007) "The MARTINI force field: coarse grained model for biomolecular simulations" J. Phys. Chem. B. 111, 7812 - 7824

Article

Article

Article

Article

Article

Jamros et al. (2010) "Proteins at work: a combined small angle X-RAY scattering and theoretical determination of the multiple structures involved on the protein kinase functional landscape" J. Biol. Chem. 285, 36121 - 36128

Regad et al. (2011) "Dissecting protein loops with a statistical scalpel suggests a functional implication of some structural motifs" BMC Bioinformatics 12, 247

Mariani et al. (2013) "lDDT: a local superposition-free score for comparing protein structures and models using distance difference tests" Bioinformatics 29, 2722 - 2728

Article

Article

Article

Helgi et al. (2014) "The power of coarse graining in biomolecular simulations" Wiley Interdiscip. Rev. Comput. Mol. Sci. 4, 225 - 248

Webb & Sali (2016) "Comparative protein structure modeling using MODELLER" Curr. Protoc. Bioinformatics Chapter 5, unit 5.6

Kmiecik et al. (2016) "Coarse-grained protein models and their applications" Chem. Rev. 116, 7898 - 7936

Chavent et al. (2016) "Molecular dynamics simulations of membrane proteins and their interactions: from nanoscale to mesoscale" Curr. Opin. Struct. Biol. 40, 8 - 16

Article

Article

Article

Article

Janson et al. (2017) "PyMod 2.0: improvements in protein sequence-structure analysis and homology modeling within PyMOL" Bioinformatics 33, 444 - 446

Bienert et al. (2017) "The SWISS-MODEL repository-new features and functionality" Nucleic Acids Res. 45, D313 - D319

Borgia et al. (2018) "Extreme disorder in an ultrahigh-affinity protein complex" Nature 555, 61 - 66

Article

Article

Article

biochimej Retour haut de page

Valid XHTML 1.0 Transitional