Mecanique moleculaire modelisation champ force energie potentielle proteine Enseignement recherche biochimie enzymologie bioinformatique Emmanuel Jaspard Universite Angers biochimej

Notions de base de mécanique moléculaire et de modélisation moléculaire des protéines

1. Principe de la mécanique moléculaire

a. Les catégories de méthodes
b. Fonction d'interaction et équations de mouvement
c. Algorithme de résolution des équations du mouvement
d. Divers paramètres de construction du système étudié

2. Le champ de force associé aux atomes d'une protéine

a. Exemples de formulation des termes d'un champ de force
b. Exemples de champs de force en mécanique moléculaire
c. Minimisation de l'énergie de la structure des protéines

3. Modélisation de structures de protéines par homologie

a. Démarche de la modélisation par homologie
b. Validation de la structure de la protéine cible construite à partir du modèle

4. Les scores de distances inter-atomiques entre des structures comparées

5. Exemples de programmes de modélisation et de visualisation de structures de protéines

a. PyMOL
b. Jmol et JSMol
c. MODELLER
d. MODELLER : détail de la syntaxe de la commande profile.build()
e. Autres programmes

6. "Protein threading"

7. Démarche "de novo protein design" : exemple de la protéine artificielle TOP7

8. Méthode Rosetta

9. Liens Internet et références bibliographiques

1. Principe de la mécanique moléculaire

La mécanique moléculaire a pour but de prédire l'énergie associée à une conformation donnée d'une molécule. Le résultat obtenu est comparé aux propriétés physiques de la molécule observées expérimentalement (structure tri-dimensionnelle déterminée par une méthode physique).

C'est une méthode empirique qui utilise un modèle mathématique et divers paramètres de potentiels : l'ensemble [modèle mathématique / paramètres de potentiels] s'appelle un champ de force ("force field").

Les protéines sont constitués de centaines ou de milliers d'atomes et les seules méthodes de calculs pour des systèmes de cette taille sont les calculs de mécanique moléculaire. La mécanique quantique permet d'étudier des systèmes ne comportant que quelques centaines d'atomes.

La mécanique moléculaire s'appuie sur 3 principes qui simplifient l'approche physique :

Les vitesses des molécules sont faibles par rapport à la vitesse de la lumière.
Le mouvement des électrons est plus rapide que celui des noyaux car leur masse est beaucoup plus faible : cette différence permet l'approximation de Max Born & Julius Robert Oppenheimer (Ann. Phys. 84, 457-484, 1927).
Les lois de Newton de la mécanique classique décrivent le mouvement des atomes. Sous l'effet d'une force F, une masse m subit une accélération γ = F / m (avec F en N ou kg.m.s^-2; m en kg; γ en m.s^-2).

Les atomes qui constituent les molécules sont représentés, dans certains modèles, par des boules reliées par des bâtonnets (les liaisons) :

les atomes (boules) sont caractérisés par un rayon, une masse et une charge.
les liaisons (bâtonnets) sont assimilées à des ressorts.
L'ensemble [atomes/boules - liaisons/bâtonnets] est lui-même caractérisé par un champ de force.

Les interactions physiques entre atomes sont décrites par l'équation de l'énergie potentielle. Le principe clé est que la conformation spatiale optimale est caractérisée par l'énergie la plus basse. Il faut donc minimiser l'énergie par diverses méthodes (plus grande pente, Newton-Raphson, recuit simulé, gradients conjugués, ...).

Si le système d'équations utilisé le permet, la mécanique moléculaire permet de décrire certaines propriétés des molécules : arrangement géométrique des atomes, stabilité des conformères, calcul des propriétés des molécules (moment dipolaire, polarisabilité, vibration, ...), forces qui s'exercent entre les molécules, rôle du solvant, éventuellement la réactivité chimique, ...

a. Les catégories de méthodes de mécanique moléculaire

La figure ci-dessous décrit les gammes d'application des méthodes de modélisation moléculaire à différentes résolutions (échelles approximatives de temps et de longueurs de système) : méthodes quantique ("quantum"), tout-atome ("all-atom"), à grain grossier ("coarse-grained") et méso-échelle ("mesoscale"). Les gammes d'applications peuvent être étendues en fusionnant des outils de résolutions différentes.

Mecanique modelisation dynamique moleculaire champ force field energie cinetique potentielle proteine de novo molecular dynamics amber charmm gromos monte carlo ab initio rosetta interaction modeller coarse grained biochimej

Source : Kmiecik et al. (2016)

Les catégories de méthodes sont donc liées au nombre d'atomes des molécules dont on veut calculer l'énergie :

a. Petites molécules (environ < 300 atomes) : méthodes quantiques - les interactions des noyaux et des électrons sont décrites explicitement.

b. Méthodes dites tout atome (systèmes jusqu'à 100.000 atomes) : les atomes sont assimilés à des sphères et les interactions sont représentées par des oscillateurs autour d'une position d'équilibre. Ces positions d'équilibres constituent ce qu'on appelle le champ de force qui sert de référentiel.

c. Méthode de simulation à granularité grossière ("Coarse - Grained" - CG) : elles permettent d'explorer des échelles de temps et d'espace inaccessibles aux modèles traditionnels de résolution atomique. L'eau étant le solvant universel de tous les systèmes biologiques, son traitement moléculaire est crucial dans les études de simulation. L'une des principales simplifications des modèles CG est donc la représentation du solvant : celle-ci est soit implicite, soit modélisée explicitement comme une particule de van der Waals.

Figure ci-dessous : comparaison des caractéristiques de 2 simulations d'ordres de grandeur très différents. Sont indiqués : l'entité biologique étudiée; le type de simulation; le nombre d'atomes - particules (y compris l'eau) inclus dans la simulation; la dimension approximative linéaire de la boîte de simulation; la durée du cycle de production de la simulation; la taille du fichier résultant de la trajectoire.

Source : Chavent et al. (2016)

Figure ci-dessous : Représentation tout atome d'un tripeptide et modèles à grains grossiers ("coarse-grained models") correspondants : mode de représentation centroïde de la méthode Rosetta, modèle de Levitt et Warshel et modèle SICHO. Les atomes de la chaîne latérale sont en orange et les pseudo-liaisons de longueur fluctuante sont représentées sous forme de ressorts.

Source : Kmiecik et al. (2016)

Le mode de représentation centroïde est un mode de représentation réduit, qui simplifie la représentation du système et permet un échantillonnage et une notation plus rapides. Pour les protéines, chaque résidu d'acide aminé est représenté par 5 atomes du squelette carboné (N, C_α, C, O et H lié à N) et 1 pseudo-atome appelé centroïde (CEN) qui représente la chaîne latérale dont le rayon et les propriétés (polarité, charge, …) sont déterminés par l'identité du résidu.

b. Fonction d'interaction et équations de mouvement

energie cinetique interaction potentiel champ force bond stretching CHARMM Gromos amber biochimej

c. Algorithme de résolution des équations du mouvement

Les trajectoires de l'espace des phases, caractérisées par une petite différence de conditions initiales, divergent de manière exponentielle au bout d'un certain temps : il n'existe donc pas d'algorithme d'intégration des équations du mouvement qui permette d'obtenir une solution exacte.

Une solution satisfaisante est en revanche obtenue avec des algorithmes qui calculent de bonnes approximations des équations différentielles sur des temps courts. L'algorithme d'intégration de Loup Verlet (1967) est fréquemment utilisé car il fournit des solutions stables pour des temps plus longs.

Cet algorithme réduit les erreurs : la position pour un pas de temps donné est calculée à partir de la position précédente et de la position actuelle sans utiliser la vitesse.

algorithme Loup Verlet integration pas mouvement energie cinetique interaction potentiel champ force bond stretching CHARMM Gromos amber biochimej

L'accélération a_i(t + Δt) ne dépend que de la position r_i(t + Δt) et non de la vitesse v_i(t + Δt).

On renouvelle ce calcul à chaque pas d’intégration Δt : le coût/temps de calcul est proportionnel à ce pas et il devient rapidement très important.
De plus, pour pouvoir représenter le mouvement, ce pas doit être petit (environ 10^-15 s, 1 femtoseconde) en regard de la période de vibration la plus courte du système étudié (Δt ≤ 1/100 ν_max avec ν_max ≈ 10¹³ Hz).

Principales sources :

Baaden M. (2003) "Dynamique Moléculaire in silico : Fondements théoriques et liste détaillée de références bibliographiques" Ecole thématique du CNRS
Thèse LEROUX V. (2006) "Modélisation d'inhibiteurs du domaine SH2 de la protéine Grb2 par dynamique moléculaire, docking et criblage virtuel"

d. Divers paramètres de construction du système étudié

Conditions aux limites périodiques ("Periodic Boundary Conditions", PBC)

Malgré la puissance des ordinateurs actuels, la taille des systèmes analysables sont microscopiques. Sans précautions particulières, seules des "gouttelettes infinitésimales" seraient simulées, or les propriétés de tels objets sont dominées par les effets de surface.

On s'affranchit de ce problème en utilisant des conditions aux limites périodiques.
On suppose que le centre du système de simulation est entouré, dans toutes les directions de l'espace, de copies exactes (il n'y a pas de PBC pour un système sphérique).

Ces boîtes environnantes sont dénommées boîtes d'image par certains logiciel comme CHARMM. Il s'agit souvent de boîte de simulation cubique (ou n'importe quel groupe d'espace cristallographique valide).

Le rôle de ces boîtes environnantes est de remplacer les particules qui quittent la boîte de simulation centrale. En effet, les positions des particules sont recalculées en permanence par un calcul de minimisation ou d'une simulation de dynamique moléculaire.

Si une particule quitte la boîte centrale (cubique) d'un côté, elle est remplacée par la particule correspondante de l'image de la boîte centrale située de l'autre côté.
L'utilisation des PBC permet ainsi de s'assurer que les coordonnées des particules sont toujours dans la zone de simulation centrale.

potentiel champ de force bond stretching CHARMM biochimej

A : 1 molécule d'adénine dans une boîte périodique avec 511 molécules d'eau / B : simulation d'un système périodique

Sources : Molecular Modeling Basics & texample.net

Traitement du solvant biologique : l'eau

L'eau dans la cellule joue un rôle fondamental dans l'acquisition de la structure des protéines (des macromolécules biologiques de manière générale) et des fonctions qui en découlent (reconnaissance protéines - ligands, catalyse enzymatique, interactions entre protéines, ... ).

Le solvant est traité de manière explicite : la molécule de protéine est placée dans une "boîte de solvant" répliquée en 3D (voir ci-dessus) ce qui simule l'environnement aqueux cellulaire. Lorsqu'une molécule quitte la boite centrale, ses images dans les cellules avoisinantes la remplacent. Cela évite les effets de bords et la dispersion des molécules d'eau : le nombre de particules est constant dans la maille cristallographique unitaire.

Sur le plan théorique, voir la sommation d'Ewald ("Particle Mesh Ewald", PME), Erwin Madelung (1918) et Paul Ewald (1921) : calcul de l'énergie potentielle d'ions dans les cristaux.

2. Le champ de force associé aux atomes d'une protéine

Voir un cours : "La mécanique moléculaire" (Unisciel).

Les atomes sont donc traités comme des boules de différentes tailles reliées entre elles par des ressorts (les liaisons) de différentes longueurs. Un champ de force est associé à chaque atome dans la protéine.

Le schéma ci-dessous représente les cinq types de potentiels élémentaires d'un champ de force "simple" :

potentiel champ de force bond stretching CHARMM biochimej

Source : Scistyle & Folding@home

l'élongation des liaisons ("bond stretching")
la courbure des angles ("angle bending")
les torsions des angles dihèdres ("proper and improper dihedral torsion")
les atomes non liés par une liaison covalente ("non-bonded interactions") : interactions de Van der Waals et interactions électrostatiques

a. Exemples de formulation des termes d'un champ de force

L'énergie totale E_totale (appelée aussi énergie potentielle) d'une protéine est donnée par l'équation suivante : E_totale = E_{atomes liés covalemment} + E_{atomes non liés covalemment} = [E_stretch + E_bend + E_torsion + E_improper] + [E_VdW + E_elec] (en N.m ou J)
E_stretch : l'énergie d'élongation (ou de tension - "bond stretching") d'une liaison par rapport à sa distance d'équilibre est une fonction quadratique.		d_i : distance entre les atomes liés d_0,i : distance d'équilibre standard pour la liaison i. Exemple : 1,53 Å pour C-C. K_d,i : constante de force d'élongation de la liaison i (exemple : K_d,i = 3,16 10⁵ kJ.mol^-1.Å^-2)
E_bend : l'énergie de déformation angulaire ou de courbure des angles ("angle bending") par rapport aux angles de valence standard est une fonction quadratique.		θ_i : angle entre les liaisons θ_0,i : angle de valence standard d'un atome donné. Exemple : 109°C pour -C -C. K_θ,i : constante de force de déformation angulaire (exemple : K_θ,i = 6,33 10² kJ.mol^-1.deg^-2)
E_torsion : énergie de torsion dihédrale ("bond rotation - dihedral torsion")		Un angle dièdre est l'angle entre les plans formés par 2 séries de 3 atomes, ayant 2 atomes en commun. Φ_i : angle de torsion dièdre entre les liaisons δ : angle de phase du dièdre V_n,i : constante de force de torsion (en kJ.mol^-1) n_i : périodicité de la rotation (ordre de la série de Fourier). Souvent, n = 1, 2, 3 ou 4.
E_improper : énergie de torsion dihédrale impropre	E_improper = k_improper (ω - ω₀)²	Un type d'angles dièdres (appelé dièdre impropre, "improper dihedral") est utilisé pour forcer les atomes à rester dans un plan ou pour empêcher une configuration de chiralité opposée.
Schéma ci-contre : interactions entre 2 atomes non liés covalemment. L'énergie totale de rotation autour d'une liaison est la somme : de l'énergie de torsion proprement dite de l'énergie de van der Waals et de l'énergie d'interaction électrostatique impliquant les atomes non liés qui changent de position après cette rotation.		Cette interaction est responsable de l'encombrement stérique qui joue un rôle important dans la géométrie des protéines. Cette interaction résulte de l'attraction de van der Waal et de [l'attraction/répulsion] électrostatique qui s'exercent sur ces deux atomes.
E_VdW : énergie des interactions de Van der Waals entre atomes non liés covalemment ("non-bonded interactions"). Elle est exprimée en général sous la forme d'un potentiel de John Lennard-Jones (dispersion et de répulsion) ou d'un potentiel de Buckingham).		d_i,j : distance entre les atomes non liés i et j A_i,j : paramètres du champ de force lié à la répulsion entre les atomes i et j B_i,j : paramètres du champ de force lié à l'attraction entre les atomes i et j Le rayon de van der Waals correspond à la distance minimale entre les 2 atomes. Exemples : H = 1,2 Å, O = 1,4 Å, N = 1,5 Å, P = 1,9 Å.
E_elec : énergie des interactions électrostatiques entre atomes non liés covalemment. Elle est exprimée en utilisant un potentiel Coulombien. Ce terme augmente avec la polarité des liaisons chimiques et peut être particulièrement important, par exemple dans le cas de molécules qui contiennent des hétéroatomes.		d_i,j : distance entre les atomes i et j q_i et q_j : charge partielle des atomes non liés i et j. Les charges partielles atomiques sont calculables pour de petites molécules en utilisant une méthode quantique ab initio ou semi-empirique (exemple : MOPAC et AMPAC) ε : permitivité du milieu = constante diélectrique de l'environnement (le solvant ou la molécule elle-même). Exemples : ε = 78 pour l'eau; ε = 1 pour le vide.
Exemple d'une autre formulation de E_elec : potentiel de Coulomb avec une longueur de criblage de Debye (λ_D) appliquée à tous les résidus avec des charges non nulles q_i.		λ_D : longueur de Debye k_B : constante de Boltzmann; T : température N_A : constante d'Avogadro; e : charge élémentaire I : force ionique (en M) ε₀ : permittivité dans le vide; ε_d : constante diélectrique (souvent égale à 80)
Le nombre de termes, leur complexité, leur sophistication dépendent des auteurs qui développent un champ de force. Les champs de force les plus récents sont plus sophistiqués et incluent des termes mixtes qui tiennent compte des interdépendances des différents types d'interactions. Liste de champs de force. Description du champ de force Gromacs.

b. Exemples de champs de force en mécanique et en dynamique moléculaires

Selon la méthode de calcul utilisée pour le calcul de l'énergie, les structures moléculaires modélisées et leurs propriétés seront ou non exactes. Le choix du champ de force est donc à faire en se basant sur les résultats déjà obtenus dans la littérature concernant leurs applications aux systèmes moléculaires.

CHARMM ("Chemistry at HARvard Molecular Mechanics") : protéines, acides nucléiques et lipides (co-auteur : M. Karplus, Prix Nobel 2013). Le champ de force CHARMM décrit explicitement tous les atomes d'hydrogène. Il décrit aussi les interactions intramoléculaires (y compris le terme d'Urey-Bradley pour les angles covalents et un grand nombre de paramètres pour les angles dièdre).
AMBER ("Assisted Model Building and Energy Refinement") : protéines et acides nucléiques
GROMACS ("GROningen MAchine for Chemical Simulations") : protéines
SYBYL (Tripos) : molécules organiques
MARTINI : lipides, protéines - champ de force "coarse-grained"
UNRES ("UNited RESidue") : repliement des protéines et dynamique moléculaire - champ de force "coarse-grained"

Les champs de force sont constamment améliorés et sophistiqués du fait de l'essor des études des macromolécules biologiques (mise au point de médicaments et "docking") par chimie informatique, de l'accroissement des capacités de calculs des ordinateurs (dynamique moléculaire) et de l'évolution des langages de programmation.

De nouveaux champs de force sont développés pour les protéines intrinsèquement non structurées. Exemples : CHARMM36m, AMBER-FB15, ff14IDPSFF, ...
Des cadres de programmation ("frameworks") en Python implémentent des champs de force. Exemple : glycosylator et CHARMM pour l'analyse des structures des glycanes et des glycoprotéines.

Un fichier PSF ("Protein Structure File") contient les informations (spécifiques d'une molécule) nécessaires pour lui appliquer un champ de force.

Par exemple, le champ de force CHARMM contient, entre autres, un fichier de topologie qui génère le fichier PSF. Exemple ci-dessous : extrait du fichier PSF pour l'ubiquitine (qui commence par le titre et les données des atomes) :

PSF CMAP

 6 !NTITLE
   REMARKS original generated structure x-plor psf file
   REMARKS 2 patches were applied to the molecule.
   REMARKS topology top_all27_prot_lipid.inp
   REMARKS segment U { first NTER; last CTER; auto angles dihedrals }
   REMARKS defaultpatch NTER U:1
   REMARKS defaultpatch CTER U:76

 1231 !NATOM
   1 U    1    MET  N    NH3   -0.300000       14.0070     0
   2 U    1    MET  HT1  HC     0.330000        1.0080     0
   3 U    1    MET  HT2  HC     0.330000        1.0080     0
   4 U    1    MET  HT3  HC     0.330000        1.0080     0

Le champ de force CHARMM contient également un fichier de paramètres qui contient les valeurs numériques spécifiques pour la fonction potentielle générique CHARMM :

d_i, d_i,j, θ_i, n_i, : topologie

K_d,i, d_0,i, K_θ,i, θ_0,i, V_n,i, n_i, δ, A_i,j, B_i,j, ε, q_i et q_j : fichier de paramètres

Voir une liste de programmes sur le site de la PDB.

c. Minimisation de la fonction d'énergie de la structure des protéines

La conformation qu'adopte une protéine est d'autant plus stable que son énergie est faible. La mécanique moléculaire a donc pour but de calculer le minimum de la fonction d'énergie E_totale décrite ci-dessus.

Plus une protéine contient d'acides aminés, plus son énergie doit être faible et négative.
La conformation d'énergie la plus basse est calculée à partir des longueurs et des angles de liaison avec la plus petite énergie stérique.

Les paysages énergétiques conformationnels des protéines ("protein conformational energy landscapes") sont des surfaces complexes de grande dimension avec de nombreux minima locaux (figure ci-dessous).

Mecanique dynamique moleculaire champ force field energie protein algorithme steepest descent gradient monte carlo energy landscape biochimej

Sources : (à gauche) "Single Molecule Protein Dynamics" - (à droite) Kuhlman & Bradley (2019)

Les algorithmes d'optimisation permettent de "cheminer" dans ces paysages afin de localiser des "bassins" de basse énergie.
Pour déterminer le minimum global d'énergie, il faut parcourir tout l'espace des variables indépendantes, ce qui dans la majorité des cas est impossible vu leur nombre.

Certains algorithmes d'optimisation sont basés sur le calcul du gradient : les dérivées de la fonction d'énergie par rapport aux degrés de liberté flexibles (par exemple les coordonnées atomiques ou les angles de torsion) sont calculées afin de cheminer dans la direction où l'énergie diminue le plus rapidement. Les méthodes basées sur les gradients sont efficaces pour trouver un minimum local mais le sont peu pour trouver le minimum global.

Si on considère le vecteur V qui décrit les coordonnées des atomes, l'optimisation de la géométrie de la molécule consiste à trouver la valeur de V pour laquelle l'énergie en fonction des positions, E(V), est minimale : la dérivée de l'énergie par rapport à la position des atomes, ∂E/∂V = 0.

La logique algorithmique est schématiquement la suivante :

Calculer la force exercée sur chaque atome (-∂E/∂V).
Si la force est inférieure à un certain seuil, le calcul est terminé.
Sinon, les positions des atomes sont déplacées d'une quantité ΔV (calculée avec le champ de force choisi) : cette modifcation a pour but de réduire la force donc l'énergie de la molécule.
On répète le processus.

Exemples d'algorithmes et de méthodes de minimisation
Algorithme du gradient (ou de plus profonde descente, "steepest descent")	Il suit le gradient de la fonction d'énergie en calculant la pente. Il est efficace au début de la recherche mais il converge mal. Il ne peut pas "franchir" les barrières d'énergie.
Méthode du gradient conjugué ("conjugate gradient")	Elle tient compte de valeurs du gradient calculées aux étapes précédentes : elle ajoute un vecteur orthogonal à la direction en cours de l'optimisation, puis les déplace dans une direction presque perpendiculaire à ce vecteur. Avec des conditions initiales bien choisies, elle aboutit à une estimation proche de la solution exacte en quelques itérations.
Méthode de Newton-Raphson	Elle utilise la dérivée seconde : le minimum de la fonction est approché par le développement de Taylor au second degré. Elle requière peu d'étapes mais nécessite plus de ressources (calcul de l'inverse de la matrice hessienne). Voir scipy.optimize.newton (Python - scipy).
Les algorithmes génétiques ("genetic algorithms")	Il s'agit de métaheuristiques inspirées du processus de sélection naturelle : initialisation de la population / sélection / crossover. Ils sont efficaces pour trouver un minimum global à partir d'une configuration initiale aléatoire. Exemples : "Birmingham parallel genetic algorithm" (nanoparticules, super calculateur).
Les méthodes Monte Carlo	I-TASSER ("Iterative Threading ASSEmbly Refinement", méthode et serveur Web) : méthodes d'assemblage de structures de fragments à l'aide d'une simulation Monte Carlo d'échange de répliques. C'est l'une des méthodes de prédiction de la structure des protéines les plus performantes dans les expériences CASP. PELE ("Protein Energy Landscape Exploration").
scipy.optimize.basinhopping (Python - scipy)	Trouver le minimum global d'une fonction en utilisant l'algorithme de saut de bassin ("basin-hopping algorithm").

Exemples de serveurs web pour l'affinement de structures (méthodes testées via l'expérience CASP)
Mobyle	a portal for bioinformatics analyses (RPBS Web Portal, Université Paris Diderot)
PREFMD	Protein structure REFinement via Molecular Dynamics
locPREFMD	local Protein structure REFinement via Molecular Dynamics
GalaxyWEB	web server for protein structure prediction, refinement, and related methods
ModRefiner	algorithm for atomic-level, high-resolution protein structure refinement
3DRefine	protein structure refinement server
AIR	Artificial Intelligence-based protein structure Refinement method

3. Modélisation de structures de protéines par homologie ("Homology modeling")

Les algorithmes de comparaison de structures 3D de deux protéines peuvent être classés en plusieurs catégories :

Ceux basés sur l'alignement du "corps rigide" ("rigid body alignment") en superposant (par une méthode heuristique) les structures protéiques avec mise à l'échelle, rotation, transformation et enfin superposition. Ils s'appliquent à des protéines de petites tailles qui ont le même nombre d'acides aminés. Exemples : les serveurs de comparaison de structures de protéines DALI, VAST ("Vector Alignment Search Tool").

Ceux basés sur la fragmentation des structures et assemblage par alignement non séquentiel (exemples : FATCAT, FlexProt, FlexSnap). Ils nécessitent une sélection appropriée de la taille des fragments et des temps de calculs importants.

Ceux qui utilisent une analyse de forme élastique ("elastic shape analysis") dans laquelle les coordonnées atomiques sont complétées par les propriétés des chaînes latérales des acides aminés. La structure de la protéine est représentée par une fonction appelée "square-root velocity function". Exemple : ProtSComp.

a. Démarche de la modélisation par homologie

La structure inconnue (que l'on veut modéliser) est appelée cible ("target") et la structure connue est appelée modèle ("template").

Mecanique homology modelisation homologie dynamique moleculaire champ force field energie cinetique potentielle proteine de novo molecular dynamics amber charmm gromos monte carlo ab initio rosetta interaction modeller coarse grained biochimej

Recherche (reconnaissance) d'un modèle et alignement initial ("template recognition and initial alignment")

La séquence de la protéine de structure inconnue (cible) est comparée aux séquences des protéines dont les structures sont connues et stockées dans la banque de données de structures de protéines (Exemple : "Protein Data Bank" - PDB). Cette recherche de modèle dans la base de données s'effectue avec un programme tel que PSI-BLAST (utilisation d'un profil plus spécifique de la protéine cible) : elle renvoie la liste des protéines de structures connues (les modèles potentiels) qui correspondent à la séquence cible.

La recherche d'un modèle correct est plus difficile quand on a une protéine cible qui contient de multiples domaines.

Si BLAST ne trouve pas de modèle, une technique plus sophistiquée est nécessaire pour identifier la structure d'une molécule : le "protein threading", la modélisation "ab initio".

Correction des alignements multiples

Les alignements multiples doivent être corrigés (optimisés) avec des programmes tels que T-Coffee ou Muscle et aussi par une inspection visuelle ("à la main").

Il est nécessaire d'identifier les résidus d'acides aminés qui doivent être conservés. Par exemple : un changement Ala (hydrophobe) -> Glu (chargé) est possible, mais il est peu probable qu'il se produise dans une région hydrophobe, donc ces 2 résidus ne doivent pas être alignés. La structure du modèle indique les résidus potentiellement situés à l'intérieur, moins susceptibles de substitution que ceux situés à la surface de la protéine.

Par ailleurs, les alignements de séquences introduisent des "gaps" (insertion - délétion de résidus d'acides aminés). Les insertions - délétions sont davantage compatibles avec la conservation de la structure si elles ont lieu dans des régions divergentes (par exemple, en dehors des régions qui adoptent une structure secondaire). Les alignements multiples corrigés ont pour but de de mettre en évidence ces régions. Les gaps doivent être aussi peu nombreux et contigus que possible.

Enfin des acides aminés critiques tels que ceux qui constituent le site actif d'une enzyme doivent être hautement conservés.

Modélisation des boucles

S'il y a un/des gap(s) dans la séquence cible, on supprime le/les résidu(s) correspondant(s) dans le modèle.

S'il y a une insertion dans la cible, c'est le modèle qui contient un gap : en d'autres termes, il n'y a pas de coordonnées tridimensionnelles pour ce résidu additionnel dans le modèle. En conséquence, le squelette carboné du modèle doit être "coupé" pour insérer ce résidu. Des modifications de cette ampleur ne sont pas modélisables dans des éléments de structures secondaires : ils doivent être placés dans des boucles.

Les boucles à la surface des structures de protéines sont flexibles donc difficiles à prédire. Une méthode consiste donc à inclure des résidus d'acides aminés avant et après l'insertion (ce sont des résidus dits d'ancrage - "anchor-residues") puis de rechercher dans la base de données PDB les boucles qui possèdent les mêmes résidus d'ancrage : la boucle la plus similaire est copiée dans le modèle.

SWISS-MODEL Repository (SMR)

Base de données de modèles de structures protéiques 3D annotées.
SMR contient plus de 400.000 modèles de haute qualité (> 18.000 modèles pour Homo sapiens) qui couvrent près de 20% des entrées Swiss-Prot/UniProtKB.
Les modèles son générés automatiquement par la suite logicielle (pipeline) de modélisation par homologie SWISS-MODEL.

b. Validation de la structure de la protéine cible construite à partir du modèle

Exemples de caractéristiques structurales qu'il est indispensable de valider pour proposer une structure qui représente de manière fiable la protéine que l'on veut modéliser.

Un angle dièdre est l'angle formé entre 2 plans en intersection. Dans la structure des protéines, c'est l'angle entre les plans formés par 2 séries de 3 atomes, ayant 2 atomes en commun. Dans une chaîne polypeptidique, on définit 3 angles dièdres qui sont reportés dans les diagrammes de Ramachandran :

Φ (phi) : angle de rotation de la liaison entre l'atome N_i et l'atome Cα_i (valeurs de -180° à +180°; valeur = 0 si la liaison Cα-C est en cis par rapport à la liaison C-N)
Ψ (psi) : angle de rotation de la liaison entre l'atome Cα_i et l'atome C'_i (valeurs de -180° à +180°; valeur = 0 si la liaison C-N est en cis par rapport à la liaison N-Cα)
ω (omega) : angle de rotation de la liaison entre l'atome C'_i et l'atome N_i+1
Voir une définition et des valeurs de tous les angles d'une chaîne polypeptidique.

La planarité de la liaison peptidique limite généralement ω à 0° (conformation cis, rare - principalement observé dans les liaisons peptidiques acide aminé-Pro) ou à 180° (conformation trans, la plus fréquente) . La distance entre les atomes Cα des isomères cis et trans est respectivement d'environ 2.9 Å et 3.8 Å.

La géométrie des liaisons covalentes d'un modèle est évaluée en comparant les longueurs et les angles des liaisons à une bibliothèque de valeurs considérées comme "idéales". Les premières versions des programmes d'affinement et de modélisation de structures possédaient leurs ensembles de valeurs "idéales". Maintenant, des ensembles de valeurs standards (dérivées des analyses des structures cristallines de petites molécules) sont utilisées pour les protéines et les acides nucléiques. Les écart par rapport aux valeurs standards peuvent être exprimés comme une déviation angulaire ou en terme de distances angulaires.
Les combinaisons de valeurs des angles de torsion chi₁ et chi₂ (conformations des rotamères) sont très performantes pour la validation de structures.

Source : Expasy - SwissModel

La méthode d'analyse directionnelle des contacts atomiques ("Directional Atomic Contact Analysis" - DACA) calcule un score pour chaque groupe d'atomes dans une protéine : ce score traduit l'adéquation de ce groupe dans son environnement (par exemple un résidu d'acide aminé chargé dans une poche hydrophobe).
Les autres tests de validité de la structure sont les tests de chiralité et de planéarité.

Portée de la validation
tests géometriques	faible	facteur de température	faible
angle ω	faible	résolution	modérée
combinaisons Φ, Ψ	très forte	facteur R	faible
carbones alpha ("CA-only tests")	forte	facteur R_free	très forte
analyse DACA	très forte	facteur R_free - R	forte
symétrie non-cristallographique	modérée	estimées des coordonnées	modérée
Voir un cours très complet sur la validation des structures modélisées. Voir : CAMEO ("Continuous Automated Model EvaluatiOn"). Représentation d'un diagramme de Ramachandran (script Python).

4. Les scores de distances inter-atomiques entre des structures comparées

La modélisation par homologie de structures nécessite de superposer les structures des protéines qui sont comparées pour établir la correspondance spatiale entre les acides aminés équivalents dans ces structures.

Le score RMSD ("Root Mean Square Deviation") et le score RMSD local

Pour mesurer les distances inter-atomiques on utilise fréquemment une grandeur appelée écart quadratique moyen (RMSD, en Å) entre les coordonnées spatiales des atomes des acides aminés appariés.

Par exemple, si on considère n atomes de 2 structures, on compare les coordonnées (x_i, y_i, z_i) d'un atome i de l'une de ces structures aux coordonnées (x'_i, y'_i, z'_i) d'un atome i apparié de l'autre structure : on superpose ainsi les structures en minimisant la valeur de RMSD.

protein structure prediction macromolecule bioinformatique bioinformatics script langage Python biopython programmation programming sequence motif modelisation pfam PDB hydrophobicity hydropathy hydrophilicity amino acid amine HMM hidden markov model comparison score RMSD TM TM-score biochimej

Limites du score RMSD

Il faut que les 2 structures soient dans le même système de repères orthonormés.
Cette méthode attribue un poids statistique équivalent à tous les atomes (carbone α et atomes des chaînes latérales).
Il faut préciser la liste des atomes à comparer : c'est un problème si les protéines n'ont pas des séquences de longueurs identiques.

Pour effectuer un choix pertinent des acides aminés à comparer, on calcule un RMSD local avec les carbones α des acides aminés inclus dans une fenêtre de longueur L+1 :

Des équations ont été proposées pour établir un lien entre la déviation du RMSD des repliements et le degré d'homologie des séquences.
Par exemple : RMSD = 0.4 e^{1.87 S}, S=12.3 + 98.4 e^{-0.95 RMSD} où S est la valeur d'identité des séquences.

Le score GDT ("Global Distance Test")

C'est aussi une mesure de la similarité entre 2 structures protéiques qui ont des structures tertiaires différentes. Ce score est calculé sur la base du plus grand ensemble de carbone α des résidus d'acides aminés de la structure de la protéine cible dont la position dans l'espace correspond (selon un seuil donné : 1 Å, 2 Å, 4 Å et 8 Å) à celles des résidus d'acides aminés de la structure de la protéine modèle.

Les scores GDT sont les principaux critères d'évaluation des résultats de prédiction issus de l'expérience CASP ("Critical Assessment of Structure Prediction"). CASP est une expérience à grande échelle de la communauté scientifique qui travaille sur la prédiction de structure. CASP évalue et améliore les différentes techniques de modélisation de structures de protéines.

Le score TM ("Template Modeling score")

C'est également une mesure de la similarité entre 2 structures protéiques qui ont des structures tertiaires différentes. Le score TM est une mesure plus précise de la qualité des structures protéiques que le score RMSD et le score GDT. Dans le calcul du score TM, les distances faibles ont un poids plus élevé que les distances fortes : ce score est donc insensible aux erreurs de modélisation locales.

Un score TM > 0. 5 indique une topologie correcte du modèle calculé : les protéines comparées ont un repliement similaire.
Un scoreTM < 0. 17 correspond à des protéines non apparentées choisies au hasard.
Ces seuils de score ne dépendent pas de la longueur de la protéine.

max : la somme doit être maximisée (matrice de superposition optimale).
L_native est la longueur de la protéine native (la structure de référence avec laquelle s'effectue la comparaison) et L_aligné est la longueur de la région d'acides aminés qui est alignée.
d_i est la distance entre la i^ème paire de résidus d'acides aminés alignés entre les 2 structures. Cette distance dépend de la matrice de superposition.
d₀(L_native) est une échelle de distance qui normalise les différences de distances.

Exemples de comparaisons et de scores de comparaisons

Figure ci-dessous : superpositions des structures de 2 protéines avec différents algorithmes (CE - "Combinatorial Extension of the optimal path", SAL, DALI et TM-align).

Code PDB 1ATZ_A (184 résidus d'acides aminés) : domaine A3 du facteur Von Willebrand humain (fixation du collagène).
Code PDB 1AUO_A (218 résidus d'acides aminés) : carboxylestérase.
Ces 2 protéines ont 16% d'identité de séquence et elle adoptent une topologie en sandwich αβα.
Les rubans épais et minces indiquent les résidus d'acides aminés alignés de 1ATZ_A et 1AUO_A, respectivement.

L est le nombre de résidus d'acides aminés alignés. Les scores RMSD et TM sont indiqués.

Source : Zhang & Skolnick (2005)

Le score lDDT ("Local Distance Difference Test")

Il est calculé sur toutes les paires d'atomes dans la structure de référence à une distance inférieure à un seuil prédéfini (appelé rayon d'inclusion), et n'appartenant pas au même résidu d'acide aminé. Ces paires d'atomes définissent un ensemble de distances locales L :

Une distance est conservée dans le modèle M si elle est (selon un seuil de tolérance) la même que la distance correspondante dans l'ensemble L.
Si un ou les deux atomes définissant une distance dans l'ensemble L ne sont pas présents dans le modèle M, la distance est non conservée.

Pour un seuil donné, la fraction des distances conservées est calculée. Le score IDDT est la moyenne de 4 fractions calculées en utilisant des seuils identiques à ceux utilisés pour calculer le score GDT (voir ci-dessus).

Voir Mariani et al. (2013).

Divers

Voir un très grand nombre de programmes de superposition de structures.

5. Exemples de programmes de modélisation et de visualisation de structures de protéines

a. PyMOL

PyMOL est un programme de modélisation par homologie et de visualisation de structures de molécules (écrit en partie en Python). Il existe des versions pour plusieurs environnements (MacOS, Windows, Linux).

Plugin PyMod pour PyMOL : recherches de similarité de séquence, alignements séquence à structure multiple, modélisation par homologie. C'est une interface simple et intuitive entre PyMOL et plusieurs outils bioinformatiques (exemples : PSI-BLAST, Clustal, Muscle, PSI-PRED, MODELLER, ...).

Figure ci-dessous : procédure de "PyMod" qui intègre divers types de données et permet divers types d'analyses.

Mecanique modelisation dynamique moleculaire champ force energie potentielle proteine de novo molecular dynamics force field amber charmm monte carlo ab initio rosetta potentiel biochimej

Source : Bramucci et al. (2012)

Recherche dans une base de données de similarités (de séquences et de structures) avec la séquence requête.
Alignement multiple de séquences sur la base d'homologies de structures.
Modélisation de structures 3D par homologie avec le logiciel MODELLER.

Chaque "bloc de procédure" est indépendant des autres : on peut donc, par exemple, effectuer un alignement de séquences multiples sans recherche préalable dans une base de données.

Voir la syntaxe de la commande "align" de PyMOL.

b. Jmol et JSMol

Logiciels libres de visualisation de structures de molécules.

JSmol ("Jmol JavaScript Object")

C'est une infrastructure de développement ("framework") écrite en JavaScript.
Elle permet aux développeurs web de créer des pages en HTML5 (ou HTML5/WebGL) et d'y inclure des scripts qui permettent de visualiser des structures de molécules de manière interactive.
Cette solution permet d'utiliser des ordinateurs où Java n'est pas émulé (risques de sécurité) ou pas disponible (smartphones ou tablettes).

Jmol est l'applet écrite en Java, précurseur de JSmol. Il existe des versions pour plusieurs environnements (MacOS, Windows, Linux).

Exemple de la calmoduline

7 atomes d'oxygène constitue le réseau de coordination du calcium :

5 atomes d'oxygène proviennent des chaînes latérales d'Asp et de Glu
le 6ème atome provient du groupement carbonyle de la liaison peptidique impliquant une Gln
le 7ème atome provient d'une molécule d'eau

Exemple de 5 acides aminés particuliers du motif EF-Hand 1

c. Le programme MODELLER

C'est un logiciel de modélisation de structures de protéines par homologie.

L'utilisateur fournit un alignement d'une séquence à modéliser avec des séquences de protéines apparentées dont les structures sont connues et MODELLER calcule un modèle contenant tous les atomes autres que l'hydrogène.
La modélisation de la structure de la protéine s'effectue par satisfaction des contraintes spatiales.

La recherche de séquences similaires dont les structures sont connues est effectuée avec la commande "profile. build ()" (contenue dans le script "build_profile.py") du programme MODELLER.

Le script "build_profile. py" effectue les opérations suivantes :

1. Il initialise l'environnement de la modélisation en créant un objet "environ" (appelé "env"). Presque tous les scripts MODELLER nécessitent cette étape, car ce nouvel objet est nécessaire pour construire la plupart des autres objets utiles à la modélisation.

2. Il crée un objet "sequence_db" (appelé "sdb") utilisé pour contenir de grandes bases de données de séquences de protéines.

3. Il lit, dans la base de données "sdb", un fichier (au format texte) contenant des séquences non redondantes de la PDB. Les séquences sont aussi dans le fichier "pdb_95.pir" au format PIR. Chaque séquence de ce fichier est représentative d'un groupe de séquences de la PDB qui ont 95% ou plus d'identité de séquence et qui ont moins de 30 résidus ou une différence de longueur de séquence inférieure à 30%.

4a. Il écrit un fichier au format binaire contenant toutes les séquences lues à l'étape précédente.

4b. Il relit le fichier au format binaire pour une exécution plus rapide du script.

Mecanique modelisation dynamique moleculaire champ force energie potentielle proteine de novo molecular dynamics force field amber charmm monte carlo ab initio rosetta potentiel biochimej

5a. Il crée un objet "alignment" ("aln").

5b. Il lit la séquence cible TvLDH (dans l'exemple choisi) à partir du fichier "TvLDH.ali".

5c. Il convertit la séquence cible lue en un objet "profil " (appelé "prf"). Les profils contiennent des informations similaires à celles des alignements, mais ils sont plus compacts, plus complets et plus performants pour une recherche dans la base de données de séquences.

6. L'instruction "prf.build()" effectue la recherche dans "sdb" avec le profil "prf". Les correspondances qui sont trouvées sont ajoutées au profil.

7. L'instruction "prf.write()" écrit le nouveau profil contenant la séquence cible et ses homologues dans le fichier (au format texte) de sortie spécifié (le fichier "build_profile.prf").

8. Conversion du nouveau profil en un nouvel alignement.

9. L'instruction "aln.write()" écrit le nouvel alignement contenant la séquence cible et ses homologues dans le fichier (au format PIR) de sortie spécifié (le fichier "build_profile.ali").

Récupérer le script "build_profile.py".

Exécution du script

Si le fichier est enregistré avec le nom "toto.py" et si la version de MODELLER est 9.19 (juillet 2017), la commande pour exécuter ce script est "mod9.19 toto.py".

Après exécution, le programme produit un fichier journal ("log file") : c'est un enregistrement de la séquence des événements au cours de l'exécution du script. Dans l'exemple choisi, le fichier s'apelle "toto.log".
L'ajustement entre les distributions observées et théoriques des z-scores est calculé (statistique D de Kolmogorov-Smirnov) après chaque itération et rapporté dans le fichier journal ("check_profile=True").
Le programme écrit le profil dans un fichier appelé "toto.prf" (dans l'exemple choisi).

Voir un descriptif très précis de toutes les étapes de MODELLER.

d. MODELLER : détail de la syntaxe de la commande profile.build()

Cette commande analyse (de manière itérative) une base de données contenant un très grand nombre de séquences protéiques dans le but de créer un profil pour la séquence (ou l'alignement) que l'on veut modéliser.

Cette commande calcule le score d'un alignement local (méthode de Smith-Waterman) entre la séquence à modéliser et chacune des séquences de la base de données.

build(
        sdb, 
        gap_penalties_1d=(-900.0, -50.0), 
        matrix_offset=0.0, 
        rr_file='$(LIB)/as1.sim.mat', 
        n_prof_iterations=3, 
        max_aln_evalue=0.1, 
        matrix_scaling_factor=0.0069, 
        check_profile=True, 
        output_score_file=None, 
        gaps_in_target=False, 
        score_statistics=True, 
        pssm_weights_type='HH1', 
        pssm_file=None
        )

Les alignements avec des E-values inférieures à la valeur du paramètre "max_aln_evalue" sont ajoutés à l'alignement en cours.

Une matrice PSSM ("Position Specific Scoring Matrix") est générée à partir de l'alignement en cours : cette matrice est utilisée pour rechercher dans la base de données de séquences choisies.

Cette procédure itérative est répétée :

Un nombre de fois égal à la valeur du paramètre "n_prof_iterations".
Ou jusqu'à ce qu'il n'y ait pas d'alignement significatif en dessous du seuil.

Remarque : la recherche d'un repliement nécessite un drapeau "gaps_in_target=True".

e. Autres logiciels de modèlisation structurale par homologie

CHIMERA est un programme de visualisation de structures. Aller à : Python Example Structures.py. Voir la partie du guide d'utilisation du logiciel Chimera dédié au calcul la surface moléculaire.
Démonstration de Bio3D (analyse de structure 3D en ligne).
ESyPred3D Web Server
Robetta : utilise la méthode Rosetta.
I-TASSER
IntFOLD : "Integrated Protein Structure and Function Prediction Server"
PSIPRED: prédiction structures secondaires (réseaux de neurones) sur la base des résulatst issus de PSI-BLAST ("Position Specific Iterated – BLAST").
SWISS-MODEL : serveur WEB accessible via le serveur ExPASy ou à partir du programme "DeepView" (Swiss Pdb-Viewer).
Voir une liste très complète de programmes de visualisation de macromolécules (PDB).

6. "Protein threading"

Le terme "protein threading" n'est pas facile à traduire, car "threading" a pour signification "filetage, enfiler une aiguille". On peut donc traduire cette expression par :

"ajuster la séquence d'une protéine à une structure repliée qui sert de patron ou modèle"
"reconnaissance du repliement d'une protéine par enfilage de sa séquence sur tous les repliements connus"

C'est donc une méthode de modélisation de la structure des protéines utilisée pour une protéine :

qui a le même repliement ("fold") qu'une protéine de structure connue (par rapport à laquelle on effectue la modélisation)
mais pour laquelle il n'existe pas de protéines homologues dont la structure serait connue et déposée dans la PDB
la démarche "protein threading" s'appuie sur des données statistiques qui décrivent la relation entre les structures déposées dans la PDB et la séquence de la protéine que l'on veut modéliser.

En conséquence, bien que comparable, la démarche "protein threading" se distingue de la modélisation par homologie de structure :

La modélisation par homologie aligne une (des) séquence(s) par rapport à d'autre(s) séquence(s) : le principe est que des protéines de séquences homologues ont des structures similaires.
Le "protein threading" aligne une (des) séquence(s) par rapport à une (des) structure(s) modèle(s) ou repliement(s)
En d'autres termes, le "protein threading" traite le(s) modèle(s) alignés en tant que structure : il en découle que les 2 types d'information (séquence et structure) extraits de l'alignement sont utilisés pour la prédiction.

Etapes du "protein threading"

Construction d'une base de données de repliements ("structure template database") : sélection des structures de protéines qui servent de modèle. Cette sélection s'effectue dans des bases de données telles que PDB, SCOP ou CATH, après élimination des structures de protéines ayant des similitudes de séquence élevées.

Elaboration de la fonction de score ("scoring function") : cette fonction a pour but de mesurer l'adéquation entre la séquence à modéliser et chacun des modèles structuraux (repliements) sélectionnés.

Ajustement de l'alignement ("threading alignment") : pour chaque repliement sélectionné, on ajuste les atomes du squelette carboné de la séquence à modéliser à leurs positions dans le squelette carboné du repliement testé (en optimisant la fonction de score). L'énergie de chaque ajustement est calculée par la somme des interactions des résidus d'acides aminés 2 à 2. Les repliements sont classés par ordre d'énergie : la conformation la plus stable est celle qui a l'énergie la plus basse.

Prédiction de l'ajustement ("threading prediction" ) : on sélectionne l'alignement qui est statistiquement le plus probable pour obtenir le meilleur couple [séquence à modéliser - modèle structural (repliement)].

Le serveur de prédiction de structures de protéines et le programme HHpred

HHpred est un serveur basé sur la comparaison 2 à 2 de profils de modèles de Markov cachés (HMM).
HHpred est aussi une méthode de recherche dans les bases de données d'alignement comme Pfam ou SMART.
Enfin, c'est également un programme de prédiction de structure très sensible qui permet de trouver des homologues distants.

HHpred :

Accepte une séquence unique ou un alignement multiple comme requête.
Les options de recherche incluent l'alignement local ou l'alignement global et le calcul de score de similarité de structure secondaire.
Les résultats sont fournis dans un format similaire à celui de PSI-BLAST.
HHpred fournit des alignements multiples et des modèles structuraux 3D calculés par MODELLER (à partir des alignements HHpred).

7. Démarche "de novo protein design" : exemple de la protéine "artificielle" TOP7

C'est une protéine "artificielle" de 93 acides aminés issue de simulations / calculs de prédiction ("de novo protein design") effectués par B. Kuhlman et G. Dantas (Université de Caroline du Nord) .

Ces chercheurs ont utilisé comme point de départ un repliement encore jamais mis en évidence dans la nature.

Les séquences ont été générées avec le programme "Rosetta design Monte Carlo search protocol and energy function" : un potentiel de Lennard-Jones 12-6; un terme pour les liaisons hydrogène dépendant de l'orientation; un modèle de solvatation implicite.

Tous les acides aminés (excepté la cystéine) ont été autorisés pour 71 des 93 positions (≈ 110 rotamères par position) et les 22 positions restantes (surface des feuillets) ont été restreintes à des acides aminés polaires (≈ 75 rotamères par position). L'espace de recherche était de 110⁷¹ × 75²², soit ≈ 10¹⁸⁶ rotamères.

Les conformations du squelette carboné ont été générées sans contrainte pour optimiser la compacité des chaînes latérales : en conséquence, les séquences de plus basse énergie avaient une énergie très supérieure à celle de protéines natives de même taille.

La structure la plus stable a été baptisée TOP7 : 2 hélices α compactées à 5 feuillets β anti-parallèles (ci-dessous). Ce type de repliement n'a pas encore été observé dans la nature.
En parallèle, la protéine TOP7 recombinante a été produite in vivo dans Escherichia coli puis cristallisée.

La comparaison de la structure modèle conçue par calcul et de la structure cristalline est saisissante :

ensemble de la chaîne carbonée : RMSD = 1,17 Å
peptide Asp78 - Gly85 : RMSD = 0,79 Å
Voir Kuhlman et al., 2003

Visualisation de TOP7 à une résolution de 2,5 Å

Le chargement de la structure peut prendre du temps.

Code PDB : 1QYS

Ci-dessous, aperçu de quelques méthodes de modélisation et de cadres de conception de macromolécules dans l'environnement Rosetta.

$biochimej Structure proteine diffraction rayon X ray Rosetta$

Source : Leman et al. (2020)

9. Liens Internet et références bibliographiques

"Introduction à la structure des protéines" - C. Branden & J. Tooze (1996) - ed. De Boeck Université

Anfinsen et al. (1961) Proc. Natl. Acad. Sci. USA 47, 1309 - 1314

Levinthal C. (1968) "Are there pathways for protein folding ?" J. Chem. Phys. 65, 44 - 45

Baaden M. (2003) "Dynamique Moléculaire in silico : Fondements théoriques et liste détaillée de références bibliographiques" Ecole thématique du CNRS

Thèse Leroux V. (2006) "Modélisation d'inhibiteurs du domaine SH2 de la protéine Grb2 par dynamique moléculaire, docking et criblage virtuel"

Voir une liste quasi exhaustive des programmes de mécanique et modélisation moléculaires.

The Nobel Prize in Chemistry 2013 was awarded jointly to Martin Karplus, Michael Levitt and Arieh Warshel "for the development of multiscale models for complex chemical systems".

Liste

Prix Nobel 2013

"RosettaAThome": détermination de structures tridimensionnelles avec temps de calcul partagé

FragBuilder: bibliothèque pour des calculs de chimie quantique avec des peptides modèles

ProDy : ensemble de scripts ("free and open-source Python package") pour l'étude de la dynamique structurale des protéines

"ASTRO-FOLD : Protein Structure Prediction from First Principles"

SWISS-MODEL Repository (SMR) : base de données de modèles de structures protéiques 3D annotées

Kuhlman et al. (2003) "Design of a Novel Globular Protein Fold with Atomic-Level Accuracy" Science 302, 1364 - 1368

Zhang & Skolnick (2004) "Scoring function for automated assessment of protein structure template quality" Proteins 57, 702 - 710

Zhang & Skolnick (2005) "TM-align: a protein structure alignment algorithm based on the TM-score" Nucleic Acids Res. 33, 2302 - 2309

Eswar et al. (2006) "Comparative Protein Structure Modeling with MODELLER" Current Protocols in Bioinformatics, John Wiley & Sons, Inc., Supp. 15, 5.6.1-5.6.30

Marrink et al. (2007) "The MARTINI force field: coarse grained model for biomolecular simulations" J. Phys. Chem. B. 111, 7812 - 7824

Article

Petridis & Smith (2009) "A molecular mechanics force field for lignin" J. Comput. Chem. 30, 457 - 467

Jamros et al. (2010) "Proteins at work: a combined small angle X-RAY scattering and theoretical determination of the multiple structures involved on the protein kinase functional landscape" J. Biol. Chem. 285, 36121 - 36128

Regad et al. (2011) "Dissecting protein loops with a statistical scalpel suggests a functional implication of some structural motifs" BMC Bioinformatics 12, 247

Mariani et al. (2013) "lDDT: a local superposition-free score for comparing protein structures and models using distance difference tests" Bioinformatics 29, 2722 - 2728

Ingolfsson et al. (2014) "The power of coarse graining in biomolecular simulations" Wiley Interdiscip. Rev. Comput. Mol. Sci. 4, 225 - 248

Article

Webb & Sali (2016) "Comparative protein structure modeling using MODELLER" Curr. Protoc. Bioinformatics Chapter 5, unit 5.6

Kmiecik et al. (2016) "Coarse-grained protein models and their applications" Chem. Rev. 116, 7898 - 7936

Chavent et al. (2016) "Molecular dynamics simulations of membrane proteins and their interactions: from nanoscale to mesoscale" Curr. Opin. Struct. Biol. 40, 8 - 16

Lyubartseva & Rabinovich (2016) "Force field development for lipid membrane simulations" Biochim. Biophys. Acta - Biomembranes 1858, 2483 - 2497

Article

Janson et al. (2017) "PyMod 2.0: improvements in protein sequence-structure analysis and homology modeling within PyMOL" Bioinformatics 33, 444 - 446

Bienert et al. (2017) "The SWISS-MODEL repository-new features and functionality" Nucleic Acids Res. 45, D313 - D319

Borgia et al. (2018) "Extreme disorder in an ultrahigh-affinity protein complex" Nature 555, 61 - 66

Article

Kuhlman & Bradley (2019) "Advances in protein structure prediction and design" Nat. Rev. Mol. Cell Biol. 20, 681 - 697

Wang et al. (2020) "Artificial intelligence-based multi-objective optimization protocol for protein structure refinement" Bioinformatics 36, 437 - 448

Leman et al. (2020) "Macromolecular modeling and design in Rosetta: recent methods and frameworks" Nat. Methods 17, 665 - 680

Rahman et al. (2020) "Comparison and Evaluation of Force Fields for Intrinsically Disordered Proteins" J. Chem. Inf. Model. 60, 4912 - 4923

Article