Structure des proteines relation structure fonction des proteines Enseignement et recherche Biochimie Emmanuel Jaspard Universite Angers biochimej

Détermination et prédiction des structures des protéines

1. Introduction

2. Classifications hiérarchiques des structures des protéines

3. Les techniques pour déterminer - analyser les structures des protéines

a. La diffraction des rayons X
b. La résonance magnétique nucléaire
c. La cryo-microscopie électronique
d. Autres techniques moins fréquemment utilisées

4. La mécanique et la modélisation moléculaires

5. Les méthodes "ab initio"

a. Introduction
b. Démarche "Template-based modeling"
c. Description schématique de la démarche "Template-based modeling"
d. Démarche "de novo protein design" - Rosetta
e. Exemple de la protéine "artificielle" TOP7 (2003)

6. Liens Internet et références bibliographiques

1. Introduction

Les protéines se replient dans l'espace pour adopter une structure tridimensionnelle native unique qui leur confère leur propriétés biologiques.

Il y a un nombre important de repliements des protéines observés dans la nature.

On en comptabilise de environ 1200 à environ 1600 selon les modes de classification et les bases de données.
Par exemple, 1400 repliements ont été comptabilisés fin 2017 dans la Protein Data Bank.

L'évolution du nombre de nouveaux repliements découverts lors des dernières années indique :

Que peu ou pas de nouveau(x) repliement(s) n'a(ont) été mis en évidence depuis 2009.
Qu'il n'existe probablement qu'un nombre fini de repliements.
Que le nombre de repliements est extrêmement réduit en regard des combinaisons quasi illimitées de chaînes polypeptidiques "théoriques" (mais dont le nombre réel dans la nature est limité par les séquences des gènes des génomes).

On ne sait pas si les repliements non encore observées sont physiquement impossibles ou si elles n'ont pas encore été "testées" par le processus évolutif ou caractérisées par les biologistes structuraux.

Remarque : certaines protéines sont dites intrinsèquement non structurées et certaines nécessitent une aide au repliement par des protéines chaperonnes. Quoi qu'il en soit, ces protéines adoptent à un moment ou un autre une structure tridimensionnelle unique.

a. Les 3 grands types de protéines

α. Les protéines fibreuses : ce sont des protéines allongées dont les éléments de structure secondaire sont les structures dominantes. Exemple : la kératine.

β. Les protéines membranaires :

elles sont enchâssées dans la bicouche lipidique et la traversent ou elles sont fixées à l'un des feuillets.
ces protéines sont de formes et de tailles très diverses.
leurs structures sont regroupées en 2 grandes catégories : toute α ("all helical structures") comme la bactériorhodopsine ou toute β ("all beta structures") comme les porines.

γ. Les protéines globulaires :

elles ont des séquences en acides aminés non répetitives. Elles ont des tailles de 100 à plusieurs centaines d'acides aminés et adoptent une structure compacte.
les chaînes latérales des acides aminés non polaires ont tendance à être enfouis et à constituer le "coeur" hydrophobe. Les chaînes latérales des acides aminés polaires ou chargés (hydrophiles) ont tendance à être à la surface de la protéine et accessibles au solvant.
les brins β sont en général appariés de manière parallèle ou anti-parallèle et forment des feuillets β.
en moyenne, 25% des acides aminés sont impliqués dans la formation d'hélices, 25% dans la formation de feuillets et 50% adoptent des arrangements structuraux moins ordonnées / réguliers.

b. Terminologies liées aux structures des protéines

Domaines : ce sont des unités fonctionnelles et/ou structurales distinctes des protéines. Ils sont en général responsables d'une fonction ou d'une interaction particulière et contribuent à la fonction de la protéine.

Les domaines peuvent en général se replier de manière indépendante.

Figure ci-dessous : les motifs répétés "Leucine-rich repeat" (LRR) du domaine N-terminal de RanGAP1 ("Ran GTPase-activating protein 1"). Type de repliement : superhélice [β-α] de pas droit ("right-handed beta-alpha superhelix").

biochimej Rna1P

Source : SCOP

Motif ("motif") :

1ère définition : courtes séquences d'acides aminés caractérisées par des liaisons hydrogène entre certains de ces acides aminés et des valeurs spécifiques des angles de torsion de la liaison peptidique (angles Φ, Ψ et ω). Voir le tableau ci-dessous.
2ème définition : association de plusieurs éléments de structure secondaire assurant une fonction biologique particulière. Exemple : fixation du NAD⁺ par le pli Rossmann.

Courts motifs (2 à 6 acides aminés) stabilisés par des liaisons hydrogène, trouvés dans les protéines
alpha-beta-motif	asx-motif	Exemple de définition : motif α-β (figure ci-dessous) Motif fréquent dans les hélices α en position C- et N-terminales. Les motifs α-β de pas gauche sont rares. Caractéristiques structurales : motif de 5 résidus d'acides aminés consécutifs avec 2 liaisons hydrogène 1 liaison hydrogène entre le groupe CO du résidu i et le groupe NH du résidu i+3 1 liaison hydrogène entre le groupe CO du résidu i et le groupe NH du résidu i+4 les angles Φ des résidus (i+1), (i+2) et (i+3) sont négatifs
asx-turn-iL	asx-turn-iR
asx-turn-iiL	asx-turn-iiR
beta-bulge	-----
beta-bulge-loop-5	beta-bulge-loop-6
beta-turn-iL	beta-turn-iR
beta-turn-iiL	beta-turn-iiR
gamma-turn-classic	gamma-turn-inverse
nest-LR	nest-RL
niche-3R	niche-3L
niche-4L	niche-4L
schellmann-loop-6	schellmann-loop-7
st-staple	st-motif
st-turn-iL	st-turn-iR
st-turn-iiL	st-turn-iiR
PDBeMotif: interface Web pour la recherche de motifs selon divers critères dans les protéines de la PDB.

Patron ("pattern") : courte séquence en acides aminés essentiels à la fonction d'une protéine (site de fixation, site actif, ...). Ils sont mis en évidence par alignements multiples de séquences de protéines ayant des fonctions comparables. Si les séquences des "pattern" ne sont pas exactes, on les exprime sous forme d'expression régulière (exemple : [FY]-x-E-x(4)-{ILV}).

Empreinte ("fingerprints") : ensemble de courts motifs conservés (mis en évidence par alignements multiples de séquences).

c. La "Protein DataBank"

La base de données mondiale recueil des structures tri-dimensionnelles des macromolécules biologiques est la Protein Data Bank (PDB).

Elle contient environ 182.000 structures de protéines, d'acides nucléiques (ADN et ARN) et de complexes ribonucléoprotéiques, déterminées par différentes techniques :

cristallographie - diffraction des rayons X : environ 160.000 structures
résonance magnétique nucléaire : environ 13.500 structures
cryo-microscopie électronique (technique la plus récemment utilisée) : environ 8500 structures

Les 10 organismes les plus représentés sont Homo sapiens, Escherichia coli, Mus musculus, Saccharomyces cerevisiae, Bos taurus, Gallus gallus, Sus scrofa, Thermus thermophilus, ...

2. Classifications hiérarchiques des structures des protéines

La base de données SCOP ("Structural Classification of Proteins") - MRC Laboratory of Molecular Biology - Cambridge - Angleterre

Sa classification est basée sur la similarité des structures et des séquences en acides aminés des domaines structuraux des protéines.

L'unité de classification est le domaine d'une protéine. Pour les auteurs de cette classification, la définition de domaine SCOP se base sur le fait que les petites protéines ne contiennent généralement qu'un domaine.

Exemple : l'hémoglobine (structure α₂β₂) est considérée comme ayant 2 domaines SCOP, un domaine α et un domaine β.

Attention : ici la terminologie "α" et "β" n'a rien à voir avec une hélice α ou un feuillet β.

Les niveaux de la classification SCOP :

classe ("Class") : type de repliements ("folds"). Les classes de SCOP sont : toute alpha / toute beta / alpha et beta (a/b - mélangé) / alpha plus beta (a+b - séparé) / protéines multi-domaines / protéines membranaires / petites protéines / "coiled coil proteins" / structures de protéines de faibles résolution protein / peptides / protéines "artificielles" ("de novo designed proteins").
repliement ("Fold") : les différentes formes des domaines au sein d'une classe. Exemple : "TIM beta/alpha-barrel".
superfamille ("Superfamily") : les domaines qui adoptent un type de repliement sont regroupés en superfamilles qui possèdent au moins un ancêtre structural commun distant. Exemple : triosephosphate isomérase, phosphate aldolase.
superfamille ("Family") : les domaines au sein d'une superfamille sont regroupés en familles qui possèdent un ancêtre structural commun plus récent.
domaine protéique ("Protein domain") : les domaines au sein d'une famille sont regroupés en domaines protéiques qui sont essentiellement la même protéine.
espèce ("Species") : les domaines protéiques sont regroupés selon les espèces.
domaine ("Domain") : partie d'une protéine. Pour les protéine simples, celà peut être la protéine en entier.

Exemple de classification SCOP (les liens renvoient vers les données au niveau hiérarchique considéré de la classification) :

Root: SCOP 1.75A
Class c: Alpha and beta proteins (a/b) [51349] (147 folds)
Fold c.10: Leucine-rich repeat, LRR (right-handed beta-alpha superhelix) [52046] (3 superfamilies)
Superfamily c.10.1: RNI-like [52047] (3 families)
Family c.10.1.2: Rna1p (RanGAP1), N-terminal domain [52052] (1 protein)
Protein Rna1p (RanGAP1), N-terminal domain [52053] (1 species)
Species Fission yeast (Schizosaccharomyces pombe) [52054] (4 PDB entries)

Comparaison des terminologies SCOP et CATH ("Class Architecture Topology Homology")
SCOPe : > 1200 repliements (septembre 2021)	Base de données CATH
Classe	Classe : essentiellement alpha, essentiellement beta, (alpha/beta) mélangé
Exemple de classes de protéines et nombre de repliements protéines toute alpha : 289 repliements protéines toute beta : 177 repliements protéines alpha et beta (a/b - mélangé) : 148 repliements protéines alpha plus beta (a+b - séparé) : 385 repliements protéines multi-domaines : 69 repliements protéines et peptides membranaires : 59 repliements	Architecture : classification selon la conformation globale, en ignorant toute connectivité
Superfamille	Topologie ("Topology") : groupes de repliements (forme et connectivité)
Famille	Superfamille homologue ("Homologous Superfamily")
Domaines : définition manuelle	Domaines : définition automatique

Bases de données liées à SCOP

SuperFamily : base de données d'annotation ("Hidden Markov models") structurale et fonctionnelle des protéines.
Astral : "databases and tools useful for analyzing protein structures and their sequences".

Les autres bases de données de classification

SMART : "Small motif database" / PRODOM : "Protein domain database" / InterPro : "Databases of protein families and domains" / HOMSTRAD : "Homologous structure alignment database"

Exemples de programmes et de serveurs d'alignement de structures

SSAP ("Sequential Structure Alignment Program") / DALI / STRUCTAL ("Structural Alignment Server") / VAST ("Vector Alignment Search Tool" - NCBI) / LSQMAN / SSM ("PDBeFold").

3. Les techniques pour déterminer - analyser les structures des protéines

Il n'y a pas une technique meilleure qu'une autre. Elles ont toutes leur spécificité avec leurs avantages et leurs inconvénients.

Les meilleurs modèles structuraux de macromolécules biologiques ou de complexes biologiques résultent de combinaisons de données obtenues par plusieurs de ces techniques.

a. La diffraction des rayons X

Voir le principe de la diffraction des rayons X.

L'histoire raconte qu'en skiant dans les Alpes en 1912, le physicien allemand Max von Laue énonça à ses collègues une idée novatrice : il postulait que les rayons X en passant au travers d'un cristal seraient réfléchis par les centres atomiques du réseau cristallin et interfèreraient entre eux pour créer un diagramme de diffraction.

$biochimej diffraction rayon X ray$

Source : N. Jones (2014)

L'idée de von Laue était correcte et en 1914, il a reçu le prix Nobel de physique « pour sa découverte de la diffraction des rayons X par les cristaux ».

En 2012, on a fêté le 100ème anniversaire de la loi énoncée par Lawrence Bragg : n . λ = 2 d sin θ.

Figure ci-dessous : image radiographique de l'ADN obtenue en 1952 par Rosalind Franklin (appelée photo 51). Ces photographies ont été déterminantes pour l'élucidation de la structure en double hélice de l'ADN par J. Watson, F. Crick, et M. Wilkins en 1953 (Prix Nobel en 1962).

$biochimej diffraction rayon X ray$

Source : King's College London

R. Lefkowitz & B. Kobilka ont reçu le prix Nobel de Chimie en 2012 pour leurs travaux sur la détermination de la structure des RCPG.

La cristallographie étudie les macromolécules sous forme cristalline à l'échelle atomique : c'est actuellement la technique la plus résolutive qui peut être inférieure à 1 Å.

$biochimej diffraction rayon X ray$

Source : Wikipedia

L'état cristallin est défini par un caractère périodique et ordonné à l'échelle atomique ou moléculaire. Ce caractère périodique est appelé la maille élémentaire.

La cristallogénèse est la formation d'un cristal, soit en milieu naturel, soit de façon expérimentale. C'est le passage d'un état désordonné liquide à un état ordonné solide, contrôlé par la température, la pression, le temps d'évaporation et des lois cinétiques complexes :

1ère phase : la germination correspond à l'apparition d'une phase cristalline stable à partir d'un liquide surfondu ou d'une solution sursaturée
2ème phase : la croissance est le processus qui va suivre la germination et permettre l'augmentation de taille des germes pour conduire aux cristaux

Des automates permettent maintenant de tester en parallèle des centaines de conditions physico-chimiques de cristallogénèse.

La plupart des substances minérales et des petites molécules organiques cristallisent facilement et les cristaux obtenus sont en général sans défaut.

En revanche les macromolécules biologiques, comme les protéines (a fortiori les protéines membranaires), sont souvent très difficiles à cristalliser.

Techniques de pointe pour générer des rayons X :

XFELs : "X-ray free-electron lasers"
"Third-generation synchrotrons" ou "undulator-based storage rings"
"Femtosecond X-ray protein nanocrystallography" : les impulsions des rayons X issus des systèmes XFELs sont extrêmement intenses et détruisent complètement les molécules et les cristaux. Mais ces impulsions n'ayant une durée que de 1 femtoseconde (10-15 seconde), des diagrammes de diffraction peuvent être obtenus avant que les molécules ne soient détruites.

La diffraction des rayons X par des monocristaux ("X-ray single-crystal diffraction" - SCD) a une limitation évidente : les molécules cibles doivent être obtenues comme des monocristaux.

En 2013, un protocole d'analyse SCD ne nécessitant pas la cristallisation de l'échantillon a été développé (Inokuma et al., 2013):

l'échantillon est mélangé à une solution de minuscules cristaux d'un complexe poreux : ce complexe absorbe les molécules de l'échantillon.
l'analyse SCD étant effectuée sur un minuscule monocristal de complexe, la masse requise d'échantillon est réduite à l'ordre du nanogramme ou du microgramme.
de plus, cette technique peut-être couplée à la chromatographie liquide haute performance, ce qui permet la caractérisation directe de plusieurs molécules.

Cristallographie : unité asymétrique d'une maille cristalline et cellule unitaire

L'unité asymétrique est le plus petit volume d'une structure cristalline (maille cristalline) auquel les opérations de symétrie du groupe d'espace du cristal considéré peuvent être appliquées afin de reconstituer la cellule unitaire ("unit cell" - l'unité de répétition du cristal) complète.

Quand la cellule unitaire est répliquée dans les 3 dimensions, on reconstitue le cristal entier.

Exemple : l'unité asymétrique (flèche verte vers le haut) est tournée de 180 degrés autour d'un axe de symétrie cristallographique double (ovale noir). On obtient une copie (flèche violette vers le bas) : ces deux flèches constituent la cellule unitaire. Celle-ci est alors répliquée par translation dans les 3 directions pour former le cristal tridimensionnel.

$determination structure macromolecule proteine ADN ARN lipide folding repliement diffraction rayon X RMN nuclear magnetic resonance nucleaire cryomicroscopie electronique electronic cryomicroscopy cryoEM ab initio rosetta de novo design Top7 biochimej$

Source : PDB

Remarque : le volume de l'unité asymétrique est donc inférieur à celui de la maille du cristal sauf pour le groupe d'espace triclinique P1 dont l'unité asymétrique a un volume égal à celui de la maille.

Les opérations de symétrie les plus couramment appliquées aux cristaux de macromolécules biologiques sont les rotations, les translations et les « tour de de vis » ("screw axes", combinaisons [rotation - translation]).

Cristallographie : assemblage biologique

L'assemblage biologique (ou unité biologique - "biological assembly") est l'assemblage macromoléculaire qui est ou semble être la forme fonctionnelle de la molécule. Par exemple, la forme fonctionnelle de l'hémoglobine est constituée de 2 x 2 chaînes polypeptidiques (α₂β₂).

Selon la structure cristalline, des opérations de symétrie peuvent être nécessaires pour obtenir l'assemblage biologique complet. A l'inverse, un sous-ensemble des coordonnées cristallographiques peut suffire pour représenter l'assemblage biologique. En conclusion, un assemblage biologique peut être construit à partir :

d'une copie de l'unité asymétrique
de plusieurs copies de l'unité asymétrique
d'une partie de l'unité asymétrique

Exemples

fichier 2HHB : l'assemblage biologique est égal à l'unité asymétrique. Aucune opération n'est nécessaire.
fichier 1OUT : l'assemblage biologique contient deux unités asymétriques. Une opération de symétrie cristallographique (rotation de 180 degrés autour d'un axe d'ordre 2) produit l'assemblage biologique complet.
fichier 1HV4 : l'assemblage biologique est la moitié de l'unité asymétrique. Le fichier décrit donc 2 structures similaires, mais pas totalement identiques, de l'assemblage biologique à l'intérieur de l'unité asymétrique.

Outils d'analyse des assemblages biologiques

Des bases de données spécifiques, telles que PISA ("Protein Interfaces, Surfaces and Assemblies"), permettent d'analyser les assemblages biologiques de la PDB.

jsPISA est un outil web interactif pour le calcul des surfaces macromoléculaires et des interfaces, pour l'évaluation de leurs propriétés et pour l'inférence d'assemblages macromoléculaires probables à partir de données de coordonnées (généralement cristallographiques).

Cristallographie : : les fichiers au format mmCIF ("macromolecular Crystallographic Information Format")

Un fichier au format mmCIF contient les instructions pour générer un assemblage biologique. Un grand nombre de programme de visualisation moléculaire (dont Jmol) sont compatibles avec ce format.

Un fichier mmCIF contient donc les informations concernant les éléments structuraux qui générent un assemblage biologique. Ces informations se trouvent dans des catégories (ou listes d'informations) appelées "pdbx_struct_assembly", "pdbx_struct_assembly_gen" et "pdbx_struct_oper_list" :

les deux premières catégories décrivent la construction de chaque assemblage biologique et les détails de cet assemblage
la troisième catégorie décrit les transformations nécessaires pour générer l'assemblage biologique
la catégorie "pdbx_struct_assembly_gen" établit le lien entre les transformations décrites dans la catégorie "pdbx_struct_oper_list" et les chaînes polypeptidiques auxquelles ces transformations s'appliquent.
Remarque : les identifiants "asym_id" du fichier mmCIF désignent les chaînes polypeptidiques.

La catégorie "struct_biol" contient les remarques spécifiques des auteurs relatives aux assemblages biologiques.

Un dictionnaire de données archive les expériences de cristallographie de petites molécules et leurs résultats. Voir le fichier "mmcif_pdbx.dic" ("PDB Exchange Dictionary - PDBx/mmCIF"). Le format de ce dictionnaire et les fichiers de données basés sur ce dictionnaire sont conformes à la représentation des données appelée STAR ("Self Defining Text Archive and Retrieval").

Extrait d'un fichier au format mmCIF

_pdbx_struct_assembly.id                    1
_pdbx_struct_assembly.details               author_and_software_defined_assembly
_pdbx_struct_assembly.method_details        PISA

_pdbx_struct_assembly_gen.assembly_id       1
_pdbx_struct_assembly_gen.asym_id_list      A,B,C,D,E,F,G,H

loop_
_pdbx_struct_assembly_prop.biol_id
1 'ABSA (A^2)' 3840   ?

loop_
_pdbx_struct_oper_list.id
_pdbx_struct_oper_list.matrix[1][1]
1 'identity operation'         1_555 1.0000000000 0.0000000000
2 'crystal symmetry operation' 4_565 1.0000000000 0.0000000000

1_555 : décrit l'opérateur de symétrie utilisé (désigné par le nombre 1) et les opérations de translation nécessaires (le chiffre 555).

Les opérateurs de symétrie sont définis par le groupe d'espace et les opérations de translation sont indiquées pour les 3 axes de la cellule unitaire (a, b et c) :

le nombre 5 indique aucune opération de translation
les nombres supérieurs ou inférieurs indiquent le nombre d'opérations de translation de la cellule unitaire dans une direction positive ou négative

4_565 : utilisation de l'opérateur de symétrie 4, suivie d'une opération de translation de la cellule unitaire dans la direction positive selon l'axe b.

b. La résonance magnétique nucléaire

Voir le principe de la RMN.

Du fait de son caractère non destructif, la RMN est employée en biologie et en chimie organique pour déterminer la structure de certaines protéines ou de fragments d'ADN, de molécules organiques, ...

C'est une technique où les molécules sont en solution.

L'un des avantages de la RMN est d'obtenir des informations sur la dynamique des arrangements conformationnels au sein des macromolécules biologiques par mesure des temps de relaxation (T1, T2), des temps de corrélation, des vitesses d'échange chimique.

Ces arrangements conformationnels peuvent être :

le changement de conformation (extension) d'hélice α (exemple : la calmoduline fixant le calcium)
la transition R <===> T d'enzymes à régulation allostérique
l'ouverture / fermeture ("hinge bending") de domaines liant d'autres domaines (exemple: les déshydrogénases à NAD(P)⁺)
...

Kurt Wüthrich a reçu le prix Nobel de chimie en 2002 pour le développement de la RMN pour la détermination de la structure des macromolécules en solution.

Terminologie :

a. Protéine non marquée par des isotopes ("2D Homonuclear nuclear magnetic resonance" - spectre RMN en 2 dimensions) : davantage appliqué aux peptides et aux petites protéines.

expérience COSY : "COrrelation SpectroscopY"
expérience TOCSY : "TOtal Correlation SpectroscopY"
expérience NOESY : "Nuclear Overhauser Effect SpectroscopY"

b. Attribution des déplacements chimiques observés à chaque type d'atome (marquage isotopique / carbone 13 et azote 15) : expérience HSQC ("2D Heteronuclear Single Quantum Correlation") pour les noyaux autres que l'hydrogène.

c. Grosses protéines : expérience TROSY ("Transverse Relaxation Optimized SpectroscopY").

d. Protéines membranaires et fibrillaires : elles sont "sous-étudiées" structuralement car les agents chimiques chaotropes (détergents) nécessaires à leur solubilisation des membranes limitent (voire empêchent) l'obtention de cristaux qui diffractent. Une méthode est de plus en plus employée pour déterminer la structure de ces protéines : "Magic-angle spinning solid-state NMR (MAS ssNMR) spectroscopy".

Voir : "Magic-Angle Spinning (MAS)".

c. La cryo-microscopie électronique

La cryo-microscopie électronique ("single-particle cryo-electron microscopy" - Cryo-EM) est une forme de microscopie électronique à transmission où l'échantillon est étudié à des températures cryogèniques (azote liquide, environ -195°C). Dans ces conditions de congélation rapide, l'eau n'a pas le temps de former des cristaux.

cryomicroscopie electronique Prix Nobel cryoelectron microscopy cryoEM biochimej

Source : Jarnestad J. - The Royal Swedish Academy of Sciences

La cryo-EM permet donc l'observation d'échantillons dans leur état natif, non cristallin, par opposition à la diffraction des rayons X qui requière en général des conditions non physiologiques. Les besoins en quantité de matériel biologique purifié sont moindres que pour la diffraction des rayons X ou la RMN.

Voir un article expliquant les principes de diverses techniques de préparation d'échantillons vitrifiés pour pour la cryo-EM : Weissenberger et al., 2021.

EM Databank ("Unified Data Resource for 3-Dimensional Electron Microscopy") : Base de données de structures déterminées par cryo-EM.

La cryo-EM est de plus en plus utilisée pour la détermination de la structure des macromolécules biologiques (ci-dessous, les statistiques de la base de données EMDB).

cryomicroscopie electronique Prix Nobel cryoelectron microscopy cryoEM biochimej

La cryo-EM est surtout utilisée pour les complexes biologiques (virus, ribosome, spliceosome, ...) : en effet, leur très grande taille empêche de les étudier par diffraction des rayons X ou RMN.

La résolution de la cryo-EM est désormais comparable à celle des deux autres grandes techniques de détermination de la structure des macromolécules biologiques.

Pour obtenir des modèles à l'échelle atomique, il est nécessaire d'affiner ("in silico modeling") les données de densité électronique de cryo-EM avec celles des structures cristallographiques d'entités constitutives de ces complexes.

Figure ci-dessous : Evolution des technologies de Cryo-EM.

cryomicroscopie electronique biochimej cryoelectron microscopy cryoEM

Source : Fujiyoshi, Y. (2011)

Le microscope enregistre les données d'un trés grand nombre de particules orientées au hasard.

Un modèle tri-dimensionnel est ensuite reconstruit par ordinateur à partir d'images 2D sélectionnées.

Figure ci-dessous :

Images 3D d'une apolipoprotéine A-1 prises sous les différents angles indiqués.
Puis 4 traitements successifs de l'image (amélioration des projections - "Raw projection") clarifient le signal.
On aboutit à la structure 3D : colonne de droite et figures B, C.

cryomicroscopie electronique biochimej cryoelectron microscopy cryoEM

Source : Berkeley lab

Les avancées de la cryo-microscopie électronique

Plusieurs facteurs sont cause d'une perte importante d'information dans les images de cryo-EM (et donc de la limitation de la résolution actuelle de cette technique) :

les dommages subis par l'échantillons à cause de l'énergie des électrons : la dose d'électrons doit être limitée pour empêcher les molécules de se désagréger pendant l'acquisition des images
une faible efficacité de détection quantique ("Detective Quantum Efficiency" - DQE) des appareils de mesure classiques : la DQE est la mesure fréquence-dépendante de la performance [signal-bruit]
le mouvement ou la charge de l'échantillon induits par l'énergie du faisceau pendant l'acquisition des images

L'utilisation de nouveaux détecteurs d'électrons dits "à conversion directe" ("direct-conversion electron detectors") et d'algorithmes de correction des mouvements spécifiquement développés à cet usage a démontré que cette technique permet de résoudre des structures macromoléculaires à une résolution quasi atomique.

Ces caméras ont non seulement des performances améliorées dans la détection [signal-bruit], mais surtout elles sont suffisamment rapides pour suivre les mouvements de particules lors de l'irradiation par les électrons. Ainsi les mouvements de l'échantillon (pendant l'acquisition des données) induits par l'énergie du faisceau peuvent être corrigés.

Deux exemples d'application :

Bai et al. (2013) ont obtenu une image du ribosome 80S de Saccharomyces cerevisiae à une résolution de 4,5 Å : environ 30.000 particules de ribosome ont été nécessaires, soit 50 à 100 fois moins que pour les déterminations précédentes de la structure du ribosome. Visualisation de cette structure à l'EBI.
Li et al. (2013) ont obtenu une image du protéasome 20S (700 kDa - groupe de symmétrie D7) de Thermoplasma acidophilum à une résolution de 3,3 Å. Seules 120.000 particules de protéasome ont été nécessaires.

Les protéines membranaires

Lorsque les protéines membranaires intégrales sont visualisées dans des détergents ou d'autres systèmes artificiels, une information capitale est perdue : les interactions avec les lipides et leurs effets sur la structure réelle de la protéine dans la membrane. C'est d'autant plus marquant dans le cas des protéines pour lesquelles les lipides ont un rôle structural et un rôle de régulation.

La cryo-EM / couplée à la technologie des lipides nanodisques permet de déterminer la structure d'une protéine membranaire dans une bicouche lipidique.

Exemple : l'étude du récepteur ionotrope TRPV1 ("Transient Receptor Potential cation channel subfamily V member 1") du rat. Ce type de récepteur est activé par des molécules de la famille des vanilloïdes (exemple : la capsaïcine du piment) ou une température supérieure à 42°C.

$biochimej lipide nanodisque TRPV1 diffraction rayon X RMN nuclear resonance cryomicroscopie electronique electronic cryomicroscopy cryoEM ab initio determination structure macromolecule rosetta Top7$

Source : Gao et al. (2016)

La cryo-EM / couplée à la technologie des lipides nanodisques :

a permis de déterminer la localisation des lipides structuraux et des lipides de régulation
a montré que des interactions avec des phospholipides spécifiques augmente la fixation d'une toxine d'araignée sur TRPV1 par la formation d'un complexe ternaire
a montré que des lipides dérivés du phosphatidylinositol occupent le site de fixation de la capsaïcine (et d'autres ligands vanilloïdes) ce qui suggère un mécanisme par lequel des stimuli chimiques ou thermiques provoquent l'activation du canal ionique TRPV1 en favorisant la libération de lipides bioactifs d'un site de régulation allostérique critique.

Prix Nobel 2017

Le Prix Nobel de Chimie a été attribué en 2017 à Jacques Dubochet, Joachim Frank et Richard Henderson pour le développement de la technique de cryo-EM.

$diffraction rayon X RMN nuclear resonance cryomicroscopie electronique electronic cryomicroscopy cryoEM biochimej$

Source : Cressey & Callaway (2017) "Cryo-electron microscopy wins chemistry Nobel"

La résolution de la cryo-EM a notablement augmenté en évoluant d'une carte de densité à basse résolution (partie gauche de la structure de la β-galactosidase, figure ci-dessous) aux coordonnées atomiques (environ 2 Å - partie droite).

Augmentation remarquable de la résolution de la cryo-EM

La structure de la ferritine (stockage du fer) à été déterminée avec une résolution d'environ 1,2 Å par reconstruction cryo-EM à particule unique : les données sont de qualité suffisante pour observer les atomes individuels dans l'apoferritine (en absence de fer). Cette amélioration remarquable de la résolution repose sur des progrès matériels (Yip et al., 2020 ; Nakane et al., 2020).

$diffraction rayon X RMN nuclear resonance cryomicroscopie electronique electronic cryomicroscopy cryoEM biochimej$

Source : Yip et al. (2020)

d. Autres techniques moins fréquemment utilisées

Ces techniques sont pour la plupart des techniques de pointe, d'avancée récente et ultra-sophistiquées.

La diffusion des rayons X aux petits angles ("Small-angle X-ray scattering" - SAXS) :

Elle utilise des sources de radiation de type synchrotron ("high-flux synchrotron sources") : λ ≈ 0,15 nm.
Cette technique s'appuie sur l'interaction élastique des photons avec les électrons des atomes. Quand ils interagissent avec la macromolécule, les photons sont diffusés en fonction des densités électroniques. Plus l'atome est léger, moins l'interaction est forte : les atomes d'hydrogène sont difficiles à localiser pour une résolution supérieure à 1,2 Å.
Elle permet d'analyser la forme globale d'un complexe.
Elle permet d'étudier l'échantillon (protéines membranaires, ARN, ...) dans différentes conditions physico-chimiques. Par exemple, en conditions dénaturantes donc à divers degrés de repliement.

La diffusion des neutrons aux petits angles ("Small angle neutron scattering" - SANS) :

Elle utilise des neutrons termiques : λ ≈ 0,5 nm.
Elle est combinée avec un marquage au deutérium.
Les neutrons interagissent avec le noyau des atomes indépendamment de leur numéro atomique. En conséquence l'atome d'hydrogène est aussi bien localisé que des atomes plus lourds (carbone, oxygène, azote - "similar scattering length densities").
Elle permet d'analyser la position relative d'un composant au sein d'un complexe.
Les échantillons sont ré-utilisables pour des études combinées à la RMN, par exemple.

La spectroscopie infrarouge par transformée de Fourier ("Fourier Transform Infrared Spectroscopy" - FTIR) :

Petites quantités de matériel analysable dans diverses conditions expérimentales.
Voir le principe de la spectroscopie infrarouge.

La localisation en microscopie à force atomique ("Localization Atomic force microscopy" - LAFM) :

Cette technique applique des algorithmes de reconstruction d'image de localisation aux positions des pics dans les données de microscopie à force atomique (MFA) conventionnelle et à grande vitesse. Elle augmente ainsi la résolution au-delà des limites imposées par le rayon de la pointe. Cette méthode de reconstruction d'image post-acquisition permet de visualiser des résidus d'acides aminés à la surface de protéines en conditions natives et dynamiques. Elle peut être appliquée à n'importe quel ensemble de données MFA de biomolécules.
Voir Heath et al. (2021).

La fluorescence et les fluorochromes :

Ces techniques sont plus indirectes et ne permettent pas de déterminer la structure des macromolécules. En revanche, elles apportent des informations quant à leur localisation sub-cellulaire ou leur interaction avec d'autres molécules biologiques.
"X-ray fluorescence microscopy" - XRF
"Green Flurescent Protein" - GFP
"Fluorescence Resonance Energy Transfer"

La spectromètrie de masse : étude de l'assemblage de protéines (pour l'instant jusqu'à 1 million Da) par spectromètrie de masse "Orbitrap mass analyser" (quadrupôle / "time of flight").

Exemple d'utilisation de plusieurs méthodes

Modèle d'activation de la Ca²⁺-ATPase :

cristallographie
modèles de faible résolution SAXS obtenus avec le programme ab initio DAMMIN
"homology modeling" : modèles de la Ca²⁺-ATPase obtenus avec le programme Modeller (sur la base des structures PDB 3N5K et 3N8G)
calcul de la compacité ("docking") de l'extrémité N-terminale (domaine auto-inhibiteur) avec le programme HADDOCK

Figure ci-dessous - à gauche : forme auto-inhibée de la Ca²⁺- ATPase de la membrane plasmique ("Plasma-Membrane Ca2+-ATPase").

Figure ci-dessous - à droite : fixation de deux molécules de calmoduline (complexée au calcium) sur les sites de fixation à haute affinité (en vert clair et en bleu clair). Cette fixation déplace l'hélice auto-inhibitrice du coeur catalytique, ce qui active la pompe à ion.

biochimej cryoelectron microscopy cryoEM

Source : Tidow et al. (2012)

4. La mécanique et la modélisation moléculaires

Ce type d'approche est complémentaire des techniques physiques qui précèdent. Ces objectifs sont entre autres :

Obtenir des d'informations sur la dynamique et l'énergie des molécules. Exemples : AMBER, CHARMM, GROMACS.
Calculer le champ de force pour déterminer les propriétés des molécules. Exemples : AMBER, CHARMM, GROMACS.
Corréler ces propriétés à une structure moléculaire et valider la structure moléculaire.
Simuler des phénomènes biologiques complexes (exemple le transport d'ions par des canaux ioniques) - méthode Monte-Carlo. Exemple : BOSS, BioMOCA.
Visualiser des molécules à partir de données structurales déterminées par cristallographie, RMN, Cryo-EM. Exemples : Jmol, RasMol.
...

Voir le principe de la mécanique moléculaire et la notion de champs de force.

Exemple de terminologie anglo-saxonne : "Backbone torsion angles optimization with Monte Carlo minimization protocol" / "Energy minimization using a quasi-Newton method" / "Lazaridis–Karplus implicit solvation model".

Différents outils informatiques sont utilisés pour :

Visualiser la structure des molécules en 3 dimensions. Exemples : Chimera, DeepView.
Les "manipuler" (rotation, translation, changement de conformation). Exemples : Chimera, PyMol, VMD.
Calculer les paramètres géométriques (distance inter-atomique, angle, ...) ou énergétiques. Exemples : Modeller, Chimera, PyMol.
Comparer des structures de macromolécules. Exemples : Modeller, Chimera, PyMol.
Simuler des structures inconnues à partir de structures 3D (déja déterminées) homologues ou similaires ("homology modeling" - "protein threading", ...). Exemples : Modeller, EsyPred3D.
...

Voir une liste quasi exhaustive des programmes de mécanique et modélisation moléculaires.

5. Les méthodes "ab initio" ("depuis le commencement")

a. Introduction

Il y a un grand nombre, fini, de repliements des protéines observés dans la nature. A ce jour on comptabilise environ 1400 repliements (selon les modes de classification et les bases de données).

On ne sait pas si les structures non encore observées sont physiquement impossibles ou si elles n'ont pas encore été "testées" par le processus évolutif ou caractérisées par les biologistes structuraux.

Les méthodes informatiques (algorithmiques) de conception de nouvelles structures protéiques :

"Template-based modeling" qui s'appuie sur des structures 3D déterminées ("Protein Data Bank")
"de novo protein design" : qui ne s'appuie pas sur des structures 3D déterminées

sont un moyen de répondre (peut-être) rapidement à cette question mais aussi de concevoir des protéines "artificielles" aux propriétés thérapeutiques originales.

Exemples de champs d'application :

découverte de médicaments
enzymes à applications industrielles
étude des interactions protéines-protéines
spécificité de ligands des récepteurs membranaires
nouveaux sites actifs / spécificité de substrats des enzymes
découverte d'inhibiteurs d'enzymes
augmentation de la stabilité structurale des protéines
...

b. Démarche "Template-based modeling"

Le but est de générer une séquence ou un ensemble de séquences d'acides aminés qui se replie(nt) dans une structure 3D préalablement déterminée ("template").

L'une des principales caractéristiques de cette démarche par [simulations / calculs] est qu'elles génèrent des (dizaines de) milliers de séquences donc de modèles moléculaires ("decoys").
Ces modèles reflètent le sous-ensemble de conformations les plus stables parmi l'ensemble total des conformations spatiales adoptables a priori par une séquence d'acides aminés (compte-tenues de tout ou partie des contraintes stériques, chimiques, de solvatation, ...).
Il est possible que différentes séquences aboutissent au même repliement, certaines de ces séquences révélant des propriétés particulières (protéine plus stable, protéine plus active, ...).
Cette démarche suit donc une logique inverse à celle du problème du repliement d'une protéine ("protein folding") qui est de prédire le repliement qu'adopte une séquence d'acides aminés donnée.

Limitations actuelles

Il est difficile de concevoir une protéine de plus de 100 acides aminés : avec une moyenne de 100 rotamères pour chacun des 20 acides aminés à chaque position, la complexité du problème (NP-complet) peut-être estimée à 100¹⁰⁰ = 10²⁰⁰. L'une des limitations actuelles est donc liée à l'efficacité des algorithmes.
L'autre difficulté est d'incorporer, dans les étapes de sélection des conformations les plus vraisemblables par rapport à la structure "template", la fléxibilité réelle du squelette carboné de la chaîne polypeptidique.
De plus, ces 2 aspects sont liés : introduire le paramètre fléxibilité augmente la complexité des algorithmes.
Près de 80.000 protéines dont la structure 3D a été déterminée (PDB) sont cytosoliques et seules quelques centaines sont membranaires. On ne dispose donc pas d'informations suffisantes pour les 3 types de protéines.

c. Description schématique de la démarche "Template-based modeling"

1ère étape

Génération des séquences d'acides aminés susceptibles de déboucher sur un repliement donné ("template").

Ci-dessous : cette équation décrit un moyen de générer ces séquences d'acides aminés "artificielles".

biochimej Template-based modeling protein design equation

Source : Fung et al. (2008)

1er cas : une structure protéique de départ ("template")

i = 1, …, n : nombre de positions des acides aminés le long de la chaîne polypeptidique de départ (équation ci-dessus).
A chaque position i, il peut y avoir un ensemble de mutations, representé par : j{i} = 1, …, m_i (m_i = 20 acides aminés).
k > i est nécessaire pour tenir compte de toutes les interactions 2 à 2 entre acides aminés.
Les variables binaires y^j_i et y^l_k indiquent les mutations possibles à une position donnée.
La variable binaire w^jl_ik est le produit de y^j_i par y^l_k' .

La fonction à minimiser est la somme des énergies d'interactions 2 à 2 entre les acides aminés de la séquence de départ.

Le terme E^jl_ik (x_i, x_k) est l'énergie d'interaction entre la position i occupée par l'acide aminé j et la position k occupée par l'acide aminé l.

Ce terme dépend :

de la distance entre les carbones α ou le centre de gravité des chaînes latérales aux deux positions (x_i, x_k)
du type d'acides aminés j et l

2ème cas : plusieurs structures protéiques de départ

Le terme E^jl_ik (x_i, x_k) est remplacé par un terme d'énergie moyenne pondéré :

La distance entre x_i etx_k est donc remplacée par une distance moyenne pondérée entre toutes les structures.

Des centaines, voire des milliers de séquences potentielles ("decoys") peuvent ainsi être générées.

Deuxième étape

Recherche des conformations les plus stables thermodynamiquement (fonctions de minimisation d'énergie) et semblables à la structure native :

prédiction des hélices α et des feuillets β
maximisation de l'énergie des interactions hydrophobes entre feuillets
prédiction des contraintes d'angles et de distances via la prédiction des contacts entre résidus et des contacts entre les boucles
recherche d'une solution au problème contraint - non convexe d'optimisation globale par une combinaison de plusieurs algorithmes :
1. d'optimisation globale déterministe
2. d'optimisation globale stochastique
3. de dynamique moléculaire dans l'espace des angles de torsion

La stabilité des modèles ("decoys") est évaluée par des fonctions de scores qui combinent :

des termes énergétiques basés sur la physique ("physics-based scoring functions") de la molécule. Exemple : sa compacité - interactions van der Waals.
des termes énergétiques basés sur la connaissance ("knowledge-based scoring functions") des molécules : analyse statistique des données de la PDB - interactions entre acides aminés.

Des étapes finales d'affinements pour augmenter la résolution de la structure native calculée sont parfois nécessaires.

Voir la procédure suivie par "ASTRO-FOLD".

Troisième étape

Les conformations proches ou équivalentes à la structure native ("native-like conformation") sont alors sélectionnées : (i) sur la base de ces fonctions de score; (ii) par regroupement de conformères semblables.

d. Démarche "de novo protein design" - Rosetta

L'originalité de cette méthode est qu'elle ne s'appuie sur aucune structure 3D préalablement déterminée.

Terminologies équivalentes : "de novo structure prediction" / "de novo structure modeling".

Rosetta est un projet dédié à la prédiction de nouvelles structures de protéines ("ab initio protein structure prediction method Rosetta") par calculs partagés sur ordinateurs ou grille de calcul distribué (plateforme BOINC - "Berkeley Open Infrastructure for Network Computing").

Des petits fragments d'environ 10 acides aminés sont assemblés en molécules plus grandes, ce qui réduit considérablement les degrés de liberté conformationnels de l'échantillon.
Cette approche s'appuie sur l'hypothèse que l'information concernant la stabilité de la structure est contenue localement au sein de chaque fragment.
Voir une partie du code Python de RoseTTAFold : le script RosettaTR.py.
Figure ci-dessous : un exemple de démarche Rosetta.

biochimej demarche rosetta de novo protein design

Source : Nanda & Koder (2010)

Des règles trés précises de topographie des acides aminés au sein de structures secondaires ont pu être énoncées (Koga et al., 2012) :

règle ββ : la chiralité des épingles qui relient des brins β est déterminée par la longueur de la boucle de l'épingle.
règle βα : la direction d'une hélice est déterminée par la direction du dernier acide aminé d'un feuillet et la longueur de la boucle qui l'y rattache : direction P si la boucle contient 2 résidus et direction A si elle en contient 3.
règle αβ : le premier acide aminé d'un feuillet pointe en direction opposée de l'hélice adjacente : la direction préférée est P.

$biochimej Structure proteine diffraction rayon X ray Rosetta$

Source : Koga et al. (2012)

Aller à la base de données "Motivated proteins" : elle contient un trés grand nombre de motifs stabilisés par des liaisons hydrogène et des règles qui en découlent.

Ci-dessous, aperçu de quelques méthodes de modélisation et de cadres de conception de macromolécules dans l'environnement Rosetta.

$biochimej Structure proteine diffraction rayon X ray Rosetta$

Source : Leman et al. (2020)

Les protéines naturelles ont évolué pour reconnaître un ensemble relativement faible de molécules de ligand avec une grande affinité et une grande spécificité. Élargir cet ensemble de couples [protéine - ligand] avec des protéines synthétiques spécifiques de ces ligands pourrait modifier radicalement le développement de biocapteurs, de médicaments à base de protéines, d'enzymes artificielles et autres outils pour la biologie chimique.

De nouvelles méthodes de calcul utilisent la sélection virtuelle du meilleur conformère dans un très vaste ensemble de conformations (Tinberg et al., 2013).

On définit les positions géométriques d'un ensemble de chaînes latérales qui interagissent avec le ligand et les rotamères pour chaque chaîne latérale interagissante sont énumérés.
On cherche ensuite les squelettes carbonés (banque PDB) des conformères susceptibles d'accommoder toutes les interactions désirées.
Dans le cas où tous les résidus choisis qui interagissent peuvent être placés dans le squelette d'une protéine et que ces interactions orientent convenablement le ligand dans le site de fixation, la séquence du site de liaison est optimisée pour augmenter l'affinité (panneau central).
Les conformères conçus théoriquement qui ont des propriétés proches ou semblables à la protéine naturelle sont sélectionnés puis caractérisés expérimentalement (cytométrie de flux des levures chez lesquelles on exprime les conformères conçus théoriquement).

Exemple de lignes de commande pour générer les conformères:
~/rosetta/bin/generate_ligens.linuxiccrelease –database <rosetta_database_path>
–in:file::s <ligand_pdb_model.pdb> -in:file::exra_res_fa <ligand.params> @flags
@flags:
-packing -use_input_sc –enzdes –rot_ensemble_ecutoff 0.25 –cst_design – no_unconstrained_repack

Exemple de lignes de commande pour la recherche de structures concordantes :
~/rosetta/bin/match.static.linuxiccrelease –database <rosetta_database_path>
-extra_res_fa <ligand.params> -s <scaffold.pdb> -match:scaffold_active_site_residues <scaffold.pos> –match:geometric_constraint_file <constraint.cst> @match.flags
@match.flags:
-match:lig_name:DIG -match:filter_colliding_upstream_residues
-match:filter_upstream_downstream_collisions -match:updown_collision_tolerance 0.3
-match::bump_tolerance 0.3 -match_grouper SameSequenceAndDSPositionGrouper
-match:euclid_bin_size 0.9 -match:euler_bin_size 9.0 -packing -extrachi_cutoff 0
-use_input_sc -in:ignore_unrecognized_res -output_format CloudPDB
-enumerate_ligand_rotamers -only_enumerate_non_match_redudant_ligand_rotamers
-out::file::output_virtual

Exemple de lignes de commande pour le "design" de structures:
~/rosetta/bin/rosetta_scripts.static.linuxiccrelease -nstruct 1 -jd2:ntrials 1
-parser:protocol <RosettaScripts_protocol.xml> –database <rosetta_database_path>
-out::overwrite –s <input.pdb> @ligdes.flags
@ligdes.flags:
-run::preserve_header -enzdes::minimize_ligand_torsions 5.0
-enzdes::detect_design_interface -enzdes::cut1 6.0 -enzdes::cut2 8.0
-enzdes::cut3 10.0 -enzdes::cut4 12.0 -enzdes::bb_min_allowed_dev 0.05
-score:weights ~/rosetta_database/scoring/weights/enzdes.wts -packing::use_input_sc
-packing::extrachi_cutoff 1 -packing::ex1 -packing::ex2 -linmem_ig 10
-no_optH false -in:file::pssm scaffold.fasta.pssm
-extra_res_fa <DIG.params>

e. Exemple de la protéine "artificielle" TOP7 (2003)

C'est une protéine "artificielle" de 93 acides aminés issue de simulations / calculs de prédiction ("de novo protein design") effectués par Brian Kuhlman et Gautam Dantas (équipe de David Baker - Université de Caroline du Nord) .

Ces chercheurs ont utilisé comme point de départ un repliement encore jamais mis en évidence dans la nature.

Les séquences ont été générées avec le programme "Rosetta design Monte Carlo search protocol and energy function" : (i) un potentiel de Lennard-Jones 12-6; (ii) un terme pour les liaisons hydrogène dépendant de l'orientation; (iii) un modèle de solvatation implicite.

Tous les acides aminés (excepté la cystéine) ont été autorisés pour 71 des 93 positions (≈ 110 rotamères par position) et les 22 positions restantes (surface des feuillets) ont été restreintes à des acides aminés polaires (≈ 75 rotamères par position). L'espace de recherche était de 110⁷¹ × 75²², soit ≈ 10¹⁸⁶ rotamères.

Les conformations du squelette carboné ont été générées sans contrainte pour optimiser la compacité des chaînes latérales : en conséquence, les séquences de plus basse énergie avaient une énergie très supérieure à celle de protéines natives de même taille.

La structure la plus stable a été baptisée TOP7 : 2 hélices α compactées à 5 feuillets β anti-parallèles (figure ci-contre). Ce type de repliement n'a pas encore été observé dans la nature.
En parallèle, la protéine TOP7 recombinante a été produite in vivo dans Escherichia coli puis cristallisée.

La comparaison de la structure modèle conçue par calcul et de la structure cristalline est remaquable (figure ci-dessous) :

biochimej TOP7 de novo protein design

Source : Kuhlman et al. (2003)

Ensemble de la chaîne carbonée : RMSD = 1,17 Å - Peptide [Asp78 - Gly85] : RMSD = 0,79 Å

Visualisation de TOP7 à une résolution de 2,5 Å

Le chargement de la structure peut prendre du temps.

Code PDB : 1QYS

6. Liens Internet et références bibliographiques

PDB : Protein Data Bank

SCOP : Structural Classification of Proteins

TOPS : Topology of Protein Structure database

CASP : Critical Assessment of Techniques for Protein Structure Prediction

Rosetta@home

Foldit : jeu en ligne de prédiction de structures de protéines basé sur la plate-forme Rosetta.

Folding@home

The AlphaFold Protein Structure Database (DeepMind EMBL-EBI) : accès ouvert aux prévisions de la structure des protéines pour le protéome humain et d'autres organismes clés.

CAMEO ("Continuous Automated Model EvaluatiOn") : projet communautaire visant à évaluer en permanence la précision et la fiabilité des serveurs de prédiction de la structure des protéines de manière entièrement automatisée.

The Protein Model Portal : module de PSI-KB ("Protein Structure Initiative Knowledgebase")

Cameo

PSI

HPF : Human Proteome Folding Project

TOP7 : molecule of the month - PDB

SBKB : PSI Structural Genomics Knowledgebase (PSI : Protein Structure Initiative)

Motivated proteins : A Web Facility for Studying Small Hydrogen-Bonded Motifs (très beau travail pédagogique)

GROMACS : a versatile package to perform molecular dynamics, i.e. simulate the Newtonian equations of motion for systems with hundreds to millions of particles

I-TASSER : "Protein structure and function predictions"

GalaxyWEB : "Web server for protein structure prediction and refinement"

Gromacs

I-TASSER

GalaxyWEB

Kuhlman et al. (2003) "Design of a Novel Globular Protein Fold with Atomic-Level Accuracy" Science 302, 1364 - 1368

Fung et al. (2008) "Toward Full-Sequence De Novo Protein Design with Flexible Templates for Human Beta-Defensin-2" Biophys J. 94, 584 - 599

Nanda & Koder (2010) "Designing Artificial Enzymes by Intuition and Computation" Nat. Chem. 2, 15 - 24

Fujiyoshi, Y. (2011) "Structural physiology based on electron crystallography" Protein Sci. 20, 806 - 817

Article

Koga et al. (2012) "Principles for designing ideal protein structures" Nature 491, 222 - 227

Tidow et al. (2012) "A bimodular mechanism of calcium control in eukaryotes" Nature 491, 468 - 472

Rose et al. (2012) "High-sensitivity Orbitrap mass analysis of intact macromolecular assemblies" Nat. Meth. 9, 1084 - 1086

Vogeli et al. (2012) "Spatial elucidation of motion in proteins by ensemble-based structure calculation using exact NOEs" Nat. Struc. Mol. Biol. 19, 1053 - 1057

Article

Shahid et al. (2012) "Membrane-protein structure determination by solid-state NMR spectroscopy of microcrystals" Nature Meth. 9, 1212 - 1217

Gopinath & Veglia (2012) "Dual Acquisition Magic-Angle Spinning Solid-State NMR-Spectroscopy: Simultaneous Acquisition of Multidimensional Spectra of Biomacromolecules" Angew Chem. Int. Ed. Engl. 51, 2731 - 2735

Banigan & Traaseth (2012) "Utilizing Afterglow Magnetization from Cross-Polarization Magic-Angle-Spinning Solid-State NMR Spectroscopy to Obtain Simultaneous Heteronuclear Multidimensional Spectra" J. Phys. Chem. B 116, 7138 - 7144

Inokuma et al. (2013) "X-ray analysis on the nanogram to microgram scale using porous complexes" Nature 495, 461 - 466

Article

Bai et al. (2013) "Ribosome structures to near-atomic resolution from thirty thousand cryo-EM particles" eLife 2, e00461

Li et al. (2013) "Electron counting and beam-induced motion correction enable near-atomic-resolution single-particle cryo-EM" Nat. Methods 10, 584 - 590

Tinberg et al. (2013) "Computational design of ligand-binding proteins with high affinity and selectivity" Nature 501, 212 - 216

Gao et al. (2016) "TRPV1 structures in nanodiscs reveal mechanisms of ligand and lipid action" Nature 534, 347 - 351

Article

Le Prix Nobel de Chimie a été attribué en 2017 à Jacques Dubochet, Joachim Frank et Richard Henderson pour le développement de la technique de cryomicroscopie électronique.

Henderson et al. (1990) "Model for the structure of bacteriorhodopsin based on high-resolution electron cryo-microscopy" J. Mol. Biol. 213, 899 - 929

Dubochet, J. (2016) "A reminiscence about early times of vitreous water in electron cryomicroscopy" Biophys. J. 110, 756 - 757

Cressey & Callaway (2017) "Cryo-electron microscopy wins chemistry Nobel" Nature 550, 167

Site Prix Nobel

Article

Leman et al. (2020) "Macromolecular modeling and design in Rosetta: recent methods and frameworks" Nat. Methods 17, 665 - 680

Yip et al. (2020) "Atomic-resolution protein structure determination by cryo-EM" Nature

Nakane et al. (2020) "Single-particle cryo-EM at atomic resolution" Nature

Article

Weissenberger et al. (2021) "Understanding the invisible hands of sample preparation for cryo-EM" Nat. Methods 18, 463 - 471

Jumper et al. (2021) "Highly accurate protein structure prediction with AlphaFold" Nature 596, 583 - 589

Baek et al. (2021) "Accurate prediction of protein structures and interactions using a three-track neural network" Science 373, 871 - 876

Article