Bionformatique : structure des macromolecules biologiques Enseignement recherche biochimie enzymologie bioinformatique Emmanuel Jaspard Universite Angers biochimej

Bioinformatique : prédiction et analyse des structures des protéines

Motifs, profils, signatures, domaines, familles & superfamilles de protéines

1. Introduction et définitions

a. Information issue des domaines en omique
b. Analyse bioinformatique de la relation structure - fonction des protéines

2. Concepts structuraux issus des séquences en acides aminés

a. Définitions de différents concepts dans Uniprot
b. Séquences des protéines : motifs et signatures, alignements et profils
c. Les domaines structuraux des protéines

3. Les profils PSSM ("Position Specific Scoring Matrices")

a. Description générale
b. Principe de la construction d'un profil PSSM
c. Le programme PSI-BLAST et le profil PSSM
d. Le programme RPS-BLAST

4. Les modèles et les profils de Markov cachés (HMM)

a. Principe de construction des profils HMM
b. Illustration : identification d'un site d'épissage 5' exon - intron
c. Le programme HMMER

5. Le consortium de bases de données InterPro

a. Contenu et caractéristiques de Pfam (InterPro)
b. Illustration : le profil HMM du domaine EF-hand_1

6. Analyse de quelques propriétés physico-chimiques des acides aminés

a. Hydrophobicité d'une séquence avec une fenêtre glissante
b. Amphiphilicité de structures secondaires et moment hydrophobe
c. Surface accessible au solvant et surface exposée au solvant
d. Rappels sur les différents types d'hélices

7. Structures des protéines

8. La base de données des structures de macromolécules biologiques PDB

a. Unité asymétrique d'une maille cristalline et cellule unitaire
b. Assemblage biologique
c. Les fichiers au format mmCIF

9. Modélisation de structures de protéines par homologie

a. Les scores de distances inter-atomiques entre des structures comparées
b. Les modules Bio.PDB de BioPython

10. Le programme MODELLER

a. Description de la procédure du programme MODELLER
b. Détail de la syntaxe de la commande profile.build()
c. Bases de données liées à MODELLER ou utilisant ce programme
d. Autres logiciels de modèlisation structurale par homologie

11. Mécanique moléculaire appliquée à la structure des protéines

12. Liens Internet et références bibliographiques

1. Introduction et définitions

a. Information issue des domaines en omique

Les domaines en omique engendrent une quantité inouïe d'information, en particulier ceux qui génèrent des données de séquences de nucléotides (génomique, transcriptomique) ou de séquences d'acides aminés (protéomique). On ne peut pas analyser cette information en temps réel.

Par ailleurs, décrypter la fonction d'une protéine ou d'une enzyme nécessite :

d'en détailler la structure par une technique adaptée
d'en déterminer la séquence exacte en acides aminés (dégradation d'Edman ou spectromètrie de masse)
de déterminer les paramètres cinétiques dans le cas des enzymes
d'identifier les partenaires biologiques avec lesquels elle interagit
d'étudier l'incidence de mutations, de modifications de conditions cellulaires, ...
...

Une analyse aussi détaillée et complète nécessite des mois, voire des années pour chaque protéine. C'est impossible d'effectuer ce travail pour les millions de protéines (tous organismes confondus) dont on suppose avoir déterminé l'existence par le biais du séquençage (voir le tableau ci-dessous).

Type de données biologiques	Base de données	Nombre
Séquences nucléotidiques Nombre total de nucléotides	GenBank (février 2025)	≈ 256 millions ≈ 5416 milliards (ou 5,42 billions)
Séquences protéiques annotées par programmes Nombre total d'acides aminés	UniProtKB/TrEMBL (février 2025) TrEMBL ("Translated EMBL Nucleotide Sequence Database")	≈ 253 millions ≈ 90 milliards
Plus de 95% des séquences de protéines de UniProtKB (ci-dessus) sont issues de la traduction in silico de séquences codantes soumises aux bases de données de séquences nucléotidiques (EMBL-Bank / GenBank / DDBJ), c'est-à-dire à la collaboration des bases de données internationales de séquences nucléotidiques ("International Nucleotide Sequence Database Collaboration" - INSDC). Depuis 2022, Uniprot utilise (entre autres) ProtNLM, un algorithme développé par Google qui utilise un modèle "séquence à séquence" (Seq2seq) et la technologie de langage naturel ("Natural language processing") pour l'annotation automatique du nom des protéines à partir de leur séquence en acides aminés.
Séquences protéiques annotées manuellement ("reviewed")	UniProtKB/Swiss-Prot (avril 2025)	≈ 573.000
Séquences de protéines de référence	RefSeq (mars 2025)	≈ 400 millions
Structures 3D de protéines : Déterminées expérimentalement Prédites (AlphaFold)	PDB ("Protein Data Bank") (avril 2025)	≈ 234.000 ≈ 1,07 millions
Depuis 2022, la PDB propose un modèle structural de toutes les protéines. Ce modèle est prédit avec l'algorithme d'apprentissage profond AlphaFold développé par DeepMind (Google).
Domaines non-redondants	SCOP2 ("Structural Classification of Proteins") (avril 2024)	≈ 72.600
Familles de protéines	Pfam	> 24.000 Pfam-N
L'algorithme ProtENN (développé en collaboration avec Google - Bileschi et al., 2022) accroit très sensiblement le nombre de régions de protéines annotées en familles dans Pfam. Depuis fin 2022, Pfam est partie intégrante du consortium InterPro. Exemple : 7TM receptors - rhodopsin family (PF00001).
Nombre de repliements ("protein folds") (n'inclue pas les repliements de protéines artificielles générées par apprentissage profond)	SCOP2 (avril 2024)	1562
Les données de haut en bas correspondent à des entités biologiques de plus en plus complexes et à des concepts structuraux de plus en plus sophistiqués : on passe des "briques élémentaires" (nucléotides / séquences d'acides nucléiques et acides aminés / séquences de protéines) aux différents repliements des protéines. Parallèlement, les chiffres diminuent considérablement (de milliers de milliards à milliers). Par ailleurs, ces chiffres indiquent qu'il n'est pas possible d'analyser une telle quantité et une telle diversité de données autrement qu'avec des outils bioinformatiques, en particulier les algorithmes issus de l'apprentissage profond (intelligence artificielle). Enfin, seules des bases de données maintenues à jour pemettent leur stockage et leur classification.

b. Analyse bioinformatique de la relation structure - fonction des protéines

L'enchaînement séquence => structure => fonction traduit qu'une séquence en acides aminés contient l'information nécessaire pour que la chaîne polypeptidique se replie dans la conformation native qui confère à la protéine (à l'enzyme) sa fonction biologique (son activité enzymatique).

protein structure fonction function prediction macromolecule bioinformatique bioinformatics intrinsically disordered desordonne repliement fold folding motif profil signature alignement sequence amino acid amine biochimej

Cet enchaînement, démontré par les travaux de Christian Anfinsen (Prix Nobel 1972), est vrai pour une très grande majorité des protéines (enzymes).

Cependant, d'autres processus qui contribuent au repliement de certaines chaînes polypeptidiques ont été mis en évidence depuis plusieurs années.

(a) Intervention des protéines chaperonnes ou des chaperonines qui replient la chaîne polypeptidique de la protéine.
(b) Les régions intrinsèquement désordonnées (ou nativement non structurées) : c'est l'interaction avec un (ou des) partenaire(s) biologique(s) qui induit un repliement final pour l'acquisition de la structure native donc fonctionnelle de (tout ou partie de) la chaîne polypeptidique.

Prédiction des propriétés structurales et fonctionnelles des macromolécules biologiques

Compte-tenu du nombre colossal de macromolécules biologiques à étudier, de la multiplicité et de la diversité des propriétés à décrire, des moyens méthodologiques requis et leur coût, il est impossible d'analyser expérimentalement cet ensemble de données dans un laps de temps raisonnable.

En conséquence, les méthodes bioinformatiques de prédiction des propriétés structurales et fonctionnelles des macromolécules biologiques sont indispensables.

Le mot prédiction est capital :

Il souligne que la quasi-totalité des résultats obtenus par des algorithmes bioinformatiques reposent sur des probabilités. Ces résultats sont potentiellement entachés d'une certaine erreur avec un intervalle de confiance.

C'est d'autant plus manifeste que le point de départ le plus fréquent des méthodes prédictives est un alignement (multiple ou non) de séquences. Or cet alignement résulte le plus souvent d'une démarche heuristique qui, de surcroît, utilise des outils issus de calculs de probabilités : les matrices de substitution des acides aminés.

Les prédictions sont tributaires de jeux de données statistiques constitués par l'ensemble des séquences (et des informations de diverses natures) disponibles dans les bases de données.

La quantité de données et surtout de données vérifiées et corrigées par l'être humain (curation manuelle), et non pas automatiquement par des programmes, augmente régulièrement : plus ce jeu de données est grand, plus grande est la fiabilité des prédictions.

Enfin, l'évolution des technologies informatiques est parallèle au développement des méthodes de prédiction :

Les programmes bioinformatiques s'appuient sur des algorithmes de plus en plus précis et performants.
Ces algorithmes sont de plus en plus spécifiques des objets analysés (séquences, structures, texte, images, ...). Exemple : la multiplicité des algorithmes de la famille BLAST (BLAST, BLAST Genomes, PHI-BLAST, PSI-BLAST, CD-BLAST, Delta-BLAST, Ig-BLAST, ...).
Les jeux de données tests sont de plus en plus fournis et ces données sont de plus en plus correctes : l'annotation basée sur une ontologie est capitale.

Apport magistral de l'apprentissage automatique

L'apprentissage profond (ou "deep learning") s'appuie sur :

des jeux de données gigantesques et de types très variés ("big-data")
des microprocesseurs d'une puissance de calculs inégalée (calculateur quantique & qubit)
des capacités de stockage et des vitesses de communication inédites

L'apprentissage profond révolutionne la notion de prédiction : les informations que l'on calcule sont certes encore prédites mais leur "mimétisme avec la réalité" est de plus en plus important, diminuant ainsi la part de hasard et/ou d'incertitude.

Voir un développement de l'apprentissage profond appliqué au "langage protéique".

L'exemple phare dans le domaine de la prédiction des structures de protéines est le développement du programme AlphaFold (DeepMind - Google) qui :

Génère automatiquement des structures tridimensionnelles de protéines via un algorithme qui tient compte des contacts entre paires d'acides aminés (jeu d'apprentissage issu de la PDB).
Alimente la base de données AlphaFold DB (développée conjointement par DeepMind et EMBL-EBI).
Associe automatiquement une structure 3D à chaque fichier de protéine de la base de données Uniprot : plusieurs centaines de millions de structures de protéines sont ainsi prédites et visualisables via l'interface Uniprot.

Voir un développement de l'intelligence artificielle appliquée à la structure 3D des protéines.

2. Concepts structuraux issus des séquences en acides aminés

a. Définitions de différents concepts dans la base de données Uniprot

On décompose les structures des protéines en entités structurales de différentes tailles en acides aminés, en entités associées à une fonction, à une particularité évolutive ou à une propriété conformationnelle, ...

protein structure primaire primary secondaire helice alpha feuillet beta secondary tertiary quaternaire prediction macromolecule bioinformatique bioinformatics sequence motif domain profil amino acid amine HMM hidden markov model biochimej

Entité structurale	Caractéristiques & exemples
Motif ("motif")	Un motif est une courte séquence d'acides aminés associée à une fonction commune (exemples : la liaison aux protéines ou l'adressage à un compartiment subcellulaire) d'une famille de protéines. En raison de leur faible longueur et de leur niveau élevé de variabilité de séquence, la plupart des motifs sont difficiles à prédire de manière fiable par des moyens informatiques. Les motifs potentiels ne sont annotés que lorsqu'il existe des preuves expérimentales que le motif est important pour la fonction de la protéine ou que la présence du motif putatif est compatible avec cette fonction. Exemples: Le motif "EAR-like (transcriptional repression)" (Q9FFX4). Le motif C-terminal qui empêche la sécrétion du réticulum endoplasmique. Exemple : les glycosyltransférases (O45293). Les motifs DEAH, DEAD, DECH, ... typiques de la famille des hélicases (Q60452). Les motifs LXXLL essentiels pour l'interaction avec les récepteurs nucléaires ne sont annotés que pour les protéines connues pour participer à de telles interactions (exemple : Q9Y6Q9).
Répétition ("repeat")	Les répétitions varient : De courtes répétitions d'acides aminés (exemple : les séries poly-Gln (codon CAG) de la huntingtine). A de grandes répétitions contenant de multiples domaines (exemple : la protéine du muscle strié appelée titine, l'une des plus longues protéines connues - 34.350 acides aminés chez l'homme). Une explication du succès évolutif des répétitions est leur faible "coût" énergétique cellulaire : les protéines de grande taille et thermodynamiquement stables peuvent provenir de duplications intragéniques plutôt que de processus complexes de création de novo d'hélice(s) α et de feuillet(s) β.
Biais de composition ("compositional bias")	Deux types de régions à biais de composition : Les étendues homopolymères d'au moins 4 résidus de longueur annotées "Poly-Xaa" (Xaa est le code d'acides aminés à 3 lettres). Les grandes régions de biais de composition annotées "Xaa-rich". Exemple : "Another Transcription Unit protein" (ATU) => biais Arg/Ser-rich (RS domain) et Gly/Ser-rich
Bobines enroulées ("Coiled coil")	Elles sont constituées de 2 (ou plus) hélices α enroulées l'une autour de l'autre pour former un super-enroulement ("supercoil"). Il peut y avoir 2, 3 ou 4 hélices qui forment un faisceau et elles peuvent être orientées dans la même direction (parallèle) ou dans des directions opposées (antiparallèle). Les bobines enroulées sont principalement constituées d'éléments de séquence de 3 à 4 résidus d'acides aminés caractérisés par une hydrophobicité et une composition compatibles avec la formation d'hélices α amphipathiques. Exemples : les myosines, les tropomyosines et les filaments intermédiaires. Dans UniProtKB, l'annotation des bobines enroulées est prédite avec le programme COILS : La taille minimale des bobines enroulées est de 28 acides aminés. Lorsque 2 bobines enroulées sont séparées par une distance inférieure à 25 acides aminés, elles sont fusionnées pour former une seule bobine enroulée.
Région ("region")	Décrit les caractéristiques d'une région définies expérimentalement : Une région impliquée dans la médiation d'interactions protéine-protéine ou dans d'autres processus biologiques. Différentes régions au sein d'enzymes multifonctionnelles ou de protéines de fusion. Enfin, il peut s'agir de caractéristiques d'une région contenant des répétitions (voir ci-dessus).
Domaine ("domain")	Les domaines protéiques sont un concept structural clé pour décrire la structure et la fonction des protéines et regrouper les protéines en familles. Les domaines protéiques correspondent à des domaines structuraux autostabilisés et qui se replient indépendamment du reste de la chaîne protéique. Ils sont associés à une (ou des) fonction(s) des protéines. Ils sont présents individuellement ou au sein d'architectures complexes de protéines multidomaines qui évoluent par accrétion de domaines, perte de domaine(s) ou recombinaison de domaines. Les domaines protéiques peuvent donc être considérés comme des "pièces de Lego®". Exemples de noms de domaines protéiques : ANK repeat, annexin, bait region, bromodomain, CBS domain, coiled coil, collagen, EGF-like domain, homeobox, immunoglobulin domain, Kelch repeat, Sh2-domain, transit peptide, zinc-finger, ... Liens vers un ensemble de mots-clés de domaines structuraux ("Keywords Domain") Voir la base de données "Conserved Domains and Protein Classification".
Domaines topologiques ("topological domain")	Ils sont associés au compartiment subcellulaire où se trouve chaque région non membranaire d'une protéine transmembranaire. Voir un cours sur la biogénèse des protéines membranaires intégrales.
Source : Uniprot - "Family and Domains section"

b. Séquences des protéines : alignements, motifs, profils et signatures

Les alignements de séquences multiples permettent d'identifier les résidus d'acides aminés conservés dans des protéines homologues apparentées de manière lointaine (exemple : protéines ribosomales d'Eucaryotes et de Procaryotes).

protein structure prediction macromolecule bioinformatique bioinformatics domain fold famille superfamille sequence motif modelisation pattern signature alignement alignment regular expression amino acid amine HMM hidden markov model biochimej

Un motif est donc une courte séquence (en général conservée) d'acides aminés (ou de nucléotides), contigüs ou non dans la séquence, que l'on peut associer à un rôle (fonctionnel ou structural) de la macromolécule.
Exemples :
- site catalytique : exemple de la triade catalytique des protéases
- site de fixation d'un substrat ou d'un effecteur : exemple des sites de régulation allostérique
- site de fixation d'un ligand : exemple du domaine de fixation de l'ADN des facteurs de transcription
- site de fixation d'un co-enzyme : exemple du pli Rossmann des déshydrogénases pour la fixation du NAD⁺
- site de fixation d'un co-facteur : exemple de la fixation de l'hème ou de centre oxydo-réducteur, fixation de métaux
- site de fixation d'ions : exemple du motif "EF-hand" de la calmoduline pour fixer le calcium
- site de modification post-traductionnelle : exemple de motif consensus de phosphorylation
- cystéines impliquées dans un pont disulfure : exemple des toxines

Un patron ("pattern") décrit un motif pour un ensemble de séquences de protéines :
- Les caractères (code à 1 lettre des acides aminés) à chaque position sont les acides aminés des séquences dont on extrait le motif.
- Il faut un moyen pour traduire la composition globale à chaque position : on utilise des règles syntaxiques s'appuyant sur les expressions régulières (voir figure ci-dessus).

Un motif structural est quelque peu différent : il tient compte du repliement dans l'espace de la chaîne polypeptidique.
- Un motif structural constitue une structure supersecondaire : plusieurs régions de la protéine adoptent une structure secondaire et sont reliées entre elles.
- Il en existe un très grand nombre, par exemple : le pli Rossmann des déshydrogénases composé de 3 feuillets β liés à 2 hélices α de manière alternée (β-α-β-α-β), le motif en doigt de zinc ("zinc-finger") des facteurs de transcription, ...

Un profil ("profile") est construit à partir d'un alignement de séquences multiples qui est converti en un tableau de scores qui découlent de la fréquence de chaque acide aminé à chaque position dans l'alignement.
- Exemple de profil : le système de score spécifique de position ou "Position-Specific Scoring Systems "- PSSM).
- Les matrices de substitution (exemple : PAM, BLOSUM, Gonnet, ...) peuvent être utilisées pour pondérer les scores en fonction de la distance évolutive des séquences.

Les profils sont utilisés pour construire les familles de protéines (exemple : Pfam).

Les signatures ("fingerprint")

Une protéine peut contenir un ou plusieurs domaines (identiques ou non) selon un agencement variable dans le cas de domaines différents.
Exemples de protéines ne contenant qu'un domaine : l'hémoglobine, la plastocyanine, la triose phosphate isomérase.

protein structure prediction macromolecule bioinformatique bioinformatics sequence domain fold famille superfamille motif signature profile fingerprint biochimej

Les signatures sont des modèles mathématiques construits à l'aide de différentes algorithmes et outils informatiques :

Il existe différents types de signatures : ensemble de motifs uniques ("pattern"), motifs multiples ("fingerprint"), ensemble de l'alignement ("profile" et HMM).
Le point de départ commun de ces signatures est un alignement de séquences multiples de protéines partageant des caractéristiques (même famille, domaine commun, ...).

Les signatures protéiques sont utilisées pour :

Classer les protéines en familles.
Prédire la présence de domaines protéiques.
Prédire des régions importantes (site actif, site de fixation d'un ligand, ...).

L'emploi des signatures pour identifier la fonction d'une protéine est souvent plus sensible que les recherches de similarité entre paires de séquences comme BLAST.

c. Les domaines structuraux des protéines

Un domaine d'une protéine est une une partie de la chaîne polypeptidique qui se replie indépendemment du reste de la chaîne polypeptidique et qui est associée à une (des) fonction(s) de cette protéine.

On peut considérer le domaine protéique comme l'unité de base de la structure des protéines.

Voir un cours sur le repliement des chaines polypeptidiques.

Les domaines des protéines ont des tailles en acides aminés qui ont des limites :

90% des domaines contiennent moins de 200 résidus d'acides aminés (moyenne # 100 résidus d'acides aminés).
- Exemple de petit domaine : 36 résidus d'acides aminés dans la E-sélectine.
- Exemple de grand domaine : 692 résidus d'acides aminés dans la lipoxygénase-1.
Les domaines très petits (< 40 résidus d'acides aminés) sont souvent stabilisés par des ions métalliques ou des ponts disulfures.

Longueurs moyennes des domaines des protéines des 3 règnes :

Base de données SCOP : 197 ± 130 résidus d'acides aminés.
Base de données CATH : 150 ± 91 résidus d'acides aminés.
Figure ci-dessous : classifications SCOP et CATH de la protéase acide de Plasmodium falciparum (code PDB 2BJU).

SCOP CATH domain fold famille superfamille profile signature pattern protein structure prediction macromolecule bioinformatique bioinformatics sequence motif modelisation amino acid amine biochimej

Source : Yadav et al. (2022)

Nombre de domaines protéiques dans la base de données Pfam (InterPro) :

Eucaryotes = 8437 domaines; bactéries = 5857 domaines; archées = 1735 domaines.
890 (6.2%) domaines sont communs aux 3 règnes.

Lien entre domaines protéiques et repliement des protéines

Le repliement d'une chaîne polypeptidique (structure tertiaire) résulte du repliement de son/ses domaine(s).

protein structure prediction macromolecule bioinformatique bioinformatics sequence domain fold famille superfamille motif signature profile fingerprint biochimej

Source : Schaeffer & Daggett (2011)

Les différents repliements ("fold") des protéines peuvent être répartis classés en 4 classes principales en fonction du contenu en structures secondaires prédominantes au sein de leur(s) domaine(s).

Les domaines dits "tout α" ("all-α domains") avec un/des domaine(s) constitué(s) uniquement d'hélices α.

Les domaines dits "tout β" ("all-β domains") avec un/des domaine(s) constitué(s) de feuillets β antiparallèles (en général 2 feuillets empilés).

Les domaines dits "α/β" constitués d'une combinaison de motifs [β-α-β] : les structures secondaires sont principalement disposées en couches ou en tonneaux.

Les domaines dits "α+β" : mélange "tout α" et "tout β".

D'autres classes existent : "Multi-domain proteins (alpha and beta)", "Membrane and cell surface proteins and peptides", ...

Voir la base de données de classes de structures des protéines SCOP.

Source : Wiltgen M. (2019)

Exemples de domaines	Caractéristiques & exemples
domaine en faisceau d'hélices ("helix bundle domain")	Un des domaines protéiques les plus fréquents (exemple 1MFT). Dans certains cas, les hélices internes au faisceau, reliées par des boucles, sont regroupées et forment un noyau hydrophobe.
domaine en tonneau TIM ("TIM barrel domain")	La Triose phosphate IsoMérase (TIM) est une enzyme dimèrique de la glycolyse. La TIM ne possède qu'un domaine qui est le modèle du repliement dit "en tonneau TIM". C'est un repliement des protéines très répandu constitué de brins de feuillets β parallèles, reliés par des boucles et des hélices.
domaine de fixation des nucléotides ("Rossmann fold")	Site de fixation du coenzyme NAD⁺ de la 3-phosphoglycérate déshydrogénase (PDB 2G76) ou de la lactate déshydrogénase (PDB 1I0Z). Site de fixation du coenzyme FAD : D-aminoacide oxydase (résidus d'acides aminés 1 - 36; 2E48) ou glutathion réductase (résidus d'acides aminés 21 - 50; 3GRS). La ferrédoxine réductase de Pseudomonas fixe une molécule de FAD et une molécule de NADH (PDB 1F3P) : elle transfère les électrons du NADH au FAD puis les électrons sont transférés à une ferrédoxine (protéine à centre [Fe-S]).
Protéines à plusieurs domaines
La pyruvate kinase	Cette enzyme de la glycolyse (code 1PKN) est constituée de 3 domaines qui adoptent des repliements différents : 1 domaine en feuillets β et 2 domaines de type α/β.
La titine (ou connectine)	C'est l'une des plus grosses protéines connues (masse molaire ≈ 3,82 millions Da chez l'homme) : elle est composée de 132 copies du domaine fibronectine de type III et de 112 copies du domaine immunoglobuline de type II.

3. Les profils PSSM ("Position Specific Scoring Matrices")

a. Description générale

En anglais, il existe plusieurs dénominations de ce type de matrices de scores : matrice de pondération de position ("Position Weight Matrix" - PWM), matrice de pondération spécifique de la position ("Position-Specific Weight Matrix" - PSWM) ou matrice de notation spécifique de la position.

Dans un profil PSSM, les scores de substitution des acides aminés sont calculés pour chaque position au sein d'un alignement de séquences multiples :

Ainsi, une substitution Y-W en position A peut se voir attribuer un score différent que la même substitution en position B.
Ceci contraste avec les matrices PAM et BLOSUM (dont les valeurs de scores sont indépendantes de la position) : une même substitution se voit attribuer le même score quelle que soit sa position dans la séquence.

Les scores des profils PSSM sont :

Des entiers positifs : ils indiquent que la substitution des acides aminés considérés se produit plus fréquemment que ce qui serait prévu par le seul fruit du hasard.
Des entiers négatifs : ils indiquent que la substitution se produit moins fréquemment que ce qui serait prévu par le seul fruit du hasard.
Des scores positifs élevés indiquent souvent des résidus critiques pour la fonction de la protéine (résidus d'un site actif ou impliqués dans d'autres types d'interactions).

Exemples d'applications des matrices PSSM : localisation sub-cellulaire des protéines, modifications post-transcriptionnelles et post-traductionnelles, prédiction de la structure 2D et 3D des ARN et des protéines, identification des régions de liaison protéine-ADN et protéine-ARN, ...

b. Principe de la construction d'un profil PSSM

Un profil PSSM est une matrice de scores pour chaque position dans l'alignement de séquences multiples.
C'est une matrice "log-odds" (logarithme d'un rapport de probabilités) de taille [L colonnes x 20 lignes] :
- L est la longueur en acides aminés de la séquence requête : il y a donc 1 colonne pour chaque position du profil.
- 20 lignes qui correspondent aux 20 acides aminés.
La (i,j)ème valeur de la matrice PSSM correspond au score de l'acide aminé en ième position de la séquence requête muté en acide aminé j au cours de l'évolution :
- Les positions hautement conservées sont affublées de scores élevés.
- Les positions faiblement conservées sont affublées de scores proches de zéro.

Etapes de la construction d'un profil PSSM

n = 10 séquences

1ere étape : fréquence

2ème étape : fréquence relative
(n = 10 séquences)

3ème étape : matrice de vraisemblance
("log-likelihood")

DDDK
DGGK
GDKK
GDKK
DGYK
KKKK
(+ 4 autres séquences)

      1     2     3     4
--|------------------------
D |  3.00  3.00  1.00  0.00
G |  2.00  2.00  1.00  0.00
K |  1.00  3.00  7.00 10.00
Y |  4.00  2.00  1.00  0.00

       1     2     3     4
--|------------------------
D |   0.3   0.3   0.1  0.00
G |   0.2   0.2   0.1  0.00
K |   0.1   0.3   0.7  1.00
Y |   0.4   0.2   0.1  0.00

      1     2     3     4
--|------------------------
D |  0.18  0.87 -0.91  -inf
G | -0.22 -0.22 -0.91  -inf
K | -0.91 -0.91  1.02  1.38
Y |  0.47 -0.91 -0.91  -inf

Première étape

Construction d'une matrice de fréquences de position en comptant les occurrences de chaque acide aminé à chaque position.
Une valeur très faible, appelée "pseudocount", est ajoutée à toutes les positions de la matrice de fréquence. Le but est d'éviter une valeur de fréquence égale à zéro (donc une valeur infinie dans la matrice "log-odds") pour un acide aminé qui n'apparait pas à une position donnée.

Deuxième étape

Construction d'une matrice de probabilité de position en divisant ce nombre d'occurrences à chaque position par le nombre de séquences (les valeurs sont ainsi normalisées).
Soit un ensemble X de n séquences d'une longueur l qui sont alignées, les éléments de la matrice de probabilité sont calculés de la manière suivante :

protein structure prediction macromolecule bioinformatique bioinformatics sequence motif profil sequence amino acid amine pssm matrice score alignement alignment biochimej

où i ∈ (1, ..., n) et j ∈ (1, ..., l) ; k est l'ensemble des 20 caractères de l'alphabet des acides aminés (code à 1 lettre) ; I(a=k) est une fonction indicatrice.

Troisième étape

La fréquence de chaque acide aminé déterminée à chaque position est comparée à la fréquence à laquelle chaque acide aminé est attendu dans une séquence au hasard.
On fait l'hypothèse que chaque acide aminé est observé avec une fréquence identique dans une séquence au hasard.
Le score final dans chaque case de la matrice PSSM est calculé à partir du logarithme du rapport [fréquences observées / fréquences attendues] : score_ij = log (f'_ij / q_i)
1. score_ij est le score pour l'acide aminé i à la position j du motif
2. f'_ij est la fréquence relative pour l'acide aminé i à la position j, corrigée par les "pseudocount"
3. q_i est la fréquence relative attendue pour l'acide aminé i dans une séquence au hasard

Voir un développement.

Illustration

Soit une matrice PSSM obtenue à partir de l'alignement de plusieurs séquences de 6 acides aminés (6 colonnes dans la matrice).
Dans cet exemple simple, on considère que ces séquences ne contiennent que D, K et Y (3 lignes dans la matrice).

protein structure prediction macromolecule bioinformatique bioinformatics sequence motif profil sequence amino acid amine pssm matrice score alignement alignment biochimej

Le profil PSSM le plus probable est DKDYKD.

c. Le programme PSI-BLAST et le profil PSSM

Les matrices ou profils PSSM peuvent être générés, notamment, par le programme PSI-BLAST ("Position-Specific Iterative Basic Local Alignment Search Tool") qui :

Recherche des séquences protéiques similaires à une séquence requête.
Construit une matrice PSSM à partir de l'alignement de séquences multiples qui en résulte.
Ce processus est itératif : il cesse quand aucune nouvelle séquence n'est ajoutée à l'alignement de séquences multiples précédent.

protein structure prediction macromolecule bioinformatique bioinformatics iteration sequence motif signature profile PSIBLAST BLAST PSSM matrice score alignement alignment biochimej

Source : Ozsari O. (GitHub)

1. La séquence "requête" ("Query Sequence") est utilisée par le programme PSI-BLAST :

Pour rechercher les séquences homologues dans une base de données sélectionnée par l'utilisateur.
Les séquences détectées avec un score supérieur à une valeur seuil spécifiée par l'utilisateur sont sélectionnées et alignées (paires de scores les plus élevés).
En d'autres termes, la première itération du programme PSI-BLAST est identique à l'exécution de BLAST.

2. Le programme PSI-BLAST génère un premier profil PSSM à partir de cet alignement de séquences multiples.

3. Ce premier profil PSSM est utilisé pour rechercher de nouvelles séquences dans la base de données interrogée avec la même séquence requête : les séquences détectées (au-dessus d'un seuil de score spécifié) lors de cette 2ème itération sont à leur tour ajoutées à l'alignement de séquences multiples et le profil PSSM est affiné.

Le processus est poursuivi de manière itérative jusqu'à convergence : c'est l'état où aucune nouvelle séquence n'est détectée compte-tenu du seuil de score défini.
Des paramètres usuels de PSI-BLAST sont 3 itérations et une valeur de rejet de séquence = 0,001.

PSI-BLAST permet ainsi de détecter des relations entre protéines distantes sur le plan évolutif.

d. Le programme RPS-BLAST et le service Web "CD-Search"

Alternativement, les matrices PSSM peuvent être récupérées à partir de la base de données CDD ("Conserved Domain Database" au NCBI) puisque chaque domaine conservé est représenté par un profil PSSM qui traduit les substitutions observées dans les alignements des séquences multiples "souches" ("seed alignments").

Ces profils PSSM de domaines conservés peuvent être recherchés :

Textuellement avec le moteur de recherche "Entrez Conserved Domains" du NCBI.
En utilisant le programme RPS-BLAST ("Reverse Position-Specific BLAST") qui permet de localiser un domaine conservé dans une séquence protéique requête.

Le service Web "CD-Search" (NCBI) fournit une interface Web qui inclue :

Le programme RPS-BLAST qui utilise la séquence requête pour rechercher dans une base de données de profils PSSM pré-calculés : le profil PSSM n'est donc pas la "requête" (comme dans le cas de PSI-BLAST) mais le résultat renvoyé (d'où le terme "reverse" = inverse dans "RPS").

Un menu riche qui propose, notamment, diverses bases de données pour la recherche de domaines conservés (exemples : CDD, Pfam, SMART, COG, ...).

Les résultats sont présentés sous forme interactive :
- Visualisation de l'alignement des séquences.
- Affinement de la recherche avec RPS-BLAST.
- Recherche d'architecture de domaines avec le programme CDART ("Conserved Domain Architecture Retrieval Tool").
- Autres fonctionnalités.

4. Les modèles et les profils de Markov cachés (HMM)

Les modèles de Markov cachés ("Hidden Markov models" ou HMM) sont des modèles statistiques puissants utilisés pour convertir plusieurs alignements de séquences en systèmes de notation spécifiques de la position :

Ils traduisent les [insertions/délétions] d'acides aminés et permettent de modéliser des alignements entiers, y compris des régions divergentes.
De nombreuses bases de données membres de InterPro (entre autres) utilisent les profils HMM pour la classification des protéines.

a. Principe de construction des profils HMM

Lors de la recherche d'homologues distants, il faut disposer du maximum d'informations sur la séquence de la protéine requête et celles de la base de données fouillée pour distinguer les vrais positifs des faux positifs et ainsi obtenir des alignements optimaux.

La comparaison [profil - séquence] ou la comparaison [profil - profil] est parfois plus performante (en améliorant la sensibilité et la sélectivité) que la comparaison [séquence - séquence].

Les profils HMM :

Sont construits à partir de modèles HMM.
Sont issus d'alignement de séquences multiples (comme le sont les profils PSSM).
Indiquent, pour chaque colonne d'un alignement multiple :
- Les fréquences des 20 acides aminés (qui traduisent la conservation, donc l'importance, des résidus à chaque position).
- Les fréquences des insertions et des délétions (traduites par des pénalités).

Illustration : alignement [HMM séquence requête - HMM séquence cible] avec la suite logicielle HH-suite

HMM hidden markov model hmmer etat transtion cache domain profile signature pattern famille family protein structure prediction macromolecule amino acid amine biochimej

Source : Steinegger et al. (2019)

q : séquence requête ("query")
t : séquence cible ("target") de la base de données fouillée
M : état de correspondance ("match") qui émet l'acide aminé à la position considérée selon les probabilités calculées à partir de la proportion des 20 acides aminés dans la colonne de l'alignement de séquences multiples (plus une valeur de pseudocount).
I : état d'insertion qui émet l'acide aminé à la position considérée selon une distribution standard des acides aminés
D : état de délétion qui n'émet aucun acide aminé.
Les flèches qui relient les différents états sont les probabilités de transition.

Les états M et I de l'un des HMM ne peuvent être alignés qu'avec les états M ou I de l'autre HMM. Par ailleurs, un état D ne peut être aligné qu'avec un état D ou avec un "gap".

Le score de co-émission est la somme des scores de similitude des colonnes des profils alignés, c'est-à-dire les états de la paire MM moins les pénalités spécifiques à la position pour les insertions - délétions.

L'alignement est représenté par le chemin rouge le long des deux HMM et la séquence d'état des paires correspondantes est [MM - MM - MI - MM - MM - DG - MM].

Ressources

Voir un cours "How HHHs are built ?" (NCBI).
Le serveur HHpred : ensemble de programmes (suite logicielle "HH-suite" qui contient entre autres, HHsearch et HHblits) qui utilise les informations d'homologie pour la recherche de séquences dans les bases de données et pour la prédiction de la structure des protéines.

b. Illustration : identification d'un site d'épissage 5' exon - intron

Soit une séquence d'ADN qui commence par un exon, contient un site d'épissage 5'SS ("5' splicing site") et finit par un intron (figure ci-dessous). La position du site d'épissage n'est pas connue.

Chaque nucléotide de la séquence testée peut être dans l'un des 3 états suivants : état E = exon; état 5 = site d'épissage 5'SS; état I = intron.

Chaque état est caractérisé par une probabilité dite d'émission (liste de valeurs au-dessus de chaque état) : c'est la composition statistique en nucléotides de chaque état.
1. L'exon a une composition uniforme en nucléotides (0,25 pour chaque nucléotide).
2. Le nucléotide consensus du site d'épissage 5'SS est presque toujours un G (exemple : 0,95 pour G et 0,05 pour A).
3. L'intron est riche en nucléotides A et T (exemple : 0,4 pour A et pour T / 0,1 pour C et pour G).

Chaque état est caractérisé par une probabilité dite de transition (flèches avec une valeur) : ce sont les valeurs de probabilités de passage de l'état actuel vers un nouvel état. Il peut y avoir des transitions d'un état vers lui même.

Les probabilités de transition décrivent donc la probabilité d'apparition des états :
1. Possibilité qu'il n'y ait qu'1 état "E" (avec une probabilité de 0,1) ou plusieurs états "E" (avec une probabilité de 0,9).
2. Il n'y a qu'1 état "5" (probabilité =1,0).
3. Possibilité qu'il n'y ait qu'1 état "I" (avec une probabilité de 0,1) ou plusieurs états "I" (avec une probabilité de 0,9).

On peut construire un profil HMM à partir de ces informations :

protein structure prediction macromolecule bioinformatique bioinformatics hmmer alignement alignment matrice profil score sequence motif amino acid amine HMM hidden markov model famille family biochimej

Source : Eddy S.R. (2004)

c. Le programme HMMER

Le programme HMMER est utilisé pour la recherche des séquences homologues dans certaines bases de données (exemples : Uniprot, PDB, Ensembl, MEROPS, ChEMBL, ...) et la construction d'alignements.

HMMER utilise des profils HMM (modèles probabilistes "profile hidden Markov models").
Les alignements de séquences multiples au format Stockholm sont acceptés par HMMER.

HMMER renvoie 2 jeux de "coordonnées" de domaine pour chaque occurence ("match") avec un profil HMM :

Les coordonnées d'enveloppe ("envelope coordinates") qui délimitent la partie de la séquence où l'occurence a été repérée de manière probabiliste. C'est donc le score total de la séquence alignée sur le modèle HMM.
Les coordonnées d'alignement ("alignment coordinates") délimitent la partie de la séquence pour laquelle la concordance [séquence - profil HMM] est jugée correcte. C'est donc un score pour un domaine.

Les alignements complets de Pfam contiennent les coordonnées d'enveloppe de HMMER :

Les 2 scores précédents sont pratiquement identiques quand il n'y a qu'un domaine.
Lorsqu'il y a plusieurs occurrences du domaine, le score de la séquence est la somme de tous les scores individuels de domaines.
Trouver plusieurs instances d'un domaine augmente la probabilité que la séquence appartient à la famille considérée, donc correspond au modèle.

HMMER ("Biosequence analysis using profile hidden Markov Models") : interface Web du programme HMMER à l'EBI.

5. Le consortium de bases de données InterPro

InterPro permet l'analyse de séquences de protéines en les classant dans des familles et en prédisant la présence de domaines et de sites fonctionnels.

Pour mieux classer les protéines, le consortium InterPro regroupe, en une seule ressource, les modèles ("patterns"), les profils ("profiles") et les signatures ("fingerprints") fournis par 13 bases de données membres.
Ces bases de données sont CATH-Gene3D, SUPERFAMILY, Pfam, SMART, NCBIfam, PIRSF, SFLD, PANTHER, HAMAP, PROSITE profiles, CDD, MobiDB Lite et PRINTS.

protein structure prediction macromolecule bioinformatique bioinformatics interpro cdd prosite consortium database base sequence protein motif pfam amino acids acide amine domain famille family biochimej

Source : InterPro

Cela permet d'accéder au potentiel de prédiction des bases de données membres sans les consulter individuellement.

En combinant ces différentes bases de données et les types de signature, InterPro capitalise leur force individuelle et fournit un outil puissant pour la prédiction de la relation structure-fonction des protéines.

InterPro simplifie et rationalise l'analyse des séquences des protéines en organisant la somme de toutes les informations de manière cohérente, en supprimant la redondance, en augmentant l'annotation des entrées et en ajoutant des liens vers les signatures et les protéines correspondantes.

a. Contenu et caractéristiques de Pfam (consortium InterPro)

La caractérisation du ou des domaines d'une protéine permet d'en décrypter la/les fonction(s). En effet, la possibilité de diverses combinaisons de multiples domaines explique :

La très grande multiplicité des protéines.
Leur évolution de protéines ancestrales (caractérisées très probablement par une spécificité large) vers les protéines "actuelles" (hautement spécifiques dans la majorité des cas).
Voir un cours sur la promiscuité enzymatique.

La base de données Pfam est une collection de plus de 24.000 familles de protéines :

Chaque famille est représentée par des alignements de séquences multiples et un profil HMM ("Hidden Markov Model") - voir ci-dessus.
Pfam permet ainsi d'analyser le(s) domaine(s) et autre(s) région(s) liée(s) à la fonction d'une protéine et d'apporter des éléments descriptifs de la fonction de cette protéine.
Pfam utilise le format d'alignement de séquences multiples appelé Stockholm.

Types d'entrées de la base de données Pfam

Les entrées de Pfam sont classées en 6 catégories, en fonction de la longueur et de la nature des parties de la séquence incluses dans l'entrée :

Famille (catégorie par défaut) : ensemble de parties de séquences apparentées qui peuvent contenir un ou plusieurs domaines, sans preuve pour affirmer qu'il existe une subdivision.
Domaine : ensemble de parties de séquences apparentées qui forment une unité structurale.
Répétition ("repeat") : unité courte "instable" tant qu'elle est isolée. Elle forme une structure "stable" quand plusieurs copies sont regroupées.
Motif : unité courte trouvée dans les domaines non globulaires. Cette unité assure un rôle qui lui est propre (exemple : liaison à un métal).
Superhélice ("coiled-coil") : régions d'une protéine qui contiennent de façon prédominante des motifs en double spirales (hélices alpha enroulées en faisceaux 2-7 - "helix bundle").
Régions désordonnées ("disordered") : régions conservées de protéines avec un biais dans la composition en acides aminés et/ou régions dites intrinsèquement désordonnées ou non structurées.

protein structure prediction macromolecule bioinformatique bioinformatics sequence motif signature profile pfam hmm matrice score alignement alignment domain famille family clan biochimej

Source : Course Online - EBI

Un profil HMM unique est souvent insuffisant pour modéliser une superfamille de protéines : les entrées liées à l'évolution sont combinées pour former de plus vastes ensembles appelés clans.

L'inter-relation de ces familles est définie par :

La similarité de séquence.
La similitude entre leur profil HMM (telle que peut l'évaluer un algorithme comme HHsearch, par exemple).
La similitude de leurs structures 3D (si elles sont connues).

Méthode de construction des alignements Pfam

Chaque famille Pfam est constituée d'un alignement de séquences multiples généré de la manière suivante :

On sélectionne les séquences de protéines que l'on considère comme représentatives de la famille Pfam considérée.
Ces séquences "souches" permettent d'obtenir un alignement de haute qualité ("curated seed alignment").
Un profil HMM est construit (avec un programme tel que HMMER, par exemple) à partir de cet alignement de haute qualité.
Ce profil HMM est utilisé pour rechercher les séquences homologues dans les bases de données (par exemple Uniprot).
Un alignement est généré automatiquement avec toutes les séquences des protéines appartenant à la famille.

Quelques programmes pour gérer les fichiers Pfam :

Pfamhmmread : lire les données d'un fichier HMM au format Pfam.
gethmmprof : récupérer un profil HMM de Pfam.
hmmprofstruct : créer ou modifier la structure d'un profil HMM.
hmmprofgenerate : générer une séquence aléatoire à partir d'un profil HMM.

b. Illustration : le profil HMM du domaine EF-hand_1

α. Via l'interface web de Pfam

A partir du lien "Signature" à gauche de la page EF-hand_1 (PF00036), on obtient la figure - appelée "logo"- ci-dessous :

protein structure prediction macromolecule bioinformatique bioinformatics python biopython sequence domain motif signature EFhand calmodulin famille family pfam logo alignement alignment biochimej

Source : Pfam

Cette figure traduit le motif : [F,T,M]-x(3)-D-x-[D,N]-x-[D,S,N]-G-x-[I,L,V]-[D,S,T,N]-x(2)-[E,D]-[F,L]
Voir un cours sur les expressions régulières.
Dans la calmoduline, les 4 boucles de liaison au calcium inclues dans les motifs EF-hand ont des séquences homologues chargées négativement et fortement polaires : [D,N]-x-D-[G,N]-[D,N]-G-[Q,T,Y]-x(4)-E

A partir de cette page, cliquer sur le lien "Curation & model". En cliquant sur le lien "Download the raw HMM for this family" en bas, on obtient le fichier du profil EF-hand_1 (longueur 29 acides aminés).

β. Récupération d'un fichier HMM de Pfam avec un script Python

Récupérer le code du script au format texte. Le code source d'origine est accessible à GitHub.
Lancer le script dans un terminal : python HMM.py.
Entrez un identifiant Pfam valide (voir la liste des identifiants des familles Pfam).

Interface web pour récupérer un fichier de profil HMM de Pfam.

6. Analyse de quelques propriétés physico-chimiques des acides aminés

Les acides aminés ont des propriétés physico-chimiques trés diverses. La base de données " ProtScale" fournit près de 60 tables de valeurs de ces propriétés.

En voici quelques exemples (base de données "ProtScale") :

la composition en acides aminés (pourcentage de fréquence - "A.A. composition") sur la base de l'ensemble des protéines de la base de données "Swiss-Prot"
le poids moléculaire ("molecular weight")
l'hydrophobicité (échelle de Kyte & Doolittle, ...)
la propension à être intégré dans une hélice α ("alpha-helix") ou dans un feuillet β ("beta-sheet") (échelle de Chou & Fasman - échelle de Levitt, ...)
la mutabilité relative ("relative mutability")
...

Voir une liste de tables de 566 propriétés physico-chimiques.

a. Hydrophobicité d'une séquence avec une fenêtre glissante

La valeur d'hydrophobicité de chaque résidu d'acide aminé dans la séquence est calculée en tenant compte de l'indice d'hydrophobicité du résidu considéré mais également de celui d'un certain nombre d'acides aminés en amont et en aval qu'on désigne par "fenêtre".

Cette approche permet de tenir compte de l'incidence des acides aminés contigüs à chaque acide aminé. En revanche il ne tient pas compte des acides aminés éloignés dans la séquence mais proches dans l'espace après le repliement de la chaine polypeptidique.

protein structure prediction macromolecule bioinformatique bioinformatics sequence protein motif hydrophobicity hydropathy hydrophilicity amino acids acide amine fenetre glissante window biochimej

Une taille de fenêtre n = 5 à 7 résidus d'acides aminés est appropriée pour trouver des régions hydrophiles susceptibles d'être exposées au solvant (régions situées à la surface de la protéine) et peuvent potentiellement être antigèniques.
Une taille de fenêtre n = 19 ou 21 résidus d'acides aminés met en évidence des domaines transmembranaires hydrophobes.

Exemple de calcul avec une séquence IVLFCMAG et une fenêtre glissante de 3 acides aminés :

protein structure prediction macromolecule bioinformatique bioinformatics sequence motif hydrophobicity hydropathy hydrophilicity amino acids acide amine fenetre glissante window biochimej

H représente l'indice d'hydrophobicité (mesuré expérimentalement dans la plupart des cas) pour chaque acide aminé. Ces valeurs sont regroupées dans des tables et il existe de nombreuses tables pour chaque paramètre physico-chimique.
Les valeurs peuvent différer d'une table à l'autre si les méthodes employées (et le référentiel) sont très différents. Cependant l'ordre relatif des valeurs est quasiment le même pour toutes les tables.
Voir des échelles d'hydrophobicité : ProtScale.

Exemple : récepteur muscarinique de l'acétylcholine M1 (P11229) - échelle de Kyte & Doolittle

recepteur acetylcholine RCPG protein structure prediction bioinformatique bioinformatics sequence motif hydrophobicity hydropathy hydrophilicity amino acids acide amine fenetre glissante window biochimej

Figure A : fenêtre n = 7 - figure B : fenêtre n = 21

Sont prédites sous forme d'hélice, les régions encadrées (figure B) : 1 - 24, 62 - 82, 100 - 121, 142 - 164, 187 - 209, 367 - 387, 402 - 421. Elles correspondent aux 7 segments transmembranaires signature des récepteurs couplés aux protéines G ou RCPG.
Voir un cours sur les RCPG.

Applications

Calcul et affichage du profil d'hydrophobicité d'une protéine avec une fenêtre variable (interface Web).

Profil d'hydrophobicité d'une protéine avec une fenêtre fixe de 7 acides aminés (script Python à utiliser avec le fichier P11229.fasta).

Ensemble de scripts de plus en plus sophistiqués (voir en particulier le script "graph7.py").

b. Amphiphilicité de structures secondaires et moment hydrophobe

Cette propriété physico-chimique est liée à la répartition des résidus hydrophiles et hydrophobes sur une face d'une structure secondaire.

La figure ci-dessous illustre la prédiction de formation d'une hélice α de classe A pour les acides aminés 144-179 de la protéine LEAP ("Late Embryogenesis Abundant Protein" - Q5NJL5).

protein structure prediction bioinformatique bioinformatics domain sequence motif helix hydrophobicity hydropathy hydrophilicity amino acid amine biochimej

Prédiction effectuée avec le programme HeliQuest en utilisant une fenêtre de 36 acides aminés. En bleu et rouge : résidus d'acides aminés chargés (K, R, D, E). En jaune et gris : résidus d'acides aminés non polaires. La flèche indique le moment hydrophobe.

Pour quantifier l'amphiphilicité de structures secondaires des protéines, Eisenberg et al. (1982) ont développé la notion de moment hydrophobe, μ(θ), qui mesure la répartition de résidus d'acides aminés hydrophiles et hydrophobes dans une structure régulière de période θ.

Ainsi, pour une structure secondaire constituée de n résidus d'acides aminés consécutifs, la relation générale de μ(θ) est :

protein structure prediction bioinformatique bioinformatics domain sequence motif helix hydrophobicity hydropathy hydrophilicity amino acid amine biochimej

La largeur optimale de la fenêtre est n = 11 résidus d'acides aminés pour une hélice α transmembranaire avec θ = 102°.

Type d'hélice	amphiphilicité	hydrophobicité
surface	forte	moyenne
membranaire	faible	forte
"soluble"	faible	faible

c. Surface accessible au solvant et surface exposée au solvant

La surface des acides aminés des protéines accessible au solvant est un paramètre déterminant pour l'étude du repliement des chaînes polypeptidiques et le calcul de leur stabilité.

On fait "rouler" une molécule d'eau (considérée comme une sphère) autour des atomes de la protéine, considérés également comme des sphères de rayon égal à leur rayon de van der Waals. Le centre de la molécule d'eau est à une distance du centre de chaque atome qui est égale à la somme du rayon de van der Waals de la molécule d'eau (1,4 Å) et du rayon de van der Waals de l'atome.

protein structure prediction bioinformatique bioinformatics sequence motif surface sphere water eau waals amino acid amine biochimej

Le trajet décrit par le centre de la molécule d'eau délimite la surface accessible ("accessible surface") des atomes de la protéine.
La surface accessible est donc plus large (plus externe) que la surface exposée au solvant ("accessible molecular surface") qui correspond à la surface de contact entre un atome et la molécule d'eau.

protein structure prediction bioinformatique bioinformatics sequence motif surface sphere water eau waals amino acid amine biochimej

Voir la partie du guide d'utilisation du logiciel Chimera dédié au calcul la surface moléculaire.

d. Rappels sur les différents types d'hélices

Les hélices α

Deux hélices α adjacentes sont généralement arrangées de manière antiparallèle. Elles sont compactées par les liaisons hydrogène qui s'établissent entre les chaînes latérales des acides aminés.

Ces paires (ou unités) sont souvent arrangées en faisceau à 4 hélices dans lequel les chaînes latérales des 4 hélices α sont empilées et forment un coeur hydrophobe au centre du faisceau.

Les faisceaux à 4 hélices forment des domaines α dans les protéines. La myohémérythrine, le cytochrome b562, la petite protéine Rop qui se lie à l'ARN, sont des protéines de ce genre.

Les autres types d'hélices

Hélice 3₁₀

Elle est constituée de 3 résidus d'acides aminés par tour et contient 10 atomes entre le donneur et l'accepteur de liaison hydrogène.
Les liaisons hydrogène ne sont pas linéaires : cette structure est donc très dense et implique généralement un petit nombre d'acides aminés.
Elle est rarement observée dans les protéines. Exemples : protéines qui contiennent un acide aminé rare (l'acide α-amino butyrique), certaines extrémités d'hélice α, ...

Hélice π

Elle est trés rarement observée dans les protéines. Exemples : 1MTY, 2A65.
Beaucoup moins compacte avec un trou central.
Pas de contact entre les atomes de la chaîne principale.

Hélices polyproline I et II

Poly - Pro I	Poly - Pro II
liaisons peptidiques cis	liaisons peptidiques trans
hélice droite avec 3,3 résidus par tour	hélice gauche avec 3 résidus par tour
Φ = - 83°	Φ = - 78°

type de structure	valeurs des angles (degrés)			nombre moyen de résidus par tour	translation par résidu (Å)
type de structure	Φ	Ψ	ω	nombre moyen de résidus par tour	translation par résidu (Å)
hélice α	- 57	- 47	180	3,6	1,5
hélice 3₁₀	- 49	- 26	180	3,0	2,0
hélice π	- 57	- 70	180	4,4	1,15
hélice polyproline I	- 83	+ 158	0	3,38	1,9
hélice polyproline II	- 78	+ 149	180	3,0	3,12
Source : base de données PROWL -> consulter l'item : "Residue hydrogen bonding" Voir la méthode du diagramme de Ramachandran pour une définition des angles.

7. Structures des protéines

a. Techniques pour déterminer la structures des protéines

Voir un cours sur les différentes méthodes (théoriques et pratiques) pour déterminer la structure des macromolécules biologiques en général et des protéines en particulier.

b. Bases de données liées aux structures des protéines

Il existe un grand nombre de bases de données liées aux structures des protéines. Ces ressources classent les protéines en fonction de leur degré de similarité, mais diffèrent par les définitions qu'elles emploient et leurs méthodes de classification.

Il y a cependant un consensus général en ce qui concerne l'ordre hiérarchique entre topologie globale ou repliement, superfamille, famille et domaines individuels.

De nombreuses protéines ayant la même topologie auront évolué de manière convergente, mais les membres des superfamilles et des familles sont susceptibles d'être issus d'un ancêtre commun par une évolution divergente.

SCOP et CATH : bases de données de classification hiérarchique de la structure des protéines.
HOMSTRAD, PASS2 ("Protein Alignments organised as Structural Superfamilies"), Toccata et CE ("RCSB PDB - jCE/jFATCAT Structure Alignment Server") fournissent des familles de protéines dont les structures sont alignées et superposées avec différentes annotations des résidus d'acides aminés.
Pfam et InterPro: principales bases de données de familles de protéines basées sur les séquences.

8. La base de données de structures des macromolécules biologiques PDB ("Protein Data Bank")

Généralités

La base de données PDB RCSB ("Research Collaboratory for Structural Bioinformatics") est membre du consortium "worldwide PDB" (wwPDB - constitué de PDB (USA), PDBe(Europe) et PDBj (Japon)).

Un code d'accession PDB est constitué de 4 caractères (1 chiffre puis 3 caractères qui peuvent être un chiffre ou une lettre en majuscule). Il y a 419.904 codes possibles d'identification PDB (valeur qui peut augmenter à 466.560 avec le chiffre 0 comme premier caractère).

Les quelques 160.000 fichiers (février 2020) représentent environ 38 % des codes d'identification disponibles.

Exemple de quelques codes d'accession PDB "parlants" :

1MBN : myoglobine (1973)
5TNA : tRNA phénylalanine (1ere structure d'ARN résolue - 1975)
1BNA : première structure d'un tour (dodécamère) de double hélice d'ADN forme B (1980)
2HHD : désoxy-hémoglobine de l'homme ("human hemoglobin, deoxy")
9INS : insuline

Signification de quelques champs d'un fichier PDB

SSBOND, LINK, ... : annotations de connectivité
CRYST1 : paramètres de la cellule unitaire, groupe d'espace et valeur de Z
ORIGXn, SCALEn : transformation à partir des coordonnées orthogonales
MODEL :  numéro du modèle dans un fichier qui contient plusieurs structures
ENDMDL : fin de chaque modèle
MODRES : modifications de résidus standards
HET :    résidus  non standard (et ligands, ions et molécules d'eau)
HETNAM : nom chimique complet du résidu
HETSYM : synonymes du nom du résidu
FORMUL : formule chimique du résidu

Ressources additionnelles qui décrivent des catégories de molécules particulières :

Chemical Component Dictionary
Protonation Variants Companion Dictionary
The Biologically Interesting Molecule Reference Dictionary (BIRD)

a. Unité asymétrique d'une maille cristalline et cellule unitaire

L'unité asymétrique est le plus petit volume d'une structure cristalline (maille cristalline) auquel les opérations de symétrie du groupe d'espace du cristal considéré peuvent être appliquées afin de reconstituer la cellule unitaire ("unit cell" - l'unité de répétition du cristal) complète.

Quand la cellule unitaire est répliquée dans les 3 dimensions, on reconstitue le cristal entier. Exemple ci-dessous :

L'unité asymétrique (flèche verte vers le haut) est tournée de 180 degrés autour d'un axe de symétrie cristallographique double (ovale noir).
On obtient une copie (flèche violette vers le bas) : ces deux flèches constituent la cellule unitaire.
Celle-ci est alors répliquée par translation dans les 3 directions pour former le cristal tridimensionnel.

protein structure tridimensionnel prediction bioinformatique bioinformatics sequence unite asymetrique maille cristal pdb atome amino acid amine biochimej

Source : PDB

Remarque : le volume de l'unité asymétrique est donc inférieur à celui de la maille du cristal sauf pour le groupe d'espace triclinique P1 dont l'unité asymétrique a un volume égal à celui de la maille.

Les opérations de symétrie les plus couramment appliquées aux cristaux de macromolécules biologiques sont les rotations, les translations et les "tour de de vis" ("screw axes", combinaisons [rotation - translation]).

b. Assemblage biologique

L'assemblage biologique (ou unité biologique - "biological assembly") est l'assemblage macromoléculaire qui est ou semble être la forme fonctionnelle de la molécule. Par exemple, la forme fonctionnelle de l'hémoglobine est constituée de 2 x 2 chaînes polypeptidiques (α₂β₂).

Selon la structure cristalline, des opérations de symétrie peuvent être nécessaires pour obtenir l'assemblage biologique complet. A l'inverse, un sous-ensemble des coordonnées cristallographiques peut suffire pour représenter l'assemblage biologique. En conclusion, un assemblage biologique peut être construit à partir :

d'une copie de l'unité asymétrique
de plusieurs copies de l'unité asymétrique
d'une partie de l'unité asymétrique

Exemples

Fichier 2HHB : l'assemblage biologique est égal à l'unité asymétrique. Aucune opération n'est nécessaire.
Fichier 1OUT : l'assemblage biologique contient deux unités asymétriques. Une opération de symétrie cristallographique (rotation de 180 degrés autour d'un axe d'ordre 2) produit l'assemblage biologique complet.
Fichier 1HV4 : l'assemblage biologique est la moitié de l'unité asymétrique. Le fichier décrit donc 2 structures similaires, mais pas totalement identiques, de l'assemblage biologique à l'intérieur de l'unité asymétrique.

Outils d'analyse des assemblages biologiques

Des bases de données spécifiques, telles que PISA ("Protein Interfaces, Surfaces and Assemblies"), permettent d'analyser les assemblages biologiques de la PDB.

jsPISA est un outil web interactif pour le calcul des surfaces macromoléculaires et des interfaces, pour l'évaluation de leurs propriétés et pour l'inférence d'assemblages macromoléculaires probables à partir de données de coordonnées (généralement cristallographiques).

c. Les fichiers au format mmCIF ("macromolecular Crystallographic Information Format")

Un fichier au format mmCIF contient les instructions pour générer un assemblage biologique. Un grand nombre de programme de visualisation moléculaire (dont Jmol) sont compatibles avec ce format.

Voir un exemple : fichier 2NBT.cif - toxine de serpent.

Un fichier mmCIF contient donc les informations concernant les éléments structuraux qui générent un assemblage biologique. Ces informations se trouvent dans des catégories (ou listes d'informations) appelées "pdbx_struct_assembly", "pdbx_struct_assembly_gen" et "pdbx_struct_oper_list" :

les deux premières catégories décrivent la construction de chaque assemblage biologique et les détails de cet assemblage
la troisième catégorie décrit les transformations nécessaires pour générer l'assemblage biologique
la catégorie "pdbx_struct_assembly_gen" établit le lien entre les transformations décrites dans la catégorie "pdbx_struct_oper_list" et les chaînes polypeptidiques auxquelles ces transformations s'appliquent.
Remarque : les identifiants "asym_id" du fichier mmCIF désignent les chaînes polypeptidiques.

La catégorie "struct_biol" contient les remarques spécifiques des auteurs relatives aux assemblages biologiques.

Un dictionnaire de données archive les expériences de cristallographie de petites molécules et leurs résultats. Voir le fichier "mmcif_pdbx.dic" ("PDB Exchange Dictionary - PDBx/mmCIF"). Le format de ce dictionnaire et les fichiers de données basés sur ce dictionnaire sont conformes à la représentation des données appelée STAR ("Self Defining Text Archive and Retrieval").

Extrait d'un fichier au format mmCIF

_pdbx_struct_assembly.id                    1
_pdbx_struct_assembly.details               author_and_software_defined_assembly
_pdbx_struct_assembly.method_details        PISA

_pdbx_struct_assembly_gen.assembly_id       1
_pdbx_struct_assembly_gen.asym_id_list      A,B,C,D,E,F,G,H

loop_
_pdbx_struct_assembly_prop.biol_id
1 'ABSA (A^2)' 3840   ?

loop_
_pdbx_struct_oper_list.id
_pdbx_struct_oper_list.matrix[1][1]
1 'identity operation'         1_555 1.0000000000 0.0000000000
2 'crystal symmetry operation' 4_565 1.0000000000 0.0000000000

1_555 : décrit l'opérateur de symétrie utilisé (désigné par le nombre 1) et les opérations de translation nécessaires (le chiffre 555).

Les opérateurs de symétrie sont définis par le groupe d'espace et les opérations de translation sont indiquées pour les 3 axes de la cellule unitaire (a, b et c) :

Le nombre 5 indique aucune opération de translation.
Les nombres supérieurs ou inférieurs indiquent le nombre d'opérations de translation de la cellule unitaire dans une direction positive ou négative.

4_565 : utilisation de l'opérateur de symétrie 4, suivie d'une opération de translation de la cellule unitaire dans la direction positive selon l'axe b.

9. Modélisation de structures de protéines par homologie ("Homology modeling")

Les algorithmes de comparaison de structures 3D de deux protéines peuvent être classés en plusieurs catégories :

Ceux basés sur l'alignement du "corps rigide" ("rigid body alignment") en superposant (par une méthode heuristique) les structures protéiques avec mise à l'échelle, rotation, transformation et enfin superposition. Ils s'appliquent à des protéines de petites tailles qui ont le même nombre d'acides aminés. Exemple : le serveur de comparaison de structures de protéines VAST ("Vector Alignment Search Tool").

Ceux basés sur la fragmentation des structures et assemblage par alignement non séquentiel. Exemples : FATCAT ("Flexible structure AlignmenT by Chaining Aligned fragment pairs allowing Twists"), FlexProt, FlexSnap. Ils nécessitent une sélection appropriée de la taille des fragments et des temps de calculs importants.

Ceux qui utilisent une analyse de forme élastique ("elastic shape analysis") dans laquelle les coordonnées atomiques sont complétées par les propriétés des chaînes latérales des acides aminés. La structure de la protéine est représentée par une fonction appelée "square-root velocity function". Exemple : ProtSComp.

Voir un cours sur la "mécanique moléculaire".

a. Les scores de distances inter-atomiques entre des structures comparées

La modélisation par homologie de structures nécessite de superposer les structures des protéines qui sont comparées pour établir la correspondance spatiale entre les acides aminés équivalents dans ces structures.

Le score RMSD et le score RMSD local

Pour mesurer ces distances inter-atomiques on utilise fréquemment une grandeur appelée écart quadratique moyen (RMSD - "Root Mean Square Deviation", en Å) entre les coordonnées spatiales des atomes des acides aminés appariés.

Par exemple, si on considère n atomes de 2 structures, on compare les coordonnées (x_i, y_i, z_i) d'un atome i de l'une de ces structures aux coordonnées (x'_i, y'_i, z'_i) d'un atome i apparié de l'autre structure :

protein structure superposition prediction macromolecule bioinformatique bioinformatics sequence motif domain amino acid amine homologie homology modeling comparison comparaison score distance RMSD TM GDT biochimej

On superpose ainsi les structures en minimisant la valeur de RMSD.

structures identiques : RMSD = 0
structures similaires : RMSD = 1 - 3 Å
structures éloignées : RMSD > 3 Å

Limites du score RMSD

Il faut que les 2 structures soient dans le même système de repères orthonormés.
Cette méthode attribue un poids statistique équivalent à tous les atomes (carbone α et atomes des chaînes latérales).
Il faut préciser la liste des atomes à comparer : c'est un problème si les protéines n'ont pas des séquences de longueurs identiques.

Pour effectuer un choix pertinent des acides aminés à comparer, on calcule un RMSD local avec les carbones α des acides aminés inclus dans une fenêtre de longueur L+1 :

Le score GDT

Le score GDT ("Global Distance Test") est aussi une mesure de la similarité entre 2 structures protéiques qui ont des structures 3D différentes.

Ce score est calculé sur la base du plus grand ensemble de carbones α des résidus d'acides aminés de la structure experimentale dont la position dans l'espace correspond (selon un seuil donné : 1 Å, 2 Å, 4 Å et 8 Å) à celles des résidus d'acides aminés de la structure prise pour modèle.

Les scores GDT sont les principaux critères d'évaluation des résultats de prédiction issus de l'expérience CASP ("Critical Assessment of Structure Prediction") :

CASP est une expérience à grande échelle de la communauté scientifique qui travaille sur la prédiction de structure.
CASP évalue et améliore les différentes techniques de modélisation de structures de protéines.

Le score TM

Le score TM ("Template Modeling score") est également une mesure de la similarité entre 2 structures protéiques qui ont des structures 3D différentes.

Le score TM est une mesure plus précise de la qualité des structures protéiques que le score RMSD et le score GDT souvent utilisés. Dans le calcul du score TM, les distances faibles ont un poids plus élevé que les distances fortes : ce score est donc insensible aux erreurs de modélisation locale.

Un score TM > 0. 5 indique une topologie correcte du modèle calculé : les protéines comparées ont un repliement similaire.
Un scoreTM < 0. 17 correspond à des protéines non apparentées, choisies au hasard.
Ces seuils de score ne dépendent pas de la longueur de la protéine.

max : la somme doit être maximisée (matrice de superposition optimale).
L_native est la longueur de la protéine native (la structure de référence avec laquelle s'effectue la comparaison) et L_aligné est la longueur de la région d'acides aminés qui est alignée.
d_i est la distance entre la i^ème paire de résidus d'acides aminés alignés entre les 2 structures. Cette distance dépend de la matrice de superposition.
d₀(L_native) est une échelle de distance qui normalise les différences de distances.

Exemples de comparaisons et de scores de comparaisons

Figure ci-dessous : superpositions des structures de 2 protéines avec différents algorithmes (CE - "Combinatorial Extension of the optimal path", SAL, DALI et TM-align).

Code PDB 1ATZ_A (184 résidus d'acides aminés) : domaine A3 du facteur Von Willebrand humain (fixation du collagène).
Code PDB 1AUO_A (218 résidus d'acides aminés) : carboxylestérase.
Ces 2 protéines ont 16% d'identité de séquence et elle adoptent une topologie en sandwich αβα.
Les rubans épais et minces indiquent les résidus d'acides aminés alignés de 1ATZ_A et 1AUO_A, respectivement.

L est le nombre de résidus d'acides aminés alignés. Les scores RMSD et TM sont indiqués.

Source : Zhang & Skolnick (2005)

Le score lDDT

Le score lDDT ("local Distance Difference Test") mesure la façon dont l'environnement dans une structure référence est reproduit dans une structure modèle. Ce score est calculé sur toutes les paires d'atomes dans la structure de référence à une distance inférieure à un seuil prédéfini (appelé rayon d'inclusion) et n'appartenant pas au même résidu d'acide aminé.

Ces paires d'atomes définissent un ensemble de distances locales L :

Une distance est conservée dans le modèle M si elle est (selon un seuil de tolérance) la même que la distance correspondante dans l'ensemble L.
Si un ou les deux atomes définissant une distance dans l'ensemble L ne sont pas présents dans le modèle M, la distance est non conservée.

Pour un seuil donné, la fraction des distances conservées est calculée. Le score IDDT est la moyenne de 4 fractions calculées en utilisant des seuils identiques à ceux utilisés pour calculer le score GDT (voir ci-dessus).

Voir Mariani et al. (2013).

Divers

Il existe un très grand nombre d'algorithmes et de programmes de superposition 2 à 2 ou multiples de structures de protéines ou d'autres molécules comme les ARN. Voir un très grand nombre de programmes de superposition de structures.

SupeRNAlign : service WEB et programme en Python de superposition de structures d'ARN homologues.

Voir la syntaxe de la commande "align" de PyMOL.

b. Les modules Bio.PDB de BioPython

Les modules Bio.PDB de BioPython permettent d'effectuer des calculs de distances et d'autres calculs (surface accessible au solvant, ...) liés aux structures des macromolécules de manière générale.

Le module Bio.PDB.PDBParser() permet d'effectuer les opérations suivantes :

Lecture du fichier PDB : les informations nécessaires sont stockées dans un objet structure.
Création d'une liste des modèles (les différentes chaînes polypeptidiques de la protéine) contenus dans le fichier PDB.

import Bio.PDB
from Bio.PDB.PDBParser import PDBParser
decoupage = PDBParser()   # creation d'un objet PDBParser
structure = decoupage.get_structure("nom", "fichier.pdb")
modele = structure[0]

Créer un objet structure à partir d'un fichier PDB :

a. Créer un objet "PDBParser" : decoupage = PDBParser()
b. Créer l'objet "structure" à partir d'un fichier PDB ("2NBT.pdb" par exemple). "Toxine" est un exemple de nom donné à l'objet "structure" : structure = decoupage.get_structure("Toxine", "2NBT.pdb")

Créer un objet structure à partir d'un fichier mmCIF :

a. Créer un objet "MMCIFParser" : decoupage = MMCIFParser()
b. Créer l'objet structure à partir d'un fichier PDB ("2NBT.cif" par exemple) : structure = decoupage.get_structure("Toxine", "2NBT.cif")

1er exemple de calcul : la clathrine	2ème exemple de calcul : la toxine de serpent
Code PDB : 1XI4 Chaînes polypeptidiques du manteau de clathrine : calcul des distances moyenne entre les atomes de la chaîne lourde D et de la chaîne légère M qui sont en contact étroit. Molécule (MOL_ID: 1) : 9 chaînes lourdes de clathrine => A, B, C, D, E, F, G, H, I Molécule (MOL_ID: 2) : 9 chaînes légères de clathrine => J, K, L, M, N, O, P, Q, R	Code PDB : 2NBT Modifier les lignes suivantes du script "Contact.py" : nomDuFichier = "2NBT.pdb" matriceDistance = matriceDistance(modele["A"], modele["B"])
Résultats : distance minimale 4.63 / distance maximale : 201.62	Résultats : distance minimale 4.52 / distance maximale : 48.95
Voir l'application en ligne.
Voir un développement sur l'implication du manteau de clathrine dans l'endocytose.	Voir un développement sur la toxine de serpent de Bungarus multicinctus.

10. Le programme MODELLER

Le programme MODELLER est un logiciel de modélisation de structures de protéines par homologie.

L'utilisateur fournit un alignement d'une séquence à modéliser avec des séquences de protéines apparentées dont les structures sont connues et MODELLER calcule un modèle contenant tous les atomes autres que l'hydrogène.
La modélisation de la structure de la protéine s'effectue par satisfaction des contraintes spatiales.

protein structure prediction macromolecule bioinformatique bioinformatics script langage Python biopython programmation programming sequence protein motif modelisation modeller software biochimej

MODELLER effectue des tâches supplémentaires :

modélisation de novo de boucles dans les structures de protéines
optimisation de différents modèles de structure de la protéine par rapport à une fonction objectif de flexibilité définie
alignement multiple de séquences de protéines et / ou de structures
regroupement et classification, recherche dans les bases de données

Format PIR/NBRF

Format des fichiers de la base de données PIR ("Protein Information Resource"), émanation de NBRF ("National Biomedical Research Foundation").

Une ligne qui commence par le caractère ">" et un code à 2 lettres qui désigne le type de séquence : P1, F1, DL, DC, RL, RC ou XX.
Un point-virgule suivi par le numéro d'accession de la séquence (qui dépend de la base de données dans laquelle est stockée le fichier d'origine).
Une ligne qui décrit la séquence.
La séquence elle-même : cette partie doit finir par une astérisque.
Plusieurs séquences peuvent être mises dans un même fichier.

Exemple

>P1;CRAB_ANAPL
ALPHA CRYSTALLIN B CHAIN
MDITIHNPLI RRPLFSWLAP SRIFDQIFGE HLQESELLPA AQRK*

a. Description de la procédure du programme MODELLER

La recherche de séquences similaires dont les structures sont connues est effectuée avec la commande "profile. build ()" (contenue dans le script "build_profile.py") du programme MODELLER.

Le script "build_profile. py" effectue les opérations suivantes :

1. Il initialise l'environnement de la modélisation en créant un objet "environ" (appelé "env"). Presque tous les scripts MODELLER nécessitent cette étape, car ce nouvel objet est nécessaire pour construire la plupart des autres objets utiles à la modélisation.

2. Il crée un objet "sequence_db" (appelé "sdb") utilisé pour contenir de grandes bases de données de séquences de protéines.

3. Il lit, dans la base de données "sdb", un fichier (au format texte) contenant des séquences non redondantes de la PDB. Les séquences sont aussi dans le fichier "pdb_95.pir" au format PIR. Chaque séquence de ce fichier est représentative d'un groupe de séquences de la PDB qui ont 95% ou plus d'identité de séquence et moins de 30 résidus ou moins de 30% de différence de longueur de séquence.

4a. Il écrit un fichier au format binaire contenant toutes les séquences lues à l'étape précédente.

4b. Il relit le fichier au format binaire pour une exécution plus rapide du script.

protein structure sequence modelisation modeller software biochimej

5a. Il crée un objet "alignment" ("aln").

5b. Il lit la séquence cible TvLDH (dans l'exemple choisi) à partir du fichier "TvLDH.ali".

5c. Il convertit la séquence cible lue en un objet "profil " (appelé "prf"). Les profils contiennent des informations similaires à celles des alignements, mais ils sont plus compacts, plus complets et plus performants pour une recherche dans la base de données de séquences.

6. L'instruction "prf.build()" effectue la recherche dans "sdb" avec le profil "prf". Les correspondances qui sont trouvées sont ajoutées au profil.

7. L'instruction "prf.write()" écrit le nouveau profil contenant la séquence cible et ses homologues dans le fichier (au format texte) de sortie spécifié (le fichier "build_profile.prf").

8. Conversion du nouveau profil en un nouvel alignement.

9. L'instruction "aln.write()" écrit le nouvel alignement contenant la séquence cible et ses homologues dans le fichier (au format PIR) de sortie spécifié (le fichier "build_profile.ali").

Récupérer le script "build_profile.py".

Exécution du script

Si le fichier est enregistré avec le nom "toto.py" et si la version de MODELLER est 9.19 (juillet 2017), la commande pour exécuter ce script est "mod9.19 toto.py".

Après exécution, le programme produit un fichier journal ("log file") : c'est un enregistrement de la séquence des événements au cours de l'exécution du script. Dans l'exemple choisi, le fichier s'appelle "toto.log".
L'ajustement entre les distributions observées et théoriques des z-scores est calculé (statistique D de Kolmogorov-Smirnov) après chaque itération et rapporté dans le fichier journal ("check_profile=True").
Le programme écrit le profil dans un fichier appelé "toto.prf" (dans l'exemple choisi).

Voir un descriptif très précis de toutes les étapes de MODELLER.

b. Détail de la syntaxe de la commande profile.build()

Cette commande analyse (de manière itérative) une base de données contenant un très grand nombre de séquences protéiques dans le but de créer un profil pour la séquence (ou l'alignement) que l'on veut modéliser.

Cette commande calcule le score d'un alignement local (méthode de Smith-Waterman) entre la séquence à modéliser et chacune des séquences de la base de données.

build(
        sdb, 
        gap_penalties_1d=(-900.0, -50.0), 
        matrix_offset=0.0, 
        rr_file='$(LIB)/as1.sim.mat', 
        n_prof_iterations=3, 
        max_aln_evalue=0.1, 
        matrix_scaling_factor=0.0069, 
        check_profile=True, 
        output_score_file=None, 
        gaps_in_target=False, 
        score_statistics=True, 
        pssm_weights_type='HH1', 
        pssm_file=None
        )

Les alignements avec des E-values inférieures à la valeur du paramètre "max_aln_evalue" sont ajoutés à l'alignement en cours.

Un profil PSSM est générée à partir de l'alignement en cours : cette matrice est utilisée pour rechercher dans la base de données de séquences choisies.

Cette procédure itérative est répétée :

un nombre de fois égal à la valeur du paramètre "n_prof_iterations"
ou jusqu'à ce qu'il n'y ait pas d'alignement significatif en dessous du seuil.

Remarque : la recherche d'un repliement nécessite un drapeau "gaps_in_target=True".

c. Bases de données liées à MODELLER ou utilisant ce programme

α. Le serveur de prédiction de structures de protéines et le programme HHpred

HHpred est un serveur basé sur la comparaison 2 à 2 de profils de modèles de Markov cachés (HMM).
HHpred est aussi une méthode de recherche dans les bases de données d'alignement comme Pfam ou SMART.
Enfin, c'est également un programme de prédiction de structure très sensible qui permet de trouver des homologues distants.

HHpred :

Accepte une séquence unique ou un alignement multiple comme requête.
Les options de recherche incluent l'alignement local ou l'alignement global et le calcul de score de similarité de structure secondaire.
Les résultats sont fournis dans un format similaire à celui de PSI-BLAST.
HHpred fournit des alignements multiples et des modèles structuraux 3D calculés par MODELLER (à partir des alignements HHpred).

β. La base de données de modèles de structures protéiques annotées ModBase ("Database of Comparative Protein Structure Models")

Les modèles sont calculés par ModPipe, une suite logicielle ("pipeline") de modélisation automatisée qui repose principalement sur MODELLER pour :

l'identification des repliements des protéines
l'alignement séquence vs. structure
la construction puis l'évaluation de modèles

ModBase contient plus de 5 millions de modèles fiables de domaines issus de presque 1,6 millions de séquences protéiques uniques. Seuls les modèles basés sur des alignements statistiquement significatifs et/ou des modèles dont le repliement est correct sont inclus.

d. Exemples d'autres logiciels de modélisation structurale par homologie

ESyPred3D Web Server
Robetta : utilise la méthode Rosetta.
Voir un développement sur Rosetta.
I-TASSER
IntFOLD : "Integrated Protein Structure and Function Prediction Server"
PSIPRED: prédiction structures secondaires (réseaux de neurones) sur la base des résulatst issus de PSI-BLAST ("Position Specific Iterated – BLAST").
SWISS-MODEL : serveur WEB accessible via le serveur ExPASy ou à partir du programme "DeepView" (Swiss Pdb-Viewer).

12. Liens Internet et références bibliographiques

Atelier "Drug design" - Expasy

Introduction to Biological Assemblies and the PDB Archive

SWISS-MODEL Repository (SMR) : base de données de modèles de structures protéiques 3D annotées.

Protein Family Models (HMMs)

What are protein domains ?

PSI-BLAST Tutorial : principe des profils / matrices PSSM.

PSSMSearch : site web pour découvrir des motifs protéiques.

EMBL-EBI resources

PSI-BLAST Tutorial

PSSMSearch

Lee B. & Richards F.M. (1971) "The interpretation of protein structures : estimation of static accessibility" J. Mol. Biol. 55, 379 - 400

Kyte & Doolittle (1982) "A simple method for displaying the hydropathic character of a protein" J. Mol. Biol. 157, 105 - 132

Eisenberg et al. (1982) "The helical hydrophobic moment: a measure of the amphiphilicity of a helix" Nature 299, 371 - 374

Bailey & Elkan (1994) "Fitting a mixture model by expectation maximization to discover motifs in biopolymers", Proceedings of the Second International Conference on Intelligent Systems for Molecular Biology, pp. 28 - 36, AAAI Press, Menlo Park, California

Berman et al. (2000) "The Protein Data Bank" Nucleic Acids Res. 28, 235 - 242

Ye & Godzik (2003) "Flexible structure alignment by chaining aligned fragment pairs allowing twists" Bioinformatics 19, ii246-ii255.

Article

-----

Article

Wu et al. (2003) "The Protein Information Resource" Nuc. Acids Res. 31, 345 - 347

Eddy S.R. (2004) "What is a hidden Markov model ?" Nat. Biotechnol. 22, 1315-1316

Zhang & Skolnick (2004) "Scoring function for automated assessment of protein structure template quality" Proteins 57, 702 - 710

Zhang & Skolnick (2005) "TM-align: a protein structure alignment algorithm based on the TM-score" Nucleic Acids Res. 33, 2302 - 2309

Eswar et al. (2006) "Comparative Protein Structure Modeling with MODELLER" Current Protocols in Bioinformatics, John Wiley & Sons, Inc., Supp. 15, 5.6.1-5.6.30

Article

Schaeffer & Daggett (2011) "Protein folds and protein folding" Protein Eng. Des. Sel. 24, 11 - 19

Tien et al. (2013) "PeptideBuilder: A simple Python library to generate model peptides" PeerJ. 1, e80

Ali et al. (2014) "A review of methods available to estimate solvent-accessible surface areas of soluble proteins in the folded and unfolded states" Curr. Protein Pept. Sci. 15, 456 - 476

Webb & Sali (2016) "Comparative protein structure modeling using MODELLER" Curr. Protoc. Bioinformatics Chapter 5, unit 5.6

Finn et al. (2016) "The Pfam protein families database: towards a more sustainable future" Nuc. Acids Res. Database Issue 44, D279 - D285

Article

Janson et al. (2017) "PyMod 2.0: improvements in protein sequence-structure analysis and homology modeling within PyMOL" Bioinformatics 33, 444 - 446

Jubb et al. (2017) "Arpeggio: a web server for calculating and visualising interatomic interactions in protein structures" J. Mol. Biol. 429, 365 - 371

Burley et al. (2018) "RCSB Protein Data Bank: Sustaining a living digital data resource that enables breakthroughs in scientific research and biomedical education" Protein Sci. 27, 316 - 330

Article

Mitchell et al. (2019) "InterPro in 2019: improving coverage, classification and access to protein sequence annotations" Nucleic Acids Res. 47 (Database issue), D351 - D360

Steinegger et al. (2019) "HH-suite3 for fast remote homology detection and deep protein annotation" BMC Bioinformatics 20, 473

Wiltgen M. (2019) "Algorithms for Structure Comparison and Analysis: Homology Modelling of Proteins" in "Encyclopedia of Bioinformatics and Computational Biology"

Article

Jumper et al. (2021) "Highly accurate protein structure prediction with AlphaFold" Nature 596, 583 - 589

Wang et al. (2021) « Protein domain identification methods and online resources » Comput. Struct. Biotechnol. J. 19, 1145 - 1153

Bileschi et al. (2022) "Using deep learning to annotate the protein universe" Nat. Biotechnol. 40, 932 - 937

Mohammadi et al. (2022) "PSSMCOOL: a comprehensive R package for generating evolutionary-based descriptors of protein sequences from PSSM profiles" Biol. Methods Protoc. 7, bpac008

Liu et al. (2024) "PLMSearch: Protein language model powers accurate and fast sequence search for remote homology" Nat. Commun. 15, 2775

Article