Bionformatique : analyse et prédiction des structures des protéines
Flux RSS

 

1. Introduction

2. Domaine, motif, signature et profil des séquences de protéines

a. Définitions
b. Les profils issus des matrices PSSM
c. Illustration : la base de données InterPro

3. La base de données Pfam

a. Contenu de Pfam
b. Construction des alignements Pfam
c. Exemple de quelques fonctionalités de l'interface Pfam
d. Récupération du profil HMM EF-hand_1

4. Analyse de quelques propriétés physico-chimiques des acides aminés

a. Hydrophobicité d'une séquence avec une fenêtre glissante
b. Amphiphilicité de structures secondaires et moment hydrophobe
c. Surface accessible au solvant et surface exposée au solvant
d. Rappels sur les différents types d'hélices

5. Structures des protéines

 

6. La base de données de structures de macromolécules biologiques PDB

a. Unité asymétrique d'une maille cristalline et cellule unitaire
b. Assemblage biologique
c. Les fichiers au format mmCIF

7. Modélisation de structures de protéines par homologie

a. Les scores de distances inter-atomiques entre des structures comparées
b. Les modules Bio.PDB de BioPython

8. Le programme MODELLER

a. Description de la procédure du programme MODELLER
b. Détail de la syntaxe de la commande profile.build()
c. Bases de données liées à MODELLER ou utilisant ce programme
d. Autres logiciels de modèlisation structurale par homologie

9. Mécanique moléculaire appliquée aux protéines

10. Liens Internet et références bibliographiques

 

1. Introduction

Quantité d'information issue des domaines en omique

Le développement des domaines en omique engendre une quantité inouïe d'information que l'on ne peut pas analyser en temps réel.

Par exemple, prédire la fonction d'une protéine (d'une enzyme) nécessite :

Une analyse aussi détaillée et complète nécessite des mois, voire des années pour chaque protéine. C'est impossible d'effectuer ce travail pour des millions de protéines (voir le tableau ci-dessous).

Type de données biologiques Base de données Nombre

Séquences protéiques annotées manuellement
Acides aminés

UniProtKB/Swiss-Prot (2018)

557.000
200 millions

Séquences protéiques annotées par programmes
Acides aminés

TrEMBL ("Translated EMBL Nucleotide Sequence Database") (2018) 108 millions
36 milliards
Plus de 95% des séquences de protéines de UniProtKB sont issues de la traduction in silico de séquences codantes soumises aux bases de données de séquences nucléotidiques (EMBL-Bank / GenBank / DDBJ), c'est-à-dire à la collaboration des bases de données internationales de séquences nucléotidiques ("International Nucleotide Sequence Database Collaboration" - INSDC).
Séquences nucléotidiques
Nucléotides
GenBank (décembre 2017) 207 millions
250 milliards
Séquences de référence RefSeq (2018) 150 millions
Structure 3D (PDB) PDB ("Protein Data Bank") (2018) 138.000
Nombre de repliements ("protein folds") SCOP ("Structural Classification of Proteins") (2018) 1400
Familles de protéines Pfam (mars 2017) 17.000

La relation structure - fonction des protéines

L'enchaînement séquence => structure => fonction traduit qu'une séquence en acides aminés contient l'information nécessaire pour que la chaîne polypeptidique se replie dans la conformation native qui confère à la protéine (à l'enzyme) sa fonction biologique.

protein structure prediction macromolecule bioinformatique bioinformatics script langage Python biopython programmation programming sequence motif modelisation pfam PDB hydrophobicity hydropathy hydrophilicity amino acid amine HMM hidden markov model biochimej

Cet enchaînement, démontré par les travaux de Christian Anfinsen (Prix Nobel 1972), est vrai pour une très grande majorité des protéines (enzymes).

Cependant, d'autres processus qui contribuent au repliement de certaines chaînes polypeptidiques ont été mis en évidence depuis plusieurs années.

  • (a) : intervention des protéines chaperonnes ou des chaperonines qui replient la chaîne polypeptidique de la protéine.
  • (b) : les régions intrinsèquement désordonnées (ou nativement non structurées). C'est l'interaction avec un (ou des) partenaire(s) biologique(s) qui induit un repliement final pour l'acquisition de la structure native donc fonctionnelle de la chaîne polypeptidique.

Prédiction des structures et bioinformatique structurale

La prédiction de la structure tri-dimensionnelle des macromolécules biologiques en général et des protéines en particulier s'avère donc indispensable :

  • Les programmes bioinformatiques s'appuient sur des algorithmes de plus en plus précis.
  • Ces algorithmes sont adaptés aux "objets biologiques" analysés (séquences, structures, texte, images, ...). Exemple : la multiplicité des algorithmes de la famille BLAST (BLAST, Blast Genomes, PHI-Blast, PSI-Blast, CD-Blast, Delta-Blast, Ig-Blast, ...).
  • Les jeux de données test sont de plus en plus fournis et ces données sont correctes (nettoyées et annotées)

La finalité est de prédire la relation structure - fonction des des protéines.

Le mot prédiction est capital : il souligne que la quasi-totalité des résultats obtenus par des algorithmes bioinformatiques reposent sur des probabilités. Donc ils sont potentiellement entachés d'erreurs avec un intervalle de confiance.

C'est d'autant plus manifeste que le point de départ le plus fréquent des méthodes prédictives est un alignement (multiple ou non) de séquences. Or cet alignement résulte le plus souvent d'une démarche heuristique qui, de surcroît, utilise des "outils" issus de calculs de probabilités : les matrices de substitution des acides aminés.

Les méthodes de prédiction sont donc tributaires de jeux de données statistiques : l'ensemble des séquences (et des informations de diverses natures) disponibles dans les bases de données.

Avec le temps, la quantité de données et surtout de données vérifiées et corrigées par l'être humain (curation manuelle) et non pas automatiquement par des programmes) augmentent considérablement : plus ce jeu de données est grand, plus grande est la fiabilité des prédictions.

Retour haut de page

2. Domaine, motif, signature et profil des séquences de protéines

a. Définitions

Un domaine est une unité structurale associée à une fonction d'une protéine. Une protéine peut contenir plusieurs domaines (identiques ou non) en nombre et agencement variables.

Au sein d'un domaine, on trouve souvent des acides aminés caractéristiques de la protéine ("sequence features"). Ce sont des acides aminés (contigüs ou non dans la séquence de la protéine) qui sont impliqués dans une fonction :

Les alignements multiples de séquences sont indispensables pour identifier les résidus d'acides aminés signature conservés dans des protéines homologues apparentées de manière lointaine (exemple : protéines ribosomales d'Eucaryotes et de Procaryotes).

protein structure prediction macromolecule bioinformatique bioinformatics script langage Python biopython programmation programming sequence motif modelisation pfam PDB hydrophobicity hydropathy hydrophilicity amino acid amine HMM hidden markov model biochimej

  • Un motif correspond à une courte séquence (en général conservée) d'acides aminés (ou de nucléotides) que l'on peut associer à un rôle (fonctionnel ou structural) de la macromolécule.
  • Remarque : la notion de motif structural est quelque peu différente puisqu'il faut tenir compte du repliement dans l'espace de la chaîne polypeptidique.
  • Un patron ("pattern") décrit un ensemble de motifs : les caractères à chaque position peuvent être différents. Il faut un moyen pour traduire la composition globale à toutes les positions. On utilise alors des règles syntaxiques expressions régulières.
  • La signature ("fingerprint") correspond à la combinaison [ordre de divers motifs et distance entre ces motifs] d'une même séquence.
  • Un profil ("profile") est construit à partir d'un alignement multiple qui est converti en un tableau de scores qui découlent de la fréquence de chaque acide aminé à chaque position dans l'alignement (exemple de profil : le système de score spécifique de position ou "Position-Specific Scoring Systems "- PSSM). Les matrices de substitution (exemple : PAM, BLOSUM, Gonnet, ...) peuvent être utilisées pour pondérer les scores en fonction de la distance évolutive des séquences.
  • Les profils sont utilisés pour construire les familles de protéines et les familles de domaines (exemple : Pfam).

Retour haut de page

b. Les profils issus des matrices PSSM ("Position Specific Scoring Matrices")

Les matrices comportent 20 lignes (puisque 20 acides aminés) et une colonne pour chaque position du motif.

n = 10 séquences 1ere étape : fréquence

2ème étape : fréquence relative
(n = 10 séquences)

3ème étape : matrice de vraisemblance
("log-likelihood")

DDDK
DGGK
GDKK
GDKK
DGYK
KKKK
(... + 5 autres séquences)
      1     2     3     4
--|------------------------
D |  3.00  3.00  1.00  0.00
G |  2.00  2.00  1.00  0.00
K |  1.00  3.00  7.00 10.00
Y |  4.00  2.00  1.00  0.00
       1     2     3     4
--|------------------------
D |   0.3   0.6   0.1  0.00
G |   0.2   0.2   0.1  0.00
K |   0.1   0.1   0.7  1.00
Y |   0.4   0.1   0.1  0.00
      1     2     3     4
--|------------------------
D |  0.18  0.87 -0.91  -inf
G | -0.22 -0.22 -0.91  -inf
K | -0.91 -0.91  1.02  1.38
Y |  0.47 -0.91 -0.91  -inf

Voir un développement.

Première étape

  • Construction d'une matrice de fréquences de position en comptant les occurrences de chaque acide aminé à chaque position.
  • Une valeur très faible, appelée "pseudocount", est ajoutée à toutes les positions de la matrice de fréquence. Le but est d'éviter une valeur de fréquence égale à zéro (donc une valeur infinie dans la matrice "log-odds") pour un acide aminé qui n'apparait pas à une position donnée.

Deuxième étape

  • Construction d'une matrice de probabilité de position en divisant ce nombre d'occurrences à chaque position par le nombre de séquences (les valeurs sont ainsi normalisées).
  • Soit un ensemble X de n séquences d'une longueur l qui sont alignées, les éléments de la matrice de probabilité sont calculés de la manière suivante :

protein structure prediction macromolecule bioinformatique bioinformatics script langage Python biopython programmation programming sequence motif modelisation pfam PDB hydrophobicity hydropathy hydrophilicity amino acid amine HMM hidden markov model biochimej

où :

  • i ∈ (1, ..., n) et j ∈ (1, ..., l)
  • k est l'ensemble des 20 caractères de l'alphabet des acides aminés (code à 1 lettre)
  • I(a=k) est une fonction indicatrice

Troisième étape

  • La fréquence de chaque acide aminé déterminée à chaque position est comparée à la fréquence à laquelle chaque acide aminé est attendu dans une séquence au hasard.
  • On fait l'hypothèse que chaque acide aminé est observé avec une fréquence identique dans une séquence au hasard.
  • Le score final dans chaque case de la matrice PSSM est calculé à partir du logarithme du rapport (fréquences observées) / (fréquences attendues) : scoreij = log (f'ij / qi)
    1. scoreij est le score pour l'acide aminé i à la position j du motif
    2. f'ij est la fréquence relative pour l'acide aminé i à la position j, corrigée par les "pseudocount"
    3. qi est la fréquence relative attendue pour l'acide aminé i dans une séquence au hasard

Voir un développement.

Illustration

  • Soit une matrice PSSM obtenue à partir de l'alignement de plusieurs séquences de 6 acides aminés (6 colonnes dans la matrice).
  • Dans cet exemple simplissime, on considère que ces séquences ne contiennent que D, K et Y (3 lignes dans la matrice.

protein structure prediction macromolecule bioinformatique bioinformatics script langage Python biopython programmation programming sequence motif modelisation pfam PDB hydrophobicity hydropathy hydrophilicity amino acid amine HMM hidden markov model biochimej

Exemples de logiciels et bases de données de profils PSSM

Pftools : ensemble d'outils logiciels ("package") pour construire des profils dans le but de rechercher des séquences et les aligner. Parmi ces programmes :

  • pfmake construit un profil à partir d'alignements multiples
  • pfsearch pour fouiller une base de données de séquences de protéines sur la base d'un profil
  • pfscan pour fouiller une base de données de profils sur la base d'une séquence de protéine

PRINTS : base de données de profils PSSM.

  • PRINTS fournit des annotations détaillées des familles de protéines et un outil de diagnostic pour les nouvelles séquences.
  • PRINTS est une base de données d'empreintes protéiques ("fingerprints") : groupe de motifs conservés issus d'alignements multiples de séquences. Ensemble, ces motifs constituent une signature caractéristique de la famille de protéines.

PRINTS est l'un des partenaires fondateurs du consortium de ressources bioinformatiques InterPro (base de données de familles de protéines, de domaines et de sites fonctionnels).

Autre exemple : ProDom qui est collection de motifs protéiques obtenues automatiquement avec PSI-BLAST.

Retour haut de page

c. Illustration : la base de données InterPro

La base de données InterPro offre un outil puissant pour la prédiction de la fonction des protéines. En effet, InterPro regroupe les modèles ("patterns"), les profils ("profiles"), les signatures ("fingerprints") issus d'autres bases de données en une seule ressource. Cela permet d'accéder au potentiel de prédiction de ces bases de données sans les consulter individuellement.

  • En combinant les différentes bases de données et les types de signature, InterPro capitalise leurs forces individuelles et fournit un outil puissant pour la prédiction de la fonction des protéines.
  • InterPro simplifie et rationalise l'analyse des séquences des protéines en organisant la somme de toutes les informations de manière cohérente, en supprimant la redondance, en augmentant l'annotation des entrées et en ajoutant des liens vers les signatures et les protéines correspondantes.
  • Quelques bases de données du consortium InterPro : CATH-Gene3D, CDD, PANTHER, Pfam, PIRSF, PRINTS, ProDom, PROSITE, SMART, SUPERFAMILY, TIGRFAMs

protein structure prediction macromolecule bioinformatique bioinformatics script langage python Python biopython programmation programming sequence protein motif modelisation modeller software pfam PDB hydrophobicity hydropathy hydrophilicity amino acids acide amine biochimej

Source : InterPro

Exemple de classification dans la base de données InterPro (les liens renvoient vers chaque niveau de classification mentionnée) :

  • Super-familles homologues ("Homologous superfamilies") : Pyruvate-flavodoxin oxidoreductase, central domain (IPR002869)
  • Dans InterPro, une famille ("family") de protéines est un groupe de protéines qui ont une origine évolutive commune. Cela se traduit par des fonctions semblables, des similitudes de séquences ou des structures secondaires ou tertiaires similaires. Exemple : "Family : Pyruvate-flavodoxin oxidoreductase" (IPR011895)
  • Domaines et séquences répétées ("Domains and repeats"). Exemple : Pyruvate/ketoisovalerate oxidoreductase, catalytic domain (IPR019752) => Family: POR (PF01558)

Retour haut de page

3. La base de données Pfam (16712 familles en 2017)

a. Contenu de Pfam

Les protéines sont généralement constituées d'une ou plusieurs régions associées à une fonction : les domaines.

protein structure prediction macromolecule bioinformatique bioinformatics script langage python Python module biopython programmation programming sequence protein motif modelisation modeller software pfam PDB biochimej

Source : Prosite

L'identification des domaines d'une protéine contribue à en décrypter la/les fonction(s). La possibilité de diverses combinaisons de multiples domaines explique la très grande multiplicité des protéines.

La base de données Pfam est une collection de familles de domaines des protéines : chaque famille est représentée par des alignements multiples des séquences et un modèle de Markov caché ("hidden Markov model" - HMM).

Chaque famille ou entrée Pfam (souvent désignée sous le nom "Pfam-A entry") est constituée d'un alignement de séquences généré de la manière suivante :

  • On sélectionne un petit nombre de séquences de protéines que l'on considère comme représentatives de la famille Pfam.
  • Ces séquences "souches" permettent d'obtenir un alignement de haute qualité ("curated seed alignment").
  • Un profil HMM est construit avec HMMER à partir de cet alignement de haute qualité.
  • Ce profil HMM est utilisé comme modèle pour rechercher les séquences homologues dans les bases de données (par exemple Uniprot).
  • Un alignement est généré automatiquement avec toutes les séquences des protéines appartenant à la famille.

Les entrées Pfam sont classées en six catégories, en fonction de la longueur et de la nature des parties de la séquence inclues dans l'entrée :

  • famille : ensemble de parties de séquences apparentées qui peuvent contenir un ou plusieurs domaines, sans preuve pour affirmer qu'il existe une subdivision. "famille" est la classe par défaut.
  • domaine : ensemble de parties de séquences apparentées qui forment une unité structurale.
  • répétition ("repeat") : unité courte "instable" tant qu'elle est isolée et forme une structure "stable" quand plusieurs copies sont regroupées
  • motif : unité courte trouvée dans les domaines non globulaires. Cette unité assure un rôle qui lui est propre (exemple : liaison à un métal).
  • superhélice ("coiled-coil") : régions d'une protéine qui contiennent de façon prédominante des motifs en double spirales (hélices alpha enroulées en faisceaux 2-7 - "helix bundle")
  • régions désordonnées : régions conservées de protéines avec un biais dans la composition en acides aminés et/ou régions dites intrinsèquement désordonnées ou non structurées

Plusieurs entrées Pfam liées sont regroupées dans un clan. Leur inter-relation est définie par :

  • la similarité de séquence
  • la similitude de leurs structures 3D (si elles sont connues)
  • la similitude entre leur profil HMM (telle que peut l'évaluer un algorithme comme HHsearch, par exemple)

protein structure prediction macromolecule bioinformatique bioinformatics script langage python Python module biopython programmation programming sequence protein motif modelisation modeller software pfam PDB biochimej

Source : Pfam

Retour haut de page

b. Construction des alignements Pfam

α. Les profils HMM

Les profils construits à partir de modèles de Markov cachés ("Hidden Markov models" - HMM) sont des profils d'alignement de séquences comme les PSSM. Un profil HMM inclue une information quant à l'identité de l'acide aminé consensus à chaque position de l'alignement.

protein structure prediction macromolecule bioinformatique bioinformatics script langage Python biopython programmation programming sequence motif modelisation pfam PDB hydrophobicity hydropathy hydrophilicity amino acid amine HMM hidden markov model biochimej

Source : BIO520 Bioinformatics - J. Lund

  • I = insertion : insére un gap dans le profil.
  • D = déletion : insére un gap dans la séquence.
  • M1 est le premier acide aminé du profil, M2 le deuxième, ...
  • Les flèches qui relient les différents états sont les probabilités de transition.

Exemple ci-dessous : l'enchainement P -> A -> T -> H indique que la séquence consensus est "PATH".

protein structure prediction macromolecule bioinformatique bioinformatics script langage Python biopython programmation programming sequence motif modelisation pfam PDB hydrophobicity hydropathy hydrophilicity amino acid amine HMM hidden markov model biochimej

Source : BIO520 Bioinformatics - J. Lund

β. Illustration : identifier un site d'épissage 5' exon - intron

Soit une séquence d'ADN qui commence par un exon, contient un site d'épissage 5'SS ("5' splicing site") et finit par un intron.

Chaque nucléotide de la séquence testée peut être dans l'un des 3 états suivants : état E = exon; état 5 = site d'épissage 5'SS; état I = intron.

Chaque état est caractérisé par une probabilité dite d'émission (liste de valeurs au-dessus de chaque état) : c'est la composition statistique en nucléotides de chaque état.

  • l'exon a une composition uniforme en nucléotides (0,25 pour chaque nucléotide)
  • l'intron est riche en nucléotides A et T (exemple : 0,4 pour A et pour T / 0,1 pour C et pour G)
  • le nucléotide consensus du site d'épissage 5'SS est presque toujours un G (exemple : 0,95 pour G et 0,05 pour A)

Chaque état est caractérisé par une probabilité dite de transition (flèches avec une valeur) : ce sont les valeurs de probabilités de passage de l'état actuel vers un nouvel état. Il peut y avoir des transitions d'un état vers lui même. Les probabilités de transition décrivent donc la probabilité d'apparition des états :

  • 1 état "E" (avec une probabilité de 0,1) ou plusieurs états "E" (avec une probabilité de 0,9)
  • 1 état "5" (probabilité =1,0)
  • 1 état "I" (avec une probabilité de 0,1) ou plusieurs états "I" (avec une probabilité de 0,9)

On peut donc construire un profil HMM à partir de ces informations :

protein structure prediction macromolecule bioinformatique bioinformatics script langage Python biopython programmation programming sequence motif modelisation pfam PDB hydrophobicity hydropathy hydrophilicity amino acid amine HMM hidden markov model biochimej

Source : Eddy S.R. (2004)

γ. Le programme HMMER

Le programme HMMER est utilisé pour la recherche des séquences homologues dans les bases de données et la construction des alignements. HMMER utilise des profils HMM (modèles probabilistes "profile hidden Markov models").

HMMER renvoie 2 jeux de "coordonnées" de domaine pour chaque occurence ("match") avec un profil HMM :

  • les coordonnées d'enveloppe ("envelope coordinates") qui délimitent la partie de la séquence où l'occurence a été repérée de manière probabiliste. C'est donc le score total de la séquence alignée sur le modèle HMM.
  • les coordonnées d'alignement ("alignment coordinates") délimitent la partie de la séquence pour laquelle la concordance [séquence - profil HMM] est jugée correcte. C'est donc un score pour un domaine.

Les alignements complets de Pfam contiennent les coordonnées d'enveloppe de HMMER :

  • Les deux scores précédents sont pratiquement identiques quand il n'y a qu'un domaine.
  • Lorsqu'il y a plusieurs occurrences du domaine, le score de la séquence est la somme de tous les scores individuels de domaine.
  • Trouver plusieurs instances d'un domaine augmente la probabilité que la séquence appartient à la famille considérée, donc correspond au modèle.

Lien vers HMMER - EBI lié à Pfam.

Retour haut de page

c. Exemple de quelques fonctionalités de l'interface Pfam

Aller à la page d'accueil Pfam.

Fenêtre : JUMP TO / "enter any accession or ID"=> taper "EF-hand_1" => on accède à la page : Family: EF-hand_1 (PF00036).

a. Le lien "architectures" (menu du haut) est équivalent au lien "Domain organisation" (menu de gauche) :

  • Les résultats sont affichés selon le nombre décroissant d'occurence des architectures de domaines. Exemple : 743 séquences avec l'architecture EF-hand_1 suivi de EF-hand_7 (PF13499).
  • Toutes les architectures ont en commun le domaine EF-hand_1 (petit carré vert clair).
  • Pour visualiser d'autres architectures => bouton du bas.

b. Récupération des séquences de Homo sapiens

  • Cliquer sur le lien "species" => un arbre circulaire (onglet "sunburst") apparaît. Repérer Homo sapiens.
  • Utiliser les outils du menu "Sunburst controls" : "Align" & "Generate".

protein structure prediction macromolecule bioinformatique bioinformatics script langage python Python module biopython programmation programming sequence protein motif modelisation modeller software pfam PDB biochimej

Source : Pfam

Retour haut de page

d. Récupération du profil HMM EF-hand_1

α. Via l'interface web de Pfam

A partir de la page Family: EF-hand_1, cliquer sur le lien "HMM logos". On obtient la figure ci-dessous :

protein structure prediction macromolecule bioinformatique bioinformatics script langage python Python module biopython programmation programming sequence protein motif modelisation modeller software pfam PDB biochimej

Source : Pfam

  • Cette figure traduit le motif : [F,T,M]-x(3)-D-x-[D,N]-x-[D,S,N]-G-x-[I,L,V]-[D,S,T,N]-x(2)-[E,D]-[F,L]
  • Dans la calmoduline, les 4 boucles de liaison au calcium inclues dans les motifs EF-hand ont des séquences homologues chargées négativement et fortement polaires : [D,N]-x-D-[G,N]-[D,N]-G-[Q,T,Y]-x(4)-E
  • Voir un cours sur la calmoduline.

A partir de la page Family: EF-hand_1, cliquer sur le lien "Curation & model". Puis sur le lien "download" tout en bas :

β. Récupération d'un fichier HMM de Pfam avec un script Python

  • Récupérer le code au format texte.
  • Lancer le script dans un terminal : python HMM.py.
  • Entrez un ou des identifiants Pfam valide(s) : voir la liste des identifiants des familles de Pfam.

Le code source d'origine est accessible à GitHub.

Retour haut de page

4. Analyse de quelques propriétés physico-chimiques des acides aminés

Les acides aminés ont des propriétés physico-chimiques trés diverses. La base de données " ProtScale" fournit près de 60 tables de valeurs de ces propriétés.

En voici quelques exemples : (Source : " ProtScale")

  • la composition en acides aminés (pourcentage de fréquence - "A.A. composition") sur la base de l'ensemble des protéines de la base de données "Swiss-Prot"
  • le poids moléculaire ("molecular weight")
  • l'hydrophobicité (échelle de Kyte & Doolittle - échelle de J. Janin, ...)
  • la propension à être intégré dans une hélice α ("alpha-helix") ou dans un feuillet β ("beta-sheet") (échelle de Chou & Fasman - échelle de Levitt, ...)
  • la mutabilité relative ("relative mutability")
  • ...

Voir une liste de tables de 566 propriétés physico-chimiques.

Retour haut de page

a. Hydrophobicité d'une séquence avec une fenêtre glissante

protein structure prediction macromolecule bioinformatique bioinformatics script langage python Python biopython programmation programming sequence protein motif modelisation modeller software pfam PDB hydrophobicity hydropathy hydrophilicity amino acids acide amine biochimej

protein structure prediction macromolecule bioinformatique bioinformatics script langage python Python biopython programmation programming sequence protein motif modelisation modeller software pfam PDB hydrophobicity hydropathy hydrophilicity amino acids acide amine biochimej

Voir des échelles d'hydrophobicité : ProtScale.

  • Une taille de fenêtre n = 5 à 7 résidus d'acides aminés est appropriée pour trouver des régions hydrophiles susceptibles d'être exposées au solvant (régions situées à la surface de la protéine) et peuvent potentiellement être antigèniques.
  • Une taille de fenêtre n = 19 ou 21 résidus d'acides aminés met en évidence des domaines transmembranaires hydrophobes.

Exemple : récepteur muscarinique de l'acétylcholine M1 (P11229)

protein structure prediction macromolecule bioinformatique bioinformatics script langage python Python biopython programmation programming sequence protein motif modelisation modeller software pfam PDB hydrophobicity hydropathy hydrophilicity amino acids acide amine biochimej

Figure A : fenêtre n = 7 - figure B : fenêtre n = 21

  • Sont prédites sous forme d'hélice, les régions encadrées (figure B) : 1 - 24, 62 - 82, 100 - 121, 142 - 164, 187 - 209, 367 - 387, 402 - 421. Elles correspondent aux 7 segments transmembranaires signature des RCPG.
  • Voir un cours sur les récepteurs couplés aux protéines G ou RCPG.

Application

Voir un script Python de calcul simple (fenêtre = 7) et d'affichage de l'hydrophobicité (à utiliser avec le fichier P11229.fasta)

Adapter ce script de la manière suivante :

  • utiliser n'importe quel fichier fasta de Uniprot
  • choisir une table d'hydrophobicité autre que Kyte et Doolitle =>ProtScale
  • proposer une taille variable de fenêtre
  • calculer précisément avec cette fenêtre la valeur moyenne d'hydrophobicité par position
  • représenter le résultat dans un graphique

Voir un ensemble de scripts de plus en plus sophistiqués. Le script "graph7.py" est un point de départ.

Retour haut de page

b. Amphiphilicité de structures secondaires et moment hydrophobe

Cette propriété physico-chimique est liée à la répartition des résidus hydrophiles et hydrophobes sur une face d'une structure secondaire.

La figure ci-dessous illustre la prédiction de formation d'une hélice α de classe A pour les acides aminés 144-179 de la protéine LEAP ("Late Embryogenesis Abundant Protein" - Q5NJL5).

protein structure prediction macromolecule bioinformatique bioinformatics script langage Python biopython programmation programming sequence motif modelisation pfam PDB hydrophobicity hydropathy hydrophilicity amino acid amine HMM hidden markov model biochimej

Prédiction effectuée avec le programme HeliQuest en utilisant une fenêtre de 36 acides aminés. En bleu et rouge : résidus d'acides aminés chargés (K, R, D, E). En jaune et gris : résidus d'acides aminés non polaires. La flèche indique le moment hydrophobe.

Pour quantifier l'amphiphilicité de structures secondaires des protéines, Eisenberg et al. (1982) ont développé la notion de moment hydrophobe, μ(θ), qui mesure la répartition de résidus d'acides aminés hydrophiles et hydrophobes dans une structure régulière de période θ.

Ainsi, pour une structure secondaire constituée de n résidus d'acides aminés consécutifs, la relation générale de μ(θ) est :

protein structure prediction macromolecule bioinformatique bioinformatics script langage Python biopython programmation programming sequence motif modelisation pfam PDB hydrophobicity hydropathy hydrophilicity amino acid amine HMM hidden markov model biochimej

La largeur optimale de la fenêtre est n = 11 résidus d'acides aminés pour une hélice α transmembranaire avec θ = 102°.

Type d'hélice amphiphilicité hydrophobicité
surface forte moyenne
membranaire faible forte
"soluble" faible faible

Retour haut de page

c. Surface accessible au solvant et surface exposée au solvant

La surface des acides aminés des protéines accessible au solvant est un paramètre déterminant pour l'étude du repliement des chaînes polypeptidiques et le calcul de leur stabilité.

On fait "rouler" une molécule d'eau (considérée comme une sphère) autour des atomes de la protéine, considérés également comme des sphères de rayon égal à leur rayon de van der Waals. Le centre de la molécule d'eau est à une distance du centre de chaque atome qui est égale à la somme du rayon de van der Waals de la molécule d'eau (1,4 Å) et du rayon de van der Waals de l'atome.

protein structure prediction macromolecule bioinformatique bioinformatics script langage Python biopython programmation programming sequence motif modelisation pfam PDB hydrophobicity hydropathy hydrophilicity amino acid amine HMM hidden markov model biochimej

  • Le trajet décrit par le centre de la molécule d'eau délimite la surface accessible ("accessible surface") des atomes de la protéine.
  • La surface accessible est donc plus large (plus externe) que la surface exposée au solvant ("accessible molecular surface") qui correspond à la surface de contact entre un atome et la molécule d'eau.

protein structure prediction macromolecule bioinformatique bioinformatics script langage Python biopython programmation programming sequence motif modelisation pfam PDB hydrophobicity hydropathy hydrophilicity amino acid amine HMM hidden markov model biochimej

Voir la partie du guide d'utilisation du logiciel Chimera dédié au calcul la surface moléculaire.

Retour haut de page

d. Rappels sur les différents types d'hélices

Les hélices α

Deux hélices α adjacentes sont généralement arrangées de manière antiparallèle. Elles sont compactées par les liaisons hydrogène qui s'établissent entre les chaînes latérales des acides aminés.

Ces paires (ou unités) sont souvent arrangées en faisceau à 4 hélices dans lequel les chaînes latérales des 4 hélices α sont empilées et forment un coeur hydrophobe au centre du faisceau.

Les faisceaux à 4 hélices forment des domaines α dans les protéines. La myohémérythrine, le cytochrome b562, la petite protéine Rop qui se lie à l'ARN, sont des protéines de ce genre.

Les autres types d'hélices

Hélice 310

  • constituée de trois résidus par tour et avec 10 atomes entre le donneur et l'accepteur de liaison hydrogène
  • les liaisons hydrogène ne sont pas linéaires : cette structure est donc très dense et implique généralement un petit nombre d'acides aminés
  • rarement trouvée dans les protéines (protéines qui contiennent un acide aminé rare : l'acide α-amino butyrique - certaines extrémités d'hélice α)

Hélice π

  • jamais observé dans les protéines
  • beaucoup moins compacte
  • un trou au centre
  • pas de contact entre les atomes de la chaîne principale

Hélices polyproline I et II

Poly - Pro I Poly - Pro II
liaisons peptidiques cis liaisons peptidiques trans
hélice droite avec 3.3 résidus par tour hélice gauche avec 3 résidus par tour
Φ = - 83° Φ = - 78°

Récapitulatif : voir la méthode du diagramme de Ramachandran pour une définition des angles.

type de structure valeurs des angles (degrés)

nombre moyen de résidus par tour

translation par résidu (Å)

Φ Ψ ω
hélice α - 57 - 47 180 3,6 1,5
hélice 310 - 49 - 26 180 3,0 2,0
hélice π - 57 - 70 180 4,4 1,15
hélice polyproline I - 83 + 158 0 3,38 1,9
hélice polyproline II - 78 + 149 180 3,0 3,12
Source : base de données PROWL --> consulter l'item : "Residue hydrogen bonding"

Retour haut de page

5. Structures des protéines

a. Techniques pour déterminer la structures des protéines

Voir un cours sur les différentes techniques et méthodes (théoriques et pratiques) pour déterminer la structure des macromolécules biologiques en général et des protéines en particulier.

b. Bases de données liées aux structures des protéines

Il existe un grand nombre de bases de données liées aux structures des protéines. Ces ressources classent les protéines en fonction de leur degré de similarité, mais diffèrent par les définitions qu'elles emploient et leurs méthodes de classification.

Il y a cependant un consensus général en ce qui concerne l'ordre hiérarchique entre topologie globale ou repliement, superfamille, famille et domaines individuels.

De nombreuses protéines ayant la même topologie auront évolué de manière convergente, mais les membres des superfamilles et des familles sont susceptibles d'être issus d'un ancêtre commun par une évolution divergente.

  • SCOP et CATH sont deux bases de données de classification hiérarchique de la structure des protéines.
  • HOMSTRAD, PASS2 ("Protein Alignments organised as Structural Superfamilies"), Toccata, DALI et CE ("RCSB PDB - jCE/jFATCAT Structure Alignment Server ») fournissent des familles de protéines dont les structures sont alignées et superposées avec différentes annotations des résidus d'acides aminés.
  • Pfam et InterPro : principales bases de données de familles de protéines basées sur les séquences.
  • InterPro est un consortium de plusieurs bases de données telles que PROSITE, Pfam, PRINTS, ProDom, SMART et TIGRFAMs.

Retour haut de page

6. La base de données de structures de macromolécules biologiques PDB ("Protein Data Bank")

Généralités

La base de données PDB RCSB ("Research Collaboratory for Structural Bioinformatics") est membre du consortium "worldwide PDB" (wwPDB - constitué de PDB (USA), PDBe(Europe) et PDBj (Japon)).

Un code d'accession PDB est constitué de 4 caractères (1 chiffre puis 3 caractères qui peuvent être un chiffre ou une lettre en majuscule). Il y a 419.904 codes possibles d'identification PDB (valeur qui peut augmenter à 466.560 avec le chiffre 0 comme premier caractère).

Les quelques 137.000 fichiers (début 2018) représentent environ 1/3 des codes d'identification disponibles.

Exemple de quelques codes d'accession PDB "parlants" :

1MBN : myoglobine (1973)
5TNA : tRNA phénylalanine (1ere structure d'ARN résolue - 1975)
1BNA : première structure d'un tour (dodécamère) de double hélice d'ADN forme B (1980)
2HHD : désoxy-hémoglobine de l'homme ("human hemoglobin, deoxy")
9INS : insuline

Signification de quelques champs d'un fichier PDB

SSBOND, LINK, ... : annotations de connectivité
CRYST1 : paramètres de la cellule unitaire, groupe d'espace et valeur de Z
ORIGXn, SCALEn : transformation à partir des coordonnées orthogonales
MODEL :  numéro du modèle dans un fichier qui contient plusieurs structures
ENDMDL : fin de chaque modèle
MODRES : modifications de résidus standards
HET :    résidus  non standard (et ligands, ions et molécules d'eau)
HETNAM : nom chimique complet du résidu
HETSYM : synonymes du nom du résidu
FORMUL : formule chimique du résidu

Ressources additionnelles qui décrivent des catégories de molécules particulières :

Retour haut de page

a. Unité asymétrique d'une maille cristalline et cellule unitaire

L'unité asymétrique est le plus petit volume d'une structure cristalline (maille cristalline) auquel les opérations de symétrie du groupe d'espace du cristal considéré peuvent être appliquées afin de reconstituer la cellule unitaire ("unit cell" - l'unité de répétition du cristal) complète.

Quand la cellule unitaire est répliquée dans les 3 dimensions, on reconstitue le cristal entier.

Exemple : l'unité asymétrique (flèche verte vers le haut) est tournée de 180 degrés autour d'un axe de symétrie cristallographique double (ovale noir). On obtient une copie (flèche violette vers le bas) : ces deux flèches constituent la cellule unitaire. Celle-ci est alors répliquée par translation dans les 3 directions pour former le cristal tridimensionnel.

Source : PDB

Remarque : le volume de l'unité asymétrique est donc inférieur à celui de la maille du cristal sauf pour le groupe d'espace triclinique P1 dont l'unité asymétrique a un volume égal à celui de la maille.

Les opérations de symétrie les plus couramment appliquées aux cristaux de macromolécules biologiques sont les rotations, les translations et les "tour de de vis" ("screw axes", combinaisons [rotation - translation]).

b. Assemblage biologique

L'assemblage biologique (ou unité biologique - "biological assembly") est l'assemblage macromoléculaire qui est ou semble être la forme fonctionnelle de la molécule. Par exemple, la forme fonctionnelle de l'hémoglobine est constituée de 2 x 2 chaînes polypeptidiques (α2β2).

Selon la structure cristalline, des opérations de symétrie peuvent être nécessaires pour obtenir l'assemblage biologique complet. A l'inverse, un sous-ensemble des coordonnées cristallographiques peut suffire pour représenter l'assemblage biologique. En conclusion, un assemblage biologique peut être construit à partir :

  • d'une copie de l'unité asymétrique
  • de plusieurs copies de l'unité asymétrique
  • d'une partie de l'unité asymétrique

Exemples

  • fichier 2HHB : l'assemblage biologique est égal à l'unité asymétrique. Aucune opération n'est nécessaire.
  • fichier 1OUT : l'assemblage biologique contient deux unités asymétriques. Une opération de symétrie cristallographique (rotation de 180 degrés autour d'un axe d'ordre 2) produit l'assemblage biologique complet.
  • fichier 1HV4 : l'assemblage biologique est la moitié de l'unité asymétrique. Le fichier décrit donc 2 structures similaires, mais pas totalement identiques, de l'assemblage biologique à l'intérieur de l'unité asymétrique.

Outils d'analyse des assemblages biologiques

Des bases de données spécifiques, telles que PISA ("Protein Interfaces, Surfaces and Assemblies"), permettent d'analyser les assemblages biologiques de la PDB.

jsPISA est un outil web interactif pour le calcul des surfaces macromoléculaires et des interfaces, pour l'évaluation de leurs propriétés et pour l'inférence d'assemblages macromoléculaires probables à partir de données de coordonnées (généralement cristallographiques).

Retour haut de page

c. Les fichiers au format mmCIF ("macromolecular Crystallographic Information Format")

Un fichier au format mmCIF contient les instructions pour générer un assemblage biologique. Un grand nombre de programme de visualisation moléculaire (dont Jmol) sont compatibles avec ce format.

Voir un exemple : fichier 2NBT.cif - toxine de serpent.

Un fichier mmCIF contient donc les informations concernant les éléments structuraux qui générent un assemblage biologique. Ces informations se trouvent dans des catégories (ou listes d'informations) appelées "pdbx_struct_assembly", "pdbx_struct_assembly_gen" et "pdbx_struct_oper_list" :

  • les deux premières catégories décrivent la construction de chaque assemblage biologique et les détails de cet assemblage
  • la troisième catégorie décrit les transformations nécessaires pour générer l'assemblage biologique
  • la catégorie "pdbx_struct_assembly_gen" établit le lien entre les transformations décrites dans la catégorie "pdbx_struct_oper_list" et les chaînes polypeptidiques auxquelles ces transformations s'appliquent.
  • Remarque : les identifiants "asym_id" du fichier mmCIF désignent les chaînes polypeptidiques.

La catégorie "struct_biol" contient les remarques spécifiques des auteurs relatives aux assemblages biologiques.

Un dictionnaire de données archive les expériences de cristallographie de petites molécules et leurs résultats. Voir le fichier "mmcif_pdbx.dic" ("PDB Exchange Dictionary - PDBx/mmCIF"). Le format de ce dictionnaire et les fichiers de données basés sur ce dictionnaire sont conformes à la représentation des données appelée STAR ("Self Defining Text Archive and Retrieval").

Extrait d'un fichier au format mmCIF

_pdbx_struct_assembly.id                    1
_pdbx_struct_assembly.details               author_and_software_defined_assembly
_pdbx_struct_assembly.method_details        PISA
_pdbx_struct_assembly_gen.assembly_id       1
_pdbx_struct_assembly_gen.asym_id_list      A,B,C,D,E,F,G,H
loop_
_pdbx_struct_assembly_prop.biol_id
1 'ABSA (A^2)' 3840   ?
loop_
_pdbx_struct_oper_list.id
_pdbx_struct_oper_list.matrix[1][1]
1 'identity operation'         1_555 1.0000000000 0.0000000000
2 'crystal symmetry operation' 4_565 1.0000000000 0.0000000000       

1_555 : décrit l'opérateur de symétrie utilisé (désigné par le nombre 1) et les opérations de translation nécessaires (le chiffre 555).

Les opérateurs de symétrie sont définis par le groupe d'espace et les opérations de translation sont indiquées pour les 3 axes de la cellule unitaire (a, b et c) :

  • le nombre 5 indique aucune opération de translation
  • les nombres supérieurs ou inférieurs indiquent le nombre d'opérations de translation de la cellule unitaire dans une direction positive ou négative

4_565 : utilisation de l'opérateur de symétrie 4, suivie d'une opération de translation de la cellule unitaire dans la direction positive selon l'axe b.

Retour haut de page

7. Modélisation de structures de protéines par homologie ("Homology modeling")

Les algorithmes de comparaison de structures 3D de deux protéines peuvent être classés en plusieurs catégories :

  • ceux basés sur l'alignement du "corps rigide" ("rigid body alignment") en superposant (par une méthode heuristique) les structures protéiques avec mise à l'échelle, rotation, transformation et enfin superposition. Ils s'appliquent à des protéines de petites tailles qui ont le même nombre d'acides aminés. Exemples : les serveurs de comparaison de structures de protéines DALI, VAST ("Vector Alignment Search Tool").
  • ceux basés sur la fragmentation des structures et assemblage par alignement non séquentiel. Exemples : FATCAT ("Flexible structure AlignmenT by Chaining Aligned fragment pairs allowing Twists"), FlexProt, FlexSnap. Ils nécessitent une sélection appropriée de la taille des fragments et des temps de calculs importants.
  • ceux qui utilisent une analyse de forme élastique ("elastic shape analysis") dans laquelle les coordonnées atomiques sont complétées par les propriétés des chaînes latérales des acides aminés. La structure de la protéine est représentée par une fonction appelée fonction de la vitesse de la racine carrée ("square-root velocity function"). Exemple : ProtSComp.

Voir un développement (cours "mécanique moléculaire").

Retour haut de page

a. Les scores de distances inter-atomiques entre des structures comparées

La modélisation par homologie de structures nécessite de superposer les structures des protéines qui sont comparées pour établir la correspondance spatiale entre les acides aminés équivalents dans ces structures.

Le score RMSD et le score RMSD local

Pour mesurer ces distances inter-atomiques on utilise fréquemment une grandeur appelée écart quadratique moyen (RMSD - "Root Mean Square Deviation", en Å) entre les coordonnées spatiales des atomes des acides aminés appariés.

Par exemple, si on considère n atomes de 2 structures, on compare les coordonnées (xi, yi, zi) d'un atome i de l'une de ces structures aux coordonnées (x'i, y'i, z'i) d'un atome i apparié de l'autre structure :

protein structure prediction macromolecule bioinformatique bioinformatics script langage Python biopython programmation programming sequence motif modelisation pfam PDB hydrophobicity hydropathy hydrophilicity amino acid amine HMM hidden markov model comparison score RMSD TM TM-score biochimej

On superpose ainsi les structures en minimisant la valeur de RMSD.

  • structures identiques : RMSD = 0
  • structures similaires : RMSD = 1 - 3 Å
  • structures éloignées : RMSD > 3 Å

Limites du score RMSD

  • Il faut que les 2 structures soient dans le même système de repères orthonormés.
  • Cette méthode attribue un poids statistique équivalent à tous les atomes (carbone α et atomes des chaînes latérales)
  • Il faut préciser la liste des atomes à comparer : c'est un problème si les protéines n'ont pas des séquences de longueurs identiques

Pour effectuer un choix pertinent des acides aminés à comparer, on calcule un RMSD local avec les carbones α des acides aminés inclus dans une fenêtre de longueur L+1 :

protein structure prediction macromolecule bioinformatique bioinformatics script langage Python biopython programmation programming sequence motif modelisation pfam PDB hydrophobicity hydropathy hydrophilicity amino acid amine HMM hidden markov model comparison score RMSD TM TM-score biochimej

Le score GDT

Le score GDT ("Global Distance Test") est aussi une mesure de la similarité entre 2 structures protéiques qui ont des structures III différentes.

Ce score est calculé sur la base du plus grand ensemble de carbone α des résidus d'acides aminés de la structure experimentale dont la position dans l'espace correspond (selon un seuil donné : 1 Å, 2 Å, 4 Å et 8 Å) à celles des résidus d'acides aminés de la structure prise pour modèle.

Les scores GDT sont les principaux critères d'évaluation des résultats de prédiction issus de l'expérience CASP ("Critical Assessment of Structure Prediction"). CASP est une expérience à grande échelle de la communauté scientifique qui travaille sur la prédiction de structure. CASP évalue et améliore les différentes techniques de modélisation de structures de protéines.

Le score TM

Le score TM ("Template Modeling score") est également une mesure de la similarité entre 2 structures protéiques qui ont des structures III différentes.

Le score TM est une mesure plus précise de la qualité des structures protéiques que le score RMSD et le score GDT souvent utilisées. Dans le calcul du score TM, les distances faibles ont un poids plus élevé que les distances fortes : ce score est donc insensible aux erreurs de modélisation locales.

  • un score TM > 0. 5 indique une topologie correcte du modèle calculé : les protéines comparées ont un repliement similaire
  • un scoreTM < 0. 17 correspond à des protéines non apparentées choisies au hasard
  • ces seuils de score ne dépendent pas de la longueur de la protéine.

protein structure prediction macromolecule bioinformatique bioinformatics script langage Python biopython programmation programming sequence motif modelisation pfam PDB hydrophobicity hydropathy hydrophilicity amino acid amine HMM hidden markov model comparison score RMSD TM TM-score biochimej

  • max : la somme doit être maximisée (matrice de superposition optimale).
  • Lnative est la longueur de la protéine native (la structure de référence avec laquelle s'effectue la comparaison) et Laligné est la longueur de la région d'acides aminés qui est alignée.
  • di est la distance entre la ième paire de résidus d'acides aminés alignés entre les 2 structures. Cette distance dépend de la matrice de superposition.
  • d0(Lnative) est une échelle de distance qui normalise les différences de distances.

Exemples de superpositions (comparaisons) de structures de protéines avec différents algorithmes (CE; SAL, DALI et TM-align). Les scores RMSD et TM sont indiqués.

protein structure prediction macromolecule bioinformatique bioinformatics script langage Python biopython programmation programming sequence motif modelisation pfam PDB hydrophobicity hydropathy hydrophilicity amino acid amine HMM hidden markov model comparison score RMSD TM TM-score biochimej

Source : Zhang & Skolnick (2005)

Le score lDDT

Le score lDDT ("Local Distance Difference Test") est calculé sur toutes les paires d'atomes dans la structure de référence à une distance inférieure à un seuil prédéfini (appelé rayon d'inclusion), et n'appartenant pas au même résidu d'acide aminé.

Ces paires d'atomes définissent un ensemble de distances locales L :

  • Une distance est conservée dans le modèle M si elle est (selon un seuil de tolérance) la même que la distance correspondante dans l'ensemble L.
  • Si un ou les deux atomes définissant une distance dans l'ensemble L ne sont pas présents dans le modèle M, la distance est non conservée.

Pour un seuil donné, la fraction des distances conservées est calculée. Le score IDDT est la moyenne de 4 fractions calculées en utilisant des seuils identiques à ceux utilisés pour calculer le score GDT (voir ci-dessus).

Voir Mariani et al. (2013).

Divers

  • Il existe un très grand nombre d'algorithmes et de programmes de superposition 2 à 2 ou multiples de structures de protéines ou d'autres molécules comme les ARN. Voir un très grand nombre de programmes de superposition de structures.
  • SupeRNAlign : service WEB et programme en Python de superposition de structures d'ARN homologues.

Retour haut de page

b. Les modules Bio.PDB de BioPython

Les modules Bio.PDB de BioPython permettent d'effectuer des calculs de distances et d'autres calculs liés aux structures des macromolécules de manière générale.

Créer un objet structure à partir d'un fichier PDB :

  • a. Créer un objet "PDBParser" : parser = PDBParser()
  • b. Créer l'objet "structure" à partir d'un fichier PDB ("2NBT.pdb" par exemple). "Toxine" est un exemple de nom donné à l'objet "structure" : structure = parser.get_structure("Toxine", "2NBT.pdb")

Créer un objet structure à partir d'un fichier mmCIF :

  • a. Créer un objet "MMCIFParser" : parser = MMCIFParser()
  • b. Créer l'objet structure à partir d'un fichier PDB ("2NBT.cif" par exemple) : structure = parser.get_structure("Toxine", "2NBT.cif")
1er exemple de calculs : la clathrine 2ème exemple de calculs : la toxine de serpent
Récupérer le script "Contact.py".

Chaînes polypeptidiques du manteau de clathrine : calcul des distances moyenne entre les atomes de la chaîne lourde D et de la chaîne légère M qui sont en contact étroit.

  • Molécule (MOL_ID: 1) : 9 chaînes lourdes de clathrine => A, B, C, D, E, F, G, H, I
  • Molécule (MOL_ID: 2) : 9 chaînes légères de clathrine => J, K, L, M, N, O, P, Q, R

Modifier les lignes suivantes du script "Contact.py" :

  • nomDuFichier = "2NBT.pdb"
  • matriceDistance = matriceDistance(modele["A"], modele["B"])

Code d'accession PDB : 1XI4

Code d'accession PDB : 2NBT

Résultats : distance minimale 4.63 / distance maximale : 201.62

protein structure prediction macromolecule bioinformatique bioinformatics script langage Python biopython programmation programming sequence motif modelisation pfam PDB hydrophobicity hydropathy hydrophilicity amino acid amine HMM hidden markov model comparison score RMSD TM TM-score biochimej

Résultats : distance minimale 4.52 / distance maximale : 48.95

protein structure prediction macromolecule bioinformatique bioinformatics script langage Python biopython programmation programming sequence motif modelisation pfam PDB hydrophobicity hydropathy hydrophilicity amino acid amine HMM hidden markov model comparison score RMSD TM TM-score biochimej

Voir un développement sur l'implication du manteau de clathrine dans l'endocytose.

Voir un développement sur la toxine de serpent de Bungarus multicinctus.

Retour haut de page

8. Le programme MODELLER

Le programme MODELLER est un logiciel de modélisation de structures de protéines par homologie.

  • L'utilisateur fournit un alignement d'une séquence à modéliser avec des séquences de protéines apparentées dont les structures sont connues et MODELLER calcule un modèle contenant tous les atomes autres que l'hydrogène.
  • La modélisation de la structure de la protéine s'effectue par satisfaction des contraintes spatiales.

protein structure prediction macromolecule bioinformatique bioinformatics script langage Python biopython programmation programming sequence protein motif modelisation modeller software biochimej

MODELLER effectue des tâches supplémentaires :

  • modélisation de novo de boucles dans les structures de protéines
  • optimisation de différents modèles de structure de la protéine par rapport à une fonction objectif de flexibilité définie
  • alignement multiple de séquences de protéines et / ou de structures
  • regroupement et classification, recherche dans les bases de données

Format PIR/NBRF

Format des fichiers de la base de données PIR ("Protein Information Resource"), émanation de NBRF ("National Biomedical Research Foundation").

  • Une ligne qui commence par le caractère ">" et un code à 2 lettres qui désigne le type de séquence : P1, F1, DL, DC, RL, RC ou XX.
  • Un point-virgule suivi par le numéro d'accession de la séquence (qui dépend de la base de données dans laquelle est stockée le fichier d'origine).
  • Une ligne qui décrit la séquence.
  • La séquence elle-même : cette partie doit finir par une astérisque.
  • Plusieurs séquences peuvent être mises dans un même fichier.

Exemple

>P1;CRAB_ANAPL
ALPHA CRYSTALLIN B CHAIN
MDITIHNPLI RRPLFSWLAP SRIFDQIFGE HLQESELLPA AQRK*

Retour haut de page

a. Description de la procédure du programme MODELLER

La recherche de séquences similaires dont les structures sont connues est effectuée avec la commande "profile. build ()" (contenue dans le script "build_profile.py") du programme MODELLER.

Le script "build_profile. py" effectue les opérations suivantes :

1. Il initialise l'environnement de la modélisation en créant un objet "environ" (appelé "env"). Presque tous les scripts MODELLER nécessitent cette étape, car ce nouvel objet est nécessaire pour construire la plupart des autres objets utiles à la modélisation.

2. Il crée un objet "sequence_db" (appelé "sdb") utilisé pour contenir de grandes bases de données de séquences de protéines.

3. Il lit, dans la base de données "sdb", un fichier (au format texte) contenant des séquences non redondantes de la PDB. Les séquences sont aussi dans le fichier "pdb_95.pir" au format PIR. Chaque séquence de ce fichier est représentative d'un groupe de séquences de la PDB qui ont 95% ou plus d'identité de séquence et moins de 30 résidus ou moins de 30% de différence de longueur de séquence.

4a. Il écrit un fichier au format binaire contenant toutes les séquences lues à l'étape précédente.

4b. Il relit le fichier au format binaire pour une exécution plus rapide du script.

Mecanique modelisation dynamique moleculaire champ force energie potentielle proteine de novo molecular dynamics force field amber charmm monte carlo ab initio rosetta potentiel biochimej

5a. Il crée un objet "alignment" ("aln").

5b. Il lit la séquence cible TvLDH (dans l'exemple choisi) à partir du fichier "TvLDH.ali".

5c. Il convertit la séquence cible lue en un objet "profil " (appelé "prf"). Les profils contiennent des informations similaires à celles des alignements, mais ils sont plus compacts, plus complets et plus performants pour une recherche dans la base de données de séquences.

6. L'instruction "prf.build()" effectue la recherche dans "sdb" avec le profil "prf". Les correspondances qui sont trouvées sont ajoutées au profil.

7. L'instruction "prf.write()" écrit le nouveau profil contenant la séquence cible et ses homologues dans le fichier (au format texte) de sortie spécifié (le fichier "build_profile.prf").

8. Conversion du nouveau profil en un nouvel alignement.

9. L'instruction "aln.write()" écrit le nouvel alignement contenant la séquence cible et ses homologues dans le fichier (au format PIR) de sortie spécifié (le fichier "build_profile.ali").

Récupérer le script "build_profile.py".

Exécution du script

Si le fichier est enregistré avec le nom "toto.py" et si la version de MODELLER est 9.19 (juillet 2017), la commande pour exécuter ce script est "mod9.19 toto.py".

  • Après exécution, le programme produit un fichier journal ("log file") : c'est un enregistrement de la séquence des événements au cours de l'exécution du script. Dans l'exemple choisi, le fichier s'appelle "toto.log".
  • L'ajustement entre les distributions observées et théoriques des z-scores est calculé (statistique D de Kolmogorov-Smirnov) après chaque itération et rapporté dans le fichier journal ("check_profile=True").
  • Le programme écrit le profil dans un fichier appelé "toto.prf" (dans l'exemple choisi).

Voir un descriptif très précis de toutes les étapes de MODELLER.

biochimej Retour haut de page

b. Détail de la syntaxe de la commande profile.build()

Cette commande analyse (de manière itérative) une base de données contenant un très grand nombre de séquences protéiques dans le but de créer un profil pour la séquence (ou l'alignement) que l'on veut modéliser.

Cette commande calcule le score d'un alignement local (méthode de Smith-Waterman) entre la séquence à modéliser et chacune des séquences de la base de données.

build(
sdb,
gap_penalties_1d=(-900.0, -50.0),
matrix_offset=0.0,
rr_file='$(LIB)/as1.sim.mat',
n_prof_iterations=3,
max_aln_evalue=0.1,
matrix_scaling_factor=0.0069,
check_profile=True,
output_score_file=None,
gaps_in_target=False,
score_statistics=True,
pssm_weights_type='HH1',
pssm_file=None
)

Les alignements avec des E-values inférieures à la valeur du paramètre "max_aln_evalue" sont ajoutés à l'alignement en cours.

Une matrice PSSM ("Position Specific Scoring Matrix") est générée à partir de l'alignement en cours : cette matrice est utilisée pour rechercher dans la base de données de séquences choisies.

Cette procédure itérative est répétée :

  • un nombre de fois égal à la valeur du paramètre "n_prof_iterations"
  • ou jusqu'à ce qu'il n'y ait pas d'alignement significatif en dessous du seuil.

Remarque : la recherche d'un repliement nécessite un drapeau "gaps_in_target=True".

Retour haut de page

c. Bases de données liées à MODELLER ou utilisant ce programme

α. Le serveur de prédiction de structures de protéines et le programme HHpred

  • HHpred est un serveur basé sur la comparaison 2 à 2 de profils de modèles de Markov cachés (HMM).
  • HHpred est aussi une méthode de recherche dans les bases de données d'alignement comme Pfam ou SMART.
  • Enfin, c'est également un programme de prédiction de structure très sensible qui permet de trouver des homologues distants.

HHpred :

  • Accepte une séquence unique ou un alignement multiple comme requête.
  • Les options de recherche incluent l'alignement local ou l'alignement global et le calcul de score de similarité de structure secondaire.
  • Les résultats sont fournis dans un format similaire à celui de PSI-BLAST.
  • HHpred fournit des alignements multiples et des modèles structuraux 3D calculés par MODELLER (à partir des alignements HHpred).

β. La base de données de modèles de structures protéiques annotées ModBase ("Database of Comparative Protein Structure Models")

Les modèles sont calculés par ModPipe, une suite logicielle ("pipeline") de modélisation automatisée qui repose principalement sur MODELLER pour :

  • l'identification des repliements des protéines
  • l'alignement séquence vs. structure
  • la construction puis l'évaluation de modèles

ModBase contient plus de 5 millions de modèles fiables de domaines issus de presque 1,6 millions de séquences protéiques uniques. Seuls les modèles basés sur des alignements statistiquement significatifs et/ou des modèles dont le repliement est correct sont inclus.

Retour haut de page

d. Autres logiciels de modèlisation structurale par homologie

 

10. Liens Internet et références bibliographiques

Atelier "Drug design" - Expasy

Introduction to Biological Assemblies and the PDB Archive

SWISS-MODEL Repository (SMR) : base de données de modèles de structures protéiques 3D annotées

Drug design

PDB

SMR

Lee B. & Richards F.M. (1971) "The interpretation of protein structures : estimation of static accessibility" J. Mol. Biol. 55, 379 - 400

Kyte & Doolittle (1982) "A simple method for displaying the hydropathic character of a protein" J. Mol. Biol. 157, 105 - 132

Eisenberg et al. (1982) "The helical hydrophobic moment: a measure of the amphiphilicity of a helix" Nature 299, 371 - 374

Berman et al. (2000) "The Protein Data Bank" Nucleic Acids Res. 28, 235 - 242

Ye & Godzik (2003) "Flexible structure alignment by chaining aligned fragment pairs allowing twists" Bioinformatics 19, ii246-ii255.

Article

Article

Article

Article

Article

Wu et al. (2003) "The Protein Information Resource" Nuc. Acids Res. 31, 345 - 347

Eddy S.R. (2004) "What is a hidden Markov model ?" Nat. Biotechnol. 22, 1315-1316

Zhang & Skolnick (2004) "Scoring function for automated assessment of protein structure template quality" Proteins 57, 702 - 710

Zhang & Skolnick (2005) "TM-align: a protein structure alignment algorithm based on the TM-score" Nucleic Acids Res. 33, 2302 - 2309

Eswar et al. (2006) "Comparative Protein Structure Modeling with MODELLER" Current Protocols in Bioinformatics, John Wiley & Sons, Inc., Supp. 15, 5.6.1-5.6.30

Article

Article

Article

Article

Article

Tien et al. (2013) "PeptideBuilder: A simple Python library to generate model peptides" PeerJ. 1, e80

Ali et al. (2014) "A review of methods available to estimate solvent-accessible surface areas of soluble proteins in the folded and unfolded states" Curr. Protein Pept. Sci. 15, 456 - 476

Webb & Sali (2016) "Comparative protein structure modeling using MODELLER" Curr. Protoc. Bioinformatics Chapter 5, unit 5.6

Finn et al. (2016) "The Pfam protein families database: towards a more sustainable future" Nuc. Acids Res. Database Issue 44, D279 - D285

Article

Article

Article

Article

Janson et al. (2017) "PyMod 2.0: improvements in protein sequence-structure analysis and homology modeling within PyMOL" Bioinformatics 33, 444 - 446

Jubb et al. (2017) "Arpeggio: a web server for calculating and visualising interatomic interactions in protein structures" J. Mol. Biol. 429, 365 - 371

Burley et al. (2018) "RCSB Protein Data Bank: Sustaining a living digital data resource that enables breakthroughs in scientific research and biomedical education" Protein Sci. 27, 316 - 330

Article

Article

Article

Retour haut de page

Valid XHTML 1.0 Transitional