Métabolomique - Modèles de reconstruction métabolique à l'échelle d'un génome
Flux RSS

 

1. Le métabolome et la métabolomique

a. Introduction et définitions
b. Incidences du métabolome sur les macromolécules biologiques et les processus cellulaires
c. Techniques pour l'étude du métabolome

2. Modèles de reconstruction du métabolisme à l'échelle d'un génome

a. Introduction
b. Accroissement du nombre de modèles
c. Les difficultés pour modéliser le métabolisme

3. Données et outils pour l'élaboration de modèles de reconstruction métabolique

a. Exemples de données
b. Exemples d'outils

4. La méthode de l'analyse de l'équilibre des flux pour l'obtention de modèles de reconstruction métabolique

a. Introduction
b. Formalisme des vitesses des réactions du métabolisme

 

c. 1er exemple
d. 2ème exemple
e. La matrice de stoechiométrie S
f. L'état stationnaire
g. Les contraintes
h. Exemples de fonctions objectif
i. La croissance et la biomasse
j. Les grandeurs GAM et NGAM

5. Autres méthodes pour le développement de modèles de reconstruction métabolique

6. Démarche globale de la reconstruction métabolique à l'échelle d'un génome

a. L'amélioration itérative du modèle
b. Amélioration d'un modèle de reconstruction métabolique
c. Illustration de l'amélioration d'un modèle de reconstruction via celle de l'annotation

7. Illustration : étude du contrôle du métabolisme glucidique lié au diabète de type 2

8. La base de données de modèles : "Biomodels" - EBI

9. Liens Internet et références bibliographiques

 

1. Le métabolome et la métabolomique

a. Introduction et définitions

La métabolomique est définie actuellement comme l'analyse (identification, quantification, classification, découverte, ...) des petites molécules (masse molaire < 1000 - 1500 Da) constitutives d'une cellule, d'un tissu ou d'un fluide biologique.

Ces molécules sont appelées métabolites et résultent de l'ensemble des réactions du métabolisme d'un organisme.

Remarque : le métabolisme primaire et le métabolisme secondaire mettent en jeu beaucoup d'autres types de macromolécules. En particulier les enzymes, de même que des lipides et des oses dont les structures sont bien plus complexes et dont les masses molaires sont bien plus élevées.

  • Les métabolites appartiennent à toutes les familles de molécules biologiques : acides aminés et petits peptides (< 14 acides aminés), oses et lipides (de faible complexité structurale), nucléotides et oligonucléotides (< 5 nucléotides), acides organiques et antioxydants, vitamines, hormones, composés du métabolisme secondaire (antibiotiques, pigments, polyphénols, alcaloïdes, flavonoïdes, ...).
  • Ils sont de nature physico-chimique, de masse molaire et de concentration très diverses.

Les métabolites sont très nombreux :

  • On estime qu'il existe de 5 104 à 2 105 métabolites dans le règne végétal (caractérisé par un métabolisme secondaire important) et de 7000 à 15000 métabolites au sein d'une même espèce végétale.
  • Chez l'homme, on estime qu'il y a environ 3000 métabolites.
  • Ces chiffres sont probablement sous-estimés car certains métabolites en faible abondance sont difficiles à détecter. Les plantes sont cependant plus "riches" sur le plan biochimique et elles contiennent en général un plus grand nombre de gènes.

L'ensemble des métabolites constitue le métabolome :

  • C'est un ensemble très dynamique puisqu'il résulte des modifications du métabolisme en réponse aux variations de conditions de vie d'un organisme.
  • Le métabolome résulte du métabolisme : l'analyse métabolomique permet d'étudier l'adaptation du métabolisme aux modifications d'environnement ou de comparer les métabolismes de différents organismes.
  • Cette approche met en évidence des réactions biochimiques non encore identifiées et, par voie de conséquence, les enzymes (qui catalysent ces réactions) jusqu'à lors inconnues.

Remarques :

  • Il y a un emploi important d'acronymes en métabolomique et beaucoup de termes anglo-saxon n'ont pas une traduction "évidente" et claire.
  • De nouveaux mots en "omique" font leur apparition, sans qu'ils aient un sens réel tant que les domaines afférant n'ont pas été pleinement développés ("fluxomique" - étude de l'ensemble des flux métaboliques, "réactomique" et pourquoi pas ... "cellulomique").
  • Voir un cours sur les domaines en "omique".

Retour haut de page

Les investissements importants des gouvernements et des entreprises privées augmentent la croissance du marché de la métabolomique à l'échelle mondiale (intensifiée par le développement des techniques informatiques d'analyse des données de métabolomique).

Le NIH ("National Institutes of Health") a annoncé un investissement de 14,3 millions de dollars en 2012 (et probablement 51,4 millions de dollars sur 5 ans) pour le développement de la métabolomique.

Selon certains analystes, la demande mondiale en métabolomique :

  • A été évaluée à plus de 675 millions de dollars en 2015.
  • Devrait dépasser 2,5 milliards de dollars en 2021 (croissance supérieure à 25% entre 2016 et 2021), voire 3,6 milliards de dollars en 2024.
  • Le taux de croissance élevé est dû principalement à la forte demande des communautés scientifiques pour l'analyse des processus biologiques et l'étude des maladies et le besoin de nouvelles applications de soins.

Les grandes entreprises mondiales actuelle sont que Thermo Fisher Scientific Inc., Bruker Corporation, Agilent Technologies, Bio-rad Laboratories et Danaher Corporation. Elles collaborent activement avec les Universités et les laboratoires de recherche.

Actuellement, les principaux champs d'investissements sont les biomarqueurs et la découverte de médicaments, la toxicologie, la nutrigénomique, la médecine personnalisée.

Retour haut de page

b. Incidences du métabolome sur les macromolécules biologiques et les processus cellulaires

La fonction de très nombreuses protéines est contrôlée par des métabolites. Par exemple :

Bien évidemment, l'activité des enzymes est contrôlée par les métabolites qui leur servent de substrat(s), de cofacteur(s) ou de coenzyme(s), d'inhibiteurs(s) ou d'effecteur(s) allostérique(s).

Les métabolites influencent également le métabolisme des acides nucléiques :

  • Ils jouent un rôle dans la régulation épigénétique en tant que cofacteurs ou coenzymes des enzymes qui modifient la chromatine.
  • Ils jouent un rôle dans le métabolisme des ARN en agissant sur les riboswitches et en régulant les modifications post-transcriptionnelles.

Exemples de cofacteurs et coenzymes : coenzyme A, acide lipoïque, acide tétrahydrofolique, nicotinamide adénine dinucléotide (NAD+), flavine adénine dinucléotide, flavine mononucléotide, thiamine pyrophosphate, S-adénosylmethionine (SAM), S-adénosylcystéine, ...

L'ATP illustre tout particulièrement le lien entre métabolites et processus cellulaires :

Enfin les métabolites ont une très forte incidence sur les propriétés physico-chimiques du milieu cellulaire, en priorité le pH (protons relargués par les divers métabolites acides et les réactions d'oxydo-réduction) que la cellule doit contrôler en permanence.

Ainsi, la métabolomique permet d'analyser les rôles des métabolites dans la régulation de phénotypes. Par exemple, le NAD+ (coenzyme des oxido-réductases) est également un co-substrat, notamment des sirtuines (désacétylases dépendantes du NAD+), enzymes régulatrices des fonctions métaboliques et de la longévité.

Retour haut de page

c. Techniques pour l'étude du métabolome

Techniques physiques

Les techniques actuelles ne permettent d'analyser que des métabolites de masse molaire limitée (quelques kDa). Les mieux adaptées à l'analyse du métabolome sont :

  • La spectromètrie de masse couplée à une technique de séparation (la chromatographie ou l'électrophorèse).
    1. Les différents supports de chromatographie en phase liquide (LC) couvrent la plus large gamme de métabolites.
    2. La chromatographie en phase gazeuse (GC) est adaptée aux échantillons volatils. Elle a une résolution élevée et son coût par échantillon est faible.
    3. La chromatographie ionique (IC) est adaptée aux métabolites chargés ou très polaires. Elle a une haute résolution et elle permet de séparer des isomères.

metabolomique metabolomics metabolome metabolite metabolisme metabolic network reconstruction GENRE LC-MS biochimej

Source : Thermo Fisher Scientific Inc.

  • La résonance magnétique nucléaire (RMN).
  • La micro-spectroscopie Raman, la spectroscopie infrarouge à transformée de Fourier, les méthodologies dérivées du FRET ("Fluorescence / Förster resonance energy transfer", en particulier BRET - "Bioluminescence initiated RET") sont des techniques capables de détecter des métabolites à l'échelle de cellules individuelles ("single-cell biology").
  • Les molécules BODIPY (bore dipyrométhene) constituent un groupe de colorants dont certaines études ont indiqué une limite de détection de 1 zmole (= 10-21 mole).

Métabolomique ciblée vs. non ciblée

  • La métabolomique ciblée mesure un ensemble de métabolites pré-définis (hypothèses de départ) avec un niveau élevé de précision : elle a donc une limite de détection basse mais elle permet une quantification absolue de l'échantillon. Cependant, elle ne permet pas de découvrir des métabolites inconnus.
  • La métabolomique non ciblée analyse l'ensemble des métabolites d'un échantillon sans hypothèse préalable. Elle permet une quantification relative et nécessite de valider les métabolites identifiés (comparaison avec des bases de données). Elle génère de grandes quantités de données et requiert donc un traitement informatique plus conséquent pour interpréter les résultats.

Etude du métabolome avec des isotopes stables

La variation du taux d'un métabolite donné résulte de la vitesse des enzymes qui le synthétisent et de celles qui l'utilisent comme substrat : cependant, les analyses métabolomiques ne fournissent pas d'informations sur le activités enzymatiques d'une voie métabolique. L'un des moyens de déterminer le rôle et le taux des métabolites dans les voies métaboliques consiste à suivre leur devenir avec des isotopes stables traceurs tels que le deutérium (2H), le carbone (13C) ou l'azote (15N).

Analyse bioinformatique des données de métabolomique

Outre la puissance accrue des calculateurs et la quantité de mémoire quasi illimitée des serveurs, l'identifications des métabolites est facilitée par des bases de données de métabolites telles que :

Des ressources sont mises à la disposition des laboratoires non équipés ou ne disposant pas des compétences requises en métabolomique. Par exemple :

  • "Common Fund's Metabolomics" (NIH) : ce programme finance 6 centres régionaux de ressources métabolomiques complètes, un référentiel de données et un centre de coordination, afin de proposer une formation par la pratique et une formation en ligne dans divers domaines, notamment le traitement et l'interprétation des données.
  • L'initiative européenne COSMOS ("COordination of Standards in MetabOlomicS"), essaye de promouvoir une norme pour les données de métabolomique en fournissant à la fois des expériences et un partage de données et d', aidant ainsi de nouveaux chercheurs sur le terrain.
  • Ressources du consortium européen EBI :
    1. Reactome: base de données de voies métaboliques et de réactions enzymatiques.
    2. MetaboLights : base de données inter-espèces, multi-techniques (données expérimentales) qui contient les structures de métabolites (avec leurs spectres de référence), leurs rôles biologiques, leurs localisations et leurs concentrations.
    3. ChEBI : base de données d'entités chimiques (molécules non codées par le génome) d'intérêt biologique, annotées manuellement.

Retour haut de page

2. Modèles de reconstruction du métabolisme à l'échelle d'un génome

a. Introduction

De plus en plus de génomes sont séquencés ou en cours de séquençage. Voir les bases de données suivantes :

Les modèles du métabolisme à l'échelle d'un génome établissent le lien entre les informations issues du séquençage de ce génome (et les informations issues des analyses subséquentes de ce génome), les données biochimiques et métaboliques et les phénotypes liés à ce métabolisme.

Cette démarche est récente car elle est la conséquence logique de tous les domaines antérieurs en "omique".

domaine omique metabolomics genome-scale metabolic network reconstruction modelling GENRE stoichiometric matrix matrice stoechiometrie reaction rate flux balance biochimej

Quelques terminologies anglo-saxonnes :

  • "Genome-scale metabolic reconstruction", "Metabolic network reconstruction", "Genome-scale measurement, modelling and predicting of dynamic metabolic networks",
  • acronyme GENRE = "GEnome-scale Network REconstruction"
  • acronyme GEM = "Genome-scale metabolic model"

Retour haut de page

b. Accroissement du nombre de modèles

Le premier modèle de reconstruction du métabolisme à l'échelle d'un génome a été publié en 1999 pour Haemophilus influenzae (Edwards & Palsson, 1999).

Pour l'être humain :

  • L'un des tous premiers modèles de reconstruction métabolique a été RECON 1 (Duarte et al., 2007)
  • Avril 2018 : RECON 3D / PDB => 3288 cadres de lecture ouverts (soit 17% des gènes annotés de l'être humain), 13543 réactions métaboliques impliquant 4140 métabolites uniques et 12890 structures de protéines.
  • AGORA : les modèles de reconstruction du métabolisme à l'échelle d'un génome dérivés des données de métagénomique de l'intestin humain (AGORA - « human gut metagenomic ») contribuent à expliquer comment les communautés microbiennes modulent le métabolisme et la santé de l'homme (Magnusdottir et al., 2017)
  • Virtual Metabolic Human Database

La figure ci-dessous montre le nombre croissant de modèles de reconstruction métabolique à l'échelle d'un génome.

modele reconstruction echelle genome genome-scale metabolic network reconstruction modelling GENRE biochimej

Source : Kim et al. (2012) - orange : eukaryotes / bleu : prokaryotes / vert : archaea

Le nombre de modèles croit exponentiellement : 30% des modèles ont été construits depuis 2010. Par exemple : la base de données dédiée au métabolome de E. coli (ECMDB) contient 3755 métabolites associées à 1402 enzymes, 387 transporteurs et 1542 voies métaboliques.

Un nombre croissant de modèles d'Eucaryotes (beaucoup plus complexes) sont construits. Parmi eux, on note 3 plantes :

La figure ci-dessous montre le nombre cumulé de modèles du métabolisme à l'échelle d'un génome ("GEnome-scale Network REconstruction" - GENRE). La figure b indique le nombre d'enzymes annotées selon leur numéro EC ("Enzyme commission") intégrées dans les modèles.

modele reconstruction echelle genome genome-scale metabolic network reconstruction modelling GENRE biochimej

Source : Monk et al. (2014)

Figure ci-dessous : arbre phylogénique des modèles métaboliques à l'échelle d'un génome de 6239 organismes (5897 bactéries en bleu clair, 127 archées en violet clair et 215 eucaryotes en rose - février 2019) :

modele reconstruction echelle genome genome-scale metabolic network reconstruction modelling GENRE biochimej

Source : Gu et al. (2019)

Voir : "Whole genome metabolism models available" - BioModels Database - EBI

Retour haut de page

c. Les difficultés pour modéliser le métabolisme (liste non-exhaustive)

  1. Le nombre colossal de réactions biochimiques (des dizaines de milliers), donc de métabolites et d'enzymes.
  2. La compartimentation cellulaire qui peut séparer un substrat de l'enzyme qui l'utilise : nécessité d'un transporteur sans lequel la réction ne peut avoir lieu.
  3. L'existence de famille multigénique codant une même enzyme.
  4. Les modifications post-transcriptionnelles : les différents transcrits issus d'un même gène.
  5. La modulation de la concentration des enzymes (voire de leurs inhibiteurs protéiques) via l'interférence ARN.
  6. Les modifications post-traductionnelles : l'existence de plusieurs isoformes d'une même enzyme.
  7. L'adressage (peptides signaux) des protéines à des compartimentaux distincts.
  8. La structure IV d'une enzyme (cas de plusieurs sous-unités différentes).
  9. Les complexes multienzymatiques.
  10. Les réactions réversibles (au voisinage de l'équilibre) et les réactions irréversibles (ΔG' << 0).
  11. Les paramètres physico-chimiques : température, pH, force ionique, pression, viscosité, co-facteurs ...
  12. Les enzymes qui agissent sur différents substrats avec des KM trés différents.
  13. La modulation de l'activité enzymatique : fixation coopérative, régulation allostérique - fixation d'effecteurs (inhibiteurs ou activateurs - effets homotropes ou hétérotropes).
  14. La spécificité large de classes de substrats pour certaines enzymes (exemple : les alcool déshydrogénases - EC 1.1.1.1) ou les enzymes qui agissent sur des acides gras de longueur ou de degré de saturation variables.
  15. Les concentrations réelles d'enzymes et/ou de métabolites (Bennett et al., 2009) : trés large gamme des concentrations intracellulaires qui s'échelonnent du pM au mM.
  16. Les concentrations limitantes d'enzymes et/ou de métabolites.
  17. La connectivité des métabolites qui reflète leur fréquence d'utilisation dans diverses réactions (et donc leur interaction avec d'autres métabolites).
  18. métabolites et / ou enzymes non encore connus : exemple de la découverte tardive du fructose 2,6-bisphosphate, modulateur clé de la régulation de la glycolyse et de la néoglucogénèse.
  19. Les "entrées - sorties" : les nutriments et les déchets (notion de biomasse).
  20. ...

Figure ci-dessous : exemple (très simple en regard de la réalité biologique) qui illustre la complexité des phénomènes cellulaires

Systeme cellulaire complexe genome-scale metabolic network reconstruction modelling GENRE biochimej

  • le gène 1 code pour une enzyme E1 qui transforme le métabolite M1 en M2 avec hydrolyse de l'ATP
  • E2 et E4 sont 2 isoformes codées par 2 gènes distincts (famille multigènique)
  • le gène 3 code pour 2 ARN messagers (épissage alternatif) donc 2 enzymes
  • E3 est modifiée post-traductionnellement
  • M4 rétro-inhibe E4
  • M4 et M5 (métabolite d'une autre voie) sont substrats de E5, issue d'un épissage alternatif du gène 3
  • ...

Cas des réactions et des enzymes manquantes (connues et/ou non connues)

  • L'équilibre des masses peut être vérifié sur la base des compositions chimiques des métabolites (base de données spécifiques telle que Pubchem).
  • Il ne peut y avoir de métabolites associé à un coefficient stoechiomètrique nul ou négatif. L'exemple ci-dessous est incohérent ("inconsistent") puisque le coefficient associé à C doit être nul.
     k1 
 A -----> B
     k2 
 A -----> B + C      
  • Les modèles peuvent être irréalistes sur le plan thermodynamique. Il faut alors "rendre réversible" une réaction qui est irréversible. Cette correction est complexe car il faut compulser des données qui n'existent pas forcément (voire calculer des valeurs de ΔG') et la vérification est trés coûteuse en temps de calcul.
  • Le flux est la vitesse de transformation d'un métabolite dans une voie métabolique.
  • Les métabolites jamais consommés ou produits ("dead-ends metabolites") sont des révélateurs trés utiles pour mettre en évidence des réactions (métabolites et/ou enzymes) qui manquent : une réaction qui manquerait dans une voie linéaire annulerait le flux. Or, pour que le modèle soit fonctionnel, il ne doit pas y avoir de flux non-nul prédit.

Gevorgyan et al. (2008) "Detection of stoichiometric inconsistencies in biomolecular models" Bioinformatics 24, 2245 - 2251

Retour haut de page

3. Données et outils pour l'élaboration de modèles de reconstruction métabolique

a. Exemples de données

La reconstruction du métabolisme à l'échelle d'un génome intègre l'ensemble des données issues (liste non exhaustive) :

  • du séquençage des génomes et de la détermination de leur structure (génomique structurale)
  • de l'expression spatio-temporelle des gènes (génomique fonctionnelle)
  • du taux spatio-temporel réel des ARN messagers (transcriptomique)
  • du taux spatio-temporel réel de protéines (protéomique)
  • des bases de données de voies métaboliques. Exemples : KEGG pathways, KEGG genes & proteins, BioCyc (EcoCyc, MetaCyc, AraCyc, YeastCyc, ...) et d'autres.
  • des bases de données généralistes (recueil d'informations) sur les gènes, les ARN messagers, les protéines, les métabolites et autres (NCBI, EBI, Uniprot, TransportDB , ...)
  • des bases de données sur les enzymes : réactions catalysées, paramètres cinétiques, substrats, produits, co-facteurs, effecteurs et autres (Brenda, Enzyme , ...)
  • des bases de données d'annotation des gènes et des protéines : Gene Ontology, KAAS (KEGG Automatic Annotation Server), DAVID , ...
  • des bases de données de la littérature scientifique : NCBI PubMed, ...
  • des données biochimiques accumulées depuis des décennies : décryptage des voies métaboliques, données thermodynamiques (en particulier ΔG' des réactions), concentration des métabolites, vitesse des réactions enzymatiques, paramètres cinétiques des enzymes ...

Metabolomique metabolomics genome-scale metabolic network reconstruction modelling GENRE biochimej

Les modèles de reconstruction du métabolisme à l'échelle d'un génome nécessitent donc de fouiller ("data mining") une quantité colossale de données et, bien souvent, de les nettoyer (les "curer" - curators).

Ce travail méticuleux, extrêmement gourmand en temps est laborieux et systématique.

Les nouvelles données, déduites de l'analyse de l'ensemble de ces informations de base, constituent donc "sur-information" :

  • Données concernant les possibilités métaboliques d'une cellule (ou d'un organisme) à s'adapter / évoluer dans tel environnement : un lien est alors établi entre le génome, le métabolisme et le phénotype.
  • Informations concernant l'histoire évolutive d'une cellule (ou d'un organisme).
  • Confirmation ou infirmation du rôle majeur de telle réaction enzymatique dans la régulation du flux de telle voie métabolique.
  • Confirmation ou infirmation des corrélations établies entre gènes, transcrits, enzymes (réactions catalysées) et métabolites.
  • Mise en évidence de maillons métaboliques manquants : enzymes ou métabolites qui n'auraient pas été identifiés mais dont l'existence s'impose pour que les modèles soient cohérents et fonctionnent.
  • Comparaison de métabolisme intra- et inter-espèces : cette partie est la plus difficile car il faut avoir des modèles reconstruits pour les espèces comparées et ces modèles doivent être construits avec les mêmes nomenclatures, formalismes et structures de fichiers.

Enfin et non des moindres :

  • Modification et améliorations d'espèces par ingénièrie ("knockout", accroissement de la transcription de gènes par "familles de facteur de transcription", ingénièrie des protéines, insertion de réactions dans une voie métabolique, modifications de flux métabolique, ...).
  • Par exemple, en mutant la séquence d'un promoteur constitutif, Alper et al. (2005) ont construit une banque de promoteur de différentes forces permettant de moduler la vitesse de transcription d'un même gène au niveau désiré selon le promoteur inséré en amont. Cela permet de contrôler la vitesse de transcription de toutes les enzymes d'une voie métabolique afin d'en optimiser le flux.

Voir Durot et al. (2009)

Retour haut de page

b. Exemples d'outils

Il faut d'abord décrire l'ensemble des réactions : identifier les métabolites impliqués en déterminant leur stoechiomètrie et identifier les enzymes qui catalysent ces réactions.

Les techniques de mesures quantitatives des métabolites les plus utilisées sont :

Les annotations fonctionnelles disséminées dans les bases de données doivent donc être compulsées, triées et les plus complètes possibles afin d'être traduites en un ensemble de réactions détaillées.

La classification EC ("Enzyme Commission") de "Enzyme" fournit un système non ambigu d'association entre enzymes et réactions catalysées.

Figure ci-dessous, exemples d'outils logiciels pour la reconstruction métabolique à l'échelle d'un génome. Cet exemple n'est qu'indicatif car ces outils évoluent très rapidement : de nouveaux outils de plus en plus performants sont régulièrement développés, d'autres (en ligne) ne sont pas maintenus et disparaissent.

methode method genome-scale metabolic network reconstruction modelling GENRE biochimej

Source : Pitkänen et al. (2010)

Exemples d'algorithmes / programmes pour la reconstruction métabolique à l'échelle d'un génome
RFBA : "Regulatory Flux Balance Analysis" EBA : "Energy balance analysis with Flux Balance Analysis"
SR-FBA : "Steady-state Regulatory Flux Balance Analysis" TMFA : "Thermodynamics-based Metabolic Flux Analysis"
GapFind/GapFill GrowMatch : "An Automated Method for Reconciling In Silico/In Vivo Growth Predictions"
GeneForce : "An Automated Phenotype-Driven Approach (GeneForce) for Refining Metabolic and Regulatory Models" SMILEY algorithm
TIGER : "Toolbox for integrating genome-scale metabolic models, expression data, and transcriptional regulatory networks" RAVEN toolbox (suite logicielle pour Matlab)

Exemples de bases de données pour la reconstruction métabolique à l'échelle d'un génome
GOLD ("Genomes OnLine Database") : base de données de tous les génomes séquencés ou en cours de séquençage CMR ("Comprehensive Microbial Resource") : ensemble d'informations et de programme pour l'analyse des génomes de procaryotes
GeneCards : base de données de gènes de l'homme YMDB : "The Yeast Metabolome Database"
Enzyme : base de données de nomenclature des enzymes avec les N° EC associés Brenda : base de données d'enzymes
TCDB ("Transporter Classification Database") : protéines de transport membranaires BioCyc (contient les sous-bases de données EcoCyc (Escherichia coli K-12), AraCyc (Arabidopsis thaliana) , ...) : voies métaboliques et programmes pour les analyser
Pubchem : base de données de métabolites metaTIGER : base de données de voies métaboliques et d'informations phylogénomiques pour un trés grand nombre d'eucaryotes
IntAct : base de données d'interactions entre protéines STRING : "Known and Predicted Protein-Protein Interactions"
The Model SEED : "A resource for the generation, optimization, curation, and analysis of genome-scale metabolic models" MetaRoute : "web interface for interactive navigation through genome-scale networks and local network visualization"
ERGO : "Comparative analysis of genomes and generation of sophisticated metabolic and cellular reconstructions" KEGG ("Kyoto Encyclopedia of Genes and Genomes") : base de données pour l'étude des systèmes biologiques
Gene Ontology, DAVID , ... : annotation KAAS (KEGG Automatic Annotation Server) : annotation
Les grandes bases de données généralistes : NCBI, EBI, Uniprot, PFAM, PDB, ...

Des langages informatiques sont également développés pour générer des fichiers de format standardidés aussi bien pour leur emploi par différentes programmes que pour comparer différents modèles de rcnstruction. Le langage le plus communément employé est SBML ("Systems Biology Markup Language").

Voir un exemple.

Retour haut de page

4. La méthode de l'analyse de l'équilibre des flux pour l'obtention de modèles de reconstruction métabolique

a. Introduction

L'analyse de l'équilibre des flux ne nécessite pas de connaitre la concentration des métabolites ni les vitesses des réactions enzymatiques du système métabolique étudié.

La question s'énonce de la manière suivante : compte-tenu des nutriments disponibles, quel ensemble de flux métaboliques maximise la croissance de l'organisme tout en maintenant la concentration intracellulaire des métabolites ?

  • L'analyse de l'équilibre des flux ("Flux Balance Analysis", FBA) est une méthode mathématique qui utilise la stœchiométrie de chaque réaction enzymatique d'un système métabolique pour obtenir une solution dans les conditions de l'état stationnaire.
  • Cette solution est obtenue en optimisant une fonction objectif, généralement la croissance de l'organisme.
  • Pour réduire l'espace des solutions possibles (initialement très vaste), on ajoute des contraintes basées sur des données expérimentales.

Retour haut de page

b. Formalisme des vitesses des réactions du métabolisme

Le formalisme des vitesses des réactions enzymatiques peut-être une expression complexe de [la concentration des métabolites x constantes de vitesse des réactions].

De plus ces vitesses sont en permanence modulées par les processus de régulation :

  • régulation de la transcription des gènes
  • régulation de la traduction en enzymes
  • régulation de la synthèse des substrats, des produits, des molécules effectrices de l'activité de ces enzymes (le métabolisme)
  • régulation du transport des métabolites
  • ...

Décrire par le détail les équations qui traduiraient ces deux parties (cinétique enzymatique et processus de régulation) est une gageure tant sur le plan mathématique qu'en ce qui concerne le nombre de données requises. Et ce d'autant que l'on a aucune certitude de disposer de manière exhaustive de ces données. Pour s'en convaincre, il suffit de regarder ce que l'on connait du métabolisme de base. On mesure la complexité inouie des modèles qu'il faudrait développer.

En pratique, à ce jour, on restreint les modèles sur le plan cinétique des réseaux métaboliques d'une cellule à des modèles plus modestes qui incluent des miliers de réactions (d'enzymes) et de métabolites, associés à autant (voire davantage) de gènes.

Retour haut de page

c. 1er exemple

Matrice stoechiometrique stoichiometric matrix reaction rate flux balance biochimej

Pour l'ensemble du système, on a la relation :

Matrice stoechiometrique stoichiometric matrix reaction rate flux balance biochimej

  • V est le vecteur des vitesses
  • S est la matrice des coefficients stoechiomètriques
  • v est le vecteur des lois de réactions

Qui se traduit, dans le cas du système des réactions R1 et R2, par le formalisme :

Matrice stoechiometrique stoichiometric matrix reaction rate flux balance biochimej

Retour haut de page

d. 2ème exemple

Matrice stoechiometrique stoichiometric matrix reaction rate flux balance biochimej

Qui se traduit par le formalisme :

Matrice stoechiometrique stoichiometric matrix reaction rate flux balance biochimej

Retour haut de page

e. La matrice de stoechiométrie S ("S-matrix" ou "Stoichiometric matrix")

Elle permet d'établir une relation linéaire, donc mathématiquement simple, entre :

  • la vitesse de flux ("flux rate" ) des réactions enzymatiques
  • et la variation de la concentration des substrats (réactants) en fonction du temps

Par convention :

  • les lignes de la matrice correspondent aux métabolites (réactants) impliqués dans chacune des réactions : 1 ligne pour chaque métabolite
  • les colonnes correspondent aux réactions du système : 1 colonne pour chaque réaction
  • les coefficients stoechiomètriques sont négatifs s'il s'agit du substrat (puisque consommé)

Exemple matrice stoechiometrique stoichiometric matrix reaction rate flux balance genome-scale metabolic network reconstruction modelling GENRE

Source : Durot et al. (2009)

Exemple simple de la construction d'une matrice de stoechiométrie N : on établit une liste de gènes qui codent les enzymes qui catalysent les réactions ν1, ν2 et ν3 impliquant les métabolites M1, M2, M3 et M4 (partie i figure ci-dessous).

Construction matrice stoechiometrique flux balance stoichiometric matrix reaction rate genome-scale metabolic network reconstruction modelling GENRE

Source : Weckwerth (2011)

  • Ces réactions enzymatiques correspondent à la voie métabolique décrite dans la partie (ii).
  • La matrice de stoechiométrie N est obtenue à partir de cette liste de gènes et de la voie métabolique prédite.
  • Les vitesses de réactions rMi de transformation des métabolites sont exprimées sous la forme du produit : rMi = N . vecteur de flux (partie iii).

Retour haut de page

Remarque

Modéliser l'ensemble des évènements intra- et extra-cellulaires, surtout chez les Eucaryotes, est donc d'une extrême compléxité. Les modèles actuels ne tiennent pas (encore) compte de tous les mécanismes qui régulent le métabolisme et, à une plus grande échelle, l'ensemble des processus cellulaires.

Quelques exemples traduisent la complexité des paramètres dont il faut tenir compte pour essayer de "simuler" une cellule in silico :

  • les différents types de transports (actif - hydrolyse de l'ATP, passifs via des canaux, ...)
  • les compositions (donc les propriétés physico-chimiques) très différentes des membranes propres à chaque compartiment sub-cellulaire
  • l'épissage alternatif et donc les différences de taux des différents transcrits d'un même gène (rôle des facteurs de transcription)
  • le taux de transcrits qui sont réellement traduits (phénomène d'interférence ARN, par exemple)
  • la modulation de l'activité des enzymes (à régulation allostérique ou sujettes à différents types d'inhibition)
  • les différents génomes (nucléaire, mitochondrial, chloroplastique) qui codent pour des protéines adressées à différents compartiments sub-cellulaires
  • la très large gamme de temps de demi-vie des macromolécules biologiques
  • les dizaines de milliers de réactions dans une cellule Eucaryote
  • ... (la liste est très longue)

A cela s'ajoute les limites (toujours repoussées) qu'imposent la puissance de stockage et de calcul des ordinateurs.

Retour haut de page

f. L'état stationnaire

La notion d'état stationnaire est capitale. Cette approximation est justifiée en regard d'échelles de temps trés différentes :

  • Du point de vue macroscopique :
    1. le temps nécessaire à l'ensemble du métabolisme d'une cellule pour se stabiliser est supérieur à la minute. Ce délai est comparable au temps nécessaire à l'internalisation de nutriment et à l'excrétion de déchets.
    2. les changements environnementaux et les variations de concentrations en enzymes s'échelonnent eux-aussi sur des échelles de temps longues.
  • Du point de vue microscopique : le temps nécessaire à une réaction enzymatique pour atteindre l'état stationnaire est très largement inférieur à la minute.

Dès lors :

  • La vitesse de renouvellement des métabolites étant trés élevée à l'échelle de la minute, on considère que leur concentration a atteint un état stationnaire et qu'elle est alors constante tant qu'il n'y a pas de variation de l'environnement.
  • Dans les modèles sous contraintes (comme ceux développés par la méthode FBA), il n'est donc pas nécessaire de prendre en compte les aspects liés aux processus de régulation.

En conséquence, afin de simplifier les modèles :

  • L'état métabolique d'une cellule et la variation de cet état peuvent être décrits par la concentration des métabolites et la vitesse des réactions.
  • Ces concentrations sont liées par la loi de la conservation de la matière : la vitesse de production nette d'un métabolite est égale à la somme des vitesses des réactions qui le consomment et des vitesses des réactions qui le produisent, pondérées par les coefficients stoechiomètriques associés à chaque réaction.
  • La loi de la conservation de la matière contraint la consommation et la production à être équilibrées ( le terme anglo-saxon est "balanced") : c'est ce que l'on appelle l'hypothèse du quasi-équilibre.
  • La contrainte sur les vitesses de réaction s'apelle la contrainte d'équilibre des masses ou contrainte stoechiométrique des masses ("mass balance constraint").

Ainsi, à l'état stationnaire :

α. Pour chaque métabolite d'un tel système "équilibré", on peut écrire une expression mathématique simple de la contrainte d'équilibre des masses qui met en jeu la vitesse des réactions : ∑ Si . νi = 0

  • Si est le coefficient stoechiométrique du métabolite i impliqué dans la réaction i
  • νi est la vitesse de cette réaction i avec νi ≥ 0, ∀ i
  • Pour peu que l'on ait des valeurs précises des vitesses des réactions, on peut imposer des bornes de valeurs à ces vitesses : αi ≤ νi ≤ βi

Exemple :

  • - ν1 + ... = 0
  • ν1 - ν2 + ... = 0
  • ν1 - 2 ν2 + ... = 0
  • ν2 + ... = 0

β. La vitesse de croissance de la biomasse de la cellule (νbiomasse) doit être maximisée : z = cT

  • z est la fonction objectif (voir ci-dessous)
  • c est le vecteur de pondération qui indique la contribution de chaque réaction à la fonction objectif

Remarques :

Retour haut de page

g. Les contraintes

Figure a : en absence de contrainte, les valeurs des flux peuvent se trouver en tous points d'un espace de solutions.

Metabolomique metabolomics modele reconstruction metabolique echelle genome flux balance analysis constraint contrainte genome-scale metabolic network reconstruction modelling GENRE biochimej

Source : de Oliveira Dal'Molin & Nielsen (2013)

Figure b : l'introduction de diverses contraintes restreint l'espace total des solutions à un sous-espace de solutions permises ou possibles (cône de la figure b).

  • le bilan des masses (la conservation de la matière) : contrainte imposée par la stoechiométrie S
  • la réversibilité : νi ≥ 0, ∀ i, avec νi = vitesse d'une réaction i
  • la capacité : νi ≤ νMax
  • des conditions physiologiques spécifiques sont des contraintes typiques. Exemple : une feuille qui effectue la photosynthèse en produisant de la biomasse de composition connue, avec un taux de croissance connu.

En raison de ces contraintes, le flux global dans le réseau peut avoir toute valeur au sein de ce cône de solutions. Les valeurs en dehors de cet espace ne respectent pas la conservation de la matière et sont par conséquent éliminées.

Figure c : en optimisant une fonction objectif, l'analyse de l'équilibre des flux permet de calculer une distribution de flux optimale unique qui se trouve aux bords de l'espace des solutions admissibles (surface de Pareto).

Retour haut de page

h. Exemples de fonctions objectif

Les équations stoechiométriques contiennent davantage de flux inconnus que les équations d'équilibre des masses :

  • Il existe donc un très grand nombre de solutions pour chaque modèle de reconstruction (il n'y a pas de solution unique pour la distribution des flux).
  • Les solutions d'un modèle de reconstruction qui ont un intérêt biologique sont celles qui produisent les métabolites souhaités dans les bonnes proportions.
  • La fonction objectif définit la proportion de ces métabolites.

On émet donc des hypothèses quant au métabolisme : l'objectif le plus évident du métabolisme est une croissance maximale de l'organisme.

Exemples de fonctions objectif implémentées dans des modèles de reconstruction sous contraintes (méthode "Flux Balance analysis" - FBA) :

  • fonction objectif : maximisation du rendement de biomasse => max (νbiomasse / νglucose) (ν désigne le flux)
  • signification : l'évolution dirige la sélection des espèces vers un rendement maximal de biomasse
  • fonction objectif : maximisation du rendement en ATP => max (νATP / νglucose)
  • signification : l'évolution dirige la sélection des espèces vers une efficacité énergétique maximale

Autres exemples de fonctions objectif :

  • minimisation de la consommation de glucose => min (νglucose / νbiomasse)
  • minimisation du flux intracellulaire global
  • maximisation du rendement en ATP par réaction r => min (νATP / ∑ r2i), r € {0,1}
  • un rapport P/O = 1 (une molécule d'ATP générée par molécule de NADH à l'issue de la phosphorylation oxydative). Valeur basée sur le niveau de transcription des gènes et l'efficacité de couplage connus des complexes de la chaîne respiratoire
  • consommation d'oxygène couplée à la vitesse d'absorption du glucose à une stoechiométrie précise / une limite supérieure précise de la consommation d'oxygène

Voir une liste de méthodes dite COBRA ("COnstraint-Based Reconstruction and Analysis").

Retour haut de page

i. La croissance et la biomasse

Contraintes liées à la croissance de l'organisme

Les organismes ont besoin de nutriments dont l'absorption (et l'excrétion) dépend de leur disponibilité, de leur concentration et de leur mode d'entrée dans l'organisme (métabolites à diffusion simple absorbés rapidement ou qui nécessitent un système de transport facilité ou actif).

Si l'on détermine expérimentalement le taux d'absorption (et d'excrétion) d'un nutriment, cette donnée peut être inclue comme contrainte du flux limite du modèle métabolique : les nutriments absents ou non absorbés par l'organisme ne sont pas pris en compte dans son métabolisme (flux nul) et les taux d'absorption des nutriments présents sont correctement inclus dans la simulation.

La biomasse

Lors de la modélisation de la croissance d'un organisme, la fonction objectif est généralement définie comme la biomasse :

  • Un modèle de reconstruction métabolique décrit en termes quantitatifs la conversion de mmoles de substrats en gramme de poids sec de cellules, c'est-à-dire la biomasse.
  • Par définition, la biomasse produite doit avoir un poids moléculaire de 1 g.mmole-1 afin de comparer de manière quantitative la formation de la biomasse avec les rendements de croissance observés ou les vitesses de croissance spécifiques.

Il existe plusieurs sources d'erreurs dans l'analyse des réactions qui créent la biomasse :

Non-growth associated ATP maintenance requirement requis en absence de croissance genome-scale metabolic network reconstruction modelling GENRE contrainte constraint biochimej

Source : Chan et al. (2017)

  • 1a. Les réactions décrites par certaines plates-formes boinformatiques qui proposent des modèles automatisées.
  • 1b. Les réactions adaptées d'autres modèles avec des composants de la biomasse qui sont soit supprimés (Bio5), soit ajoutés.
  • 2. Des coefficients stoechiométriques inexacts (Bio3 et Bio4) en partie à cause de groupes chimiques non définis (exemples : R et X).
  • 3. L'absence de cofacteurs dans les réactions. Exemples : les protons pour la synthèse des macromolécules, l'eau pour la synthèse des protéines et le pyrophosphate (PPi) pour la synthèses d'ADN et d'ARN.

Retour haut de page

j. Les grandeurs GAM et NGAM

Les organismes effectuent des réactions cataboliques pour générer l'énergie nécessaire à leur croissance et à l'entretien des cellules. Cette énergie est traduite par 2 paramètres :

  • La maintenance associée à la croissance (« Growth Associated Maintenance » - GAM) qui représente l'énergie nécessaire pour la polymérisation des macromolécules telles que l'ADN, l'ARN, les protéines et le glycogène, pendant la croissance.
  • La maintenance non-associée à la croissance (« Non-Growth Associated Maintenance » - NGAM) qui représente la quantité d'ATP dont a besoin toute cellule hors croissance. Il s'agit donc de l'énergie consommée par l'ensemble des processus autres que la formation de nouveau matériel cellulaire (la réparation cellulaire, la motilité, l'entretien des gradients d'ions, …).
  • Les flux de réactions étant normalisés par la masse sèche des cellules, l'unité de GAM et NGAM est : mmole.h-1.g-1 de matière sèche (en anglais : "mmol.h-1.g-1 dry weight" ou "mmol.h-1.g-1 DW").
    1. Exemple 1 : l'énergie de maintien pendant la phase de croissance exponentielle de Escherichia coli = 7,6 - 8,4 mmol ATP.h-1.g-1 de matière sèche.
    2. Exemple 2 : la bactérie Geobacter metallireducens a un GAM = 79.20 mmole.h-1.g-1 et un NGAM = 0.81 mmole.h-1.g-1.

La GAM et la NGAM peuvent être déterminées directement avec le graphique des données de croissance obtenues à partir des expériences avec un chemostat.

Non-growth associated ATP maintenance requirement requis en absence de croissance genome-scale metabolic network reconstruction modelling GENRE contrainte constraint

Source : Thiele & Palsson (2010)

Exemple : maximisation du renouvellement en ATP sous une contrainte d'absorption du glucose de 1 mmol.h-1.g-1 de matière sèche (figure ci-dessous).

Non-growth associated ATP maintenance requirement requis en absence de croissance genome-scale metabolic network reconstruction modelling GENRE contrainte constraint

Source : Chung et al. (2010)

  • La quantité d'ATP nécessaire est évaluée à Qmax = 21.5 mol ATP.mol-1 glucose.
  • Sur la base de cette valeur et du point d'intersection avec l'axe des ordonnées (0.105 mmol glucose.h-1.g-1 de matière sèche), on calcule NGAM # 2,26 mmol ATP.h-1.g-1 de matière sèche.

Voir le package Python BOFdat qui propose des fonctions pour générer des coefficients stoechiométriques de fonction objectif de biomasse pour 5 types de macromolécules : ADN, ARN, protéines, lipides et métabolites (BOFdat à GitHub).

Retour haut de page

5. Autres méthodes pour le développement de modèles de reconstruction métabolique

La méthode FBA ("Flux Balance Analysis") fournit des informations sur la distribution optimale des flux compte-tenu de la fonction objectif considérée. En conséquence, un inconvénient de cette méthode est qu'elle ne décrit pas la dynamique des concentrations des métabolites car elle ne prend pas en compte les variations de leur concentration.

L'analyse dynamique de l'équilibre des flux ("dynamic flux balance analysis") associe la distribution des flux à l'état stationnaire (analyse FBA) à la cinétique d'apport et de consommation des métabolites par le réseau FBA : le modèle FBA est donc couplé à un modèle cinétique ("Ordinary Differential Equations" - ODE).

CBM : constraint-based model;

Approche Régulation de la transcription non prise en compte
Pas de coût d'enzyme Avec coût d'enzyme
Statique

Méthode FBA (1992) : optimiser une fonction objectif.

Maintenir le système interne en état d'équilibre et optimiser un objectif donné par programmation linéaire.

RBA ("Resource Balance Analysis" - 2001) : optimiser l'allocation des ressources pour maximiser le taux de croissance à l'état stationnaire.

Modèles combinés : matrices ME (2012 - voir-ci-dessous) : optimiser un modèle métabolique et un modèle décrivant les processus cellulaires couplés.
Les données de synthèse nécessaire aux réactions métaboliques sont inclues dans ce modèle. Couplage des contraintes qui associent la synthèse des protéines au flux métaboliques à l'état stationnaire.

Itérative

dFBA (SOA) ("dynamic FBA - Static Optimization Approach" - 1994) : optimiser plusieurs pas de temps de manière itérative.

Diviser la période de temps étudiée en intervalles. Utiliser les conditions initiales ou les résultats du pas de temps précédent pour résoudre les équations dynamiques. Fixer les flux du modèle métabolique aux flux obtenus lors de la résolution des ODE. Optimiser le modèle au pas de temps suivant.

Modèle dynamique : matrices ME (2019 - voir ci-dessus) : un modèle de l'organisme (noté "M-matrix") et un modèle de la stœchiométrie de synthèse des macromolécules (noté "E-matrix") sont combinés :

  • en créant une grande matrice notée "ME"
  • en ajoutant des contraintes qui limitent le flux des réactions à la disponibilité des enzymes qui catalysent ces réactions

De plus, la biomasse est ajustée pour refléter les coûts de la synthèse des macromolécules et des acides aminés car les protéines peuvent s'accumuler dans ce modèle.

Dynamique

dFBA (DOA) ("dynamic FBA - Dynamic Optimization Approach" - 2002) : optimiser plusieurs pas de temps simultanément.

Optimisation simultanée sur toute la période de temps étudiée.

  • deFBA ("dynamic enzyme-cost FBA" - 2015)
  • cFBA ("conditional FBA" - 2015)
  • dRBA ("dynamic resource FBA" - 2018)

Approche Prise en compte de la régulation de la transcription
Pas de coût d'enzyme Avec coût d'enzyme
Statique

SR-FBA ("Steady-state Regulatory FBA" - 2007)

PROM ("Probabilistic Regulation Of Metabolism" - 2010) : utilisation de données de puces à ADN ("microarray") pour définir la limite supérieure des réaction à un certain pourcentage de la limite supérieure maximale.

-----
Itérative

rFBA ("regulatory FBA" - 2001) : optimiser un réseau métabolique et de régulation.
Régulation de la transcription intégrée sous forme de contraintes dépendantes du temps (0,1) utilisant des règles logiques (booléens) pour comparer plusieurs temps.

iFBA ("integrated FBA" - combinaison des méthodes dFBA-SOA et rFBA - 2008) : optimiser un réseau métabolique, un réseau régulation et un réseau cinétique intégrés.

idFBA (2008) : optimiser un réseau [métabolique, de régulation et de signalisation] intégré.

Méthode dFBA-SOA avec des données de phénotype supplémentaires. Après chaque pas de temps, les variables liées au phénotype sont mises à jour. Contraintes du pas de temps suivant avec ces variables mises à jour.

Dynamique -----

r-deFBA ("regulatory dynamic enzyme-cost FBA" - 2019) : optimiser l'utilisation des ressources cellulaires et la régulation de la transcription dans un cadre [discret-continu] hybride.

Prédiction d'états régulateurs discrets corrélés à la dynamique continue des flux des réactions, des apports externes en substrats et enzymes et des protéines régulatrices nécessaires pour atteindre un objectif cellulaire tel que la maximisation de la biomasse sur un intervalle de temps.


Méthode Description
TMFA ("Thermodynamics-Based Metabolomic Flux Analysis") Intégration des contraintes thermodynamiques dans le réseau métabolique Modification de la réversibilité des réactions en fonction de leur variation d'énergie libre.
QQSPN ("Quasy-steady state Petri nets") Optimiser un réseau [métabolique, de régulation et de signalisation] intégré à l'aide d'un réseaux de Petri Calculer la contrainte et les nœuds objectifs pour chaque pas de temps. Mettre à jour le modèle métabolique en fonction de l'étape précédente. Optimiser le modèle métabolique. Mettre à jour les nœuds objectif du réseaux de Petri en fonction du nouvel objectif.

Acronymes (modèles cinétiques et thermodynamiques) : CoCCoA : concentration change coupling analysis; GMA : generalized mass action; Lin-Log : linear in logarithms; Log-Lin : logarithmic-linear; MASS : mass action stoichiometric simulation; MCA : metabolic control analysis; MRL : modular rate law; ORACLE : optimization and risk analysis of complex living entities.

Les langages pour coder les modèles

Des normes d'encodage des modèles ont été créées pour échanger et reproduire ces modèles. La norme pour les modèles de biologie des systèmes est SBML (Hucka et al., 2003) :

  • Langage SBML3FBC ("Systems Biology Markup Language (SBML) level 3 - Flux Balance Constraints").
  • Voir SBML3 - voir FBC.

Les éléments centraux de SBML sont utilisés pour écrire les modèles mathématiques des réseaux biologiques basés sur les réactions et permettent de coder des modèles informatiques basés sur les ODE.

Il existe d'autres normes :

  • Le langage de balises pour la description d'expériences de simulation ("Simulation Experiment Description Markup Language", SED-ML, Waltemath et al., 2011) pour décrire les simulations.
  • La notation graphique de biologie des systèmes ("Systems Biology Graphical Notation", SBGN, Le Novere et al., 2009) pour décrire les visualisations.
  • Les archives COMBINE (Bergmann et al., 2014) pour l'échange de collections de fichiers de modélisation.

Outils de programmation : DFBAlab (code MATLAB pour dFBA), COBRA, DyMMM, ...

Retour haut de page

6. Démarche globale de la reconstruction métabolique à l'échelle d'un génome

a. L'amélioration du modèle

C'est une démarche itérative : la comparaison avec la réalité biologique permet d'ajuster le modèle puis de confronter de nouveau celui-ci aux données réelles et ainsi de suite, afin d'améliorer ce modèle (voir la figure 1 de Balagurunathan et al., 2012).

  • Recensement du maximum d'informations de tous types (fouille de données exhaustive) pour élaborer un modèle de base à affiner.
  • Elaboration d'un premier modèle de reconstruction métabolique à l'échelle du génome de l'organisme étudié.
  • De manière conjointe :
    1. analyse bioinformatique de ce modèle de reconstruction
    2. mesures des paramètres biochimiques et physiologiques réels qui rendent compte d'une croissance optimale de l'organisme

modele reconstruction metabolique echelle genome biochimejmodele reconstruction metabolique echelle genome genome-scale metabolic network reconstruction modelling GENRE biochimejmodele reconstruction metabolique echelle genome biochimej

Source : Lewis et al. (2012)

  • Comparaison des résultats prédits par le modèle avec les mesures réelles (figure ci-dessous).
  • Le modèle est affiné par lintégration et/ou l'élimination de données, de variables, ...
  • Le processus itératif recommence.

modele reconstruction metabolique echelle genome genome-scale metabolic network reconstruction modelling GENRE biochimej

Source : Lewis et al. (2012)

La reconstruction métabolique à l'échelle d'un génome s'appuyant massivement sur des méthodes bioinformatiques, elle est trés largement prédictive. Mais elle permet d'orienter de futures expériences dans des voies prometteuses et épargne un temps précieux de recherche au hasard.

Bien évidemment, il existe une étape clé: la confrontation d'un modèle avec la réalité biologique. Cette étape est d'autant plus importante que les modèles peuvent être modifiés, améliorés comme tout système d'apprentissage.

Retour haut de page

b. Amélioration d'un modèle de reconstruction métabolique

Figure A (ci-dessous) : le 1er modèle dit "à plat"

  • Les métabolites (cercles vert et noirs), les réactions enzymatiques (Ex) et les transporteurs (Tx) sont extraits de l'annotation du génome et de différentes bases de données.
  • Le cercle vert S (en haut à gauche) représente l'entrée d'un substrat initial dans la voie métabolique et les cercles bleus représentent les produits (P1 à P5) en dehors (à priori) de cette voie métabolique.
  • Les couleurs (noire et verte) des réactions enzymatiques indiquent que plusieurs gènes codent la même enzyme (exemple : E10 et E37).
  • Les points d'interrogation sont des exemples de lacunes ("gap") qui imposent une amélioration de ce 1er modèle afin de combler ces lacunes ("gap filling") et déboucher sur une analyse in silico réaliste et efficace, c'est-à-dire dont on peut tirer des informations.

Metabolomique metabolomics modele reconstruction metabolique echelle genome genome-scale metabolic network reconstruction modelling GENRE iterative procedure biochimej

Source : Gomes de Oliveira Dal'Molin & Nielsen (2013)

Figure B : amélioration du 1er modèle

  • La recherche ou l'obtention (expérimentale) de nouvelles informations permet d'introduire la compartimentation qui sépare la glycolyse cytosolique et la glycolyse plastidique du cycle de Krebs dans les mitochondries.
  • La compartimentation permet aussi d'allouer les enzymes aux différents organites.
  • II en découle la nécessité de transporteurs (T1 à T5, jusqu'à lors non mis en évidence) pour permettre le transport de métabolites entre organites.
  • De nouvelles réactions enzymatiques (jusqu'à lors non mises en évidence) peuvent être également proposées (E13 et E16).

Retour haut de page

Exemple d'outil de contrôle de la qualité des modèles métaboliques

La suite de tests nommée MEMOTE ("MEtabolic MOdel TEsts") est une méthode de contrôle de la qualité des modèles métaboliques. C'est un programme (en Python) :

  • Il permet une définition formellement correcte du langage SBML3FBC (voir ci-dessus).
  • Il accepte en entrée les modèles stoechiométriques codés en SBML3FBC et les versions précédentes.
  • Il fournit des outils et les meilleures pratiques du développement de logiciels pour un contrôle qualité et une assurance qualité continue des modèles métaboliques.
  • Il valide la structure des modèles métaboliques.
  • Il compare les modèles métaboliques en utilisant des tests de consensus dans 4 domaines : annotation, tests de base, réaction de la biomasse et stoechiométrie.

Retour haut de page

c. Illustration de l'amélioration d'un modèle de reconstruction via celle de l'annotation

Les méthodes traditionnelles pour les études protéomiques d'organites se traduisent souvent par une spécificité limitée des protéines étudiées, la perte de matériel biologique et d'éventuelles contaminations du fait des étapes d'isolement des organites et de purification de leur contenu en protéines.

Une méthode récente permet de minimiser ces inconvénients : elle utilise un marquage spécifique des protéines de la matrice de la mitochondrie par la biotine, tandis que la cellule est vivante, avec toutes ses membranes et ses complexes protéiques intacts et que les relations spatiales entre les protéines sont préservées.

La méthode utilise une enzyme, l'ascorbate peroxidase (APEX), modifiée par ingénierie. L'APEX est spécifiquement adressée à la matrice mitochondriale par fusion à un peptide d'adressage de 24 acides aminés. Une fois dans la matrice mitochondriale, l'APEX marque par biotinylation (liaison covalente) les protéines voisines (mais pas les protéines lointaines) dans les cellules vivantes.

L'APEX est active dans tous les compartiments cellulaires et elle oxyde de nombreux dérivés du phénol en radicaux phénoxyl.

Ces radicaux :

  • ont une durée de vie courte (< 1 ms)
  • un petit rayon de marquage (< 20 nm)
  • peuvent former des liaisons covalentes avec les acides aminés riches en électron comme Tyr, Trp, His et Cys
  • ont une propriété capitale : ils ne traversent pas la membrane mitochondriale. Ils ne marquent donc que les protéines de la matrice ou les régions exposées vers la matrice des protéines de la membrane interne.

Le marquage covalent est fait par l'addition de [biotine (B) - phénol] et de H2O2. Les cellules sont ensuite lysées et les protéines biotinylées sont récupérées avec des billes sur lesquelles est fixée la streptavidine. Les protéines sont ensuite éluées, séparées sur gel et identifiées par spectromètrie de masse.

proteome matrice mitochondriale inner outer matrix mitochondria biotin biochimej

Source : Rhee et al. (2013)

Cette étude a permis :

  • d'identifier 495 protéines de la matrice mitochondriale dont 464 étaient déjà annotées "mitochondrie". Ainsi 31 protéines qui n'étaient pas annotées sont désormais associées à la mitochondrie ou à la matrice mitochondriale.
  • d'améliorer l'annotation de 240 protéines en spécifiant leur localisation sub-mitochondriale matricielle.
  • d'associer à la matrice mitochondriale 6 protéines dont on pensait qu'elles étaient localisées dans la membrane externe ou dans l'espace intermembranaire.

proteome matrice mitochondriale inner outer matrix mitochondria biotin biochimej

Source : Rhee et al. (2013)

Retour haut de page

7. Illustration : étude du contrôle du métabolisme glucidique lié au diabète de type 2

Figure ci-dessous : schéma synoptique de la méthode d'identification de métabolites rapporteurs et des motifs de séquences régulatrices associées.

diabete type 2 genome-scale metabolic network reconstruction modelling GENRE

Source : Zelezniak et al. (2010)

Figure A : Système de score pour l'identification de métabolites rapporteurs, basé sur les scores des réactions enzymatiques associées. Pour chaque enzyme, un score est aussi calculé sur la base de la "p-value" de la séquence nucléotidique du gène correspondant. Dans le cas de réactions catalysées par un complexe enzymatique ou un ensemble d'isoformes d'une même enzyme, la valeur minimale de la "p-value" de ces enzymes est retenue.

  • chiffres en gras : "Z-score" pour chaque réaction
  • autres chiffres : "p-value"

Figure B : Identification des motif de fixation des facteurs de transcription. Pour un métabolite rapporteur, un ensemble de gènes homologues codant des enzymes qui sont sur- ou sous-exprimés est sélectionné. Les régions promotrices et les motifs situés en amont des sites de démarrage de la transcription ("transcription start site - TSS") de chaque gène sélectionné sont annotés selon leur teneur en motifs de fixation des facteurs de transcription ("TF").

Signatures métabolique et régulatrice des diabètes de type 2

genome-scale metabolic network reconstruction modelling GENRE diabete type 2

Source : Zelezniak et al. (2010)

Légende : CDP-choline, cytidine diphosphate choline; G1P, glucose 1-phosphate; G6P, glucose 6-phosphate; GSK3, glycogen synthase kinase-3; IRE1, inositol requiring kinase-1; LC-CoAs, long-chain acyl CoAs; PA, phosphatidate; PH, pleckstrin homology domain;PI, phospatidylinositol; PIP, phospatidylinositol 4-phospate; PIP2, phosphatidylinositol 4,5-bisphospate, PIP3, phospatidylinositol 3,4,5-trisphospate; PTB, phosphotyrosine binding domain; RXR, retinoid X receptor; SH2, src homology domain; TF, transcription factor; CPT1, carnitine palmitoyltransferase-1; PTDETN, phosphatidylethanolamine.

Les métabolites rapporteurs appartenant aux voies clés de la régulation des diabètes de type 2 sont écrits en gras.

  • flèches et encarts en gris : hypothèses ou résultats antérieurs à l'étude de Zelezniak et al.
  • lignes pleines : effets directs
  • lignes pointillées : effets indirects

Une sur-alimentation chronique et un manque d'activité physique augmentent l'entrée d'acides gras, ce qui induit la β-oxidation via l'activation des gènes médiée par le facteur activé de prolifération des peroxysomes (récepteur nucléaire - PPARα/δ - "peroxisome proliferator-activated receptor alpha and delta") sans qu'il y ait une augmentation coordonnée du flux du cycle des acides tricarboxyliques (TCA).

Une conséquence possible est l'accumulation dans les mitochondries de dérivés de métabolites (exemples : acylcarnitines ou molécules réactives dérivées de l'oxygène - "reactive oxygen species - ROS") issus d'une β-oxidation incomplète.

Ces stress pourrait induire une "surcharge mitochondriale" qui, de concert avec des molécules lipidiques de signalisation (exemple : le dyacylglycérol - DAG) enclencheraient une cascade impliquant des (Ser/Thr) protéines kinases, cascade qui serait initiée par une nouvelle protéine kinase nPKCs ("novel protein kinase Cs").

Il en résulte une phosphorylation des sites (Ser/Thr) du substrat 1 du récepteur de l'insuline (IRS-1) qui a pour conséquences :

  • l'inhibition de la phosphorylation des sites Tyr de IRS-1
  • l'activation de la phosphoinositol 3-kinase (PI 3-kinase)

Ces 2 évènements entravent la translocation du transporteur du glucose de type 4 (GLUT4) ce qui diminue le transport du glucose et donc la synthèse du glycogène.

Une augmentation de l'activité physique ou le jeûne activent la protéine PGC1α (co-activateur 1α du récepteur nucléaire PPARγ) et la protéine CREB ("cAMP response element binding protein"), un activateur puissant de PGC1.

Ces évènements atténuent le effets du stress lipidique en augmentant le flux du TCA et en couplant l'activité induite par la fixation du ligand sur PPARα/δ avec le remodelage médié par PGC1α des voies métaboliques situées en aval telles que la respiration et la β-oxidation.

Voir des applications en biotechnologies industrielles et médicales.

Retour haut de page

8. La base de données de modèles biologiques "Biomodels" (EBI)

Voir un cours sur la régulation du métabolisme.

  • Aller à la base de données BioModels Database.
  • Cliquer sur le lien : "Gene Ontology classification". Choisir la partie verte "Response to stimulus".
  • Rechercher le modèle "Wang2007 - ATP induced intracellular Calcium Oscillation" : BIOMD0000000145

Figure ci-dessous : modèle proposé par Wang et al. (2007) - "A quantitative kinetic model for ATP-induced intracellular Ca2+ oscillations" J. Theor. Biol. 245, 510 - 519.

Modele oscillation calcique genome-scale metabolic network reconstruction modelling GENRE BioModels database biochimej

Variables du modèle :

  • [Gα-GTP] : concentration du complexe entre le GTP et la sous-unité Gα activée de la protéine G
  • [APLC] : concentration de la forme active de la PLC
  • [IP3] : concentration de l'IP3
  • [Ca2+]cyt : concentration du calcium dans le cytoplasme
  • [Ca2+]RE : concentration du calcium libre dans le RE

stoechiometric matrix modele oscillation calcique genome-scale metabolic network reconstruction modelling GENRE

  • d[S]/dt est le vecteur des vitesses
  • N est la matrice des coefficients stoechiomètriques
  • v est le vecteur des lois de réactions

Voir une analyse détaillée de ce modèle.

Retour haut de page

a. Quel type de signal ce modèle essaye-t-il de modéliser ?

b. Faire le lien entre les informations contenues dans l'onglet "Math" et le modèle décrit ci-dessus.

c. Dans le menu déroulant "Actions" :

  • Choisir : "View Dynamic Reaction Graph" (Applet java) pour visualiser le réseau d'interactions. Les différentes interactions sont obtenues en cliquant sur les composés du modèle.
  • Choisir : "BioModels Online Simulation" pour visualiser la simulation de la cinétique d'évolution du modèle.

d. Quelle information obtient-on dans l'onglet «Physical entities» ?

e. Aller à : "Models of the month".

March 2010, model of the month - C. Hoyer : Borisov et al. (2009) "Systems-level interactions between insulin-EGF networks amplify mitogenic signaling" Mol Syst Biol. 5, 256

Quelques mots clés : "Epidermal growth factor / Insulin / EGF receptors (EGFR) / Insulin receptor / receptor tyrosine kinases"

Cet article illustre le modèle : BIOMD0000000223 - Borisov 2009 EGF Insulin Crosstalk

 

9. Liens Internet et références bibliographiques
  • GOLD : "Genomes OnLine Database"
  • metaTIGER : base de données de voies métaboliques et d'informations phylogénomiques pour un trés grand nombre d'eucaryotes.
  • KEGG pathways : base de données de voies métaboliques
  • BioCyc : Bases de données voies métaboliques (EcoCyc, MetaCyc, AraCyc, YeastCyc)
  • MetaRoute : "web interface for interactive navigation through genome-scale networks and local network visualization"
  • BioModels Database : "A Database of Annotated Published Models"
  • BiGG : "Repository of reconstructed genome-scale metabolic models"
  • The Human metabolome project
  • KBase : The U.S. Department of Energy Systems Biology Knowledgebase

RECON 1, 2 et RECON 3D
Duarte et al. (2007) "Global reconstruction of the human metabolic network based on genomic and bibliomic data" Proc. Natl. Acad. Sci. U S A. 104, 1777 - 1782

Rolfsson et al. (2011) "The human metabolic reconstruction Recon 1 directs hypotheses of novel human metabolic functions" BMC Systems Biology 5, 155

Thiele et al. (2013) "A community-driven global reconstruction of human metabolism" Nature Biotech.

Swainston et al. (2016) "Recon 2.2: from reconstruction to model of human metabolism" Metabolomics 12, 109

Brunk et al. (2018) "Recon3D: A Resource Enabling A Three-Dimensional View of Gene Variation in Human Metabolism" Nat. Biotechnol. 36, 272 - 281

AGORA
Magnusdottir et al. (2017) "Generation of genome-scale metabolic reconstructions for 773 members of the human gut microbiota" Nat. Biotechnol. 35, 81 - 89

 

Article

Article

Article

Article

Article

 

Article

Edwards & Palsson (1999) "Systems properties of the Haemophilus influenzae Rd metabolic genotype" J. Biol. Chem. 274, 17410 - 17416

Hucka et al. (2003) "The systems biology markup language (SBML): a medium for representation and exchange of biochemical network models" Bioinformatics 19, 524 - 531

Kell, DB (2004) "Metabolomics and systems biology: making sense of the soup" Curr. Opin. Microbiol. 7, 296 - 307

Alper et al. (2005) "Tuning genetic control through promoter engineering" Proc. Natl. Acad. Sci. USA 102, 12678 - 12683

Article

Article

Article

Article

Schuetz et al. (2007) "Systematic evaluation of objective functions for predicting intracellular fluxes in Escherichia coli" Mol. Syst. Biol. 3, 119

Henry et al. (2007) "Thermodynamics-Based Metabolic Flux Analysis" Biophys. J. 92, 1792 - 1805

Wang et al. (2007) "A quantitative kinetic model for ATP-induced intracellular Ca2+ oscillations" J. Theor. Biol. 245, 510 - 519

Article

Article

Article

Oberhardt et al. (2008) Genome-Scale Metabolic Network Analysis of the Opportunistic Pathogen Pseudomonas aeruginosa PAO1" J Bacteriol. 190, 2790 - 2803

Lee et al. (2008) "Integrated dynamic Flux Balance Analysis (idFBA)"

Gevorgyan et al. (2008) "Detection of stoichiometric inconsistencies in biomolecular models" Bioinformatics 24, 2245 - 2251

Lee JM et al. (2008) "Dynamic Analysis of Integrated Signaling, Metabolic, and Regulatory Networks" PLoS Comput Biol. 5

Article

Article

Article

Article

Oberhardt et al. (2009) "Applications of genome-scale metabolic reconstructions" Mol. Syst. Biol. 5, 320

Durot et al. (2009) "Genome-scale models of bacterial metabolism: reconstruction and applications" FEMS Microbiol Rev. 33, 164 - 190

Bennett et al. (2009) "Absolute Metabolite Concentrations and Implied Enzyme Active Site Occupancy in Escherichia coli" Nat. Chem. Biol. 8, 593 - 599

Borisov et al. (2009) "Systems-level interactions between insulin-EGF networks amplify mitogenic signaling" Mol Syst Biol. 5, 256

Article

Article

Article

Article

Zelezniak et al. (2010) "Metabolic Network Topology Reveals Transcriptional Regulatory Signatures of Type 2 Diabetes" PLOS Comput. Biol. 6, e1000729

Pitkänen et al. (2010) "Computational methods for metabolic reconstruction" Curr. Opin. Biotech. 21, 70 - 77

Thiele & Palsson (2010) "A protocol for generating a high-quality genome-scale metabolic reconstruction" Nat. Protoc. 5, 93 - 121

Yizhak et al. (2010) "Integrating quantitative proteomics and metabolomics with a genome-scale metabolic network model" Bioinformatics 26, i255 - i260

Chung et al. (2010) "Genome-scale metabolic reconstruction and in silico analysis of methylotrophic yeast Pichia pastoris for strain improvement" Microbial Cell Factories 9, 50

Barua et al. (2010) "An Automated Phenotype-Driven Approach (GeneForce) for Refining Metabolic and Regulatory Models" PLoS Comput Biol 6, e1000970

Jenkinson et al. (2010) "Thermodynamically consistent Bayesian analysis of closed biochemical reaction systems" BMC Bioinformatics 11, 547

Boghigian et al. (2010) "Utilizing elementary mode analysis, pathway thermodynamics, and a genetic algorithm for metabolic flux determination and optimal metabolic network design" BMC Syst Biol 4, 49

Article

Article

Article

Article

Article

Article

Article

Article

Weckwerth, W. (2011) "Unpredictability of metabolism - the key role of metabolomics science in combination with next-generation genome sequencing" Anal. Bioanal. Chem. 400, 1967 - 1978

Balagurunathan et al. (2012) "Reconstruction and analysis of a genome-scale metabolic model for Scheffersomyces stipitis" Microbial Cell Factories 11, 27

Kim et al. (2012) "Recent advances in reconstruction and applications of genome-scalemetabolic models" Curr. Opin. Biotechnol. 4, 617 - 623

Article

Article

Article

Ebrahim et al. (2013) "COBRApy: COnstraints-Based Reconstruction and Analysis for Python" BMC Syst. Biol. 7, 74

Gomes de Oliveira Dal'Molin & Nielsen (2013) "Plant genome-scale metabolic reconstruction and modelling" Curr. Opin. Biotechnol. 24, 271 - 277

Lewis et al. (2013) "Constraining the metabolic genotype-phenotype relationship using a phylogeny of in silico methods" Nat. Rev. Microbiol. 10, 291 - 305

Article

Article

Article

Stanislav et al. (2014) "Progress toward single cell metabolomics" Curr. Opin. Biotechnol. 24, 95 - 104

Bordbar et al. (2014) "Constraint-based models predict metabolic and associated cellular functions" Nat. Rev. Genet. 15, 107-20

Monk et al. (2014) "Optimizing genome-scale network reconstructions" Nat. Biotechnol. 32, 447-452

Article

Article

Article

Lin & Lin (2015) "Development of cell metabolite analysis on microfluidic platform" J. Pharm. Anal. 5, 337 - 347

Srinivasan et al. (2015) "Constructing kinetic models of metabolism at genome-scales: A review" Biotechnol. J. 10, 1345 - 1359

Johnson et al. (2016) "Metabolomics: beyond biomarkers and towards mechanisms" Nat. Rev. Mol. Cell Biol. 17, 451 - 459

do Rosario Martins Conde et al. (2016) "Constraint Based Modeling Going Multicellular" Front. Mol. Biosci. 3, 3

Article

Article

Article

Article

Magnusdottir et al. (2017) "Generation of genome-scale metabolic reconstructions for 773 members of the human gut microbiota" Nat. Biotechnol. 35, 81 - 89

St. John et al. (2017) "Efficient estimation of the maximum metabolic productivity of batch systems" Biotechnol. Biofuels. 10, 28

Chan et al. (2017) "Standardizing biomass reactions and ensuring complete mass balance in genome-scale metabolic models" Bioinformatics doi: 10.1093/bioinformatics/btx453

Article

Article

Article

Lachance et al. (2018) "BOFdat: generating biomass objective function stoichiometric coefficients from experimental data" doi: https://doi.org/10.1101/243881

Liu & Bockmayr (2019) "Regulatory dynamic enzyme-cost flux balance analysis: A unifying framework for constraint-based modeling" bioRxiv doi: 10.1101/802249v1

Gu et al. (2019) "Current status and applications of genome-scale metabolic models" Genome Biol. 20, 121

Article

Article

Article

Retour haut de page

Valid XHTML 1.0 Transitional