Quelques domaines en "omique" ("omics")
Flux RSS

 

1. Introduction

2. La génomique

3. La transcriptomique

4. La protéomique

 

5. L'interactomique : les interactions entre les molécules biologiques

6. La métabolomique et les modèles de reconstruction métabolique à l'échelle d'un génome

7. Liens Internet et références bibliographiques

 

1. Introduction

Il existe de nombreux domaines scientifiques dont le nom a été créé avec le suffixe "omique" ("omics" est un néologisme anglo-saxon).

En voici les principaux exemples :
genomics - metagenomics - epigenomics - transcriptomics - proteomics - proteogenomics - metabolomics - metabonomics
interactomics - connectomics - fluxomics - integromics - glycomics - lipidomics - pharmacogenomics - foodomics

big data omique omics genomique proteomique transcriptomique metabolomique genomics metagenomics epigenomics transcriptomics proteomics proteogenomics metabolomics metabonomics connectomics pharmacogenomics foodomics integromics glycomics lipidomics interactomics PPI fluxomics protein enzyme biochimej

Voir : "List of omics topics in biology"
Voir l'initiative : OmicTools - A workflow for omic data analysis

Deux types de molécules support de la bioinformation : les acides nucléiques et les protéines

Le "matériaux de base" de la génomique et de la protéomique est la séquence : l'enchaînement ordonné et orienté de nucléotides (acides nucléiques) ou d'acides aminés (protéines).

ADN : Acide DésoxyriboNucléique

  • macromolécule : chaîne nucléotidique
  • formée de deux brins complémentaires enroulés en double hélice ce qui lui permet de se dupliquer en deux molécules identiques entre elles et identiques à la molécule mère

On distingue :

 

ARN : Acide RiboNucléiques

  • macromolécule : chaîne nucléotidique
  • constituée par un enchaînement d'unités élémentaires : les ribonucléotides
  • le plus souvent formé d'un simple brin

On distingue :

  • les ARN messagers ou ARNm : ils sont transcrits à partir d'un gène (ADN). Ils sont ensuite traduits en protéines.
  • les ARN de transfert
  • les ARN ribosomaux
  • les ARN nucléaires
  • les divers "petits" ARN non codants
 

Protéines

  • constituées par un enchaînement d'unités élémentaires : les acides aminés
  • l'ensemble des protéines assurent les principales fonctions cellulaires
  • se replient sur elles-mêmes et adoptent une conformation ou structure particulière dans l'espace. Cette structure tridimensionnelle est à l'origine de la fonction des protéines et de leur spécificité de cette fonction.

Retour haut de page

 

2. La génomique

On peut considérer que l'ère des domaines en "omique" a commencé avec la génomique.

La génomique a débuté avec les premiers grands projets de séquençage (par la méthode de Sanger) :

  • Haemophilus influenzae 1995
  • Saccharomyces cerevisiae 1996
  • Escherichia coli K-12 1997
  • Caenorhabditis elegans 1998

Voir les bases de données : "Genomes OnLine Database" - GOLD
NCBI - Genome sequencing projects statistics
"Phytozome" a tool for green plant comparative genomics.

Les technologies de séquençage à trés haut débit ("next-generation high-throughput DNA sequencing technologies" - NGS) permettent de séquencer des milliards de nucléotides en une fois. En conséquence, de plus en plus de génomes sont séquencés ou en cours de séquençage.

L'ensemble des données de séquençage est implémenté en temps réel dans des bases de données pour leur analyse.

Janvier 2017

  • Nombre de génomes séquencés : > 9.000
  • Nombre de génomes en cours: > 76.000
  • "Genomes OnLine Database" - GOLD

Des biologistes et des informaticiens prévoient que les ressources informatiques nécessaires pour traiter les données liées aux génomes dépasseront à terme celles nécessaires à Twitter et YouTube.

On estime que, en 2025, 100 millions à 2 milliards de génomes humains auront été séquencés. A lui seul, le stockage de ces données pourrait nécessiter 2 à 40 exaoctets (1 exaoctet = 1018 octets) car les données stockées pour un génome sont 30 fois plus grandes que la taille du génome lui-même (données brutes, erreurs, analyse préliminaire …).

Le stockage des données ne sera qu'une petite partie du problème : les besoins pour l'acquisition, la distribution et l'analyse des données de génomiques seront bien supérieurs (notion de "big data").

Les NGS permettent d'aborder (liste non-exhaustive) :

  • le séquençage d'un génome inconnu (séquençage de novo ) ou le re-séquençage d'un génome connu
  • l'annotation (ou la ré-annotation) de plus en plus précise et exhaustive d'un génome
  • l'étude de la variabilité génétique et du polymorphisme de nucléotide simple (SNP)
  • le séquencage d'haplotypes particuliers lors du clonage positionnel d'un gène d'intérêt
  • l'étude du transcriptome :
    1. identification des sites de démarrage de la transcription, des séquences frontière intron/exon
    2. étude des évènements de l'épissage
    3. analyse quantitative du niveau de transcription des gènes
    4. quantification et détection d'ARN rares, identification de régions dont on ne savait pas au préalable qu'elles sont transcrites
    5. étude du profil en petits ARN non codants ("small ncRNAs") et découverte de gènes codant ces types d'ARN
    6. l'édition des ARN : modification post- ou co-transcriptionnelle (essentiellement changement de l'adénosine en inosine)

genomique proteomique transcriptomique metablomique sequencage next-generation high-throughput DNA sequencing technologies biochimej

Source : Shendure & Aiden (2012)

Caractéristiques élémentaires des NGS ("Next-Generation high-throughput DNA Sequencing technologies")

  • Ces techniques permettent le séquençage d'un nombre colossal de nucléotides (jusqu'à 1012 nucléotides séquencés par expérience) à un coût nettement moindre qu'avec la méthode de Sanger.
  • Séquençage en un temps record : ces technologies de séquençage permettent d'amplifier spécifiquement un fragment d'ADN isolé, en évitant les étapes de clonage bactérien particulièrement longues.
  • Ces méthodes sont parallèlisées : des millions de réactions ont lieu en même temps dans des barettes qui contiennent des puits minuscules en fibre optique.
  • Les fragments séquencés sont courts : actuellement de 30 à environ 250 paires de base selon la technologie. Cette longueur tend à augmenter considérablement avec l'avènement de technologies dites de "3ème génération".
  • La petite taille et le nombre très élevé (pour l'instant) des fragments séquencés induit un travail d'analyse bioinformatique colossal en aval car il faut assembler ces fragments en contigs.

Le séquençage de novo est le séquençage d'un génome pour la première fois. Ce type de séquençage nécessite :

  • l'assemblage d'un très grand nombre de petites séquences du génome.
  • un génome de référence (s'il en existe un) afin de positionner (par comparaison) les séquences obtenues.

Définitions importantes

  • lecture ("read") : une séquence d'un fragment d'ADN.
  • contigs : séquences continues générées par l'alignement de séquences de fragments qui se chevauchent.
  • trous ("gaps") : parties du génome non séquencées ou dont les séquences ne chevauchent pas avec d'autres et ne peuvent donc entrer dans un contig.
  • régions de faible compléxité : parties du génome dont les séquences sont très peu diversifiées (exemple : séquences répétées).

Le séquençage complet d'un génome avec les NGS conduit à un nombre colossal de petits fragments séquencés (un grand nombre de petites séquences ou lectures) que l'on essaye ensuite d'assembler en contigs. La qualité de couverture du séquençage et donc liée à celle des contigs (leur longueur et leur continuité) et donc au nombre de gaps.

L'un des inconvénients des NGS est la petite taille des fragments séquencés (actuellement) d'où un nombre élevé de gaps, en particulier pour les régions de faible complexité.

RNA-seq sequencage next-generation high-throughput DNA sequencing technology de novo whole genome shotgun contig paired end biochimej

a. Pour pallier à cette difficulté, on peut séquencer les fragments :

  • à partir d'une extrémité ("single-end sequencing") : on obtient le début de la séquence du fragment à une extrémité.
  • à partir des 2 extrémités ("paired-end sequencing") : on obtient le début de la séquence du fragment à une extrémité et le début de la séquence du fragment à l'autre extrémité mais pas la séquence au milieu du fragment (le séquençage ne génére que de courtes séquences).
  • la distance entre chaque fragment séquencé étant connue, les algorithmes d'alignement utilisent cette information pour localiser avec plus de précision ces fragments dans les régions de faible complexité.

b. Un autre moyen est de construire des banques avec des inserts de petites tailles (0,2 - 0,8 kpb) et des banques avec des inserts de grandes tailles (2 - 40 kpb). On obtient ainsi des fragments séquencés de tailles variables ("short-insert paired end reads" et "long-insert paired end reads" ou "mate paired") qui aboutissent à un meilleur assemblage du fait de contigs plus longs.

L'acquisition et la compilation d'une masse de données de plus en plus astronomique d'une part et l'analyse des résultats des NGS nécessitent le développement d'outils bioinformatiques de plus en plus spécialisés (exemple : Allpaths-LG propose un assembleur pour grands génomes).

Voir un cours sur le séquençage des acides nucléiques.

Retour haut de page

 

Exemples de techologies de séquençage dites de 3ème génération

a. Séquençage d'une molécule en temps réel (« Single-Molecule Real-Time sequencing » - SMRT - Pacific Biosciences).

Les fragments matrice sont attachés à chaque extrémité à des adaptateurs en épingle à cheveux.

On obtient une molécule d'ADN circulaire avec des régions constantes d'ADN monocaténaire (ADN simple brin) à chaque extrémité et l'ADN double brin matrice au milieu.

Les fragments ainsi obtenus sont sélectionnés en fonction de leur de taille (les fragments trop petits ou trop grands sont supprimés pour un séquençage efficace).

Des amorces et l'ADN polymérase du bactériophage φ29 sont alors fixées aux régions ADN simple brin.

Cette banque d'ADN est ensuite déposée dans les puits de la cellule SMRT de guide d'ondes en mode zéro (« Zero-Mode Waveguide SMRT cell » - SMRT/ZMW cell), dans lesquelles a lieu le séquençage.

Pour visualiser le séquençage, un mélange de nucléotides marqués par un fluorophore est ajouté. Au cours de l'incorporation, le nucléotide incorporé interrompt momentanément l'activité de la polymérase en bas de la ZMW : cette interruption de signal est enregistré par une caméra.

Longueur moyenne des lectures ("reads") : 104 paires de base avec des lectures à 6 104.

Carte peptidique massique biochimej

Source : Goodwin et al. (2016)

« Zero-Mode Waveguides » (ZMW) : dispositif à l'échelle du nanomètre (plateforme Pacific Biosciences). Chaque puits ZMW (également appelé guide d'ondes) a un diamètre de quelques nanomètres et est ancré dans un support en verre.

La taille de chaque puits ne permet pas la propagation de la lumière : ainsi les fluorophores liés aux nucléotides ne peuvent être visualisés qu'au travers du support en verre dans la partie la plus basse du puits, ce qui correspond à un volume de l'ordre du zeptolitre (10-21 L).

b. Oxford Nanopore Technologies (ONT)

L'ADN est initialement hydrolysé en fragments de 8 à 10 kilo paires de bases.

Deux adaptateurs différents (« leader » et « hairpin ») sont attachés à l'une ou l'autre des extrémités de l'ADN.

L'adaptateur « leader » est double-brin. Il contient :

  • une séquence qui dirige l'ADN au travers du pore
  • une séquence d'attache qui dirige l'ADN vers la surface de la membrane

Sans l'adaptateur « leader », les interactions de l'ADN avec le pore sont minimes, ce qui empêche tout fragment dont la conformation est « hairpin-hairpin » d'être séquencé.

Actuellement, il n'existe aucune méthode pour diriger les adaptateurs vers une extrémité particulière. Il y a donc trois conformations possibles de banque d'ADN : « leader-leader », « leader-hairpin » et « hairpin-hairpin ».

La conformation idéale de la banque est donc « leader-hairpin ». Dans cette conformation, la séquence « leader » dirige le fragment d'ADN au travers du pore : un courant électrique est généré.

A mesure que l'ADN traverse le pore, on observe un décalage caractéristique de l'intensité électrique (de l'odre du pA).

Carte peptidique massique biochimej

Source : Goodwin et al. (2016)

Divers paramètres (dont l'amplitude et la durée du décalage) sont enregistrés : ils correspondent à une séquence k-mer (k nucléotides successifs) particulière.

Lorsque le nucléotide suivant traverse le pore, l'intensité électrique est différemment modulée et un nouveau k-mer est identifié.

Quand arrive l'extrémité « hairpin », c'est le brin complémentaire de l'ADN qui continue à être transloqué au travers l'adaptateur du pore : ainsi, les deux brins sont utilisés pour obtenir une séquence consensus dite « lecture 2D ».

Retour haut de page

 

3. La transcriptomique

La transcriptomique analyse l'ensemble des transcrits ou transcriptome : produits de la transcription des gènes.

Les principales méthodes d'étude du transcriptome sont :

  • la méthode RNA-seq
  • les puces à ADN
  • les étiquettes de séquences exprimées ("Expressed Sequences Tags" - EST)
  • la méthode SAGE et ses dérivées

Comparaison des puces à ADN et de la technique de séquençage "RNA-seq"

a. Les puces à ADN et la technique RNA-seq ont toutes deux une haute reproductibilité de résultats avec des réplicats biologiques.

b. Les puces à ADN permettent difficilement de distinguer le cas "pas de transcription" du cas "très faible transcription".

c. En raison de la différence de transcription des gènes et/ou du nombre de gènes codant un même type d'ARN messagers, il n'existe dans une cellule que quelques copies de certains ARN messagers et des dizaines de milliers de copies d'autres ARN messagers :

  • La sensibilité de détection des ARN messagers rares est donc un paramètre capital.
  • La sensibilité de détection de la technique RNA-seq dépend de la profondeur du séquençage et celle des puces à ADN est quasiment constante. Celà signifie qu'en théorie, si on atteind une profondeur de séquençage suffisante, la technique RNA-seq permet de déterminer le nombre réel de toutes les molécules d'ARN dans un échantillon.

d. De multiples transcrits sont générés à partir de certains gènes par épissage alternatif. L'un des avantages de la technique RNA-Seq est sa capacité à détecter ces isoformes différentiellement transcrites :

  • en effet, sur une puce à ADN, une sonde courte donnée cible soit un exon constitutif (présent dans tous les transcrits issus de l'épissage alternatif), soit un exon spécifique de l'un des transcrits. Dans le second cas, ce transcrit est détecté mais les autres transcrits issus du même gène sont ignorés.
  • en conséquence, les ensembles de sondes de puces à ADN ne peuvent pas représenter tous les transcrits de tous les gènes.

e. Les puces à ADN sont sujettes à une saturation d'hybridation en ce qui concerne les transcrits très abondants. Elles ne peuvent pas fournir des mesures quantitatives fiables des changements subtils de la transcription de gènes abondants.

f. La technique RNA-Seq permet d'identifier des variants d'un seul nucléotide ("single nucleotide polymorphism" - SNP). La technique RNA-Seq présente deux avantages dans la détection de variants génétiques :

  • aucune connaissance préalable concernant des variants potentiels n'est requise
  • la détection est faite sur l'ensemble du génome même pour les rares SNP

g. La technique RNA-Seq permet :

Pour l'instant la technique RNA-seq présente deux inconvénients :

  • elle a un côut plus élevé par échantillon - cependant ce coût diminue notablement année après année
  • elle nécessite un temps d'analyse des données très long et des moyens de calculs très importants

Par ailleurs, l'un des atouts actuels (mais qui ne peut que diminuer avec le temps) des puces à ADN est l'acquis des dizaines de milliers d'expériences qui ont été menées avec cette technique et les différentes annotations des transcriptomes issues de toutes ces expériences.

L'un des atouts de la technique RNA-seq (ou d'une autre technologie à venir) est l'évolution très rapide des technologies de séquençage à très haut débit : le développement des méthodes avec multiplexage par répartition codes barres, des lectures ("reads") plus longues et un plus grand nombre de lectures appariées ("paired end reads").

Pour l'instant les puces à ADN et la technique RNA-seq restent donc complémentaires et peuvent même être combinées avec des résultats très importants.

Analyse combinée du génome et du transcriptome : technique "Simul-seq".

transcriptomique transcriptomics analyse transcriptome ARN RNA RNAseq sequence omics biochimej

Source : Reuter et al. (2016)

Retour haut de page

 

4. La protéomique

La protéomique a pour but d'identifier (et de quantifier) l'ensemble des protéines synthétisées ou protéome, à un moment donné et dans des conditions données au sein d'un tissu, d'une cellule ou d'un compartiment cellulaire.

Le protéome est extrêmemement complexe à plusieurs titres :

  • compte-tenu de l'épissage alternatif des transcrits primaires (plusieurs ARNm pour un gène) et compte-tenu des modifications post-traductionnelles des protéines, on peut estimer à plusieurs dizaines de milliers les formes des protéines synthétisées dans les différents tissus humains par exemple.
  • pour chaque condition environnementale (condition physiologique normale vs. conditions de stress) une cellule est caractérisée par un protéome adapté à cette condition alors qu'elle a toujours le même génome. Le cas des plantes est un exemple flagrant compte-tenu de leur nécessité de s'adapter tant aux variations de la lumière qu'aux effets de stress biotiques ou abiotiques.
  • outre les modifications post-traductionnelles, les protéines subissent des transformations une fois synthétisées : clivage du peptide signal d'adressage, activation de la forme native à partir d'un précurseur (zymogène), assemblage en complexes oligomèriques, association à des cofacteurs.
  • il existe une grande dynamique de la synthèse des protéines : le rapport entre les protéines les moins abondantes et les plus abondantes dans une cellule dépasse 106 pour atteindre 1012 dans le sérum.
  • les protéines ont des demi-vies trés variables : ornithine décarboxylase 11 min - tryptophane oxygénase 2 h - myosine 30 j.

La protéomique apporte des réponses auxquelles la transcriptomique ne peut répondre.

Les études de protéomique sont de plus en plus spécialisées :


Génome et protéome de l'homme
Analyse aboutie du génome de l'homme 2012 "The ENCODE Project Consortium" : 20 687 gènes codant des protéines
Nature 489, 57-74 (2012)
Protéome de l'homme 2014 Kim et al. (2014) "A draft map of the human proteome" Nature 509, 575-581
Bases de données : Human Proteome Map et ProteomicsDB
Voir la liste des protéomes (en particulier les protéomes de référence) dans la base de données UNIPROT.

Retour haut de page

 

Etapes de la protéomique

  • séparation des protéines par électrophorèse sur gel bi-dimensionnel (cas particulier des protéines membranaires) ou par des techniques de chromatographie (protéomique en vrac ou étude de petides particuliers)
  • révélation des protéines dans les gels puis l'analyse d'image des gels
  • récupération des spots de protéines et la digestion par des protéases
  • le cas échéant, la détermination de la séquence N-terminale par la dégradation d'Edman dans le but de rechercher des candidats dans les banques de données
  • obtention de cartes peptidiques massiques par des techniques de spectromètrie de masse
  • détermination de la séquence complète des protéines par des techniques de spectromètrie de masse dites en tandem
  • analyse bioinformatique (identification des protéines, annotation des protéines et des gènes, recherche de motifs structuraux, analyse des structures, ...)

Figure adaptée de Peng & Gygi (2001)

analyse proteome spectrometrie masse spectrometry tandem protein sequence domaine omics biochimej

Principe de la spectrométrie de masse

L'ionisation électronique (souvent appelée impact électronique) et l'ionisation chimique sont les principales méthodes d'ionisation.

Dans le cas de l'ionisation électronique, l'échantillon est introduit dans une enceinte sous vide, il y est vaporisé puis soumis au bombardement d'un canon à électrons de grande énergies.

Un électron est arraché aux molécules et on obtient une espèce qui est à la fois un cation (ion positif) et un radical libre (nombre impair d'électrons), que l'on appelle ion moléculaire M+. :

M + e- (énergie 70 eV) <==> M+. + 2 e-

L'énergie du faisceau ionisant fragmente l'ion moléculaire par rupture des liaisons les plus faibles avant les liaisons les plus fortes et donne naissance à des ions positifs de masses plus faibles, qui pourront être fragmentés à nouveau (exemple : spectrométrie de masse dite en tandem - MS/MS).

Ces ions sont ensuite accélérés dans un champ électrique et/ou magnétique, puis dirigés entre les pôles d'un aimant selon une trajectoire circulaire qui dépend de leur rapport masse/charge [m/z].

En faisant varier le champ électrique, on fait varier la vitesse des ions moléculaires et on peut les faire ainsi parvenir au détecteur par ordre croissant de rapport [m/z].

Le tri des ions s'effectue :

  • soit par temps de vol : les ions arrivent à des temps différents en fonction de [m/z]
  • soit par courbure de trajectoire : le point d'impact des ions dépend de [m/z]

On obtient un grand nombre de pics, tous de masse inférieure à celle de l'ion moléculaire. Cet ensemble constitue un diagramme de fragmentation. Les groupements fonctionnels possèdent un diagramme de fragmentation qui leur sont propres.

Dans un spectre de masse, la hauteur relative des pics indique l'abondance relative des espèces.

analyse proteome spectrometrie masse spectrometry tandem protein sequence domaine omics biochimej

Carte peptidique massique biochimej

Source : Vandenbrouck et al. (2005)

Voir un cours sur la protéomique.

Voir une application de la protéomique : étude de la RuBisCO.

Retour haut de page

 

5. L'interactomique : les interactions entre les molécules biologiques

L'interactomique est l'un des domaines en « omique » les plus récents.

Un interactome est l'ensemble des interactions physiques entre les molécules d'une cellule ou d'un compartiment sub-cellulaire :

  • l'interactome des protéines correspond à l'ensemble des interactions protéines-protéines (« Protein - Protein Interactions » - PPI).
  • l'interactome protéine - ADN (appelé aussi réseau régulateur de gènes - « gene-regulatory network ») correspond au réseau formé par les facteurs de transcription, les protéines régulatrices de la structure de la chromatine et leurs gènes cibles.
  • aucun interactome complet n'a encore été décrit.

Source : Xing et al. (2016)

interactome interactomique PPI proteome spectrometrie masse spectrometry tandem protein sequence domaine omics biochimej

Beaucoup de protéines sont nativement non structurées. Cette caractéristique accentue le caractère transitoire des interactions entre protéines (ou entre protéine et ligand au sens large).

De plus, les molécules d'eau (d'hydratation des protéines ou intrinsèques à la stabilisation de la structure des protéines) jouent un rôle primordial dans la dynamique conformationnelle des protéines, donc dans leur interactivité.

Voit la stratégie de construction du serveur d'interactions APID.

Analyse et visualisation des réseaux d'interactions

Un interactome peut décrire des dizaines de milliers d'interactions qui forment un réseau.

Figure ci-contre : le réseau d'interactions établies par Dnm1, protéine clé de la fission des mitochondries.

Source : STRING

interactome interactomique PPI proteome spectrometrie masse spectrometry tandem protein sequence domaine omics biochimej

Un réseau d'interactions est généralement représenté sous la forme d'un graphe :

  • les nœuds (sommets du réseau) représentent les protéines
  • les arcs ou arêtes (connexions entre les sommets) orientés (flèches) ou non orientés (traits) représentent les interactions entre les protéines
  • le nombre d'arêtes reliant un noeud dans un graphe non orienté est le degré du noeud

Les modèles d'interactions physiques utilisent fréquemment des arêtes non orientées : si la protéine A interagit avec la protéine B, alors B interagit avec A. L'interaction est établie dans les deux sens (relation symétrique) : le graphe est dit non orienté.

Cependant les données expérimentales révèlent souvent une asymétrie :

  • quand la protéine A est utilisée comme « proie », elle peut mettre en évidence une interaction avec la protéine B
  • en revanche, l'utilisation de B comme proie peut ne pas détecter d'interaction avec A

Il existe quelques logiciels d'analyse et de visualisation des réseaux d'interactions

  • Cytoscape : logiciel très performant, gratuit, pour toutes plate-formes, avec de très nombreux "plugin" développés par la communauté des utilisateurs. Cytoscape utilise des fichiers de différents formats :
    1. BioPAX : ontologie pour représenter les connaissances des voies biologiques (PPI, métabolisme, signalisation, voies de régulation des gènes). C'est un format d'échange de données des voies biologiques.
    2. SBML : format basé sur XML. Norme pour représenter les modèles informatiques en biologie des systèmes.
  • VisANT : applet JAVA.
  • NetworkAnalyst : "integrative approaches for protein–protein interaction network analysis and visual exploration"

Quelques méthodes pour l'identification des interactions

Méthodes biologiques

  • Les constructions génétiques appelées double-hybride dans la levure ("Yeast Two-Hybrid system" - YTH).
  • L'immunoprécipitation de la chromatine ("Chromatin immunoprecipitation") : étude des protéines qui interagissent avec l'ADN (facteurs de transcription, histones) et pour l'étude des processus épigénétiques.
  • Purification par immunoprécipitation ("Tandem Affinity Purification" - TAP) : billes enrobées d'un anticorps et synthèse d'une protéine de fusion.
  • "Bimolecular fluorescence complementation" (BiFC) : deux protéines d'intérêt sont fusionnées à un fragment N- ou C-terminal non fluorescent d'une protéine fluorescente puis traduites dans une cellule. Si une interaction a lieu entre les deux protéines d'intérêt, il y a reconstitution de la protéine fluorescente (formation d'un complexe fluorescent). Le signal est ainsi visualisé par microscopie de fluorescence ou par cytométrie en flux.
  • "Phage display" : un gène codant une protéine d'intérêt est associé au gène codant une protéine d'enveloppe d'un phage. Il y a alors synthèse d'une protéine de fusion qui se retrouve à la surface du phage : le phage affiche (« displays ») la protéine d'intérêt.
  • "Strep - Protein INteraction Experiment" ("SPINE") : le marqueur Strep est un octapeptide synthétique.
  • Membrane-SPINE ("Membrane-Strep-tagged protein interaction experiment") : combinaison de la purification spécifique d'une protéine membranaire marquée par Strep avec la fixation réversible de complexes protéiques par réticulation avec le formaldéhyde. Analyse finale par spectrométrie de masse.
  • "Far-Western Blotting" : démarche similaire au Western blot avec une différence : la sonde anticorps est substituée par une sonde protéine « appât » marquée.

Méthodes physiques

  • "Förster resonance energy transfer" ou "Fluorescence resonance energy transfer" (FRET) : transfert d'énergie sans émission de lumière résultant d'une interaction entre deux molécules (donneur et accepteur d'énergie respectivement).
  • L'interférométrie couches biologiques (« Bio-Layer Interferometry » - BLI) : technique optique qui analyse le profil d'interférence de la lumière blanche réfléchie par deux surfaces.
  • L'interférométrie à double polarisation (« Dual Polarisation Interferometry » - DPI) : elle permet d'obtenir des mesures très précises de la taille, de la densité et de la masse des molécules. Lumière d'un faisceau laser.

Méthodes bioinformatiques

  • La fouille de données bibliographiques ("Text mining").
  • La compaction / l'empilement / les contacts protéine-protéine (« Protein - protein docking ») : méthode bioinformatique de prédiction des interactions protéine-protéine basée sur les données de structure tridimensionnelle (contraintes stériques, chimiques, géomètriques, ...) et sur la stabilité optimale des molécules (minimisation d'énergie).

Quelques bases de données d'interactions protéines - protéines

  • MPIDB : Goll et al. (2008) "MPIDB: the microbial protein interaction database" Bioinformatics 24, 1743 - 1744
  • BioGRID : Breitkreutz et al. (2008) "The BioGRID Interaction Database: 2008 update" Nucleic Acids Res. 36, D637 - D640
  • GeneMANIA : Warde-Farley et al. (2010) "The GeneMANIA prediction server: biological network integration for gene prioritization and predicting gene function" Nucleic Acids Res. 38, W214 - W220
  • SPIKE : Paz et al. (2011) "SPIKE: a database of highly curated human signaling pathways" Nucleic Acids Res. 39, D793 - D799
  • MINT : Licata et al. (2012) "MINT, the molecular interaction database: 2012 update" Nucleic Acids Res. 40, D857 - D861
  • Mentha : Calderone et al. (2013) "Mentha: a resource for browsing integrated protein-interaction networks" Nature Meth. 10, 690 - 691
  • IntAct : Orchard et al. (2014) "The MIntAct project-IntAct as a common curation platform for 11 molecular interaction databases" Nucleic Acids Res. 42, D358 - D363
  • STRING : Szklarczyk et al. (2015) "STRING v10: protein-protein interaction networks, integrated over the tree of life" Nucleic Acids Res. 43, D447 - D452
  • PINA : Cowley et al. (2012) "PINA v2.0: mining interactome modules" Nucleic Acids Res. 40, D862 - 865
  • APID : Alonso-Lopez et al. (2016) "APID interactomes: providing proteome-based interactomes with controlled quality for multiple species and derived networks" Nucleic Acids Res. 44, W529 - W535
  • I2D : Kotlyar et al. (2016) "Integrated interactions database: tissue-specific view of the human and model organism interactomes" Nucleic Acids Res. 44, D536 - D541

Ensemble de bases de données "Interactome Projects at CCSB".

Bases données spécifiques des mitochondries (voir fusion et fission des mitochondries)

Retour haut de page

 

6. La métabolomique et les modèles de reconstruction métabolique à l'échelle d'un génome

Les modèles de reconstruction du métabolisme à l'échelle d'un génome établissent le pont entre les informations issues du séquençage de ce génome (et des analyses subséquentes de ce génome), les données biochimiques et métaboliques et les phénotypes liés à ce métabolisme.

Cette démarche dite "métabolomique" est récente car elle est la conséquence logique de tous les domaines antérieurs en "omique".

L'accroissement du nombre de modèles du métabolisme à l'échelle d'un génome

Pour l'homme :

La figure ci-contre montre le nombre croissant de modèles de reconstruction métabolique à l'échelle d'un génome.

  • orange : eukaryotes
  • bleu : prokaryotes
  • vert : archaea

Le nombre de modèles croit exponentiellement : 30% des modèles ont été construits depuis 2010.

Un nombre croissant de modèles d'Eucaryotes (beaucoup plus complexes) sont construits.

Parmi eux, on notera 3 plantes :

Source : Kim et al. (2012)

metabolomique metabolomics modele reconstruction echelle genome genome-scale metabolic network modelling GENRE biochimej

Ainsi, la métabolomique intègre l'ensemble des données issues (liste non exhaustive) :

  • du séquençage des génomes et détermination de leur structure (génomique structurale)
  • de l'expression spatio-temporelle des gènes (génomique fonctionnelle)
  • du taux spatio-temporel réel des ARN messagers (transcriptomique)
  • du taux spatio-temporel réel de protéines (protéomique)
  • des bases de données de voies métaboliques : KEGG pathways, KEGG genes & proteins, BioCyc (EcoCyc, MetaCyc, AraCyc, YeastCyc, ...)
  • des bases de données généralistes (recueil d'informations) sur les gènes, les ARN messagers, les protéines, les métabolites et autres (NCBI, EBI, Uniprot, TransportDB , ...)
  • des bases de données sur les enzymes : réactions catalysées, paramètres cinétiques, substrats, produits, co-facteurs, effecteurs et autres (Brenda, Enzyme , ...)
  • des bases de données d'annotation des gènes et des protéines : Gene Ontology, KAAS (KEGG Automatic Annotation Server), DAVID , ...
  • des bases de données de la littérature scientifique :NCBI PubMed, ...
  • des données biochimiques accumulées depuis des décennies : décryptage des voies métaboliques, données thermodynamiques (en particulier ΔG' des réactions), concentration des métabolites, vitesse des réactions enzymatiques, paramètres cinétiques des enzymes ...

La métabolomique nécessite donc des méthodes bioinformatiques pour fouiller une quantité colossale de données ("data mining") et, bien souvent, pour les nettoyer (les "curer" - rôle critique des curateurs). Ce travail méticuleux, extrêmement gourmand en temps est laborieux et systématique.

Les nouvelles données attendues sont une "sur-information" déduite de l'analyse de l'ensemble de ces informations de base.

  • données concernant les possibilités métaboliques d'une cellule (ou d'un organisme) à s'adapter / évoluer dans tel environnement : un lien est alors établi entre le génome, le métabolisme et le phénotype.
  • précision concernant l'histoire évolutive d'une cellule (ou d'un organisme).
  • confirmation ou infirmation du rôle majeur de telle réaction enzymatique dans la régulation du flux de telle voie métabolique.
  • confirmation ou infirmation des corrélations établies entre gènes, enzymes et réactions catalysées.
  • mise en évidence de maillons métaboliques manquants : enzymes ou métabolites qui n'auraient pas été identifiés mais dont l'existence s'impose sur la base du bon fonctionnement des modèles.
  • comparaison de métabolisme intra- et inter-espèces : cette partie est la plus difficile car il faut avoir des modèles reconstruits pour les espèces comparées et ces modèles doivent être construits avec les mêmes nomenclatures, formalismes et structures de fichiers.
  • enfin et non des moindres : modification et améliorations d'espèces par ingénièrie ("knockout", accroissement de la transcription de gènes par "familles de facteur de transcription", ingénièrie des protéines, insertion de synthèse dans une voie métabolique, modifications de flux métabolique, ...).

Voir un cours sur la métabolomique.

Retour haut de page

 

Démarche de la reconstruction métabolique à l'échelle d'un génome

Cette démarche est itérative : la comparaison avec la réalité biologique permet d'ajuster le modèle et de le re-confronter aux données réelles et ainsi de suite, afin de l'améliorer (voir la figure 1 de Balagurunathan et al. (2012)).

  • recensement du maximum d'informations de tous types pour élaborer un modèle de base à affiner
  • création d'un premier modèle de reconstruction métabolique à l'échelle du génome de l'organisme étudié
  • de manière conjointe :
    1. analyse bioinformatique du modèle de reconstruction
    2. mesures des paramètres biochimiques et physiologiques réels qui rendent compte d'une croissance optimale de l'organisme
modele reconstruction metabolique echelle genome genome-scale metabolic network reconstruction modelling GENRE biochimej modele reconstruction metabolique echelle genome genome-scale metabolic network reconstruction modelling GENRE biochimej modele reconstruction metabolique echelle genome genome-scale metabolic network reconstruction modelling GENRE biochimej
  • comparaison des résultats prédits par le modèle avec les mesures réelles
  • le modèle est affiné : intégration ou élimination (sophistication) de données

Le processus de reconstruction recommence.

Source : Lewis et al. (2012)

modele reconstruction metabolique echelle genome genome-scale metabolic network reconstruction modelling GENRE biochimej

La métabolomique s'appuie massivement sur des méthodes bioinformatiques : elle est donc trés largement prédictive.

Mais elle permet d'orienter de futures expériences dans des voies prometteuses et épargne un temps précieux de recherche au hasard.

Bien évidemment, il existe une étape clé: la confrontation de ces modèles avec la réalité biologique. Cette étape est d'autant plus importante que les modèles peuvent être modifiés, améliorés comme tout système d'apprentissage.

Illustration de l'élaboration d'un modèle de reconstruction métabolique

Figure A (ci-dessous) : le 1er modèle dit "à plat"

  • Les métabolites (cercles vert et noirs), les réactions enzymatiques (Ex) et les transporteurs (Tx) sont extraits de l'annotation du génome et de différentes bases de données.
  • Le cercle vert S (en haut à gauche) représente l'entrée d'un substrat initial dans la voie métabolique et les cercles bleus représentent les produits (P1 à P5) en dehors (à priori) de cette voie métabolique.
  • Les couleurs (noire et verte) des réactions enzymatiques indiquent que plusieurs gènes codent la même enzyme (exemple : E10 et E37).
  • Les points d'interrogation sont des exemples de lacunes ("gap") qui imposent une amélioration de ce 1er modèle afin de combler ces lacunes ("gap filling") et déboucher sur une analyse in silico réaliste et efficace, c'est-à-dire dont on peut tirer des informations.

Metabolomique metabolomics modele reconstruction metabolique echelle genome genome-scale metabolic network reconstruction modelling GENRE iterative procedure

Source : Gomes de Oliveira Dal'Molin & Nielsen (2013)

Figure B : amélioration du 1er modèle

  • La recherche ou l'obtention (expérimentale) de nouvelles informations permet d'introduire la compartimentation qui sépare la glycolyse cytosolique et la glycolyse plastidique du cycle de Krebs dans les mitochondries.
  • La compartimentation permet aussi d'allouer les enzymes aux différents organites.
  • iI en découle la nécessité de transporteurs (T1 à T5, jusqu'à lors non mis en évidence) pour permettre le transport de métabolites entre organites.
  • De nouvelles réactions enzymatiques (jusqu'à lors non mises en évidence) peuvent être également proposées (E13 et E16).

 

7. Liens Internet et références bibliographiques
A workflow for omic data analysis omictools

Thiele et al. (2013) "A community-driven global reconstruction of human metabolism" Nat. Biotechnol. 31, 10.1038

Gomes de Oliveira Dal'Molin & Nielsen (2013) "Plant genome-scale metabolic reconstruction and modelling" Curr. Opin. Biotechnol. 24, 271 - 277

Boja et al. (2014) "Integration of omics sciences to advance biology and medicine" Clin. Proteomics 11, 45

Article

Article

Article

Boja et al. (2014) "Integration of omics sciences to advance biology and medicine" Clin. Proteomics 11, 45

Goodwin et al. (2016) "Coming of age: ten years of next-generation sequencing technologies" Nat. Rev. Genetics 17, 333–351

Xing et al. (2016) "Techniques for the Analysis of Protein-Protein Interactions in Vivo" Plant Physiol. 171, 727 - 758

Article

Article

Article

Van Emon J.M. (2016) "The Omics Revolution in Agricultural Research" J. Agric. Food. Chem. 13, 36 - 44

Reuter et al. (2016) "Simul-seq: combined DNA and RNA sequencing for whole-genome and transcriptome profiling" Nat. Methods 13, 953 - 958

Goodwin et al. (2016) "Coming of age: ten years of next-generation sequencing technologies" Nat. Rev. Genetics 17, 333–351

Article

Article

Article

Retour haut de page