Les domaines en omique Enseignement recherche biochimie enzymologie bioinformatique Emmanuel Jaspard Universite Angers biochimej

Quelques domaines en "omique" ("omics")

1. Introduction

a. Les domaines en omique
b. Méthodes omiques multimodales pour l'analyse de cellules individualisées ("single-cell multimodal omics methods")
c. Deux types de molécules support de la bioinformation
d. Un biais important à effacer : le manque d'information sur le sexe des individus à l'origine des données

2. La génomique

a. Introduction
b. Caractéristiques élémentaires des NGS
c. Exemples de technologies de séquençage dites de 3ème génération

3. La transcriptomique

4. La protéomique

a. Etapes de la protéomique
b. Principe de la spectrométrie de masse

5. L'interactomique : les interactions entre les molécules biologiques

6. La métabolomique et les modèles de reconstruction métabolique à l'échelle d'un génome

a. Le métabolome et la métabolomique
b. Les modèles de reconstruction du métabolisme à l'échelle d'un génome
c. Démarche de la reconstruction métabolique à l'échelle d'un génome

7. Liens Internet et références bibliographiques

1. Introduction

a. Les domaines en omiques

Il existe de nombreux sous-domaines scientifiques biologiques dont le nom a été créé avec le suffixe "omique". En voici les principaux exemples : génomique - métagénomique - épigénomique - transcriptomique - épitranscriptomique - translatomique - protéomique - métabolomique - interactomique - connectomique - fluxomique - integromique - glycomique - glycoprotéomique - lipidomique - pharmacogénomique, ...

big data omique omics genomique proteomique transcriptomique metabolomique genomics metagenomics epigenomics transcriptomics proteomics proteogenomics metabolomics metabonomics connectomics pharmacogenomics foodomics integromics glycomics lipidomics interactomics PPI fluxomics protein enzyme biochimej

Les anglo-saxons emploient le suffixe "omics".
Voir : "List of omics topics in biology".
La protéogénomique est l'analyse intégrative des données de génomique, de transcriptomique, de protéomique et de modifications post-traductionnelles.

Les figures ci-dessous montrent la répartition des publications (articles) scientifiques dans la base de données bibliographique PubMed qui mentionnent un ou plusieurs domaine(s) en "omique" :

Source : Noor et al. (2019)

(a) Nombre total d'articles par année depuis 2000 dans 4 domaines en "omique".
(b) Diagramme de Venn montrant le chevauchement des articles qui mentionnent un ou plusieurs domaine(s) en "omique". Les "multiomiques" les plus courants sont pour l'instant [génomique + protéomique] et [génomique + transcriptomique] qui représentent plus de 10% des articles.
(c) Pourcentage de publications "multiomiques" mentionnant au moins deux des trois domaines transcriptomique, protéomique et métabolomique (la génomique est omise).

Tous ces domaines évoluent très rapidement. Ils sont de plus en plus en "interaction" : on peu émettre l'hypothèse qu'ils se fondront en une discipline générale peut-être gérée par une intelligence artificielle.

b. Méthodes omiques multimodales pour l'analyse de cellules individualisées ("single-cell multimodal omics methods").

Les méthodes omiques développées jusqu'en 2010 (environ) ont permis d'analyser :

Un type de données omiques à la fois : séquence d'ADN, séquences et nombre de transcrits, accessibilité et modification de la chromatine, abondance, types et localisation des protéines, ...
D'un ensemble d'entités biologiques (tissus, cellules, génomes, ARN, ...) non individualisées.

Cette ségrégation résultait de contraintes méthodologiques et, bien que très riche en informations diverses, elle limitait la description des relations entre les macromolécules biologiques dans des cellules individualisées.

Décrire les interactions et les variations inter-individuelles est essentiel pour comprendre l'état cellulaire réel. Les avancées en biologie moléculaire, en microfluidique (figure ci-dessous) et en nanotechnologies ont donné naissance aux méthodes omiques multimodales unicellulaires ("single-cell multimodal omics methods").

microfluidique microfluidic single cell multimodal cellule unique individualise omique omics genomique proteomique transcriptomique metabolomique genomics metagenomics epigenomics transcriptomics proteomics proteogenomics metabolomics metabonomics interactomics protein enzyme biochimej

Source : Klein et al. (2015)

Ces méthodes :

Mesurent simultanément plusieurs types de données omiques dans une expérience.
Ou intègrent différents types de données omiques à partir d'expériences multiples.
Dans les deux cas, les données sont issues d'un très grand nombre de cellules individualisées. Actuellement, entre 100 cellules et 1 million de cellules environ, selon le type de données omiques donc la technologie employée.
Dévoilent l'hétérogénéité intercellulaire de divers types de biomolécules.
Mesurent simultanément deux ou plusieurs caractéristiques moléculaires de milliers de cellules individualisées.

Les méthodes évoluent très rapidement et le nombre de cellules étudiées ne cessent de croître :

La première expérience de séquençage d'ARN de cellules individualisées a été publiée en 2009 (Tang et al., 2009) : les auteurs ont analysé le profil de 8 cellules .
En 2016, la société 10X Genomics a publié un ensemble de données de plus de 1,3 million de cellules individualisées.
Certaines méthodes de calculs informatiques (variante du clustering k-means) permettent l'intégration d'ensembles de données de 500.000 cellules individualisées avec un ordinateur personnel.

single cell multimodal cellule unique individualise omique omics genomique proteomique transcriptomique metabolomique genomics metagenomics epigenomics transcriptomics proteomics proteogenomics metabolomics metabonomics interactomics protein enzyme biochimej

Source : Stuart & Satija (2019)

Quelques méthodes qui caractérisent la lignée cellulaire ("cell lineage")	scGESTALT : édition du génome unicellulaire de matrices cibles synthétiques pour le traçage de lignées ("inducible CRISPR-Cas9 system for late barcode editing"). LINNAEUS : traçage de lignées par édition activée par nucléase de séquences ubiquitaires. MEMOIR : mémoire par mutagenèse artificielle avec lecture optique in situ.
Quelques méthodes qui caractérisent l'état actuel d'une cellule ("current state of the cell")	Séquençage du génome : SNS, séquençage de noyau unique; SCI-seq, séquençage indexé combinatoire unicellulaire. Méthylation de l'ADN : scBS-seq, séquençage au bisulfite unicellulaire; snmC-seq, séquençage de méthylcytosine de noyau unique; sci-MET, indexation combinatoire unicellulaire pour l'analyse de méthylation. Accessibilité de la chromatine : scATAC-seq ("single cell Assay for Transposase Accessible Chromatin with high-throughput sequencing") ou analyse unicellulaire par séquençage de la chromatine accessible à la transposase. sciATAC-seq, analyse par séquençage d'indexation combinatoire unicellulaire de la chromatine accessible à la transposase. Modifications de la chromatine : scChIP – seq, immunoprécipitation de la chromatine unicellulaire suivie d'un séquençage. ARN messagers : MARS-seq, séquençage monocellulaire d'ARN massivement parallèle; SPLiT-seq, séquençage de transcriptome basé sur la ligature en groupes divisés. Protéines intracellulaires : PEA, test d'extension de proximité. Protéines de surface : CITE-seq, indexation cellulaire des transcriptomes et des épitopes par séquençage; FACS, tri cellulaire activé par fluorescence ("Fluorescence-activated cell sorting"); REAP-seq, test d'expression d'ARN et de séquençage de protéines. Position dans l'espace : MERFISH, hybridation in situ par fluorescence robuste et multiplexée; smFISH, hybridation in situ par fluorescence à molécule individualisée ("Single-molecule Fluorescence in situ Hybridization"); STARmap, cartographie de lecture d'amplicon de transcription résolue spatialement.
Quelques méthodes bioinformatiques qui ordonnent les cellules le long d'une trajectoire pseudotemporelle ("trajectory")	L'inférence de trajectoire ou l'ordre pseudotemporel est utilisée en transcriptomique de cellules individualisées pour (i) décrire la dynamique d'un processus qui se déroule dans les cellules étudiées, puis (ii) pour classer ces cellules en fonction de leur évolution au cours de ce processus. Wishbone : algorithme pour aligner les cellules le long des trajectoires de développement avec des branches. STREAM : pipeline interactif capable de démêler et de visualiser des trajectoires avec des branchements complexes à partir de données transcriptomiques et épigénomiques de cellules individualisées. Velocyto : package pour l'analyse de la dynamique de transcription à partir des données de séquençage d'ARN de cellules uniques. En particulier, il distingue les ARN messagers non épissés et épissés. Monocle : package du langage R qui permet le regroupement, la classification et le comptage des cellules, la construction des trajectoires de cellules uniques et l'analyse d'expression différentielle.
Exemples d'autres méthodes d'analyse de cellules individualisées	scCOOL-seq ("single-cell chromatin overall omic-scale landscape sequencing") : séquençage de la chromatine de cellules individualisées à l'échelle omique globale. scNOMeRe-seq ("single-cell nucleosome occupancy, methylome and RNA expression sequencing") : occupation des nucléosomes de cellules individualisées et séquençage du méthylome et des ARN transcrits. Analyse simultanée de la modification des histones et de la transcription de cellules individualisées à l'aide de 2 technologies (Paired-Tag & CoTECH).

Complément sur les méthodes d'inférence de trajectoires unicellulaires

Les données en omique issues de cellules individualisées permettent l'étude de processus cellulaires dynamiques tels que le cycle cellulaire, la différenciation cellulaire et l'activation cellulaire.

De tels processus dynamiques peuvent être modélisés par des moyens informatiques avec des méthodes d'inférence de trajectoire (ou analyse pseudotemporelles) qui ordonnent les cellules le long d'une trajectoire en fonction des similitudes de leurs modèles d'expression. Plusieurs dizaines d'outils logiciels bioinformatiques ont été développés pour ces types d'analyse des trajectoires.

Les trajectoires résultantes sont le plus souvent linéaires, bifurquantes ou arborescentes. Des méthodes récentes permettent de décrire des trajectoires plus complexes comme les graphes cycliques ou déconnectés. La figure ci-dessous illustre quelques méthodes appliquées à un ensemble de données contenant (a) une trajectoire linéaire de cellules dendritiques de différenciation et (b) une trajectoire bifurquante de fibroblastes reprogrammés.

single cell multimodal cellule unique individualise omique omics genomique proteomique transcriptomique metabolomique genomics inference trajectoire trajectory pseudotemporal tsne biochimej

Source : Saelens et al. (2019)

c. Deux types de molécules support de la bioinformation : les acides nucléiques et les protéines

Le "matériau de base" de la génomique, de la transcriptomique et de la protéomique est la séquence : l'enchaînement ordonné et orienté de nucléotides (acides nucléiques) ou d'acides aminés (protéines).

ADN : Acide DésoxyriboNucléique

macromolécule : chaîne nucléotidique

constituée par un enchaînement d'unités élémentaires : les désoxyribonucléotides

formée de deux brins complémentaires enroulés en double hélice ce qui lui permet de se dupliquer en deux molécules identiques entre elles et identiques à la molécule mère

On distingue :

l'ADN du génome du noyau
l'ADN du génome mitochondrial
l'ADN du génome chloroplastique

ARN : Acide RiboNucléiques

macromolécule : chaîne nucléotidique

constituée par un enchaînement d'unités élémentaires : les ribonucléotides

le plus souvent formé d'un simple brin

On distingue :

les ARN messagers ou ARNm : ils sont transcrits à partir d'un gène (ADN). Ils sont ensuite traduits en protéines.
les ARN de transfert
les ARN ribosomaux
les ARN nucléaires
les divers ARN non codants

Protéines

macromolécule : chaîne polypeptidique

constituées par un enchaînement d'unités élémentaires : les acides aminés

l'ensemble des protéines assurent les principales fonctions cellulaires

se replient sur elles-mêmes et adoptent une conformation ou structure particulière dans l'espace. Cette structure tridimensionnelle est à l'origine de la fonction des protéines et de leur spécificité de cette fonction.

d. Un biais à effacer : le manque d'information sur le sexe des individus à l'origine des données

Les différences entre sexes en biologie moléculaire, biologie cellulaire et biologie de l'organisme s'accumulent dès la fécondation et influencent largement le développement de l'individu.

Historiquement, les individus mâles ont été sur-représentés en recherche animale et humaine en raison de l'inquiétude que la variabilité hormonale des individus femelles ait une influence sur les résultats : le "sexe chromosomique" des lignées cellulaires a été ignoré. Dès lors, sans justification, les résultats de ces études à prédominance masculine ou asexuées ont été supposés s'appliquer de manière équivalente aux deux sexes.

L'étude d'ensembles de données fusionnées [femmes - hommes] peut masquer des différences qui ne sont révélées que lorsque chaque sexe est considéré individuellement. Ainsi, lorsque l'on compare des données féminines ou mixtes à celles d'une cohorte masculine, des faux négatifs sont mis en évidence ou les résultats peuvent être interprétés de manière erronée.

Exemples de bases de données qui n'annotent pas ou peu les termes en fonction du sexe
Base de données	Nombre de termes	Outils bioinformatiques liés à la base de données
Gene Ontology (GO)	45000	DAVID ("Database for Annotation, Visualization and Integrated Discovery"), PANTHER, WebGestalt, ClueGO, g:Profiler
KEGG	24000	DAVID, WebGestalt, ClueGO (plug-in du logiciel Cytoscape), g:Profiler
Reactome	21000	Reactome, PANTHER, WebGestalt, ClueGO, g:Profiler
WikiPathways	3000	WebGestalt ("WEB-based GEne SeT AnaLysis Toolkit")
PANTHER	180	PANTHER, WebGestalt
Source : Bond et al. (2021)

2. La génomique

a. Introduction

On peut considérer que l'ère des domaines en "omique" a commencé avec la génomique. Elle a débuté avec les premiers grands projets de séquençage qui ont utilisé la méthode de Fréderick Sanger :

Haemophilus influenzae 1995
Saccharomyces cerevisiae 1996
Escherichia coli K-12 1997
Caenorhabditis elegans 1998

Arabidopsis thaliana 2000
Drosophila melanogaster 2000
1er brouillon du génome de l'homme : 2001
Mus musculus 2002

Voir les bases de données :	"Genomes OnLine Database" - GOLD
	NCBI - Genome sequencing projects statistics
	"Phytozome" a tool for green plant comparative genomics.

Janvier 2022

Nombre de génomes complètement séquencés : > 25.300
Nombre de génomes en cours d'analyse : > 450.900
"Genomes OnLine Database" - GOLD

Des biologistes et des informaticiens prévoient que les ressources informatiques nécessaires pour traiter les données liées aux génomes dépasseront à terme celles nécessaires aux données de Twitter et de YouTube.

On estime qu'en 2025, de 100 millions à 2 milliards de génomes humains auront été séquencés. A lui seul, le stockage de ces données pourrait nécessiter 2 à 40 exaoctets (1 exaoctet = 10¹⁸ octets) car les données stockées pour un génome sont 30 fois plus grandes que la taille du génome lui-même (données brutes, erreurs, analyse préliminaire, …).

Le stockage des données ne sera qu'une petite partie du problème : les besoins pour l'acquisition, la distribution et l'analyse des données de génomique seront bien supérieurs (notion de "big data" et de méthodes d'apprentissage profond).

Les technologies de séquençage à trés haut débit ("next-generation high-throughput DNA sequencing technologies" - NGS) permettent de séquencer des milliards de nucléotides en une expérience. En conséquence, de plus en plus de génomes sont séquencés ou en cours de séquençage.

L'ensemble des données de séquençage est implémenté en temps réel dans des bases de données pour leur analyse.

Les NGS permettent d'aborder (liste non-exhaustive) :

le séquençage d'un génome inconnu (séquençage de novo ) ou le re-séquençage d'un génome connu
l'annotation (ou la ré-annotation) de plus en plus précise et exhaustive d'un génome
l'étude de la variabilité génétique et du polymorphisme de nucléotide simple (SNP)
le séquencage d'haplotypes particuliers lors du clonage positionnel d'un gène d'intérêt
l'étude du transcriptome qui permet lui-même :
1. l'édition des ARN : modification post- ou co-transcriptionnelle (essentiellement changement de l'adénosine en inosine)
2. l'identification des sites de démarrage de la transcription, des séquences frontière [intron/exon]
3. l'étude des évènements de l'épissage alternatif
4. l'analyse quantitative du niveau de transcription des gènes
5. la détection et la quantification d'ARN rares
6. l'étude du profil en petits et en longs ARN non codants ("small/long ncRNAs") et la découverte de gènes codant ces types d'ARN
7. l'identification de régions dont on ne savait pas au préalable qu'elles sont traduites (microprotéines et micropeptides)

b. Caractéristiques élémentaires des NGS ("Next-Generation high-throughput DNA Sequencing technologies")

Ces techniques permettent le séquençage d'un nombre colossal de nucléotides (jusqu'à 10¹² nucléotides séquencés par expérience) à un coût nettement moindre qu'avec la méthode de Sanger.
Séquençage en un temps record : ces technologies de séquençage permettent d'amplifier spécifiquement un fragment d'ADN isolé, en évitant les étapes de clonage bactérien particulièrement longues.
Ces méthodes sont parallèlisées : des millions de réactions ont lieu en même temps dans des barettes qui contiennent des puits minuscules en fibre optique.
Pour la majorité des techniques, les fragments séquencés sont courts : de 30 à environ 250 paires de base selon la technologie.
Cependant, cette longueur tend à augmenter considérablement avec l'avènement de certaines technologies dites de "3ème génération".
La petite taille et, en conséquence, le nombre très élevé (pour l'instant) de fragments séquencés induisent un travail d'analyse bioinformatique colossal en aval car il faut assembler ces fragments en contigs.

Le séquençage de novo est le séquençage d'un génome pour la première fois. Ce type de séquençage nécessite :

L'assemblage d'un très grand nombre de petites séquences du génome.
Un génome de référence (s'il en existe un) afin de positionner (par comparaison) les séquences obtenues.

Définitions importantes

Lecture ("read") : une séquence d'un fragment d'ADN.
Contigs : séquences continues générées par l'alignement de séquences de fragments qui se chevauchent.
Trous ("gaps") : parties du génome non séquencées ou dont les séquences ne chevauchent pas avec d'autres et ne peuvent donc entrer dans un contig.
Régions de faible compléxité : parties du génome dont les séquences sont très peu diversifiées (exemple : séquences répétées).

Le séquençage complet d'un génome avec les NGS conduit à un nombre colossal de petits fragments séquencés (un grand nombre de petites séquences ou lectures) que l'on essaye ensuite d'assembler en contigs. La qualité de couverture du séquençage et donc liée à celle des contigs (leur longueur et leur continuité) et donc au nombre de gaps.

L'un des inconvénients des NGS est la petite taille des fragments séquencés (actuellement) d'où un nombre élevé de gaps, en particulier pour les régions de faible complexité.

RNA-seq sequencage next-generation high-throughput DNA sequencing technology de novo whole genome shotgun contig paired end biochimej

a. Pour pallier cette difficulté, on peut séquencer les fragments :

A partir d'une extrémité ("single-end sequencing") : on obtient le début de la séquence du fragment à une extrémité.
A partir des 2 extrémités ("paired-end sequencing") : on obtient le début de la séquence du fragment à une extrémité et le début de la séquence du fragment à l'autre extrémité mais pas la séquence au milieu du fragment (le séquençage ne génére que de courtes séquences).
La distance entre chaque fragment séquencé étant connue, les algorithmes d'alignement utilisent cette information pour localiser avec plus de précision ces fragments dans les régions de faible complexité.

b. Un autre moyen est de construire des banques avec des inserts de petites tailles (0,2 - 0,8 kpb) et des banques avec des inserts de grandes tailles (2 - 40 kpb). On obtient ainsi des fragments séquencés de tailles variables ("short-insert paired end reads" et "long-insert paired end reads" ou "mate paired") qui aboutissent à un meilleur assemblage du fait de contigs plus longs.

L'acquisition et la compilation d'une masse de données de plus en plus astronomique d'une part et l'analyse des résultats des NGS nécessitent le développement d'outils bioinformatiques de plus en plus spécialisés (exemple : Allpaths-LG propose un assembleur pour grands génomes).

Voir un cours sur le séquençage des acides nucléiques.

c. Exemples de technologies de séquençage dites de 3ème génération

α. Séquençage avec des nanopores (Minion & PromethION - Oxford Nanopore Technologies)

L'ADN est initialement hydrolysé en longs fragments de 8 à 10 kilo paires de bases.

Deux adaptateurs différents ("leader" et "hairpin") sont attachés à l'une ou l'autre des extrémités de l'ADN. L'adaptateur "leader" est double-brin. Il contient :

Une séquence qui dirige l'ADN au travers du pore.
Une séquence d'attache qui dirige l'ADN vers la surface de la membrane.

Sans l'adaptateur "leader", les interactions de l'ADN avec le pore dans lequel l'ADN passe (voir ci-dessous) sont minimes, ce qui empêche tout fragment dont la conformation est "hairpin-hairpin" d'être séquencé.

Actuellement, il n'existe aucune méthode pour diriger les adaptateurs vers une extrémité particulière.
Il y a donc 3 conformations possibles de banque d'ADN : "leader-leader", "leader-hairpin" et "hairpin-hairpin" : la conformation idéale de la banque est donc "leader-hairpin".

Dans la conformation "leader-hairpin", la séquence "leader" dirige le fragment d'ADN à séquencer au travers d'un pore.

Ce pore est l'α-hémolysine (protéine bactérienne heptamèrique de diamètre interne = 1 nm).
Dans la nature, cette protéine s'insère dans la membrane des érythrocytes en formant un pore ce qui provoque, en général, la lyse de la cellule.
Dans le système de séquençage, un courant électrique est généré quand les nucléotides du fragment d'ADN à séquencer traversent l'α-hémolysine.

Carte peptidique massique biochimej

Source : Goodwin et al. (2016)

A mesure que l'ADN traverse le pore, on observe un décalage caractéristique de l'intensité électrique (de l'ordre du pA).
Divers paramètres (dont l'amplitude et la durée du décalage) sont enregistrés : ils correspondent à une séquence k-mer (k nucléotides successifs) particulière.
Lorsque le nucléotide suivant traverse le pore, l'intensité électrique est différemment modulée et un nouveau k-mer est identifié.

Quand arrive l'extrémité "hairpin", c'est le brin complémentaire de l'ADN qui continue à être transloqué au travers l'adaptateur du pore : ainsi, les deux brins sont séquencés pour obtenir une séquence consensus dite "lecture 2D".

Les dernières avancées

Les technologies avec des nanopores sont de plus en plus performantes. En 2018, le séquençage et l'assemblage de novo d'un génome humain se sont appuyés sur un protocole :

Qui a généré des lectures ultra-longues : N50 > 100 kb avec des longueurs de lecture jusqu'à 882 kb.
La précision de l'assemblage (après incorporation des données de séquençage à lecture courte complémentaires) a dépassé 99,8%.
Des lectures ultra-longues ont permis l'assemblage du locus du complexe majeur d'histocompatibilité de 4 Mo dans son intégralité.
Voir Jain et al. (2018)

La technologie Minion est utilisée de longue date dans la station spatiale internationale ("International Space Station", ISS). Elle a été testée avec succès dans des conditions de gravité comparables à celles qui règnent sur Mars (G = 0,378), sur la lune (G = 0,166) et sur Europa (satellite de Jupiter - G = 0,134). Voir : Carr et al. (2020).

Le séquençage en routine du génome humain est devenu possible avec le séquenceur PromethION (Oxford Nanopore Technologies) qui possède 3000 capteurs et 12.000 pores : ils génèrent en moyenne 70 Go de données permettant une couverture 20X du génome humain.

Enfin, la précision des logiciel d'appel de base est sensiblement améliorée par des algorithmes basés sur des modèles de Markov cachés ou des réseaux de neurones.

β. Séquençage d'une molécule en temps réel ("Single-Molecule Real-Time sequencing" - SMRT - Pacific Biosciences).

Les fragments matrice sont attachés à chaque extrémité à des adaptateurs en épingle à cheveux. On obtient une molécule d'ADN circulaire avec des régions constantes d'ADN monocaténaire (ADN simple brin) à chaque extrémité et l'ADN double brin matrice au milieu.
Les fragments ainsi obtenus sont sélectionnés en fonction de leur de taille (les fragments trop petits ou trop grands sont supprimés pour un séquençage efficace).
Des amorces et l'ADN polymérase du bactériophage φ29 sont alors fixées aux régions ADN simple brin.

Carte peptidique massique biochimej

Source : Goodwin et al. (2016)

Cette banque d'ADN est ensuite déposée dans les puits de la cellule SMRT de guide d'ondes en mode zéro (« Zero-Mode Waveguide SMRT cell » - SMRT/ZMW cell), dans lesquelles a lieu le séquençage.

Pour visualiser le séquençage, un mélange de nucléotides marqués par des fluorophores est ajouté. Au cours de l'incorporation, le nucléotide incorporé interrompt momentanément l'activité de la polymérase en bas de la ZMW : cette interruption de signal est enregistré par une caméra.

Longueur moyenne des lectures ("reads") : 10⁴ paires de base avec des lectures à 6 10⁴.

"Zero-Mode Waveguides" (ZMW)

Dispositif à l'échelle du nanomètre (plateforme Pacific Biosciences). Une cellule SMRT contient des dizaines de milliers de puits.
Chaque puits ZMW (également appelé guide d'ondes) a un diamètre de quelques nanomètres et est ancré dans un support en verre.
La taille de chaque puits ne permet pas la propagation de la lumière : ainsi les fluorophores liés aux nucléotides ne peuvent être visualisés qu'au travers du support en verre dans la partie la plus basse du puits, ce qui correspond à un volume de l'ordre du zeptolitre (10^-21 L).

3. La transcriptomique

La transcriptomique analyse l'ensemble des transcrits ou transcriptome : produits de la transcription des gènes.

Les principales méthodes d'étude du transcriptome sont :

la méthode RNA-seq
les puces à ADN
les étiquettes de séquences exprimées ("Expressed Sequences Tags" - EST)
la méthode SAGE et ses dérivées

Comparaison des puces à ADN et de la technique de séquençage "RNA-seq"

a. Les puces à ADN et la technique RNA-seq ont toutes deux une haute reproductibilité de résultats avec des réplicats biologiques.

b. Les puces à ADN permettent difficilement de distinguer le cas "pas de transcription" du cas "très faible transcription".

c. En raison de la différence de transcription des gènes et/ou du nombre de gènes codant un même type d'ARN messager, il n'existe dans une cellule que quelques copies de certains ARN messagers et des dizaines de milliers de copies d'autres ARN messagers :

La sensibilité de détection des ARN messagers rares est donc un paramètre capital.
La sensibilité de détection de la technique RNA-seq dépend de la profondeur du séquençage et celle des puces à ADN est quasiment constante. Celà signifie qu'en théorie, si on atteind une profondeur de séquençage suffisante, la technique RNA-seq permet de déterminer le nombre réel de toutes les molécules d'ARN dans un échantillon.

d. De multiples transcrits sont générés à partir de certains gènes par épissage alternatif. L'un des avantages de la technique RNA-Seq est sa capacité à détecter ces isoformes différentiellement transcrites :

En effet, sur une puce à ADN, une sonde courte donnée cible soit un exon constitutif (présent dans tous les transcrits issus de l'épissage alternatif), soit un exon spécifique de l'un des transcrits. Dans le second cas, ce transcrit est détecté mais les autres transcrits issus du même gène sont ignorés.
En conséquence, les ensembles de sondes de puces à ADN ne peuvent pas représenter tous les transcrits de tous les gènes.

e. Les puces à ADN sont sujettes à une saturation d'hybridation en ce qui concerne les transcrits très abondants. Elles ne peuvent pas fournir des mesures quantitatives fiables des changements subtils de la transcription de gènes abondants.

f. La technique RNA-Seq permet d'identifier des variants d'un seul nucléotide ("single nucleotide polymorphism" - SNP). La technique RNA-Seq présente deux avantages dans la détection de variants génétiques :

Aucune connaissance préalable concernant des variants potentiels n'est requise.
La détection est faite sur l'ensemble du génome même pour les rares SNP.

g. La technique RNA-Seq permet :

de détecter la transcription spécifique d'un allèle
d'identifier les différences ARN-ADN et ainsi d'étudier l'édition des ARN (exemples : A => I et C => U)
d'identifier significativement plus de gènes

Pour l'instant la technique RNA-seq présente deux inconvénients :

Elle a un côut plus élevé par échantillon - cependant ce coût diminue notablement année après année.
Elle nécessite un temps d'analyse bioinformatique des données très long et des moyens de calculs très importants.

Par ailleurs, l'un des atouts actuels (mais qui ne peut que diminuer avec le temps) des puces à ADN est l'acquis des dizaines de milliers d'expériences qui ont été menées avec cette technique et les différentes annotations des transcriptomes issues de toutes ces expériences.

L'un des atouts de la technique RNA-seq (ou d'une autre technologie à venir) est l'évolution très rapide des technologies de séquençage à très haut débit : le développement des méthodes avec multiplexage par répartition codes barres, des lectures ("reads") plus longues et un plus grand nombre de lectures appariées ("paired end reads").

Pour l'instant les puces à ADN et la technique RNA-seq restent donc complémentaires et peuvent même être combinées avec des résultats très importants.

Les méthodes RNA-seq de 3è génération

a. Le séquençage des ARN de cellules individuelles ("Single-cell transcriptome sequencing" - scRNA-seq)

Cette méthode permet d'obtenir les profils des transcrits de cellules individuelles et elle est considérée comme la référence pour définir les états cellulaires et les phénotypes.

Il n'est pas toujours possible d'obtenir des informations complètes sur chaque type d'ARN transcrit dans chaque type de cellule en raison de la très faible quantité de certains ARN. Dans ce cas, les modèles de transcription des gènes peuvent être décrits par des analyses de regroupement de gènes ("gene clustering analyses"). Cela permet de révéler l'existence de types de cellules rares au sein d'une population de cellules.

b. La transcriptomique résolue spatialement ("spatial transcriptomics")

C'est une méthode récente utilisée pour analyser les données de RNA-seq en 3 dimensions au sein d'une [superposition / juxtaposition] de cellules de divers types dans des coupes de tissus.

Les coupes de tissu sont placées sur une lame de verre de microscope recouverte de plusieurs milliers de séquences ordonnées de "capture" des ARN messagers : chaque séquence est une amorce oligo(dT) à code-barre unique permettant la capture des ARN messagers dans l'espace.
Les coupes de tissus sont ensuite colorées avec l'hématoxyline et l'éosine et imagées par microscopie à lumière transmise.
Cette étape est suivie d'une perméabilisation douce, de la capture des ARN messagers par les sondes oligo(dT) et enfin d'un séquençage RNA-seq.
L'analyse des données résultantes fournit un lien direct entre l'histologie et les données RNA-seq.

Spatial transcriptomics transcriptomique analyse transcriptome ARN RNA RNAseq sequence omics biochimej

Source : Stahl et al. (2016)

La revue scientifique "Nature Methods" a couronné la méthode de transcriptomique résolue spatialement en 2020.

c. Analyse combinée du génome et du transcriptome : technique "Simul-seq".

transcriptomique transcriptomics analyse transcriptome ARN RNA RNAseq sequence omics biochimej

Source : Reuter et al. (2016)

4. La protéomique

La protéomique a pour but d'identifier (et de quantifier) l'ensemble des protéines synthétisées ou protéome, à un moment donné et dans des conditions données au sein d'un tissu, d'une cellule ou d'un compartiment cellulaire.

Le protéome est extrêmement complexe à plusieurs titres :

Compte-tenu de l'épissage alternatif des transcrits primaires (plusieurs ARN messagers pour un gène) et compte-tenu des modifications post-traductionnelles des protéines, on peut estimer à plusieurs dizaines de milliers les formes des protéines synthétisées dans les différents tissus humains par exemple.

Pour chaque condition environnementale (condition physiologique normale vs. conditions de stress) une cellule est caractérisée par un protéome adapté à cette condition alors qu'elle a toujours le même génome. Le cas des plantes est un exemple flagrant compte-tenu de leur nécessité de s'adapter tant aux variations de la lumière qu'aux effets de stress biotiques ou abiotiques.

Outre les modifications post-traductionnelles, les protéines subissent des transformations une fois synthétisées : clivage du peptide signal d'adressage, activation de la forme native à partir d'un précurseur (zymogène), assemblage en complexes oligomèriques, association à des cofacteurs.

Il existe une grande dynamique de la synthèse des protéines : le rapport entre les protéines les moins abondantes et les plus abondantes dans une cellule dépasse 10⁶ pour atteindre 10¹² dans le sérum.

Les protéines ont des demi-vies trés variables : ornithine décarboxylase 11 min - tryptophane oxygénase 2 h - myosine 30 j.

La protéomique apporte des réponses auxquelles la transcriptomique ne peut répondre.

Les études de protéomique sont de plus en plus spécialisées :

protéome de la mitochondrie (Rhee et al., 2013)
phosphoprotéome lors de l'apoptose (Dix et al., 2012)
métalloprotéome (Fe, Zn, Mn, Mo, Co, ...) (Lancaster et al., 2011)
détermination des extrémités N- et C-terminales (TMPP-Ac-OSu) (Suh et al., 2011)
peptides de faible abondance (Zhou et al., 2010)
sécrétome des plantes : "SecretomeP 2.0 Server" (Agrawal et al., 2010)
étude de l'interactome (Kristensen et al., 2012)
...

Génome et protéome de l'homme
Analyse aboutie du génome de l'homme	2012	"The ENCODE Project Consortium" : 20 687 gènes codant des protéines Nature 489, 57-74 (2012)
Protéome de l'homme	2014	Kim et al. (2014) "A draft map of the human proteome" Nature 509, 575-581 Bases de données : Human Proteome Map et ProteomicsDB
Analyse conjointe du génome et du protéome (5 niveaux d'évidence d'existence des protéines) de l'homme	2018 - 2020	19 823 gènes codant des protéines HUPO (Human Proteome Project) 20 399 protéines NextProt (Swiss Institute of Bioinformatics)
Voir la liste des protéomes (en particulier les protéomes de référence) dans la base de données UNIPROT.

a. Etapes de la protéomique

Extraction des protéines (cas particulier des protéines membranaires).
Séparation des protéines par électrophorèse sur gel bi-dimensionnel (cas particulier des protéines membranaires) ou par des techniques de chromatographie (protéomique en vrac ou étude de peptides particuliers).
Révélation des protéines dans les gels puis analyse d'image des gels.
Récupération des spots de protéines dans le gel.

analyse proteome spectrometrie masse spectrometry tandem protein sequence domaine omics biochimej

Figure adaptée de Peng & Gygi (2001)

Hydrolyse par des protéases (exemple la trypsine).
Le cas échéant, détermination de la séquence N-terminale par la dégradation d'Edman dans le but de rechercher des candidats dans les banques de données.
Obtention de cartes peptidiques massiques par des techniques de spectromètrie de masse.
Détermination de la séquence complète des protéines par des techniques de spectromètrie de masse dites en tandem.
Analyse bioinformatique (identification des protéines, annotation des protéines et des gènes, recherche de motifs structuraux, analyse des structures, ...).

analyse proteome spectrometrie masse spectrometry tandem protein sequence domaine omics biochimej

Carte peptidique massique biochimej

Source : Vandenbrouck et al. (2005)

b. Principe de la spectrométrie de masse

L'ionisation électronique (souvent appelée impact électronique) et l'ionisation chimique sont les principales méthodes d'ionisation.

Dans le cas de l'ionisation électronique, l'échantillon est introduit dans une enceinte sous vide, il y est vaporisé puis soumis au bombardement d'un canon à électrons de grande énergie.

Un électron est arraché aux molécules et on obtient une espèce qui est à la fois un cation (ion positif) et un radical libre (nombre impair d'électrons), que l'on appelle ion moléculaire M^+. :

M + e- (énergie 70 eV) <=> M^+. + 2 e-

L'énergie du faisceau ionisant fragmente l'ion moléculaire par rupture des liaisons les plus faibles avant les liaisons les plus fortes et donne naissance à des ions positifs de masses plus faibles, qui pourront être fragmentés à nouveau (exemple : spectrométrie de masse dite en tandem - MS/MS).

Ces ions sont ensuite accélérés dans un champ électrique et/ou magnétique, puis dirigés entre les pôles d'un aimant selon une trajectoire circulaire qui dépend de leur rapport masse/charge [m/z]. En faisant varier le champ électrique, on fait varier la vitesse des ions moléculaires et on peut les faire ainsi parvenir au détecteur par ordre croissant de rapport [m/z].

Le tri des ions s'effectue :

soit par temps de vol : les ions arrivent à des temps différents en fonction de [m/z]
soit par courbure de trajectoire : le point d'impact des ions dépend de [m/z]

On obtient un grand nombre de pics, tous de masse inférieure à celle de l'ion moléculaire. Cet ensemble constitue un diagramme de fragmentation. Les groupements fonctionnels possèdent un diagramme de fragmentation qui leur sont propres.

analyse proteome spectrometrie masse spectrometry tandem protein sequence domaine omics biochimej

Dans un spectre de masse, la hauteur relative des pics indique l'abondance relative des espèces.

Voir un cours sur la protéomique.

Voir une application de la protéomique : étude de la RuBisCO.

5. L'interactomique : les interactions entre les molécules biologiques

L'interactomique est un domaine en "omique" plus récent.

Un interactome est l'ensemble des interactions physiques entre les molécules d'une cellule ou d'un compartiment sub-cellulaire :

L'interactome des protéines correspond à l'ensemble des interactions protéines-protéines ("Protein - Protein Interactions" - PPI).
L'interactome protéine - ADN (appelé aussi réseau régulateur de gènes - "gene-regulatory network") correspond au réseau formé par les facteurs de transcription, les protéines régulatrices de la structure de la chromatine (exemple : les histones) et leurs gènes cibles.

interactome interactomique PPI proteome spectrometrie masse spectrometry tandem protein sequence domaine omics biochimej

Source : Xing et al. (2016)

Beaucoup de protéines sont nativement non structurées. Cette caractéristique accentue le caractère transitoire des interactions entre protéines (ou entre protéine et ligand au sens large).
De plus, les molécules d'eau (d'hydratation des protéines ou intrinsèques à la stabilisation de la structure des protéines) jouent un rôle primordial dans la dynamique conformationnelle des protéines, donc dans leur interactivité.
Voir la stratégie de construction du serveur d'interactions APID.

Analyse et visualisation des réseaux d'interactions

Un interactome peut décrire des dizaines de milliers d'interactions qui forment un réseau. Exemple ci-dessous : une partie du réseau d'interactions établies par Dnm1, protéine clé de la fission des mitochondries.

interactome interactomique PPI proteome spectrometrie masse spectrometry tandem protein sequence domaine omics biochimej

Source : STRING

Un réseau d'interactions est généralement représenté sous la forme d'un graphe :

Les nœuds (sommets du réseau) représentent les protéines.
Les arcs ou arêtes (connexions entre les sommets) orientés (flèches) ou non orientés (traits) représentent les interactions entre les protéines.
Le nombre d'arêtes reliant un noeud dans un graphe non orienté est le degré du noeud.

Les modèles d'interactions physiques utilisent fréquemment des arêtes non orientées : si la protéine A interagit avec la protéine B, alors B interagit avec A. L'interaction est établie dans les deux sens (relation symétrique) : le graphe est dit non orienté.

Cependant les données expérimentales révèlent souvent une asymétrie :

Quand la protéine A est utilisée comme "proie", elle peut mettre en évidence une interaction avec la protéine B.
En revanche, l'utilisation de B comme proie peut ne pas détecter d'interaction avec A.

Il existe des logiciels d'analyse et de visualisation des réseaux d'interactions, en particulier :

Cytoscape : logiciel très performant, gratuit, pour toutes plate-formes, avec de très nombreux "plugin" développés par la communauté des utilisateurs. Cytoscape utilise des fichiers de différents formats :
1. BioPAX : ontologie pour représenter les connaissances des voies biologiques (PPI, métabolisme, signalisation, voies de régulation des gènes). C'est un format d'échange de données des voies biologiques.
2. SBML : format basé sur XML. Norme pour représenter les modèles informatiques en biologie des systèmes.
VisANT : applet JAVA.
NetworkAnalyst : "integrative approaches for protein–protein interaction network analysis and visual exploration"

Quelques méthodes pour l'identification des interactions

Méthodes biologiques

Les constructions génétiques appelées double-hybride dans la levure ("Yeast Two-Hybrid system").

L'immunoprécipitation de la chromatine ("Chromatin immunoprecipitation") : étude des protéines qui interagissent avec l'ADN (facteurs de transcription, histones) et pour l'étude des processus épigénétiques.

Purification par immunoprécipitation ("Tandem Affinity Purification") : billes enrobées d'un anticorps et synthèse d'une protéine de fusion.

"Bimolecular fluorescence complementation" (BiFC) : deux protéines d'intérêt sont fusionnées à un fragment N- ou C-terminal non fluorescent d'une protéine fluorescente puis traduites dans une cellule. Si une interaction a lieu entre les deux protéines d'intérêt, il y a reconstitution de la protéine fluorescente (formation d'un complexe fluorescent). Le signal est ainsi visualisé par microscopie de fluorescence ou par cytométrie en flux.

"Phage display" : un gène codant une protéine d'intérêt est associé au gène codant une protéine d'enveloppe d'un phage. Il y a alors synthèse d'une protéine de fusion qui se retrouve à la surface du phage : le phage affiche ("displays") la protéine d'intérêt.

"Strep - Protein INteraction Experiment" (SPINE) : le marqueur Strep est un octapeptide synthétique.

Membrane-SPINE ("Membrane-Strep-tagged protein interaction experiment") : combinaison de la purification spécifique d'une protéine membranaire marquée par Strep avec la fixation réversible de complexes protéiques par réticulation avec le formaldéhyde. Analyse finale par spectrométrie de masse.

"Far-Western Blotting" : démarche similaire au Western blot avec une différence : la sonde anticorps est substituée par une sonde protéine "appât" marquée.

Méthodes physiques

La chromatographie d'affinité couplée à la spectromètrie de masse.

"Förster resonance energy transfer" ou "Fluorescence resonance energy transfer" (FRET) : transfert d'énergie sans émission de lumière résultant d'une interaction entre deux molécules (donneur et accepteur d'énergie respectivement).

L'interférométrie couches biologiques ("Bio-Layer Interferometry" - BLI) : technique optique qui analyse le profil d'interférence de la lumière blanche réfléchie par deux surfaces.

L'interférométrie à double polarisation ("Dual Polarisation Interferometry" - DPI) : elle permet d'obtenir des mesures très précises de la taille, de la densité et de la masse des molécules. Lumière d'un faisceau laser.

Méthodes bioinformatiques

La fouille de données bibliographiques ("Text mining").

La compaction / l'empilement / les contacts protéine-protéine ("Protein - protein docking") : méthodes bioinformatiques de prédiction des interactions protéine-protéine basée sur les données de structure tridimensionnelle (contraintes stériques, chimiques, géomètriques, ...) et sur la stabilité optimale des molécules (minimisation d'énergie).

Quelques bases de données d'interactions protéines - protéines

MPIDB : Goll et al. (2008) "MPIDB: the microbial protein interaction database" Bioinformatics 24, 1743 - 1744
BioGRID : Breitkreutz et al. (2008) "The BioGRID Interaction Database: 2008 update" Nucleic Acids Res. 36, D637 - D640
GeneMANIA : Warde-Farley et al. (2010) "The GeneMANIA prediction server: biological network integration for gene prioritization and predicting gene function" Nucleic Acids Res. 38, W214 - W220
SPIKE : Paz et al. (2011) "SPIKE: a database of highly curated human signaling pathways" Nucleic Acids Res. 39, D793 - D799
MINT : Licata et al. (2012) "MINT, the molecular interaction database: 2012 update" Nucleic Acids Res. 40, D857 - D861
Mentha : Calderone et al. (2013) "Mentha: a resource for browsing integrated protein-interaction networks" Nature Meth. 10, 690 - 691
IntAct : Orchard et al. (2014) "The MIntAct project-IntAct as a common curation platform for 11 molecular interaction databases" Nucleic Acids Res. 42, D358 - D363
STRING : Szklarczyk et al. (2015) "STRING v10: protein-protein interaction networks, integrated over the tree of life" Nucleic Acids Res. 43, D447 - D452
PINA : Cowley et al. (2012) "PINA v2.0: mining interactome modules" Nucleic Acids Res. 40, D862 - 865
APID : Alonso-Lopez et al. (2016) "APID interactomes: providing proteome-based interactomes with controlled quality for multiple species and derived networks" Nucleic Acids Res. 44, W529 - W535
I2D : Kotlyar et al. (2016) "Integrated interactions database: tissue-specific view of the human and model organism interactomes" Nucleic Acids Res. 44, D536 - D541

Ensemble de bases de données "Interactome Projects at CCSB".

Quelques bases de données spécifiques des mitochondries : MitoCarta; Mitominer; IMPI.

6. La métabolomique et les modèles de reconstruction métabolique à l'échelle d'un génome

a. Le métabolome et la métabolomique

La métabolomique est définie actuellement comme l'analyse (identification, quantification, classification, découverte, ...) des petites molécules (masse molaire < 1000 - 1500 Da) constitutives d'une cellule, d'un tissu ou d'un fluide biologique.

Ces molécules sont appelées métabolites :

Ils appartiennent à toutes les familles de macromolécules biologiques : acides aminés, oses, lipides, acides nucléiques, protéines, vitamines, hormones, composés du métabolisme secondaire (antibiotiques, pigments, polyphénols, alcaloïdes, flavonoïdes, ...).
Ils sont très nombreux : estimation entre 5 10⁴ et 2 10⁵ métabolites dans le règne végétal (métabolisme secondaire important) et de 7000 à 15000 métabolites au sein d'une même espèce végétale.
Ils sont de nature physico-chimique, de masse molaire et de concentration très diverses.

L'ensemble des métabolites constitue le métabolome :

C'est un ensemble très dynamique puisqu'il résulte des modifications du métabolisme en réponse aux variations de conditions de vie d'un organisme.
Le métabolome résulte du métabolisme : l'analyse métabolomique permet d'étudier l'adaptation du métabolisme aux modifications d'environnement ou de comparer les métabolismes de différents organismes.
Cette approche met en évidence des réactions biochimiques non encore identifiées et, par voie de conséquence, les enzymes qui catalysent ces réactions jusqu'à lors inconnues.

La démarche "métabolomique" est récente car elle est la conséquence logique de tous les domaines antérieurs en "omique".

b. Les modèles de reconstruction du métabolisme à l'échelle d'un génome

Ils établissent le pont entre les informations issues du séquençage de ce génome (et des analyses subséquentes de ce génome), les données biochimiques et métaboliques et les phénotypes liés à ce métabolisme.

L'accroissement du nombre de modèles du métabolisme à l'échelle d'un génome

Pour l'homme :

L'un des tous premiers modèles de reconstruction métabolique pour l'homme est RECON 1 (Duarte et al., 2007).
Mars 2013 : publication de Recon 2 - (Thiele et al., 2013).
Juin 2016 : 5324 métabolites, 7785 réactions et 1675 gènes associés.
Modèle déposé dans la base de données Biomodels : MODEL1603150001
Avril 2018 : Recon3D => 3288 cadres de lecture ouverts (soit 17% des gènes annotés de l'être humain), 13543 réactions métaboliques impliquant 4140 métabolites uniques et 12890 structures de protéines.

La figure ci-dessous montre le nombre croissant de modèles de reconstruction métabolique à l'échelle d'un génome. En orange : eukaryotes; en bleu : prokaryotes; en vert : archaea.

metabolomique metabolomics modele reconstruction echelle genome genome-scale metabolic network modelling GENRE biochimej

Source : Kim et al. (2012)

Le nombre de modèles croit exponentiellement : 30% des modèles ont été construits depuis 2010.

Un nombre croissant de modèles d'Eucaryotes (beaucoup plus complexes) sont construits. Parmi eux, on notera 3 plantes : AraGEM : modèle pour Arabidopsis thaliana; C4GEM : modèle pour les plantes à métabolisme en C4; un modèle pour le maïs : Zea mays iRS1563.

Ainsi, la reconstruction du métabolisme à l'échelle d'un génome intègre l'ensemble des données issues (liste non exhaustive) :

du séquençage des génomes et détermination de leur structure (génomique structurale)
de l'expression spatio-temporelle des gènes (génomique fonctionnelle)
du taux spatio-temporel réel des ARN messagers (transcriptomique)
du taux spatio-temporel réel de protéines (protéomique)
des bases de données de voies métaboliques : KEGG pathways, KEGG genes & proteins, BioCyc (EcoCyc, MetaCyc, AraCyc, YeastCyc, ...)
des bases de données généralistes (recueil d'informations) sur les gènes, les ARN messagers, les protéines, les métabolites et autres (NCBI, EBI, Uniprot, ...)
des bases de données sur les enzymes : réactions catalysées, paramètres cinétiques, substrats, produits, co-facteurs, effecteurs et autres (Brenda, Enzyme , ...)
des bases de données d'annotation des gènes et des protéines : Gene Ontology, KAAS (KEGG Automatic Annotation Server), DAVID , ...
des bases de données de la littérature scientifique :NCBI PubMed, ...
des données biochimiques accumulées depuis des décennies : décryptage des voies métaboliques, données thermodynamiques (en particulier ΔG' des réactions), concentration des métabolites, vitesse des réactions enzymatiques, paramètres cinétiques des enzymes ...

La reconstruction du métabolisme à l'échelle d'un génome nécessite donc des méthodes bioinformatiques pour fouiller une quantité colossale de données ("data mining") et, bien souvent, pour les nettoyer (les "curer" - rôle critique des curateurs). Ce travail méticuleux, extrêmement gourmand en temps est laborieux et systématique.

Les nouvelles données attendues sont une "sur-information" déduite de l'analyse de l'ensemble de ces informations de base.

Données concernant les possibilités métaboliques d'une cellule (ou d'un organisme) à s'adapter / évoluer dans tel environnement : un lien est alors établi entre le génome, le métabolisme et le phénotype.
Précision concernant l'histoire évolutive d'une cellule (ou d'un organisme).
Confirmation ou infirmation du rôle majeur de telle réaction enzymatique dans la régulation du flux de telle voie métabolique.
Confirmation ou infirmation des corrélations établies entre gènes, enzymes et réactions catalysées.
Mise en évidence de maillons métaboliques manquants : enzymes ou métabolites qui n'auraient pas été identifiés mais dont l'existence s'impose sur la base du bon fonctionnement des modèles.
Comparaison de métabolisme intra- et inter-espèces : cette partie est la plus difficile car il faut avoir des modèles reconstruits pour les espèces comparées et ces modèles doivent être construits avec les mêmes nomenclatures, formalismes et structures de fichiers.
Enfin et non des moindres : modification et améliorations d'espèces par ingénièrie ("knockout", accroissement de la transcription de gènes par "familles de facteur de transcription", ingénièrie des protéines, insertion de synthèse dans une voie métabolique, modifications de flux métabolique, ...).

Voir un cours sur la métabolomique.

c. Démarche de la reconstruction métabolique à l'échelle d'un génome

Cette démarche est itérative : la comparaison avec la réalité biologique permet d'ajuster le modèle et de le re-confronter aux données réelles et ainsi de suite, afin de l'améliorer (voir la figure 1 de Balagurunathan et al., 2012).

recensement du maximum d'informations de tous types pour élaborer un modèle de base à affiner
création d'un premier modèle de reconstruction métabolique à l'échelle du génome de l'organisme étudié
de manière conjointe :
1. analyse bioinformatique du modèle de reconstruction
2. mesures des paramètres biochimiques et physiologiques réels qui rendent compte d'une croissance optimale de l'organisme

modele reconstruction metabolique echelle genome genome-scale metabolic network reconstruction modelling GENRE biochimej

Comparaison des résultats prédits par le modèle avec les mesures réelles.
Le modèle est affiné : intégration ou élimination (sophistication) de données.

Le processus de reconstruction recommence.

modele reconstruction metabolique echelle genome genome-scale metabolic network reconstruction modelling GENRE biochimej

Source : Lewis et al. (2012)

La reconstruction du métabolisme à l'échelle d'un génome s'appuie massivement sur des méthodes bioinformatiques : elle est donc trés largement prédictive. Mais elle permet d'orienter de futures expériences dans des voies prometteuses et épargne un temps précieux de recherche au hasard.

Bien évidemment, il existe une étape clé: la confrontation de ces modèles avec la réalité biologique. Cette étape est d'autant plus importante que les modèles peuvent être modifiés, améliorés comme tout système d'apprentissage.

Illustration de l'élaboration d'un modèle de reconstruction métabolique

Figure A (ci-dessous) : le 1er modèle dit "à plat"

Les métabolites (cercles vert et noirs), les réactions enzymatiques (E_x) et les transporteurs (T_x) sont extraits de l'annotation du génome et de différentes bases de données.
Le cercle vert S (en haut à gauche) représente l'entrée d'un substrat initial dans la voie métabolique et les cercles bleus représentent les produits (P1 à P5) en dehors (à priori) de cette voie métabolique.
Les couleurs (noire et verte) des réactions enzymatiques indiquent que plusieurs gènes codent la même enzyme (exemple : E₁₀ et E₃₇).
Les points d'interrogation sont des exemples de lacunes ("gap") qui imposent une amélioration de ce 1er modèle afin de combler ces lacunes ("gap filling") et déboucher sur une analyse in silico réaliste et efficace, c'est-à-dire dont on peut tirer des informations.

Metabolomique metabolomics modele reconstruction metabolique echelle genome genome-scale metabolic network reconstruction modelling GENRE iterative procedure

Source : Gomes de Oliveira Dal'Molin & Nielsen (2013)

Figure B : amélioration du 1er modèle

La recherche ou l'obtention (expérimentale) de nouvelles informations permet d'introduire la compartimentation qui sépare la glycolyse cytosolique et la glycolyse plastidique du cycle de Krebs dans les mitochondries.
La compartimentation permet aussi d'allouer les enzymes aux différents organites.
iI en découle la nécessité de transporteurs (T1 à T5, jusqu'à lors non mis en évidence) pour permettre le transport de métabolites entre organites.
De nouvelles réactions enzymatiques (jusqu'à lors non mises en évidence) peuvent être également proposées (E13 et E16).

7. Liens Internet et références bibliographiques

A workflow for omic data analysis

10X Genomics

omictools

Aller au site

O'Kane & Gehring (1987) "Detection in situ of genomic regulatory elements in Drosophila" Proc. Natl Acad. Sci. USA 84, 9123 - 9127
Cet article est l'un des tous premiers à décrire l'expression des gènes dans l'espace ("spatial transcriptomics").

Article

Tang et al. (2009) "mRNA-Seq whole-transcriptome analysis of a single cell" Nat. Methods. 6, 377 - 382

Balagurunathan et al. (2012) "Reconstruction and analysis of a genome-scale metabolic model for Scheffersomyces stipitis" Microb. Cell Fact. 11, 27

Thiele et al. (2013) "A community-driven global reconstruction of human metabolism" Nat. Biotechnol. 31, 10.1038

Gomes de Oliveira Dal'Molin & Nielsen (2013) "Plant genome-scale metabolic reconstruction and modelling" Curr. Opin. Biotechnol. 24, 271 - 277

Article

Boja et al. (2014) "Integration of omics sciences to advance biology and medicine" Clin. Proteomics 11, 45

Klein et al. (2015) "Droplet barcoding for single-cell transcriptomics applied to embryonic stem cells" Cell 161, 1187 - 1201

Goodwin et al. (2016) "Coming of age: ten years of next-generation sequencing technologies" Nat. Rev. Genetics 17, 333–351

Xing et al. (2016) "Techniques for the Analysis of Protein-Protein Interactions in Vivo" Plant Physiol. 171, 727 - 758

Article

Van Emon J.M. (2016) "The Omics Revolution in Agricultural Research" J. Agric. Food. Chem. 13, 36 - 44

Reuter et al. (2016) "Simul-seq: combined DNA and RNA sequencing for whole-genome and transcriptome profiling" Nat. Methods 13, 953 - 958

Goodwin et al. (2016) "Coming of age: ten years of next-generation sequencing technologies" Nat. Rev. Genetics 17, 333–351

Stahl et al. (2016) "Visualization and analysis of gene expression in tissue sections by spatial transcriptomics" Science 353, 78 - 82

Article

Prakadan et al. (2017) "Scaling by shrinking: empowering single-cell 'omics' with microfluidic devices" Nat. Rev. Genet. 18, 345 - 361

Jain et al. (2018) "Nanopore sequencing and assembly of a human genome with ultra-long reads" Nat. Biotechnol. 36, 338 - 345

Article

Noor et al. (2019) "Biological insights through omics data integration" Curr. Opin. Sys. Biol. 15, 39 - 47

Stuart & Satija (2019) "Integrative single-cell analysis" Nat. Rev. Genet. 20, 257 - 272

Saelens et al. (2019) "A comparison of single-cell trajectory inference methods" Nat. Biotech. 37, 547 - 554

Article

Carr et al. (2020) "Nanopore Sequencing at Mars, Europa and Microgravity Conditions" NPJ Microgravity 6, 24

Riley et al. (2020) "Optimal Dissociation Methods Differ for N- and O-Glycopeptides" J. Proteome Res. 19, 3286 - 3301

Wilbrey-Clark et al. (2020) "Cell Atlas technologies and insights into tissue architecture" Biochem. J. 477, 1427 - 1442

Article

Bond et al. (2021) "Molecular omics resources should require sex annotation: a call for action" Nat. Methods 18, 585 - 588

Moses & Pachter (2022) "Museum of spatial transcriptomics" Nat. Methods

Article