Analyse du transcriptome de cellules individualisées ("Single Cell RNAseq" - scRNAseq)

Méthodes omiques multimodales spatiales ("Spatial multiomics")

1. Introduction : les domaines en omique

2. Notion de cellules individualisées ("Single-Cell")

a. Généralité
b. Evolution de l'approche cellules individualisées
c. Exemples d'apports du séquençage du transcriptome de cellules individualisées ("Single-Cell RNAseq" - scRNAseq)
d. Marché financier généré par le "Single-Cell"

3. La microfluidique appliquée au "Single-Cell"

a. Présentation générale
b. Illustration d'un systéme micro-fluidique
c. Protocole général des méthodes à base de goutellettes

4. L'identifiant moléculaire unique (UMI)

5. La transcriptomique de cellules individualisées (scRNAseq)

a. Démarche générale d'une expérience scRNAseq
 
b. Réduction de la dimension des données scRNAseq
c. Evolution des méthodes de scRNAseq
d. La transcriptomique résolue spatialement ("spatial transcriptomics")

6. Méthodes omiques multimodales pour l'analyse de cellules individualisées ("Single-Cell multi-omics methods")

7. La prédiction des trajectoires de cellules individualisées

a. Trajectoires et pseudo-temps
b. Complément sur les trajectoires
c. Algorithmes de prédiction des trajectoires
d. Illustration des trajectoires

8. Comparaison des puces à ADN et de la technique RNA-seq

9. Liens Internet et références bibliographiques

 

1. Introduction : les domaines en omiques

Il existe de nombreux sous-domaines scientifiques biologiques dont le nom a été créé avec le suffixe "omique". En voici les principaux exemples : génomique - métagénomique - épigénomique - transcriptomique - épitranscriptomique - translatomique - protéomique - métabolomique - interactomique - connectomique - fluxomique - integromique - glycomique - glycoprotéomique - lipidomique - pharmacogénomique, ...

big data omique omics genomique proteomique transcriptomique metabolomique genomics metagenomics epigenomics transcriptomics proteomics proteogenomics metabolomics metabonomics connectomics pharmacogenomics foodomics integromics glycomics lipidomics interactomics PPI fluxomics protein enzyme biochimej

Les figures ci-dessous montrent la répartition des publications (articles) scientifiques dans la base de données bibliographique PubMed qui mentionnent un ou plusieurs domaine(s) en "omique" :

big data omique omics genomique proteomique transcriptomique metabolomique genomics metagenomics epigenomics transcriptomics proteomics proteogenomics metabolomics metabonomics connectomics pharmacogenomics foodomics integromics glycomics lipidomics interactomics PPI fluxomics protein enzyme biochimej

Source : Noor et al. (2019)

  • (a) Nombre total d'articles par année depuis 2000 dans 4 domaines en "omique".
  • (b) Diagramme de Venn montrant le chevauchement des articles qui mentionnent un ou plusieurs domaine(s) en "omique". Les "multi-omiques" les plus courants sont pour l'instant [génomique + protéomique] et [génomique + transcriptomique] qui représentent plus de 10% des articles.
  • (c) Pourcentage de publications "multiomiques" mentionnant au moins deux des trois domaines transcriptomique, protéomique et métabolomique (la génomique est omise).

Ces domaines sont désormais en "interaction", assistée par la progession en imagerie de fluorescence :

Retour haut de page

2. Notion de cellules individualisées ("Single-Cell").

a. Généralité

Il y a environ 30.000 milliards (3 1013) de cellules dans le corps humain adulte. Les cellules humaines ont été classées en environ 300 types en fonction de leur emplacement et de leur fonction.

Avant l'avènement des techniques physico-chimiques permettant de désolidariser les cellules d'un tissu puis de les séparer tout en préservant totalement leur intégrité structurale et leur contenu, les expériences ont, pendant des décennies (et encore maintenant), analysé des mélanges non contrôlés de cellules de différents types, à différents stades de leur existence et en nombre respectif inconnu (souvent décrit en anglais par l'expression "bulk cells").

Les résultats obtenus correspondent donc à une "moyenne" de l'ensemble du contenu et de la proportion relative de ces jeux de cellules d'un tissu donné, sans distinction aucune.

  • Il serait inapproprié de considérer, rétrospectivement, que l'ensemble des résultats obtenus avec des "mélanges de cellules" sont entachés d'erreur.
  • Il n'en demeure pas moins qu'individualiser les cellules afin de les étudier 1 à 1 et comparer toutes les cellules idividualiseés est un pas conceptuel et scientifique considérable.
  • Décrire les interactions et les variations inter-individuelles est essentiel pour comprendre l'état cellulaire réel.

Voir un remarquable glossaire à la fin de l'article de Heumos et al. (2023).

Retour haut de page

b. Evolution de l'approche cellules individualisées ("Single-Cell")

Les méthodes évoluent très rapidement et le nombre de cellules étudiées ne cessent de croître :

  • La première expérience de séquençage d'ARN de cellules individualisées a été publiée en 2009 (Tang et al., 2009) : les auteurs ont analysé le profil de 8 cellules.
  • En 2016, la société 10XGenomics a publié un ensemble de données de plus de 1,3 million de cellules individualisées.
  • Certaines méthodes de calculs informatiques (variante du clustering k-means) permettent l'intégration d'ensembles de données de 500.000 cellules individualisées avec un ordinateur personnel.

microfluidique microfluidic single cell multimodal cellule unique individualise omique omics transcriptomique transcriptomics interactomics protein enzyme biochimej

Source : Jovic et al. (2022)

La figure ci-dessous montre Le nombre d'articles dans la base de données PubMed mentionnant "Single-Cell" dans leur titre depuis la première publication de la méthode en 2009 (Tang et al.).

microfluidique microfluidic single cell multimodal cellule unique individualise omique omics transcriptomique transcriptomics interactomics publication biochimej

Source : Tarhan et al. (2023)

Retour haut de page

c. Exemples d'apports du séquençage du transcriptome de cellules individualisées ("Single-Cell RNAseq" - scRNAseq)

On appelle "bulk cells" le mélange hétérogène de populations de cellules différentes.

  • Mesure précise du taux de transcription de chaque cellule.
  • Analyse du rôle des différents types d'ARN selon le type de cellules.
  • Découverte de sous-types cellulaires (transcriptomes différents avec un génotype identique).
  • Décryptage des caractéristiques de chaque type de cellules : nombre, forme, composition, développement (états cellulaires et cycle cellulaire, trajectoire, ...).
  • Détection et caractérisation de cellules rares et de cellules pathologiques.
  • Analyse de systèmes biologiques complexes tel que le système immunitaire.
  • Compréhension du rôle de chaque type de cellules dans les mécanismes pathologiques.

microfluidique microfluidic single cell multimodal cellule unique individualise omique omics transcriptomique transcriptomics interactomics protein enzyme biochimej

Source : Yoon & Lee (2022)

Retour haut de page

d. Marché financier généré par le "Single-Cell"

La taille du marché mondial de l'analyse de cellules individualisées représentait 3 milliards de dollars en 2022 et devrait atteindre environ 14,61 milliards de dollars d'ici 2032 (croissance de #17 dans la période 2023 - 2032).

microfluidique microfluidic single cell multimodal cellule unique individualise omique omics transcriptomique transcriptomics interactomics protein enzyme market finance biochimej

Source : Precedence Research

Retour haut de page

3. La microfluidique appliquée au "Single-Cell"

a. Présentation générale

Les avancées technologiques en microfluidique ("lab-on-a-chip") ont été déterminantes pour développer l'analyse de cellules individualisées.

La microfluidique permet de manipuler des volumes extrêmement faibles (10-9 L à 10-18 L) de fluides dans des canaux, des plaques multi-puits ou des chambres de mélange à l'échelle micrométrique.

microfluidique microfluidic single cell multimodal cellule unique individualise omique omics transcriptomique transcriptomics interactomics protein enzyme biochimej

Source : Deng et al. (2023)

Les dispositifs microfluidiques piègent les cellules à l'intérieur de gouttelettes d'hydrogel : elles sont ensuite compartimentées dans les chambres où ont lieu les réactions sur les cellules individualisées.

La microfluidique à base de gouttelettes ("droplet-based microfluidics") permet :

  • L'écoulement de très faibles volumes de fluides non miscibles caractérisés par un faible nombre de Reynolds.
  • Un régime d'écoulement laminaire.

Les phases non miscibles de ces systèmes sont respectivement l:

  • La phase continue (le milieu dans lequel s'écoulent les gouttelettes).
  • La phase dispersée (celle des gouttelettes).

microfluidique microfluidic single cell multimodal cellule unique individualise omique omics transcriptomique transcriptomics interactomics protein enzyme biochimej

Source : Klein et al. (2015)

A droite : phase d'encapsulation; à gauche : phase de collecte.
Flèche rouge : cellules; flèche bleue : hydrogel; flèche noire : sens du flux.
Voir une vidéo du mélange et son écoulement.

Retour haut de page

b. Illustration d'un systéme micro-fluidique

Figure ci-dessous : schéma d'un mélangeur microfluidique à base de gouttelettes ("droplet-based microfluidic mixer").

  • Les "piliers" espacés dans les entrées (zone agrandie) fonctionnent comme des filtres qui empêchent les particules de pénétrer dans les canaux et de bloquer l'appareil.
  • La région agrandie représente l'introduction de l'échantillon, la formation des gouttelettes, le mélange (une gouttelette est représentée), la région de décélération et le canal d'observation des gouttelettes.

microfluidique microfluidic single cell multimodal cellule unique individualise omique omics transcriptomique transcriptomics interactomics protein enzyme biochimej

Source : Klein et al. (2015)

Figure ci-dessous : mélangeur microfluidique en fonctionnement.

  • Une gouttelette colorée à différents moments indique les changements de vitesse des gouttelettes dans différentes régions de l'appareil (accélération puis décélération).
  • La barre d'échelle correspond à 100 µm.

microfluidique microfluidic single cell multimodal cellule unique individualise omique omics transcriptomique transcriptomics interactomics protein enzyme biochimej

Source : Klein et al. (2015)

Retour haut de page

c. Protocole général des méthodes à base de goutellettes

Les dispositifs microfluidiques piègent les cellules à l'intérieur de gouttelettes d'hydrogel : elles sont ensuite compartimentées dans les chambres où ont lieu les réactions sur les cellules individualisées.

Les protocoles les plus utilisés (exemples : "inDrop", "Drop-seq" et "10xGenomics Chromium") génèrent ces gouttelettes plusieurs milliers de fois par seconde (processus massivement parallèle) pour un coût relativement faible.

  • Les gouttelettes d'un volume de l'ordre du nanolitre (10-9 L) contiennent des cellules encapsulées.
    • En effet, ces gouttelettes sont conçues pour capturer simultanément des microbilles ("microbeads") et les cellules individualisées.
    • On greffe sur ces microbilles des amorces spécifiques constituées :
      • (i) d'une séquence pour l'amplification PCR.
      • (ii) d'un code-barre pour reconnaitre le type cellulaire.
      • (iii) d'un identifiant moléculaire unique ("Unique Molecular Identifier" - UMI) de 4 à 8 pb :
        • L'UMI marque de manière unique chaque molécule d'ADN ou d'ADNc.
        • Si l'UMI est constituée de 8 pb, il existe 48= 65536 possibilités de code-barres par microbille.
      • (iv) d'une queue poly-T complémentaire de la queue poly-adénylée des ARN messagers.
  • Lors de la lyse cellulaire, les ARN messagers libérés sont immédiatement capturés par les oligonucléotides [code-barre / queue poly-T] fixés sur les microbilles.
  • Les gouttelettes sont collectées et disloquées : le transcriptome (l'ensemble des transcrits) d'une cellule individualisée attaché aux microparticules ("Single-cell Transcriptomes Attached to MicroParticles" - STAMP) est ainsi libéré.

microfluidique microfluidic single cell multimodal cellule unique individualise omique omics transcriptomique transcriptomics interactomics protein enzyme biochimej

Source : Klein et al. (2016)

  • L'étape suivante est une transcription inverse (synthèse de cDNA) couplée à une amplification PCR des transcrits.
  • La "tagmentation" (marquage par une étiquette ou "tag") a lieu lorsque les transcrits sont coupées de manière aléatoire et que des adaptateurs de séquençage y sont attachés.

On obtient ainsi les bibliothèques qui permettent de séquencer les transcriptomes (STAMP) individualisés de milliers de cellules en une réaction.

Enfin, le code-barre de chaque transcriptome (STAMP) permet d'associer chaque transcrit (ARN) à sa cellule d'origine.

microfluidique microfluidic single cell multimodal cellule unique individualise omique omics transcriptomique transcriptomics interactomics protein enzyme biochimej

Source : Macosko et al. (2016)

Retour haut de page

4. L'identifiant moléculaire unique (UMI)

Un identifiant moléculaire unique ("Unique Molecular Identifier"  - UMI) est est une courte séquence nucléotidique qui marque de manière unique chaque molécule d'ADN ou d'ADNc d'une bibliothèque.

Le séquençage RNA-Seq quantifie précisément l'abondance de chaque transcrit (ARN) d'un échantillon.

  • Lors de la préparation de la bibliothèque, l'étape de PCR amplifie les transcrits pour augmenter leur abondance respective.
  • Cette amplification se traduit par de multiples copies de chaque acide nucléique d'origine que l'on ne peut pas distinguer les unes des autres : il est donc extrêmement difficile de déterminer le nombre initial de molécules dans l'échantillon de départ.
  • L'utilisation d'UMI permet ainsi de quantifier ces molécules d'origine.

Chaque acide nucléique de l'échantillon de départ (avant amplification) est donc étiqueté avec ce type de "code-barre moléculaire" unique :

  • Le logiciel bioinformatique corrige ainsi davantage les erreurs lors de l'amplification PCR et augmente la précision du séquençage (détection des séquences doublons).
  • De plus, les allèles variants dans l'échantillon de départ (vrais variants) sont également distingués des erreurs introduites lors de la préparation de la bibliothèque, de l'enrichissement de la cible ou du séquençage.
  • Les UMI sont très utiles pour les expériences qui utilisent des quantités initiales très faibles comme l'analyse du transriptome de cellules individualisées ("Single-Cell RNA-Seq" - scRNAseq).

Retour haut de page

5. La transcriptomique de cellules individualisées (scRNAseq)

Cette méthode permet d'obtenir les profils des transcrits de cellules individuelles et elle est considérée comme la référence pour définir les états cellulaires et les phénotypes.

Il n'est pas toujours possible d'obtenir des informations complètes sur chaque type d'ARN transcrit dans chaque type de cellule en raison de la très faible quantité de certains ARN. Dans ce cas, les modèles de transcription des gènes peuvent être décrits par des analyses de regroupement de gènes ("gene clustering analyses"). Cela permet de révéler l'existence de types de cellules rares au sein d'une population de cellules.

a. Démarche générale d'une expérience scRNAseq

  • 1) Isolement / séparation de cellules individualisées.
  • 2) Lyse des cellules dans des conditions qui préservent l'intégrité des ARN messagers (ARNm).
  • 3) Capture / isolement des ARNm.
  • 4) Transcription inverse des ARNm : synthèse de l'ADN complémentaire (ADNc).
  • 5) Amplification et étiquetage des ADNc par des "codes-barres" (séquences nucléotidiques) cellulaires et, selon le protocole, par des UMI (séquences nucléotidiques).
  • 6) Préparation des bibliothèques d'ADNc.
  • 7) Les bibliothèques sont regroupées (multiplexées - "multiplexed") pour le séquençage.
  • 8) Analyse bioinformatique des séquences lues ("reads") :
    • Contrôle qualité des séquences (fichiers FASTA, FASTQ, BAM & SAM), correction des données brutes ("raw data processing").
    • Regroupement ("clustering") et classification en fonction des codes-barres (démultiplexage - "demultiplexing")
    • Alignement des séquences et de comparaison avec des génomes, annotation.
    • ...
  • 9) Analyse biostatistique des données :
    • Réduction de dimension des données (exemple : "t-distributed Stochastic Neighbour Embedding" - t-SNE).
    • Analyse de la dynamique de transcription des gènes : expression différentielle ("Volcano plot"), prédiction de trajectoires, ...
    • Les séquences obtenues avec des protocoles utilisant des UMI sont davantage démultiplexées. Une donnée quantitative supplémentaire est ainsi obtenue : les données de décompte ("count data") des molécules d'ARNm.
    • Réseaux de régulation de transcription des gènes, réseaux d'interactions, ...
    • Visualisation de ces différentes informations.
    • ...

microfluidique microfluidic single cell multimodal cellule unique individualise omique omics transcriptomique transcriptomics interactomics protein enzyme biochimej

Source : Luecken et al. (2019)

L'analyse bioinformatique et l'analyse biostatistique utilisent des ensembles de scripts ("pipeline"), généralement écrits en Python ou dans le langage R (voir les projets CRAN et Bioconductor).

Retour haut de page

b. Réduction de dimensionnalité des données scRNAseq

Le séquençage des ARN messagers de cellules individualisées ("Single cell mRNA sequencing" - scRNAseq) mesure simultanément les niveaux de transcription des gènes de milliers de cellules individuelles : les résultats permettent d'étudier le taux de transcription de chaque cellule d'un même type (voire de chaque cellule de types différents dans le cas d'un tissu) et, par extension, d'étudier différents processus cellulaires.

Ces ensembles de données transcriptomiques très complexes sont de 1 ou plusieurs ordre(s) de grandeur plus grand(s) que ceux obtenus par l'analyse RNAseq classique d'un mélange de cellules (cellules non individualisées - RNAseq).

  • Bien que la résolution extrêmement fine des données scRNAseq soit d'une très grande richesse en terme d'informations biologiques, elles sont par ailleurs caractérisées par une rareté, un bruit de fond et des artefacts techniques bien plus élevés que pour les données RNAseq.
  • Elles nécessitent donc un pré-traitement et une normalisation qui leur sont spécifiques: l'analyse scRNAseq inclut notamment une réduction dimensionnelle pour atténuer le bruit et faciliter le calcul.
    • Le choix de la méthode de réduction dimensionnelle influence les analyses, les résultats et les conclusions.
    • Les méthodes (complexes du point de vue mathématique) principalement employées sont l'analyse en composantes principales (ACP) et les cartes de diffusion.
    • Voir Ahlmann-Eltze & Huber (2023).
  • Le traitement de telles quantités de données nécessitent des scripts informatiques spécifiques (scripts R ou Python, Bioconductor, recueil de scripts GitHub, ...).

La table de comptage ("count table") est une matrice de nombres (avec de nombreux zéro) :

Techniques fréquemment utilisées pour l'analyse des grands jeux de données scRNAseq

  • Les techniques de réduction de dimensionnalité t-SNE ("t-Distributed Stochastic Neighbour Embedding") et UMAP ("Uniform Manifold Approximation and Projection") sont adaptées à la visualisation d'ensembles de données de grande dimension.
  • Voir de superbes illustrations interactives de l'UMAP.

Retour haut de page

c. Evolution des méthodes de scRNAseq

Il existe 2 catégories principales de méthodes pour l'obtention de données transcriptomiques de cellules individualisées :

  • Les méthodes basées sur des plaques ("plate-based methods") offrent une résolution plus élevée pour chaque cellule individualisée. Elles permettent de générer des transcrits pleine longueur ("full-length transcripts") et de détecter des transcrits rares. Ces méthodes sont limitées par la taille des plaques et le nombre de cellules utilisables pour l'analyse.
  • Les méthodes basées sur les gouttelettes ("droplet-based methods") offrent un très haut débit de cellules individualisées (des milliers de cellules analysées en parallèle). Ces méthodes ne peuvent analyser les transcrits qu'à partir de leur extrémité 5' ou de leur extrémité 3', ne permettant pas de détecter la transcription allèlique spécifique.

La figure ci-dessous décrit la chronologie du développement de ces méthodes.

  • La partie supérieure du graphique montre les principales étapes marquant l'augmentation du débit de séquençage.
  • La partie inférieure montre l'amélioration de la sensibilité.
  • La première expérience de séquençage d'ARN de 8 cellules individualisées a été publiée en 2009 (Tang et al.).

single cell multimodal cellule unique individualise omique omics multiomique multiomics transcriptomique rnaseq scrnaseq protein enzyme biochimej

Source : Pan et al. (2022)

Les réactions chimiques et les stratégies développées pour mettre au point les premières méthodes à faible débit ont permis le développement de celles à très haut débit. L'introduction des technologies de microfluidique a permis le changement d'échelle et le traitement massivement parallèle de cellules individualisées (méthodes à haut débit).

  • STRT-Seq : Single-Cell Tagged Reverse Transcription sequencing
  • Smart-Seq :
  • CEL-Seq: Single-Cell RNA-Seq by multiplexed linear amplification
  • Fluidigm C1 system (96 cellules individualisées en 2012) : détection des sites d'initiation de la transcription et de l'activité des sites "enhancer" (activateur de la transcription) de cellules individualisées.
  • MARS-Seq : Massively parallel RNA Single-Cell sequencing framework
  • MATQ-Seq : Multiple Annealing and dC-Tailing-based Quantitative scRNA-seq
  • 10xGenomics : basée sur des gouttelettes microfluidiques.
  • sci-RNA-seq et SPLiT-seq : stratégie d'indexation combinatoire : au lieu d'un compartimentage physique de cellules individualisées, l'objectif de marquer plusieurs dizaines de milliers de transcriptomes unicellulaires sont marqués en même temps par des cycles de division ("to split") puis de mélange ("to pool").
  • FACS : Fluorescence-Activated Cell Sorting

Des protocoles comme STRT-Seq et CEL-Seq ont introduit la stratégie des codes-barres ("barcode") spécifiques de chaque type de cellule :

  • Tous les transcrits d'une seule cellule sont étiquetés avec le même code-barre, unique pour chaque cellule.
  • Ce code-barre est une courte séquence oligonucléotidique identifiée lors du séquençage.
  • Il permet d'associer chaque transcrit à la cellule dont il est issu et ainsi d'effectuer un traitement parallèle.

Retour haut de page

Caractéristiques de quelques méthodes de séquençage
Méthode C1 (SMARTer) Smart-seq2 MATQ-seq MARS-seq CEL-seq Drop-seq InDrop Chromium SEQ-well SPLIT-seq
Transcrits Pleine longueur Extrémité 3'
Plateforme Microfluidique Plaque goutelettes

nanopuits

Plaque
Nombre de cellules individualisées) 102–103103–104103–104 103–105
Profondeur de lecture typique par cellule106104–105 104–105104–105 104
Volume de réaction Nanolitre Microlitre Microlitre Nanolitre Nanolitre Nanolitre Microlitre
Source : Haque et al. (2017)

Nom de la méthode Méthode de séparation Méthode d'amplification UMI Type d'amplification Avantages Désavantages Date
VASA-seq FANS PCR oui tous les transcrits Faible coût et dosage précis / 2022
Smart-seq3 microfluidique PCR oui extrémité 5' Sensibilité élevée Chronophage 2020
DNBelabC4 microfluidique PCR oui tous les transcrits Quantification précise / 2019
Seq-Well microfluidique PCR oui extrémité 3' Faible coût et quantification précise Ne convient pas ? l'épissage variable et ? l'expression allélique 2017
MATQ-seq FACS PCR oui tous les transcrits Quantification précise Faible débit cellulaire 2017
10X Genonmics microfluidique PCR oui extrémité 3' Efficacité élevée de capture cellulaire, temps de cycle rapide, haute adéquation cellulaire et reproductibilité Séquen?age uniquement de l'extrémité 3' 2016
Cyto-Seq microfluidique PCR oui extrémité 3' Faible coût et débit élevé Contamination croisée des ARN 2015
SC3-seq Micromanipulation PCR oui extrémité 3' Bonne reproductibilité and accurate quantification Extrémité 3' de l'ADN 2015
inDrop-seq microfluidique IVT oui extrémité 3' Faible coût et amplification linéaire Longue durée de fonctionnement et concentration cellulaire initiale élevée 2015
Drop-seq microfluidique PCR oui extrémité 3' Faible coût et débit élevé Faible taux de capture cellulaire 2015
MARS-seq FACS IVT oui extrémité 3' Spécificité élevée Faible efficacité d'amplification 2014
STRT-seq microfluidique PCR non tous les transcrits Positionnement précis des transcrits l'extrémité 5' qui réduit le biais d'amplification Faible sensibilité, disponible uniquement pour l'identification de l'extrémité 5' de l'ADN 2014
Quartz-seq FACS PCR oui extrémité 3' Sensibilité élevée, reproductibilité et simplicité opérationnelle Bruit de fond élevé 2013
Fluidigm C1 Microfluidique PCR non tous les transcrits Processus simple Coût élevé et faible débit 2013
Smart-seq2 FACS PCR non tous les transcrits L'ADNc complet détecte les variants structurels et de cisaillement de l'ARN Coût élevé, faible débit et chronophage 2013
Smart-seq FACS PCR non tous les transcrits Sensibilité élevée to reduce the rates of nucleic acid loss Faible débit / biais de longueur de transcription 2012
CEL-seq FACS IVT oui extrémité 3' Bonne reproductibilité et très sensible Faible débit et faible efficacité d'amplification
bibliothèque orientée vers l'extrémité 3' du gène
2012
Tang-2009 FACS PCR non extrémité 3' Bonne reproductibilité Coût élevé et faible débit 2009

Source : Wang et al. (2023)

  • FACS : tri cellulaire activé par fluorescence ("Fluorescence-Activated Cell Sorting")
  • IVT : amplification de transcription in vitro (IVT) ("In Vitro Transcription amplification")
  • UMI : identifiants moléculaires uniques ("Unique Molecular Identifiers")

Retour haut de page

d. La transcriptomique résolue spatialement ("spatial transcriptomics")

C'est une méthode récente utilisée pour analyser les données de RNA-seq en 3 dimensions au sein d'une [superposition / juxtaposition] de cellules de divers types dans des coupes de tissus.

  • Les coupes de tissu sont placées sur une lame de verre de microscope recouverte de plusieurs milliers de séquences ordonnées de "capture" des ARN messagers : chaque séquence est une amorce oligo(dT) à code-barre unique permettant la capture des ARN messagers dans l'espace.
  • Les coupes de tissus sont ensuite colorées avec l'hématoxyline et l'éosine et imagées par microscopie à lumière transmise.
  • Cette étape est suivie d'une perméabilisation douce, de la capture des ARN messagers par les sondes oligo(dT) et enfin d'un séquençage RNA-seq.
  • L'analyse des données résultantes fournit un lien direct entre l'histologie et les données RNA-seq.

Spatial transcriptomics transcriptomique analyse transcriptome ARN RNA RNAseq sequence omics biochimej

Source : Stahl et al. (2016)

La revue scientifique "Nature Methods" a couronné la méthode de transcriptomique résolue spatialement en 2020.

Retour haut de page

6. Méthodes omiques multimodales pour l'analyse de cellules individualisées ("Single-Cell multi-omics methods").

Les méthodes omiques développées jusqu'en 2010 (environ) ont permis d'analyser :

  • Un type de données omiques à la fois : séquence d'ADN, séquences et nombre de transcrits, accessibilité et modification de la chromatine, abondance, types et localisation des protéines, ...
  • D'un ensemble d'entités biologiques (tissus, cellules, génomes, ARN, ...) non individualisées.

Cette ségrégation résultait de contraintes méthodologiques et, bien que très riche en informations diverses, elle limitait la description des relations entre les macromolécules biologiques dans des cellules individualisées. Les avancées en biologie moléculaire, en microfluidique et en nanotechnologies ont donné naissance aux méthodes omiques multimodales unicellulaires ("Single-Cell multimodal omics methods").

Ces méthodes :

  • Mesurent simultanément plusieurs types de données omiques dans une expérience.
  • Ou intègrent différents types de données omiques à partir d'expériences multiples.
  • Dans les deux cas, les données sont issues d'un très grand nombre de cellules individualisées. Actuellement, entre 100 cellules et 1 million de cellules environ, selon le type de données omiques donc la technologie employée.
  • Dévoilent l'hétérogénéité intercellulaire de divers types de biomolécules.
  • Mesurent simultanément deux ou plusieurs caractéristiques moléculaires de milliers de cellules individualisées.

single cell multimodal cellule unique individualise omique omics genomique proteomique transcriptomique metabolomique genomics metagenomics epigenomics transcriptomics proteomics proteogenomics metabolomics metabonomics interactomics  protein enzyme biochimej

Source : Stuart & Satija (2019)

 

Voir un ensemble de revues :

Voir une chronologie des méthodes omiques spatiales basées sur les cellules individualisées.

Retour haut de page

Quelques méthodes qui caractérisent la lignée cellulaire ("cell lineage")
  • scGESTALT : édition du génome unicellulaire de matrices cibles synthétiques pour le traçage de lignées ("inducible CRISPR-Cas9 system for late barcode editing").
  • LINNAEUS : traçage de lignées par édition activée par nucléase de séquences ubiquitaires.
  • MEMOIR : mémoire par mutagenèse artificielle avec lecture optique in situ.
Quelques méthodes qui caractérisent l'état actuel d'une cellule ("current state of the cell")
  • Séquençage du génome : SNS, séquençage de noyau unique; SCI-seq, séquençage indexé combinatoire unicellulaire.
  • Méthylation de l'ADN : scBS-seq, séquençage au bisulfite unicellulaire; snmC-seq, séquençage de méthylcytosine de noyau unique; sci-MET, indexation combinatoire unicellulaire pour l'analyse de méthylation.
  • Accessibilité de la chromatine :
    • scATAC-seq ("single cell Assay for Transposase Accessible Chromatin with high-throughput sequencing") ou analyse unicellulaire par séquençage de la chromatine accessible à la transposase.
    • sciATAC-seq, analyse par séquençage d'indexation combinatoire unicellulaire de la chromatine accessible à la transposase.
  • Modifications de la chromatine : scChIP – seq, immunoprécipitation de la chromatine unicellulaire suivie d'un séquençage.
  • ARN messagers : MARS-seq, séquençage monocellulaire d'ARN massivement parallèle; SPLiT-seq, séquençage de transcriptome basé sur la ligature en groupes divisés.
  • Protéines intracellulaires : PEA, test d'extension de proximité.
  • Protéines de surface : CITE-seq, indexation cellulaire des transcriptomes et des épitopes par séquençage; FACS, tri cellulaire activé par fluorescence ("Fluorescence-activated cell sorting"); REAP-seq, test d'expression d'ARN et de séquençage de protéines.
  • Position dans l'espace : MERFISH, hybridation in situ par fluorescence robuste et multiplexée; smFISH, hybridation in situ par fluorescence à molécule individualisée ("Single-molecule Fluorescence in situ Hybridization"); STARmap, cartographie de lecture d'amplicon de transcription résolue spatialement.
Quelques méthodes bioinformatiques qui ordonnent les cellules le long d'une trajectoire pseudotemporelle ("trajectory")

L'inférence de trajectoire ou l'ordre pseudotemporel est utilisée en transcriptomique de cellules individualisées pour (i) décrire la dynamique d'un processus qui se déroule dans les cellules étudiées, puis (ii) pour classer ces cellules en fonction de leur évolution au cours de ce processus.

  • Wishbone : algorithme pour aligner les cellules le long des trajectoires de développement avec des branches.
  • STREAM : pipeline interactif capable de démêler et de visualiser des trajectoires avec des branchements complexes à partir de données transcriptomiques et épigénomiques de cellules individualisées.
  • Velocyto : package pour l'analyse de la dynamique de transcription à partir des données de séquençage d'ARN de cellules uniques. En particulier, il distingue les ARN messagers non épissés et épissés.
  • Monocle : package du langage R qui permet le regroupement, la classification et le comptage des cellules, la construction des trajectoires de cellules uniques et l'analyse d'expression différentielle.
Exemples d'autres méthodes d'analyse de cellules individualisées
  • scCOOL-seq ("Single-Cell chromatin overall omic-scale landscape sequencing") : séquençage de la chromatine de cellules individualisées à l'échelle omique globale.
  • scNOMeRe-seq ("Single-Cell nucleosome occupancy, methylome and RNA expression sequencing") : occupation des nucléosomes de cellules individualisées et séquençage du méthylome et des ARN transcrits.
  • Analyse simultanée de la modification des histones et de la transcription de cellules individualisées à l'aide de 2 technologies (Paired-Tag & CoTECH).

Retour haut de page

7. La prédiction de trajectoires de cellules individualisées

a. Trajectoires et pseudo-temps

L'obtention d'un échantillon à un moment donné n'exclue pas la coexistence d'un très grand nombre de types de cellules : cette diversité résulte du caractère asynchrone des processus biologiques.

La prédiction de trajectoire a pour but de décrire l'évolution de chaque type de cellule en ordonnant ses états cellulaires en fonction de son processus de développement.

Le pseudo-temps ("pseudotime") est défini comme le positionnement d'une cellule le long de la trajectoire qui quantifie la progression d'un processus biologique. Par exemple :

  • Le pseudo-temps d'une trajectoire de différenciation représente le degré de différenciation d'une cellule pluripotente vers un état terminal.
  • Les cellules ayant des valeurs de pseudo-temps plus grandes sont plus différenciées.

Le pseudo-temps permet donc de classer les cellules les unes par rapport aux autres selon leur stade au cours d'un processus biologique considéré.

  • Par exemple, les cellules souches hématopoïétiques de moelle osseuse sont caractérisées par un pseudo-temps faible et les cellules érythroïdes par un pseudo-temps élevé.
  • Dans le cas de données de séquençage d'ARN de cellules individualisées (scRNAseq), les valeurs du pseudo-temps sont basées sur le profil transcriptomique d'une cellule. De plus, la construction nécessite généralement la spécification d'une cellule "racine" dans laquelle le processus étudié commence.

Voir un recueil GitHub de dizaines d'algorithmes d'estimation du pseudo-temps de cellules individualisées.

Retour haut de page

b. Complément sur les trajectoires

Les données en omique issues de cellules individualisées permettent l'étude de processus cellulaires dynamiques tels que le cycle cellulaire, la différenciation cellulaire et l'activation cellulaire.

De tels processus dynamiques peuvent être modélisés par des moyens informatiques avec des méthodes de prédiction de trajectoire (ou analyse pseudo-temporelle) qui ordonnent les cellules le long d'une trajectoire en fonction des similitudes de leurs modèles d'expression.

  • Les trajectoires résultantes sont le plus souvent linéaires, bifurquantes ou arborescentes.
  • Des méthodes récentes permettent de décrire des trajectoires plus complexes comme les graphes cycliques ou déconnectés.

La figure ci-dessous illustre quelques méthodes appliquées à un ensemble de données contenant (a) une trajectoire linéaire de cellules dendritiques de différenciation et (b) une trajectoire bifurquante de fibroblastes reprogrammés.

single cell multimodal cellule unique individualise omique omics transcriptomique inference trajectoire trajectory pseudotemporal tsne biochimej

Source : Saelens et al. (2019)

Retour haut de page

c. Algorithmes de prédiction des trajectoires

Souvent, les trajectoires des cellules individualisées sont constituées d'embranchements. Ces branches de trajectoires traduisent le devenir des cellules au cours de leur développement : une lignée de cellules en développement suit une voie, tandis qu'une autre emprunte une autre voie.

Une catégorie d'algorithmes de prédiction de trajectoire est basée sur l'algorithme appelé "arbre couvrant de poids minimal" ("Minimum Spanning Tree" - MST) qui a pour but de déduire la trajectoire de développement de cellules individualisées.

  • Le logiciel Monocle est une méthode de prédiction pseudo-temporelle qui utilise l'algorithme MST sur des cellules individualisées pour trouver le chemin le plus long et déterminer le pseudo-temps de chaque cellule.
  • Le logiciel Monocle2 apprend la trajectoire des cellules avec l'algorithme MST et met à jour les positions des cellules en les déplaçant vers le sommet le plus proche de l'arbre MST.

single cell multimodal cellule unique individualise omique omics genomique proteomique transcriptomique inference trajectoire trajectory pseudotemps monocle destiny pseudotemporal tsne biochimej

Source : Monocle

Une autre catégorie d'algorithmes de prédiction de trajectoire est basée sur des graphes.

  • La métrique appelée "Diffusion PseudoTime" (DPT) utilise un algorithme pondéré du k-voisin le plus proche ("weighted k-nearest-neighbor" - KNN) pour construire la trajectoire des cellules individualisées.
  • Puis un algorithme calcule le pseudo-temps de diffusion des cellules dans un espace de diffusion (le résultat est un graphe symétrisé de type KNN).

Le logiciel Destiny utilise DPT.

Enfin il existe une catégorie d'algorithmes de prédiction de trajectoire basés sur la vitesse de l'ARN :

  • Cette notion traduit la corrèlation entre l'abondance des ARN messagers en cours de biosynthèse et non épissés avec celle des ARN messagers matures épissés à l'aide d'un modèle cinétique simple du 1er ordre.
  • La progression d'un état d'une cellule à un moment donné vers un état de cette même cellule à un moment ultérieur est estimée en utilisant cette vitesse.

Les logiciels VeTra et Cytopath suivent cette démarche.

Retour haut de page

d. Illustration des trajectoires

Figure ci-dessous : UMAP ("Uniform Manifold Approximation and Projection") basé sur l'analyse scRNA-Seq de 38091 cellules correspondant à 4 stades appariés de développement d'organoïdes rétiniens couvrant l'émergence des principaux types de cellules rétiniennes.

Les groupes ("clusters") ont été fusionnés en 13 principaux types de cellules rétiniennes (exemples : NE = neuroépithélium ; RPE = épithélium pigmenté ; C = cônes, ...).

  • Les trajectoires (flèches noires) résument l'ensemble des informations combinées d'échantillonnage temporel, de variétés UMAP3D, d'analyse de pseudo-temps et d'analyse des vitesses d'ARN.
  • Le point gris au centre de NE est la racine des trajectoires.
  • Voir un film en 3D des trajectoires.

single cell multimodal cellule unique individualise omique omics genomique proteomique transcriptomique inference trajectoire trajectory pseudotemps monocle destiny pseudotemporal tsne biochimej

Source : Georges et al. (2023)

Retour haut de page

8. Comparaison des puces à ADN et de la technique RNA-seq

a. Les puces à ADN et la technique RNA-seq ont toutes deux une haute reproductibilité de résultats avec des réplicats biologiques.

b. Les puces à ADN permettent difficilement de distinguer le cas "pas de transcription" du cas "très faible transcription".

c. En raison de la différence de transcription des gènes et/ou du nombre de gènes codant un même type d'ARN messager, il n'existe dans une cellule que quelques copies de certains ARN messagers et des dizaines de milliers de copies d'autres ARN messagers :

  • La sensibilité de détection des ARN messagers rares est donc un paramètre capital.
  • La sensibilité de détection de la technique RNA-seq dépend de la profondeur du séquençage et celle des puces à ADN est quasiment constante. Celà signifie qu'en théorie, si on atteind une profondeur de séquençage suffisante, la technique RNA-seq permet de déterminer le nombre réel de toutes les molécules d'ARN dans un échantillon.

d. De multiples transcrits sont générés à partir de certains gènes par épissage alternatif. L'un des avantages de la technique RNA-Seq est sa capacité à détecter ces isoformes différentiellement transcrites :

  • En effet, sur une puce à ADN, une sonde courte donnée cible soit un exon constitutif (présent dans tous les transcrits issus de l'épissage alternatif), soit un exon spécifique de l'un des transcrits. Dans le second cas, ce transcrit est détecté mais les autres transcrits issus du même gène sont ignorés.
  • En conséquence, les ensembles de sondes de puces à ADN ne peuvent pas représenter tous les transcrits de tous les gènes.

e. Les puces à ADN sont sujettes à une saturation d'hybridation en ce qui concerne les transcrits très abondants. Elles ne peuvent pas fournir des mesures quantitatives fiables des changements subtils de la transcription de gènes abondants.

f. La technique RNA-Seq permet d'identifier des variants d'un seul nucléotide ("single nucleotide polymorphism" - SNP). La technique RNA-Seq présente deux avantages dans la détection de variants génétiques :

  • Aucune connaissance préalable concernant des variants potentiels n'est requise.
  • La détection est faite sur l'ensemble du génome même pour les rares SNP.

g. La technique RNA-Seq permet :

  • de détecter la transcription spécifique d'un allèle
  • d'identifier les différences ARN-ADN
  • d'étudier l'édition des ARN (exemples : A => I et C => U)
  • d'identifier significativement plus de gènes

La technique RNA-seq nécessite des moyens bioinformatiques importants pour l'analyse des données.

Par ailleurs, l'un des atouts (qui ne peut que s'estomper avec le temps) des puces à ADN est l'acquis des dizaines de milliers d'expériences qui ont été menées avec cette technique et les différentes annotations des transcriptomes issues de toutes ces expériences.

L'un des atouts de la technique RNA-seq (ou d'une autre technologie à venir) est l'évolution très rapide des technologies de séquençage à très haut débit : le développement des méthodes avec multiplexage par répartition codes barres, des lectures ("reads") plus longues et un plus grand nombre de lectures appariées ("paired end reads").

Pour l'instant les puces à ADN et la technique RNA-seq restent donc complémentaires et peuvent même être combinées avec des résultats très importants.

 

9. Liens Internet et références bibliographiques

A workflow for omic data analysis

Human Cell Atlas

Human Protein Atlas : The single cell type section

Single Cell Portal

omictools

HCA

HPA

SCP

Recueil GitHub de dizaines d'algorithmes d'estimation du pseudo-temps de cellules individualisées

Programme scbean : modèles pour l'analyse d'ensembles de données unicellulaires à grande échelle (notamment réduction de dimensionnalité, suppression des effets de lot et transfert d'étiquettes de type cellulaire).

UMAP : illustration de cette technique de réduction de dimensionnalité.

CytoSPACE : High Resolution Alignment of Single-Cell and Spatial Transcriptomes

Aller au site

scbean

UMAP

CytoSPACE

O'Kane & Gehring (1987) "Detection in situ of genomic regulatory elements in Drosophila" Proc. Natl Acad. Sci. USA 84, 9123 - 9127
Cet article est l'un des tous premiers à décrire la transcription des gènes dans l'espace ("spatial transcriptomics").

Article

1ère publication de la technique "Single-cell"

Tang et al. (2009) "mRNA-Seq whole-transcriptome analysis of a single cell" Nat. Methods. 6, 377 - 382

Article

Boja et al. (2014) "Integration of omics sciences to advance biology and medicine" Clin. Proteomics 11, 45

Klein et al. (2015) "Droplet barcoding for Single-Cell transcriptomics applied to embryonic stem cells" Cell 161, 1187 - 1201

Article

Article

Van Emon J.M. (2016) "The Omics Revolution in Agricultural Research" J. Agric. Food. Chem. 13, 36 - 44

Reuter et al. (2016) "Simul-seq: combined DNA and RNA sequencing for whole-genome and transcriptome profiling" Nat. Methods 13, 953 - 958

Stahl et al. (2016) "Visualization and analysis of gene expression in tissue sections by spatial transcriptomics" Science 353, 78 - 82

Article

Article

Article

Prakadan et al. (2017) "Scaling by shrinking: empowering Single-Cell 'omics' with microfluidic devices" Nat. Rev. Genet. 18, 345 - 361

Haque et al. (2017) "A practical guide to Single-Cell RNA-sequencing for biomedical research and clinical applications" Genome Med. 9, 75

Article

Article

Noor et al. (2019) "Biological insights through omics data integration" Curr. Opin. Sys. Biol. 15, 39 - 47

Stuart & Satija (2019) "Integrative Single-Cell analysis" Nat. Rev. Genet. 20, 257 - 272

Saelens et al. (2019) "A comparison of Single-Cell trajectory inference methods" Nat. Biotech. 37, 547 - 554

Luecken et al. (2019) "Current best practices in Single-Cell RNA-seq analysis: a tutorial" Mol. Syst. Biol. 15, e8746

Article

Article

Article

Article

Wilbrey-Clark et al. (2020) "Cell Atlas technologies and insights into tissue architecture" Biochem. J. 477, 1427 - 1442

Bond et al. (2021) "Molecular omics resources should require sex annotation: a call for action" Nat. Methods 18, 585 - 588

Article

Article

Moses & Pachter (2022) "Museum of spatial transcriptomics" Nat. Methods 19,534 -546

Pan et al. (2022) "Microfluidics Facilitates the Development of Single-Cell RNA Sequencing" Biosensors 12, 450

Yoon & Lee (2022) "Integration of Genomic Profiling and Organoid Development in Precision Oncology" Int. J. Mol. Sci. 23, 216

Jovic et al. (2022) "Single-cell RNA sequencing technologies and applications: A brief overview" Clin. Transl. Med. 12, e694

Article

Article

Article

Article

Ahlmann-Eltze & Huber (2023) "Comparison of transformations for Single-Cell RNA-seq data" Nat. Methods 20, 665 - 672

Heumos et al. (2023) "Best practices for single-cell analysis across modalities" Nat. Rev. Genet. 24, 550 - 572

Yang et al. (2023) "Rapid droplet-based mixing for single-molecule spectroscopy" Nat. Methods 20, 1479 - 1482

Article

Article

Article

Tarhan et al. (2023) "Single Cell Portal: an interactive home for Single-Cell genomics data" bioRxiv - preprint

Wang et al. (2023) "The Evolution of Single-Cell RNA Sequencing Technology and Application: Progress and Perspectives" Int. J. Mol. Sci. 24, 2943

Georges et al. (2023) "Comparing the transcriptome of developing native and iPSC-derived mouse retinae by single cell RNA sequencing" Scientific Reports 13

Article

Article

Article

Analyses multi-omiques basées sur les cellules individualisées ("Single-Cell multi-omics")

Vandereyken et al. (2023) "Methods and applications for Single-Cell and spatial multi-omics" Nat. Rev. Genet. 24, 494 - 515

Baysoy et al. (2023) "The technological landscape and applications of Single-Cell multi-omics" Nat. Rev. Mol. Cell Biol. 24, 695 - 713

Deng et al. (2023) "Microtechnologies for Single-Cell and spatial multi-omics" Nat. Rev. Bioeng. 1, 769 - 784

Yue et al. (2023) "A guidebook of spatial transcriptomic technologies, data resources and analysis approaches" CSBJ 21, 940 - 955

 

Article

Article

Article

Article

Lim et al. (2024) "Advances in single-cell omics and multiomics for high-resolution molecular profiling" Exp. Molec. Med.

Article

Retour haut de page

Valid XHTML 1.0 Transitional