Analyse du transcriptome de cellules individualisées ("Single Cell RNAseq" - scRNAseq) Méthodes omiques multimodales spatiales ("Spatial multiomics") |
1. Introduction : les domaines en omique 2. Notion de cellules individualisées ("Single-Cell") a. Généralité 3. La microfluidique appliquée au "Single-Cell" a. Présentation générale 4. L'identifiant moléculaire unique (UMI) 5. La transcriptomique de cellules individualisées (scRNAseq) a. Démarche générale d'une expérience scRNAseq |
b. Réduction de la dimension des données scRNAseq 6. Méthodes omiques multimodales pour l'analyse de cellules individualisées ("Single-Cell multi-omics methods") 7. La prédiction des trajectoires de cellules individualisées a. Trajectoires et pseudo-temps 8. Comparaison des puces à ADN et de la technique RNA-seq 9. Liens Internet et références bibliographiques |
1. Introduction : les domaines en omiques Il existe de nombreux sous-domaines scientifiques biologiques dont le nom a été créé avec le suffixe "omique". En voici les principaux exemples : génomique - métagénomique - épigénomique - transcriptomique - épitranscriptomique - translatomique - protéomique - métabolomique - interactomique - connectomique - fluxomique - integromique - glycomique - glycoprotéomique - lipidomique - pharmacogénomique, ...
Les figures ci-dessous montrent la répartition des publications (articles) scientifiques dans la base de données bibliographique PubMed qui mentionnent un ou plusieurs domaine(s) en "omique" : Source : Noor et al. (2019)
Ces domaines sont désormais en "interaction", assistée par la progession en imagerie de fluorescence :
|
2. Notion de cellules individualisées ("Single-Cell"). a. Généralité Il y a environ 30.000 milliards (3 1013) de cellules dans le corps humain adulte. Les cellules humaines ont été classées en environ 300 types en fonction de leur emplacement et de leur fonction. Avant l'avènement des techniques physico-chimiques permettant de désolidariser les cellules d'un tissu puis de les séparer tout en préservant totalement leur intégrité structurale et leur contenu, les expériences ont, pendant des décennies (et encore maintenant), analysé des mélanges non contrôlés de cellules de différents types, à différents stades de leur existence et en nombre respectif inconnu (souvent décrit en anglais par l'expression "bulk cells"). Les résultats obtenus correspondent donc à une "moyenne" de l'ensemble du contenu et de la proportion relative de ces jeux de cellules d'un tissu donné, sans distinction aucune.
Voir un remarquable glossaire à la fin de l'article de Heumos et al. (2023). |
b. Evolution de l'approche cellules individualisées ("Single-Cell") Les méthodes évoluent très rapidement et le nombre de cellules étudiées ne cessent de croître :
Source : Jovic et al. (2022) La figure ci-dessous montre Le nombre d'articles dans la base de données PubMed mentionnant "Single-Cell" dans leur titre depuis la première publication de la méthode en 2009 (Tang et al.). Source : Tarhan et al. (2023) |
c. Exemples d'apports du séquençage du transcriptome de cellules individualisées ("Single-Cell RNAseq" - scRNAseq) On appelle "bulk cells" le mélange hétérogène de populations de cellules différentes.
Source : Yoon & Lee (2022) |
d. Marché financier généré par le "Single-Cell" La taille du marché mondial de l'analyse de cellules individualisées représentait 3 milliards de dollars en 2022 et devrait atteindre environ 14,61 milliards de dollars d'ici 2032 (croissance de #17 dans la période 2023 - 2032). Source : Precedence Research |
3. La microfluidique appliquée au "Single-Cell" a. Présentation générale Les avancées technologiques en microfluidique ("lab-on-a-chip") ont été déterminantes pour développer l'analyse de cellules individualisées. La microfluidique permet de manipuler des volumes extrêmement faibles (10-9 L à 10-18 L) de fluides dans des canaux, des plaques multi-puits ou des chambres de mélange à l'échelle micrométrique. Source : Deng et al. (2023) Les dispositifs microfluidiques piègent les cellules à l'intérieur de gouttelettes d'hydrogel : elles sont ensuite compartimentées dans les chambres où ont lieu les réactions sur les cellules individualisées. La microfluidique à base de gouttelettes ("droplet-based microfluidics") permet :
Les phases non miscibles de ces systèmes sont respectivement l:
Source : Klein et al. (2015) A droite : phase d'encapsulation; à gauche : phase de collecte. |
b. Illustration d'un systéme micro-fluidique Figure ci-dessous : schéma d'un mélangeur microfluidique à base de gouttelettes ("droplet-based microfluidic mixer").
Source : Klein et al. (2015) Figure ci-dessous : mélangeur microfluidique en fonctionnement.
Source : Klein et al. (2015) |
c. Protocole général des méthodes à base de goutellettes Les dispositifs microfluidiques piègent les cellules à l'intérieur de gouttelettes d'hydrogel : elles sont ensuite compartimentées dans les chambres où ont lieu les réactions sur les cellules individualisées. Les protocoles les plus utilisés (exemples : "inDrop", "Drop-seq" et "10xGenomics Chromium") génèrent ces gouttelettes plusieurs milliers de fois par seconde (processus massivement parallèle) pour un coût relativement faible.
Source : Klein et al. (2016)
On obtient ainsi les bibliothèques qui permettent de séquencer les transcriptomes (STAMP) individualisés de milliers de cellules en une réaction. Enfin, le code-barre de chaque transcriptome (STAMP) permet d'associer chaque transcrit (ARN) à sa cellule d'origine. Source : Macosko et al. (2016) |
4. L'identifiant moléculaire unique (UMI) Un identifiant moléculaire unique ("Unique Molecular Identifier" - UMI) est est une courte séquence nucléotidique qui marque de manière unique chaque molécule d'ADN ou d'ADNc d'une bibliothèque. Le séquençage RNA-Seq quantifie précisément l'abondance de chaque transcrit (ARN) d'un échantillon.
Chaque acide nucléique de l'échantillon de départ (avant amplification) est donc étiqueté avec ce type de "code-barre moléculaire" unique :
|
5. La transcriptomique de cellules individualisées (scRNAseq) Cette méthode permet d'obtenir les profils des transcrits de cellules individuelles et elle est considérée comme la référence pour définir les états cellulaires et les phénotypes. Il n'est pas toujours possible d'obtenir des informations complètes sur chaque type d'ARN transcrit dans chaque type de cellule en raison de la très faible quantité de certains ARN. Dans ce cas, les modèles de transcription des gènes peuvent être décrits par des analyses de regroupement de gènes ("gene clustering analyses"). Cela permet de révéler l'existence de types de cellules rares au sein d'une population de cellules. a. Démarche générale d'une expérience scRNAseq
Source : Luecken et al. (2019) L'analyse bioinformatique et l'analyse biostatistique utilisent des ensembles de scripts ("pipeline"), généralement écrits en Python ou dans le langage R (voir les projets CRAN et Bioconductor).
|
b. Réduction de dimensionnalité des données scRNAseq Le séquençage des ARN messagers de cellules individualisées ("Single cell mRNA sequencing" - scRNAseq) mesure simultanément les niveaux de transcription des gènes de milliers de cellules individuelles : les résultats permettent d'étudier le taux de transcription de chaque cellule d'un même type (voire de chaque cellule de types différents dans le cas d'un tissu) et, par extension, d'étudier différents processus cellulaires. Ces ensembles de données transcriptomiques très complexes sont de 1 ou plusieurs ordre(s) de grandeur plus grand(s) que ceux obtenus par l'analyse RNAseq classique d'un mélange de cellules (cellules non individualisées - RNAseq).
La table de comptage ("count table") est une matrice de nombres (avec de nombreux zéro) :
Techniques fréquemment utilisées pour l'analyse des grands jeux de données scRNAseq
|
c. Evolution des méthodes de scRNAseq Il existe 2 catégories principales de méthodes pour l'obtention de données transcriptomiques de cellules individualisées :
La figure ci-dessous décrit la chronologie du développement de ces méthodes.
Source : Pan et al. (2022) Les réactions chimiques et les stratégies développées pour mettre au point les premières méthodes à faible débit ont permis le développement de celles à très haut débit. L'introduction des technologies de microfluidique a permis le changement d'échelle et le traitement massivement parallèle de cellules individualisées (méthodes à haut débit).
Des protocoles comme STRT-Seq et CEL-Seq ont introduit la stratégie des codes-barres ("barcode") spécifiques de chaque type de cellule :
|
Caractéristiques de quelques méthodes de séquençage | ||||||||||
Méthode | C1 (SMARTer) | Smart-seq2 | MATQ-seq | MARS-seq | CEL-seq | Drop-seq | InDrop | Chromium | SEQ-well | SPLIT-seq |
Transcrits | Pleine longueur | Extrémité 3' | ||||||||
Plateforme | Microfluidique | Plaque | goutelettes | nanopuits |
Plaque | |||||
Nombre de cellules individualisées) | 102–103 | 103–104 | 103–104 | 103–105 | ||||||
Profondeur de lecture typique par cellule | 106 | 104–105 | 104–105 | 104–105 | 104 | |||||
Volume de réaction | Nanolitre | Microlitre | Microlitre | Nanolitre | Nanolitre | Nanolitre | Microlitre | |||
Source : Haque et al. (2017) | ||||||||||
Nom de la méthode | Méthode de séparation | Méthode d'amplification | UMI | Type d'amplification | Avantages | Désavantages | Date |
VASA-seq | FANS | PCR | oui | tous les transcrits | Faible coût et dosage précis | / | 2022 |
Smart-seq3 | microfluidique | PCR | oui | extrémité 5' | Sensibilité élevée | Chronophage | 2020 |
DNBelabC4 | microfluidique | PCR | oui | tous les transcrits | Quantification précise | / | 2019 |
Seq-Well | microfluidique | PCR | oui | extrémité 3' | Faible coût et quantification précise | Ne convient pas ? l'épissage variable et ? l'expression allélique | 2017 |
MATQ-seq | FACS | PCR | oui | tous les transcrits | Quantification précise | Faible débit cellulaire | 2017 |
10X Genonmics | microfluidique | PCR | oui | extrémité 3' | Efficacité élevée de capture cellulaire, temps de cycle rapide, haute adéquation cellulaire et reproductibilité | Séquen?age uniquement de l'extrémité 3' | 2016 |
Cyto-Seq | microfluidique | PCR | oui | extrémité 3' | Faible coût et débit élevé | Contamination croisée des ARN | 2015 |
SC3-seq | Micromanipulation | PCR | oui | extrémité 3' | Bonne reproductibilité and accurate quantification | Extrémité 3' de l'ADN | 2015 |
inDrop-seq | microfluidique | IVT | oui | extrémité 3' | Faible coût et amplification linéaire | Longue durée de fonctionnement et concentration cellulaire initiale élevée | 2015 |
Drop-seq | microfluidique | PCR | oui | extrémité 3' | Faible coût et débit élevé | Faible taux de capture cellulaire | 2015 |
MARS-seq | FACS | IVT | oui | extrémité 3' | Spécificité élevée | Faible efficacité d'amplification | 2014 |
STRT-seq | microfluidique | PCR | non | tous les transcrits | Positionnement précis des transcrits l'extrémité 5' qui réduit le biais d'amplification | Faible sensibilité, disponible uniquement pour l'identification de l'extrémité 5' de l'ADN | 2014 |
Quartz-seq | FACS | PCR | oui | extrémité 3' | Sensibilité élevée, reproductibilité et simplicité opérationnelle | Bruit de fond élevé | 2013 |
Fluidigm C1 | Microfluidique | PCR | non | tous les transcrits | Processus simple | Coût élevé et faible débit | 2013 |
Smart-seq2 | FACS | PCR | non | tous les transcrits | L'ADNc complet détecte les variants structurels et de cisaillement de l'ARN | Coût élevé, faible débit et chronophage | 2013 |
Smart-seq | FACS | PCR | non | tous les transcrits | Sensibilité élevée to reduce the rates of nucleic acid loss | Faible débit / biais de longueur de transcription | 2012 |
CEL-seq | FACS | IVT | oui | extrémité 3' | Bonne reproductibilité et très sensible | Faible débit et faible efficacité d'amplification bibliothèque orientée vers l'extrémité 3' du gène |
2012 |
Tang-2009 | FACS | PCR | non | extrémité 3' | Bonne reproductibilité | Coût élevé et faible débit | 2009 |
Source : Wang et al. (2023)
|
d. La transcriptomique résolue spatialement ("spatial transcriptomics") C'est une méthode récente utilisée pour analyser les données de RNA-seq en 3 dimensions au sein d'une [superposition / juxtaposition] de cellules de divers types dans des coupes de tissus.
Source : Stahl et al. (2016) La revue scientifique "Nature Methods" a couronné la méthode de transcriptomique résolue spatialement en 2020. |
6. Méthodes omiques multimodales pour l'analyse de cellules individualisées ("Single-Cell multi-omics methods"). Les méthodes omiques développées jusqu'en 2010 (environ) ont permis d'analyser :
Cette ségrégation résultait de contraintes méthodologiques et, bien que très riche en informations diverses, elle limitait la description des relations entre les macromolécules biologiques dans des cellules individualisées. Les avancées en biologie moléculaire, en microfluidique et en nanotechnologies ont donné naissance aux méthodes omiques multimodales unicellulaires ("Single-Cell multimodal omics methods"). Ces méthodes :
Source : Stuart & Satija (2019)
Voir un ensemble de revues : Voir une chronologie des méthodes omiques spatiales basées sur les cellules individualisées. |
Quelques méthodes qui caractérisent la lignée cellulaire ("cell lineage") |
|
Quelques méthodes qui caractérisent l'état actuel d'une cellule ("current state of the cell") |
|
Quelques méthodes bioinformatiques qui ordonnent les cellules le long d'une trajectoire pseudotemporelle ("trajectory") | L'inférence de trajectoire ou l'ordre pseudotemporel est utilisée en transcriptomique de cellules individualisées pour (i) décrire la dynamique d'un processus qui se déroule dans les cellules étudiées, puis (ii) pour classer ces cellules en fonction de leur évolution au cours de ce processus.
|
Exemples d'autres méthodes d'analyse de cellules individualisées |
|
7. La prédiction de trajectoires de cellules individualisées a. Trajectoires et pseudo-temps L'obtention d'un échantillon à un moment donné n'exclue pas la coexistence d'un très grand nombre de types de cellules : cette diversité résulte du caractère asynchrone des processus biologiques. La prédiction de trajectoire a pour but de décrire l'évolution de chaque type de cellule en ordonnant ses états cellulaires en fonction de son processus de développement. Le pseudo-temps ("pseudotime") est défini comme le positionnement d'une cellule le long de la trajectoire qui quantifie la progression d'un processus biologique. Par exemple :
Le pseudo-temps permet donc de classer les cellules les unes par rapport aux autres selon leur stade au cours d'un processus biologique considéré.
Voir un recueil GitHub de dizaines d'algorithmes d'estimation du pseudo-temps de cellules individualisées. |
b. Complément sur les trajectoires Les données en omique issues de cellules individualisées permettent l'étude de processus cellulaires dynamiques tels que le cycle cellulaire, la différenciation cellulaire et l'activation cellulaire. De tels processus dynamiques peuvent être modélisés par des moyens informatiques avec des méthodes de prédiction de trajectoire (ou analyse pseudo-temporelle) qui ordonnent les cellules le long d'une trajectoire en fonction des similitudes de leurs modèles d'expression.
La figure ci-dessous illustre quelques méthodes appliquées à un ensemble de données contenant (a) une trajectoire linéaire de cellules dendritiques de différenciation et (b) une trajectoire bifurquante de fibroblastes reprogrammés. Source : Saelens et al. (2019) |
c. Algorithmes de prédiction des trajectoires Souvent, les trajectoires des cellules individualisées sont constituées d'embranchements. Ces branches de trajectoires traduisent le devenir des cellules au cours de leur développement : une lignée de cellules en développement suit une voie, tandis qu'une autre emprunte une autre voie. Une catégorie d'algorithmes de prédiction de trajectoire est basée sur l'algorithme appelé "arbre couvrant de poids minimal" ("Minimum Spanning Tree" - MST) qui a pour but de déduire la trajectoire de développement de cellules individualisées.
Source : Monocle Une autre catégorie d'algorithmes de prédiction de trajectoire est basée sur des graphes.
Le logiciel Destiny utilise DPT. Enfin il existe une catégorie d'algorithmes de prédiction de trajectoire basés sur la vitesse de l'ARN :
|
d. Illustration des trajectoires Figure ci-dessous : UMAP ("Uniform Manifold Approximation and Projection") basé sur l'analyse scRNA-Seq de 38091 cellules correspondant à 4 stades appariés de développement d'organoïdes rétiniens couvrant l'émergence des principaux types de cellules rétiniennes. Les groupes ("clusters") ont été fusionnés en 13 principaux types de cellules rétiniennes (exemples : NE = neuroépithélium ; RPE = épithélium pigmenté ; C = cônes, ...).
Source : Georges et al. (2023) |
8. Comparaison des puces à ADN et de la technique RNA-seq a. Les puces à ADN et la technique RNA-seq ont toutes deux une haute reproductibilité de résultats avec des réplicats biologiques. b. Les puces à ADN permettent difficilement de distinguer le cas "pas de transcription" du cas "très faible transcription". c. En raison de la différence de transcription des gènes et/ou du nombre de gènes codant un même type d'ARN messager, il n'existe dans une cellule que quelques copies de certains ARN messagers et des dizaines de milliers de copies d'autres ARN messagers :
d. De multiples transcrits sont générés à partir de certains gènes par épissage alternatif. L'un des avantages de la technique RNA-Seq est sa capacité à détecter ces isoformes différentiellement transcrites :
e. Les puces à ADN sont sujettes à une saturation d'hybridation en ce qui concerne les transcrits très abondants. Elles ne peuvent pas fournir des mesures quantitatives fiables des changements subtils de la transcription de gènes abondants. f. La technique RNA-Seq permet d'identifier des variants d'un seul nucléotide ("single nucleotide polymorphism" - SNP). La technique RNA-Seq présente deux avantages dans la détection de variants génétiques :
g. La technique RNA-Seq permet :
La technique RNA-seq nécessite des moyens bioinformatiques importants pour l'analyse des données. Par ailleurs, l'un des atouts (qui ne peut que s'estomper avec le temps) des puces à ADN est l'acquis des dizaines de milliers d'expériences qui ont été menées avec cette technique et les différentes annotations des transcriptomes issues de toutes ces expériences. L'un des atouts de la technique RNA-seq (ou d'une autre technologie à venir) est l'évolution très rapide des technologies de séquençage à très haut débit : le développement des méthodes avec multiplexage par répartition codes barres, des lectures ("reads") plus longues et un plus grand nombre de lectures appariées ("paired end reads"). Pour l'instant les puces à ADN et la technique RNA-seq restent donc complémentaires et peuvent même être combinées avec des résultats très importants. |
9. Liens Internet et références bibliographiques | |
A workflow for omic data analysis Human Cell Atlas Human Protein Atlas : The single cell type section Single Cell Portal |
|
Recueil GitHub de dizaines d'algorithmes d'estimation du pseudo-temps de cellules individualisées Programme scbean : modèles pour l'analyse d'ensembles de données unicellulaires à grande échelle (notamment réduction de dimensionnalité, suppression des effets de lot et transfert d'étiquettes de type cellulaire). UMAP : illustration de cette technique de réduction de dimensionnalité. CytoSPACE : High Resolution Alignment of Single-Cell and Spatial Transcriptomes |
|
O'Kane & Gehring (1987) "Detection in situ of genomic regulatory elements in Drosophila" Proc. Natl Acad. Sci. USA 84, 9123 - 9127 Cet article est l'un des tous premiers à décrire la transcription des gènes dans l'espace ("spatial transcriptomics"). |
|
1ère publication de la technique "Single-cell" Tang et al. (2009) "mRNA-Seq whole-transcriptome analysis of a single cell" Nat. Methods. 6, 377 - 382 |
|
Boja et al. (2014) "Integration of omics sciences to advance biology and medicine" Clin. Proteomics 11, 45 Klein et al. (2015) "Droplet barcoding for Single-Cell transcriptomics applied to embryonic stem cells" Cell 161, 1187 - 1201 |
|
Van Emon J.M. (2016) "The Omics Revolution in Agricultural Research" J. Agric. Food. Chem. 13, 36 - 44 Reuter et al. (2016) "Simul-seq: combined DNA and RNA sequencing for whole-genome and transcriptome profiling" Nat. Methods 13, 953 - 958 Stahl et al. (2016) "Visualization and analysis of gene expression in tissue sections by spatial transcriptomics" Science 353, 78 - 82 |
|
Prakadan et al. (2017) "Scaling by shrinking: empowering Single-Cell 'omics' with microfluidic devices" Nat. Rev. Genet. 18, 345 - 361 Haque et al. (2017) "A practical guide to Single-Cell RNA-sequencing for biomedical research and clinical applications" Genome Med. 9, 75 |
|
Noor et al. (2019) "Biological insights through omics data integration" Curr. Opin. Sys. Biol. 15, 39 - 47 Stuart & Satija (2019) "Integrative Single-Cell analysis" Nat. Rev. Genet. 20, 257 - 272 Saelens et al. (2019) "A comparison of Single-Cell trajectory inference methods" Nat. Biotech. 37, 547 - 554 Luecken et al. (2019) "Current best practices in Single-Cell RNA-seq analysis: a tutorial" Mol. Syst. Biol. 15, e8746 |
|
Wilbrey-Clark et al. (2020) "Cell Atlas technologies and insights into tissue architecture" Biochem. J. 477, 1427 - 1442 Bond et al. (2021) "Molecular omics resources should require sex annotation: a call for action" Nat. Methods 18, 585 - 588 |
|
Moses & Pachter (2022) "Museum of spatial transcriptomics" Nat. Methods 19,534 -546 Pan et al. (2022) "Microfluidics Facilitates the Development of Single-Cell RNA Sequencing" Biosensors 12, 450 Yoon & Lee (2022) "Integration of Genomic Profiling and Organoid Development in Precision Oncology" Int. J. Mol. Sci. 23, 216 Jovic et al. (2022) "Single-cell RNA sequencing technologies and applications: A brief overview" Clin. Transl. Med. 12, e694 |
|
Ahlmann-Eltze & Huber (2023) "Comparison of transformations for Single-Cell RNA-seq data" Nat. Methods 20, 665 - 672 Heumos et al. (2023) "Best practices for single-cell analysis across modalities" Nat. Rev. Genet. 24, 550 - 572 Yang et al. (2023) "Rapid droplet-based mixing for single-molecule spectroscopy" Nat. Methods 20, 1479 - 1482 |
|
Tarhan et al. (2023) "Single Cell Portal: an interactive home for Single-Cell genomics data" bioRxiv - preprint Wang et al. (2023) "The Evolution of Single-Cell RNA Sequencing Technology and Application: Progress and Perspectives" Int. J. Mol. Sci. 24, 2943 Georges et al. (2023) "Comparing the transcriptome of developing native and iPSC-derived mouse retinae by single cell RNA sequencing" Scientific Reports 13 |
|
Analyses multi-omiques basées sur les cellules individualisées ("Single-Cell multi-omics") Vandereyken et al. (2023) "Methods and applications for Single-Cell and spatial multi-omics" Nat. Rev. Genet. 24, 494 - 515 Baysoy et al. (2023) "The technological landscape and applications of Single-Cell multi-omics" Nat. Rev. Mol. Cell Biol. 24, 695 - 713 Deng et al. (2023) "Microtechnologies for Single-Cell and spatial multi-omics" Nat. Rev. Bioeng. 1, 769 - 784 Yue et al. (2023) "A guidebook of spatial transcriptomic technologies, data resources and analysis approaches" CSBJ 21, 940 - 955 |
|
Lim et al. (2024) "Advances in single-cell omics and multiomics for high-resolution molecular profiling" Exp. Molec. Med. |
Article |