Methode sequencage sequencing NGS next generation high throughput technologies assemblage genome transcriptome genomique fonctionnelle vegetale RNA seq Enseignement et recherche Biochimie - Universite Angers Emmanuel Jaspard biochimej

Génomique : les méthodes de séquençage d'acides nucléiques et l'acquisition des données

1. Introduction

a. Deux types de molécules support de la bioinformation : les acides nucléiques et les protéines
b. "Préhistoire" du séquençage et séquençage dans l'espace

2. Détermination des séquences de nucléotides

a. Méthode historique de Fréderick Sanger
b. La technique de séquençage avec des didésoxyribonucléotides fluorescents

3. Méthode du pyroséquençage

4. Stratégies initiales de séquençage des génomes : méthode hiérarchique vs. méthode en "vrac"

5. Les contigs et l'assemblage, les trous, l'appel de base

6. Les nouvelles technologies de séquençage à trés haut débit ("next-generation high-throughput DNA sequencing technologies" - NGST ou NGS)

a. Introduction

b. Caractéristiques élémentaires des NGS
c. Les technologies NGS et les entreprises actuelles
d. Les technologies NGS en développement et à venir
e. Le côut des séquençages

7. Quelques exemples d'apports du séquençage

8. Etude des éléments de la régulation de la transcription - Structure de la chromatine et épigénomique

9. Epigénétique - modifications de l'ADN et des histones

10. Séquençage du transcriptome - RNAseq

a. Méthodes pour l'assemblage des lectures
b. Caractéristiques des bordures exon-intron ("exon-intron borders")
c. Méthodes pour la reconstruction des transcrits

11. Liens Internet et références bibliographiques

1. Introduction

a. Deux types de molécules support de la bioinformation : les acides nucléiques et les protéines

Le "matériaux de base" de la génomique et de la protéomique est la séquence : l'enchaînement ordonné et orienté de nucléotides (acides nucléiques) ou d'acides aminés (protéines).

ADN : Acide DésoxyriboNucléique

macromolécule : chaîne nucléotidique

constituée par un enchaînement d'unités élémentaires : les désoxyribonucléotides

forme de stockage de l'information génétique. Cette information est représentée par une suite linéaire de gènes

formée de deux brins complémentaires enroulés en double hélice ce qui lui permet de se dupliquer en deux molécules identiques entre elles et identiques à la molécule mère

On distingue :

l'ADN du génome du noyau
l'ADN du génome mitochondrial
l'ADN du génome chloroplastique

ARN : Acide RiboNucléiques

macromolécule : chaîne nucléotidique

constitués par un enchaînement d'unités élémentaires : les ribonucléotides

forme qui permet de transférer et de traiter l'information dans la cellule

le plus souvent formé d'un simple brin

On distingue :

les ARN messagers ou ARNm : ils sont transcrits à partir d'un gène (ADN). Ils sont ensuite traduits en protéines.
les ARN de transfert
les ARN ribosomaux
les ARN nucléaires
les divers "petits" ARN non codants

Protéines

macromolécule : chaîne polypeptidique

constituées par un enchaînement d'unités élémentaires : les acides aminés

l'ensemble des protéines assurent les principales fonctions cellulaires

se replient sur elles-mêmes et adoptent une conformation ou structure particulière dans l'espace. Cette structure tridimensionnelle est à l'origine de la fonction des protéines et de leur spécificité de cette fonction.

Les chaînes nucléotidiques possèdent 2 extrémités distinctes : on peut donc les représenter de manière orientées de l'extrémité dite 5' vers l'extrémité dite 3'.

En conséquences, les chaînes nucléotidiques sont écrites sous forme d'une succession ordonnée et orientée de lettres qui représentent les unités élémentaires (les nucléotides) :

ADN : 4 nucléotides = C, G, A et T
ARN : 4 nucléotides = C, G, A et U

Voir des rappels sur les bases azotées, les nucléosides et les nucléotides (et leurs pendants désoxy-).

La taille des génomes nucléaires varie énormément au sein des Eucaryotes :

de 1 à 1000 chez les plantes
de 1 à 3300 chez les animaux
de 1 à 300.000 chez les protistes (algues, amibes, euglènes, ...)

L'un des plus célèbres génome séquencé est celui de l'homme de Neandertal (Green et al., 2010).

genome sequence next-generation high-throughput DNA sequencing technologies biochimej

Source : B. Dujon (2008)

GOLD ("Genomes OnLine Database") : base de données des génomes séquencés et en cours de séquençage.

b. "Préhistoire" du séquençage des acides nucléiques et séquençage dans l'espace

Un énorme effort humain, financier, technologique, a été fait dans les années 90 pour obtenir des outils pour les premiers pas du séquençage, de plus en plus performants et surtout automatisés.

Pour le séquençage des premiers génomes "historiques" (entre autre le génome humain), l'automatisation a requis dans les années 1990 / 2000 le développement :

de système d'électrophorèse capillaire piloté par ordinateur qui ont remplacé les gel à plat
de robot passeur d'échantillon qui permet d'enchaîner les échantillons
de marqueurs fluorescents dont la lumière réfléchie après excitation par un laser est captée par une cellule CCD (Charge-Coupled Device)
de suites logicielles permettant l'analyse des signaux sortant des séquenceurs et leur mise en forme sous forme de fichiers analysables (électrophorègramme et séquence)

Ci-dessous : en 2001, la ligne de production automatique pour le séquençage du génome humain au Whitehead Institute - Center for Genome Research. Capacité de séquençage : environ 1500 nucléotides par poste en quelques jours.

sequencage human genome humain next-generation high-throughput DNA sequencing technologies biochimej

Source : Nature 409, 860 - 921

Ci-dessous : en 2016, un séquenceur Illumina.

sequencage human genome humain next-generation high-throughput DNA sequencing technologies biochimej

Capacité de séquençage : 5 milliards de lectures x [300 paires de bases] = 1500 miliards de nucléotides en quelques heures à 1 jour.

Ci-dessous : le séquenceur ultra-portable MinION (Oxford nanopore technology) - dit de 3è génération - a été utilisé en temps réel sur le terrain lors de la crise Ebola de 2015 et de la crise Zika en 2016 (Quick et al., 2016).

sequencage human genome humain next-generation high-throughput DNA sequencing technologies biochimej

Source : The guardian

Les dernières avancées

Les technologies avec des nanopores sont de plus en plus performantes. En 2018, le séquençage et l'assemblage de novo d'un génome humain s'est appuyé sur un protocole :

Qui a généré des lectures ultra-longues : N50 > 100 kb avec des longueurs de lecture jusqu'à 882 kb.
La précision de l'assemblage (après incorporation des données de séquençage à lecture courte complémentaires) a dépassé 99,8%.
Des lectures ultra-longues ont permis l'assemblage du locus du complexe majeur d'histocompatibilité de 4 Mo dans son intégralité.
Voir Jain et al. (2018)

En juillet 2016, la technologie Minion a été envoyée par la NASA dans la station spatiale internationale ("International Space Station", ISS) pour les premiers séquençages effectués dans l'espace d'ADN extra-terrestre potentiel.

Elle a été testée avec succès dans des conditions de gravité comparables à celles qui règnent sur Mars (G = 0,378), sur la lune (G = 0,166) et sur Europa (sattelite de Jupiter - G = 0,134). Voir : Carr et al. (2020).

Le séquençage en routine du génome humain est devenu possible avec le séquenceur PromethION (Oxford Nanopore Technologies) qui possède 3000 capteurs et 12.000 pores : ils génèrent en moyenne 70 Go de données permettant une couverture 20 X du génome humain.

Enfin, la précision des logiciel d'appel de base est sensiblement améliorée par des algorithmes basés sur des modèles de Markov cachés ou des réseaux de neurones.

1953: séquençage de l'insuline (Frederick Sanger)
1965: séquençage de l'ARNt alanine
1968: séquençage des extrémités cohésives de l'ADN du phage lambda
1977: technique de séquençage de l'ADN de Allan Maxam & Walter Gilbert
1977: technique de séquençage de l'ADN de Frederick Sanger
1981: vecteur du phage M13 de Messing
1986: Détection des bases par fluorescence au cours du séquençage par électrophorèse
1987: sequenase
1988: premier séquençage par incorporation progressive de dNTP
1990: séquençage par extrémités appariées
1992: colorants Bodipy
1993: colonies d'ARN in vitro
1996: pyroséquençage
1999: colonies d'ADN dans des gels 2000: séquençage massivement parallèles de signatures par ligation

2003: PCR en émulsion pour générer des colonies d'ADN sur des billes
2003: séquençage massivement parallèle par synthèse sur molécule unique ("single-molecule")
2003: guides d'ondes en mode zéro pour l'analyse de molécules uniques
2003: séquençage de colonies d'ADN par synthèse dans des gels
2005: fluorophores de terminaison réversible à quatre couleurs
2005: séquençage par ligation de colonies d'ADN sur billes
2007: capture de séquences cibles à grande échelle
2010: détection directe de la méthylation de l'ADN au cours du séquençage d'une seule molécule
2010: tunnel à électrons à résolution de base unique par détecteur à semi-conducteurs
2011: séquençage avec des semiconducteurs par détection de protons
2012: séquençage par nanopore
2012: préparation de bibliothèque simple brin d'ADN ancestral
2018: séquençage et assemblage de novo d'un génome humain avec des lectures ultra-longues (N50 > 100 kb avec des longueurs de lecture jusqu'à 882 kb)

Source : Shendure et al. (2017)

2. Détermination des séquences de nucléotides

a. Méthode historique de Fréderick Sanger

Fréderick Sanger est décédé en 2013. Il fût l'un des plus admirables scientifiques - biochimistes (Prix Nobel de chimie 1958 et Prix Nobel de chimie 1980).

Bien qu'elle ait cédé la place aux nouvelles technologies de séquençage, la méthode de Sanger est historiquement capitale puisqu'elle a permis les premiers séquençages de génomes complets :
Haemophilus influenzae 1995 Saccharomyces cerevisiae 1996 Escherichia coli K-12 1997 Caenorhabditis elegans 1998	Arabidopsis thaliana 2000 Drosophila melanogaster 2000 Homme 2001 Mus musculus 2002 Rat 2004

Les nucléotides au sein des acides nucléiques sont liés par une liaison phosphodiester qui s'établit entre le groupement OH sur le carbone 3' du ribose du nucléotide dit en position 5' et le phosphore du groupe phosphoryle en position α du nucléotide dit en position 3'.

La méthode de séquençage de Sanger (dite par terminaison de chaîne) utilise des nucléotides appelés didésoxyribonucléotides (ddNTP) qui ont un atome d'hydrogène à la place du groupement OH sur le carbone 3' du ribose.

Ils peuvent donc être incorporés dans un brin d'ADN en cours de synthèse, mais ils ne permettent pas qu'un autre nucléotide soit incorporé après eux : en effet, l'absence de l'atome d'oxygène en 3' empêche la formation d'une nouvelle liaison phosphodiester.

L'allongement du brin d'ADN s'arrète donc au niveau du ddNTP incorporé, d'où terminaison de la synthèse de l'ADN.

liaison phosphodiester Frederic Sanger sequencing method didesoxyribonucleotides ddNTP biochimej

Frederic Sanger sequencing method didesoxyribonucleotides ddNTP biochimej

Sanger et al. (1977) Proc. Natl Acad. Sci. 74, 5463-5467

La méthode de séquençage de Sanger utilise une amorce marquée radioactivement ("dye-labeled primer") car la polymérase nécessite un court fragment complémentaire du brin à séquencer pour initier la synthèse du brin copie.

Quatre réactions de séquençage sont donc menées en parallèle dans quatre tubes distincts, contenant chacun un seul didésoxyribonucléotide (ddTTP, ddATP, ddCTP et ddGTP) :

ADN matrice + amorce marquée + dNTP + ddTTP
ADN matrice + amorce marquée + dNTP + ddATP
ADN matrice + amorce marquée + dNTP + ddCTP
ADN matrice + amorce marquée + dNTP + ddGTP

Dans chaque tube, toutes les copies d'ADN synthétisé sont interrompues derrière le même nucléotide.

Le rapport des concentrations entre les dNTP et les didésoxyribonucléotides (ddNTP) et le nombre de réactions simultanées catalysées par la polymérase assure statistiquement que toutes les copies partielles intermédiaires possibles de la molécule d'ADN sont synthétisées.

On sépare alors les copies selon leur taille par une migration électrophorétique dans un gel poreux (entre 2 larges plaques de verre), le contenu de chaque tube étant déposé dans un puits distinct. Ces gels permettent de séparer deux intermédiaires consécutifs qui ont une différence de taille d'un seul nucléotide.

Exemple ci-dessous : profil d'électrophorèse du contenu du tube avec le ddCTP. Toutes les copies intermédiaires d'ADN synthétisé sont terminées par un C.

Frederic Sanger sequencing method didesoxyribonucleotides ddNTP biochimej

Source : University of Michigan

b. La technique de séquençage avec des didésoxyribonucléotides fluorescents ("dye terminator sequencing")

Smith et al. (1986) "Fluorescence detection in automated DNA sequencing" Nature 321, 674 - 679

Cette technique utilise des didésoxyribonucléotides dont chacun est marqué par un fluorophore spécifique. Les fragments d'ADN synthétisés portent ce fluorophore terminal. On les appelle des terminateurs d'élongation ou "Big Dye Terminators" ou "Dye-labeled terminator".

Ci-dessous, exemple de structures de ddNTP fluorescents :

5-HEX-deaza-ddGTTP sequencing method didesoxyribonucleotide ddNTP biochimej

6-FAM-ddTTP sequencing method didesoxyribonucleotide ddNTP biochimej

5-TET-ddCTP sequencing method didesoxyribonucleotide ddNTP biochimej

Source : Brandis (1999) Nucleic Acids Res. 27, 1912-1918

6-TAMRA-ddTTP / 6-FAM-ddTTP / 5-TET-ddCTP / 5-HEX-deaza-ddGTTP
R = 2',3'-dideoxyribose-5'-triphosphate / FAM = 6-carboxyfluorescéine

Améliorations apportées par la méthode des ddNTP fluorescents par rapport à la méthode de Sanger

a. La méthode initiale de Sanger utilisant une amorce marquée radioactivement est plus laborieuse, coûteuse (4 réactions distinctes) et dangereuse (radioactivité) que celle des ddNTP fluorescents.

b. Par ailleurs, l'un des problème du séquençage est la formation de "faux-stop" : c'est la terminaison prématurée d'une copie qui implique un désoxyribonucléotide à la place d'un ddNTP. Avec la méthode des ddNTP fluorescents, les "faux-stop" ne sont pas détectés car ils ne fluorescent pas.

c. Avec la méthode des ddNTP fluorescents, il n'y a qu'une réaction de séquençage en présence des 4 didésoxyribonucléotides :

ADN matrice + dNTP + ddCTP fluorescent bleu + ddATP fluorescent vert + ddGTP fluorescent jaune + ddTTP fluorescent rouge

L'excitation se fait à 2 longueurs d'onde différentes par un laser à l'argon. L'émission de fluorescence est mesurée à 4 longueurs d'onde correspondant aux 4 fluorophores.
Chaque base a donc un signal spécifique qui permet de l'identifier lors de son passage dans le faisceau d'un photomètre situé à la sortie du capillaire.
L'analyse des signaux reçus est réalisée par un ordinateur et permet de reconstituer la séquence avec une grande précision (figure ci-dessous).

Electrophorese ddNTP fluorescent sequencing method didesoxyribonucleotide biochimej

Source : University of Michigan

Ci-dessous, le séquenceur "MegaBACE" (société Amersham) : plateforme capillaire à haut débit pour le séquençage d'ADN.

sequencage next-generation high-throughput DNA sequencing technologies sequencing method biochimej

Schématiquement, l'appareil est composé de 96 capillaires, d'un système d'électrophorèse, d'un laser et d'une caméra CCD (Charge-Coupled Device).

Les capillaires (diamètre environ 250 µm), sont remplis d'un polymère qui sert de tamis moléculaire.
Les molécules d'ADN sont introduites à une extrémité des capillaires par électro-injection et migrent ensuite tout au long de ceux-ci sous l'effet d'un très haut voltage (8500 volts) de façon à les séparer en fonction de leur longueur.
Près de l'anode, un rayon laser traverse chaque capillaire afin d'exciter les ddNTP fluorescents incorporées à l'ADN au cours de la réaction de séquençage.
Une caméra CCD mesure l'émission de fluorescence au fur et à mesure que les copies d'ADN passent devant le laser. Les ddNTP fluorescents sont distingués les uns des autres selon la longueur d'onde émise. Exemples : TAMRA : excitation 552 nm - émission 575 nm / FAM : excitation 490 nm - émission 520 nm.

La dernière étape est la lecture des profils bruts ou "base-calling" (détermination de la séquence par appel de bases).

Electrophoregramme DNA sequencing method biochimej

3. Méthode du pyroséquençage

Elle permet d'effectuer un séquençage moins cher et rapide qu'un séquençage par la méthode de Sanger car elle ne nécessite pas de clonage et la lecture de la séquence est directe.

Addition sequentielle nucleotide pyrosequencage ADN DNA sequencing method biochimej

Source : Ahmadian et al. (2006)

Les désoxyribonucléotides triphosphate (dNTP) sont ajoutés l'un après l'autre (et non pas tous ensemble comme dans la méthode de Sanger). Si le désoxyribonucléotide ajouté est complémentaire du désoxyribonucléotide du brin matrice, il est incorporé dans le brin en cours de synthèse et un pyrophosphate inorganique (PPi) est libéré.

pyrophosphate inorganique PPi ADN DNA sequencing method biochimej

L'ATP sulfurylase transforme stoechiomètriquement le pyrophophate libéré en ATP en présence d'un substrat : l'adénosine 5' - phosphosulfate (APS).
L'ATP formé est utilisé par une luciférase qui transforme la luciférine en oxyluciférine qui génère un signal lumineux dans le visible proportionnel à la quantité d'ATP.
L'apyrase dégrade les nucléotides non incorporés et l'excès d'ATP.
Remarque importante : l'ATP est le substrat de la polymérase (pour l'élongation du brin en cours de synthèse) mais il est aussi formé par l'ATP sulfurylase. Pour la polymérisation, on utilise donc un analogue de l'ATP : la désoxyadénosine α-thio triphosphate (dATPαS) qui n'est pas un substrat de la luciférase.

Reaction polymerase apyrase pyrosequencage ADN DNA sequencing method biochimej

Le capteur CCD du séquenceur capte le signal lumineux et le traduit par un pic sur le pyrogramme.

pyrogramme pyrosequencage ADN DNA sequencing method biochimej

Source : Ahmadian et al. (2006)

La hauteur du pic est proportionnelle à l'intensité du signal lumineux, elle-même proportionnelle au nombre de nucléotides incorporés au même moment. On déduit la séquence à partir de la taille des pics obtenus.

En cas de mélange de nucléotides à une même position (polymorphisme de séquence), la taille des pics permet d'avoir une quantification de la proportion de brins porteurs de l'un ou l'autre des nucléotides.

Exemple d'application du pyroséquençage à l'étude du transcriptome de Arabidopsis thaliana : Weber et al. (2007) "Sampling the Arabidopsis transcriptome with massively parallel pyrosequencing" Plant Physiol. 144, 32-42.

Méthode	longueur des lecture (nucléotides)	nombre de lectures	total par tour ("run") (Mpb)	coût relatif par nucléotide
Sanger	700 - 800	96	0,07	1
pyroséquençage	250	400.000	100	0,1
phase solide	25 - 35	40 à 80 millions	1000 - 2000	0,01

Cette partie retrace un "historique" des stratégies de séquençage avant l'avènement des nouvelles technologies de séquençage à très haut débit.

En regard de l'avancée phénoménale des techniques et des capacités d'analyse, certaines parties peuvent sembler obsolètes mais elles représentent certains fondements de la génomique.

4. Stratégies initiales de séquençage des génomes

a. La méthode hiérarchique ou "clone par clone"

Le génome est découpé en un nombre "restreint" (quelques dizaines de milliers) de fragments de grande taille (50 à 200 kilo paires de base) qui couvrent l'ensemble du génome.

Ces fragments sont clonés dans des vecteurs spéciaux : les YAC ("Yeast Artificial Chromosome" - problème d'échange de fragments d'ADN), les BAC ("Bacterial Articifial Chromosome") ou des vecteurs dérivés du phage P1 (les PAC).

Une carte physique des clones est établie pour faciliter l'obtention de la séquence finale du génome : elle permet d'ordonner les clones dans le génome.

Methode sequencage hierarchique clone ADN DNA sequencing method biochimej

Source : "Précis de génomique" Gibson & Muse (2004)

Les cartes de liaison disposent des marqueurs ordonnés le long des chromosomes par la mesure de leur liaison deux à deux. Ces cartes de liaison permettent de se repérer dans le génome et sont une aide essentielle dans la construction de la carte physique.

Un sous-ensemble avec un minimum de recouvrement (pour avoir une couverture la plus complète possible du génome) est ensuite choisi et séquençé en "vrac" (voir ci-dessous) : chaque clone de grande taille est découpé en un grand nombre de fragments de petite taille (environ 2000 paires de bases) et les extrémités sont séquencées individuellement.

Les problèmes d'assemblage ne se posent qu'à l'échelle des grands fragments et sont facilement résolus en multipliant le nombre de lectures dans ces zones.

b. La méthode de séquençage aléatoire global ou "en vrac" ou "shotgun"

C'est une méthode très différente et complémentaire de la méthode hiérarchique.

Une carte de grands fragments ordonnés n'est pas établie au préalable.

Un trés grand nombre de séquences sont obtenues de façon aléatoire à l'échelle du génome entier. Les extrémités d'une partie de ces fragments sont séquencées. Puis ces séquences sont assemblées selon leurs recouvrements.

Du fait du grand nombre de fragments et du clonage, certaines séquences ne sont jamais séquencées.

Methode sequencage aleatoire global vrac shotgun ADN DNA sequencing method biochimej

Source : "Précis de génomique" Gibson & Muse (2004)

La difficulté d'assemblage est beaucoup plus grande que dans la stratégie "clone par clone" et le nombre énorme de comparaisons de séquences nécessite une puissance de calcul considérable.

Il n'est pas possible, pour combler les trous entre les contigs (voir ci-dessous), de diriger le travail de séquençage supplémentaire sur un grand fragment bien identifié.

Compléments sur la méthode "shotgun"

C'est un processus aléatoire d'échantillonnage de N lectures de taille L, pour un génome de taille G :

couverture : a = N . L / G
nombre de contig obtenus (N_c) en fonction de la couverture : N_c = (a . G / L) e^-a
taille moyenne des contigs : L_c = (e^a - 1) . L / a

Lander & Waterman (1988) "Genomic mapping by fingerprinting random clones: A mathematical analysis" Genomics 2 , 231 - 239

Evolution des "stratégies" de séquençage de type "shotgun" :

Roach et al. (1995)
stratégie "parking"
les méthodes "paired end sequencing"
les nouvelles technologies de séquençage à très haut débit, non limitantes (exemple : "WGS sequences = whole genome shotgun sequences")

Quelle que soit la stratégie adoptée, lors de l'assemblage terminal du génome, il faut éliminer :

Les fragments d'ADN contaminants d'origine bactérienne.

Les clones ne provenant pas, à l'origine, d'un même fragment du génome du fait d'une recombinaison à l'intérieur du BAC ou d'une mauvaise annotation lors de la construction de la collection de fragments pour la phase de séquençage en vrac.

Les séquences répétées peuvent aussi poser un problème lors de l'assemblage des grands génomes car elles peuvent conduire à assembler 2 séquences provenant de régions distantes du génome. Lors de l'assemblage, elles sont donc "masquées" par des programmes informatiques tel que RepeatMasker. Ces logiciels remplaçent les nucléotides de ces régions par le symbole "N" qui décrit n'importe quel nucléotide.

5. Les contigs et l'assemblage, les trous, l'appel de base

Avec les technologies encore courantes dans de nombreux laboratoires, chaque séquençage ne permet d'obtenir une lecture que de quelques milliers de paires de base. Il n'est donc pas possible de séquencer en une seule fois des molécules d'ADN aussi grandes que les chromosomes.

Pour reconstituer ces immenses séquences, il faut effectuer un grand nombre de séquençages, plusieurs fois supérieur à la taille du chromosome. Ces séquençages redondants permettent :

de raccorder les séquences les unes aux autres
de s'assurer de la qualité du résultat de chaque lecture

Pour les premiers séquençages des génomes (avant l'avènement des nouvelles technologies de séquençage à très haut débit), la redondance était d'un facteur 8 à 10 (une profondeur de 8 à 10X).

redondance profondeur sequencage ADN DNA sequencing method biochimej

Source : B. Dujon (2008)

Celà signifie :

fractionner le fragment à séquencer en sous-fragments
effectuer un nombre de séquençage tel que l'ensemble de ces séquençages, mis bout à bout, représentent 10 fois la longueur de la séquence du fragment initial
en d'autres termes, chaque base du fragment initial doit apparaître en moyenne dans 10 lectures

L'assemblage

La comparaison des séquences permet d'aligner les parties qui se recouvrent partiellement ou chevauchantes.

Assemblage contigs biochimej

Assemblage contig scaffold ADN DNA sequencing method biochimej

Source : Genoscope - FAQ

Les séquences chevauchantes peuvent être reliées en enchaînements plus grands que l'on appelle contigs.

En reliant l'ensemble des contigs, on reconstitue des séquences de plusieurs millions à plusieurs dizaines de millions de nucléotides (les "scaffold").

Ces opérations sont effectuées par des programmes bioinformatiques.

Les trous ou "gap" : Comme le séquençage est effectué sur des sous-fragments pris de manière aléatoire, même avec un tel niveau de redondance, il reste des parties non assemblées : des trous ("gap") qui peuvent être "comblés" par un travail ciblé.

Scaffold : ensemble de contigs orientés et ordonnés. Les trous ("gaps" - voir ci-dessous) sont de longueur connue.

Mapped scaffold : ensemble de scaffolds localisés le long des chromosomes (pas forcément ordonnés ou orientés). Les trous sont de longueur inconnue.

Pour déterminer les relations de voisinage des contigs, les liens clones sont considérés, c'est-à-dire les lectures obtenues aux deux extrémités d'un même fragment d'ADN. On recherche parmi ces paires celles qui s'ancrent dans deux contigs différents.

Cela permet de jeter un pont entre les deux contigs et de les orienter. De plus, le fragment d'ADN "à cheval" sur le trou entre les deux contigs peut faire l'objet d'un séquençage supplémentaire, ce qui permet de combler le trou.

La lecture des profils bruts ou "base-calling" : c'est la détermination de la séquence par appel de bases qui s'effectue en routine par des programmes informatiques qui déterminent l'identité des bases, comparent les séquences et fournissent une plate-forme intuitive de correction.

La suite logicielle publique développée à l'Université de Washington contient les programmes :

Phred : il convertit les fichiers "traces" (chromatogramme au milieu de la figure ci-dessous) en séquences qui sont immédiatement déposées dans des banques.
Phrap / CrossMatch / Swat : ensembles de programmes pour l'assemblage de séquences d'ADN en contigs.
Consed : outil graphique de visualisation et d'édition des séquences assemblées par Phrap.
La fonction "Autofinish" (Gordon et al . 2001) du programme Consed permet de combler les trous en proposant des amorces et en identifiant des matrices d'ADN qui permettent de franchir les discontinuités entre 2 contigs.

Electrophoregramme biochimej

Source : "Précis de génomique" Gibson & Muse (2004)

6. Les nouvelles technologies de séquençage à trés haut débit ("next-generation high-throughput DNA sequencing technologies" - NGST ou NGS)

a. Introduction

Une révolution en génomique fonctionnelle a eu lieu avec l'avènement des technologies de séquençage à trés haut débit ou massivement parallèles.

Des quelques 800 à 1000 nucléotides qu'un chercheur pouvait espérer séquencer en quelques jours par des techniques lourdes, complexes et dangereuses (utilisation d'isotopes radioactifs) dans les années 80, on est arrivé à l'heure actuelle à des techniques de séquençage simplifiées qui séquencent des milliards de nucléotides par expérience.

L'ensemble des données de séquençage est implémenté en temps réel dans des bases de données pour leur analyse.

En conséquence, de plus en plus de génomes sont séquencés ou en cours de séquençage avec l'avènement des nouvelles technologies de séquençage à trés haut débit.

Janvier 2020

Nombre de génomes complètement séquencés : > 19.000
Nombre de génomes en cours d'analyse : > 327.000
"Genomes OnLine Database" - GOLD
NCBI - Genome sequencing projects
Phytozome : a tool for green plant comparative genomics

Projets de très grande envergure de séquençage de génomes

"Beijing Genomics Institute" (BGI) espère dépasser l'équivalent de 10.000 séquençages du génome humain par an.
1,000 Genomes Project : séquençage des génomes d'un très grand nombre d'individus pour obtenir un recueil de la variation génétique chez l'homme (fréquence de variation d'au moins 1%).

Des biologistes et des informaticiens prévoient que les ressources informatiques nécessaires pour traiter les données liées aux génomes dépasseront à terme celles nécessaires à Twitter et YouTube.

On estime que, en 2025, 100 millions à 2 milliards de génomes humains auront été séquencés. A lui seul, le stockage de ces données pourrait nécessiter 2 à 40 exaoctets (1 exaoctet = 10¹⁸ octets) car les données stockées pour un génome sont 30 fois plus grande que la taille du génome lui-même (données brutes, erreurs, analyse préliminaire …).

Le stockage des données ne sera qu'une petite partie du problème : les besoins pour l'acquisition, la distribution et l'analyse des données de génomiques seront bien supérieurs.

b. Caractéristiques élémentaires des NGS

Ces techniques permettent le séquençage d'un nombre colossal de nucléotides (jusqu'à 10¹² nucléotides séquencés par expérience) à un coût nettement moindre qu'avec la méthode de Sanger.
Séquençage en un temps record : ces technologies de séquençage permettent d'amplifier spécifiquement un fragment d'ADN isolé, en évitant les étapes de clonage bactérien particulièrement longues.
Ces méthodes sont parallèlisées : des millions de réactions ont lieu en même temps dans des barettes qui contiennent des puits minuscules en fibre optique.
Les fragments séquencés sont courts : actuellement de 30 à environ 250 paires de base selon la technologie.
La petite taille et le nombre très élevé des fragments séquencés induit un travail d'analyse bioinformatique colossal en aval car il faut assembler ces fragments en contigs.

Le séquençage de novo : c'est le séquençage d'un génome pour la première fois. Il nécessite l'assemblage d'un très grand nombre de petites séquences du génome. Il nécessite aussi un génome de référence (s'il en existe un) afin de positionner (par comparaison) les séquences obtenues.

Définitions importantes

lecture ("read") : une séquence d'un fragment d'ADN.
contigs : séquences continues générées par l'alignement de séquences de fragments qui se chevauchent.
trous ("gaps") : parties du génome non séquencées ou dont les séquences ne chevauchent pas avec d'autres et ne peuvent donc entrer dans un contig.
régions de faible compléxité : parties du génome dont les séquences sont très peu diversifiées (exemple : séquences répétées).

Le séquençage complet d'un génome avec les NGS conduit à un nombre colossal de petits fragments séquencés (un grand nombre de petites séquences ou lectures) que l'on essaye ensuite d'assembler en contigs. La qualité de couverture du séquençage et donc liée à celle des contigs (leur longueur et leur continuité) et donc au nombre de gaps.

L'un des inconvénients des NGS est la petite taille des fragments séquencés d'où un nombre élevé de gaps, en particulier pour les régions de faible complexité.

sequencage next-generation high-throughput DNA sequencing technology de novo whole genome shotgun contig paired end biochimej

a. Pour pallier à cette difficulté, on peut séquencer les fragments :

à partir d'une extrémité ("single-end sequencing") : on obtient le début de la séquence du fragment à une extrémité.
à partir des 2 extrémités ("paired-end sequencing") : on obtient le début de la séquence du fragment à une extrémité et le début de la séquence du fragment à l'autre extrémité mais pas la séquence au milieu du fragment (le séquençage ne génére que de courtes séquences).
la distance entre chaque fragment séquencé étant connue, les algorithmes d'alignement utilisent cette information pour localiser avec plus de précision ces fragments dans les régions de faible complexité.

b. Un autre moyen est de construire des banques avec des inserts de petites tailles (0,2 - 0,8 kpb) et des banques avec des inserts de grandes tailles (2 - 40 kpb). On obtient ainsi des fragments séquencés de tailles variables ("short-insert paired end reads" et "long-insert paired end reads" ou "mate paired") qui aboutissent à un meilleur assemblage du fait de contigs plus longs.

L'acquisition et la compilation d'une masse de données de plus en plus astronomique d'une part et l'analyse des résultats des NGS nécessitent le développement d'outils bioinformatiques de plus en plus spécialisés (exemple : Allpaths-LG propose un assembleur pour grands génomes).

Les NGS permettent d'aborder (liste non-exhaustive) :

le séquençage d'un génome inconnu (séquençage de novo ) ou le re-séquençage d'un génome connu
l'annotation (ou la ré-annotation) de plus en plus précise et exhaustive d'un génome
l'étude de la variabilité génétique et du polymorphisme de nucléotide simple (SNP)

sequencage next-generation high-throughput DNA sequencing technologies biochimej

Source : Shendure & Aiden (2012)

le séquencage d'haplotypes particuliers lors du clonage positionnel d'un gène d'intérêt
l'étude du transcriptome :
1. identification des sites de démarrage de la transcription, des séquences frontière intron/exon
2. étude des évènements de l'épissage
3. analyse quantitative du niveau de transcription des gènes
4. quantification et détection d'ARN rares, identification de régions dont on ne savait pas au préalable qu'elles sont transcrites
5. étude du profil en petits ARN non codants ("small ncRNAs"), découverte de gènes codant ces types d'ARN
6. l'édition des ARN : modification post- ou co-transcriptionnelle (essentiellement changement de l'adénosine en inosine)
épigénétique et épigénomique
1. étude de l'influence de l'environnement et de l'histoire individuelle sur les modifications de la transcription des gènes d'une génération à l'autre. Le préfixe "épi" signifie "sur, au-dessus, ..."
2. étude du profil de méthylation de l'ADN et de la structure de la chromatine
3. étude des interactions ADN / protéines
4. étude des modifications post-traductionnelles des histones
la métagénomique : étude du génome d'un organisme prélevé directement dans un environnement complexe (intestin, océan, sols, ...), à l'inverse d'un organisme de laboratoire. Le but est d'obtenir des informations sur l'incidence de cet environnement. Le préfixe "méta" signifie "après, au-delà de, avec, ...". "Metagenomics at EBI".
l'étude du microbiome. Exemple : "Human Microbiome Project"
le séquençage simultané d'un très grand nombre d'échantillon ("Next-generation DNA barcoding")
la génomique médicale (évènements aberrants de mutation)
...

c. Les technologies NGS et les entreprises actuelles

De nouvelles technologies apparaissent chaque année (plus puissantes, plus rapides, plus économiques, ...). Il est illusoire de les lister : ne sont donc présentées que celles qui ont permis les premiers grands bonds.

1. "llumina sequencing" : Illumina représente environ 56% du marché des NGS.

Voir un développement de la technique et du principe des réactions chimiques basées sur l'amplification, l'accrochage sur puce et l'utilisation de terminateurs de chaîne réversibles marqués par des fluorochromes.
Exemple de séquençages Illumina : analyse RNA-seq des vers Echinococcus multilocularis, E. granulosus et Hymenolepis microstoma.

Historiquement, l'entreprise s'est d'abord appelée Solexa (1998) avec un modèle de séquenceur ("Genome Analyzer") lancé en 2006. En 2007, la société Illumina a fait l'acquisition de Solexa.

2. La technologie Roche 454

La société "454 Life Sciences" (Connecticut - USA) a développé les séquenceurs GS20 et GS FLX ("Genome Sequencer" - distribution par Roche Diagnostics).

La technique utilisée (Margulies et al., 2005) est basée sur l'amplification d'ADN lié à une bille en émulsion et au pyroséquençage.

Voir un film qui décrit le principe de cette méthode de séquençage.

sequencage next-generation high-throughput DNA sequencing technologies biochimej

Source : 454.com

Exemples d'application

Etude des SNP de l'eucalyptus (Novaes et al., 2008).
Séquençage du génome du blé (16 milliards de nucléotides) - Université de Bristol : publication en Août 2010 d'un "brouillon" du génome du blé (variété "Chinese spring") obtenu avec la technologie Roche 454.
Voir aussi le consortium international pour le séquençage du blé (IWGSC)

Comparaison des technnologies Illumina et 454
Illumina (ex-Solexa)		454 (Roche)
Amplification en phase solide - séquençage par synthèse (mesure de fluorescence)		Amplification dans une émulsion - pyroséquençage
L'ADN génomique est fragmenté. Des adaptateurs sont fixés aux extrémités des fragments d'ADN. L'ADN est dénaturé puis chaque brin est immobilisé en le fixant à une amorce, elle-même fixée sur un support. Le brin complémentaire est synthétisé puis ce nouvel ADN double-brin est dénaturé. Chaque brin fixé forme alors un pont en s'hybridant localement avec l'amorce complémentaire de l'autre extrémité. Le brin complémentaire est synthétisé. L'opération est répétée un grand nombre de fois : il y a formation d'amas ("cluster") du même fragment d'ADN.		L'ADN génomique est fragmenté (300 - 800 paires de bases). Des adaptateurs sont fixés aux extrémités des fragments d'ADN simple brin. L'un des adaptateurs contient la biotine qui se fixe à la steptavidine, elle-même fixée sur une bille. Le rapport [billes/molécules d'ADN] est tel que la plupart des billes ne fixent qu'une molécule de fragment d'ADN : une bille = un fragment = une lecture.
Voir une vidéo.		Source des figures : Metzker M. (2010)
Un nucléotide marqué par une étiquette fluorescente ("fluorescently labeled chain-terminating nucleotide") est incorporé dans la chaîne en cours de synthèse (synthèse du brin complémentaire de celui qui est séquencé). La fluorescence de ce nucléotide est mesurée. Mais l'incorporation de ce terminateurs de chaîne est réversible, ce qui permet que la synthèse continue jusqu'à ce qu'un autre terminateur de chaîne soit incorporé.		Une émulsion (mélange eau-huile) encapsule cette bille et forme une goutelette : l'amplification PCR du fragment d'ADN en milliers de copies s'effectue dans cette goutelette. L'émulsion est éliminée. L'ADN est dénaturé et les [billes - ADN simple brin] sont ensuite déposées dans des millions de puits ("picotiter plate"). Les nucléotides fluorescents sont délivrés les uns après les autres (pyroséquençage).
Faible taux d'erreurs d'insertion/délétion (indel).		Taux plus élevé d'insertion/délétion (indel) que la technologie Illumina.
1 milliard de bases séquencées (lectures d'environ 30-40 bases - les terminateurs de chaîne réversibles sont incorporés moins efficacement) avec une exactitude moindre que la technologie 454.		1 million de bases séquencées (lectures plus longues d'environ 250 bases) avec une exactitude de 99.5%.

3. La technologie "Ion Torrent"

Cette technologies est basée sur des puces semi-conductrices remplies de puits.

ion torrent sequencage next-generation high-throughput DNA sequencing technologies biochimej

Un proton est relargué quand un nucléotide est incorporé par la polymérase dans l'ADN. Cela résulte en un changement de pH local qui est détecté par cette technologie sensible à la variation d'ions.

Detection changement pH local sequencage next-generation high-throughput DNA sequencing technologies biochimej

Voir une vidéo qui décrit cette technologie.

Cette technologie ne nécessite pas de camera, pas de scanner, pas de cascade enzymatique, pas de fluorophore ou chemiluminescence.

débit en 2012 : 1000 Mpb/expérience
temps d'expérience total (construction de la banque / données intégrées) : 2 jours
un tour : 3,5 heures

Source : Rothberg et al. (2011) "An integrated semiconductor device enabling non-optical genome sequencing" Nature 475, 348 - 352

4. La technologie SOLiD ("Sequencing by Oligonucleotide Ligation and Detection") : le séquençage est basé sur l'amplification par émulsion et l'hybridation-ligature chimique. Il utilise une ligation avec une DNA ligase.

Voir un développement de la technique et du principe des réactions chimiques.

5. La technologie "Helicos BioSciences"

Remarque : cette entreprise phare a fait faillite en novembre 2012.

Les nucléotides fluorescents sont ajoutés l'un après l'autre. Les nucléotides non incorporés (selon le brin matrice) sont éliminés.

Une illumination avec un faisceau laser induit une émission de fluorescence aux endroits où le nucléotide a été incorporé. Le groupe fluorescent du nucléotide qui vien dêtre incorporé est à son tour éliminé afin que le nucléotide suivant puisse être incorporé par la polymérase.

sequencage next-generation high-throughput DNA sequencing technologies biochimej

Source : Helicos BioSciences

d. Les technologies NGS en développement et à venir

1. G4-seq : les quadruplexes G sont des structures secondaires d'acides nucléiques qui se forment au niveau de séquences d'ADN ou d'ARN riches en guanine. Ces structures peuvent affecter l'architecture de la chromatine et la régulation de la transcription des gènes et elles sont associées à l'instabilité des génomes.
Chambers et al. (2015) "High-throughput sequencing of DNA G-quadruplex structures in the human genome" Nat. Biotech. 33, 877–881

2. FIS-seq ("Fluorescence In Situ RNA-sequencing"): le perfectionnement de la technique FISH ("RNA Fluorescence In Situ Hybridization") permet désormais de détecter les molécules d'ARN individuelles dans une seule cellule ("single cell") et d'obtenir des informations sur la localisation sub-cellulaire de ces molécules d'ARN. La technique FIS-seq combine l'approche RNA-seq "classique" (en utilisant la cellule comme une "puce" de séquençage) avec la technique FISH.
Lee et al. (2014) "Highly Multiplexed Subcellular RNA Sequencing in Situ" Science 343, 1360-1363

3. La spectromètrie de masse appliquée aux fragments d'ADN.

4. La visualisation directe de molécule d'ADN par microscopie de force atomique.

Les technologies de séquençage dites de troisième génération

Les technologies de séquençage dites de troisième génération permettent d'acquérir de très longues lectures ("ultra-long reads").

Pacific Biosciences (PacBio) : technologie "Single Molecule Real Time™ (SMRT) sequencing" - longueur moyenne de séquence ≈ 20 Kb avec une précision > 99,9% en 2023.
Oxford Nanopore Technologies : technologie MinION™ - longueur moyenne de séquence ≈ 100 kb avec une précision d'environ 99% en 2023.
Illumina : technologie "Tru-seq Synthetic Long-Read™".

Les longues lectures permettent le chevauchement de longues répétitions et donc l'orientation des contigs avec moins d'ambiguïté, ce qui est essentiel pour l'assemblage de novo de génomes.

Illustration : technologie MinION™ (Oxford Nanopore Technologies)

Nanopore DNA sequencing minion biochimej

Source : Oxford Nanopore

Le séquençage s'effectue via le passage de fragments d'ADN au travers des nanopores constitués de protéines (hémolysine) incluses dans une bicouche lipidique.

Nanopore DNA sequencing minion biochimej

Source : Rusk (2013)

Voir une vidéo remarquable de ce processus.
Voir les figures 14 à 18 de l'article "Nanopores: A journey towards DNA sequencing" pour comprendre les principes physiques (électriques) de la détermination de l'identité du nucléotide qui traverse le nanopore.

Exemple : l'ADN testé (figure ci-dessous) est constitué de répétitions "CAT" à l'exception d'un triplet "CAG" au milieu de la séquence.

Nanopore DNA sequencing minion biochimej

Source : Manrao et al. (2012)

La trace du courant moyen montre un profil répété de 3 niveaux (barres bleues) dont la régularité est interrompue au niveau du G (en orange) : les 4 niveaux de courant autour du G sont affectés. Le courant résiduel est donc influencé par 1 ou 2 nucléotides.

Les dernières avancées

Les technologies avec des nanopores sont de plus en plus performantes. En 2018, le séquençage et l'assemblage de novo d'un génome humain s'est appuyé sur un protocole :

Qui a généré des lectures ultra-longues : N50 > 100 kb avec des longueurs de lecture jusqu'à 882 kb.
La précision de l'assemblage (après incorporation des données de séquençage à lecture courte complémentaires) a dépassé 99,8%.
Des lectures ultra-longues ont permis l'assemblage du locus du complexe majeur d'histocompatibilité de 4 Mo dans son intégralité.
Voir Jain et al. (2018)

Enfin, la précision des logiciel d'appel de base est sensiblement améliorée par des algorithmes basés sur des modèles de Markov cachés ou des réseaux de neurones.

On envisage d'appliquer la technique des nanopores au séquençage des protéines : la grande difficulté est de déplier la chaîne polypetidique. Une piste est l'utilisation de la "AAA+ unfoldase ClpX".
Voir : "Unfoldase-mediated protein translocation through an α-hemolysin nanopore" (Nivala et al., 2013)

Principe de base du séquençage de nanopores à tension variable

Figure de gauche ci-dessous : un nanopore de MspA (Mycobacterium smegmatis porin A) est inséré dans la bicouche lipidique séparant ainsi 2 chambres (cis et trans)/ L'enzyme motrice hélicase Hel308 contrôle le mouvement du brin d'ADN à travers le pore et une tension est appliquée à travers la bicouche : la conductance à travers le pore est mesurée.

Figure de droite ci-dessous : séquençage obtenu quand une tension constante est appliquée.

Nanopore DNA sequencing minion biochimej

Source : Noakes et al. (2019)

Figure de gauche, ci-dessous : l'application de différentes tensions (100 mV à 200 mV) modifie la force de traction appliquée à l'ADN. Des forces élevées entraînent une extension supplémentaire de l'ADN, ce qui a pour conséquence de déplacer l'ADN dans la constriction du pore et ainsi de changer les nucléotides (le point rouge) qui affectent la conductance.

Nanopore DNA sequencing minion biochimej

Source : Noakes et al. (2019)

Figure de droite, ci-dessus : le séquençage à tension variable analyse la conductance du pore bloqué par l'ADN de manière continue le long de la séquence d'ADN (en haut).

Les barres rouges et bleues (en haut) indiquent les plages qui se chevauchent le long de la molécule d'ADN sondée pendant l'oscillation de tension au cours des étapes enzymatiques impaire (rouge) et paire (bleue).
Dans le signal résultant, chaque étape enzymatique est caractérisée par une courbe de conductance par rapport à la position de l'ADN (courbes rouge et bleue), plutôt que par une seule conductance moyenne comme dans le séquençage à tension constante.

Voir un article de synthèse de l'historique de la technologie ONT, de son évolution, de ses capacités de séquençage (notamment en terme de longueur de "reads" séquencés) et de ses application multiples : Wang et al. (2021)

e. Le côut des séquençages

Le marché du séquençage a été de 1,3 milliard de dollars en 2012. Il est estimé à 2,7 milliards de dollars en 2017. Il pourrait atteindre 28 milliards de dollars en 2022.

des caractéristiques des nouvelles technologies de séquençage

comparatif nouvelle technologie sequencage next-generation high-throughput DNA sequencing technologies biochimej

Source : biorigami.com

Du fait des données en masse liées aux nouvelles technologies de séquençage à très haut débit, des "simulateurs" ont été développés pour prédire le coût et la durée (estimés sur la base du génome d'Arabidopsis thaliana et de son annotation).

Côut du séquençage du génome de l'homme (publié en 2001) : environ 100 millions de dollars.

Au cours des premières années, la réduction du côut des séquençages diminuait (diminution ressemblant approximativement à la "Loi - ou énoncé - de Moore").

sequencage next-generation high-throughput DNA sequencing technologies loi Moore biochimej

Janvier 2008 : chute drastique du côut des séquençages avec l'avènement des nouvelles technologies de séquençage à très haut débit, dites de "seconde génération".

Depuis le côut baisse régulièrement : il est actuellement d'environ 5000 dollars.

On s'approche d'un séquençage complet du génome de l'homme à 1000 dollars.

Dans les années à venir, c'est le côut de l'analyse bioinformatique en aval du séquençage d'un génome qui sera prédominante.

sequencage next-generation high-throughput DNA sequencing technologies biochimej

Source : Sboner et al. (2011)

Acronymes de la figure : AM : Binary Sequence Alignment/Map - BED : Browser Extensible Data - CRAM : compression algorithm - MRF : Mapped Read Format - VCF : Variant Call Format.

7. Quelques exemples d'apports du séquençage

a. Le génome de l'homme : "ENCODE"

Septembre 2012 - Publication de 30 articles par le consortium ENCODE ("The Encyclopedia of DNA Elements") qui montrent notamment que :

environ 20% de l'ADN non-codant du génome humain est en fait fonctionnel (codage d'ARN régulateurs)
environ 60% de l'ADN non-codant est transcrit mais les fonctions des transcrits ne sont pas connues
la plus grande partie de l'ADN non-codant fonctionnel est impliquée dans la régulation de l'expression des gènes de l'ADN codant
la transcription des gènes de l'ADN codant est contrôlée par de multiples sites de régulation localisés à proximité ou à distance de ces gènes. Ces résultats démontrent que la régulation de l'expression des gènes est bien plus complexe que ce que l'on en sait.

On estime que l'exome humain (partie de l'ADN constituée par les exons) correspond à environ 20.000 gènes codant des protéines (exome : 180.000 exons - 1,5% du génome humain - 30 Mbases).

Pour accéder aux articles de manière interactive : Nature ENCODE explorer

Evolution du nombre de gènes estimés dans le génome humain
Technique	Date	Nombre de gènes estimés	Hypothèses et commentaires
"Calcul" initial	1990	100 000	Avec l'hypothèse que la taille moyenne d'un gène = 30 kb
Ebauche de séquençage du génome	1994	71 000	Résultat biaisé par les régions riches en gènes ?
Ilôts CpG		80 000	Avec l'hypothèse que 66% des gènes humains ont de tels "ilôts"
Analyse des EST	1994	64 000	Gènes ayant un homologue dans GenBank - Redondance des EST de 50%
Chromosome 22	1999	45 000	Correction liée à la haute densité en gène de ce chromosome
Technique "Exofish" ("Exon Finding by Sequences Homology")	2000	28 000 - 34 000	Avec l'hypothèse que les régions codantes sont plus conservées que les régions non-codantes. Comparaison des génomes homme - poisson ("Tetraodon nigroviridis")
EST	2000	35 000 120 000	Nombre de gènes Nombre de transcrits
Premier "brouillon" du génome	2001	30 000 - 40 000	Gènes connus + prédictions
Comparaison avec le génome de la souris	2002	30 000	Gènes connus + prédictions
Analyse du génome de l'homme en cours d'aboutissement	2004	20 000 - 25 000	Gènes connus + prédictions
Analyse du génome de l'homme en cours d'aboutissement	2007	20 000	Annotation des gènes améliorée
Analyse du génome de l'homme "aboutie"	2012	20 687 gènes codant des protéines	"The ENCODE Project Consortium" Nature 489, 57-74 (2012)
Analyse conjointe du génome et du protéome (5 niveaux d'évidence d'existence des protéines) de l'homme	2018 - 2020	19 823 gènes codant des protéines 20 399 protéines (dont 17 694 protéines PE1)	HUPO (Human Proteome Project) NextProt (Swiss Institute of Bioinformatics)
Publication du consortium Telomere-to-Telomere (T2T) Etude de l'hétérochromatine et de nombreuses autres régions complexes (tous les réseaux satellites centromériques et les bras courts des cinq chromosomes acrocentriques)	2021	19 969 gènes codant des protéines 3,055 milliards de paires de bases	Caractéristiques principales de la référence T2T-CHM13 Assemblage sans lacune des 22 autosomes plus le chromosome X. Le chromosome Y n'est pas complètement séquencé. Ajout d'environ 200 millions de paires de bases d'une séquence contenant 2226 copies de gènes paralogues dont 115 coderaient des protéines. Correction de nombreuses erreurs.
Chez presque tous les organismes (et donc chez l'homme), on découvre un nombre croissant important de microprotéines ou micropeptides codés par des ARN qui jusqu'à lors étaient annotés "non codant". Le nombre réel de protéines est donc sous-estimé.

Quelques données sur le génome humain (les chiffres ne sont évidemment pas définitifs, le décryptage complet n'étant pas terminé)*
Régions transcrites en ARN : 0,05%	Tailles moyennes : Gènes : 45 kb Séquence codante : 1500 nucléotides Exon : 145 nucléotides Intron : 5200 nucléotides 5' UTR : 210 nucléotides 3' UTR : 740 nucléotides Introns - exons Nombre d'introns : 6 ± 3 introns / 1000 paires de bases de séquence codante Introns / [introns + séquence codante] : 92% Epissage alternatif pour plus de 90% des gènes
Régions codant pour des protéines : 1,2%
Introns : 31%
ADN intergénique : 61%
ADN satellite : 6 - 7%
Pseudogènes : 1 - 1,2%
Eléments transposables : 42 - 46 %
* 2015 : reconstruction du génome de 2504 individus issus de 26 populations ("The 1000 Genomes Project Consortium"). Août 2016 : analyse de la variation génétique des gènes codant des protéines de 60.706 humains (Lek et al., 2016 - "Exome Aggregation Consortium").
Les mutations somatiques dans les génomes de cellules cancéreuses sont causées par de multiples processus, chacun générant une signature de mutations caractéristique. Le consortium PCAWG ("Pan-Cancer Analysis of Whole Genomes") de l'ICGC ("International Cancer Genome Consortium") et du TCGA ("The Cancer Genome Atlas") a caractérisé les signatures de mutations la plupart des types de cancer de l'homme en analysant près de 85 millions de mutations somatiques dans 4645 génomes entiers et 19.184 séquences d'exomes. Cette analyse a permis d'identifier 49 substitutions de base unique, 11 substitutions de base en doublet, 4 substitutions de base en cluster et 17 petites signatures d'insertion et de suppression. ICGC/TCGA PCAWG Consortium (2020) "Pan-cancer analysis of whole genomes" Nature 578, 82 - 93 Alexandrov et al. (2020) "The repertoire of mutational signatures in human cancer" Nature 578, 94 - 101

b. Evolution de ENCODE : "Comparative modENCODE/ENCODE" (analyse comparative de métazoaires)

Les données de ENCODE permettent désormais la comparaison spatio-temporelle des génomes, des transcriptomes, des séquences qui codent les divers types d'ARN, de la structure de la chromatine, des interactions ADN-protéine ...

C'est ce qui a été publié en 2014 pour 3 espèces de métazoaires apparemment distantes : l'homme, le ver nématode (Caenorhabditis elegans) et la mouche (Drosophila melanogaster).

Gerstein et al. (2014) "Comparative analysis of the transcriptome across distant species" Nature 512, 445-448
Ho et al. (2014) "Comparative analysis of metazoan chromatin organization" Nature 512, 449-452
Boyle et al. (2014) "Comparative analysis of regulatory information and circuits across distant species" Nature 512, 453-456

L'ensemble des données (notamment le stockage des données de séquençage de milliards de fragments) est disponible à la sous-partie du consortium ENCODE : "Comparative modENCODE/ENCODE".

Human : 257 ChIP-seq, 164 RNA-seq (includes 25 with shRNA knockdown), 22 RAMPAGE, 7 ChIA-PET, 20 RNA Bind-n-Seq
Mouse : 260 ChIP-seq, 2 RNA-seq, 28 Shotgun Bisulfite-seq (WGBS)

Araya et al. (2014) Nature 512, 400-405 : distribution spatio-temporelle dans le génome de Caenorhabditis elegans des sites de liaison de 92 facteurs de transcription et protéines régulatrices à plusieurs stades de développement (241 expériences ChIP-seq).

c. Visualisation des protéines de Caenorhabditis elegans

Des constructions génétiques permettent l'expression in vivo des protéines de Caenorhabditis elegans. Ces protéines sont marquées par affinité par des sondes fluorescentes (voir : Sarov et al., 2012).

73% des protéines sont ensuite actuellement visualisables in vivo dans chaque type de compartiment à un moment donné de l'existence de Caenorhabditis elegans (figure ci-dessous).

Caenorhabditis elegans genome sequencing biochimej

Source : TransgeneOme

TransgeneOme : Une plateforme dédiée à Caenorhabditis elegans transgènique à l'échelle de son génome. Elle contient 16.000 constructions (fosmides) sur les 20.000 gènes codant des protéines.

Remarque : ce ver nématode est à l'origine de la description exacte du phénomène d'interférence ARN (RNAi) par Fire et Mello.

d. La domestication du chien

Cette domestication a été un épisode important dans le développement de la civilisation humaine. Cependant, la période et les lieux de cet événement ne sont pas encore clairement établis.

Par ailleurs, on connaît mal les changements génétiques qui ont accompagné la transformation des loups primitifs en chiens domestiques.

Un re-séquençage du génome entier du chien et du loup a permis d'identifier 3,8 millions de variants génétiques utilisés. Ces variants ont a leur tour permis d'identifier 36 régions du génome, probablement cibles de la sélection au cours de la domestication du chien (Axelsson et al., 2013).

19 régions contiennent des gènes importants dans le fonctionnement du cerveau, dont huit appartiennent à des voies de développement du système nerveux qui sous-tendent potentiellement les changements de comportement au cours de la domestication du chien.
10 gènes ayant des rôles clés dans la digestion de l'amidon et le métabolisme des acides gras montrent également des signaux de sélection.

Il est ainsi fort probable que les processus adaptatifs qui ont permis aux ancêtres du chien moderne de prospérer avec une alimentation riche en amidon (issus principalement des déchets des humains sédentarisés), par rapport à l'alimentation carnivore du loup, a constitué une étape cruciale dans la domestication du chien.

e. Le codage de l'information numérique dans de l'ADN

La production de ressources numériques, la transmission de données et leur stockage ont révolutionné notre vie moderne. Cependant, de manière parallèle, les tâches d'archivage actif et d'entretien en continu des médias numériques sont de plus en plus complexes.

La molécule d'ADN s'avère un support particulièrement attractif pour le stockage de l'information. C'est, peut-être, le support de l'avenir, du fait notamment de ses capacités d'encodage à haute densité de l'information et de sa longévité dans des conditions de conservation faciles à mettre en oeuvre.

Récemment, un éventail de formats de fichiers courants en informatique ont été codés sous la forme d'ADN (Goldman et al., 2013):

les 154 sonnets de Shakespeare : format texte ASCII
l'article original de Watson & Crick (structure de l'ADN) : format PDF
une photographie en couleur à une résolution moyenne : format JPEG 2000
un extrait de 26 secondes du discours de Martin Luther King en 1963 ("I have a dream") : format MP3
le code de Huffman utilisé pour convertir les octets en digits en base 3 : format texte ASCII
voir la partie "Supplementary information" de l'article de Goldman et al. (2013)

Soit un total de codage dans une molécule d'ADN de l'équivalent de 739 kilo-octets de stockage sur un disque dur avec un taux estimé d'informations de Shannon de 5.2 10⁶ bits.

Coding DNA sequencing information multimedia file format biochimej

L'ADN a été synthétisé, puis séquencé et les fichiers d'origine ont été reconstruits avec une précision de 100%.

L'analyse théorique indique que le stockage dans de l'ADN est :

une technologie d'archivage numérique à long terme réaliste
applicable à une échelle bien au-delà des volumes actuels de stockage de l'information
particulièrement intéressante du point de vue énergétique

Coding DNA sequencing information multimedia file format biochimej

f. Support de la théorie endosymbiotique

Les génomes nucléaires de 2 algues unicellulaires, remarquables par leur complexité génétique et cellulaire, ont été séquencés : la cryptophyte Guillardia theta et la chlorarachniophyte Bigelowiella natans.

Le transfert de gènes endosymbiotiques, c'est-à-dire le mouvement de l'ADN de l'endosymbiote vers l'hôte avant, pendant et après l'évolution d'un organite, a eu un rôle notable dans l'évolution des algues et de leurs génomes nucléaires.

Les plastes secondaires de ces algues (qui ont évolué indépendamment) sont uniques du fait qu'ils ont conservé un noyau "relique" de l'endosymbiote, appelé nucléomorphe. Les cellules des cryptophytes et des chlorarachniophytes ont ainsi 4 génomes et contiennent des systèmes sub-cellulaires complexes pour l'adressage des protéines et pour la coordination entre les compartiments.

Les algues Guillardia theta et Bigelowiella natans ont des plastes entourés par 4 membranes (figure ci-dessous).

Endosymbiosis endosymbiose nucleomorph genome sequencing algae algue biochimej

Source : Curtis et al. (2012)

Chez les cryptophytes, la membrane ultra-périphérique est en continuité de l'enveloppe nucléaire et sa surface est parsemée de ribosomes.

Entre les paires de membranes internes et externes se trouve le compartiment péri-plastidial (PPC), qui contient le nucléomorphe (NM).

Les chiffres indiquent le nombre estimé de gènes codant des protéines dans les génomes des plastes, des mitochondries (MT), du nucléomorphe et du noyau.

C : hydrates de carbone; PY : pyrénoïdes.

g. Les origines de l'espèce humaine : le séquençage du génome de l'homme de Neanderthal

Le premier brouillon du génome de l'homme de Neanderthal a été publié en 2010 par l'équipe de Svante Pääbo (Green et al. (2010) "A Draft Sequence of the Neandertal Genome" Science 328, 710 - 722).

En mars 2013, la même équipe du "Max Planck Institute for Evolutionary Anthropology" (Leipzig - Allemagne) a publié une séquence encore plus précise de ce génome. Il est issu d'un ADN extrait d'un os d'orteil découvert dans la grotte de Denisova en Sibérie du Sud en 2010.

Neanderthal sequencing genome biochimej

Source : Neanderthal genome project (2013)

Le séquençage a été effectué avec une plate-forme Illumina HiSeq : (i) il correspond à à une couverture moyenne du génome 50 fois supérieure à celle du brouillon de 2010; (ii) 99,9 % des 1.7 Gb des séquences d'ADN cartographiables de façon unique sont couvertes au moins 10 fois.

La conclusion phare est qu'il semblerait que, contrairement à ce que pensaient de nombreux chercheurs, des Néandertaliens et des hommes modernes se soient mélangés par le passé.

Cette conclusion est diamètralement opposée à celle formulée par la même équipe en 1997 qui était que "l'homme de Neandertal n'aurait pas contribué à notre patrimoine génétique et constitue une espèce distincte de la nôtre, sans métissage possible".

Il est à noter que le premier génome séquencé était celui de la mitochondrie, bien plus petit et donc moins riche en informations.

Outils pour l'analyse de l'ADN ancien (fossile)
Logiciel	Lien	Description
CASCADE	Available by contacting authors	LIMS for aDNA experimental workflow
PALEOMIX	https://paleomix.readthedocs.io/en/latest/	Read alignment and processing, phylogenomics
nf-core/EAGER	https://eager.readthedocs.io/en/latest/index.html https://github.com/nf-core/eager	Read alignment and processing
mapDamage2	https://ginolhac.github.io/mapDamage	Post-mortem DNA damage assessment
PMDtools	https://github.com/pontussk/PMDtools	Selection of reads showing signatures of post-mortem DNA damage
Schmutzi	https://grenaud.github.io/schmutzi/	Contamination estimates based on mitochondrial DNA data
DICE	https://github.com/grenaud/dice	Contamination estimates based on nuclear data
VerifyBamID	https://github.com/statgen/verifyBamID/releases	Identification of contamination and/or sample swaps
Gargammel	https://grenaud.github.io/gargammel/	aDNA read simulator
metaBIT	https://bitbucket.org/Glouvel/metabit/src/master/	Taxonomic profiling of (ancient) metagenomic data
HOPS	https://github.com/rhuebler/HOPS	Taxonomic profiling of (ancient) metagenomic data
MEx-IPA	https://github.com/jfy133/MEx-IPA	Interactive viewer of MALT taxonomic assignments
coproID	https://github.com/nf-core/coproid	Identification of the host sources of faecal material
epiPALEOMIX	https://bitbucket.org/khanghoj/epipaleomix/wiki/Home	Inference of aDNA methylation and nucleosome mapping
DamMet	https://github.com/KHanghoj/DamMet	Inference of aDNA methylation, accounting for DNA damage, sequencing and genotyping errors
ANGSD	http://www.popgen.dk/angsd/index.php/ANGSD	Variant identification, population genetics inference
ATLAS	https://bitbucket.org/wegmannlab/atlas/wiki/Home	Variant identification
ADMIXtools	https://github.com/DReichLab/AdmixTools	Population genetics inference
smartPCA	https://github.com/chrchang/eigensoft/wiki/smartpca	PCA and Procrustes PCA projection
bammds	https://savannah.nongnu.org/projects/bammds/	Multidimensional scaling
PCAngsd	http://www.popgen.dk/software/index.php/PCAngsd	PCA, admixture and selection signatures
DATES	https://github.com/priyamoorjani/DATES	Inference of admixture timing
LSD	https://bitbucket.org/plibrado/LSD/src	Selection signatures
GRoSS	https://github.com/FerRacimo/GRoSS	Selection signatures
ROHan	http://grenaud.github.io/ROHan/	Heterozygosity estimates and runs of homozygosity
hapROH	https://pypi.org/project/hapROH/	Inbreeding inference from low-coverage data
lcMLkin	https://github.com/COMBINE-lab/maximum-likelihood-relatedness-estimation	Kinship inference
READ	https://bitbucket.org/tguenther/read/src/master/	Kinship inference
SourceTracker	https://github.com/danknights/sourcetracker	Metagenomic authentication
Source : Orlando et al. (2021) "Ancient DNA analysis" Nat. Rev. Meth. Primers 1, Art. number 14

Quelques articles clé dans l'histoire du séquençage de l'ADN ancien
Article	Description
Poinar et al. (1998) Sciences 281, 402 - 406	Première application du séquençage d'ADN de nouvelle génération à des spécimens anciens (coproscopie moléculaire). Description de la nature métagénomique des vestiges paléontologiques ainsi que des données à l'échelle de la mégabase du génome du mammouth laineux.
Willerslev et al. (2003) Science 300, 791 - 795	Première analyse de l'ADN environnemental avant l'avènement du séquençage de l'ADN de nouvelle génération et établit la persistance à long terme de l'ADN des paléocommunautés dans les holocènes et pléistocènes.
Briggs et al. (2007) Proc. Natl Acad. Sci. 104, 14616 - 14621	Premier modèle statistique de dégradation post-mortem de l'ADN génomique de Néandertal. Impact sur les modèles de mésincorporation de nucléotides (base de critères importants pour l'authentification des données).
Rasmussen et al. (2010) Nature 463, 757 - 762	Premier génome humain séquencé à partir de la tige pilaire d'un Paléo-Inuit âgé de 4.000 ans. Preuves d'une discontinuité génétique avec les Groenlandais modernes, soutenant de multiples vagues de migration vers le Groenland arctique.
Green et al. (2010) Sciences 328, 710 - 722	Premier génome de Néandertal obtenu à partir d'extraits d'ADN de 3 os paléontologiques, établissant l'héritage génétique de Néandertal au sein des génomes humains modernes et décrivant d'importantes méthodologies au laboratoire qui ont façonné la décennie suivante de recherche sur l'ADN.
Reich et al. (2010) Nature 468, 1053 - 1060	Découverte des Denisoviens, lignée jusque-là inconnue d'hominidés archaïques qui vivaient dans le sud de la Sibérie il y a au moins 50.000 ans. Première description d'un représentant de l'arbre évolutif Homo à partir de données moléculaires et en absence de restes macro-fossiles présentant des caractéristiques morphologiques claires.
Bos et al. (2011) Nature 478, 506 - 510	Premier génome complet d'un ancien agent pathogène bactérien (Yersinia pestis) à partir d'os humains d'individus morts de la peste noire (1347-1348).
Meyer et al. (2012) Sciences 338, 222 - 226	Premier génome de haute qualité d'un hominidé archaïque et première procédure expérimentale pour la préparation d'une banque d'ADN à partir de matrices d'ADN simple brin. L'approche surpasse les autres technologies de l'époque en termes de sensibilité et de complexité et minimise la perte de molécules d'ADN authentiques.
Orlando et al. (2013) Nature 499, 74 - 78	Plus ancien génome séquencé à ce jour, d'un métapode de cheval conservé dans le pergélisol (âge 780.000 à 560.000 ans).
Fu et al. (2013) Proc. Natl Acad. Sci. 110, 2223 - 2227	Première application de l'enrichissement de cibles en solution à l'échelle du génome. Analyse de la séquence d'un chromosome complet d'un humain anatomiquement moderne de 40.000 ans de Chine (grotte de Tianyuan).
Dabney et al. (2013) Proc. Natl Acad. Sci. 110, 15758 - 15763	Nouvelle méthode d'extraction d'ADN à partir de restes osseux anciens adaptée à la nature ultracourte et largement endommagée des molécules d'ancien ADN. Cette méthodologie a permis de récupérer des séquences complètes du génome mitochondrial de spécimens d'ours des cavernes vieux de 300.000 ans (Pléistocène moyen) à Atapuerca (Espagne).
Warinner et al. (2014) Nat. Genet. 46, 336 - 344	Première analyse métagénomique et paléoprotéomique de la plaque dentaire ancienne. Démontration de la préservation des signatures microbiennes orales, du contenu alimentaire et de marqueurs d'inflammation.
Pedersen et al. (2014) Genome Res. 24, 454 - 466	Premier rapport d'épigénomes anciens (Paléo-Inuitde 4.000 ans), tirant parti des signatures de dégradation de l'ADN post-mortem pour déduire statistiquement la méthylation de l'ADN et le positionnement des nucléosomes.
Rohland et al. (2015) Philos. Trans. R. Soc. Londres. B Biol. Sci. 370, 20130624	Première méthode (traitement partiel à l'uracile-ADN-glycosylase) de préparation de bibliothèques d'ADN compatible avec une automatisation complète. Description de diverses approches pour authentifier les données tout en minimisant l'impact de la mauvaise incorporation d'ADN post-mortem sur les analyses subséquentes.
ADN ancien : fragments d'ADN ultracourts et dégradés qui sont conservés dans des matériaux subfossiles, y compris dans les tissus durs (exemples : os, dents, coquillages) et dans les tissus mous (exemple : peau momifiée, cheveux momifiés) et dans les sédiments. Voir la carte des sites de fouilles et de découvertes : "Ancient Human DNA uMap" Lessivage stratigraphique : migration de l'ADN au travers des strates de sédiments causée par le mouvement de l'eau, la croissance de micro-organismes ou la bioturbation. Elle compromet la fiabilité de la stratigraphie : l'ordre, la position et l'âge des couches géologiques formées par les différents amas de sédiments.
Source : Orlando et al. (2021)

h. Reconstitution de la domestication des agrumes comestibles

La production des agrumes comestibles représentait 9 milliards de dollars en 2012.

Les premiers agrumes comestibles ont été cultivés il y a plusieurs milliers d'années en asie du sud-est mais les voies qu'ont suivies les différentes variétés cultivées actuellement ont été perdues. La très faible diversité génétique des agrumes comestibles les rend très vulnérables à diverses maladies.

Le séquençage de plusieurs génomes de mandarine/clémentine, d'orange et de pamplemousse et la comparaison de ces génomes (synténie - ancêtre eudicotyledon hexaploïde) permettent d'établir des stratégies pour améliorer la résistance des agrumes modernes (Wu et al. (2014) Nature Biotech. 32, 656-62).

- Phytozome v.10 : "High-quality reference genome from a haploid derivative of Clementine mandarin (C. x clementina cv. Clemenules)"
- ICGC : International Citrus Genome Consortium

8. Etude des éléments de la régulation de la transcription - Structure de la chromatine et épigénomique

Chromatine = ADN + protéine (histones et non-histone) + ARN. Les chromosomes en métaphase représentent le degré le plus élevé de compaction de la chromatine.

Voir un cours sur l'épigénétique (modifications de l'ADN et des histones).

L'accessibilité des protéines (facteurs de transcription et de régulation de la transcription) dépend de la compacité de la chromatine. Le contrôle de la structure de la chromatine est donc un autre mode de contrôle de la transcription des gènes.

De très nombreuses technologies sont développées pour :

étudier des parties très spécifiques des génomes et des éléments de régulation de la transcription
étudier les divers produits de la transcription des gènes
l'épigénomique (ensemble des facteurs épigénétiques) qui est l'étude des modifications de la chromatine qui régulent la transcription des gènes sans que la séquence de l'ADN ne soit altérée. On peut citer : la méthylation de l'ADN (CPG), les modifications post-traductionnelles des histones, la fixation des protéines de régulation sur la chromatine, ...

Figure ci-dessous : Techniques de traitement des acides nucléiques avant séquençage pour l'analyse de parties spécifiques des génomes.

Methods ENCODE sequencage next-generation high-throughput DNA sequencing technologies biochimej

Source : ENCODE

Par exemple :

l'hétérochromatine : les régions riches en nucléosomes (complexe ADN - histones)
l'euchromatine : les régions pauves en nucléosomes

Eléments du génome cartographiées	Techniques utilisées
Régions transcrites en ARN	RNA-seq / CAGE / RNA-PET / annotation manuelle
Régions codant des protéines	Spectromètrie de masse
Sites de fixation des facteurs de transcription	ChIP-seq / DNase-seq
Structure de la chromatine	DNase-seq / FAIRE-seq / Histone ChIP-seq / MNase-seq
Sites de méthylation de l'ADN	RRBS
Le développement de nouvelles technologies permet l'étude du chromosome interactome et des interactions chromatine-chromatine à longue distance in vivo : "Chromosome Conformation Capture" (3C) "Circularized Chromosome Conformation Capture" ou "Chromosome conformation capture-on-chip" (4C) "Carbon-Copy Chromosome Conformation Capture" (5C) ChIA-PET Hi-C ...	Source : de Wit & de Laat (2012)
Définitions des acronymes de ces nouvelles technologies RNA-seq : RNA sequencing (voir ci-dessous) CAGE : Cap Analysis Gene Expression PET : Paired-End Tags / technologies : RNA-PET, DNA-PET, ChIP-PET, ChIA-PET ChIA-PET : Chromatin Interaction Analysis by Paired-End Tag Sequencing ChIP-seq : Chromatin ImmunoPrecipitation sequencing (base de données ChIPBase) DNase-seq : DNase I hypersensitive sites sequencing FAIRE-seq : Formaldehyde-Assisted Isolation of Regulatory Elements sequencing MNase-seq : Micrococcal nuclease digestion followed by sequencing MAINE-seq : MNase-Assisted Isolation of Nucleosomes sequencing (purification of mononucleosomes to extract histone-bound DNA) Epigénomique : techniques utilisant la méthylation de l'ADN ("DNA methylation") : RRBS : Reduced Representation Bisulfite Sequencing - analyse au niveau d'un seul nucléotide MeDIP-seq : Methylated DNA ImmunoPrecipitation sequencing - anticorps dirigé contre la 5-méthylcytosine MethylCap-seq : Methylated DNA Capture by affinity purification sequencing - capture des fragments d'ADN méthylés via leurs domaines de fixation CpG méthylés "Infinium Human Methylation27 BeadChip" puis "Infinium Human Methylation450 BeadChip® (HumanMethylation 450K)" (Illumina) : étude de 480.000 sites CpG méthylés (sur environ 28 millions) du méthylome humain ChIPBase : base de données et plate-forme pour le décodage des cartes de liaison, des facteurs de transcription, des profils d'expression, de la régulation de la transcription de longs ARN non codants ("long non-coding RNAs" : lncRNAs, lincRNAs), de microRNA et autres ARN non codant (snoRNAs, tRNAs, snRNAs, ...) et des gènes codant des protéines.

Appellations et acronymes de techniques de séquençage issues des NGS
RNA Transcription	RNA Structure
Chromatin Isolation by RNA Purification (ChIRP-Seq) Global Run-on Sequencing (GRO-Seq) Ribosome Profiling Sequencing (Ribo-Seq)/ARTseq™ RNA Immunoprecipitation Sequencing (RIP-Seq) High-Throughput Sequencing of CLIP cDNA library (HITS-CLIP) Crosslinking and Immunoprecipitation Sequencing (CLIP-Seq) Photoactivatable Ribonucleoside–Enhanced Crosslinking and Immunoprecipitation (PAR-CLIP) Individual Nucleotide Resolution CLIP (iCLIP) Native Elongating Transcript Sequencing (NET-Seq) Targeted Purification of Polysomal mRNA (TRAP-Seq) Crosslinking, Ligation, and Sequencing of Hybrids (CLASH-Seq) Parallel Analysis of RNA Ends Sequencing (PARE-Seq) Genome-Wide Mapping of Uncapped Transcripts (GMUCT) Transcript Isoform Sequencing (TIF-Seq) Paired-End Analysis of TSSs (PEAT)	Selective 2'-Hydroxyl Acylation Analyzed by Primer Extension Sequencing (SHAPE-Seq) Parallel Analysis of RNA Structure (PARS-Seq) Fragmentation Sequencing (FRAG-Seq) CXXC Affinity Purification Sequencing (CAP-Seq) Alkaline Phosphatase, Calf Intestine-Tobacco Acid Pyrophosphatase Sequencing (CIP-TAP) Inosine Chemical Erasing Sequencing (ICE) m6A-Specific Methylated RNA Immunoprecipitation Sequencing (MeRIP-Seq)
Low-Level RNA Detection	Low-Level DNA Detection
Digital RNA Sequencing Whole-Transcript Amplification for Single Cells (Quartz-Seq) Designed Primer–Based RNA Sequencing (DP-Seq) Switch Mechanism at the 5' End of RNA Templates (Smart-Seq) Unique Molecular Identifiers (UMI) Cell Expression by Linear Amplification Sequencing (CEL-Seq) Single-Cell Tagged Reverse Transcription Sequencing (STRT-Seq)	Single-Molecule Molecular Inversion Probes (smMIP) Multiple Displacement Amplification (MDA) Multiple Annealing and Looping–Based Amplification Cycles (MALBAC) Oligonucleotide-Selective Sequencing (OS-Seq) Duplex Sequencing (Duplex-Seq)
DNA Methylation	DNA-Protein Interactions
Bisulfite Sequencing (BS-Seq) Post-Bisulfite Adapter Tagging (PBAT) Tagmentation-Based Whole Genome Bisulfite Sequencing (T-WGBS) Oxidative Bisulfite Sequencing (oxBS-Seq) Tet-Assisted Bisulfite Sequencing (TAB-Seq) Methylated DNA Immunoprecipitation Sequencing (MeDIP-Seq) Methylation-Capture (MethylCap) Sequencing Methyl-Binding-Domain–Capture (MBDCap) Sequencing 79 Reduced-Representation Bisulfite Sequencing (RRBS-Seq)	DNase l Hypersensitive Sites Sequencing (DNase-Seq) MNase-Assisted Isolation of Nucleosomes Sequencing (MAINE-Seq) Chromatin Immunoprecipitation Sequencing (ChIP-Seq) Formaldehyde-Assisted Isolation of Regulatory Elements (FAIRE-Seq) Assay for Transposase-Accessible Chromatin Sequencing (ATAC-Seq) Chromatin Interaction Analysis by Paired-End Tag Sequencing (ChIA-PET) Chromatin Conformation Capture (Hi-C/3C-Seq) Circular Chromatin Conformation Capture (4-C or 4C-Seq) Chromatin Conformation Capture Carbon Copy (5-C)
Source : Illumina - publications-reviews

10. Séquençage du transcriptome : méthode "RNA-seq"

C'est une technologie récente et assez complexe. Des centaines de millions de fragments trés courts (quelques dizaines de nucléotides) sont générés et séquencés ("ultra high-throughput short reads").

Quelques avantages de la méthode "RNA-seq"

Procole simplifié de construction des banques.
Extrême sensibilité : 10 à 100 fois plus élevée que les puces à ADN.
Résolution à la base près : les fragments séquencés sont trés courts (quelques dizaines de nucléotides), leur nombre est énorme (plusieurs millions) et ils se chevauchent. Cette technique permet donc (entre autres) :
1. l'analyse de régions ayant de fortes homologies (séquences répétées par exemple), de SNP.
2. l'analyse des bordures d'exons, des profils d'épissage alternatif et l'étude d'isoformes de protéines (voir "Les frontières intron-exon" ci-dessous).

Cette technique permet :

de quantifier les ARN
de détecter des ARN rares et de mettre en évidence des régions dont on ne savait pas au préalable qu'elles sont transcrites.
la découverte de petits ARN ("small RNAs" : snRNA, snoRNA, siRNA, miRNA, piRNA ("Piwi-interacting RNAs"), ...) de faible taille (20 - 30 nucléotides)
d'étudier l'implication des lncRNA ("long non-coding RNA") dans divers mécanismes de régulation (exemple : les modifications épigénétiques)

type petit ARN small RNA snRNA snoRNA siRNA miRNA piRNA lncRNA long non coding biochimej

Source : Buckingham (2003)

type petit ARN small RNA snRNA snoRNA siRNA miRNA piRNA lncRNA long non coding biochimej

Source : Amin et al. (2019)

Cette technique procure des informations issues de la comparaison avec des génomes complets.

Il n'est pas nécessaire d'avoir des connaissances sur le génome étudié. Cependant, si l'on dispose de génomes de "référence", c'est une méthode de choix pour améliorer sensiblement leur annotation.

Sequence consensus pre-mRNA spliceosome RNA seq protocole biochimej

Les difficultés d'assemblage des lectures et de reconstruction des transcrits pleine longueur sont les suivantes (liste non exhaustive) :

l'existence ou non d'un génome de référence (annoté ou pas)
la qualité des séquences (le taux d'erreur de séquençage - "sequencing error rates")
la différence de taux de transcription des gènes donc la différence du nombre de copie des transcrits
la conséquence des deux précédents peut-être un nombre élevé de séquences incorrectes (un transcrit fortement exprimé avec des erreurs de séquençage) et un petit nombre de séquences correctes (un transcrit faiblement exprimé sans erreur de séquençage)
les transcrits codés par des loci adjacents peuvent se chevaucher et peuvent être fusionnés en un transcrit chimérique erroné
la structure des données de séquençage doit autoriser plusieurs transcrits par locus en raison de l'épissage alternatif
des séquences qui sont répétées dans différents gènes sont source d'ambiguïté

Les nouvelles technologies de séquençage ont permis d'établir que la méthylation du transcriptome (épitranscriptome) est un processus quasi général au même titre que la méthylation du génome (épigénome).

Voir un cours sur l'épigénétique.

a. Méthodes pour l'assemblage des lectures

Les approches de type "Mapping-first"		Les approches de type "Assembly-first (de novo)"
Elles alignent d'abord toutes les lectures par rapport à un génome de référence (non annoté) puis assemblent les séquences (alignements de séquences chevauchantes) et enfin essayent de couvrir les bordures d'épissage alternatif avec les lectures de type "single-end sequencing / paired-end sequencing".		Elles utilisent les lectures pour assembler les séquences des transcrits qui seront ensuite positionnés sur un génome de référence (s'il en existe un).
Ces approches ont, en principe, une sensibilité maximale mais dépendent de l'alignement correct [lectures - génome de référence] qui est compliqué du fait de l'épissage alternatif, des erreurs de séquençage et de l'absence de génomes de référence dans de nombreux cas.		Ces approches ne nécessitent pas d'alignement [lectures - génome de référence], point capital si on ne dispose pas de génome de référence, ou si celui-ci contient beaucoup de gap ou s'il est très fragmenté ou s'il est modifié de façon substantielle.
Exemples de logiciels : Scripture Cufflinks		Exemples de logiciels : Trans-ABySS Velvet-Oases SOAP denovo Trinity programme STAR ("Spliced Transcripts Alignment to a Reference")
Autres moyens bioinformatiques site web avec des applications de visualisation ("mapper") et d'annotation. Exemple : TopHat : "a fast splice junction mapper for RNA-Seq reads". base de données TSA : "Transcriptome Shotgun Assembly Database" base de données SRA : "The Sequence Read Archive stores raw sequencing data from the next generation of sequencing platforms". programmation par contraintes : CLASS ("Constraint-based Local Assembly and Selection of Splice variants") Voir une liste très complète des ressources logicielles pour l'analyse des données RNA-seq. 3 types de formats de fichiers sont couramment utilisés : FASTQ : format basé sur du texte pour stocker une séquence biologique (généralement la séquence nucléotidique) et des scores de qualité liés à cette séquence (les 2 sont codés par des caractères ASCII sur plusieurs lignes - exemple : la ligne 1 commence avec le caractère @). C'est le fichier de données brutes issues du séquenceur. SAM ("Sequence Alignment/Map") : format basé sur du texte délimité avec une section en-tête (facultative) et une section alignement. (Voir les spécifications samtools/hts-specs). BAM : codage binaire du ficher SAM correspondant. GTF ("Gene Transfer Format") : format basé sur du texte délimité par des tabulations et des champs. Ce format est utilisé par beaucoup de logiciels pour décrire la structure des transcrits (introns, exons, sites de démarrage, UTR, ...) et le lien entre les transcrits et le gène auquel ils sont associés.

La qualité des assemblages

Définition de RPKM

Elle est mesurée par la taille et la précision de leurs contigs. La taille d'un assemblage est corrélée à des valeurs statistiques : la longueur maximale, la longueur moyenne, la longueur totale combinée et la valeur du contig N50.

Le contig N50 est la longueur du plus petit contig dans l'ensemble qui contient le moins de contigs (donc l'ensemble qui contient les contigs les plus grands) et dont la longueur combinée de ces contigs représente au moins 50% de l'assemblage.

RPKM : "Reads Per Kilobase of exon model per Million fragments mapped" = C . 10⁹ / [N x L]

avec :

C = nombre de lectures positionnées sur les séquences des exons d'un gène
N = nombre total de lectures positionnées issues de l'expérience
L = taille de la somme des exons en paires de base

Mortazavi et al. (2008) "Mapping and quantifying mammalian transcriptomes by RNA-Seq" Nat. Meth. 5, 621-628

b. Caractéristiques des bordures exon-intron ("exon-intron borders")

Voir un cours sur l'épissage des ARN messager et le spliceosome.

La plupart des introns commencent par la séquence consensus 5'-GU et finissent par la séquence consensus AG-3'. Ces séquences sont appelés respectivement "site donneur lors de l'épissage" et "site accepteur lors de l'épissage" ("splice donor site" et "splice acceptor site").

Il existe en général une région riche en nucléotides pyrimidiques (C et U) en amont du site AG.

Figure ci-dessous : Séquences consensus de pré-ARNm subissant un épissage.

Sequence consensus pre-mRNA spliceosome biochimej

Légende : BPS : "branch point sequence"; 5'SS : "5' splicing site"; 3'SS : "3' splicing site"; N : n'importe quel nucléotide; R : une purine; Y : une pyrimidine

En amont de cette région se trouve le "point de branchement" ("branch point") qui contient toujours une adénine, mais qui par ailleurs est faiblement conservée.
Exemple d'une séquence typique : YNYYRAY où Y est une pyrimidine (C ou U), N n'importe quel nucléotide, R est une purine (G ou A) et A est l'adenine.

Dans 60% des cas, l'extrémité de la séquence de l'exon situé en 5' (site donneur) est (A/C)AG et l'extrémité de la séquence de l'exon situé en 3' (site accepteur) est G (voire A).

Sequences consensus frontiere intron exon border biochimej

Source : "RNA sequence analysis tools"

c. Méthodes pour la reconstruction des transcrits

Les logiciels d'alignement de lectures dans des régions non épissées ("unspliced reads aligner").

Ils sont utilisés pour aligner les lectures avec un transcriptome de référence ou un génome de référence.

Les logiciels d'alignement de lectures dans des régions épissées ("spliced reads aligner").

Ils sont utilisés pour aligner les lectures avec un génome de référence.

Ces lectures peuvent enjamber des introns et nécessitent l'introduction de grands gaps.

Il existe 2 principaux types de méthodes :

- la méthode "seed" (exemple de logiciel : Stampy) : aligne de courtes sous-séquences ("seed" - points d'ancrage) de chaque lecture avec une référence, nécessitant une concordance parfaite ("perfect matches") de tous les nucléotides de ces sous-séquences.

- la méthode Burrows-Wheeler (exemple de logiciel : Bowtie) : elle réorganise les caractères dans une séquence, permettant une meilleure compression des données et ainsi d'utiliser moins de capacité mémoire lors de l'alignement des lectures sur un génome.

La méthode Burrows-Wheeler crée un index de la séquence de référence et recherche des correspondances parfaites. Les discordances ("mismatches") sont autorisées mais s'accompagnent d'une augmentation exponentielle de la complexité du calcul.

La méthode Burrows-Wheeler est plus rapide mais moins sensible que la méthode "seed".

Les logiciels de ce type placent les lectures qui enjambent les jonctions d'épissage en les fractionnant en segments plus petits. Puis ils déterminent la meilleure correspondance (théorique) sur la base de scores d'alignement et de signaux consensus d'épissage (di-nucléotides consensus 5'-GU et AG-3').

Il existe 2 principaux types de méthodes :

- la méthode "exon-first" (exemple : logiciel TopHat) : elle cartographie l'ensemble des lectures sur le génome avec une méthode du type "unspliced read aligners", puis elle recherche des alignements dans les zones d'épissage avec les lectures non cartographiées.

- la méthode "seed-and-extend" (exemple : logiciel GSNAP) : c'est une stratégie d'alignement qui construit d'abord une table de hachage contenant l'emplacement de chaque k-mer ("seed" - point d'ancrage) sur le génome de référence. Ces algorithmes étendent ensuite ces point d'ancrage dans les deux directions pour trouver le ou les meilleur(s) alignement(s) pour chaque lecture.

La méthode "seed-and-extend" est plus lente mais plus sensible.

Figure ci-dessous : exemple de suite logicielle ("pipeline") pour l'analyse RNA-seq.

Sequence consensus pre-mRNA spliceosome biochimej

Bowtie : alignement des lectures via l'algorithme de Burrows - Wheeler (permutation réversible de caractères dans un texte) - voir article
TopHat : recherche de jonctions d'épissage alternatif potentielles et donc de différentes isoformes de transcrits (combinaison d'exons) - voir article
Cufflinks : mesure de l'expression d'isoformes de transcrits (assemblage / estimation de l'abondance des transcrits / mesure des différences d'expression) - voir article
CummeRbund : script R pour l'analyse et la visualisation

Voir une liste (impressionnante) de logiciels dédiés à l'analyse des résultats RNA-seq.

Principe (très simplifié) de la reconstruction des transcrits avec des graphes de type de Bruijn

Dans ce type de graphe, un nœud est défini par une séquence de nucléotides d'une longueur k fixe (appelée "k-mer"). Cette longueur k est beaucoup plus courte que la longueur d'une lecture. Les noeuds sont reliés par des arêtes si les noeuds se chevauchent parfaitement sur (k-1) nucléotides. Chaque nœud est relié à un nœud "jumeau" qui est la série inverse des séquences complémentaires des "k-mer". Cela permet de prendre en compte le chevauchement entre les lectures de brins opposés.

Cette représentation compacte permet d'énumérer toutes les solutions par lesquelles les séquences des transcrits peuvent être reconstruites : pour l'assemblage du transcriptome, chaque chemin dans le graphe représente un transcrit possible.

Avenir des méthodes d'assemblages de courts fragments

Ces méthodes sont conceptuellement, intellectuellement importantes.
Cependant, elles seront obsolètes au fur et à mesure des avancées des technologies de séquençage de très longs fragments ne nécessitant plus (ou peu) d'assemblage.

11. Liens Internet et références bibliographiques

"Précis de génomique" - Gibson & Muse (2004) - Ed. De Boeck Université - ISBN : 2-8041-4334-1

Méthode de séquençage de F. Sanger

Sanger et al. (1977) "DNA sequencing with chain-terminating inhibitors" Proc. Natl Acad. Sci. USA 74, 5463 - 5467

Film (format QuickTime) : "Dideoxy Sequencing of DNA"

Voir l'animation : "Sanger sequencing"

Article

Aller au site

ENCODE

ENCODE : The Encyclopedia of DNA Elements
The ENCODE Project Consortium (2011) "A User's Guide to the Encyclopedia of DNA Elements (ENCODE)" PLoS Biol 9, e1001046
The ENCODE project Consortium (2012) "An integrated encyclopedia of DNA elements in the human genome" Nature 489, 57 - 74
Mouse ENCODE Consortium (2012) "An encyclopedia of mouse DNA elements (Mouse ENCODE)" Genome Biol. 13, 418

ENCODE
Article
Article
Article

Le séquençage des génomes - Université Jussieu

Génoscope : Questions fréquemment posées à propos du génome humain.

"DNA Sequencing Costs : Data from the NHGRI Large-Scale Genome Sequencing Program"

"Transcriptome Shotgun Assembly (TSA) Database"

DNAmod : base de données de modifications chimiques de l'ADN

RMbase : base de données de séquençage d'épitranscriptomes - analyse des modifications post-transcriptionnelles des ARN

Quelques articles en relation avec les nouvelles technologies de séquençage

Brenner et al. (2000) "Gene expression analysis by massively parallel signature sequencing (MPSS) on microbead arrays" Nat.Biotechnol. 18, 630-634
Hanna et al. (2000) "Comparison of sequencing by hybridization and cycle sequencing for genotyping of human immunodeficiency virus type 1 reverse transcriptase" J. Clinic. Microbiol. 38, 2715 - 2721
Drmanac et al. (2002) "Sequencing by hybridization (SBH): advantages, achievements, and opportunities" Adv. Biochem. Eng. Biotechnol.77, 75 - 101
Margulies et al. (2005) "Genome Sequencing in Open Microfabricated High Density Picoliter Reactors" Nature 437, 376 - 380
Edwards et al. (2005) "Mass-spectrometry DNA sequencing". Mutation Research 573, 3 - 12
Weber et al. (2007) "Sampling the Arabidopsis transcriptome with massively parallel pyrosequencing" Plant Physiol. 144, 32 - 42
Morozova & Marra (2008) "Applications of next-generation sequencing technologies in functional genomics" Genomics 92, 255 - 264
Cloonan et al. (2008) "Stem cell transcriptome profiling via massive-scale mRNA sequencing" Nature Methods 5, 613 - 619
Zerbino & Birney (2008) "Velvet: Algorithms for de novo short read assembly using de Bruijn graphs" Genome Res. 18, 821 - 829
Lieberman-Aiden et al. (2009) "Comprehensive mapping of long-range interactions reveals folding principles of the human genome" Science 326, 289 - 293
Metzker M. (2010) "Sequencing technologies — the next generation" Nature Rev. Genet. 11, 31-46
Li & Homer (2010) "A survey of sequence alignment algorithms for next-generation sequencing" Brief. Bioinform. 11, 473 - 483
Suzuki et al. (2011) "Comparison of Sequence Reads Obtained from Three Next-Generation Sequencing Platforms" PLoS ONE 6, e19534
Glenn, T.V. (2011) "Field guide to next-generation DNA sequencers" Molec. Ecol. Res. 11, 759 - 769
Rothberg et al. (2011) "An integrated semiconductor device enabling non-optical genome sequencing" Nature 475, 348 - 352
de Wit & de Laat (2012) "A decade of 3C technologies: insights into nuclear organization" Genes Dev. 26, 11 - 24
Machida & Knowlton (2012) "Ways to mix multiple PCR amplicons into single 454 run for DNA barcoding" Meth. Mol. Biol. 858, 355 - 361
Rusk, N. (2013) "Disruptive nanopores" Nature Meth. 10, 35

La méthode "Massively parallel signature sequencing" - MPSS - Brenner et al. (2000)

Une séquence signature de 16 à 20 pb (en moyenne 17 pb) fixée à une bille est séquencée / identifiée. Cette identification est effectuée en parallèle sur des centaines de milliers de billes et environ 1 million de signatures sont obtenues par expérience. Voir une animation décrivant cette technique.

Caractéristiques de cette technique :

détection de quasiment tous les génes exprimés dans un tissus, même ceux dont le niveau d'expression est faible
détection de "petits" ARN ("small RNAs" : snRNA, snoRNA, siRNA ("small interfering RNA"), miRNA, piRNA, ...) de faible taille (20 - 30 nucléotides)
mesure fine du niveau d'expression via un comptage précis et non biaisé des ARN messagers d'un tissus

Application à Arabidopsis

Article : Meyers et al. (2004) "The Use of MPSS for Whole-Genome Transcriptional Analysis in Arabidopsis" Genome Res. 14, 1641-1653
Base de données "Arabidopsis MPSS Plus database". Voir un tuteur pour l'utilisation de cette base de données.

Smith et al. (1986) "Fluorescence detection in automated DNA sequencing" Nature 321, 674 - 679

Ronaghi et al. (1998) "A sequencing method based on real-time pyrophosphate" Science 281, 363 - 365

Ahmadian et al. (2006) "Pyrosequencing: History, biochemistry and future" Clinica Chimica Acta 363, 83 - 94

Edwards & Batley (2010) "Plant genome sequencing: applications for crop improvement" Plant Biotechnol. J. 8, 2 - 9

Sboner et al. (2011) "The real cost of sequencing: higher than you think" Genome Biology 12, 125

Article

Biotage

Article

Wang et al. (2012) "TILLING in extremis" Plant Biotechnol. J. 10, 761 - 772

Sarov et al. (2012) "A Genome-Scale Resource for In Vivo Tag-Based Protein Function Exploration in C. elegans" Cell 150, 855 - 866

Lu et al. (2012) "Effective driving force applied on DNA inside a solid-state nanopore" Phys. Rev. E 86, 01192-1 - 01192-8

Vlassarev & Golovchenko (2012) "Trapping DNA near a Solid-State Nanopore" Biophysical J. 103, 352 - 356

Article

Curtis et al. (2012) "Algal genomes reveal evolutionary mosaicism and the fate of nucleomorphs" Nature 492, 59 - 65

Axelsson et al. (2013) "The genomic signature of dog domestication reveals adaptation to a starch-rich diet" Nature 495, 360–364

Goldman et al. (2013) "Towards practical, high-capacity, low-maintenance information storage in synthesized DNA" Nature 494, 77 - 80

Green et al. (2010) "A Draft Sequence of the Neandertal Genome" Science 328, 710 - 722

Article

Bock et al. (2010) "Genome-wide mapping of DNA methylation: a quantitative technology comparison" Nat. Biotechnol. 28, 1106 - 1114

Manrao et al. (2012) "Reading DNA at single-nucleotide resolution with a mutant MspA nanopore and phi29 DNA polymerase" Nat. Biotechnol. 30, 349 - 353

Shendure & Aiden (2012) "The expanding scope of DNA sequencing" Nature Biotech. 30, 1084–1094

Article

Ramaswami et al. (2013) "Identifying RNA editing sites using RNA sequencing data alone" Nature Meth. 10, 128 - 13

Hoque et al. (2013) "Analysis of alternative cleavage and polyadenylation by 3' region extraction and deep sequencing" Nature Meth. 10, 133 - 139

Benjamin et al. (2014) "Comparing reference-based RNA-Seq mapping methods for non-human primate data" BMC Genomics 15, 570

Article

Quick et al. (2016) "Real-time, portable genome sequencing for Ebola surveillance" Nature 530, 228 - 232

Lek et al. (2016) "Analysis of protein-coding genetic variation in 60,706 humans" Nature 536, 285 291

Shendure et al. (2017) "DNA sequencing at 40: past, present and future" Nature 550, 345 - 353

Article

Jain et al. (2018) "Nanopore sequencing and assembly of a human genome with ultra-long reads" Nat. Biotechnol. 36, 338 - 345

Omenn et al. (2018) "Progress on Identifying and Characterizing the Human Proteome: 2018 Metrics from the HUPO Human Proteome Project" J. Proteome Res. 17, 4031 - 4041

Noakes et al. (2019) "Increasing the accuracy of nanopore DNA sequencing using a time-varying cross membrane voltage" Nat. Biotechnol. 37, 651 - 656

Amin et al. (2019) "Evaluation of deep learning in non-coding RNA classification" Nat. Machine Intell. 1 246 - 256

Article

Zahn-Zabal et al. (2020) "The neXtProt knowledgebase in 2020: data, tools and usability improvements" Nucleic Acids Res. 48, D328 - D334

Carr et al. (2020) "Nanopore Sequencing at Mars, Europa and Microgravity Conditions" NPJ Microgravity 6, 24

ICGC/TCGA PCAWG Consortium (2020) "Pan-cancer analysis of whole genomes" Nature 578, 82 - 93

Article

Nurk et al. (2021) "The complete sequence of a human genome" biorxiv

Orlando et al. (2021) "Ancient DNA analysis" Nat. Rev. Meth. Primers 1, Art. number 14

Wang et al. (2021) "Nanopore sequencing technology, bioinformatics and applications" Nat. Biotechnol. 39, 1348 - 1365

Lucas & Novoa (2023) "Long-read sequencing in the era of epigenomics and epitranscriptomics" Nat. Methods 20, 25 - 29

Article