Génomique : les méthodes de séquençage d'acides nucléiques et l'acquisition des données
Flux RSS

 

1. Introduction

a. Deux types de molécules support de la bioinformation : les acides nucléiques et les protéines

b. "Préhistoire" du séquençage et séquençage dans l'espace

2. Détermination des séquences de nucléotides

a. Méthode historique de Fréderick Sanger

b. La technique de séquençage avec des didésoxyribonucléotides fluorescents

3. Méthode du pyroséquençage

4. Stratégies initiales de séquençage des génomes : méthode hiérarchique vs. méthode en "vrac"

5. Les contigs et l'assemblage, les trous, l'appel de base

6. Les nouvelles technologies de séquençage à trés haut débit ("next-generation high-throughput DNA sequencing technologies" - NGST ou NGS)

a. Introduction

 

b. Caractéristiques élémentaires des NGS

c. Les technologies NGS et les entreprises actuelles

d. Les technologies NGS en développement et à venir

e. Le côut des séquençages

7. Quelques exemples d'apports du séquençage

8. Etude des éléments de la régulation de la transcription - Structure de la chromatine et épigénomique

9. Epigénétique - modifications de l'ADN et des histones

10. Séquençage du transcriptome - RNAseq

a. Méthodes pour l'assemblage des lectures

b. Caractéristiques des bordures exon-intron ("exon-intron borders")

c. Méthodes pour la reconstruction des transcrits

11. Liens Internet et références bibliographiques

 

1. Introduction

a. Deux types de molécules support de la bioinformation : les acides nucléiques et les protéines

Le "matériaux de base" de la génomique et de la protéomique est la séquence : l'enchaînement ordonné et orienté de nucléotides (acides nucléiques) ou d'acides aminés (protéines).

ADN : Acide DésoxyriboNucléique

  • macromolécule : chaîne nucléotidique
  • constituée par un enchaînement d'unités élémentaires : les désoxyribonucléotides
  • forme de stockage de l'information génétique. Cette information est représentée par une suite linéaire de gènes
  • formée de deux brins complémentaires enroulés en double hélice ce qui lui permet de se dupliquer en deux molécules identiques entre elles et identiques à la molécule mère

On distingue :

  • l'ADN du génome du noyau
  • l'ADN du génome mitochondrial
  • l'ADN du génome chloroplastique

 

 

 

ARN : Acide RiboNucléiques

  • macromolécule : chaîne nucléotidique
  • constitués par un enchaînement d'unités élémentaires : les ribonucléotides
  • forme qui permet de transférer et de traiter l'information dans la cellule
  • le plus souvent formé d'un simple brin

On distingue :

  • les ARN messagers ou ARNm : ils sont transcrits à partir d'un gène (ADN). Ils sont ensuite traduits en protéines.
  • les ARN de transfert
  • les ARN ribosomaux
  • les ARN nucléaires
  • les divers "petits" ARN non codants
 

Protéines

  • constituées par un enchaînement d'unités élémentaires : les acides aminés
  • l'ensemble des protéines assurent les principales fonctions cellulaires
  • se replient sur elles-mêmes et adoptent une conformation ou structure particulière dans l'espace. Cette structure tridimensionnelle est à l'origine de la fonction des protéines et de leur spécificité de cette fonction.

Les chaînes nucléotidiques possèdent 2 extrémités distinctes : on peut donc les représenter de manière orientées de l'extrémité dite 5' vers l'extrémité dite 3'.

En conséquences, les chaînes nucléotidiques sont écrites sous forme d'une succession ordonnée et orientée de lettres qui représentent les unités élémentaires (les nucléotides) :

  • ADN : 4 nucléotides = C, G, A et T
  • ARN : 4 nucléotides = C, G, A et U

Voir des rappels sur les bases azotées, les nucléosides et les nucléotides (et leurs pendants désoxy-).

La taille des génomes nucléaires varie énormément au sein des Eucaryotes :

  • de 1 à 1000 chez les plantes
  • de 1 à 3300 chez les animaux
  • de 1 à 300.000 chez les protistes (algues, amibes, euglènes, ...)

L'un des plus célèbres génome séquencé est celui de l'homme de Neandertal (Green et al., 2010).

genome sequence next-generation high-throughput DNA sequencing technologies biochimej

Source : B. Dujon (2008)

GOLD ("Genomes OnLine Database") : base de données des génomes séquencés et en cours de séquençage.

b. "Préhistoire" du séquençage des acides nucléiques et séquençage dans l'espace

Un énorme effort humain, financier, technologique, a été fait dans les années 90 pour obtenir des outils pour les premiers pas du séquençage, de plus en plus performants et surtout automatisés.

Pour le séquençage des premiers génomes "historiques" (entre autre le génome humain), l'automatisation a requis dans les années 1990 / 2000 le développement :

  • de système d'électrophorèse capillaire piloté par ordinateur qui ont remplacé les gel à plat
  • de robot passeur d'échantillon qui permet d'enchaîner les échantillons
  • de marqueurs fluorescents dont la lumière réfléchie après excitation par un laser est captée par une cellule CCD (Charge-Coupled Device)
  • de suites logicielles permettant l'analyse des signaux sortant des séquenceurs et leur mise en forme sous forme de fichiers analysables (électrophorègramme et séquence)

Ci-dessous : en 2001, la ligne de production automatique pour le séquençage du génome humain au Whitehead Institute - Center for Genome Research. Capacité de séquençage : environ 1500 nucléotides par poste en quelques jours.

sequencage human genome humain next-generation high-throughput DNA sequencing technologies biochimej

Source : Nature 409, 860 - 921

Ci-contre : en 2016, un séquenceur Illumina.

Capacité de séquençage : 5 milliards de lectures x [300 paires de bases] = 1500 miliards de nucléotides en quelques heures à 1 jour.

Voir l'emplacement des séquenceurs dans le monde.

sequencage human genome humain next-generation high-throughput DNA sequencing technologies biochimej

Ci-contre : le séquenceur ultra-portable MinION (Oxford nanopore technology) - dit de 3è génération - a été utilisé en temps réel sur le terrain lors de la crise Ebola de 2015 et de la crise Zika en 2016 (Quick et al., 2016).

En juillet 2016, il a été envoyé par la NASA dans la station orbitale internationale pour les premier séquençages effectués dans l'espace.

Source : The guardian

sequencage human genome humain next-generation high-throughput DNA sequencing technologies biochimej

Retour haut de page

2. Détermination des séquences de nucléotides

a. Méthode historique de Fréderick Sanger (Prix Nobel chimie 1958 et Prix Nobel chimie 1980)

Fréderick Sanger est décédé le 19 novembre 2013. Il fût l'un des plus admirables scientifiques - biochimistes.


Bien que de moins en moins utilisée au profit de techniques nouvelles, la méthode de Sanger est historiquement capitale puisqu'elle a permis les premiers séquençages de génomes complets :
  • Haemophilus influenzae 1995
  • Saccharomyces cerevisiae 1996
  • Escherichia coli K-12 1997
  • Caenorhabditis elegans 1998

Les nucléotides au sein des acides nucléiques sont liés par une liaison phosphodiester qui s'établit entre le groupement OH sur le carbone 3' du ribose du nucléotide dit en position 5' et le phosphore du groupe phosphoryle en position α du nucléotide dit en position 3'.

La méthode de séquençage de Sanger (dite par terminaison de chaîne) utilise des nucléotides appelés didésoxyribonucléotides (ddNTP) qui ont un atome d'hydrogène à la place du groupement OH sur le carbone 3' du ribose.

Ils peuvent donc être incorporés dans un brin d'ADN en cours de synthèse, mais ils ne permettent pas qu'un autre nucléotide soit incorporé après eux : en effet, l'absence de l'atome d'oxygène en 3' empêche la formation d'une nouvelle liaison phosphodiester.

L'allongement du brin d'ADN s'arrète donc au niveau du ddNTP incorporé, d'où terminaison de la synthèse de l'ADN.

liaison phosphodiester Frederic Sanger sequencing method didesoxyribonucleotides ddNTP biochimej

Frederic Sanger sequencing method didesoxyribonucleotides ddNTP biochimej

Sanger et al. (1977) Proc. Natl Acad. Sci. 74, 5463-5467

La méthode de séquençage de Sanger utilise une amorce marquée radioactivement ("dye-labeled primer") car la polymérase nécessite un court fragment complémentaire du brin à séquencer pour initier la synthèse du brin copie.

Quatre réactions de séquençage sont donc menées en parallèle dans quatre tubes distincts, contenant chacun un seul didésoxyribonucléotide (ddTTP, ddATP, ddCTP et ddGTP) :

  • ADN matrice + amorce marquée + dNTP + ddTTP
  • ADN matrice + amorce marquée + dNTP + ddATP
  • ADN matrice + amorce marquée + dNTP + ddCTP
  • ADN matrice + amorce marquée + dNTP + ddGTP

Dans chaque tube, toutes les copies d'ADN synthétisé sont interrompues derrière le même nucléotide.

Le rapport des concentrations entre les dNTP et les didésoxyribonucléotides (ddNTP) et le nombre de réactions simultanées catalysées par la polymérase assure statistiquement que toutes les copies partielles intermédiaires possibles de la molécule d'ADN sont synthétisées.

On sépare alors les copies selon leur taille par une migration électrophorétique dans un gel poreux (entre 2 larges plaques de verre), le contenu de chaque tube étant déposé dans un puits distinct.

Ces gels permettent de séparer deux intermédiaires consécutifs qui ont une différence de taille d'un seul nucléotide.

Exemple ci-contre : profil d'électrophorèse du contenu du tube avec le ddCTP. Toutes les copies intermédiaires d'ADN synthétisé sont terminées par un C.

Source : University of Michigan

Frederic Sanger sequencing method didesoxyribonucleotides ddNTP biochimej

b. La technique de séquençage avec des didésoxyribonucléotides fluorescents ("dye terminator sequencing")

Smith et al. (1986) "Fluorescence detection in automated DNA sequencing" Nature 321, 674 - 679

Cette technique utilise des didésoxyribonucléotides dont chacun est marqué par un fluorophore spécifique. Les fragments d'ADN synthétisés portent ce fluorophore terminal.

On les appelle des terminateurs d'élongation ou "Big Dye Terminators" ou "Dye-labeled terminator".

Ci-contre et ci-dessous, exemple de structures de ddNTP fluorescents :

  • 6-TAMRA-ddTTP
  • 6-FAM-ddTTP
  • 5-TET-ddCTP
  • 5-HEX-deaza-ddGTTP
  • R = 2',3'-dideoxyribose-5'-triphosphate
  • FAM = 6-carboxyfluorescéine

5-HEX-deaza-ddGTTP sequencing method didesoxyribonucleotide ddNTP biochimej

Source : Brandis (1999) Nucleic Acids Res. 27, 1912-1918

6-FAM-ddTTP sequencing method didesoxyribonucleotide ddNTP biochimej

5-TET-ddCTP sequencing method didesoxyribonucleotide ddNTP biochimej

Améliorations apportées par la méthode des ddNTP fluorescents par rapport à la méthode de Sanger

a. La méthode initiale de Sanger utilisant une amorce marquée radioactivement est plus laborieuse, coûteuse (4 réactions distinctes) et dangereuse (radioactivité) que celle des ddNTP fluorescents.

b. Par ailleurs, l'un des problème du séquençage est la formation de "faux-stop" : c'est la terminaison prématurée d'une copie qui implique un désoxyribonucléotide à la place d'un ddNTP. Avec la méthode des ddNTP fluorescents, les "faux-stop" ne sont pas détectés car ils ne fluorescent pas.

c. Avec la méthode des ddNTP fluorescents, il n'y a qu'une réaction de séquençage en présence des 4 didésoxyribonucléotides :

ADN matrice + dNTP + ddCTP fluorescent bleu + ddATP fluorescent vert + ddGTP fluorescent jaune + ddTTP fluorescent rouge

  • L'excitation se fait à 2 longueurs d'onde différentes par un laser à l'argon. L'émission de fluorescence est mesurée à 4 longueurs d'onde correspondant aux 4 fluorophores.
  • Chaque base a donc un signal spécifique qui permet de l'identifier lors de son passage dans le faisceau d'un photomètre situé à la sortie du capillaire.
  • L'analyse des signaux reçus est réalisée par un ordinateur et permet de reconstituer la séquence avec une grande précision (figure ci-contre).

Source : University of Michigan

Electrophorese ddNTP fluorescent sequencing method didesoxyribonucleotide biochimej

Ci-dessous, le séquenceur "MegaBACE®" (société Amersham) : plateforme capillaire à haut débit pour le séquençage d'ADN.

Schématiquement, l'appareil est composé de 96 capillaires, d'un système d'électrophorèse, d'un laser et d'une caméra CCD (Charge-Coupled Device).

  • Les capillaires (diamètre environ 250 µm), sont remplis d'un polymère qui sert de tamis moléculaire.
  • Les molécules d'ADN sont introduites à une extrémité des capillaires par électro-injection et migrent ensuite tout au long de ceux-ci sous l'effet d'un très haut voltage (8500 volts) de façon à les séparer en fonction de leur longueur.
  • Près de l'anode, un rayon laser traverse chaque capillaire afin d'exciter les ddNTP fluorescents incorporées à l'ADN au cours de la réaction de séquençage.

sequencage next-generation high-throughput DNA sequencing technologies sequencing method biochimej

  • Une caméra CCD mesure l'émission de fluorescence au fur et à mesure que les copies d'ADN passent devant le laser. Les ddNTP fluorescents sont distingués les uns des autres selon la longueur d'onde émise. Exemples : TAMRA : excitation 552 nm - émission 575 nm / FAM : excitation 490 nm - émission 520 nm.
La dernière étape est la lecture des profils bruts ou "base-calling" (détermination de la séquence par appel de bases).

Electrophoregramme DNA sequencing method biochimej

Retour haut de page

3. Méthode du pyroséquençage

Elle permet d'effectuer un séquençage moins cher et rapide qu'un séquençage par la méthode de Sanger car elle ne nécessite pas de clonage et la lecture de la séquence est directe.

Addition sequentielle nucleotide pyrosequencage ADN DNA sequencing method biochimej

Source : Ahmadian et al. (2006)

Les désoxyribonucléotides triphosphate (dNTP) sont ajoutés l'un après l'autre (et non pas tous ensemble comme dans la méthode de Sanger).

Si le désoxyribonucléotide ajouté est complémentaire du désoxyribonucléotide du brin matrice, il est incorporé dans le brin en cours de synthèse et un pyrophosphate inorganique (PPi) est libéré.

pyrophosphate inorganique PPi ADN DNA sequencing method biochimej

L'ATP sulfurylase transforme stoechiomètriquement le pyrophophate libéré en ATP en présence d'un substrat : l'adénosine 5' - phosphosulfate (APS).

L'ATP formé est utilisé par une luciférase qui transforme la luciférine en oxyluciférine qui génère un signal lumineux dans le visible proportionnel à la quantité d'ATP.

L'apyrase dégrade les nucléotides non incorporés et l'excès d'ATP.

Reaction polymerase apyrase pyrosequencage ADN DNA sequencing method biochimej

Remarque importante : l'ATP est le substrat de la polymérase (pour l'élongation du brin en cours de synthèse) mais il est aussi formé par l'ATP sulfurylase.

Pour la polymérisation, on utilise donc un analogue de l'ATP : la désoxyadénosine α-thio triphosphate (dATPαS) qui n'est pas un substrat de la luciférase.

Le capteur CCD du séquenceur capte le signal lumineux et le traduit par un pic sur le pyrogramme.

pyrogramme pyrosequencage ADN DNA sequencing method biochimej

Source : Ahmadian et al. (2006)

La hauteur du pic est proportionnelle à l'intensité du signal lumineux, elle-même proportionnelle au nombre de nucléotides incorporés au même moment.

On déduit la séquence à partir de la taille des pics obtenus.

En cas de mélange de nucléotides à une même position (polymorphisme de séquence), la taille des pics permet d'avoir une quantification de la proportion de brins porteurs de l'un ou l'autre des nucléotides.

Exemple d'application du pyroséquençage : étude du transcriptome de Arabidopsis thaliana - : voir Weber et al. (2007) "Sampling the Arabidopsis transcriptome with massively parallel pyrosequencing" Plant Physiol. 144, 32-42.


Méthode longueur des lecture (nucléotides) nombre de lectures total par tour ("run") (Mpb) coût relatif par nucléotide
Sanger 700 - 800 96 0,07 1
pyroséquençage 250 400.000 100 0,1
phase solide 25 - 35 40 à 80 millions 1000 - 2000 0,01

Retour haut de page

Cette partie retrace un "historique" des stratégies de séquençage avant l'avènement des nouvelles technologies de séquençage à très haut débit.

En regard de l'avancée phénoménale des techniques et des capacités d'analyse, certaines parties peuvent sembler obsolètes mais elles représentent certains fondements de la génomique.

4. Stratégies initiales de séquençage des génomes

a. La méthode hiérarchique ou "clone par clone"

Le génome est découpé en un nombre "restreint" (quelques dizaines de milliers) de fragments de grande taille (50 à 200 kilo paires de base) qui couvrent l'ensemble du génome.

Ces fragments sont clonés dans des vecteurs spéciaux : les YAC ("Yeast Artificial Chromosome" - problème d'échange de fragments d'ADN), les BAC ("Bacterial Articifial Chromosome") ou des vecteurs dérivés du phage P1 (les PAC).

Une carte physique des clones est établie pour faciliter l'obtention de la séquence finale du génome : elle permet d'ordonner les clones dans le génome.

Methode sequencage hierarchique clone ADN DNA sequencing method biochimej

Source : "Précis de génomique" Gibson & Muse (2004)

Les cartes de liaison disposent des marqueurs ordonnés le long des chromosomes par la mesure de leur liaison deux à deux. Ces cartes de liaison permettent de se repérer dans le génome et sont une aide essentielle dans la construction de la carte physique.

Un sous-ensemble avec un minimum de recouvrement (pour avoir une couverture la plus complète possible du génome) est ensuite choisi et séquençé en "vrac" (voir ci-dessous) : chaque clone de grande taille est découpé en un grand nombre de fragments de petite taille (environ 2000 paires de bases) et les extrémités sont séquencées individuellement.

Les problèmes d'assemblage ne se posent qu'à l'échelle des grands fragments et sont facilement résolus en multipliant le nombre de lectures dans ces zones.

b. La méthode de séquençage aléatoire global ou "en vrac" ou "shotgun"

C'est une méthode très différente et complémentaire de la méthode hiérarchique.

Une carte de grands fragments ordonnés n'est pas établie au préalable.

Un trés grand nombre de séquences sont obtenues de façon aléatoire à l'échelle du génome entier. Les extrémités d'une partie de ces fragments sont séquencées. Puis ces séquences sont assemblées selon leurs recouvrements.

Du fait du grand nombre de fragments et du clonage, certaines séquences ne sont jamais séquencées.

Methode sequencage aleatoire global vrac shotgun ADN DNA sequencing method biochimej

Source : "Précis de génomique" Gibson & Muse (2004)

La difficulté d'assemblage est beaucoup plus grande que dans la stratégie "clone par clone" et le nombre énorme de comparaisons de séquences nécessite une puissance de calcul considérable.

Il n'est pas possible, pour combler les trous entre les contigs (voir ci-dessous), de diriger le travail de séquençage supplémentaire sur un grand fragment bien identifié.

Compléments sur la méthode "shotgun"

C'est un processus aléatoire d'échantillonnage de N lectures de taille L, pour un génome de taille G :

  • couverture : a = N . L / G
  • nombre de contig obtenus (Nc) en fonction de la couverture : Nc = (a . G / L) e-a
  • taille moyenne des contigs : Lc = (ea - 1) . L / a

Lander & Waterman (1988) "Genomic mapping by fingerprinting random clones: A mathematical analysis" Genomics 2 , 231 - 239

Evolution des "stratégies" de séquençage de type "shotgun" :

  • Roach et al. (1995)
  • stratégie "parking"
  • les méthodes "paired end sequencing"
  • les nouvelles technologies de séquençage à très haut débit, non limitantes (exemple : "WGS sequences = whole genome shotgun sequences")

Quelle que soit la stratégie adoptée, lors de l'assemblage terminal du génome, il faut éliminer :

  • les fragments d'ADN contaminants d'origine bactérienne
  • les clones ne provenant pas, à l'origine, d'un même fragment du génome du fait d'une recombinaison à l'intérieur du BAC ou d'une mauvaise annotation lors de la construction de la collection de fragments pour la phase de séquençage en vrac.
  • les séquences répétées peuvent aussi poser un problème lors de l'assemblage des grands génomes car elles peuvent conduire à assembler 2 séquences provenant de régions distantes du génome. Lors de l'assemblage, elles sont donc "masquées" par des programmes informatiques tel que RepeatMasker. Ces logiciels remplaçent les nucléotides de ces régions par le symbole "N" qui décrit n'importe quel nucléotide.

Retour haut de page

5. Les contigs et l'assemblage, les trous, l'appel de base

Avec les technologies encore courantes dans de nombreux laboratoires, chaque séquençage ne permet d'obtenir une lecture que de quelques milliers de paires de base. Il n'est donc pas possible de séquencer en une seule fois des molécules d'ADN aussi grandes que les chromosomes.

Pour reconstituer ces immenses séquences, il faut effectuer un grand nombre de séquençages, plusieurs fois supérieur à la taille du chromosome. Ces séquençages redondants permettent :

  • de raccorder les séquences les unes aux autres
  • de s'assurer de la qualité du résultat de chaque lecture

Pour les premiers séquençages des génomes (avant l'avènement des nouvelles technologies de séquençage à très haut débit), la redondance était d'un facteur 8 à 10 (une profondeur de 8 à 10X).

Celà signifie :

  • fractionner le fragment à séquencer en sous-fragments
  • effectuer un nombre de séquençage tel que l'ensemble de ces séquençages, mis bout à bout, représentent 10 fois la longueur de la séquence du fragment initial
  • en d'autres termes, chaque base du fragment initial doit apparaître en moyenne dans 10 lectures

redondance profondeur sequencage ADN DNA sequencing method biochimej

Source : B. Dujon (2008)

L'assemblage

La comparaison des séquences permet d'aligner les parties qui se recouvrent partiellement ou chevauchantes.

Assemblage contigs biochimej

Assemblage contig scaffold ADN DNA sequencing method biochimej

Source : Genoscope - FAQ

Les séquences chevauchantes peuvent être reliées en enchaînements plus grands que l'on appelle contigs.

En reliant l'ensemble des contigs, on reconstitue des séquences de plusieurs millions à plusieurs dizaines de millions de nucléotides (les "scaffold").

Ces opérations sont effectuées par des programmes bioinformatiques.

Les trous ou "gap" : Comme le séquençage est effectué sur des sous-fragments pris de manière aléatoire, même avec un tel niveau de redondance, il reste des parties non assemblées : des trous ("gap") qui peuvent être "comblés" par un travail ciblé.

Scaffold : ensemble de contigs orientés et ordonnés. Les trous ("gaps" - voir ci-dessous) sont de longueur connue.

Mapped scaffold : ensemble de scaffolds localisés le long des chromosomes (pas forcément ordonnés ou orientés). Les trous sont de longueur inconnue.

Pour déterminer les relations de voisinage des contigs, les liens clones sont considérés, c'est-à-dire les lectures obtenues aux deux extrémités d'un même fragment d'ADN. On recherche parmi ces paires celles qui s'ancrent dans deux contigs différents.

Cela permet de jeter un pont entre les deux contigs et de les orienter. De plus, le fragment d'ADN "à cheval" sur le trou entre les deux contigs peut faire l'objet d'un séquençage supplémentaire, ce qui permet de combler le trou.

La lecture des profils bruts ou "base-calling" : c'est la détermination de la séquence par appel de bases qui s'effectue en routine par des programmes informatiques qui déterminent l'identité des bases, comparent les séquences et fournissent une plate-forme intuitive de correction.

La suite logicielle publique développée à l'Université de Washington contient les programmes :

  • Phred : il convertit les fichiers "traces" (chromatogramme au milieu de la figure ci-contre) en séquences qui sont immédiatement déposées dans des banques.
  • Phrap / CrossMatch / Swat : ensembles de programmes pour l'assemblage de séquences d'ADN en contigs.
  • Consed : outil graphique de visualisation et d'édition des séquences assemblées par Phrap.
  • La fonction "Autofinish" (Gordon et al . 2001) du programme Consed permet de combler les trous en proposant des amorces et en identifiant des matrices d'ADN qui permettent de franchir les discontinuités entre 2 contigs.

Electrophoregramme biochimej

Source : "Précis de génomique" Gibson & Muse (2004)

Retour haut de page

6. Les nouvelles technologies de séquençage à trés haut débit ("next-generation high-throughput DNA sequencing technologies" - NGST ou NGS)

a. Introduction

Une révolution en génomique fonctionnelle a eu lieu avec l'avènement des technologies de séquençage à trés haut débit ou massivement parallèles.

Des quelques 800 à 1000 nucléotides qu'un chercheur pouvait espérer séquencer en quelques jours par des techniques lourdes, complexes et dangereuses (utilisation d'isotopes radioactifs) dans les années 80, on est arrivé à l'heure actuelle à des techniques de séquençage simplifiées qui séquencent des milliards de nucléotides par expérience.

L'ensemble des données de séquençage est implémenté en temps réel dans des bases de données pour leur analyse.

En conséquence, de plus en plus de génomes sont séquencés ou en cours de séquençage avec l'avènement des nouvelles technologies de séquençage à trés haut débit.

Septembre 2016

Projets de très grande envergure de séquençage de génomes

Des biologistes et des informaticiens prévoient que les ressources informatiques nécessaires pour traiter les données liées aux génomes dépasseront à terme celles nécessaires à Twitter et YouTube.

On estime que, en 2025, 100 millions à 2 milliards de génomes humains auront été séquencés. A lui seul, le stockage de ces données pourrait nécessiter 2 à 40 exaoctets (1 exaoctet = 1018 octets) car les données stockées pour un génome sont 30 fois plus grande que la taille du génome lui-même (données brutes, erreurs, analyse préliminaire …).

Le stockage des données ne sera qu'une petite partie du problème : les besoins pour l'acquisition, la distribution et l'analyse des données de génomiques seront bien supérieurs.

b. Caractéristiques élémentaires des NGS

  • Ces techniques permettent le séquençage d'un nombre colossal de nucléotides (jusqu'à 1012 nucléotides séquencés par expérience) à un coût nettement moindre qu'avec la méthode de Sanger.
  • Séquençage en un temps record : ces technologies de séquençage permettent d'amplifier spécifiquement un fragment d'ADN isolé, en évitant les étapes de clonage bactérien particulièrement longues.
  • Ces méthodes sont parallèlisées : des millions de réactions ont lieu en même temps dans des barettes qui contiennent des puits minuscules en fibre optique.
  • Les fragments séquencés sont courts : actuellement de 30 à environ 250 paires de base selon la technologie.
  • La petite taille et le nombre très élevé des fragments séquencés induit un travail d'analyse bioinformatique colossal en aval car il faut assembler ces fragments en contigs.

Le séquençage de novo : c'est le séquençage d'un génome pour la première fois. Il nécessite l'assemblage d'un très grand nombre de petites séquences du génome. Il nécessite aussi un génome de référence (s'il en existe un) afin de positionner (par comparaison) les séquences obtenues.

Définitions importantes

  • lecture ("read") : une séquence d'un fragment d'ADN.
  • contigs : séquences continues générées par l'alignement de séquences de fragments qui se chevauchent.
  • trous ("gaps") : parties du génome non séquencées ou dont les séquences ne chevauchent pas avec d'autres et ne peuvent donc entrer dans un contig.
  • régions de faible compléxité : parties du génome dont les séquences sont très peu diversifiées (exemple : séquences répétées).

Le séquençage complet d'un génome avec les NGS conduit à un nombre colossal de petits fragments séquencés (un grand nombre de petites séquences ou lectures) que l'on essaye ensuite d'assembler en contigs. La qualité de couverture du séquençage et donc liée à celle des contigs (leur longueur et leur continuité) et donc au nombre de gaps.

L'un des inconvénients des NGS est la petite taille des fragments séquencés d'où un nombre élevé de gaps, en particulier pour les régions de faible complexité.

sequencage next-generation high-throughput DNA sequencing technology de novo whole genome shotgun contig paired end biochimej

a. Pour pallier à cette difficulté, on peut séquencer les fragments :

  • à partir d'une extrémité ("single-end sequencing") : on obtient le début de la séquence du fragment à une extrémité.
  • à partir des 2 extrémités ("paired-end sequencing") : on obtient le début de la séquence du fragment à une extrémité et le début de la séquence du fragment à l'autre extrémité mais pas la séquence au milieu du fragment (le séquençage ne génére que de courtes séquences).
  • la distance entre chaque fragment séquencé étant connue, les algorithmes d'alignement utilisent cette information pour localiser avec plus de précision ces fragments dans les régions de faible complexité.

b. Un autre moyen est de construire des banques avec des inserts de petites tailles (0,2 - 0,8 kpb) et des banques avec des inserts de grandes tailles (2 - 40 kpb). On obtient ainsi des fragments séquencés de tailles variables ("short-insert paired end reads" et "long-insert paired end reads" ou "mate paired") qui aboutissent à un meilleur assemblage du fait de contigs plus longs.

L'acquisition et la compilation d'une masse de données de plus en plus astronomique d'une part et l'analyse des résultats des NGS nécessitent le développement d'outils bioinformatiques de plus en plus spécialisés (exemple : Allpaths-LG propose un assembleur pour grands génomes).

Les NGS permettent d'aborder (liste non-exhaustive) :

  • le séquençage d'un génome inconnu (séquençage de novo ) ou le re-séquençage d'un génome connu
  • l'annotation (ou la ré-annotation) de plus en plus précise et exhaustive d'un génome
  • l'étude de la variabilité génétique et du polymorphisme de nucléotide simple (SNP)

sequencage next-generation high-throughput DNA sequencing technologies biochimej

Source : Shendure & Aiden (2012)

  • épigénétique et épigénomique
    1. étude de l'influence de l'environnement et de l'histoire individuelle sur les modifications de la transcription des gènes d'une génération à l'autre. Le préfixe "épi" signifie "sur, au-dessus, ..."
    2. étude du profil de méthylation de l'ADN et de la structure de la chromatine
    3. étude des interactions ADN / protéines
    4. étude des modifications post-traductionnelles des histones
  • la métagénomique : étude du génome d'un organisme prélevé directement dans un environnement complexe (intestin, océan, sols, ...), à l'inverse d'un organisme de laboratoire. Le but est d'obtenir des informations sur l'incidence de cet environnement. Le préfixe "méta" signifie "après, au-delà de, avec, ...". "Metagenomics at EBI".
  • l'étude du microbiome. Exemple : "Human Microbiome Project"
  • le séquençage simultané d'un très grand nombre d'échantillon ("Next-generation DNA barcoding")
  • la génomique médicale (évènements aberrants de mutation)
  • ...

Retour haut de page

c. Les technologies NGS et les entreprises actuelles

De nouvelles technologies apparaissent chaque année (plus puissantes, plus rapides, plus économiques, ...). Il est illusoire de les lister : ne sont donc présentées que celles qui ont permis les premiers grands bonds.

1. "llumina sequencing" : Illumina représente environ 56% du marché des NGS.

  • Voir un développement de la technique et du principe des réactions chimiques basées sur l'amplification, l'accrochage sur puce et l'utilisation de terminateurs de chaîne réversibles marqués par des fluorochromes.
  • Exemple de séquençages Illumina : analyse RNA-seq des vers Echinococcus multilocularis, E. granulosus et Hymenolepis microstoma.

Historiquement, l'entreprise s'est d'abord appelée Solexa (1998) avec un modèle de séquenceur ("Genome Analyzer") lancé en 2006. En 2007, la société Illumina a fait l'acquisition de Solexa.

2. La technologie Roche 454

La société "454 Life Sciences" (Connecticut - USA) a développé les séquenceurs GS20 et GS FLX ("Genome Sequencer" - distribution par Roche Diagnostics).

La technique utilisée (Margulies et al., 2005) est basée sur l'amplification d'ADN lié à une bille en émulsion et au pyroséquençage.

Voir un film qui décrit le principe de cette méthode de séquençage.

sequencage next-generation high-throughput DNA sequencing technologies biochimej

Source : 454.com

Exemples d'application

  • Etude des SNP de l'eucalyptus (Novaes et al., 2008).
  • Séquençage du génome du blé (16 milliards de nucléotides) - Université de Bristol : publication en Août 2010 d'un "brouillon" du génome du blé (variété "Chinese spring") obtenu avec la technologie Roche 454.
  • Voir aussi le consortium international pour le séquençage du blé (IWGSC)

Comparaison des technnologies Illumina et 454
Illumina (ex-Solexa)   454 (Roche)
Amplification en phase solide - séquençage par synthèse (mesure de fluorescence)

Amplification dans une émulsion - pyroséquençage

L'ADN génomique est fragmenté.
Des adaptateurs sont fixés aux extrémités des fragments d'ADN.
L'ADN est dénaturé puis chaque brin est immobilisé en le fixant à une amorce, elle-même fixée sur un support.
Le brin complémentaire est synthétisé puis ce nouvel ADN double-brin est dénaturé.
Chaque brin fixé forme alors un pont en s'hybridant localement avec l'amorce complémentaire de l'autre extrémité. Le brin complémentaire est synthétisé.
L'opération est répétée un grand nombre de fois : il y a formation d'amas ("cluster") du même fragment d'ADN.

L'ADN génomique est fragmenté (300 - 800 paires de bases).
Des adaptateurs sont fixés aux extrémités des fragments d'ADN simple brin.
L'un des adaptateurs contient la biotine qui se fixe à la steptavidine, elle-même fixée sur une bille.
Le rapport [billes/molécules d'ADN] est tel que la plupart des billes ne fixent qu'une molécule de fragment d'ADN : une bille = un fragment = une lecture.

sequencage next-generation high-throughput DNA sequencing technologies illumina solid phase biochimej

Voir une vidéo.

sequencage next-generation high-throughput DNA sequencing technologies emulsion 454 biochimej

 

Source des figures : Metzker M. (2010)

Un nucléotide marqué par une étiquette fluorescente ("fluorescently labeled chain-terminating nucleotide") est incorporé dans la chaîne en cours de synthèse (synthèse du brin complémentaire de celui qui est séquencé). La fluorescence de ce nucléotide est mesurée.
Mais l'incorporation de ce terminateurs de chaîne est réversible, ce qui permet que la synthèse continue jusqu'à ce qu'un autre terminateur de chaîne soit incorporé.

Une émulsion (mélange eau-huile) encapsule cette bille et forme une goutelette : l'amplification PCR du fragment d'ADN en milliers de copies s'effectue dans cette goutelette.
L'émulsion est éliminée. L'ADN est dénaturé et les [billes - ADN simple brin] sont ensuite déposées dans des millions de puits ("picotiter plate").
Les nucléotides fluorescents sont délivrés les uns après les autres (pyroséquençage).

Faible taux d'erreurs d'insertion/délétion (indel).

Taux plus élevé d'insertion/délétion (indel) que la technologie Illumina.

1 milliard de bases séquencées (lectures d'environ 30-40 bases - les terminateurs de chaîne réversibles sont incorporés moins efficacement) avec une exactitude moindre que la technologie 454.

1 million de bases séquencées (lectures plus longues d'environ 250 bases) avec une exactitude de 99.5%.


3. La technologie "Ion Torrent"

Cette technologies est basée sur des puces semi-conductrices remplies de puits.

ion torrent sequencage next-generation high-throughput DNA sequencing technologies biochimej

Un proton est relargué quand un nucléotide est incorporé par la polymérase dans l'ADN. Cela résulte en un changement de pH local qui est détecté par cette technologie sensible à la variation d'ions.

Detection changement pH local sequencage next-generation high-throughput DNA sequencing technologies biochimej

Voir une vidéo qui décrit cette technologie.

Cette technologie ne nécessite :
  • pas de camera, pas de scanner
  • pas de cascade enzymatique
  • pas de fluorophore ou chemiluminescence
  • débit en 2012 : 1000 Mpb/expérience
  • temps d'expérience total (construction de la banque / données intégrées) : 2 jours
  • un tour : 3,5 heures

Source : Rothberg et al. (2011) "An integrated semiconductor device enabling non-optical genome sequencing" Nature 475, 348 - 352

4. La technologie SOLiD ("Sequencing by Oligonucleotide Ligation and Detection") : le séquençage est basé sur l'amplification par émulsion et l'hybridation-ligature chimique. Il utilise une ligation avec une DNA ligase.

Voir un développement de la technique et du principe des réactions chimiques.

5. La technologie "Helicos BioSciences"

Remarque : cette entreprise phare a fait faillite en novembre 2012.

Les nucléotides fluorescents sont ajoutés l'un après l'autre. Les nucléotides non incorporés (selon le brin matrice) sont éliminés.

Une illumination avec un faisceau laser induit une émission de fluorescence aux endroits où le nucléotide a été incorporé.

sequencage next-generation high-throughput DNA sequencing technologies biochimej

Source : Helicos BioSciences

Le groupe fluorescent du nucléotide qui vien dêtre incorporé est à son tour éliminé afin que le nucléotide suivant puisse être incorporé par la polymérase.

Retour haut de page

d. Les technologies NGS en développement et à venir

1. G4-seq : les quadruplexes G sont des structures secondaires d'acides nucléiques qui se forment au niveau de séquences d'ADN ou d'ARN riches en guanine. Ces structures peuvent affecter l'architecture de la chromatine et la régulation de la transcription des gènes et elles sont associées à l'instabilité des génomes.
Chambers et al. (2015) "High-throughput sequencing of DNA G-quadruplex structures in the human genome" Nat. Biotech. 33, 877–881

2. FIS-seq ("Fluorescence In Situ RNA-sequencing"): le perfectionnement de la technique FISH ("RNA Fluorescence In Situ Hybridization") permet désormais de détecter les molécules d'ARN individuelles dans une seule cellule ("single cell") et d'obtenir des informations sur la localisation sub-cellulaire de ces molécules d'ARN. La technique FIS-seq combine l'approche RNA-seq "classique" (en utilisant la cellule comme une "puce" de séquençage) avec la technique FISH.
Lee et al. (2014) "Highly Multiplexed Subcellular RNA Sequencing in Situ" Science 343, 1360-1363

3. La spectromètrie de masse appliquée aux fragments d'ADN.

4. La visualisation directe de molécule d'ADN par microscopie de force atomique.

Les technologies de séquençage dites de troisième génération

Les technologies de séquençage dites de troisième génération permettent d'acquérir de longues lectures d'une longueur moyenne de 3.000 à 15.000 paires de bases (avec des lectures supérieures à 100.000 paires de bases).

Les longues lectures permettent le chevauchement de longues répétitions et donc l'orientation des contigs avec moins d'ambiguïté, ce qui est essentiel pour l'assemblage de novo de génomes.

Cependant, les technologies de séquençage de 3ème génération ont actuellement un taux d'erreurs élevé car elles n'utilisent pas une méthode cyclique (réaction de séquençage pas à pas / base après base). En effet, la molécule d'ADN est décryptée en temps réel par une méthode de détection à haute fréquence :

  • les portions de séquences sont ainsi plus longues
  • mais le signal lors de l'appel de base est intégré dans un laps de temps de l'ordre de la microseconde ou de la nanoseconde au lieu de quelques secondes ou minutes
  • un seul brin d'ADN est séquencé à chaque fois, au lieu d'utiliser l'accumulation en phase solide ou liquide de plusieurs fragments d'ADN clonés afin d'amplifier le signal
  • Le résultat est un signal plus faible et plus fréquent : le bruit de fond est plus élevé et les lectures sont plus longues.

Illustration : technologie MinION™ (Oxford Nanopore Technologies)

Le séquençage s'effectue via le passage de fragments d'ADN au travers des nanopores constitués de protéines (hémolysine) incluses dans une bicouche lipidique.

Voir une vidéo de ce processus.

Voir les figures 14 à 18 de l'article "Nanopores: A journey towards DNA sequencing" pour comprendre les principes physiques (électriques) de la détermination de l'identité du nucléotide qui traverse le nanopore.

Source : Rusk (2013)

Nanopore DNA sequencing minion biochimej

Exemple : l'ADN testé (figure ci-dessous) est constitué de répétitions "CAT" à l'exception d'un triplet "CAG" au milieu de la séquence.

Nanopore DNA sequencing minion biochimej

Source : Manrao et al. (2012)

La trace du courant moyen montre un profil répété de 3 niveaux (barres bleues) dont la régularité est interrompue au niveau du G (en orange) : les 4 niveaux de courant autour du G sont affectés.

Le courant résiduel est donc influencé par 1 ou 2 nucléotides.

Ci-dessous : le système MinION™.

On envisage d'appliquer la technique des nanopores au séquençage des protéines : la grande difficulté est de déplier la chaîne polypetidique. Une piste est l'utilisation de la "AAA+ unfoldase ClpX".
Voir : "Unfoldase-mediated protein translocation through an α-hemolysin nanopore" (Nivala et al., 2013)

Nanopore DNA sequencing minion biochimej

Source : Oxford nanopore

Retour haut de page

e. Le côut des séquençages

Le marché du séquençage a été de 1,3 milliard de dollars en 2012. Il est estimé à 2,7 milliards de dollars en 2017. Il pourrait atteindre 28 milliards de dollars en 2022.

des caractéristiques des nouvelles technologies de séquençage

comparatif nouvelle technologie sequencage next-generation high-throughput DNA sequencing technologies biochimej

Source : biorigami.com

Du fait des données en masse liées aux nouvelles technologies de séquençage à très haut débit, des "simulateurs" ont été développés pour prédire le coût et la durée (estimés sur la base du génome d'Arabidopsis thaliana et de son annotation).

Côut du séquençage du génome de l'homme (publié en 2001) : environ 100 millions de dollars.

Au cours des premières années, la réduction du côut des séquençages diminuait (diminution ressemblant approximativement à la "Loi - ou énoncé - de Moore").

sequencage next-generation high-throughput DNA sequencing technologies loi Moore biochimej

Janvier 2008 : chute drastique du côut des séquençages avec l'avènement des nouvelles technologies de séquençage à très haut débit, dites de "seconde génération".

Depuis le côut baisse régulièrement : il est actuellement d'environ 5000 dollars.

On s'approche d'un séquençage complet du génome de l'homme à 1000 dollars.

Dans les années à venir, c'est le côut de l'analyse bioinformatique en aval du séquençage d'un génome qui sera prédominante.

sequencage next-generation high-throughput DNA sequencing technologies biochimej

Source : Sboner et al. (2011)

Acronymes de la figure : AM : Binary Sequence Alignment/Map - BED : Browser Extensible Data - CRAM : compression algorithm - MRF : Mapped Read Format - VCF : Variant Call Format.

Retour haut de page

7. Quelques exemples d'apports du séquençage

a. Le génome de l'homme : "ENCODE"

Septembre 2012 - Publication de 30 articles par le consortium ENCODE ("The Encyclopedia of DNA Elements") qui montrent notamment que :

  • environ 20% de l'ADN non-codant du génome humain est en fait fonctionnel (codage d'ARN régulateurs)
  • environ 60% de l'ADN non-codant est transcrit mais les fonctions des transcrits ne sont pas connues
  • la plus grande partie de l'ADN non-codant fonctionnel est impliquée dans la régulation de l'expression des gènes de l'ADN codant
  • la transcription des gènes de l'ADN codant est contrôlée par de multiples sites de régulation localisés à proximité ou à distance de ces gènes. Ces résultats démontrent que la régulation de l'expression des gènes est bien plus complexe que ce que l'on en sait.

On estime que l'exome humain (partie de l'ADN constituée par les exons) correspond à environ 20.000 gènes codant des protéines (exome : 180.000 exons - 1,5% du génome humain - 30 Mbases).

Pour accéder aux articles de manière interactive : Nature ENCODE explorer


Evolution du nombre de génes estimés dans le génome humain
Technique Date Nombre de gènes estimés Hypothèses et commentaires
"Calcul" initial 1990 100 000 Avec l'hypothèse que la taille moyenne d'un gène = 30 kb
Ebauche de séquençage du génome 1994 71 000 Résultat biaisé par les régions riches en gènes ?
Ilôts CpG   80 000 Avec l'hypothèse que 66% des gènes humains ont de tels "ilôts"
Analyse des EST 1994 64 000 Gènes ayant un homologue dans GenBank - Redondance des EST de 50%
Chromosome 22 1999 45 000 Correction liée à la haute densité en gène de ce chromosome
Technique "Exofish" ("Exon Finding by Sequences Homology") 2000 28 000 - 34 000 Avec l'hypothèse que les régions codantes sont plus conservées que les régions non-codantes. Comparaison des génomes homme - poisson ("Tetraodon nigroviridis")
EST 2000 35 000
120 000
Nombre de gènes
Nombre de transcrits
Premier "brouillon" du génome 2001 30 000 - 40 000 Gènes connus + prédictions
Comparaison avec le génome de la souris 2002 30 000 Gènes connus + prédictions
Analyse du génome de l'homme en cours d'aboutissement 2004 20 000 - 25 000 Gènes connus + prédictions
2007 20 000 Annotation des gènes améliorée
Analyse du génome de l'homme aboutie 2012 20 687 gènes codant des protéines "The ENCODE Project Consortium"
Nature 489, 57-74 (2012)

Quelques données sur le génome humain (les chiffres ne sont évidemment pas définitifs, le décryptage étant loin d'être fini)*
Régions transcrites en ARN : 0,05% Tailles moyennes :
  • Gènes : 45 kb
  • Séquence codante : 1500 nucléotides
  • Exon : 145 nucléotides
  • Intron : 5200 nucléotides
  • 5' UTR : 210 nucléotides
  • 3' UTR : 740 nucléotides
  • Introns - exons
    1. Nombre d'introns : 6 ± 3 introns / 1000 paires de bases de séquence codante
    2. Introns / [introns + séquence codante] : 92%
    3. Epissage alternatif pour plus de 90% des gènes
Régions codant pour des protéines : 1,2%
Introns : 31%
ADN intergénique : 61%
ADN satellite : 6 - 7%
Pseudogènes : 1 - 1,2%
Eléments transposables : 42 - 46 %

* 2015 : reconstruction du génome de 2504 individus issus de 26 populations ("The 1000 Genomes Project Consortium").
Août 2016 : analyse de la variation génétique des gènes codant des protéines de 60.706 humains (Lek et al., 2016 - "Exome Aggregation Consortium").


b. Evolution de ENCODE : "Comparative modENCODE/ENCODE" (analyse comparative de métazoaires)

Les données de ENCODE permettent désormais la comparaison spatio-temporelle des génomes, des transcriptomes, des séquences qui codent les divers types d'ARN, de la structure de la chromatine, des interactions ADN-protéine ...

C'est ce qui a été publié en 2014 pour 3 espèces de métazoaires apparemment distantes : l'homme, le ver nématode (Caenorhabditis elegans) et la mouche (Drosophila melanogaster).

  • Gerstein et al. (2014) "Comparative analysis of the transcriptome across distant species" Nature 512, 445-448
  • Ho et al. (2014) "Comparative analysis of metazoan chromatin organization" Nature 512, 449-452
  • Boyle et al. (2014) "Comparative analysis of regulatory information and circuits across distant species" Nature 512, 453-456

L'ensemble des données (notamment le stockage des données de séquençage de milliards de fragments) est disponible à la sous-partie du consortium ENCODE : "Comparative modENCODE/ENCODE".

  • Human : 257 ChIP-seq, 164 RNA-seq (includes 25 with shRNA knockdown), 22 RAMPAGE, 7 ChIA-PET, 20 RNA Bind-n-Seq
  • Mouse : 260 ChIP-seq, 2 RNA-seq, 28 Shotgun Bisulfite-seq (WGBS)

Araya et al. (2014) Nature 512, 400-405 : distribution spatio-temporelle dans le génome de Caenorhabditis elegans des sites de liaison de 92 facteurs de transcription et protéines régulatrices à plusieurs stades de développement (241 expériences ChIP-seq).

Retour haut de page

c. Visualisation des protéines de Caenorhabditis elegans

Des constructions génétiques permettent l'expression in vivo des protéines de Caenorhabditis elegans. Ces protéines sont marquées par affinité par des sondes fluorescentes (voir : Sarov et al., 2012).

73% des protéines sont ensuite actuellement visualisables in vivo dans chaque type de compartiment à un moment donné de l'existence de Caenorhabditis elegans (figure ci-contre).

TransgeneOme : Une plateforme dédiée à Caenorhabditis elegans transgènique à l'échelle de son génome. Elle contient 16.000 constructions (fosmides) sur les 20.000 gènes codant des protéines.

Remarque : ce ver nématode est à l'origine de la description exacte du phénomène d'interférence ARN (RNAi) par Fire et Mello.

Source : TransgeneOme

Caenorhabditis elegans genome sequencing biochimej

d. La domestication du chien

Cette domestication a été un épisode important dans le développement de la civilisation humaine. Cependant, la période et les lieux de cet événement ne sont pas encore clairement établis.

Par ailleurs, on connaît mal les changements génétiques qui ont accompagné la transformation des loups primitifs en chiens domestiques.

Un re-séquençage du génome entier du chien et du loup a permis d'identifier 3,8 millions de variants génétiques utilisés. Ces variants ont a leur tour permis d'identifier 36 régions du génome, probablement cibles de la sélection au cours de la domestication du chien (Axelsson et al., 2013).

  • 19 régions contiennent des gènes importants dans le fonctionnement du cerveau, dont huit appartiennent à des voies de développement du système nerveux qui sous-tendent potentiellement les changements de comportement au cours de la domestication du chien.
  • 10 gènes ayant des rôles clés dans la digestion de l'amidon et le métabolisme des acides gras montrent également des signaux de sélection.

Il est ainsi fort probable que les processus adaptatifs qui ont permis aux ancêtres du chien moderne de prospérer avec une alimentation riche en amidon (issus principalement des déchets des humains sédentarisés), par rapport à l'alimentation carnivore du loup, a constitué une étape cruciale dans la domestication du chien.

e. Le codage de l'information numérique dans de l'ADN

La production de ressources numériques, la transmission de données et leur stockage ont révolutionné notre vie moderne. Cependant, de manière parallèle, les tâches d'archivage actif et d'entretien en continu des médias numériques sont de plus en plus complexes.

La molécule d'ADN s'avère un support particulièrement attractif pour le stockage de l'information. C'est, peut-être, le support de l'avenir, du fait notamment de ses capacités d'encodage à haute densité de l'information et de sa longévité dans des conditions de conservation faciles à mettre en oeuvre.

Récemment, un éventail de formats de fichiers courants en informatique ont été codés sous la forme d'ADN (Goldman et al., 2013):

  • les 154 sonnets de Shakespeare : format texte ASCII
  • l'article original de Watson & Crick (structure de l'ADN) : format PDF
  • une photographie en couleur à une résolution moyenne : format JPEG 2000
  • un extrait de 26 secondes du discours de Martin Luther King en 1963 ("I have a dream") : format MP3
  • le code de Huffman utilisé pour convertir les octets en digits en base 3 : format texte ASCII
  • voir la partie "Supplementary information" de l'article de Goldman et al. (2013)

Soit un total de codage dans une molécule d'ADN de l'équivalent de 739 kilo-octets de stockage sur un disque dur avec un taux estimé d'informations de Shannon de 5.2 106 bits.

Coding DNA sequencing information multimedia file format biochimej

Coding DNA sequencing information multimedia file format biochimej

L'ADN a été synthétisé, puis séquencé et les fichiers d'origine ont été reconstruits avec une précision de 100%.

L'analyse théorique indique que le stockage dans de l'ADN est :

  • une technologie d'archivage numérique à long terme réaliste
  • applicable à une échelle bien au-delà des volumes actuels de stockage de l'information
  • particulièrement intéressante du point de vue énergétique

Coding DNA sequencing information multimedia file format biochimej

f. Support de la théorie endosymbiotique

Les génomes nucléaires de 2 algues unicellulaires, remarquables par leur complexité génétique et cellulaire, ont été séquencés : la cryptophyte Guillardia theta et la chlorarachniophyte Bigelowiella natans.

Le transfert de gènes endosymbiotiques, c'est-à-dire le mouvement de l'ADN de l'endosymbiote vers l'hôte avant, pendant et après l'évolution d'un organite, a eu un rôle notable dans l'évolution des algues et de leurs génomes nucléaires.

Les plastes secondaires de ces algues (qui ont évolué indépendamment) sont uniques du fait qu'ils ont conservé un noyau "relique" de l'endosymbiote, appelé nucléomorphe. Les cellules des cryptophytes et des chlorarachniophytes ont ainsi 4 génomes et contiennent des systèmes sub-cellulaires complexes pour l'adressage des protéines et pour la coordination entre les compartiments.

Les algues Guillardia theta et Bigelowiella natans ont des plastes entourés par 4 membranes (figure ci-contre).

Chez les cryptophytes, la membrane ultra-périphérique est en continuité de l'enveloppe nucléaire et sa surface est parsemée de ribosomes.

Entre les paires de membranes internes et externes se trouve le compartiment péri-plastidial (PPC), qui contient le nucléomorphe (NM).

Les chiffres indiquent le nombre estimé de gènes codant des protéines dans les génomes des plastes, des mitochondries (MT), du nucléomorphe et du noyau.

C : hydrates de carbone; PY : pyrénoïdes.

Endosymbiosis endosymbiose nucleomorph genome sequencing algae algue biochimej

Source : Curtis et al. (2012)

g. Les origines de l'espèce humaine : le séquençage du génome de l'homme de Neanderthal

Le premier brouillon du génome de l'homme de Neanderthal a été publié en 2010 par l'équipe de Svante Pääbo (Green et al. (2010) "A Draft Sequence of the Neandertal Genome" Science 328, 710 - 722).

En mars 2013, la même équipe du "Max Planck Institute for Evolutionary Anthropology" (Leipzig - Allemagne) a publié une séquence encore plus précise de ce génome. Il est issu d'un ADN extrait d'un os d'orteil découvert dans la grotte de Denisova en Sibérie du Sud en 2010.

Le séquençage a été effectué avec une plate-forme Illumina HiSeq :

  • il correspond à à une couverture moyenne du génome 50 fois supérieure à celle du brouillon de 2010
  • 99,9 % des 1.7 Gb des séquences d'ADN cartographiables de façon unique sont couvertes au moins 10 fois

La conclusion phare est qu'il semblerait que, contrairement à ce que pensaient de nombreux chercheurs, des Néandertaliens et des hommes modernes se soient mélangés par le passé.

Source : Neanderthal genome project (2013)

Neanderthal sequencing genome biochimej

Cette conclusion est diamètralement opposée à celle formulée par la même équipe en 1997 qui était que "l'homme de Neandertal n'aurait pas contribué à notre patrimoine génétique et constitue une espèce distincte de la nôtre, sans métissage possible".

Il est à noter que le premier génome séquencé était celui de la mitochondrie, bien plus petit et donc moins riche en informations.

h. Reconstitution de la domestication des agrumes comestibles

La production des agrumes comestibles représentait 9 milliards de dollars en 2012.

Les premiers agrumes comestibles ont été cultivés il y a plusieurs milliers d'années en asie du sud-est mais les voies qu'ont suivies les différentes variétés cultivées actuellement ont été perdues. La très faible diversité génétique des agrumes comestibles les rend très vulnérables à diverses maladies.

Le séquençage de plusieurs génomes de mandarine/clémentine, d'orange et de pamplemousse et la comparaison de ces génomes (synténie - ancêtre eudicotyledon hexaploïde) permettent d'établir des stratégies pour améliorer la résistance des agrumes modernes (Wu et al. (2014) Nature Biotech. 32, 656-62).

- Phytozome v.10 : "High-quality reference genome from a haploid derivative of Clementine mandarin (C. x clementina cv. Clemenules)"
- ICGC : International Citrus Genome Consortium

Retour haut de page

8. Etude des éléments de la régulation de la transcription - Structure de la chromatine et épigénomique

Chromatine = ADN + protéine (histones et non-histone) + ARN. Les chromosomes en métaphase représentent le degré le plus élevé de compaction de la chromatine.

Voir un cours sur l'épigénétique (modifications de l'ADN et des histones).

L'accessibilité des protéines (facteurs de transcription et de régulation de la transcription) dépend de la compacité de la chromatine. Le contrôle de la structure de la chromatine est donc un autre mode de contrôle de la transcription des gènes.

De très nombreuses technologies sont développées pour :

  • étudier des parties très spécifiques des génomes et des éléments de régulation de la transcription
  • étudier les divers produits de la transcription des gènes
  • l'épigénomique (ensemble des facteurs épigénétiques) qui est l'étude des modifications de la chromatine qui régulent la transcription des gènes sans que la séquence de l'ADN ne soit altérée. On peut citer : la méthylation de l'ADN (CPG), les modifications post-traductionnelles des histones, la fixation des protéines de régulation sur la chromatine, ...

Figure ci-dessous : Techniques de traitement des acides nucléiques avant séquençage pour l'analyse de parties spécifiques des génomes.

Methods ENCODE sequencage next-generation high-throughput DNA sequencing technologies biochimej

Source : ENCODE

Par exemple :

  • l'hétérochromatine : les régions riches en nucléosomes (complexe ADN - histones)
  • l'euchromatine : les régions pauves en nucléosomes

Eléments du génome cartographiées Techniques utilisées
Régions transcrites en ARN RNA-seq / CAGE / RNA-PET / annotation manuelle
Régions codant des protéines Spectromètrie de masse
Sites de fixation des facteurs de transcription ChIP-seq / DNase-seq
Structure de la chromatine DNase-seq / FAIRE-seq / Histone ChIP-seq / MNase-seq
Sites de méthylation de l'ADN RRBS

Le développement de nouvelles technologies permet l'étude du chromosome interactome et des interactions chromatine-chromatine à longue distance in vivo :

  • "Chromosome Conformation Capture" (3C)
  • "Circularized Chromosome Conformation Capture" ou "Chromosome conformation capture-on-chip" (4C)
  • "Carbon-Copy Chromosome Conformation Capture" (5C)
  • ChIA-PET
  • Hi-C ...

ChIA-PET DNA ADN chromosome genome sequencing sequencage biochimej

Source : de Wit & de Laat (2012)

Définitions des acronymes de ces nouvelles technologies

  • RNA-seq : RNA sequencing (voir ci-dessous)
  • CAGE : Cap Analysis Gene Expression
  • PET : Paired-End Tags / technologies : RNA-PET, DNA-PET, ChIP-PET, ChIA-PET
  • ChIA-PET : Chromatin Interaction Analysis by Paired-End Tag Sequencing
  • ChIP-seq : Chromatin ImmunoPrecipitation sequencing (base de données ChIPBase)
  • DNase-seq : DNase I hypersensitive sites sequencing
  • FAIRE-seq : Formaldehyde-Assisted Isolation of Regulatory Elements sequencing
  • MNase-seq : Micrococcal nuclease digestion followed by sequencing
  • MAINE-seq : MNase-Assisted Isolation of Nucleosomes sequencing (purification of mononucleosomes to extract histone-bound DNA)
  • Epigénomique : techniques utilisant la méthylation de l'ADN ("DNA methylation") :
    1. RRBS : Reduced Representation Bisulfite Sequencing - analyse au niveau d'un seul nucléotide
    2. MeDIP-seq : Methylated DNA ImmunoPrecipitation sequencing - anticorps dirigé contre la 5-méthylcytosine
    3. MethylCap-seq : Methylated DNA Capture by affinity purification sequencing - capture des fragments d'ADN méthylés via leurs domaines de fixation CpG méthylés
    4. "Infinium Human Methylation27 BeadChip" puis "Infinium Human Methylation450 BeadChip® (HumanMethylation 450K)" (Illumina) : étude de 480.000 sites CpG méthylés (sur environ 28 millions) du méthylome humain

ChIPBase : base de données et plate-forme pour le décodage des cartes de liaison, des facteurs de transcription, des profils d'expression, de la régulation de la transcription de longs ARN non codants ("long non-coding RNAs" : lncRNAs, lincRNAs), de microRNA et autres ARN non codant (snoRNAs, tRNAs, snRNAs, ...) et des gènes codant des protéines.


Appellations et acronymes de techniques de séquençage issues des NGS
RNA Transcription RNA Structure
Chromatin Isolation by RNA Purification (ChIRP-Seq)
Global Run-on Sequencing (GRO-Seq)
Ribosome Profiling Sequencing (Ribo-Seq)/ARTseq™
RNA Immunoprecipitation Sequencing (RIP-Seq)
High-Throughput Sequencing of CLIP cDNA library (HITS-CLIP)
Crosslinking and Immunoprecipitation Sequencing (CLIP-Seq)
Photoactivatable Ribonucleoside–Enhanced Crosslinking and Immunoprecipitation (PAR-CLIP)
Individual Nucleotide Resolution CLIP (iCLIP)
Native Elongating Transcript Sequencing (NET-Seq)
Targeted Purification of Polysomal mRNA (TRAP-Seq)
Crosslinking, Ligation, and Sequencing of Hybrids (CLASH-Seq)
Parallel Analysis of RNA Ends Sequencing (PARE-Seq)
Genome-Wide Mapping of Uncapped Transcripts (GMUCT)
Transcript Isoform Sequencing (TIF-Seq)
Paired-End Analysis of TSSs (PEAT)
Selective 2'-Hydroxyl Acylation Analyzed by Primer Extension Sequencing (SHAPE-Seq)
Parallel Analysis of RNA Structure (PARS-Seq)
Fragmentation Sequencing (FRAG-Seq)
CXXC Affinity Purification Sequencing (CAP-Seq)
Alkaline Phosphatase, Calf Intestine-Tobacco Acid Pyrophosphatase Sequencing (CIP-TAP)
Inosine Chemical Erasing Sequencing (ICE)
m6A-Specific Methylated RNA Immunoprecipitation Sequencing (MeRIP-Seq)
Low-Level RNA Detection Low-Level DNA Detection
Digital RNA Sequencing
Whole-Transcript Amplification for Single Cells (Quartz-Seq)
Designed Primer–Based RNA Sequencing (DP-Seq)
Switch Mechanism at the 5' End of RNA Templates (Smart-Seq)
Unique Molecular Identifiers (UMI)
Cell Expression by Linear Amplification Sequencing (CEL-Seq)
Single-Cell Tagged Reverse Transcription Sequencing (STRT-Seq)
Single-Molecule Molecular Inversion Probes (smMIP)
Multiple Displacement Amplification (MDA)
Multiple Annealing and Looping–Based Amplification Cycles (MALBAC)
Oligonucleotide-Selective Sequencing (OS-Seq)
Duplex Sequencing (Duplex-Seq)
DNA Methylation DNA-Protein Interactions
Bisulfite Sequencing (BS-Seq)
Post-Bisulfite Adapter Tagging (PBAT)
Tagmentation-Based Whole Genome Bisulfite Sequencing (T-WGBS)
Oxidative Bisulfite Sequencing (oxBS-Seq)
Tet-Assisted Bisulfite Sequencing (TAB-Seq)
Methylated DNA Immunoprecipitation Sequencing (MeDIP-Seq)
Methylation-Capture (MethylCap) Sequencing
Methyl-Binding-Domain–Capture (MBDCap) Sequencing 79
Reduced-Representation Bisulfite Sequencing (RRBS-Seq)
DNase l Hypersensitive Sites Sequencing (DNase-Seq)
MNase-Assisted Isolation of Nucleosomes Sequencing (MAINE-Seq)
Chromatin Immunoprecipitation Sequencing (ChIP-Seq)
Formaldehyde-Assisted Isolation of Regulatory Elements (FAIRE-Seq)
Assay for Transposase-Accessible Chromatin Sequencing (ATAC-Seq)
Chromatin Interaction Analysis by Paired-End Tag Sequencing (ChIA-PET)
Chromatin Conformation Capture (Hi-C/3C-Seq)
Circular Chromatin Conformation Capture (4-C or 4C-Seq)
Chromatin Conformation Capture Carbon Copy (5-C)
Source : Illumina - publications-reviews

Retour haut de page

10. Séquençage du transcriptome : méthode "RNA-seq"

C'est une technologie récente et assez complexe. Des centaines de millions de fragments trés courts (quelques dizaines de nucléotides) sont générés et séquencés ("ultra high-throughput short reads").

Quelques avantages de la méthode "RNA-seq"

  • Procole simplifié de construction des banques.
  • Extrême sensibilité : 10 à 100 fois plus élevée que les puces à ADN.
  • Résolution à la base près : les fragments séquencés sont trés courts (quelques dizaines de nucléotides), leur nombre est énorme (plusieurs millions) et ils se chevauchent. Cette technique permet donc (entre autres) :
    1. l'analyse de régions ayant de fortes homologies (séquences répétées par exemple), de SNP.
    2. l'analyse des bordures d'exons, des profils d'épissage alternatif et l'étude d'isoformes de protéines (voir "Les frontières intron-exon" ci-dessous).
Cette technique permet :
  1. de quantifier les ARN
  2. de détecter des ARN rares et de mettre en évidence des régions dont on ne savait pas au préalable qu'elles sont transcrites.
  3. la découverte de petits ARN ("small RNAs" : snRNA, snoRNA, siRNA, miRNA, piRNA ("Piwi-interacting RNAs"), ...) de faible taille (20 - 30 nucléotides)

Petits ARN small RNAs snRNA snoRNA siRNA miRNA piRNA biochimej

Source : Buckingham (2003)

Cette technique procure des informations issues de la comparaison avec des génomes complets.

Il n'est pas nécessaire d'avoir des connaissances sur le génome étudié. Cependant, si l'on dispose de génomes de "référence", c'est une méthode de choix pour améliorer sensiblement leur annotation.

Sequence consensus pre-mRNA spliceosome RNA seq protocole biochimej

Les difficultés d'assemblage des lectures et de reconstruction des transcrits pleine longueur sont les suivantes (liste non exhaustive) :

  • l'existence ou non d'un génome de référence (annoté ou pas)
  • la qualité des séquences (le taux d'erreur de séquençage - "sequencing error rates")
  • la différence de taux de transcription des gènes donc la différence du nombre de copie des transcrits
  • la conséquence des deux précédents peut-être un nombre élevé de séquences incorrectes (un transcrit fortement exprimé avec des erreurs de séquençage) et un petit nombre de séquences correctes (un transcrit faiblement exprimé sans erreur de séquençage)
  • les transcrits codés par des loci adjacents peuvent se chevaucher et peuvent être fusionnés en un transcrit chimérique erroné
  • la structure des données de séquençage doit autoriser plusieurs transcrits par locus en raison de l'épissage alternatif
  • des séquences qui sont répétées dans différents gènes sont source d'ambiguïté
a. Méthodes pour l'assemblage des lectures

Les approches de type "Mapping-first"   Les approches de type "Assembly-first (de novo)"
Elles alignent d'abord toutes les lectures par rapport à un génome de référence (non annoté) puis assemblent les séquences (alignements de séquences chevauchantes) et enfin essayent de couvrir les bordures d'épissage alternatif avec les lectures de type "single-end sequencing / paired-end sequencing". Elles utilisent les lectures pour assembler les séquences des transcrits qui seront ensuite positionnés sur un génome de référence (s'il en existe un).
Ces approches ont, en principe, une sensibilité maximale mais dépendent de l'alignement correct [lectures - génome de référence] qui est compliqué du fait de l'épissage alternatif, des erreurs de séquençage et de l'absence de génomes de référence dans de nombreux cas. Ces approches ne nécessitent pas d'alignement [lectures - génome de référence], point capital si on ne dispose pas de génome de référence, ou si celui-ci contient beaucoup de gap ou s'il est très fragmenté ou s'il est modifié de façon substantielle.
Exemples de logiciels : Exemples de logiciels :

Autres moyens bioinformatiques

  • site web avec des applications de visualisation ("mapper") et d'annotation. Exemple : TopHat : "a fast splice junction mapper for RNA-Seq reads".
  • base de données TSA : "Transcriptome Shotgun Assembly Database"
  • base de données SRA : "The Sequence Read Archive stores raw sequencing data from the next generation of sequencing platforms".
  • programmation par contraintes : CLASS ("Constraint-based Local Assembly and Selection of Splice variants")

Voir une liste très complète des ressources logicielles pour l'analyse des données RNA-seq.

3 types de formats de fichiers sont couramment utilisés :

  • FASTQ : format basé sur du texte pour stocker une séquence biologique (généralement la séquence nucléotidique) et des scores de qualité liés à cette séquence (les 2 sont codés par des caractères ASCII sur plusieurs lignes - exemple : la ligne 1 commence avec le caractère @). C'est le fichier de données brutes issues du séquenceur.
  • SAM ("Sequence Alignment/Map") : format basé sur du texte délimité avec une section en-tête (facultative) et une section alignement. (Voir les spécifications samtools/hts-specs). BAM : codage binaire du ficher SAM correspondant.
  • GTF ("Gene Transfer Format") : format basé sur du texte délimité par des tabulations et des champs. Ce format est utilisé par beaucoup de logiciels pour décrire la structure des transcrits (introns, exons, sites de démarrage, UTR, ...) et le lien entre les transcrits et le gène auquel ils sont associés.

La qualité des assemblages   Définition de RPKM

Elle est mesurée par la taille et la précision de leurs contigs. La taille d'un assemblage est corrélée à des valeurs statistiques : la longueur maximale, la longueur moyenne, la longueur totale combinée et la valeur du contig N50.

Le contig N50 est la longueur du plus petit contig dans l'ensemble qui contient le moins de contigs (donc l'ensemble qui contient les contigs les plus grands) et dont la longueur combinée de ces contigs représente au moins 50% de l'assemblage.

RPKM : "Reads Per Kilobase of exon model per Million fragments mapped" = C . 109 / [N x L]

avec :

  • C = nombre de lectures positionnées sur les séquences des exons d'un gène
  • N = nombre total de lectures positionnées issues de l'expérience
  • L = taille de la somme des exons en paires de base

Mortazavi et al. (2008) "Mapping and quantifying mammalian transcriptomes by RNA-Seq" Nat. Meth. 5, 621-628

Retour haut de page

b. Caractéristiques des bordures exon-intron ("exon-intron borders")

Voir un cours sur l'épissage des ARN messager et le spliceosome.

La plupart des introns commencent par la séquence consensus 5'-GU et finissent par la séquence consensus AG-3'. Ces séquences sont appelés respectivement "site donneur lors de l'épissage" et "site accepteur lors de l'épissage" ("splice donor site" et "splice acceptor site").

Il existe en général une région riche en nucléotides pyrimidiques (C et U) en amont du site AG.

Figure ci-contre : Séquences consensus de pré-ARNm subissant un épissage.

  • BPS : "branch point sequence"
  • 5'SS : "5' splicing site"
  • 3'SS : "3' splicing site"
  • N : n'importe quel nucléotide
  • R : une purine
  • Y : une pyrimidine

Sequence consensus pre-mRNA spliceosome biochimej

En amont de cette région se trouve le "point de branchement" ("branch point") qui contient toujours une adénine, mais qui par ailleurs est faiblement conservée.

Une séquence typique est YNYYRAY où Y est une pyrimidine (C ou U), N n'importe quel nucléotide, R est une purine (G ou A) et A est l'adenine.

Dans 60% des cas, l'extrémité de la séquence de l'exon situé en 5' (site donneur) est (A/C)AG et l'extrémité de la séquence de l'exon situé en 3' (site accepteur) est G (voire A).

Sequences consensus frontiere intron exon border biochimej

Source : "RNA sequence analysis tools"

c. Méthodes pour la reconstruction des transcrits

Les logiciels d'alignement de lectures dans des régions non épissées ("unspliced reads aligner").

Ils sont utilisés pour aligner les lectures avec un transcriptome de référence ou un génome de référence.

 

Les logiciels d'alignement de lectures dans des régions épissées ("spliced reads aligner").

Ils sont utilisés pour aligner les lectures avec un génome de référence.

Ces lectures peuvent enjamber des introns et nécessitent l'introduction de grands gaps.

Il existe 2 principaux types de méthodes :

- la méthode "seed" (exemple de logiciel : Stampy) : aligne de courtes sous-séquences ("seed" - points d'ancrage) de chaque lecture avec une référence, nécessitant une concordance parfaite ("perfect matches") de tous les nucléotides de ces sous-séquences.

- la méthode Burrows-Wheeler (exemple de logiciel : Bowtie) : elle réorganise les caractères dans une séquence, permettant une meilleure compression des données et ainsi d'utiliser moins de capacité mémoire lors de l'alignement des lectures sur un génome.

La méthode Burrows-Wheeler crée un index de la séquence de référence et recherche des correspondances parfaites. Les discordances ("mismatches") sont autorisées mais s'accompagnent d'une augmentation exponentielle de la complexité du calcul.

La méthode Burrows-Wheeler est plus rapide mais moins sensible que la méthode "seed".

Les logiciels de ce type placent les lectures qui enjambent les jonctions d'épissage en les fractionnant en segments plus petits. Puis ils déterminent la meilleure correspondance (théorique) sur la base de scores d'alignement et de signaux consensus d'épissage (di-nucléotides consensus 5'-GU et AG-3').

Il existe 2 principaux types de méthodes :

- la méthode "exon-first" (exemple : logiciel TopHat) : elle cartographie l'ensemble des lectures sur le génome avec une méthode du type "unspliced read aligners", puis elle recherche des alignements dans les zones d'épissage avec les lectures non cartographiées.

- la méthode "seed-and-extend" (exemple : logiciel GSNAP) : c'est une stratégie d'alignement qui construit d'abord une table de hachage contenant l'emplacement de chaque k-mer ("seed" - point d'ancrage) sur le génome de référence. Ces algorithmes étendent ensuite ces point d'ancrage dans les deux directions pour trouver le ou les meilleur(s) alignement(s) pour chaque lecture.

La méthode "seed-and-extend" est plus lente mais plus sensible.


Figure ci-dessous : exemple de suite logicielle ("pipeline") pour l'analyse RNA-seq.

Sequence consensus pre-mRNA spliceosome biochimej

  • Bowtie : alignement des lectures via l'algorithme de Burrows - Wheeler (permutation réversible de caractères dans un texte) - voir article
  • TopHat : recherche de jonctions d'épissage alternatif potentielles et donc de différentes isoformes de transcrits (combinaison d'exons) - voir article
  • Cufflinks : mesure de l'expression d'isoformes de transcrits (assemblage / estimation de l'abondance des transcrits / mesure des différences d'expression) - voir article
  • CummeRbund : script R pour l'analyse et la visualisation

Voir une liste (impressionnante) de logiciels dédiés à l'analyse des résultats RNA-seq.

Principe (très simplifié) de la reconstruction des transcrits avec des graphes de type de Bruijn

Dans ce type de graphe, un nœud est défini par une séquence de nucléotides d'une longueur k fixe (appelée "k-mer"). Cette longueur k est beaucoup plus courte que la longueur d'une lecture. Les noeuds sont reliés par des arêtes si les noeuds se chevauchent parfaitement sur (k-1) nucléotides. Chaque nœud est relié à un nœud "jumeau" qui est la série inverse des séquences complémentaires des "k-mer". Cela permet de prendre en compte le chevauchement entre les lectures de brins opposés.

Cette représentation compacte permet d'énumérer toutes les solutions par lesquelles les séquences des transcrits peuvent être reconstruites: pour l'assemblage du transcriptome, chaque chemin dans le graphe représente un transcrit possible.

 

11. Liens Internet et références bibliographiques
"Précis de génomique" - Gibson & Muse (2004) - Ed. De Boeck Université - ISBN : 2-8041-4334-1

Méthode de séquençage de F. Sanger

Sanger et al. (1977) "DNA sequencing with chain-terminating inhibitors" Proc. Natl Acad. Sci. USA 74, 5463 - 5467

Film (format QuickTime) : "Dideoxy Sequencing of DNA"

Voir l'animation : "Sanger sequencing"

Article

Aller au site

Aller au site

ENCODE

ENCODE : The Encyclopedia of DNA Elements
The ENCODE Project Consortium (2011) "A User's Guide to the Encyclopedia of DNA Elements (ENCODE)" PLoS Biol 9, e1001046
The ENCODE project Consortium (2012) "An integrated encyclopedia of DNA elements in the human genome" Nature 489, 57 - 74
Mouse ENCODE Consortium (2012) "An encyclopedia of mouse DNA elements (Mouse ENCODE)" Genome Biol. 13, 418

ENCODE
Article
Article
Article

Le séquençage des génomes - Université Jussieu

Génoscope : Questions fréquemment posées à propos du génome humain.

"DNA Sequencing Costs : Data from the NHGRI Large-Scale Genome Sequencing Program"

"Transcriptome Shotgun Assembly (TSA) Database"

Aller au site

Aller au site

Aller au site

TSA

Quelques articles en relation avec les nouvelles technologies de séquençage

  • Brenner et al. (2000) "Gene expression analysis by massively parallel signature sequencing (MPSS) on microbead arrays" Nat.Biotechnol. 18, 630-634
  • Hanna et al. (2000) "Comparison of sequencing by hybridization and cycle sequencing for genotyping of human immunodeficiency virus type 1 reverse transcriptase" J. Clinic. Microbiol. 38, 2715 - 2721
  • Drmanac et al. (2002) "Sequencing by hybridization (SBH): advantages, achievements, and opportunities" Adv. Biochem. Eng. Biotechnol.77, 75 - 101
  • Margulies et al. (2005) "Genome Sequencing in Open Microfabricated High Density Picoliter Reactors" Nature 437, 376 - 380
  • Edwards et al. (2005) "Mass-spectrometry DNA sequencing". Mutation Research 573, 3 - 12
  • Weber et al. (2007) "Sampling the Arabidopsis transcriptome with massively parallel pyrosequencing" Plant Physiol. 144, 32 - 42
  • Morozova & Marra (2008) "Applications of next-generation sequencing technologies in functional genomics" Genomics 92, 255 - 264
  • Cloonan et al. (2008) "Stem cell transcriptome profiling via massive-scale mRNA sequencing" Nature Methods 5, 613 - 619
  • Zerbino & Birney (2008) "Velvet: Algorithms for de novo short read assembly using de Bruijn graphs" Genome Res. 18, 821 - 829
  • Lieberman-Aiden et al. (2009) "Comprehensive mapping of long-range interactions reveals folding principles of the human genome" Science 326, 289 - 293
  • Metzker M. (2010) "Sequencing technologies — the next generation" Nature Rev. Genet. 11, 31-46
  • Li & Homer (2010) "A survey of sequence alignment algorithms for next-generation sequencing" Brief. Bioinform. 11, 473 - 483
  • Suzuki et al. (2011) "Comparison of Sequence Reads Obtained from Three Next-Generation Sequencing Platforms" PLoS ONE 6, e19534
  • Glenn, T.V. (2011) "Field guide to next-generation DNA sequencers" Molec. Ecol. Res. 11, 759 - 769
  • Rothberg et al. (2011) "An integrated semiconductor device enabling non-optical genome sequencing" Nature 475, 348 - 352
  • de Wit & de Laat (2012) "A decade of 3C technologies: insights into nuclear organization" Genes Dev. 26, 11 - 24
  • Machida & Knowlton (2012) "Ways to mix multiple PCR amplicons into single 454 run for DNA barcoding" Meth. Mol. Biol. 858, 355 - 361
  • Rusk, N. (2013) "Disruptive nanopores" Nature Meth. 10, 35

La méthode "Massively parallel signature sequencing" - MPSS - Brenner et al. (2000)

Une séquence signature de 16 à 20 pb (en moyenne 17 pb) fixée à une bille est séquencée / identifiée. Cette identification est effectuée en parallèle sur des centaines de milliers de billes et environ 1 million de signatures sont obtenues par expérience. Voir une animation décrivant cette technique.

Caractéristiques de cette technique :

  • détection de quasiment tous les génes exprimés dans un tissus, même ceux dont le niveau d'expression est faible
  • détection de "petits" ARN ("small RNAs" : snRNA, snoRNA, siRNA ("small interfering RNA"), miRNA, piRNA, ...) de faible taille (20 - 30 nucléotides)
  • mesure fine du niveau d'expression via un comptage précis et non biaisé des ARN messagers d'un tissus

Application à Arabidopsis

Smith et al. (1986) "Fluorescence detection in automated DNA sequencing" Nature 321, 674 - 679

Ronaghi et al. (1998) "A sequencing method based on real-time pyrophosphate" Science 281, 363 - 365

Ahmadian et al. (2006) "Pyrosequencing: History, biochemistry and future" Clinica Chimica Acta 363, 83 - 94

Edwards & Batley (2010) "Plant genome sequencing: applications for crop improvement" Plant Biotechnol. J. 8, 2 - 9

Sboner et al. (2011) "The real cost of sequencing: higher than you think" Genome Biology 12, 125

Article

Biotage

Article

Article

Article

Wang et al. (2012) "TILLING in extremis" Plant Biotechnol. J. 10, 761 - 772

Sarov et al. (2012) "A Genome-Scale Resource for In Vivo Tag-Based Protein Function Exploration in C. elegans" Cell 150, 855 - 866

Lu et al. (2012) "Effective driving force applied on DNA inside a solid-state nanopore" Phys. Rev. E 86, 01192-1 - 01192-8

Vlassarev & Golovchenko (2012) "Trapping DNA near a Solid-State Nanopore" Biophysical J. 103, 352 - 356

Article

Article

Article

Article

Curtis et al. (2012) "Algal genomes reveal evolutionary mosaicism and the fate of nucleomorphs" Nature 492, 59 - 65

Axelsson et al. (2013) "The genomic signature of dog domestication reveals adaptation to a starch-rich diet" Nature 495, 360–364

Goldman et al. (2013) "Towards practical, high-capacity, low-maintenance information storage in synthesized DNA" Nature 494, 77 - 80

Green et al. (2010) "A Draft Sequence of the Neandertal Genome" Science 328, 710 - 722

Article

Article

Article

Article

Bock et al. (2010) "Genome-wide mapping of DNA methylation: a quantitative technology comparison" Nat. Biotechnol. 28, 1106 - 1114

Manrao et al. (2012) "Reading DNA at single-nucleotide resolution with a mutant MspA nanopore and phi29 DNA polymerase" Nat. Biotechnol. 30, 349 - 353

Shendure & Aiden (2012) "The expanding scope of DNA sequencing" Nature Biotech. 30, 1084–1094

Article

Article

Article

Ramaswami et al. (2013) "Identifying RNA editing sites using RNA sequencing data alone" Nature Meth. 10, 128 - 13

Hoque et al. (2013) "Analysis of alternative cleavage and polyadenylation by 3' region extraction and deep sequencing" Nature Meth. 10, 133 - 139

Benjamin et al. (2014) "Comparing reference-based RNA-Seq mapping methods for non-human primate data" BMC Genomics 15, 570

Article

Article

Article

Quick et al. (2016) "Real-time, portable genome sequencing for Ebola surveillance" Nature 530, 228 - 232

Lek et al. (2016) "Analysis of protein-coding genetic variation in 60,706 humans" Nature 536, 285 291

Article

Article

Retour haut de page

Valid XHTML 1.0 Transitional