Analyse des données d'expression issues des puces à ADN

Sommaire
Tweet

1. Introduction

2. Préparation des échantillons et hybridation

3. L'analyse des données

a. La détection du signal et l'analyse d'images

b. Le traitement des données brutes

c. Analyse des données : la prédiction

4. L'interprétation biologique des données: l'ontologie et l'annotation

5. "Chromatin ImmunoPrecipitation on Chip"

6. Comparaison des puces à ADN et de la technique de séquençage "RNA-seq"

7. Application

8. Liens Internet et références bibliographiques

 

1. Introduction

Préambule : les nouvelles technologies de séquençage à trés hauts débits vont-elles rendre caduques les approches telles que les puces à ADN, "Chip on Chip" ou EST ?

Il y a des arguments pour (à long terme) et contre (l'acquis via les puces à ADN ou EST et la précision de cet acquis). Voir le chapitre "Comparaison puces à ADN et RNA-seq".

A titre historique et conceptuel, il est malgré tout important de connaître les principes des études du transcriptome par la technique des puces à ADN.

La première puce à ADN (figure ci-contre) avec 45 sondes fluorescentes d'Arabidopsis thaliana est apparue en 1995 (Schena et al. (1995) Science 270, 467 - 470).

Le développement des puces à ADN sur membrane de nylon puis sur lame de verre a permis d'obtenir des mesures massivement parallèles de la concentration des ARN messagers d'une cellule dans un état physiologique donné.

Diverses techniques permettaient à cette époque d'aborder l'étude de l'expression des gènes :

  • la technique dite "northern blot"
  • la transcription inverse suivie de réactions de polymérisation en chaîne ("reverse transcription polymerase chain reactions", RT-PCR)

Puces ADN Schena

Cependant la principale avancée des puces à ADN a été de changer d'échelle : l'analyse simultanée de l'ensemble de tous les transcrits d'un génome.

La technologie des puces à ADN a permis de générer des "images" de l'état de l'expression des gènes d'une cellule.

L'application immédiate a été d'améliorer et de préciser le diagnostic, le pronostic et l'orientation thérapeutique dans le cas de pathologies diverses.

Type "macro-array" ou filtre à haute densité "micro-array" puce à oligonucléotides
principe dépôt direct de l'ADN sur le support
1 condition expérimentale par puce
dépôt direct de l'ADN sur le support
2 conditions expérimentales par puce
sondes oligonucléotidiques synthétisées in situ par photolithographie
1 condition expérimentale par puce
  marquage radioactif
criblage par excès de cibles
marquage par fluorescence marquage par fluorescence
fragments d'ADN déposés 2400 10000 jusqu'à 4,2 millions oligonucléotides
aperçu filtres à haute densite micro-arrays puces à oligonucléotides
Source : DNA microarray principle
Principaux fabricants de puces à ADN
  • Affymetrix (USA - californie) : côtée au NASDAQ (environ 14 dollars l'action). De prestigieuses collaborations soulignent la position de "leader" de la technologie Affymetrix (rapprochement des technologies des biopuces SpliceArrays d'ExonHit Therapeutics et GeneChip d'Affymetrix / avril 2005 : accord entre Affymetrix et bioMérieux - tests de diagnostic).
  • Agilent Technologies (Arabidopsis 2 Oligo Microarray Kit) : puces à oligonucléotides 60-mer (plus de 21,500 sondes) qui couvre environ 80% du génome de Arabidopsis thaliana. Les annotations sont celles de la base de données TIGR ATH1 v. 3 (au TAIR).

Les puces à ADN sont des lames de verre activées sur lesquelles sont déposées de nombreuses copies d'une séquence d'ADN spécifique d'un gène donné (figure ci-contre).

Source : Frouin & Gidrol (2005) Biofutur 252

pointes de depot d'ADN

 

Les différents types d'aiguilles d'impression

Les clavettes ou aiguilles fendues

Les clavettes ou aiguilles fendues transfèrent quelques nanolitres de solution d'ADN sur l'alignement par tension capillaire quand la pointe entre en contact avec la surface.

Les différents types d'aiguilles d'impression

Les pointes et les aiguilles TeleChem™ appliquent de petites gouttes par contact entre l'aiguille et le support.

 

La construction pointe et anneau

La construction pointe et anneau prélève l'ADN sur un petit anneau. Une aiguille plaque la solution sur la lamelle avec une densité uniforme.

imprimante à jet d'encre

Une imprimante à jet d'encre pulvérise des goutelettes de quelques picolitres de liquide sous pression.

Source : "Précis de génomique" 1ère Ed. (2004) - G. Gibson & S. Muse - Ed. de Boeck Université

Voir une vidéo de la fabrication de puces à ADN par un robot (Université du Delaware - USA).

Figure ci-contre, une description de la technologie de synthèse des oligonucléotides sur les puces ultra-haute densité.

Source : Agilent microarray technology

technologie de synthese des oligonucleotides sur les puces ultra-haute densite

Exemples de puces à ADN pour l'étude du transcriptome d'Arabidopsis thaliana

1. La puce CATMA ("Complete Arabidopsis Transcriptome MicroArray" - 2006)

Elle contient 30 886 GSTs (étiquettes spécifiques de gènes - "Gene-specific Sequence Tags") étiquetant la majorité des gènes prédits chez Arabidopsis thaliana. Les GSTs sont des fragments génomiques de 150 à 500 paires de base amplifiés par réaction de polymérisation en chaîne (voir la position des GST).

Au maxium, 50% de ces paires de base doivent être des séquences d'introns. Par ailleurs, elles ont été sélectionnées de sorte que leurs séquences ne présentent pas plus de 70% d'identité avec n'importe quelle autre séquence du génome d'Arabidopsis thaliana.

La puce CATMA est complétée par 615 sondes spécifiques des génomes chloroplastique et mitochondrial. Cette puce permet :

  • de découvrir de nouveaux gènes chez Arabidopsis thaliana
  • l'étude d'un trés grand nombre de gènes différentiellement transcrits selon les organes et dans des conditions de stress biotiques et abiotiques.
  • Aubourg et al. (2007) "Analysis of CATMA transcriptome data identifies hundreds of novel functional genes and improves gene models in the Arabidopsis genome" BMC Genomics 8, 401

La base de données CATdb :

  • rassemble les résultats obtenus avec la puce CATMA
  • a été développée à l'Unité de Recherche en Génomique Végétale / INRA- Versailles (URGV)
  • Gagnot et al. (2008) "CATdb: a public access to Arabidopsis transcriptome data from the URGV-CATMA platform" Nucleic Acids Research 36, D986-D990

2. Une puce dite "chromosomique"

  • Elle est constituée de 20 500 produits PCR (taille moyenne 1 Kb) choisis pour couvrir l'intégralité des 17 millions de paires de base séquencées du chromosome IV d'Arabidopsis thaliana sans a priori sur son annotation.
  • Elle sert à établir des cartes transcriptionnelles et épigénétiques de ce chromosome (notamment par la technique d'immunoprécipitation de la chromatine dans le cas de cartes épigénétiques).
  • Epigénétique et épigénomique : étude de l'influence de l'environnement et de l'histoire individuelle sur les modifications de l'expression des gènes d'une génération à l'autre. Le préfixe "épi" signifie "sur, au-dessus, ...".

3. Une puce ATH1 d'Affymetrix

Cette puce a été conçue en collaboration avec le TIGR et contient plus de 22,500 sondes oligonucléotidiques (25-mer) représentant environ 24,000 gènes d'Arabidopsis thaliana. L'interface "NetAffx Analysis Center" contient les données ATH1-12150 du TIGR et permet l'analyse des données.

Voir une comparaison des caractéristiques de la puce CATMA et d'autres puces Affymetrix ("TAIR Microarray Elements Statistics").

Tableau ci-dessous : survol des puces les plus utilisées pour l'étude de la transcription des gènes chez diverses plantes et nombre d'expériences stockées dans la base de données ArrayExpress / EBI. La puce ATH1 et la puce CATMA sont les plus utilisées et plusieurs centaines d'expériences concernant Arabidopsis ont été publiées.

Tableau des differentes puces a ADN

Source : Baginsky et al. (2010)

Retour haut de page

 

2. Préparation des échantillons et hybridation

Rappel sur la transcription et la traduction

Schématiquement, les deux grandes étapes de l'ADN aux ARN messagers puis des ARN messagers aux protéines sont :

  • la transcription = synthèse de l'ARN messager à partir de l'ADN

Après la transcription, l'enchaînement des 4 nucléotides de l'ARN messager (C, G, A et U) correspond exactement à celui des 4 nucléotides (C, G, A et T) des exons de l'ADN.

L'enchaînement des nucléotides de l'ARN messager est décodé dans les ribosomes par triplet : 3 nucléotides = 1 codon.

Après la traduction, l'enchaînement des 20 acides aminés de la protéine correspond exactement à celui des codons de l'ARN messager.

Rappel sur la transcription et la traduction

Les sondes

Les puces à ADN sont des lames de verre activées sur lesquelles sont déposés plusieurs milliers de "spot" d'acides nucléiques : les acides nucléiques fixés sur les puces à ADN sont appelés sondes ("probes").

  • Les sondes peuvent être de l'ADN génomique (l'ensemble des gènes) ou des gènes transcrits (Expressed Sequence Tags ou EST).
  • Un spot correspond à de nombreuses sondes, c'est-à-dire à de nombreuses copies d'une séquence d'ADN spécifique d'un gène donné.
  • Avant l'hybridation avec les cibles (voir ci-dessous) , les sondes sont dénaturées : elles sont sous forme simple brin et peuvent ainsi s'hybrider avec le brin complémentaire d'une cible.

Voir une vidéo de la synthèse - dépôt des sondes par un robot.

Les cibles

Les acides nucléiques qui sont hybridés avec ces sondes sont appelés cibles ("targets").

Pour une exprérience donnée, une condition expérimentale (stress, pathologie, état de différenciation cellulaire, ...) est comparée à une condition de référence : les ARN messagers (les cibles) sont donc extraits des 2 types de cellules que l'on veut comparer.

Les ARN messagers sont rétro-transcrits en ADNc par une transcriptase inverse (figure ci-contre). C'est une DNA polymérase qui synthétise un brin d'ADN complémentaire (ADNc) en utilisant un brin d'ARN comme matrice.

Un hybride [premier brin d'ADNc - brin d'ARN] est ainsi formé dans un premier temps.

Après synthèse du premier brin d'ADNc, le brin d'ARN matrice est hydrolysé par la RNAse H.

Le second brin d'ADNc est ensuite synthétisé.

Source : "ADN recombinant", Watson et al. (1994) - Ed. DeBooeck Université

Synthese d'ADNc

Au cours de cette rétro-transcription :

  • les ADNc d'un type de cellule sont marqués par une molécule fluorescente
  • les ADNc de l'autre type de cellule sont marqués par une autre molécule fluorescente

Le marquage des cibles consiste en l'incorporation de nucléotides portant :

  • soit le fluorophore cyanine 3 (Cy3™) sous forme de Cy3-dUTP
  • soit le fluorophore cyanine 5 (Cy5™) sous forme de Cy5-dUTP

Ces 2 molécules sont les plus classiquement utilisées.

cyanine nom longueur d'onde émission fluorescence couleur
Cy3™ indodicarbocyanine 3-1-O-(2-cyanoethyl)- (N,N-diisopropyl)-phosphoramidite 563 - 570 nm vert
Cy5™ indodicarbocyanine 5-1-O-(2-cyanoethyl)- (N,N-diisopropyl)-phosphoramidite 662 - 670 nm rouge

cyanine 3

cyanine 5

MMT : groupe 4-monomethoxytrityle
Source : Amersham Biosciences Ltd

Il existe 2 méthodes de marquage des cibles en fluorescence :

  • directe : synthèse d'ADNc marqués par transcription reverse
  • indirecte : (a) synthèse d'ADNc avec incorporation de nucléotides portant un groupement amino-allyl. (b) fixation sur les groupements allyl, de groupements ester liés au fluorochrome.

 

Les deux familles de cibles sont mélangées et déposées sur la lame.

S'il existe un brin d'ADN sonde complémentaire d'un brin d'ADNc cible, ils s'hybrident pour former de l'ADN double brin fluorescent.

Cette hybridation est compétitive : plus la concentration d'un ADNc cible (donc celle de l'ARN messager qui en est l'origine) est élevée, plus l'ADNc cible s'hybridera sur la sonde.

En conséquence, l'intensité de fluorescence traduit, respectivement :

  • fluorescence verte : hybridation préferentielle d'un ADNc cible de référence (témoin)
  • fluorescence rouge : hybridation préferentielle d'un ADNc cible issu de la condition expérimentale

hybridation competitive des sondes et des cibles

Source : Frouin & Gidrol (2005)

Le rapport des intensités de fluorescence traduit donc la concentration relative des ARN messagers dans chaque condition.

Ceux-ci sont soit :

  • sur-exprimés
  • exprimés de la même manière
  • sous-exprimés

Hybridation cibles et sondes

Source : Vulgariz

Voir un exemple de conditions expérimentales et de résultats d'hybridation : "Identification of genes differentially expressed between flowers and leaves".
Puce CATMA / Cy3 : feuilles / Cy5 : fleurs / Arabidopsis thaliana

Retour haut de page

 

3. L'analyse des données

Elle se décompose en 3 étapes :

  • la détection du signal et l'analyse d'images
  • le traitement des données brutes et le regroupement
  • l'analyse des données sur la base, en particulier, d'algorithmes de classification

Certains outils bioinformatiques existent pour répondre à cette démarche.

Source : "L'analyse des résultats de puces à ADN" - ENS

3 etapes de l'analyse des donnees

Malgré tout, la diversité des applications des puces à ADN et des problèmatiques biologiques auxquelles elles contribuent à apporter une réponse, a nécessité le développement d'algorithmes et de logiciels spécifiques à cette technologie.

a. La détection du signal et l'analyse d'images

Lors de la lecture, chaque spot est excité par un laser et l'émission de fluorescence est mesurée. On obtient 2 images en niveaux de gris qui correspondent au mélange des fluorescences respectives des 2 fluorophores.

On remplace les niveaux de gris par :

  • des niveaux de vert pour l'une des images
  • des niveaux de rouge pour l'autre image

Après superposition, on obtient une image en fausses couleurs composée de spots :

  • verts : seul l'ADNc cible de la condition de référence s'est hybridé aux sondes
  • rouges : seul l'ADNc cible de la condition pathologique s'est hybridé aux sondes
  • jaunes : les ADNc cibles des deux conditions sont hybridés aux sondes en quantités égales

 

Competition d'hybridation des cibles et des sondes

Source : Frouin, V. & Gidrol, X. (2005)

Ces étapes font appel à des techniques de traitement de l'image et utilisent des algorithmes de morphologie mathématique.

Les technologies pour l'analyse des images sont de plus en plus performantes. La résolution est augmentée, en conséquence :

  • le nombre de pixels utilisables pour l'analyse est augmenté
  • la sensibilité du rapport [signal / bruit de fond] est augmentée

Par ailleurs, de nouvelles surfaces sont utilisées pour remplacer le verre. Par exemple, des cristaux de mélange d'oxyde de silice et de titane à fluorescence accrue.

Analyse d'image de fluorescence

Source : Agilent microarray technology

Analyse de pixel

Source : MYcroarray

b. Le traitement des données brutes

Après l'étape d'analyse de l'image, chaque sonde est caractérisée par :

  • 2 mesures (cas général) d'intensité de fluorescence (une verte et une rouge)
  • 2 mesures (cas général) du "bruit de fond" : conditions expérimentales, étapes d'acquisition des données, incorporation plus facile de Cy3, ...
Les signaux rouges et vert ne peuvent être interprétés séparément. Les puces à ADN permettent de mesurer une variation de transcription d'un gène entre 2 conditions expérimentales (référence et pathologique, par exemple). Elles fournissent donc des valeurs relatives.

Pour chaque spot, le logarithme du rapport (r) de l'intensité de fluorescence de la condition pathologique sur l'intensité de fluorescence de la condition de référence est calculé (rapport fluorescence rouge / fluorescence verte) : log2(r).

Ce rapport permet d'évaluer la différence du taux de transcription d'un gène entre les 2 échantillons biologiques étudiés.

On considère pour un rapport :

  • au moins supérieur à 2, qu'un gène est sur-exprimé dans une des cibles par rapport à l'autre
  • inférieur à 0,5, qu'un gène est sous-exprimé dans une des cibles par rapport à l'autre

Voir un exemple : Puce CATMA / Cy3 - feuilles / Cy5 : fleurs / Arabidopsis thaliana

logarithme du rapport (r) de l'intensité de fluorescence

Source : Le principe des puces à ADN (Cours ENS)

exemple de puces de 16000 oligonucléotides de Medicago truncatula

Ci-contre : exemple de puces de 16000 oligonucléotides de Medicago truncatula et une représentation des intensités des spots.

Source : The Samuel Roberts Noble Foundation

Normalisation des données de fluorescence

Elle a pour but, entre autre, de distinguer les variations aléatoires (biologiques et expérimentales : celles que l'on veut mettre en évidence) des variations systématiques. Ces dernières ont pour origine en particulier :

  • les différences dans les rendements de marquage par le Cy3-dUTP et le Cy5-dUTP (l'encombrement stérique de ces nucléotides est différent, voir les structures ci-dessus)
  • les différences de demi-vie du Cy3-dUTP et du Cy5-dUTP
  • les différences de quantités de sondes déposées par les différentes aiguilles (voir l'image ci-dessus)
  • une détection des signaux de fluorescence (ou de radioactivité) qui, sur une trés large gamme, n'est pas proportionnelle aux quantités de molécules marquées
  • les problèmes intrinsèques à l'analyse d'image (repérage des spots quand il y en a plusieurs dizaines de milliers sur 1 cm2, distinction entre le bruit de fond et le signal spécifique, ...)

L'hypothèse de base de la normalisation est que la majorité des gènes ont un niveau d'expression invariant entre 2 conditions (référence et pathologique, par exemple), soit : log2(r) = 0.

La normalisation a donc pour but de ramener la moyenne de cette grandeur à 0.

Exemple de valeurs normalisées : le rapport permet de mettre en évidence les gènes pour lesquels le canal rouge (condition pathologique) donne une valeur supérieure au canal vert. Le log2(r) donne une distribution symétrique autour de zéro. Enfin, la soustraction du rapport moyen des logarithmes permet de tenir compte de l'intensité plus importante du canal rouge.

intensité Rouge intensité Vert Différence Rapport ( V/R) log2(r) Centrage de R
16500 15104 -1396 0,915 -0,128 -0,048
357 158 -199 0,443 -1,175 -1,095
8250 8025 -225 0,973 -0,039 0,040

Le filtrage

Un rapport d'une valeur donnée peut être obtenu par des valeurs d'intensité [rouge/vert] trés proches du bruit de fond (peu fiables alors) ou, au contraire, trés élevées (plus significatives).
Exemple : le rapport 1,6 = (160/100) ou (16000/10000).

Le filtrage a pour but d'éliminer les sondes pour lesquelles une des mesures d'intensité de fluorescence est inférieure à un seuil (arbitraire ou déterminé à partir d'un modèle).

Risque statistique

Les traitements précédents aboutissent à une liste de rapports (r) pour chaque gène. La suite consiste à déterminer, à l'aide de logiciels utilisant des techniques statistiques, les gènes différentiellement exprimés (ceux dont les valeurs de log2(r) sont significativement différents de 0).

Cependant, le choix d'une méthode d'analyse est liée aux conditions dans lesquelles a été menée l'expérience (réplicats, facteurs expérimentaux, ...). De plus, ces outils informatiques ne donnent pas de valeur seuil sur le résultat d'un test pour évaluer si l'expression d'un gène est modulée ou non. Il incombe à l'expérimentateur de choisir son niveau de risque.

La standardisation

La méthode de standardisation "MIAME" ("Minimum information about a microarray experiment") est une charte qui décrit l'information minimale (à propos d'une expérience de puce à ADN) requise pour que les résultats de cette expérience soient interprétables, d'une manière non-ambigüe et de sorte que cette expérience soit reproductible.

Tout expérimentateur qui désire déposer ces données issues de puces à ADN dans une banque doit répondre à cette charte en indiquant (entre autre) :

  • le but et une brève description de l'expérience
  • le ou les facteur(s) expérimental(aux) étudié(s)
  • l'origine et les caractéristiques des échantillons biologiques
  • les protocoles d'extractions des ARN, d'hybridation
  • les méthodes d'acquisition des données brutes de la puce, de normalisation de ces données (logiciels et matériels)
  • les caractéristiques de la puce (verre, plastique, ...)
  • une présentation sous forme de tableau des résultats (numéro d'accession des gènes identifiés, description des produits de ces gènes, bruit de fond et mesure de l'intensité de fluorescence, rapport d'intensité, ...)

c. Analyse des données : la prédiction

Outre l'obtention de listes de gènes différentiellement transcrits, on peut suivre le profil de transcription d'un gène : l'ensemble des valeurs de transcription mesurées dans des conditions diverses ou au cours d'une étude cinétique.

Dans ce cas, l'une des 2 sources d'ARN hybridés est fixée de sorte que toutes les valeurs de log2(r) soient comparables. Cette source est alors considérée comme la référence.

On peut dés lors s'intéresser :

  • au développement de méthodes de prédiction de phénotype(s) différent(s) et connu(s) en terme de profils d'expression de certains gènes (apprentissage supervisé).
  • à l'identification puis le regroupement ("clusterisation") de phénotype(s) inconnu(s) à partir de profils d'expression (apprentissage non supervisé). L'intéret est de générer des hypothèses sur des gènes regroupés dans un "cluster": un gène, dont la fonction est inconnue, qui se retrouve avec un grand nombre d'autres gènes impliqués dans une fonction cellulaire particulière, a une forte probabilité d'être lui-aussi impliqué dans cette fonction.

Exemples de logiciels de regroupement : "J-Express" - "MultiExperiment Viewer" - "Genesis"

Figures ci-contre : une série de profils d'expression de gènes désordonnés (figure de gauche) peut être convertie en une série de groupes par le regroupement hiérachique (Eisen et al., 1998).

Le résultat (à droite) est un arbre qui montre l'évolution de l'expression dans le temps pour certains gènes hypothétiques.

  • Les gènes de la classe "down" se regroupent.
  • Il est probable que les gènes "unknown14", "unknown10" et "unknown13" de la classe "unknown" aient des fonctions similaires à ceux de la classe "down".
  • Il en va de même pour les classes "yoyo", "mid" et "late" en ce qui concerne les autres gènes de la classe "unknown".

Source : "Précis de génomique" (2004) - G. Gibson & S. Muse

 

série de profils d'expression de genes

Figure ci-contre : différence de profils d'expression des gènes mitochondriaux de la famille des transporteurs de Arabidopsis thaliana.

Les résultats mettent en évidence les variations selon type de tissus et la réponse à des stress hormonaux et environnementaux.

Source : Millar & Heazlewood (2003) "Genomic and Proteomic Analysis of Mitochondrial Carrier Proteins in Arabidopsis" Plant Physiol. 131, 443 - 453

différence de profils d'expression des genes

Retour haut de page

 

4. L'interprétation biologique des données : l'ontologie et l'annotation

L'interprétation biologiques des données issues des puces à ADN (et d'autres technologies) nécessite de corréler les résultats de ces données à des informations encyclopédiques contenues dans certaines bases de données.

L'interpretation biologique des donnees

Source : CBB group (Berlin)

a. L'ontologie

Une ontologie est un ensemble structuré de termes et de concepts qui représentent le sens d'un champ d'informations, que ce soit par :

  • les métadonnées (données qui définissent une autre donnée) d'un espace de noms (ensembles de termes appartenant à un même répertoire)
  • les éléments d'un domaine de connaissances

Chaque terme de l'ontologie est associé à des "lexicons" (synonymes, homonymes, hyperonymes, ...). Le réseau autour d'un terme est appelé concept.

Les concepts sont formalisés sous forme d'un graphe au sein duquel il existe des relations sémantiques ou d'inclusion ("appartient à").

"is-a" ("est un") symbole symbole I
"part-of" ("fait partie de") symbole symbole P

relation logique ontologie ontology gene annotation

b. Le consortium Gene Ontology

De manière schématique, on peut considérer qu'en génomique, l'ontologie est associée aux notions de terminologie et de classification.

Le consortium Gene Ontology (GO) :

  • augmente la communicabilité entre bases de données
  • distribue une classification qui est l'une des références en génomique fonctionnelle
  • définit un vocabulaire contrôlé (l'ontologie)
  • unifie ainsi la multiplicité des termes employés pour décrire un concept

Exemple : tous les termes suivants

  • glucose synthesis
  • glucose biosynthesis
  • glucose formation
  • glucose anabolism
  • gluconeogenesis

décrivent la formation du glucose (néoglucogénèse)

D'où le terme GO : "gluconeogenesis"

dont l'identifiant est : GO:0006094


Le produit d'un gène :

  • est adressé à un ou plusieurs compartiments cellulaires ("Cellular Component" - CC)
  • participe à un ou plusieurs processus biologiques ("Biological Process" - BP)
  • il y remplit une ou plusieurs fonctions moléculaires ("Molecular Function" - MF)

GO décrit donc les produits des gènes via un ensemble de termes au sein d'un graphe dirigé acyclique ("Directed Acyclic Graph" - DAG) qui contient 3 axes hiérarchiquement indépendants (CC, BP et MF).

Les termes de GO (les noeuds de l'ontologie) sont liés par un ensemble de relations.

En particulier : "Is a", "Part of", "Regulates", "Positively Regulates" et "Negatively Regulates".

relation logique ontologie ontology gene annotation

Chaque terme hérite de la signification de tous les termes qui le séparent de la racine de l'ontologie (notion d'ancêtre, parent et enfant).

relation logique ontologie ontology gene annotation


Le niveau de preuve d'une annotation est précisée par des codes ("Evidence Codes") répartis en catégories : "Experimental", "Computational analysis", "Author statement" (déclaration d'auteur), "Curatorial statement" (déclaration de curateur), "Automatically-assigned".

La dernière catégorie est "Automatically-assigned" (annotation automatique) dont le sous-code "Inferred from Electronic Annotation" (IEA) représente environ 95% de l'annotation.

Voir "Evidence Code Decision Tree".

Exemple de code information déduite
IMP du phénotype des mutants
IGI d'interactions génétiques
IPI d'interactions physiques
ISS par analogie de séquences ou de structure
IDA par expérimentation directe
IEP du profil d'expression
IEA par l'annotation in silico
TAS à partir de la publication de résultats fiables
NAS à partir de la publication de résultats non vérifiables

 

Enfin, on ne soulignera jamais assez le le rôle primordial des scientifiques que l'on nomme curateurs. Ils effectuent, grâce à leur immense culture, un travail dans l'ombre qui assure la qualité, la rigueur et la pertinence des informations associées aux données de génomique, transcriptomique, protéomique et autres contenues dans les bases de données.

GO est extrêmement complexe et nécessite un "navigateur" dans l'arbre de l'ontologie. Le plus utilisé pour GO est AmiGO2.

c. Exemples de logiciels et d'interfaces web pour l'annotation

1. Le consortium GO propose un ensemble de logiciels ("Gene Ontology Tools") pour traiter et analyser des données de divers types, en particulier celles issues des puces à ADN. Ces logiciels sont utilisables directement via une interface Web ou à installer sur l'ordinateur pour divers types de systèmes d'exploitation (Unix, Linux, Windows, Mac)

2. L'une des interfaces les plus didactiques et intuitives pour l'annotation : "QuickGO (GO Browser)".

3. Autre exemple de logiciel - interface web : "GOrilla". Un exemple trés didactique de classification hiérarchique et d'ontologie est montré avec le lien "Running example".

4. Voir un cours sur l'annotation.

d. Exemples de bases de données de niveau de transcription de gènes

  • Gene Expression Omnibus (GEO) : base de données d'expression et d'abondance de molécules (ARNm, ADN génomique et protéines) et aussi un système de recherche de ces données d'expression. Les données soumises répondent à la charte de standardisation "MIAME" et à un cahier des charges trés strict. Les données de GEO sont issues de diverses technologies : puces à ADN, méthode SAGE et spectromètrie de masse.

e. La collection de bases de données KEGG

Il propose pour les voies métaboliques et les métabolites impliqués dans ces voies, des graphes d'interaction entre les enzymes impliquées dans ces voies et, par extension, entre les gènes qui codent ces enzymes.

C'est un outil puissant pour la métabolomique.

Exemple : la biotine existe sous forme libre ou sous forme de groupement prosthétique lié à certaines carboxylases qui catalysent des réactions de synthèse des acides gras ou de certains acides aminés.

En allant sur le site, l'image originale est interactive.

En cliquant sur les N° EC ou les noms, on accéde à une multitude d'informations sur les molécules choisies.

KEGG metabolisme de la biotine

Source : KEGG

Retour haut de page

 

5. "Chromatin ImmunoPrecipitation on Chip"

Cette méthode appelée aussi "ChIP on chip" permet d'identifier les protéines qui se fixent à l'ADN. Elle est extrêmement utile pour l'étude des sites de fixation des facteurs de transcription, ou les histones (étude des profils épigénétiques), par exemple.

Figure ci-contre : Techniques de traitement des acides nucléiques avant séquençage pour l'analyse de parties spécifiques des génomes.

Par exemple :

  • l'hétérochromatine : les régions riches en nucléosomes (complexe ADN - histones)
  • l'euchromatine : les régions pauves en nucléosomes

Source : ENCODE

Methods ENCODE sequencage next-generation high-throughput DNA sequencing technologies

La méthode "ChIP on chip" combine celle de l'immunoprécipitation de la chromatine et celle des puces à ADN.

On crée d'abord une liaison covalente in vivo entre les protéines et la partie de l'ADN avec lesquelles elles interagissent. On utilise la formaldéhyde en général.

L'ADN de la cellule est extrait puis découpé en courts fragments. On sélectionne les fragments d'ADN qui sont associés à la protéine étudiée avec un anticorps spécifique de cette protéine.

Les complexes [ADN-protéine-anticorps] sont précipités. Cette précipitation élimine l'ADN qui ne s'est pas associé à la protéine étudiée.

La partie protéique du complexe [ADN-protéine-anticorps] est protéolysé afin de ne conserver que l'ADN.

En conséquence, les courts fragments d'ADN récupérés sont ceux qui interagissent avec la protéine étudiée. Ces fragments sont identifiés par la technique des puces à ADN.

Protocole chip on chip

Source : Wikipédia


Eléments du génome cartographiées Techniques utilisées
Régions transcrites en ARN RNA-seq / CAGE / RNA-PET
Régions codant des protéines Spectromètrie de masse
Sites de fixation des facteurs de transcription ChIP-seq / DNase-seq
Structure de la chromatine DNase-seq / FAIRE-seq / Histone ChIP-seq / MNase-seq
Sites de méthylation de l'ADN RRBS

Définitions des acronymes des nouvelles technologies

  • RNA-seq : RNA sequencing (voir ci-dessous)
  • CAGE : Cap Analysis Gene Expression
  • PET : Paired-End Tags / technologies : RNA-PET, DNA-PET, ChIP-PET, ChIA-PET
  • ChIA-PET : Chromatin Interaction Analysis by Paired-End Tag Sequencing*
  • ChIP-seq : Chromatin ImmunoPrecipitation sequencing (base de données ChIPBase)
  • DNase-seq : DNase I hypersensitive sites sequencing
  • FAIRE-seq : Formaldehyde-Assisted Isolation of Regulatory Elements sequencing
  • MNase-seq : Micrococcal nuclease digestion followed by sequencing
  • MAINE-seq : MNase-Assisted Isolation of Nucleosomes sequencing (purification of mononucleosomes to extract histone-bound DNA)
  • Epigénomique : techniques utilisant la méthylation de l'ADN ("DNA methylation") :
    1. RRBS : Reduced Representation Bisulfite Sequencing - analyse au niveau d'un seul nucléotide
    2. MeDIP-seq : Methylated DNA ImmunoPrecipitation sequencing - anticorps dirigé contre la 5-méthylcytosine
    3. MethylCap-seq : Methylated DNA Capture by affinity purification sequencing - capture des fragments d'ADN méthylés via leurs domaines de fixation CpG méthylés
    4. "Infinium Human Methylation27 BeadChip" puis "Infinium Human Methylation450 BeadChip® (HumanMethylation 450K)" (Illumina) : étude de 480.000 sites CpG méthylés (sur environ 28 millions) du méthylome humain

ChIPBase : base de données et plate-forme pour le décodage des cartes de liaison, des facteurs de transcription, des profils d'expression, de la régulation de la transcription de longs ARN non codants ("long non-coding RNAs" : lncRNAs, lincRNAs), de microRNA et autres ARN non codant (snoRNAs, tRNAs, snRNAs, ...) et des gènes codant des protéines.


*Le "chromosome interactome" : le super-enroulement et compacité de l'ADN dans les chromosomes (chromatine, histone) : une fois déplié, la molécule d'ADN d'une cellule de l'homme mesure environ 2 m, soit 200.000 fois le diamètre moyen du noyau d'une cellule de mammifère.

Source : de Wit & de Laat (2012)

ChIA-PET DNA ADN chromosome genome sequencing sequencage

L'exploration du "chromosome interactome" et des interactions chromatine-chromatine à longue distance in vivo est liée au développement de nouvelles technologies incluant le séquençage à très haut débit :

  • "Chromosome Conformation Capture" (3C)
  • "Circularized Chromosome Conformation Capture" ou "Chromosome conformation capture-on-chip" (4C)
  • "Carbon-Copy Chromosome Conformation Capture" (5C)
  • ChIA-PET
  • Hi-C

Retour haut de page

 

6. Comparaison des puces à ADN et de la technique de séquençage "RNA-seq"

Voir un développement concernant la technologie RNA-seq.

a. Les puces à ADN et la technique RNA-seq ont toutes deux une haute reproductibilité de résultats avec des réplicats biologiques.

b. Les puces à ADN permettent difficilement de distinguer le cas "pas de transcription" du cas "très faible transcription".

c. En raison de la différence de transcription des gènes et/ou du nombre de gènes codant un même type d'ARN messagers, il n'existe dans une cellule que quelques copies de certains ARN messagers et des dizaines de milliers de copies d'autres ARN messagers :

  • La sensibilité de détection des ARN messagers rares est donc un paramètre capital.
  • La sensibilité de détection de la technique RNA-seq dépend de la profondeur du séquençage et celle des puces à ADN est quasiment constante. Celà signifie qu'en théorie, si on atteind une profondeur de séquençage suffisante, la technique RNA-seq permet de déterminer le nombre réels de toutes les molécules d'ARN dans un échantillon.

d. De multiples transcrits sont générés à partir de certains gènes par épissage alternatif. L'un des avantages de la technique RNA-Seq est sa capacité à détecter ces isoformes différentiellement transcrites :

  • en effet, sur une puce à ADN, une sonde courte donnée cible soit un exon constitutif (présent dans tous les transcrits issus de l'épissage alternatif), soit un exon spécifique de l'un des transcrits. Dans le second cas, ce transcrit est détecté mais les autres transcrits issus du même gène sont ignorés.
  • en conséquence, les ensembles de sondes de puces à ADN ne peuvent pas représenter tous les transcrits de tous les gènes.

e. Les puces à ADN sont sujettes à une saturation d'hybridation en ce qui concerne les transcrits très abondants. Elles ne peuvent pas fournir des mesures quantitatives fiables des changements subtils de la transcription de gènes abondants.

f. La technique RNA-Seq permet d'identifier des variants d'un seul nucléotide ("single nucleotide polymorphism" - SNP). La technique RNA-Seq présente deux avantages dans la détection de variants génétiques :

  • aucune connaissance préalable concernant des variants potentiels n'est requise
  • la détection est faite sur l'ensemble du génome même pour les rares SNP

g. La technique RNA-Seq permet :

Pour l'instant la technique RNA-seq présente deux inconvénients :

  • elle a un côut plus élevé par échantillon
  • elle nécessite un temps très long d'analyse des données (et donc des moyens de calculs énormes)

Par ailleurs, l'un des atouts actuels (mais qui ne peut que diminuer avec le temps) des puces à ADN est l'acquis des dizaines de milliers d'expériences qui ont été menées avec cette technique et les différentes annotations des transcriptomes issues de toutes ces expériences.

L'un des atouts de la technique RNA-seq (ou d'une autre technologie à venir) est l'évolution très rapide des technologies de séquençage à très haut débit : le développement des méthodes avec multiplexage par répartition codes barres, des lectures ("reads") plus longues et un plus grand nombre de lectures appariées ("paired end reads").

Pour l'instant les puces à ADN et la technique RNA-seq restent donc complémentaires et peuvent même être combinées avec des résultats très importants.

Retour haut de page

 

7. Application

Exemple de recherches du projet "Arabidopsis functional genomics" : validation de gènes par l'utilisation de la puce ADN du chromosome 2.

Question Procédure Réponse
Combien la base de données TAIR contient-elle d'expériences utilisant des puces et obtenues après l'application de stress abiotiques ? Aller au site : TAIR Microarray Experiments Search

36 / (sélectionner ("abiotic treatment" dans le menu déroulant "Experiment Category")

Combien d'expériences ont trait spécifiquement aux semences ? "Search by Keywords" -> Item "Plant Tissue" -> taper "seed" 73
Combien d'expériences ont trait spécifiquement à la germination de semences ? "Search by Keywords" -> Item "Experiment Goals" -> taper "seed germination" 3
Quel organisation (consortium) est à l'origine des puces considérées ? Cliquer sur le lien : AtGenExpress The Arabidopsis Functional Genomics Network
Question Procédure Réponse (01/02/06)

Combien d'expériences ont trait à un traitement hormonal des semences ?

Item "Experiment Categories", cliquer sur le lien "hormone treatment" 26

Quelle est l'hormone ?

Quelles sont les caractéristiques de cette hormone ?

L'acide abcissique ("abscisic acid" - ABA) identifié en 1963 par F. Addicott et ses collaborateurs.

Hormone végétale synthétisée par les racines ou les feuilles en période de sécheresse pour limiter le stress hydrique.

Structure : sesquiterpène - terpène dérivé de l'isoprène, composé en C10.

Certains rôles : inhibition de la germination des graine - fermeture des stomates

acide abcissique

Combien d'expériences ont trait à un traitement hormonal des semences ? Item "Experiment Categories", cliquer sur le lien "hormone treatment " 26

Traitement de semences de pois (Pisum sativum) par l'ABA

Grelet et al. (2005) "Identification in Pea Seed Mitochondria of a Late-Embryogenesis Abundant Protein Able to Protect Enzymes from Drying" Plant Physiol. 137, 157 - 167
Question Procédure Réponse
Quelles sonts les conditions environnementales, le stade de développement et les traitements des différents échantillons (référence et ) qui ont été utilisées pour les puces ?

Item "Experiment Name", cliquer sur le lien "AtGenExpress: Effect of ABA during seed imbibition"

Choisir l'onglet "Samples"

"RIKEN"

Aller au site : "Rarge - Riken Arabidopsis"

Choisir l'item "Microarray" - "Search Expression Genes"

 

Puce Arabidopsis thaliana

Profil d'expression de 7000 gènes après traitement par l'ABA

Seki et al. (2002) "Monitoring the expression pattern of around 7,000 Arabidopsis genes under ABA treatments using a full-length cDNA microarray" Functional & Integrative Genomics 2, 282 - 291
Question Procédure Réponse

Quels sont les gènes d'autres organismes annotés de façon similaires ?

Item "Experimental Goals", cliquer sur le lien "response to abscisic acid stimulus"

Item "Similarly Annotated Genes From Other Organisms", cliquer sur le lien " GO Database"

Keyword:response to abscisic acid stimulus

GO:0009737

 

8. Liens Internet et références bibliographiques
Consortium "Gene Ontology" (GO)

GO

KEGG ("Kyoto Encyclopedia of genes ans genomes")

KEGG

Barrett et al. (2005) "NCBI GEO : mining millions of expression profiles–database and tools" Nuc. Acids Res. 33, D562 - D566

GEO ("Gene Expression Omnibus")

TAIR Microarray Experiments Search

GEO

TAIR

Frouin, V. & Gidrol, X. (2005) "Analyse des doinnées d'expression issues des puces à ADN" Biofutur 252, 22 - 26

Schena et al. (1995) "Quantitative monitoring of gene expression patterns with a complementary DNA microarray" Science 270, 467 - 470

Schena et al. (1996) "Parallel human genome analysis: Microarray-based expression monitoring of 1000 genes" PNAS 93, 10614 - 10619

Lockhart et al. (1996) "Expression monitoring by hybridization to high-density oligonucleotide arrays" Nat. Biotechnol. 14, 1675 - 1680

DeRisi et al. (1997) "Exploring the metabolic and genetic control of gene expression on a genomic scale" Science 278, 680 - 686

Eisen et al. (1998) "Cluster analysis and display of genome-wide expression patterns" PNAS 95, 14863 - 14868

Lipshutz et al. (1999) "High density synthetic oligonucleotide arrays" Nat. Genetics 21, 20 - 24

Alizadeh et al. (2000 ) "Distinct types of diffuse large B-cell lymphoma identified by gene expression profiling" Nature 403, 503 - 511

Garcia-Hernandez et al. (2002) "TAIR: a resource for integrated Arabidopsis data" Functional & Integrative Genomics 2, 239 - 253

Wang et al. (2007) "A new method to measure the semantic similarity of GO terms" Bioinformatics 23, 1274 - 1281

Zhidian et al. (2009) "G-SESAME: web tools for GO-term-based gene similarity analysis and knowledge discovery" Nuc. Acids. Res. 37, W345 - W349

de Wit & de Laat (2012) "A decade of 3C technologies: insights into nuclear organization" Genes Dev. 26, 11 - 24

Zhao et al. (2014) "Comparison of RNA-Seq and Microarray in Transcriptome Profiling of Activated T Cells" PLoS ONE 9, e78644

Article

Article

Article

Article

 

Valid XHTML 1.0 Transitional         Flux RSS Retour haut de page