Les marqueurs de séquence exprimée ou "EST" ("expressed sequence tags")

Flux RSS

1. Introduction

2. Principe de l'obtention d'EST

3. Les biais

a. La normalisation des banques d'ADNc
b. L'hybridation soustractive de banques d'ADNc
c. Protocole de préparation d'une banque normalisée et soustraite
d. L'épissage alternatif

4. La banque "dbEST"

5. Le regroupement des EST

a. Le masquage

b. Les groupes "UniGene"
c. Construction itérative d'un groupe "UniGene" sur la base de transcrits (ARNm)
d. Exemple d'un groupe "UniGene"

6. L'assemblage des EST et des transcrits

a. Les contig
b. La reconstitution de la structure la plus probable d'un gène

7. Exemples de résultats issus de l'analyse d'EST

9. Liens Internet et références bibliographiques

 

1. Introduction

Le génome des Eucaryotes ne contient qu'une proportion faible de séquences dites codantes : séquences d'ADN transcrites en ARN messagers, eux-mêmes traduits en protéines.

Il existe une différence de niveau de transcription des gènes selon les tissus et dans le temps (différence de transcription spatio-temporelle).

Dans un tissu donné, environ 15.000 gènes sont transcrits:

  • environ 10.000 gènes sont transcrits de manière constitutive : ils sont transcrits tout le temps et par tous les types de cellules. Les protéines qui en découlent assurent les fonctions de base communes à tous types de cellules (par exemple le métabolisme).
  • environ 5.000 gènes sont transcrits de manière spécifique : en fonction du type de cellule et/ou de son stade de développement.

Le taux de transcription des gènes, c'est-à-dire la quantité d'ARN (messagers ou non codants) est trés variable.

En conséquence, le séquençage d'ADN complémentaire ou ADNc consiste à caractériser l'ensemble des ARN messagers (qui auront été préalablement rétro-transcrits en ADNc) synthétisés dans une cellule.

Retour haut de page

2. Principe de l'obtention d'EST

a. La première étape est la construction d'une banque d'ADNc : ceux-ci sont clonés de sorte que l'on obtienne une collection de clones indépendants.

Pour celà, les ADNc sont insérés dans un même type de vecteur, choisi en fonction du type de banque que l'on veut construire.

transcription EST expressed sequence tags transcriptome transcriptomique transcriptomics ARN messager ARNm transcrit expression gene epissage spliceosome hybridation soustractive banque ADNc UniGene rnaseq biochimej

L'énorme intérêt est que toutes les séquences en amont et en aval des ADNc (séquences d'ADN du vecteur) sont identiques pour tous les clones : on utilise les mêmes jeux d'amorces pour le séquençage de tous les clones, ce qui permet l'automatisation et donc un séquençage à grande échelle.

b. Pour chaque clone, quelques centaines de nucléotides (200 à 700) sont séquencés une seule fois ("single pass") à chaque extrémité de l'ADNc inséré.

L'information peut donc n'être que partielle par rapport à la taille de certains ADNc (qui peut atteindre plusieurs milliers de nucléotides), mais elle est suffisante pour caractériser de manière univoque chaque clone.

Ces séquences partielles d'ADNc sont appelées marqueurs de séquence exprimée ou "EST" : "expressed sequence tags".

Le séquençage s'effectuant à partir des 2 extrémités, on génère 2 types d'EST :

  • Le séquençage du début des ADNc produit des 5' EST
  • Le séquençage de la fin des ADNc produit des 3' EST

transcription EST expressed sequence tags transcriptome transcriptomique transcriptomics ARN messager ARNm transcrit expression gene epissage spliceosome hybridation soustractive banque ADNc UniGene rnaseq biochimej

Retour haut de page

5' EST

Les 5' EST sont obtenus à partir de la région des transcrits qui, le plus souvent, est celle qui code une protéine.

Cette région est davantage conservée entre différentes espèces et ne changent pas beaucoup au sein d'une famille de gènes.

3' EST

Les 3' EST ont une probabilité plus élevée de correspondre à une région non-codante ou non traduite ("UnTranslated Regions" - UTR) et sont caractérisés par une plus faible conservation entre différentes espèces.

Par ailleurs, une étude des transcrits de 10 chromosomes humains a montré que prés de la moitié sont non polyadénylés [poly(A)-] :

  • 19,4% sont poly(A)+
  • 43,7% sont poly(A)-, c'est-à-dire non polyadénylés
  • 36,/9% sont poly(A)+ et poly(A)-

Cheng et al. (2005) "Transcriptional maps of 10 human chromosomes at 5-nucleotide resolution" Science 308, 1149 - 1154

Enfin, la polyadénylation alternative génère différents transcrits à partir d'un même gène (schéma ci-dessous).

polyadenylation alternative transcription EST expressed sequence tags transcriptome transcriptomique transcriptomics ARN messager ARNm transcrit expression gene epissage spliceosome hybridation soustractive banque ADNc UniGene rnaseq biochimej

Source : D. Gautheret - INSERM ERM206

Polyadénylation chez les procaryotes : voir Sarkar (1997) "Polyadenylation of mRNA in prokaryotes" Annual Rev. Biochem. 66, 173-197

Retour haut de page

Quelques applications des EST :

Structure gene intron exon polyA coiffe cap enhancer silencer tata box promoter promoteur transcription traduction protein synthesis

  • déterminer la structure probable d'un gène (en utilisant par exemple ESTScan)
  • fabriquer des puces à ADN :
    1. en déposant sur un support spécifique chacune de ces EST
    2. ou en synthétisant des oligonucléotides de différentes longeurs (25-mers, 70-mers, ...) correspondant à ces EST. Ces oligonucléotides sont ensuite déposés sur un support spécifique
  • l'identification de marqueurs microsatellites
  • l'identification de polymorphisme de nucléotide simple (SNP)
  • l'annotation des génomes
  • analyse de profils de transcription à grande échelle
  • analyse comparative des génomes

Retour haut de page

Avantages des EST :

  • énorme quantité et diversité des données des banques d'EST
  • évaluation du taux de transcription des gènes
  • reconstitution via les contig des séquences complètes d'ADNc
  • l'analyse des séquences des régions non traduites 5′ et 3′ procure des informations essentielles concernant la transcription des gènes (analyse des promoteurs en particulier - "PRESTA (PRomoter EST Association) "), la traduction et la régulation de ces processus
  • analyse des bordures introns - exons

transcription EST expressed sequence tags transcriptome transcriptomique transcriptomics ARN messager ARNm transcrit expression gene epissage spliceosome hybridation soustractive banque ADNc UniGene rnaseq polyadenylation alternative queue adenyle coiffe biochimej

Source : Nagaraj et al. (2007)

Inconvénients des EST :

  • taux d'erreur élevé lors du séquençage
  • séquences "contaminées" par des séquences d'introns (issues de pré-ARN messagers non matures), par des séquences de vecteurs d'expression ou d'adaptateurs, par des séquences de régions intergéniques (exemple : ARN transcrits à partir de régions intergéniques du génome nucléaire de Saccharomyces cerevisiae / régions intergéniques 16S-23S des opérons des ARN ribosomiques qui peuvent contenir des gènes codant des ARNt, ...)
  • annotation incomplète des EST
  • énorme travail d'assemblage des EST en contigs
  • quantité colossale de données d'EST dans les bases de données qui rend la fouille de données trés complexe pour traduire cette information de "base" en une information plus élaborée

Retour haut de page

3. Les biais

a. La normalisation des banques d'ADNc (Soares et al., 1994)

La différence de niveau de transcription des gènes est régulée par de nombreux systèmes de transduction du signal.

La différence de niveau de transcription d'un gène peut varier de 1 copie à 25.0000 copies par cellule selon le contexte.

Les gènes peuvent être classés en 3 catégories sur la base du nombre de copies de leurs ARN messagers à un moment donné :

  • les gènes fortement transcrits : de l'ordre de 5 à 20 et leur niveau de transcription atteind plusieurs milliers de copies d'ARN messagers par cellule
  • les gènes modérément transcrits : de l'ordre de plusieurs centaines et leur niveau de transcription est de plusieurs centaines de copies d'ARN messagers par cellule
  • les gènes faiblement transcrits dits rares : de l'ordre de plusieurs milliers et leur niveau de transcription n'est que de 1 à 50 copies d'ARN messagers par cellule

Cette gamme extrèmement étendue de niveau de transcription d'un gène à un autre rend difficile l'analyse de banques d'ADNc en particulier si la détermination de séquences est la stratégie choisie pour la découverte de gènes.

La normalisation est un processus complexe au cours duquel le nombre de copies de tous les ADNc d'une banque "primaire" est égalisé afin que tous les transcrit soit présents de façon équivalente dans la banque normalisée.

La technique de normalisation s'appuie sur une propriété cinétique de l'hybridation entre molécules d'acides nucléiques. La grande difficulté est de sélectionner les molécules simple brin.

L'hybridation entre acides nucléiques dépend de nombreux paramètres physico-chimiques. En particulier, la probabilité d'hybridation entre des séquences complémentaires augmente avec :

  • le temps de la réaction : la ré-association des brins d'ADN dénaturés est une réaction du second ordre.
  • la concentration en acides nucléiques : les molécules d'ADN abondantes se ré-associent plus rapidement que les molécules d'ADN rares.

Pour tenir compte de ces 2 facteurs, on définit le produit (concentration x temps) appelé :

  • RoT pour l'hybridation ARN - ADN. La valeur RoT 1/2 correspond à 50% de molécules hybridées.
  • CoT pour l'hybridation ADN - ADN

En pratique, le nombre de copies des gènes fortement et modérément exprimés est donc réduit (en moyenne d'un facteur 100) à celui des gènes rares dans la banque normalisée.

En conséquence :

  • la probabilité de séquencer plusieurs fois la même séquence est diminuée.
  • la probabilité de séquencer un transcrit rare est augmentée.

Normalisation banque transcription EST expressed sequence tags transcriptome transcriptomique transcriptomics ARN messager ARNm transcrit expression gene epissage spliceosome hybridation soustractive banque ADNc UniGene rnaseq polyadenylation alternative queue adenyle coiffe biochimej

Retour haut de page

b. L'hybridation soustractive de banques d'ADNc

C'est une technique puissante pour comparer les profils de transcription d'un gène spécifique dans une condition pathologique par rapport à la condition normale.

En premier lieu, deux banques d'ADNc sont construites : l'une à partir de cellules normales, l'autre à partir de cellules dans la condition pathologique.

Les clones de la banque "normale" sont utilisés pour fabriquer des molécules entraîneur ("drivers") des transcrits. Ces molécules entraîneur sont ensuite utilisées pour réduire (quasiment à zéro) le nombre de copies des transcrits communs aux deux types de cellules.

Les transcrits qui restent après cette soustraction :

  • résultent de la différence entre le niveau de transcription dans la cellule normale et le niveau de transcription dans la cellule en condition pathologique
  • ou sont ceux issus des gènes supposés impliqués dans le maintien de l'état pathologique

Retour haut de page

c. Exemple de protocole pour la préparation d'une banque normalisée et soustraite en une seule étape (Carninci et al., 2000)

La stratégie repose sur :

  • l'isolement d'ARNm abondants (normalisation) ou déjà isolés (soustraction), mais surtout nouveaux et rares.
  • la synthèse du premier brin d'ADNc pleine longueur ("full-length cDNA") à partir de ces différents types d'ARN.
  • une hybridation entre ces différents types de premier brin d'ADNc ("Tester cDNAs") et diverses populations d'ARNm ("Driver") biotinylées.

La normalisation et la soustraction sont effectuées en une seule étape.

transcription EST expressed sequence tags transcriptome transcriptomique transcriptomics ARN messager ARNm transcrit expression gene epissage spliceosome hybridation soustractive banque ADNc UniGene rnaseq polyadenylation alternative queue adenyle coiffe biochimej

transcription EST expressed sequence tags transcriptome transcriptomique transcriptomics ARN messager ARNm transcrit expression gene epissage spliceosome hybridation soustractive banque ADNc UniGene rnaseq polyadenylation alternative queue adenyle coiffe biochimej

Retour haut de page

d. L'épissage alternatif

Les génes sont transcrits sous forme d'ARN messagers pré-matures (synonymes : transcrits primaires ou pré-ARNm) qui contiennent des introns (séquences de l'ARN pré-mature non retenues dans la séquence finale de l'ARN messager qui code la protéine) et des exons qui sont assemblés selon différentes combinaisons (épissage alternatif).

Les introns ont des tailles extrêmement variables : de plusieurs centaines de nucléotides à plusieurs centaines de milliers de nucléotides.

L'épissage alternatif est le processus qui permet à un même gène de générer différents transcrits selon la combinaison des exons qui formeront l'ARN messager mature.

L'épissage est effectué par deux réactions de trans-estérification au sein de complexes appelés spliceosomes formés, entre autres, de 5 particules ribonucléoprotéiques appelées SnRNP ("Small nuclear RiboNucleoProtein").

Ce sont des protéines associées à des petits ARN nucléaires ("small nuclear RNA" - snRNA) riches en uracile (U1, U2, U4, U5 et U6).

Figure ci-dessous : Les 5 types d'épissage alternatif

  • 1 : site d'épissage alternatif 5'
  • 2 : site d'épissage alternatif 3'
  • 3 : rétention d'intron
  • 4 : exclusion mutuelle d'introns
  • 5 : exclusion / inclusion d'exon

transcription EST expressed sequence tags transcriptome transcriptomique transcriptomics ARN messager ARNm transcrit expression gene epissage spliceosome hybridation soustractive banque ADNc UniGene rnaseq polyadenylation alternative queue adenyle coiffe biochimej

Voir un cours sur le spliceosome.

Retour haut de page

Les répercutions de l'épissage alternatif sur les EST que l'on peut obtenir sont les suivantes :

  • quand différents exons d'un même gène sont attachés au même dernier exon en 3' dans une collection d'EST, ils apparaissent comme des gènes distincts avant l'analyse.
  • s'il existe plusieurs sites d'initiation de la transcription, on aboutit à différents EST pour un même gène.
  • la probabilité que l'extrémité 5' d'un ADNc corresponde effectivement au site d'initiation décroît en fonction de la longueur du transcrit. En conséquence, les EST qui dérivent de l'extrémité 5' correspondent souvent à des séquences internes du gène.
  • des erreurs peuvent être observées également à l'extrémité 3' : délétions internes ou erreurs d'épissage. Certains gènes possèdent plusieurs extrémités 3'.

transcription EST expressed sequence tags transcriptome transcriptomique transcriptomics ARN messager ARNm transcrit expression gene epissage spliceosome hybridation soustractive banque ADNc UniGene rnaseq polyadenylation alternative queue adenyle coiffe biochimej

Figure adaptée de "Précis de génomique", Gibson & Muse (2004)

Puisque les séquences des EST ne correspondent qu'aux extrémités 3' ou 5' des ADNc, des séquences distinctes d'EST issues d'un même gène peuvent être interprétées dans un premier temps comme issues de gènes différents.

La comparaison des EST et des séquences d'ADN génomique permet de lever cette ambiguïté et d'associer différentes EST à un gène unique.

Retour haut de page

4. La banque "dbEST"

La banque "dbEST" du NCBI (créée en 1993) contient 74 millions d'EST (juillet 2018) obtenues par différents projets de séquençage.

Des banques diminuent l'extrème redondance des séquences d'EST en regroupant les séquences correspondant au même gène : UniGene

La banque "dbGSS" ("database of Genome Survey Sequence") est semblable à dbEST, mais les séquences sont d'origine génomique et non issues d'ADNc (plus de 35 millions de GSS - Janvier 2013).

organisme nombre d'EST
Homo sapiens 8 705 000
Arabidopsis thaliana 1 530 000 - (1 046 000)
Zea mays (mais) 2 019 000
Oryza sativa (riz) 1 253 000
Triticum aestivum (wheat) 1 286 000

Retour haut de page

5. Le regroupement des EST

a. Le masquage

Le regroupement ("clustering") des EST nécessite un pré-traitement des séquences peu ou pas spécifiques.

transcription EST expressed sequence tags transcriptome transcriptomique transcriptomics ARN messager ARNm transcrit expression gene epissage alternatif spliceosome hybridation soustractive banque ADNc UniGene rnaseq polyadenylation alternative queue adenyle coiffe biochimej

Source : MUBRI Bioinformatics Group

Ces séquences sont :

  • a. les contaminations par les séquences des vecteurs de clonage. Ces différents types de séquences sont masqués par des programmes informatiques tel que "RepeatMasker" ou "DUST" dans le cas du système "UniGene" du NCBI. Ces logiciels remplacent les nucléotides de ces régions par le symbole "X" qui décrit n'importe quel nucléotide. Les séquences de type "XXX ... XXX" ne sont pas prises en compte par les logiciels de regroupement.
  • b. les séquences répétées (RepeatMasker) qui sont à l'origine d'erreurs lors de la recherche de similitudes. Par exemple, les extrémités 3' non traduites des transcrits (3'-UTR) contiennent des sites alternatifs de poly-adénylation.
  • c. les séquences de faible complexité ("low-complexity regions") : régions qui contiennent peu de caractères différents. Ces régions posent des problèmes dans l'analyse des séquences car elles génèrent un score biaisé.

Exemples de séquences de faible complexité :

  • FFFPPPPPVVV : 3 acides aminés différents seulement (région riche en proline)
  • queue poly-A des ARN

Exemple de programme qui analyse ce type de régions : "SEG" (partie "Algorithm parameters" de BLAST).

Retour haut de page

b. Les groupes "UniGene" - NCBI

UniGene est un système de regroupement automatique des séquences (et donc des EST) de la base de données GenBank dans différents ensembles non redondants de groupes ou "clusters".

Il existe des groupes "UniGene" pour plusieurs dizaines d'espèces animales et végétales. On constate que les chiffres n'augmentent plus beaucoup depuis 2010.

Est-ce dû à l'apparition des nouvelles techniques de séquençage à trés haut débit ("NGST") qui permettent une étude du transcriptome à bien plus grande échelle et beaucoup plus précisément (au nucléotide près), avec des conditions expérimentales moins complexes et pour un coût moindre ?

En d'autres termes : les approches EST et puces à ADN sont-elles appelées à disparaître au profit d'approche telles que "RNA seq" ou "MPSS" ?

Chaque groupe "UniGene" contient :

  • les séquences liées à un seul gène
  • un grand nombre d'informations en rapport avec ce gène :
    1. Le fichier GenBank auquel il est rattaché
    2. le tissu dans lequel le gène est exprimé
    3. les similarités entre la protéine codée et celles d'un organisme modèle
    4. le fichier décrivant le gène "Entrez Gene report" et sa localisation sur la carte génétique
    5. Le profil d'expression

"ProtEST" ("Protein/EST Alignments") est un outil qui propose des alignements (déjà générés par BLAST) entre les séquences de protéines d'organismes modèles et la traduction selon les 6 phases de lectures de séquences nucléotidiques issues de "UniGene".

La collection "UniGene" a été utilisée comme source de séquences uniques pour la fabrication de puces à ADN.

Retour haut de page

c. Construction itérative d'un groupe "UniGene" sur la base de transcrits (ARNm)

Les séquences sont d'abord masquées par le programme DUST (NCBI).

Seules les EST d'au moins 100 paires de bases significatives (et avec un trés petit nombre de "N") sont retenues pour être intégrées à un groupe "UniGene".

1ère analyse :

  • Les liens entre les EST retenues et les ARNm dont elles sont issues sont recherchés.
  • L'ensemble des séquences d'ARNm est comparé à lui-même. Les paires de séquences qui ont un score de similarité suffisant sont liées pour former les groupes initiaux d'ARNm.
  • Les liens entre EST et ARNm sont ajoutés à ces groupes.
  • L'ensemble des séquences d'EST est comparé (avec MegaBlast) aux séquences qui composent les groupes initiaux d'ARNm. Les paires de séquences similaires (selon un seuil) sont ajoutées aux groupes initiaux d'ARNm.
  • Les liens vers les groupes initiaux d'ARNm sont alors effacés.
  • Des liens entre les EST sont créés : ils servent à étendre les groupes initiaux et à obtenir des groupes qui ne sont constitués que d'EST.
  • Les informations liées aux clones sont ajoutées : celà permet d'assigner des EST 5' et des EST 3' non chevauchantes au même groupe d'EST.
  • Tout groupe d'EST ainsi obtenu qui ne contient aucune séquence avec un site de poly-adénylation ou une queue poly(A) est supprimé.
  • Les groupes d'EST qui restent sont appelés groupes ancrés ("anchored clusters"), puisque leur extrémité 3' est supposée connue.

Construction groupe unigene transcription EST expressed sequence tags transcriptome transcriptomique transcriptomics ARN messager ARNm transcrit expression gene epissage alternatif spliceosome hybridation soustractive banque ADNc rnaseq polyadenylation alternative queue adenyle coiffe biochimej

2ème analyse :

  • Les EST qui n'ont pu être placées dans un groupe ancré sont re-traitées avec un niveau d'exigence moindre (une stringence plus faible).
  • Toute EST qui remplit les critères de cette seconde analyse est ajoutée au groupe d'EST (obtenu lors de la première analyse) qui contient la séquence la plus similaire à cette nouvelle EST. Cette EST nouvellement ajoutée s'appelle "membre invité" ("guest members").
  • Les groupes de taille 1 ou singletons (ceux qui semblent liés à des gènes peu fréquemment exprimés) sont comparés aux séquences de "UniGene" avec un niveau d'exigence encore moindre puis ajoutés au groupe contenant la séquence la plus similaire.

Voir la répartition finale des groupes "UniGene" pour Arabidopsis thaliana

L'ensemble des groupes d'EST ainsi construits est comparé à l'ensemble des groupes d'EST construits la semaine précédente et re-numérotés.

Puisque le nombre de séquences constitutives d'un groupe peut changer et que l'identifiant d'un groupe peut disparaître (par exemple quand 2 groupes fusionnent / voir le groupe "UniGene" At.49097), il est préférable d'utiliser le numéro d'accession Genbank d'une séquence.

Retour haut de page

d. Exemple d'un groupe "UniGene"

Groupe "UniGene" At.49098 - Arabidopsis thaliana

  • Protéine : NP_198658.1 : Petite chaîne de la Ribulose-bisphosphate carboxylase (RuBisCO) - 181 acides aminés
  • Banque dbEST : ID.12688 : stade de développement : plantule de quelques jours - tissu : plantule - vecteur : pBluescript SK (-) - hôte : E. coli XL1-Blue MRF - site de clonage : EcoRI & XhoI
  • ARN messager : CB264334 : 616 paires de base - clone ADNc [MPIZp2000J172Q] - 5 prime - séquence ARNm
  • 529 séquences d'EST représentent le gène.
  • EST : clone RAFL17-46-G19 - extrémité 3' - 435 bases
  • Exemple : Clone RAFL17-46-G19 - Banques RAFL17 & dbEST 10432

RAFL : acronyme pour "RIKEN Arabidopsis Full-Length cDNAs"

Retour haut de page

6. L'assemblage des EST et des transcrits

a. Les contig (définition originale donnée par Staden, 1979)

assemblage contigs transcription EST expressed sequence tags transcriptome transcriptomique transcriptomics ARN messager ARNm transcrit expression gene epissage alternatif spliceosome hybridation soustractive banque ADNc UniGene rnaseq polyadenylation alternative queue adenyle coiffe biochimej

La comparaison des séquences permet d'aligner les parties qui se recouvrent partiellement ou"chevauchantes".

Les séquences chevauchantes peuvent être assemblées en enchaînements plus grands que l'on appelle des contigs.

Cette opération d'assemblage est effectuée par des programmes informatiques tels que :

transcription EST expressed sequence tags transcriptome transcriptomique transcriptomics ARN messager ARNm transcrit expression gene epissage alternatif spliceosome hybridation soustractive banque ADNc UniGene rnaseq polyadenylation alternative queue adenyle coiffe biochimej

Retour haut de page

b. La reconstitution de la structure la plus probable d'un gène

Elle nécessite d'isoler des ADNc pleine longueur (criblage par hybridation de banque de haute qualité) et de connaître la séquence du génome.

La position réelle de l'extrémité 5' peut être déterminée par des techniques telles que l'extension d'amorce ou la protection contre la RNase.

Des programmes informatiques tentent de prédire le ou les produits de l'unité de transcription.

a. Il faut prédire les séquence signal de la transcription et de la traduction :

b. Il faut prédire les sites d'épissage corrects des exons pour identifier les différents transcrits alternatifs :

  • sites donneur (début d'intron) et sites accepteur (fin d'intron)
  • sites d'initiation et de terminaison de la traduction (codons "start" et "stop")

Parmi ces programmes, on peut citer, par exemple :

Retour haut de page

Les "pipeline"

Ce sont des suites logicielles qui permettent le traitement d'un trés grand nombre de données de manière automatisées. Les données de bases sont traitées par un premier logiciel puis les résultats sont soumis à un autre logiciel et ainsi de suite jusqu'à l'obtention d'une information riche en renseignements pour le biologiste.

Ci-dessous, une description de l'ensemble du processus du traitement d'EST de la pêche :

transcription EST expressed sequence tags transcriptome transcriptomique transcriptomics ARN messager ARNm transcrit expression gene epissage alternatif spliceosome hybridation soustractive banque ADNc UniGene rnaseq polyadenylation alternative queue adenyle coiffe biochimej

Source : ESTree db

  • traitement des séquençes d'EST par "appel de base" ("Base Calling" - programme Phred)
  • filtrage des séquençes non informatives (programme Lucy)
  • assemblage en contig (programme CAP3)
  • détection de SNP ("Single Nucleotide Polymorphisms" - programme AutoSNP)
  • recherche d'homologie (programmes BlastX et BlastN)
  • recherche d'homologie et annotation des gènes (programme BlastX et base de données Gene Ontology)
  • liens vers les bases de données encyclopédiques de protéines et de voies métaboliques (Expasy, KEGG, ...)

Retour haut de page

7. Exemples de résultats issus de l'analyse d'EST

a. Wang et al. (2005) "A comparative survey, by expressed sequence tag analysis, of genes expressed in peach leaves infected with Plum pox virus (PPV) and free from PPV"Can. J. Plant Pathol., 410 - 419

Le potyvirus de la sharka du prunier (Plum pox virus, PPV) a pour hôtes naturels les Prunus spp. Le séquençage systématique d'EST permet d'identifier des gènes associés à l'infection, à la réplication et au développement de PPV.

2 banques d'ADNc insérés de façon directionnelle et de longueurs choisies, ont été construites à partir de tissus de feuilles de pêchers infectées ou exemptes de PPV : 3839 EST ont été obtenues.

A partir du séquençage partiel des EST et de leurs fonctions présumées, les EST ont été classées en 611 groupes et en 1153 marqueurs isolés.

  • 65 % des gènes (2509 EST) étaient homologues à des gènes provenant d'autres organismes
  • 35 % des ADNc (1330 EST) n'avaient aucune correspondance dans la base de données GenBank
Les analyses comparatives suggèraient donc à cette époque que :
les gènes impliqués dans :
  • la défense
  • le transport cellulaire
  • le développement
sont plus actifs que ceux des feuilles exemptes de PPV.
un certain nombre de produits de transcription, dont : ne sont très fréquents que dans les feuilles de pêcher infectées par le PPV.
Les résultats de cette étude ont aidé à mieux comprendre les mécanismes moléculaires associés à la sensibilité à la sharka chez le Prunus persica et ont facilité le développement de nouvelles stratégies de lutte contre le PPV.

Retour haut de page

b. Melotto et al. (2005) "Comparative bioinformatic analysis of genes expressed in common bean (Phaseolus vulgaris L.) seedlings" Genome 48, 562 - 570

Découverte de marqueurs moléculaires pour l'étiquetage et la cartographie de gènes exprimés chez le haricot.

  • 3 banques d'ADNc du haricot (Phaseolus vulgaris L.) ont été préparées à partir de jeunes feuilles et de plantules inoculées ou non avec un champignon pathogène, cause de l'anthracnose.
  • 5255 séquences d'EST ont été inclues dans la banque de données du haricot.
  • Ces EST regroupées avec les logiciels Phred et CAP3, formaient une collection de 3126 séquences uniques (unigènes).
  • Au sein des groupes, 318 SNP ("single nucleotide polymorphism" ou polymorphisme mononucléotidique) et 68 indels (insertions / délétions) ont été mis en évidence, ce qui indique la présence de familles de séquences paralogues au sein de ces séquences.
  • La recherche de similarité pour chaque unigène avec des gènes connus dans GenBank, a permis de les classer en 14 catégories :
    1. 314 unigènes ont une homologie significative avec des séquences génomiques ou avec des EST de Phaseolus vulgaris L. En conséquence, 2818 unigènes (90 %) sont des gènes nouvellement découverts chez le haricot.
    2. 387 unigènes (12%) sont spécifiques du haricot.

 

8. Liens Internet et références bibliographiques

"Précis de génomique", Gibson & Muse (2004)

Adams et al. (1991) "Complementary DNA sequencing: expressed sequence tags and human genome project" Science 252, 1651 - 1656

Ganeteg et al. (2004) "Is Each Light-Harvesting Complex Protein Important for Plant Fitness ?" Plant Physiol., 134, 502 - 509

Nagaraj et al. (2007) "A hitchhiker's guide to expressed sequence tag (EST) analysis" Brief Bioinform. 8, 6 - 21

Boguski et al. (1993) "dbEST-database for expressed sequence tags" Nat Genet. 4, 332 - 333

Boguski et al. (1993) "dbEST-database for expressed sequence tags" Nat. Genet. 4, 332 - 333

Pontius et al. (2003) "UniGene : a unified view of the transcriptome" The NCBI Handbook - Bethesda (MD) - National Center for Biotechnology Information

Article

Article

Article

dbEST

UniGene

Soares et al. (1994) "Construction and characterization of a normalized cDNA library" Proc. Natl. Acad. Sci. USA 91, 9228 - 9232

Diatchenko et al. (1996) "Suppression subtractive hybridization: A method for generating differentially regulated or tissue-specific cDNA probes and libraries" Biochemistry 93, 6025 - 6030

Asamizu et al. (2000) "A large scale analysis of cDNA in Arabidopsis thaliana: generation of 12,028 non-redundant expressed sequence tags from normalized and size-selected cDNA libraries" DNA Res. 7, 175 - 180

Carninci et al. (2000) "Normalization and subtraction of cap-trapper-selected cDNAs to prepare full-length cDNA libraries for rapid discovery of new genes" Genome Res. 10, 1431 - 1432

Soares

Diatchenko

Asamizu

Carninci

Huang & Madan (1999) "CAP3: A DNA Sequence Assembly Program" Genome Res. 9, 868 - 877

"CAP3" Program (implémentation au PBIL - Lyon)

Künne et al. (2005) "CR-EST: a resource for crop ESTs" Nuc. Acids Res., 33, D619 -D621

CR-EST : "The crop expressed sequence tag database"

"TAIR SeqViewer Whole Genome View"

Staden, R. (1979) "A strategy of DNA sequencing employing computer programs", Nucleic Acids Res. 7, 2601 - 2610

Article

Aller au site

Article

Aller au site

Aller au site

Article

Retour haut de page

Valid XHTML 1.0 Transitional