Les marqueurs de séquence exprimée ou "EST" ("expressed sequence tags")

Sommaire
Tweet

1. Introduction

2. Principe de l'obtention d'EST

3. Les biais

a. La normalisation des banques d'ADNc

b. L'hybridation soustractive de banques d'ADNc

c. Exemple de protocole pour la préparation d'une banque normalisée et soustraite en une seule étape

d. L'épissage alternatif

4. La banque "dbEST"

5. Le regroupement des EST

a. Le masquage

b. Les groupes "UniGene"

c. Construction itérative d'un groupe "UniGene" sur la base de transcrits (ARNm)

d. Exemple d'un groupe "UniGene"

6. L'assemblage des EST et des transcrits

a. Les contig

b. La reconstitution de la structure la plus probable d'un gène

7. Exemples de résultats issus de l'analyse d'EST

8. Application

9. Liens Internet et références bibliographiques

 

1. Introduction

Le génome des Eucaryotes ne contient qu'une proportion faible de séquences dites codantes : séquences d'ADN transcrites en ARN messagers, eux-mêmes traduits en protéines.

Il existe une différence d'expression des gènes selon les tissus et dans le temps (différence d'expression spatio-temporelle).

Un tissu donné exprime environ 15 000 gènes :

  • environ 10 000 gènes sont exprimés de manière constitutive : ils sont exprimés tout le temps et par tous les types de cellules. Les protéines qui en découlent assurent les fonctions de base communes à tous types de cellules (par exemple le métabolisme).
  • environ 5 000 gènes sont exprimés de manière spécifique : en fonction du type de cellule et/ou de son stade de développement.

Le taux d'expression des gènes, c'est-à-dire la quantité d'un ARN messager donné, est trés variable.

En conséquence, le séquençage d'ADN complémentaire ou ADNc consiste à caractériser l'ensemble des ARN messagers (qui auront été préalablement rétro-transcrits en ADNc) exprimés dans une cellule.

2. Principe de l'obtention d'EST

a. La première étape est la construction d'une banque d'ADNc : ceux-ci sont clonés de sorte que l'on obtienne une collection de clones indépendants.

Pour celà, les ADNc sont insérés dans un même type de vecteur, choisi en fonction du type de banque que l'on veut construire.

L'énorme intérêt est que toutes les séquences en amont et en aval des ADNc (séquences d'ADN du vecteur) sont identiques pour tous les clones : on utilise les mêmes jeux d'amorces pour le séquençage de tous les clones, ce qui permet l'automatisation et donc un séquençage à grande échelle.

b. Pour chaque clone, quelques centaines de nucléotides (200 à 700) sont séquencés une seule fois ("single pass") à chaque extrémité de l'ADNc inséré.

L'information peut donc n'être que partielle par rapport à la taille de certains ADNc (qui peut atteindre plusieurs milliers de nucléotides), mais elle est suffisante pour caractériser de manière univoque chaque clone.

Ces séquences partielles d'ADNc sont appelées marqueurs de séquence exprimée ou "EST" : "expressed sequence tags".

Schema construction banque

Le séquençage s'effectuant à partir des 2 extrémités, on génère 2 types d'EST :

  • Le séquençage du début des ADNc produit des 5' EST
  • Le séquençage de la fin des ADNc produit des 3' EST

Schema d'EST 3 prime et 5 prime

5' EST

3' EST

Les 5' EST sont obtenus à partir de la région des transcrits qui, le plus souvent, est celle qui code une protéine.

Cette région est davantage conservée entre différentes espèces et ne changent pas beaucoup au sein d'une famille de gènes.

Les 3' EST ont une probabilité plus élevée de correspondre à une région non-codante ou non traduite ("UnTranslated Regions" - UTR) et sont caractérisés par une plus faible conservation entre différentes espèces.

Par ailleurs, une étude des transcrits de 10 chromosomes humains a montré que prés de la moitié sont non polyadénylés [poly(A)-] :

  • 19,4% sont poly(A)+
  • 43,7% sont poly(A)-, c'est-à-dire non polyadénylés
  • 36,/9% sont poly(A)+ et poly(A)-

Cheng et al. (2005) "Transcriptional maps of 10 human chromosomes at 5-nucleotide resolution" Science 308, 1149 - 1154

Enfin, la polyadénylation alternative génère différents transcrits à partir d'un même gène (schéma ci-dessous).

polyadénylation alternative

Source : D. Gautheret - INSERM ERM206

La polyadénylation chez les procaryotes : voir Sarkar (1997) "Polyadenylation of mRNA in prokaryotes" Annual Rev. Biochem. 66, 173-197

Quelques applications des EST :
  • reconstituer la structure probable d'un gène (en utilisant par exemple ESTScan)
  • fabriquer des puces à ADN :
    1. en déposant sur un support spécifique chacun de ces EST
    2. ou en synthétisant des oligonucléotides de différentes longeurs (25-mers, 70-mers, ...) correspondant à ces EST . Ces oligonucléotides sont ensuite déposés sur un support spécifique
  • l'identification de marqueurs microsatellites
  • l'identification de polymorphisme de nucléotide simple (SNP)
  • l'annotation des génomes
  • analyse de profils d'expression à grande échelle
  • analyse comparative des génomes

 

Structure d'un gene

 

Avantages des EST :

  • énorme quantité et diversité des données des banques d'EST
  • évaluation du taux d'expression des gènes
  • reconstitution via les contig des séquences complètes d'ADNc
  • l'analyse des séquences des régions non traduites 5′ et 3′ procure des informations essentielles pour la régulation, l'expression et la traduction des gènes (analyse des promoteurs en particulier - "PRESTA (PRomoter EST Association) ")
  • analyse des bordures introns - exons

Inconvénients des EST :

  • taux d'erreur élevé lors du séquençage
  • séquences "contaminées" par des séquences d'introns (issues de préé-ARN messagers non matures), par des séquences de vecteurs d'expression ou d'adaptateurs, par des séquences de régions intergéniques (exemple : ARN transcrits à partir de régions intergéniques du génome nucléaire de Saccharomyces cerevisiae / régions intergéniques 16S-23S des opérons des ARN ribosomiques qui peuvent contenir des gènes codant des ARNt, ...)
  • annotation incomplète des EST
  • énorme travail d'assemblage des EST en contigs
  • quantité colossale de données d'EST dans les bases de données qui rend la fouille de données trés complexe pour traduire cette information de "base" en une information plus élaborée

Qualite des EST

Source : Nagaraj et al. (2007)

Retour haut de page

 

3. Les biais

a. La normalisation des banques d'ADNc (Soares et al., 1994)

L'expression différentielle des gènes est régulée par un grand nombre de sytèmes de transduction du signal qui aboutit à la synthèse de 20 000 à 60 000 transcrits.

Le profil d'expression d'un gène spécifique peut varier de 1 copie à 25 0000 copies par cellule selon le contexte.

Les gènes peuvent être classés en 3 catégories sur la base du nombre de copies de leurs ARN messagers à un moment donné :

  • les gènes fortement exprimés : de l'ordre de 5 à 20 et leur niveau d'expression atteind plusieurs milliers de copies d'ARN messagers par cellule
  • les gènes modérément exprimés : de l'ordre de plusieurs centaines et leur niveau d'expression est de plusieurs centaines de copies d'ARN messagers par cellule
  • les gènes faiblement exprimés dits rares : de l'ordre de plusieurs milliers et leur niveau d'expression n'est que de 1 à 50 copies d'ARN messagers par cellule

Cette gamme extrèmement étendue de niveau d'expression d'un gène à un autre rend difficile l'analyse de banques d'ADNc en particulier si la détermination de séquences est la stratégie choisie pour la découverte de gènes.

La normalisation est un processus complexe au cours duquel le nombre de copies de tous les d'ADNc d'une banque "primaire" est égalisé afin que tous les transcrit soit présents de façon équivalente dans la banque normalisée.

La technique de normalisation s'appuie sur une propriété cinétique de l'hybridation entre molécules d'acides nucléiques. La grande difficulté est de sélectionner les molécules simple brin.

L'hybridation entre acides nucléiques dépend de nombreux paramètres physico-chimiques. En particulier, la probabilité d'hybridation entre des séquences complémentaires augmente avec :

  • le temps de la réaction : la ré-association des brins d'ADN dénaturés est une réaction du second ordre.
  • la concentration en acides nucléiques : les molécules d'ADN abondantes se ré-associent (se renaturent) plus rapidement que les molécules d'ADN rares.

Pour tenir compte de ces 2 facteurs, on définit le produit (concentration x temps) appelé :

  • RoT pour l'hybridation ARN - ADN. La valeur RoT 1/2 correspond à 50% de molécules hybridées.
  • CoT pour l'hybridation ADN - ADN

En pratique, le nombre de copies des gènes fortement et modérément exprimés est donc réduit (en moyenne d'un facteur 100) à celui des gènes rares dans la banque normalisée.

En conséquence, :

  • la probabilité de séquencer plusieurs fois la même séquence est diminuée.
  • la probabilité de séquencer un transcrit rare est augmentée.

Normalisation banque

b. L'hybridation soustractive de banques d'ADNc

C'est une technique puissante pour comparer les profils d'expression d'un gène spécifique dans une condition pathologique par rapport à la condition normale.

En premier lieu, deux banques d'ADNc sont construites : l'une à partir de cellules normales, l'autre à partir de cellules malade).

Les clones de la banque "normale" sont utilisés pour fabriquer des molécules entraîneur ("drivers") des gènes.

Ces molécules entraîneur sont ensuite utilisées pour réduire (quasiment à zéro) le nombre de copies des gènes communs aux deux types de cellules.

Les gènes qui restent après cette soustraction :

  • résultent de la différence entre le niveau d'expression dans la cellule normale et le niveau d'expression dans la cellule malade
  • ou sont les gènes supposés impliqués dans le maintien de l'état pathologique

c. Exemple de protocole pour la préparation d'une banque normalisée et soustraite en une seule étape (Carninci et al., 2000)

La stratégie repose sur :

  • l'isolement d'ARNm abondants (normalisation) ou déjà isolés (soustraction), mais surtout nouveaux et rares.
  • la synthèse du premier brin d'ADNc pleine longueur ("full-length cDNA") à partir de ces différents types d'ARN.
  • une hybridation entre ces différents types de premier brin d'ADNc ("Tester cDNAs") et diverses populations d'ARNm ("Driver") biotinylées.

La normalisation et la soustraction sont effectuées en une seule étape.

Construction banque normalisee

Construction banque soustraite

d. L'épissage alternatif

Les génes sont transcrits sous forme d'ARN messagers pré-matures (synonymes : transcrits primaires - pré-ARNm) qui contiennent des introns (séquences de l'ARN non retenues dans la séquence finale qui code la protéine ou l'ARN) et des exons qui sont assemblés selon différentes combinaisons (épissage alternatif).

Les introns ont des tailles extrêmement variables : de plusieurs centaines de nucléotides à plusieurs centaines de milliers de nucléotides.

L'épissage alternatif est le processus qui permet à un même gène de générer différents transcrits selon la combinaison des exons qui formeront l'ARN messager mature.

L'épissage est effectué par deux réactions de trans-estérification au sein de complexes appelés spliceosomes formés, entre autres, de 5 particules ribonucléoprotéiques appelées SnRNP ("Small nuclear RiboNucleoProtein").

Ce sont des protéines associées à des petits ARN nucléaires ("small nuclear RNA" - snRNA) riches en uracile (U1, U2, U4, U5 et U6).

Voir un cours sur le spliceosome.

Figure ci-contre : Les 5 types d'épissage alternatif

1 : site d'épissage alternatif 5'

2 : site d'épissage alternatif 3'

3 : rétention d'intron

4 : exclusion mutuelle d'introns

5 : exclusion / inclusion d'exon

type epissage alternatif pre-mRNA spliceosome

Les répercutions de l'épissage alternatif sur les EST que l'on peut obtenir sont les suivantes :

  • quand différents exons d'un même gène sont attachés au même dernier exon en 3' dans une collection d'EST, ils apparaissent comme des gènes distincts avant l'analyse.
  • s'il existe plusieurs sites d'initiation de la transcription, on aboutit à différents EST pour un même gène.
  • la probabilité que l'extrémité 5' d'un ADNc corresponde effectivement au site d'initiation décroît en fonction de la longueur du transcrit. En conséquence, les EST qui dérivent de l'extrémité 5' correspondent souvent à des séquences internes du gène.
  • des erreurs peuvent être observées également à l'extrémité 3' : délétions internes ou erreurs d'épissage. Certains gènes possèdent plusieurs extrémités 3'.

Figure adaptée de "Précis de génomique", Gibson & Muse (2004)

Epissage alternatif et EST

Puisque les séquences des EST ne correspondent qu'aux extrémités 3' ou 5' des ADNc, des séquences distinctes d'EST issues d'un même gène peuvent être interprétées dans un premier temps comme issues de gènes différents.

La comparaison des EST et des séquences d'ADN génomique permet de lever cette ambiguïté et d'associer différents EST à un gène unique.

Retour haut de page

 

4. La banque "dbEST"

La banque "dbEST" du NCBI (créée en 1993) contient 74 millions d'EST (Janvier 2013) obtenues par différents projets de séquençage.

Des banques diminuent l'extrème redondance des séquences d'EST en regroupant les séquences correspondant au même gène : UniGene

La banque "dbGSS" ("database of Genome Survey Sequence") est semblable à dbEST, mais les séquences sont d'origine génomique et non issues d'ADNc (plus de 35 millions de GSS - Janvier 2013).

organisme nombre d'EST
Homo sapiens 8 705 000
Arabidopsis thaliana 1 530 000 - (1 046 000)
Zea mays (mais) 2 019 000
Oryza sativa (riz) 1 253 000
Triticum aestivum (wheat) 1 286 000

5. Le regroupement des EST

a. Le masquage

Le regroupement ("clustering") des EST nécessite un pré-traitement des séquences peu ou pas spécifiques. Ces séquences sont :

a. les contaminations par les séquences des vecteurs de clonage. Ces différents types de séquences sont masqués par des programmes informatiques tel que "RepeatMasker" ou "DUST" dans le cas du système "UniGene" du NCBI

Ces logiciels remplacent les nucléotides de ces régions par le symbole "X" qui décrit n'importe quel nucléotide. Les séquences de type "XXX ... XXX" ne sont pas prises en compte par les logiciels de regroupement.

b. les séquences répétées (RepeatMasker) qui sont à l'origine d'erreurs lors de la recherche de similitudes. Par exemple, les extrémités 3' non traduites des transcrits (3'-UTR) contiennent des sites alternatifs de poly-adénylation.

c. les séquences de faible complexité ("low-complexity regions") : régions qui contiennent peu de caractères différents. Ces régions posent des problémes dans l'analyse des séquences car elles génèrent un score biaisé.

Nettoyage sequences

Source : MUBRI Bioinformatics Group

Exemples de séquences de faible complexité :

  • FFFPPPPPVVV : 3 acides aminés différents seulement (région riche en proline)
  • queue poly-A des ARN

Exemple de programme qui analyse ce type de régions : "SEG" (partie "Algorithm paramaters" de BLAST).

b. Les groupes "UniGene" - NCBI

UniGene est un système de regroupement automatique des séquences (et donc des EST) de la base de données GenBank dans différents ensembles non redondants de groupes ou "clusters".

Il existe des groupes "UniGene"pour plusieurs dizaines d'espèces animales et végétales.

Organisme date nombre d'EST regroupées groupes
Arabidopsis thaliana 2012 1 046 000 30 633
Homo sapiens 2004 4,5 millions 107 000
Homo sapiens 2012 7,0 millions 130 000

Remarque : On constate que les chiffres n'augmentent plus beaucoup depuis 2010.

Est-ce dû à l'apparition des nouvelles techniques de séquençage à trés haut débit ("NGST") qui permettent une étude du transcriptome à bien plus grande échelle et beaucoup plus précisément (au nucléotide près), avec des conditions expérimentales moins complexes et pour un coût moindre ?

En d'autres termes : les approches EST et puces à ADN sont-elles appelées à disparaître au profit d'approche telles que "RNA seq" ou "MPSS" ?

Chaque groupe "UniGene" contient :

  • les séquences liées à un seul gène
  • un grand nombre d'informations grand nombre d'informations en rapport avec ce gène :
    1. Le fichier GenBank auquel il est rattaché
    2. le tissu dans lequel le gène est exprimé
    3. les similarités entre la protéine codée et celles d'un organisme modèle
    4. le fichier décrivant le gène "Entrez Gene report" et sa localisation sur la carte génétique
    5. Le profil d'expression

"ProtEST" ("Protein/EST Alignments") est un outil qui propose des alignements (déjà générés par BLAST) entre les séquences de protéines d'organismes modèles et la traduction selon les 6 phases de lectures de séquences nucléotidiques issues de "UniGene".

La collection "UniGene" a été utilisée comme source de séquences uniques pour la fabrication de puces à ADN.

c. Construction itérative d'un groupe "UniGene" sur la base de transcrits (ARNm)

Les séquences sont d'abord masquées par le programme DUST (NCBI).

Seules les EST d'au moins 100 paires de bases significatives (et avec un trés petit nombre de "N") sont retenues pour être intégrées à un groupe "UniGene".

1ère analyse :

  • Les liens entre les EST retenues et les ARNm dont elles sont issues sont recherchés.
  • L'ensemble des séquences d'ARNm est comparé à lui-même. Les paires de séquences qui ont un score de similarité suffisant sont liées pour former les groupes initiaux d'ARNm.
  • Les liens entre EST et ARNm sont ajoutés à ces groupes.
  • L'ensemble des séquences d'EST est comparé (avec MegaBlast) aux séquences qui composent les groupes initiaux d'ARNm. Les paires de séquences similaires (selon un seuil) sont ajoutées aux groupes initiaux d'ARNm.
  • Les liens vers les groupes initiaux d'ARNm sont alors effacés.
  • Des liens entre les EST sont créés : ils servent à étendre les groupes initiaux et à obtenir des groupes qui ne sont constitués que d'EST.
  • Les informations liées aux clones sont ajoutées : celà permet d'assigner des EST 5' et des EST 3' non chevauchantes au même groupe d'EST.
  • Tout groupe d'EST ainsi obtenu qui ne contient aucune séquence avec un site de poly-adénylation ou une queue poly(A) est supprimé.
  • Les groupes d'EST qui restent sont appelés groupes ancrés ("anchored clusters"), puisque leur extrémité 3' est supposée connue.

Construction groupe unigene

2ème analyse :

  • Les EST qui n'ont pu être placées dans un groupe ancré sont re-traitées avec un niveau d'exigence moindre (une stringence plus faible).
  • Toute EST qui remplit les critères de cette seconde analyse est ajoutée au groupe d'EST (obtenu lors de la première analyse) qui contient la séquence la plus similaire à cette nouvelle EST. Cette EST nouvellement ajoutée s'appelle "membre invité" ("guest members").
  • Les groupes de taille 1 ou singletons (ceux qui semblent liés à des gènes peu fréquemment exprimés) sont comparés aux séquences de "UniGene" avec un niveau d'exigence encore moindre puis ajoutés au groupe contenant la séquence la plus similaire.

Voir la répartition finale des groupes "UniGene" pour Arabidopsis thaliana

L'ensemble des groupes d'EST ainsi construits est comparé à l'ensemble des groupes d'EST construits la semaine précédente et re-numérotés.

Puisque le nombre de séquences constitutives d'un groupe peut changer et que l'identifiant d'un groupe peut disparaître (par exemple quand 2 groupes fusionnent / voir le groupe "UniGene" At.49097), il est préférable d'utiliser le numéro d'accession Genbank d'une séquence.

d. Exemple d'un groupe "UniGene"

Groupe "UniGene" At.49098 - Arabidopsis thaliana

Protéine : NP_198658.1 Petite chaîne de la Ribulose-bisphosphate carboxylase (RuBisCO) - 181 acides aminés
Banque dbEST : ID.12688

stade de développement : plantule de quelques jours - tissu : plantule - vecteur : pBluescript SK (-) - hôte : E. coli XL1-Blue MRF - site de clonage : EcoRI & XhoI

ARN messager : CB264334 616 paires de base - clone ADNc [MPIZp2000J172Q] - 5 prime - séquence ARNm

529 séquences d'EST représentent le gène.

EST : clone RAFL17-46-G19 - extrémité 3' - 435 bases

Exemple :

Clone : RAFL17-46-G19 - Banques : RAFL17 & dbEST 10432

RAFL : "RIKEN Arabidopsis Full-Length cDNAs"

Retour haut de page

 

6. L'assemblage des EST et des transcrits

a. Les contig (définition originale donnée par Staden, 1979)

La comparaison des séquences permet d'aligner les parties qui se recouvrent partiellement ou"chevauchantes".

Les séquences chevauchantes peuvent être assemblées en enchaînements plus grands que l'on appelle des contigs.

Cette opération d'assemblage est effectuée par des programmes informatiques tels que :

Contig

Flow chart assemblage contigs

Voir le résultat obtenu en tapant : "QG_CA_Contig310" dans le champs "ContigID" de la page d'accueil du programme Contig Viewer.

Cliquer sur le bouton "Display Contig Assembly".

b. La reconstitution de la structure la plus probable d'un gène

Elle nécessite d'isoler des ADNc pleine longueur (criblage par hybridation de banque de haute qualité) et de connaître la séquence du génome.

La position réelle de l'extrémité 5' peut être déterminée par des techniques telles que l'extension d'amorce ou la protection contre la RNase.

Des programmes informatiques tentent de prédire le ou les produits de l'unité de transcription.

a. Il faut prédire les séquence signal de la transcription et de la traduction :

  • promoteur
  • régions régulatrices
  • sites de fixation des facteurs de transcription
  • site d'addition du poly(A) ...

b. Il faut prédire les sites d'épissage corrects des exons pour identifier les différents transcrits alternatifs :

  • sites donneur (début d'intron) et sites accepteur (fin d'intron)
  • sites d'initiation et de terminaison de la traduction (codons "start" et "stop")

Parmi ces programmes, on peut citer, par exemple :

Voir "Recherche de gènes et régions codantes" (Université de Nice) : exemples bien expliqués de conflits entre prédiction et données expérimentales. Ces exemples illustrent des cas de figure typiques.

Les "pipeline".

Ce sont des suites logicielles qui permettent le traitement d'un trés grand nombre de données de manière automatisées.

Les données de bases sont traitées par un premier logiciel puis les résultats sont soumis à un autre logicie et ainsi de suite jusqu'à l'obtention d'une information riche en renseignements pour le biologiste.

Ci-contre, une description de l'ensemble du processus du traitement d'EST de la pêche :

  • traitement des séquençes d'EST par "appel de base" ("Base Calling" - programme Phred)
  • filtrage des séquençes non informatives (programme Lucy)
  • détection de SNP ("Single Nucleotide Polymorphisms" - programme AutoSNP)
  • liens vers les bases de données encyclopédiques de protéines et de voies métaboliques (Expasy, KEGG, ...)

Source : ESTree db

Flow chart ESTree database

7. Exemples de résultats issus de l'analyse d'EST

a. Wang et al. (2005) "A comparative survey, by expressed sequence tag analysis, of genes expressed in peach leaves infected with Plum pox virus (PPV) and free from PPV"Can. J. Plant Pathol., 410 - 419

Le potyvirus de la sharka du prunier (Plum pox virus, PPV) a pour hôtes naturels les Prunus spp. Le séquençage systématique d'EST permet d'identifier des gènes associés à l'infection, à la réplication et au développement de PPV.

2 banques d'ADNc insérés de façon directionnelle et de longueurs choisies, ont été construites à partir de tissus de feuilles de pêchers infectées ou exemptes de PPV : 3839 EST ont été obtenues.

A partir du séquençage partiel des EST et de leurs fonctions présumées, les EST ont été classées en 611 groupes et en 1153 marqueurs isolés.

  • 65 % des gènes (2509 EST) étaient homologues à des gènes provenant d'autres organismes
  • 35 % des ADNc (1330 EST) n'avaient aucune correspondance dans la base de données GenBank

Les analyses comparatives suggèraient donc à cette époque que :

les gènes impliqués dans :

  • la défense
  • le transport cellulaire
  • le développement

sont plus actifs que ceux des feuilles exemptes de PPV.

un certain nombre de produits de transcription, dont :

ne sont très fréquents que dans les feuilles de pêcher infectées par le PPV.

Les résultats de cette étude ont aidé à mieux comprendre les mécanismes moléculaires associés à la sensibilité à la sharka chez le Prunus persica et ont facilité le développement de nouvelles stratégies de lutte contre le PPV.

b. Melotto et al. (2005) "Comparative bioinformatic analysis of genes expressed in common bean (Phaseolus vulgaris L.) seedlings" Genome 48, 562 - 570

Découverte de marqueurs moléculaires pour l'étiquetage et la cartographie de gènes exprimés chez le haricot.

  • 3 banques d'ADNc du haricot (Phaseolus vulgaris L.) ont été préparées à partir de jeunes feuilles et de plantules inoculées ou non avec un champignon pathogène, cause de l'anthracnose.
  • 5255 séquences d'EST ont été inclues dans la banque de données du haricot.
  • Ces EST regroupées avec les logiciels Phred et CAP3, formaient une collection de 3126 séquences uniques (unigènes).
  • Au sein des groupes, 318 SNP ("single nucleotide polymorphism" ou polymorphisme mononucléotidique) et 68 indels (insertions / délétions) ont été mis en évidence, ce qui indiquait la présence de familles de séquences paralogues au sein de ces séquences.
  • La recherche de similarité pour chaque unigène avec des gènes connus dans GenBank, a permis de les classer en 14 catégories :
    1. 314 unigènes avaient une homologie significative avec des séquences génomiques ou avec des EST de Phaseolus vulgaris L. En conséquence, 2818 unigènes (90 %) étaient des gènes nouvellement découverts chez le haricot.
    2. 387 unigènes (12%) étaient spécifiques au haricot.

Retour haut de page

 

8. Application : visualisation de contig à partir du transcrit de la ribulose 1,5-bisphosphate carboxylase - oxygénase ou RuBisCO d'Arabidopsis thaliana.

Aller au : NASC A. thaliana MapView

Fenêtres "Search" tout en haut à droite : taper : "rbcl".

Catégorie : "transcript", cliquer sur le lien "rbcl-MIPS".

  • Combien y -a-t-il d'exons ?
  • Quelle est la taille du transcrit ?
  • Sur quel chromosome ?
  • A quelle position ?
  • Quelle est la taille du chromosome chloroplastique ?
  • Combien contient-il de gènes codant des protéines ?
  • Quelle est la taille de la protéine codée ?
  • De quelle protéine s'agit-il ?
  • Y a-t-il des introns ?

Trouver un gène proche qui contiennent des introns.

Item "Genomic Location", cliquer sur le lien : "The start of this transcript is located in Contig chloroplast c".

Item "Detailed view", taper dans les cases "Jump to region" : 50000 (début) et 100000 (fin). Cliquer sur l'icône "Refresh".

Repérer : "rps12" et sélectionner "transcr:rps12-MIPS" dans le menu déroulant.

Pour quelle protéine code-t-il ?

protéine ribosomale S12

  • Sur quelle région du chromosome se situe-t-il ?
  • Quelle est la taille du plus grand intron ?
  • Quelle est la taille des segments qui constituent le contig ?
  • 69611 - 98793 pb
  • 28274 pb
  • 3 exons : 232 pb + 26 pb + 114 pb = 372 pb

 

9. Liens Internet et références bibliographiques

"Précis de génomique", Gibson & Muse (2004)

Adams et al. (1991) "Complementary DNA sequencing: expressed sequence tags and human genome project" Science 252, 1651 - 1656

Ganeteg et al. (2004) "Is Each Light-Harvesting Complex Protein Important for Plant Fitness ?" Plant Physiol., 134, 502 - 509

Nagaraj et al. (2007) "A hitchhiker's guide to expressed sequence tag (EST) analysis" Brief Bioinform. 8, 6 - 21

Article

Article

Boguski et al. (1993) "dbEST-database for expressed sequence tags" Nat Genet. 4, 332 - 333

Article

Soares et al. (1994) "Construction and characterization of a normalized cDNA library" Proc. Natl. Acad. Sci. USA 91, 9228 - 9232

Diatchenko et al. (1996) "Suppression subtractive hybridization: A method for generating differentially regulated or tissue-specific cDNA probes and libraries" Biochemistry 93, 6025 - 6030

Asamizu et al. (2000) "A large scale analysis of cDNA in Arabidopsis thaliana: generation of 12,028 non-redundant expressed sequence tags from normalized and size-selected cDNA libraries" DNA Res. 7, 175 - 180

Carninci et al. (2000) "Normalization and subtraction of cap-trapper-selected cDNAs to prepare full-length cDNA libraries for rapid discovery of new genes" Genome Res. 10, 1431 - 1432

Soares

Diatchenko

Asamizu

Carninci

Boguski et al. (1993) "dbEST-database for expressed sequence tags" Nat. Genet. 4, 332 - 333

Pontius et al. (2003) "UniGene : a unified view of the transcriptome" The NCBI Handbook - Bethesda (MD) - National Center for Biotechnology Information

dbEST

UniGene

Huang & Madan (1999) "CAP3: A DNA Sequence Assembly Program" Genome Res. 9, 868 - 877

"CAP3" Program (implémentation au PBIL - Lyon)

Künne et al. (2005) "CR-EST: a resource for crop ESTs" Nuc. Acids Res., 33, D619 -D621

CR-EST : "The crop expressed sequence tag database"

Article

Aller au site

Article

Aller au site

 

"TAIR SeqViewer Whole Genome View"

Staden, R. (1979) "A strategy of DNA sequencing employing computer programs", Nucleic Acids Res. 7, 2601 - 2610

Aller au site

Article

 

Valid XHTML 1.0 Transitional         Flux RSS Retour haut de page