Module master genomique fonctionnelle proteomique vegetale arabidopsis Enseignement et recherche Biochimie - Universite Angers Emmanuel Jaspard biochimej

Génomique fonctionnelle et protéomique : introduction

1. La génomique : présentation générale

2. Rappels et définitions

3. Les principaux buts de la génomique

4. Généralités sur le génome des plantes

5. La protéomique

6. L'annotation : le prochain défi de la génomique

7. Les domaines en "omiques"

8. Liens Internet et références bibliographiques

1. La génomique : présentation générale

Même si les frontières sont floues, on peut proposer le découpage schématique suivant :

La génomique est composée de trois volets complémentaires : la génomique structurale, la génomique fonctionnelle et la protéomique.
La génomique structurale analyse la structure des gènes et autres parties du génome. Elle contribue à l'annotation des génomes et à l'identification des séquences informatives (les gènes avec ou sans introns codant des protéines ou des ARN fonctionnels, les séquences régulatrices, les séquences répétées, les éléments transposables, ...).
La génomique fonctionnelle analyse la fonction des gènes et autres parties du génome. Elle inclue l'analyse du transcriptome (ARN messagers) ou transcriptomique. Elle contribue aussi très largement à l'annotation des génomes et à l'identification des séquences informatives.
La protéomique est l'analyse du protéome (protéines). Elle contribue aussi à l'annotation des génomes et à l'identification des séquences informatives.

La génomique structurale, la génomique fonctionnelle, la transcriptomique et la protéomique sont des approches complémentaires.

biochimej ensemble domaine omique omics

Le "matériau" de base de la génomique est l'ensemble des séquences d'acides nucléiques et de séquences polypeptidiques obtenues par différentes méthodes de séquençage. Ces séquences et d'autres types d'informations qui découlent de leur analyse sont stockées dans des bases de données. L'accès aux bases de données s'effectue via le Web et Internet.

Enfin, l'analyse de l'ensemble de ces données nécessitent des méthodes bioinformatiques.

L'analyse des séquences d'ADN et de la structure des génomes ne permet pas d'associer directement une fonction à un gène.

En d'autres termes, on ne peut pas inférer ce gène à :

un ARN qui en est le produit d'expression
dans le cas d'un ARN messager, à la fonction de la (ou des) protéine(s) pour laquelle (lesquelles) cet ARN messager code

Par ailleurs, tous les gènes ne s'expriment pas simultanément, ni au même taux.

chez les Procaryotes, le niveau de transcription des gènes est contrôlé par la phase du cycle de division cellulaire et par l'incidence de l'environnement sur la cellule.
chez les Eucaryotes, chaque type de cellule est caractérisé par la transcription de certains gènes qui lui sont propres et qui lui confèrent ses propriétés biologiques.
La compartimentation de la cellule Eucaryote est un élément capital en génomique : les produits de certains gènes, les protéines, sont adressés spécifiquement à tel ou tel compartiment. Dans le cas d'un ARN messager, déterminer quand et comment (régulation de la traduction) celui-ci est traduit en protéine est un point capital pour associer un gène à une fonction biologique. C'est la finalité de la protéomique.

En conséquence, afin de déterminer la fonction des ARN et des protéines associés à ces gènes, la génomique fonctionnelle analyse aussi :

le transcriptome : les produits de la transcription des gènes, les ARN
le protéome : l'ensemble des protéines synthétisées (traduites) à partir des ARN messagers

Evolution des champs d'application de la génomique

La génomique était à l'origine (fin des années 80) l'étude de la structure, du contenu et de l'évolution des génomes, en s'appuyant sur les résultats du séquençage de séquences nucléotidiques.

Le domaine initial d'application de la génomique s'est élargi du fait :

de l'apparition de nouvelles technologies
d'outils bioinformatiques de plus en plus précis et puissants

Schématiquement, la génomique fonctionnelle a pour principaux buts de déterminer (liste non-exhaustive) :

le moment dans le cycle cellulaire où un gène est transcrit (appelé expression d'un gène*)
les conditions environnementales liées à la transcription ou la non-transcription d'un gène
l'intensité (nombre de copies du ou des transcrits) avec laquelle ce gène est transcrit
le compartiment cellulaire où un gène est transcrit (ADN nucléaire, mitochondrial, chloroplastique)
le compartiment cellulaire où est adressé le (ou les) produit(s) de la transcription d'un gène
les interactions que le produit d'un gène peut établir avec d'autres produits de gènes et/ou d'autres types de molécules (interactomique). Ce type d'analyse débouche sur la construction de réseaux d'interactions ("interaction networks")
si le produit est un ARN, le rôle qu'il peut avoir dans la régulation post-transcriptionnelle (interférence ARN)
si le produit intermédiaire est un ARN messager et le produit final est donc une protéine, le rôle que cette protéine peut avoir dans une voie métabolique et/ou dans la régulation de cette voie métabolique
...

*Attention : on confond souvent l'expression d'un gène, c'est-à-dire sa transcription (dans le noyau chez les Eucaryotes) et l'expression du produit de ce gène, c'est-à-dire l'activité biologique de ce produit (qui n'est pas destiné systématiquement, loin s'en faut, à rester dans le noyau). Le produit d'un gène est un (ou plusieurs) ARN. Si cet ARN est un ARN messager, le produit final est une (ou des) protéines.

Plus précisément, la génomique fonctionnelle permet :

d'identifier les éléments constitutifs d'un gène (introns, exons, séquences de régulation de la transcription, ...)
d'identifier les régions des génomes dont on ignore encore le rôle et élucider ce rôle
d'étudier les différences de transcription des gènes dans le temps et pour chaque type de tissus et de cellules
d'étudier les différences d'activité biologique des produits des gènes dans le temps et pour chaque type de tissus, de cellules, de compartiments sub-cellulaires
d'apporter des éléments qui contribuent à déterminer la fonction des ARN et des protéines pour lesquelles les gènes codent
d'intégrer toutes ces informations dans un ensemble plus vaste, celui du métabolisme (métabolome) en décrivant les interactions entre tous ces types de macromolécules biologiques (interactome)
d'obtenir ces données pour le plus grand nombre d'organismes possibles. Aller à "GOLD : Genomes OnLine Database".

Les nouvelles techniques de séquençage en masse (ou massivement parrallèles ou à très haut débit) ont encore élargi le champs d'investigation de la génomique fonctionnelle. On peut citer (liste non-exhaustive) :

le séquençage de novo ou le reséquençage d'un génome connu
l'étude de la variabilité génétique et du polymorphisme de nucléotide simple (SNP)
le séquencage d'haplotypes particuliers lors du clonage positionnel d'un gène d'intérêt
l'étude de plus en plus fine du transcriptome :
1. identification de transcrits rares, étude des phénomènes d'épissage alternatif, identification des séquences frontières intron/exon, analyse quantitative du niveau de transcription des gènes
2. étude du profil en petits ARN non codants ("small ncRNAs"), découverte de gènes codant ces types d'ARN
l'étude des interactions ADN / protéines (régulation de la transcription, facteurs de transcription, ...)
la génomique médicale
la génomique comparative qui compare la structure et les fonctions des génomes de différentes espèces (organisation et évolution des génomes)
la métagénomique : étude du génome d'un organisme prélevé directement dans un environnement complexe (intestin, océan, sols, ...), à l'inverse d'un organisme de laboratoire. Le but est d'obtenir des informations sur l'incidence de cet environnement. Le préfixe "méta" signifie "après, au-delà de, avec, ...". Aller à : "Metagenomics at EBI".
l'épigénétique et l'épigénomique : étude de l'influence de l'environnement et de l'histoire individuelle sur les modifications de l'expression des gènes d'une génération à l'autre. Le préfixe "épi" signifie "sur, au-dessus, ...".
l'étude du profil de méthylation (processus épigénétique)

2. Rappels et définitions (principales sources : Unige-Ch / P. Luchetta et al. - 2005)

a. Principaux types de gènes

Il existe une trés grande diversité de types de gènes selon leur structure, leur localisation et leur fonction. On peut citer principalement :

les gènes codant pour des protéines
les gènes codant pour des ARN
les gènes de régulation
1. les gènes de réplication qui spécifient les sites d'initiation et de terminaison de la réplication de l'ADN
2. les gènes de recombinaison qui correspondent aux sites de reconnaissance par les enzymes impliqués dans la recombinaison
3. les gènes de ségrégation qui sont les sites d'attachement des chromosomes pendant la mitose ou la méiose
les pseudogènes

b. Gènes paralogues et gènes orthologues

La duplication génique correspond à la multiplication de matériel génétique sur un chromosome. Des mutations peuvent alors affecter chaque copie des gènes après la duplication pour aboutir à une différenciation de deux gènes "frères" ou gènes paralogues.

Donc, deux gènes au sein d'une espèce sont dits paralogues s'ils résultent d'une duplication génique.

Lorsqu'une population évolue de manière indépendante (exemple : séparation géographique), ses caractéristiques génétiques évoluent de façon différente. Ce phénomène est appelé spéciation et il aboutit à la création de gènes orthologues : les mêmes gènes dans des espèces différentes.

Donc deux gènes homologues (qui ont une forte similitude de séquence) de deux espèces différentes sont dits orthologues s'ils descendent d'un gène unique présent dans le dernier ancêtre commun aux deux espèces.

Les espèces actuelles contiennent dans leur génome des gènes hérités d'un ancêtre commun (gènes homologues). Pour obtenir un arbre phylogénétique, on compare les gènes homologues. Quant un gène appartient à une famille multigénique, il est difficile de différencier les spéciations et les duplications.

L'analyse des gènes paralogues est donc un élément important pour l'étude de l'évolution des génomes.

Exemple de 2 types d'homologie de gènes basées sur des évènements évolutionnaires différents : (A) et (B) représentent les possibilités les plus simples. (C) représente un cas de figure plus complexe.

biochimej orthologue et paralogue

Source : "Molecular biology of the cell"

c. Pseudogènes

Ce sont des gènes non fonctionnels qui ont des similitudes avec un ou plusieurs gènes fonctionnels paralogues (gènes dupliqués au sein d'une même espèce).

Ce sont donc des copies inactives de gènes fonctionnels. Cette inactivité est souvent due à l'absence de promoteur ou d'éléments de régulation. Les pseudogènes sont libres de toute contrainte sélective d'où une accumulation de mutations diverses dans leurs parties codantes ou non codantes.

Il existe différents types de pseudogènes, notamment les pseudogènes dupliqués et les rétro-pseudogènes qui diffèrent par leur mécanisme d'apparition et leur mode d'évolution.

les pseudogènes dupliqués proviennent généralement de la duplication conforme d'un gène actif, cette copie évoluant vers une forme inactive.
les rétro-pseudogènes ne sont présents que chez les Métazoaires et proviennent d'une rétro-transposition, c'est-à-dire la transcription inverse d'un ARN messager (ARNm => ADNc) suivi d'une intégration dans l'ADN génomique.

Les pseudogènes sont des indices d'évolution d'un organisme au cours du temps. Plus un organisme a évolué, plus grand est son nombre de pseudogènes.

d. Rétroséquence

Séquences qui résultent d'une transcription inverse puis qui sont intégrées au génome mais qui n'ont plus la capacité de se transposer. Elles ont certaines caractéristiques :

les introns sont absents.
une séquence poly-A (extrémité 3') ajoutée sur l'ARN messager après la transcription.
répétitions directes aux extrémités, laissant supposer qu'un mécanisme de transposition a été impliqué dans leur création.

Les rétroséquences sont soit fonctionnelles (rétrogènes), soit non- fonctionnelles (rétro-pseudogènes).

e. Rétrogène

Le maintien de la fonction de ces séquences est un cas assez rare pour les raisons suivantes :

la réverse transcriptase est assez infidèle et va ainsi introduire de nombreuses mutations dans les rétroséquences.
le site d'initiation de la transcription n'est pas forcément inclus dans l'ARN (sauf si le gène a été transcrit par l'ARN polymérase III).
la localisation de l'insertion du rétrogène n'est pas forcément propice à sa transcription.

En conséquence, la majeure partie des rétroséquences sont des rétro-pseudogènes.

biochimej Retrogene

Source : B. Dujon (2008)

f. Eléments transposables

Ceux sont des séquences d'ADN capable de se déplacer et de se multiplier de manière autonome dans un génome, par un mécanisme appelé transposition. Les transposons ont été identifiés par Barbara McClintock qui a étudié des mutations instables induites par ces éléments chez le maïs.

Présents chez tous les organismes vivants, les éléments transposables sont un des constituants les plus importants des génomes eucaryotes. Exemples : 45% du génome de l'homme et plus de 70% chez le maïs.

Les éléments transposables peuvent expliquer d'importantes différences dans les tailles du génome d'organismes.

Les éléments transposables sont divisés en 2 classes selon leur mode de transposition.

Ceux de classe I ou rétrotransposons : ils transposent via un intermédiaire ARN selon un mode réplicatif (copier - coller).

biochimej retrotransposons

Leur ARN messager est rétro-transcrit en ADNc qui est intégré dans le génome. Les rétrotransposons sont divisés en 2 groupes :

les rétrotransposons à LTR (Longue séquence Terminale Répétée - "Long Termial Repeat") ou type rétroviral.
les rétrotransposons sans LTR (les LINE - "Long Interspersed Nuclear Elements" - 1 à 7 kpb) et les SINE ("Short Interspersed Nuclear Elements" - 100 à 500 pb).

Ceux de classe II ou transposons : ils transposent selon un mode conservatif (couper - coller).

biochimej transposons

Source : "La génomique végétale et les plantes cultivées" - M. Caboche

Ils sont caractérisés par la présence à leurs extrémités de séquences terminales inversement répétées (TIR). Ils sont de taille variable (100 à 20 000 pb).

Voir la base de données "ACLAME" : "A CLAssification of genetic Mobile Elements"

Eléments transposables	Arabidopsis thaliana	Homo sapiens	Saccharomyces cerevisiae
nombre de copies classe I - LTR	1594	443.000	331
nombre de copies classe I - non LTR	515	2.426.000	0
nombre de copies classe II	2203	294.000	0

g. Famille Alu

Famille de séquences répétées issue d'un processus de rétrotransposition. Les séquences Alu contiennent un site de reconnaissance pour l'enzyme de restriction Alu I.

longueur environ 300 pb
nombre de répétitions : environ 1 million de fois chez l'homme (11% du génome)

La famille Alu est un exemple de SINE ("Short Interspersed Nuclear Elements" - voir ci-dessus). La plupart sont des rétroséquences issues d'une réverse transcription de l'ARN.

h. La synténie

Localement l'ordre des gènes sur un même chromosome tend à être conservé sur des millions d'années: c'est le phénomène de synténie. La synténie est donc la présence simultanée sur le même chromosome de deux ou plusieurs loci.

La synténie est utilisée en génomique comparative (cartes physiques comparatives) pour décrire la conservation de l'ordre des gènes entre deux espèces apparentées. Les comparaisons entre espèces éloignées phylogénétiquement éloignées révèlent une perte de synténie.

Cinteny - "Server for Synteny Identification and Analysis of Genome Rearrangement"
Phytozome : "a tool for green plant comparative genomics"

i. Gène candidat

C'est un gène dont on suppose l'implication dans un effet biologique. C'est donc un gène qui gouverne une part importante de la variabilité d'un caractère.

Plusieurs approches (qui peuvent être combinées) existent pour identifier un gène candidat :

l'étude de candidats physiologiques afin d'identifier le gène recherché parmi les gènes connus intervenant dans ce caractère.
le clonage positionnel : c'est la cartographie fine de la région pour déterminer la position du gène recherché, jusqu'à ne plus trouver qu'un seul gène à cet endroit.
l'étude de gènes connus ayant un effet similaire dans une autre espèce.

j. Les microsatellites

Une séquence d'ADN dite microsatellite (ou "simple sequence repeats" - SSR, "short tandem repeats" - STR) est formée par une répétition continue de motifs de 2 à 10 nucléotides (exemple : le motif CAGT).

Les microsatellites sont très abondants chez les Eucaryotes : un microsatellite peut être présent à des milliers d'exemplaires dans le génome. Chez les végétaux supérieurs, il y aurait en moyenne un microsatellite tous les 50 kb.

Les microsatellites sont présents sur l'ensemble du génome, le plus fréquemment au niveau des introns et des exons des gènes. La localisation des microsatellites sur le génome est relativement conservée entre des espèces phylogénétiquement proches.

Le polymorphisme des microsatellites peut être utilisé comme marqueur génétique afin d'identifier un individu.

Les régions flanquantes des microsatellites servent d'amorces pour la réaction de polymérisation en chaîne (PCR). En effet, si un microsatellite donnné n'est pas spécifique d'un locus, en revanche ses régions flanquantes le sont : une paire d'amorces spécifique de ces régions flanquantes permettra donc l'amplification spécifique de ce seul microsatellite.

k. Marqueur génétique

C'est une séquence d'ADN polymorphe utilisée pour baliser le génome et obtenir une carte génétique. Les nouvelles biotechnologies permettent l'analyse directe du polymorphisme des séquences d'ADN.

Il existe différentes sortes de marqueurs :

polymorphisme de longueur des fragments de restriction ("Restriction Fragment Length Polymorphism" - RFLP)
amplification aléatoire d'ADN polymorphe ("Ramdom Amplification of Polymorphic DNA" - RAPD)
polymorphisme de nucléotide simple ("Single Nucleotide Polymorphisms" - SNP)
marqueur de séquence exprimée ("Expressed Sequence Tag" - EST)

3. Les principaux buts de la génomique

a. L'assemblage de cartes physiques et génétique des génomes : voir un exemple

La position des gènes dans un génome peut être définie soit par une distance physique, soit par une position relative basée sur des fréquences de recombinaison entre ces gènes.

Cette information est capitale si l'on veut comparer les génomes d'espèces voisines ou établir le lien entre données phénotypiques et génotypiques.

Les cartes génétiques décrivent l'ordre relatif des marqueurs génétiques au sein d'un groupe de liaison. Les marqueurs peuvent être de différentes natures : gènes, microsatellites, SNP, EST, STS, RFLP ...

Exemple : marqueur STS de la glutamate déshydrogenase. [dbSTS: database of "Sequence Tagged Sites"]

Les cartes génétiques sont utilisées en recherche fondamentale mais aussi pour l'amélioration des espèces animales et végétales.

b. L'obtention de séquences génomiques, de séquences transcrites et leur assemblage

Initialement (dans les années 80 - 90), la méthode de séquençage développée par Frédéric Sanger a été utilisée puis trés largement automatisée tant pour pour les réactions de séquençage que pour la lecture des séquences.

Puis l'avènement des technologies de séquençage à très haut débit a bouleversé la portée des résultats que l'on peut obtenir en génomique.

Il y a 2 démarches pour le séquençage de génomes entiers : la méthode hiérarchique et la méthode dite "en vrac". Elles nécessitent l'assemblage des séquences chevauchantes en séquences sans interruption que l'on appelle contigs.

Par ailleurs, la plus grande partie d'un génome Eucaryote étant constitué d'ADN non codant, le séquençage porte aussi sur des clones d'ADNc (pleine longueur ou non) qui contiennent des séquences issues de la transcription inverse d'ARN messagers.

Le séquençage d'une des extrémités d'un ADNc suffit en principe pour identifier un clone d'ADNc et l'on appelle ces petits fragments de séquences des marqueurs de séquences exprimées ou EST ("Expressed Sequence Tags").

Le séquençage recquiert des logiciels bioinformatiques adaptés à la quantité phénoménale d'information qu'il génère.

c. La fabrication d'atlas d'expression génique

En étudiant les profils de transcription et de traduction, on peut cerner la fonction d'un gène.

Les méthodes actuelles de génomique sont basées sur la détection de marqueurs spécifique de chaque gène dans une banque contenant des centaines de milliers de fragments séquencés.

Pour découvrir de nouveaux gènes, on se sert du séquençage d'EST ou de méthodes telles que l'analyse sérielle de l'expression des gènes ("Serial Analysis of Gene Expression", méthode SAGE) ou bien encore celle de l'expression différentielle d'ARNm ("differential display").

Quand on dispose d'une collection d'EST spécifiques d'un gène ("unigene set") on peut fabriquer des puces à ADN ("micro-array", "chips") sur lesquelles sont hybridés des ADNc marqués par des molécules fluorescentes.

Ces ADNc sont extraits à partir de tissus, de cellules auxquels on a appliqué un traitement particulier. La comparaison de l'expression des gènes par rapport à un témoin non traité permet théoriquement d'évaluer le niveau relatif de transcription de l'ensemble des gènes d'un génome dans des centaines de conditions.

On peut également obtenir des informations sur la régulation de leur transcription, voire des indices sur la fonction de gènes inconnus, par comparaison avec des gènes de fonction connue.

d. La collecte de données fonctionnelles sur les aspects biochimiques et sur l'action phénotypique des gènes

La génomique fonctionnelle inclut des approches qui permettent de vérifier les propriétés biochimiques et les rôles cellulaires du produit de chaque gène.

La génétique inverse (qui va du gène vers le phénotype) à haute densité consiste à inactiver de manière ciblée et systématique des gènes particuliers.

Parmi les stratégies employées, on peut citer

la mutagénèse systématique qui correspond à l'extinction ("knock-out") d'une série de gènes un par un.
la recombinaison homologue où la copie du gène sauvage est remplacé par un variant. Cette technique permet, par exemple, de placer l'expression d'un gène sous le contrôle des éléments régulateurs d'un autre gène.
on peut induire la perte transitoire de la fonction d'un gène en se servant d'ARN interférent ("RNAi").

e. L'évaluation de la variabilité de la séquence d'ADN au sein d'une même espèce (SNP - NCBI)

Les génomes sont polymorphes, c'est-à-dire que 2 ou plusieurs variants de séquences différentes peuvent co-exister au sein d'une population naturelle.

Le polymorphisme d'un seul nucléotide ou SNP ("Single nucléotide polymorphism") ou le polymorphisme d'insertion ou de délétion de nucléotides ont une part essentielle dans la variabilité génétique (la composante héréditaire de variabilité de caractères).

Connaître la répartition des SNP est donc capital pour établir les associations entre ces variations SNP et les variations phénotypiques.

f. L'identification et l'annotation de l'ensemble des gènes des génomes et de leurs produits d'expression : voir un exemple

Après avoir séquencé un génome, il faut identifier les gènes qu'il contient. Plus précisément, cela consiste à :

déterminer la structure globale du gène
rechercher les cadres de lecture ouvert ("Open Reading Frame" - ORF)
localiser les motifs de régulation de la transcription des gènes (sites d'initiation ou de terminaison de la transcription, ...)
localiser les sites d'épissage aux bornes exon / intron
localiser les régions codantes
déterminer les pseudogènes, les éléments transposables ...

biochimej Structure gene intron exon polyA coiffe cap enhancer silencer tata box promoter promoteur transcription traduction protein synthesis

Une fois un gène identifié, il faut l'annoter, c'est- à-dire le relier aux maximum de données biologiques (par exemple : données de génétique concernant sa fonction, son expression et les variations phénotypiques des mutants pour la protéine codée, ...).

En d'autres termes, on tente d'assigner aux molécules pour lesquelles les gènes codent :

une fonction biologique / biochimique
une localisation sub-cellulaire
leur implication dans des processus de régulation
leur interactions avec d'autres molécules biologiques
un profil de transcription dite "spatio - temporelle" des gènes

Des logiciels bioinformatiques sont nécessaires pour l'étude de la structure des gènes, Par exemple :

BLAST qui permet d'aligner la séquence du génome avec les séquences d'ADNc ou rechercher des similarités entre ce génome et d'autres génomes déjà connus et annotés.
"ORF Finder" (NCBI) : Entrer le N° d'accession : AK094782.1 - ARNm de la glutamate déshydrogénase.
Suite logicielle pour l'annotation de Arabidopsis thaliana

Des bases de données regroupent l'ensemble des données biologiques informatives quant à la structure et la fonction des gènes et elles permettent leur annotation :

Bien sur, l'ensemble de ces données sont intégrées dans les grandes bases de données biologiques mondiales que sont :

NCBI / Entrez (National Center for Biotechnology Information)
EMBL - EBI
UniProt

g. Le développement d'outils bioinformatiques.

L'étude des génomes, des transcriptomes et des protéomes, des interactomes, nécessite le développement de technologies informatiques (Internet, ordinateurs, ...), de logiciels ou d'ensemble de logiciels et de théories informatiques, afin :

d'automatiser l'obtention des données (technologies de séquençage à très haut débit, molécules fluorescentes, gels d'électrophorèse bi-dimensionnels, spectromètrie de masse ...)
permettre l'analyse de ces données (RNA-seq, puces à ADN, détection d'EST, assemblage en contigs, génomique comparative, métagénomique, ...)
stocker et organiser ces données dans des bases de données consultables via Internet et des interfaces Web
développer des modèles mathématiques - logiques pour l'analyse des données
développer des langages informatiques spécifiques au traitement des données (BioPERL, BioPython, R, ...)

Toutes ces approches contribuent à élucider les mécanismes moléculaires qui régissent les fonctions biologiques dans une cellule.

Elles restent cependant complémentaires des approches expérimentales "classiques" de la biochimie, de la biologie cellulaire, de la génétique et d'autres disciplines.

4. Généralités sur le génome des plantes

Les génomes des plantes contiennent plusieurs classes de gènes qui sont absents ou sous-représentés chez les animaux.

Par exemple, les gènes codant pour :

les enzymes de biosynthèse de la paroi cellulaire
les protéines de transport des nutriments
les protéines spécifiques de la photosynthèse : antennes, transport des électrons, RuBisCO, ...
les produits impliqués dans la turgescence et les réponses à différents stress
des gènes de résistance aux pathogènes, trés polymorphes et disséminés dans tout le génome

Les classes de gènes communs aux plantes et aux animaux sont celles impliquées dans les mécanismes les plus généraux de la biologie d'une cellule :

Il y a cependant des exceptions : par exemple, il n'y a pas d'homologue de la famille de protéines G Ras chez Arabidopsis thaliana.

Les projets de séquençage de génomes de plantes portent sur un trés grand nombre d'espèces.

a. Le génome d'Arabidopsis thaliana est l'un des modèles pour le règne végétal. Il sert de référence pour mettre au point des méthodes d'analyse fonctionnelle.

Le génome d'Arabidopsis thaliana a été trés largement façonné par des duplications à grande échelle suivies par de nombreuses délétions et duplications en tandem. La situation actuelle des familles de gènes telle qu'on peut l'observer dans les séquences assemblées des cinq chromosomes d'Arabidopsis thaliana rend compte des pressions évolutives qui se sont exercées sur la fonction de chaque gène.

b. Medicago truncatula, proche de la luzerne cultivée, a été choisi comme légumineuse modèle. Elle est diploïde et autogame, avec un petit génome. C'est un modèle utilisé pour la génétique moléculaire de la symbiose fixatrice d'azote avec la bactérie du sol Rhizobium et la symbiose endomycorhizienne.

c. Du point de vue économique, les plus importants concernent les principales céréales : maïs, riz, blé, sorgho, orge et les plantes fouragères comme le soja et la luzerne.

Les projets sur le maïs, le riz et la luzerne concernent les ressources génétiques quantitatives. Les caractères génétiques importants sur le plan économique sont, entre autre :

la résistance aux pathogènes
la production de graines
les caractères qui ont trait au rendement
la tolérance à différents types de stress (sécheresse, sel, métaux lourds ...)

Un grand nombre de consortium regroupent l'ensemble des données (soit pour plusieurs espèces, soit par espèce) dans des banques de données. Par exemple :

la banque de données d'Arabidopsis thaliana TAIR ("The Arabidopsis Information Resource")
la banque de données du maïs The TIGR Maize Database
banque de données multidédiées et programme de recherches Génoplante - France
des collection de ressources génétiques et de semences (Royal Botanic Garden, Kew)
la banque de données pour Medicago truncatula Center for Medicago Genomics Research
service de recherche en agriculture USDA

5. La protéomique

La protéomique a pour but d'identifier et quantifier l'ensemble des protéines synthétisées ou protéome, à un moment donné et dans des conditions données au sein d'un tissu, d'une cellule ou d'un compartiment cellulaire.

Le protéome est extrêmemement complexe à plusieurs titres :

compte-tenu de l'épissage alternatif des transcrits primaires (plusieurs ARNm pour un gène) et compte-tenu des modifications post-traductionnelles des protéines, on peut estimer à plusieurs dizaines de milliers les formes des protéines synthétisées dans les différents tissus humains par exemple.

pour chaque condition environnementale (condition physiologique normale vs. conditions de stress) une cellule est caractérisée par un protéome adapté à cette condition alors qu'elle a toujours le même génome. Le cas des plantes est un exemple flagrant compte-tenu de leur nécessité de s'adapter tant aux variations de la lumière qu'aux effets de stress biotiques ou abiotiques.

outre les modifications post-traductionnelles, les protéines subissent des transformations une fois synthétisées : clivage du peptide signal (séquence d'adressage), activation de la forme native à partir d'un précurseur (zymogène), assemblage en complexes oligomèriques, association à des cofacteurs.

il existe une grande dynamique de la synthèse des protéines : le rapport entre les protéines les moins abondantes et les plus abondantes dans une cellule dépasse 10⁶ pour atteindre 10¹² dans le sérum.

les protéines ont des demi-vies trés variables : ornithine décarboxylase 11 min - tryptophanne oxygénase 2 h - myosine 30 j.

La transcriptomique analyse l'ensemble des transcrits (produits d'expression des gènes). La protéomique et la transcriptomique sont donc des approches complémentaires trés puissantes qui peuvent être utilisées pour des études fondamentales ou appliquées en biologie, en médecine, en agriculture.

En effet, dans les deux cas, les infomations recueillies permettent d'aborder l'ensemble des réponses cellulaires dans leur globalité et non plus de manière partielle.

La protéomique apporte des réponses auxquelles la transcriptomique ne peut répondre :

compléments d'informations sur les modalités d'expression des gènes pour les organismes dont le génome n'a pas encore été séquencé ou pour lesquels les programmes de prédiction de séquences codantes sont moins fiables. Un exemple est l'aide au repérage des bordures d'exons ce qui permet en retour une meilleure annotation des génomes.
estimation quantitative des concentrations des protéines synthétisées (méthode de marqueurs d'affinité contenant un isotope d'identification : ICAT).
obtention de données sur la fonction des protéines et les interactions entre protéines ou entre protéines et autres molécules biologiques (approche double-hybride ou approche "tandem affinity purification by tag" - TAP/TAG).

6. L'annotation : le prochain défi de la génomique (et des domaines en "omique")

L’annotation d’un génome, d'un transcriptome, d'un protéome, d'un métabolome ... consiste à documenter de la manière la plus exhaustive tous les composants de cette information brute. On conçoit que c'est un travail encyclopédique colossal, d'autant que de nouvelles données sont obtenues de plus en plus rapidement et massivement et que ces données peuvent être croisées.

a. L’annotation automatique s'appuie (essentiellement) sur des comparaisons des séquences à annoter avec les séquences présentes dans les banques de données.

Les algorithmes recherchent des similarités / homologies de séquence, de structure, de motifs, … Ils permettent de prédire la fonction d’une molécule et de transfèrer automatiquement l'annotation entre les molécules homologues.

Mais il y a un point capital : si l'annotation des molécules de référence est correcte, il n'y a pas de souci. Si elle est fausse, c'est un "jeu de domino" : l'erreur initiale est répercutée de proche en proche.

b. L’annotation manuelle (ou curation) par des experts (des curateurs) qui valident ou invalident la prédiction en fonction de leurs connaissances ou de résultats expérimentaux.

L'annotation manuelle est donc tout à fait indispensable. Mais, en regard de la quantité phénoménale de données acquises quotidiennement, il est illusoire d'envisager une curation manuelle de l'ensemble des données en temps réel.

On mesure aisément le problème : une quantité minime de données traitées par l'homme en temps réel qui induit un retard / décalage de plus en plus grand.

c. L'annotation structurale dans le cas d'un génome tente de prédire :

le contenu en gènes et leur localisation dans le génome en recherchant les phases de lecture ouverte dans les 6 cadres de lecture, les introns et les exons.
l'organisation des gènes (régions non codantes - voir ci-dessus, gènes, opérons, séquences promotrices, terminateurs, sites de fixation aux ribosomes, ...).

Il existe des méthodes intrinsèques ou ab-initio qui s'appuient sur des techniques informatiques d'apprentissage automatique utilisant :

des modèles de Markov interpolés (exemples de logiciels : "Glimmer 1.0", "EasyGene", "GeneMark", ...)
des modèles de contexte interpolés (exemples de logiciels : "Glimmer 2.0", "Glimmer 3.0", ...)

Il existe des méthodes extrinsèques qui reposent sur la comparaison des cadres de lecture avec les séquences présentes dans les banques de données (exemples : "Orpheus", "Critica", "Reganor", ...).

d. L'annotation fonctionnelle tente de prédire la fonction potentielle des gènes (notion d'étiquette, avec nom, fonction et interactions probables).

e. L'annotation relationnelle tente de décrire les relations (interactions) entre les produits des gènes (familles de gènes, réseaux de régulation, réseaux métaboliques, ...).

Toutes ces démarches d'annotation vont de paire avec :

(a) Le développement d'une ontologie : un recueil de termes soigneusement sélectionnés afin de standardiser la dénomination de 3 concepts fondamentaux.

Ainsi, l'ontologie du consortium "Gene ontology" (GO) contient environ 38 000 termes ("Cellular Component" : 3200 termes, "Molecular Function" : 9600 termes, "Biological Process" : 25000 termes). Ces termes sont placés dans une hiérarchie rigoureuse qui établit des liens univoques entre eux.

(b) L'utilisation de langages spécifiques pour standardiser le format des données afin qu'ils soient transmis sans difficulté d'un service (logiciel) bioinformatique à un autre.

De plus en plus, le langage XML avec des schémas de format XSD s'imposent. La transformation d'un type de données en un autre est d'autant plus performante que les formats en entrée et en sortie sont standardisés afin que n'importe quel logiciel puissent "accepter" les données entrantes (format d'échange commun BioXSD).

Décalage entre le nombre de génomes séquencés et leur documentation encyclopédique

On peut considérer que l'annotation est un point d'achoppement des domaines en "omique".

En regard de la performance extraordinaire des technologies de ces domaines (on envisage trés prochainement le séquençage d'un génome par jour) et donc l'accumulation tout à fait colossale de données de tous types dans les banques de données, on ne peut qu'induire un décalage entre les données brutes et leur interprétation, donc leurs significations biologiques.

biochimej Augmentation du nombre de sequencage

Source : Hanson et al. (2010)

Voir un exemple de "méta-données" ("data") selon l'ontologie de EDAM ("EMBRACE Data and Methods").

Tant que ce décalage existera, le pas suivant qui est l'extraction d'une "sur-information biologique" de cette information brute, ne pourra être complètement franchi.

Evolution du nombre de génes estimés dans le génome humain
Technique	Date	Nombre de gènes estimés	Hypothèses et commentaires
"Calcul" initial	1990	100 000	Avec l'hypothèse que la taille moyenne d'un gène = 30 kb
Ebauche de séquençage du génome	1994	71 000	Résultat biaisé par les régions riches en gènes ?
Ilôts CpG		80 000	Avec l'hypothèse que 66% des gènes humains ont de tels "ilôts"
Analyse des EST	1994	64 000	Gènes ayant un homologue dans GenBank - Redondance des EST de 50%
Chromosome 22	1999	45 000	Correction liée à la haute densité en gène de ce chromosome
Technique "Exofish" ("Exon Finding by Sequences Homology")	2000	28 000 - 34 000	Avec l'hypothèse que les régions codantes sont plus conservées que les non-codantes. Comparaison des génomes homme - poisson ("Tetraodon nigroviridis")
EST	2000	35 000 120 000	Nombre de gènes Nombre de transcrits
Premier "brouillon" du génome	2001	30 000 - 40 000	Gènes connus + prédictions
Comparaison avec le génome de la souris	2002	30 000	Gènes connus + prédictions
Génome abouti	2004	20 000 - 25 000	Gènes connus + prédictions
Génome abouti	2007	20 000	Annotation des gènes améliorée
Consortium ENCODE	2012	Publication de 30 articles qui montrent entre autre : qu'environ 20% de l'ADN non-codant du génome humain est en fait fonctionnel (codage d'ARN régulateurs) qu'environ 60% de l'ADN non-codant est transcrit mais les fonctions des transcrits ne sont pas connues
Source : Duret L. (2011) - "Bioinformatique: Annotation des génomes (eucaryotes)"

Les erreurs ou l'absence d'annotation

Les "inconnues" dans les bases de données :

biochimej Erreurs d'annotation

Source : Hanson et al. (2010)

Le séquençage en masse de centaines de génomes bactériens a révélé que 30% à 40% des protéines n'ont pas de fonction biologique élucidée.
Sur la base de 1000 génomes séquencés, on estime le nombre de protéines annotées "inconnues" à ... 10⁶ ! (Rappel : "GOLD : Genomes OnLine Database" contient près de 7000 génomes séquencés).
Pour certaines familles de gènes, on estime à 60% le taux d'erreur d'annotation.
Plus le nombre de génomes séquencés augmente, plus on découvre des familles de protéines qui ne sont pas documentées.
Pour 36% des 3736 enzymes qui ont un numéro EC, il n'existe pas de séquences de gènes ou de protéines qui leur soient homologues !

Il est dommage d'accumuler une quantité inouie de données si on ne peut pas en tirer toute l'information. Ce déluge de données peut même noyer l'information actuelle pertinente et nuire (au moins dans un premier temps).

Quel intérêt d'obtenir à la suite d'une étude longue et coûteuse via des EST ou des puces à ADN, des informations telles que : "not annotated", "hypothetical protein", "unnamed molecule", "putative function". On aboutit aux même conclusions : X gènes sont sur-exprimés et Y sont sous-exprimés. Mais qui sont-ils, que font-ils, où sont adressées les protéines pour lesquelles ils codent ... ?

Ci-dessous, protocole d'analyse des erreurs d'annotation des fonctions des super familles d'enzymes dans les bases de données publiques.

Les autres moyens pour l'annotation

L'ensemble de ces moyens fait partie de la génomique comparative et s'appuie sur la notion d'association.

L'exemple typique est celui de génes bactériens regroupés en opéron codant les différentes étapes d'une voie métabolique : la fonction d'un géne inconnu peut-être inferrée à partie des génes connus de cet opéron. Cette notion est étendue à la comparaison de génomes entiers.

Une étude récente a ainsi permis de prédire la fonction de 19 familles de protéines d'Arabidopsis et de Procaryotes (Gerdes et al., 2011).

Parmi ces moyens, on peut citer :

les ensembles de gènes proches physiquement dans le génome ("gene clustering"). Exemples : bases de données "STRING", "SEED", ...
les profils de co-occurence phylogénétique selon l'hypothèse que les enzymes d'une même voie métabolique seront ou toutes présentes ou toutes absentes au sein d'un organisme donné. Exemples : outils ou bases de données "STRING", "PHYDBAC", "MBGD", "Phylogenetic Profiler" au JGI ...
la fusion de gènes qui permet d'obtenir des données sur l'interaction entre les protéines issues de ces génes. Exemples : "FusionDB".
les sites de régulation de l'expression de génes communs à plusieurs gènes ("SwissRegulon")
la reconstruction métabolique à l'échelle d'un génome
les profils de transcription de gènes
les données de protéomique
les associations déduites de la comparaison de phénotypes
la comparaison des structures secondaires ("PSIPRED", "GenTHREADER"), voire tridimensionnelles des protéines ou de certains ARN.

Exemples de systèmes d'annotation de génomes, de gènes, de voies métaboliques, de réseaux d'interactions etc ...
"The gene ontology (GO) database"	GO current annotations
KAAS ("KEGG Automatic Annotation Server")	Moriya et al. (2007) "KAAS: an automatic genome annotation and pathway reconstruction server" Nucleic Acids Res. 35, W182-W185
"The Joint Genome Institute's (JGI) Integrated Microbial Genomes (IMG) system"	Markowitz et al. (2009) "The integrated microbial genomes system: an expanding comparative analysis resource" Nucleic Acids Res., 1-9
"The National Microbial Pathogen Data Resource's (NMPDR) Rapid Annotation using Subsystems Technology (RAST) server"	Aziz et al. (2008) "The RAST Server: Rapid Annotations using Subsystems Technology" BMC Genomics 9, 75
"J. Craig Venter Institute (JCVI) Annotation Service" "The Glimmer system" : suite logicielle pour le séquençage et l'assemblage de génomes, la recherche de gènes, l'annotation et l'analyse de génomes, l'analyse métagénomique (et autres outils génomiques et protéomiques)	"The Glimmer system"
RGAP : "Rice Genome Annotation Project"
"CycADS : an annotation database system to ease the development and update of BioCyc databases" BioCyc : ensemble de bases de données (près de 3000 génomes et leurs voies métaboliques) Source : Vellozo et al. (2011)

7. Liens Internet et références bibliographiques

"Précis de Génomique" (2004) G. Gibson & S. Muse - Ed. De Boeck - ISBN : 2-8041-4334-1

Numéro spécial sur les bases de données dédiées aux plantes : Plant Physiol. 135 (2005)

"La génomique végétale et les plantes cultivées" - Michel Caboche - Conférence "Université de tous les savoirs" (Vidéo et documents à télécharger)

Schoof et al. (2004) "MIPS Arabidopsis thaliana Database (MAtDB): an integrated biological knowledge resource for plant genomics" Nucleic Acids Res. 32 - Database issue: D373 - 376

"AraCyc" : Arabidopsis thaliana Biochemical Pathways

"The Plant Specific Database" - Université du Michigan

Bakke et al. (2009) "Evaluation of Three Automated Genome Annotations for Halorhabdus utahensis" PLoS ONE 4, e6291

Schnoes et al. (2009) "Annotation error in public databases: misannotation of molecular function in enzyme superfamilies" PLoS Comput. Biol. 5, e1000605

Hanson et al. (2010) "‘Unknown’ proteins and ‘orphan’ enzymes: the missing half of the engineering parts list – and how to find it" Biochem. J 425, 1-11

Gerdes et al. (2011) "Synergistic use of plant-prokaryote comparative genomics for functional annotations" BMC Genomics 12, S2

Kubrycht et al. (2012) "Virtual Interactomics of Proteins from Biochemical Standpoint" Mol. Biol. Int.

Article

"BioCyc" : ensemble de bases de données. Près de 3000 génomes et leurs voies métaboliques.

"FunCoup" : base de données d'interactions protéiques

Vellozo et al. (2011) "CycADS: an annotation database system to ease the development and update of BioCyc databases" Database

BioCyc

FunCoup

Article