Annotation et ontologie en genomique et en proteomique Enseignement et recherche Biochimie Emmanuel Jaspard Universite Angers biochimej

L'annotation en génomique fonctionnelle et en protéomique

1. Rappel des buts de la génomique et de la protéomique

2. L'annotation : présentation générale

3. L'annotation des gènes avec l'ontologie

4. Les problèmes de l'annotation

5. Les moyens pour l'annotation

6. Quelques méthodes et outils pour l'annotation

7. Liens Internet et références bibliographiques

1. Rappel des buts de la génomique, de la transcriptomique et de la protéomique

La génomique structurale analyse la structure des gènes et autres parties du génome. La génomique fonctionnelle analyse la fonction des gènes et autres parties du génome. Elle inclue l'analyse du transcriptome (ARN messagers) ou transcriptomique.

Ces disciplines permettent l'annotation des génomes et l'identification des séquences informatives (les gènes avec ou sans introns codant des protéines ou des ARN, les séquences régulatrices, les séquences répétées, les éléments transposables, ...).

biochimej Structure gene intron exon polyA coiffe cap enhancer silencer tata box promoter promoteur transcription traduction protein synthesis

La protéomique a pour but d'identifier (et de quantifier) l'ensemble des protéines synthétisées ou protéome, à un moment donné et dans des conditions données au sein d'un tissu, d'une cellule ou d'un compartiment cellulaire.

Le protéome est extrêmemement complexe à plusieurs titres :

épissage alternatif des transcrits primaires
modifications post-traductionnelles et autres maturations des protéines
stade de développement ou phase d'activité cellulaire
dynamique du taux de synthèse et temps de demie-vie des protéines
...

biochimej Schema general cellule

La protéomique apporte des réponses auxquelles la transcriptomique ne peut répondre :

compléments d'informations sur les modalités d'expression des gènes pour les organismes dont le génome n'a pas encore été séquencé ou pour lesquels les programmes de prédiction de séquences codantes sont moins fiables. Un exemple est l'aide au repérage des bordures d'exons ce qui permet en retour une meilleure annotation du transcriptome et donc des génomes.
estimation quantitative des concentrations des protéines synthétisées (méthode de marqueurs d'affinité contenant un isotope d'identification : ICAT).
obtention de données sur la fonction des protéines et les interactions entre protéines ou entre protéines et autres molécules biologiques (approche double-hybride ou approche "tandem affinity purification by tag" - TAP/TAG).

Les buts de ces disciplines sont donc (liste non exhaustive) :

décrire l'organisation des gènes et localiser les motifs de régulation de l'expression des gènes (sites d'initiation ou de terminaison de la transcription, ...)
déterminer la structure globale des gènes : rechercher les cadres de lecture ouvert ou ORF ("Open Reading Frame"), localiser les régions codantes, localiser les sites d'épissage aux bornes exon / intron, ...
identifier les régions des génomes dont on ignore encore le rôle et élucider ce rôle, déterminer les pseudogènes, les éléments transposables ...
étudier les différences d'expression des produits des gènes dans le temps et pour chaque type de tissus et de cellules
étudier la structure et la fonction des protéines et des ARN pour lesquelles les gènes codent
étudier le profil de méthylation
étudier les interactions ADN / protéines (facteurs de transcription, ...)
intégrer toutes ces informations dans un ensemble plus vaste, celui de l'ensemble des voies métaboliques (métabolome)
décrire les interactions entre tous ces types de macromolécules biologiques (interactome)
obtenir ces données pour le plus grand nombre d'organismes possibles ("GOLD : Genomes OnLine Database").
la génomique médicale
la métagénomique : étude du génome d'un organisme prélevé directement dans un environnement complexe (intestin, océan, sols, ...), à l'inverse d'un organisme de laboratoire. Le but est d'obtenir des informations sur l'incidence de cet environnement. Le préfixe "méta" signifie "après, au-delà de, avec, ...". "Metagenomics at EBI".
l'épigénétique et l'épigénomique : étude de l'influence de l'environnement et de l'histoire individuelle sur les modifications de l'expression des gènes d'une génération à l'autre. Le préfixe "épi" signifie "sur, au-dessus, ...".
...

biochimej Presentation generale Genomique

2. L'annotation : présentation générale

L’annotation d’un génome, d'un transcriptome d'un protéome, d'un métabolome ... consiste à documenter de la manière la plus exhaustive les informations issues de ces disciplines.

On conçoit que c'est un travail encyclopédique de titan, d'autant que de nouvelles données s'accumulent qui doivent être croisées. L'adéquation entre fouille de données textuelles ("text mining") automatique pertinente et recherche "manuelle" par les experts fait l'objet de "workshops" internationaux ("BioCreative Article Classification Task" - BBCIII-ACT) et de nombreuses publications.

a. L’annotation automatique s'appuie (essentiellement) sur des comparaisons des séquences à annoter avec les séquences présentes dans les banques de données.

Les algorithmes recherchent des similarités / homologies de séquence, de structure, de motifs, … Ils permettent de prédire la fonction d’une molécule et de transfèrer automatiquement l'annotation entre les molécules homologues.

Si l'annotation des molécules de référence est correcte, il n'y a pas de souci. Si elle est fausse, c'est un "jeu de domino" : l'erreur initiale est répercutée de proche en proche.

b. L’annotation manuelle (ou curation) par des experts (des curateurs) qui valident ou invalident la prédiction en fonction de leurs connaissances ou de résultats expérimentaux.

L'annotation manuelle est donc tout à fait indispensable. Mais, vue la quantité "astronomique" de données acquises quotidiennement, il est illusoire d'envisager une curation manuelle de l'ensemble des données en temps réel.

On mesure aisément le problème : une quantité "minime" de données traitées par l'homme en temps réel qui induit un retard / décalage de plus en plus grand.

c. L’annotation structurale dans le cas d'un génome tente de prédire :

le contenu en gènes et leur localisation dans le génome en recherchant les phases de lecture ouverte dans les 6 cadres de lecture (ORF - "Open Reading Frame"), les introns et les exons.
l'organisation des gènes (régions non codantes - voir ci-dessus, gènes, opérons, séquences promotrices, terminateurs, sites de fixation aux ribosomes, ...).

Il existe des méthodes intrinsèques ou ab-initio qui s'appuient sur techniques informatiques d'apprentissage automatique utilisant :

des modèles de Markov interpolés (exemples de logiciels : "Glimmer 1.0", "EasyGene", "GeneMark", ...)
des modèles de contexte interpolés (exemples de logiciels : "Glimmer 2.0", "Glimmer 3.0", ...)

Il existe des méthodes extrinsèques qui reposent sur la comparaison des ORF avec les séquences présentes dans les banques de données (exemples : "Orpheus", "Critica", "Reganor", ...).

d. L’annotation fonctionnelle tente de prédire la fonction potentielle des gènes (notion d'étiquette, avec nom, fonction et interactions probables).

e. L’annotation relationnelle tente de décrire les relations (interactions) entre les produits des gènes (familles de gènes, réseaux de régulation, réseaux métaboliques, ...).

3. L'annotation des gènes avec l'ontologie

a. L'ontologie et le consortium Gene Ontology

Une ontologie est un ensemble structuré de termes et de concepts qui représentent le sens d'un champ d'informations, que ce soit par :

les métadonnées (données qui définissent une autre donnée) d'un espace de noms (ensembles de termes appartenant à un même répertoire). Voir un exemple de "méta-données" ("data") selon l'ontologie de EDAM ("EMBRACE Data and Methods").
les éléments d'un domaine de connaissances.

Chaque mot-clé de l'ontologie est associé à des lexicons (synonymes, homonymes, hyperonymes, ...). Le réseau autour d'un mot-clé est appelé concept.

Les concepts sont formalisés sous forme d'un graphe au sein duquel il existe des relations sémantiques ou d'inclusion ("appartient à").

De manière schématique, on peut considérer qu'en génomique, l'ontologie est associée aux notions de terminologies et de classifications.

Le consortium Gene Ontology (GO) :

distribue une classification qui est l'une des références en génomique.
définit un vocabulaire contrôlé (l'ontologie) et unifie ainsi la multiplicité des termes employés pour décrire un concept.
augmente la "communicabilité" entre bases de données.

Exemple : tous les termes suivants

glucose synthesis
glucose biosynthesis
glucose formation
glucose anabolism
gluconeogenesis

décrivent la formation du glucose.

D'où le terme GO : "gluconeogenesis"
dont l'identifiant est : GO:0006094

b. Les termes GO

Le produit d'un gène :

est adressé à un ou plusieurs compartiments cellulaires : "Cellular Component" (CC) / plus de 3000 termes
participe à un ou plusieurs processus biologiques : "Biological Process" (BP) / plus de 20 000 termes
il y remplit une ou plusieurs fonctions moléculaires : "Molecular Function" (MF) / plus de 9000 termes

Les termes GO sont les noeuds de l'ontologie. Il en existe actuellement plus de 32000 dans GO.

GO décrit donc les produits des gènes via un ensemble de termes d'un graphe dirigé acyclique ("Directed Acyclic Graph" - DAG) qui contient 3 axes hiérarchiquement indépendants (CC, BP et MF, définis ci-dessus).

biochimej Filiation des mots ontologie graph graphe ontology

Source : GO

Un terme GO est défini par :

un nom de terme : dans l'exemple ci-dessous "glycolysis"
un N° d'accession unique (préfixe "GO") : "0006096"
une "ontologie" : "Biological Process"
une définition dont les sources sont mentionnées
des commentaires sur la signification ou l'utilisation du terme
le cas échéant : des synonymes qui ont un lien avec le nom du terme ("related") ou qui sont exactement équivalents("exact") ou qui ont une acception plus large ou plus restrictive ("broad")
le cas échéant : des références croisées avec d'autres bases de données ("xref")

Résultat de GO en cherchant le terme "glycolysis" (ou, à l'inverse le code GO "0006096")
Accession	0006096
Ontology	Biological Process
Synonyms	related: anaerobic glycolysis exact: Embden-Meyerhof pathway exact: Embden-Meyerhof-Parnas pathway alt_id: GO:0019641 alt_id: GO:0019642 related: modifed Embden-Meyerhof pathway
Definition	"The chemical reactions and pathways resulting in the breakdown of a monosaccharide (generally glucose) into pyruvate, ..." Source: GOC:bf, ISBN:0716720094, Wikipedia:Glycolysis
Subset	Prokaryotic GO subset

Les termes GO sont liés par un ensemble de relations : "Is a" - "Part of" - "Regulates" - "Positively Regulates" - "Negatively Regulates" - "Occurs in"

biochimej relations logiques de l'ontologie

Voir un développement sur les relations de l'ontologie de GO.

Chaque terme hérite de la signification de tous les termes qui le séparent de la racine de l'ontologie (notion d'ancêtre, parent et enfant). Ces termes sont donc placés dans une hiérarchie rigoureuse qui établit entre eux des liens univoques de "parents à enfants".

Figure ci-dessous : illustration des liens entre les termes pour le mot "chloroplast" lui-même inclu dans le concept "cellular component".

biochimej Filiation des mots ontologie

Source : Annotation de la base de données "QuickGO"

c. Les niveaux de preuve d'une annotation

Ils sont précisés par des codes ("Evidence Codes") répartis en catégories : "Experimental" - "Computational" - "Author statement" (déclaration d'auteur) - "Curator statement" (déclaration de curateur)

biochimej Procedure GO

Source : GO

La dernière catégorie est "Automatically-assigned" (annotation automatique) dont le sous-code "Inferred from Electronic Annotation" (IEA) représente actuellement près de 95% de l'annotation. Voir : Skunca et al. (2012)

Exemple de code	information déduite
IMP	du phénotype des mutants
IGI	d'interactions génétiques
IPI	d'interactions physiques
ISS	par analogie de séquences ou de structure
IDA	par expérimentation directe
IEP	du profil d'expression
IEA	par l'annotation in silico
TAS	à partir de la publication de résultats fiables
NAS	à partir de la publication de résultats non vérifiables

On ne soulignera jamais assez le le rôle primordial des scientifiques que l'on nomme curateurs. Ils effectuent, grâce à leur immense culture, un travail dans l'ombre qui assure la qualité, la rigueur et la pertinence des informations associées aux données de génomique, transcriptomique, protéomique et autres contenues dans les bases de données.

GO est extrêmement complexe et nécessite un "navigateur" dans l'arbre de l'ontologie. Le plus utilisé pour GO est AmiGO.

Voir un exemple de procédure d'annotation basée sur la séquence.

4. Les problémes de l'annotation

a. Le décalage entre le nombre de génomes séquencés et leur documentation encyclopédique

Le séquençage à trés haut débit génère des quantités phénoménales d'information.

On peut donc considérer que l'annotation est maintenant le point d'achoppement des disciplines en "omique".

En regard de la performance extraordinaire des technologies de ces domaines (séquençage d'un génome par jour) et donc l'accumulation tout à fait colossale de données de tous types dans les banques de données, on ne peut qu'induire un décalage entre les données brutes et leur interprétation, donc leurs significations biologiques.

Tant que ce décalage existera, le pas suivant qui est d'extraire une "sur-information biologique" de cette information brute, ne pourra être correctement franchi.

biochimej Sequences annotees et non annotees

Source : Hanson et al. (2010)

Exemple de l'évolution du nombre de génes estimés dans le génome humain
Technique	Date	Nombre de gènes estimés	Hypothèses et commentaires
"Calcul" initial	1990	100 000	Avec l'hypothèse que la taille moyenne d'un gène = 30 kb
Ebauche de séquençage du génome	1994	71 000	Résultat biaisé par les régions riches en gènes ?
Ilôts CpG		80 000	Avec l'hypothèse que 66% des gènes humains ont de tels "ilôts"
Analyse des EST	1994	64 000	Gènes ayant un homologue dans GenBank - Redondance des EST de 50%
Chromosome 22	1999	45 000	Correction liée à la haute densité en gène de ce chromosome
Technique "Exofish" ("Exon Finding by Sequences Homology")	2000	28 000 - 34 000	Avec l'hypothèse que les régions codantes sont plus conservées que les régions non-codantes. Comparaison des génomes homme - poisson ("Tetraodon nigroviridis")
EST	2000	35 000 120 000	Nombre de gènes Nombre de transcrits
Premier "brouillon" du génome	2001	30 000 - 40 000	Gènes connus + prédictions
Comparaison avec le génome de la souris	2002	30 000	Gènes connus + prédictions
Analyse du génome de l'homme en cours d'aboutissement	2004	20 000 - 25 000	Gènes connus + prédictions
Analyse du génome de l'homme en cours d'aboutissement	2007	20 000	Annotation des gènes améliorée
Analyse du génome de l'homme aboutie	2012	20 687 gènes codant des protéines	"The ENCODE Project Consortium" Nature 489, 57-74 (2012)
Source : Duret L. (2011) - "Bioinformatique: Annotation des génomes (eucaryotes)"

b. Les erreurs ou l'absence d'annotation

Les "inconnues" dans les bases de données :

Le séquençage en masse de centaines de génomes bactériens a révélé que 30% à 40% des protéines n'ont pas de fonction biologique élucidée.
Sur la base de 1000 génomes on estime le nombre de protéines annotées "inconnues" à ... 10⁶ !
A titre de rappel : "GOLD" en contient près de 56.000 dont plus de 6600 complètement séquencés.
Pour certaines familles de gènes, on estime à 60% le taux d'erreur d'annotation.
Plus le nombre de génomes séquencés augmente, plus on découvre des familles de protéines qui ne sont pas documentées.
Pour 36% des 3736 enzymes qui ont un numéro EC, il n'existe pas de séquences de gènes ou de protéines qui leur soient homologues.

biochimej Nombre proteines inconnues

Source : Hanson et al. (2010)

Il est dommage d'accumuler une quantité inouie de données si on ne peut pas en tirer toute l'information. Ce déluge de données peut même "noyer" l'information 'actuelle" pertinente et nuire (au moins dans un premier temps).

Quel intérêt d'obtenir à la suite d'une étude longue et coûteuse via des EST ou des puces à ADN, des informations telles que : "not annotated", "hypothetical protein" (!), "unnamed molecule, "putative function", ...

On aboutit aux mêmes conclusions : X gènes sont sur-exprimés et Y sont sous-exprimés. Mais qui sont-ils, que font-ils, où sont adressées les protéines pour lesquelles ils codent ... ?!

5. Les moyens pour l'annotation

a. Exemples de logiciels et d'interfaces web pour l'annotation

1. Le consortium GO propose un ensemble de logiciels ("Gene Ontology Tools") pour traiter et analyser des données de divers types, en particulier celles issues des puces à ADN. Ces logiciels sont utilisables directement via une interface Web ou à installer sur l'ordinateur pour divers types de systèmes d'exploitation (Unix, Linux, Windows, Mac)

2. L'une des interfaces les plus didactiques et intuitives pour l'annotation : "QuickGO (GO Browser)" et "Gene Ontology Annotation (GOA)" (en particulier le lien : "Search GOA").

3. Autres exemples de logiciels - interface web :

"GOrilla". Un exemple trés didactique de classification hiérarchique et d'ontologie est montré avec le lien "Running example".
"Ontologizer".

4. DAVID : outil pour annoter les données de transcriptome.

5. TD en ligne "Ontologies en biologie" - M2 Génomique Fonctionnelle - Université Aix - Marseille II

b. Exemple dans le cas d'un gène

Une fois un gène identifié, il faut obtenir le plus d'informations concernant :

la structure du gène et des séquences de régulation, la position des introns / exons, les différents transcrits possibles (épissage alternatif)
la ou les fonction(s) biologique(s) / biochimique(s) des molécules pour lesquelles il code
leur(s) localisation(s) sub-cellulaire(s)
l'expression spatio - temporelle de ces molécules
leurs liens avec les données de génétique concernant leurs fonctions et les variations phénotypiques des mutants pour le(s) produit(s) que code ce gène codée(s).
leur implication dans des processus de régulation
leur interactions avec d'autres molécules biologiques
...

Des logiciels bioinformatiques sont dédiées à l'étude de la structure des gènes et à leur annotation. Par exemple :

BLAST qui permet d'aligner la séquence du génome avec les séquences d'ADNc ou rechercher des similarités entre ce génome et d'autres génomes déjà connus et annotés.
"ORF Finder" (NCBI) : recherche de cadres de lecture ouvert ou ORF ("Open Reading Frame")
Suite logicielle pour l'annotation de Arabidopsis thaliana

Des bases de données regroupent les données de structure des gènes et leur annotation :

Bien sur, l'ensemble de ces données sont intégrées dans les grandes bases de données biologiques mondiales que sont :

NCBI / Entrez (National Center for Biotechnology Information)
EMBL - EBI
UniProt

c. Les langages informatiques / Web

L'annotation va de paire avec l'utilisation de langages spécifiques pour standardiser le format des données afin qu'ils soient transmis sans difficulté d'un service (logiciel) bioinformatique à un autre.

De plus en plus, le langage XML avec des schémas de format XSD s'imposent.

Figure ci-dessous : démarche logique du flux ("workflow") de données (ovales rouges) via un ensemble de services (logiciels) bioinformatiques (rectangles bleus). La transformation d'un type de données en un autre est d'autant plus performante que les formats en entrée et en sortie sont standardisés afin que n'importe quel logiciel puissent "accepter" les données entrantes (format d'échange commun BioXSD).

biochimej flow chart

Source : Pettifer et al. (2010)

d. Les autres moyens pour l'annotation

L'ensemble de ces moyens fait partie de la génomique comparative et s'appuie sur la notion d'association.

L'exemple typique est celui de génes bactériens regroupés en opéron codant les différentes enzymes qui catalysent les étapes d'une voie métabolique : la fonction d'un géne inconnu peut-être inferrée à partir des génes connus de cet opéron.

Cette notion est étendue à la comparaison de génomes entiers.

Une étude récente a ainsi permis de prédire la fonction de 19 familles de protéines d'Arabidopsis et de procaryotes (Gerdes et al., 2011).

Parmi ces moyens, on peut citer :

les ensembles de gènes proches physiquement dans le génome ("gene clustering"). Exemples : bases de données "STRING", "SEED", ...
les profils de co-occurence phylogénétique selon l'hypothèse que les enzymes d'une même voie métabolique seront ou toutes présentes ou toutes absentes au sein d'un organisme donné. Exemples : outils ou bases de données "STRING", "PHYDBAC", "MBGD", "Phylogenetic Profiler" ...
la fusion de gènes qui permet d'obtenir des données sur l'interaction entre les protéines issues de ces génes. Exemples : "FusionDB"
les sites de régulation de l'expression de génes communs à plusieurs gènes ("SwissRegulon")
la reconstruction métabolique à l'échelle d'un génome
les profils d'expressions de gènes (transcriptomique)
les données qualitatives et quantitatives concernant les protéines (protéomique)
les associations issues de comparaison de phénotypes
la comparaison des structures secondaires ("PSIPRED", "GenTHREADER"), voire tridimensionnelles des protéines et de certains ARN.

D'autres sources d'informations (textuelles, images 2D, ...) peuvent être utilisées et combinées, soit manuellement, soit automatiquement. C'est le cas, par exemple, des méthodes d'annotation des gènes de l'embryon de souris (méthodes et base de données "EMAGE").

6. Quelques méthodes et outils pour l'annotation

a. Généralités

Elles sont de diverses natures, mais pour la plupart extrêmement théoriques. On conçoit intuitivement qu'il faut obtenir des outils logiciels qui puissent :

de manière automatique et bien sûr avec la plus grande fiabilité possible
effectuer une fouille la plus exhaustive de millions (milliards ?) de données
données de "natures" (littéral, sémantique, syntaxique, numériques, hypertexte, images, ...) et de formats différents
en effectuer une synthèse avec le maximum de rigueur et de précision
proposer une réponse / solution / interprétation à l'utilisateur avec le minimum d'ambiguité
le tout rapidement

biochimej Demarche globale annotation

Source : "Ontologizer"

Les avancées en bioinformatique (théoriques et/ou logicielles) permettent de plus en plus d'atteindre ce but.

Dans l'exemple décrit ci-dessous, les auteurs décrivent une méthode de recherche de "catégories biologiques" contenant le plus d'informations liées aux gènes mis en évidence par telle ou telle approche de génomique et/ou de transcriptomique.

Remarque : les auteurs emploient l'expression "biological categories". Que signifie-t-elle du point de vue de l'ontologie et encore plus de celui de la biologie ?

Selon eux, le problème est que des bases de données telle que "Gene ontology" (GO) contiennent des milliers de "catégories" qui se chevauchent : l'obtention d'une "bonne catégorie" en renvoie un grand nombre d'autres qui y sont corrélées, ce qui n'aide pas à la prise de décision.

Leur modèle (ci-dessous) analyse toutes les "catégories" d'une base de données d'ontologie en les insérant dans un réseau Bayesien ("model-based gene set analysis" - MGSA).

biochimej Modele bayesien ontologie

Source : Bauer et al. (2010)

Au sein de ce réseau, la réponse de tel ou tel gène ("gene response" = sur-expression ou sous-expression ? Voir l'article) est modèlisée en fonction de "l'activation" de "catégories biologiques" identifiées par inférence probabilistique.

biochimej Formule modele Bayesien

Leur résultat consiste à renvoyer la "meilleure catégorie" (augmentation de la précision) avec le moins de "catégories corrélées" (diminution du bruit de fond).

Figure ci-dessous : l'algorithme qui traduit l'approche et le modèle décrits ci-dessus.

biochimej Algorithme

Source : Bauer et al. (2010)

Voir l'application qui a été développée par ce groupe : "Graphviz".

b. Des outils d'annotation via les motifs

Les motifs sont des séquences consensus d'acides aminés qui signe une famille de protéines. Voir l'exemple du serveur Web "GOmotif" : entrer la séquence [GS]SSE.[DEG] (format "Prosite").

c. Des outils de ré-annotation

D'autres outils bioinformatiques permettent de ré-annoter l'existant ou de confirmer l'annotation existante et ainsi de corriger les erreurs ou de donner des pistes pour une correction ultérieure. La figure ci-dessous présente le protocole d'analyse des erreurs d'annotation des fonctions des super familles d'enzymes dans les bases de données publiques.

biochimej Protocole correction erreur annotation

Source : Schnoes et al. (2009)

d. Des outils et des bases de données pour l'analyse des réseaux d'interactions proteines - protéines

"PPI Finder" : un outil web pour la fouille de données textuelles des résumés publiés dans "PubMed" (NCBI) à la recherche de co-occurrences de mots et d'interactions entre ces mots, validées par leur existence dans les bases de données d'interactions protéines - protéines ("PPI databases") dont HPRD et BioGRID et les mots partagés de l'ontologie.

e. D'autres outils en ligne

f. Exemples de systèmes ou de bases de données d'annotation de génomes, de gènes, de voies métaboliques, de réseaux d'interactions etc ...
"The gene ontology (GO) database"	GO current annotations
KAAS ("KEGG Automatic Annotation Server")	Moriya et al. (2007) "KAAS: an automatic genome annotation and pathway reconstruction server" Nucleic Acids Res. 35, W182-W185
"The National Microbial Pathogen Data Resource's (NMPDR) Rapid Annotation using Subsystems Technology (RAST) server"	Aziz et al. (2008) "The RAST Server: Rapid Annotations using Subsystems Technology" BMC Genomics 9, 75
"The Glimmer system" : suite logicielle pour le séquençage et l'assemblage de génomes, la recherche de gènes, l'annotation et l'analyse de génomes, l'analyse métagénomique (et autres outils génomiques et protéomiques)	"The Glimmer system"
"Rice Genome Annotation Project" GeneDB : "genome database for prokaryotic and eukaryotic pathogens and closely related organisms" PomBase : "a comprehensive database for the fission yeast Schizosaccharomyces pombe, providing structural and functional annotation, literature curation and access to large-scale data sets"	RGAP GeneDB PomBase
CycADS : "an annotation database system to ease the development and update of BioCyc databases" BioCyc : ensemble de bases de données (presque 3600 génomes et leurs voies métaboliques)	Source : Vellozo et al. (2011)
L'ontologie construite à partir du réseau d'interactions NeXO Les grands réseaux d'interactions entre gène et/ou entre protéines chez Saccharomyces cerevisiae permettent de déduire une ontologie dont la couverture et la puissance sont équivalentes à celles de Gene Ontology (GO), curée manuellement. L'ontologie extraites à l'aide de réseau ("Network-eXtracted Ontology" - NeXO) contient plus de 4000 termes biologiques et plus de 5700 relations entre ces termes, et inclue plus de 58 % des constituants cellulaires connus. Cet outil permet aussi de découvrir des relations entre termes non initialement cataloguées dans GO. Le profilage d'interactions par génétique quantitative et la chimiogénomique ont permis de caractériser des termes non identifiés par NeXO, notamment en relation avec des structures multimèriques liées à la fonction des protéines mitochondriales ou de trafic. L'approche NeXO permet de passer de l'utilisation d'ontologies pour évaluer des données à l'utilisation de données pour construire et évaluer des ontologies.	Source : Dutkowski et al. (2013)

7. Liens Internet et références bibliographiques

"Précis de Génomique" (2004) G. Gibson & S. Muse - Ed. De Boeck - ISBN : 2-8041-4334-1

Bettembourg, C. (2010) "Comparaison d'annotations GO entre plusieurs espèces" - Master 2 Modélisation des Systèmes Biologiques - Université de Rennes

Bakke et al. (2009) "Evaluation of Three Automated Genome Annotations for Halorhabdus utahensis" PLoS ONE 4, e6291

Schnoes et al. (2009) "Annotation error in public databases: misannotation of molecular function in enzyme superfamilies" PLoS Comput. Biol. 5, e1000605

Pettifer et al. (2010) "The EMBRACE web service collection" Nuc. Acids Res. 38, W683 - W688

Hanson et al. (2010) "‘Unknown’ proteins and ‘orphan’ enzymes: the missing half of the engineering parts list – and how to find it" Biochem. J 425, 1-11

Gerdes et al. (2011) "Synergistic use of plant-prokaryote comparative genomics for functional annotations" BMC Genomics 12, S2

Article

"The gene ontology (GO) database"

Ashburner et al. (2000) "Gene Ontology: tool for the unification of biology" Nat. Genet. 25, 25 - 29

The gene ontology consortium (2001 ) "Creating the Gene Ontology Resource: Design and Implementation" Genome Res. 11, 1425 - 1433

Leonelli et al. (2011) "How the gene ontology evolves" BMC Bioinformatics 12, 325

Article

"BioCyc" : ensemble de bases de données. Plus de 1100 génomes et leurs voies métaboliques.

Vellozo et al. (2011) "CycADS: an annotation database system to ease the development and update of BioCyc databases" Database

"CycADS : an annotation database system to ease the development and update of BioCyc databases"

BioCyc

Article

CycADS

He et al. (2009) "PPI Finder: A Mining Tool for Human Protein-Protein Interactions" PLoS ONE 4, e455

Bauer et al. (2010) "GOing Bayesian: model-based gene set analysis of genome-scale data" Nuc. Acids Res. 1 -10

Skunca et al. (2012) "Quality of Computationally Inferred Gene Ontology Annotations" PLoS Comput. Biol. 8, e1002533

Logan-Klumpler et al. (2012) "GeneDB - an annotation database for pathogens" Nucleic Acids Res. 40, D98 - D108

Dutkowski et al. (2013) "A gene ontology inferred from molecular networks" Nature Biotech. 31, 38 - 45

Article

"HPRD : Human Protein Reference Database"

"BioGRID interaction database"

"BioCreAtIvE : Critical Assessment of Information Extraction systems in Biology"

HPRD

BioGRID

BioCreAtIvE