Module bioinformatique bases donees Enseignement et recherche Biochimie - Universite Angers Emmanuel Jaspard biochimej

Le stockage de la bioinformation : les bases de données

Les fichiers contenant l'information biologique sous la forme de séquences constituent l'élément central autour duquel les bases de données se sont constituées à l'origine.

On peut distinguer :

Les bases de données généralistes : elles correspondent à une collecte des données la plus exhaustive possible et qui offrent un ensemble d'informations diverses.
Les bases de données spécialisées : elles correspondent à des données plus homogènes établies autour d'une thématique. Cette spécialisation apporte une valeur ajoutée aux données concernées.

Il existe un très grand nombre de bases de données d'intérêt biologique. Le panorama de ces milliers de bases de données biologiques nécessitent cependant un préalable qui s'appuie sur une forme de "sagesse" :

La maintenance et la mise à jour actives de bases de données biologiques publiques sur le Web demandent beaucoup temps et sont coûteuses.
Sans soutien institutionnel ou plan de viabilité financière, la plupart des bases de données créées en tant que résultats de projets de recherche meurent ou sont archivées dans un délai de 10 à 15 ans.
Voir : "Ten Simple Rules for Developing Public Biological Databases".

1. Les bases de données généralistes

Les bases de données généralistes sont indispensables à la communauté scientifique car elles regroupent des données et des résultats essentiels dont certains ne sont plus reproduits dans la littérature scientifique.

Exemples de bases de données considérées comme des recueils de référence mondiaux :

NCBI ("National Center for Biotechnology Information")
EBI ("European Bioinformatics Institute")
Uniprot
PDB ("Protein Data Bank")
KEGG ("Kyoto Encyclopedia of Genes and Genomes")

Dans le cadre de l'analyse des séquences, par exemple, le fait que la majorité des séquences connues soit réunie en un seul ensemble est un élément fondamental pour la recherche de similitudes avec une nouvelle séquence. D'autre part, la grande diversité d'organismes qui y est représentée permet d'aborder des analyses de type évolutif.

La principale mission des bases de données généralistes est de rendre publiques les séquences et tout autre type d'information. Cette notion de mise à la disposition du public a été capitale dans le cas par exemple de la diffusion des résultats du séquençage du génome humain.

On y trouve également de l'information qui accompagne les séquences (annotations, bibliographie, ...) et une expertise biologique directement liées aux séquences traitées.

La présence de références à d'autres bases permet d'avoir accès à d'autres informations. Les multiples liens entre les groupes de données dans les bases de données généralistes sont d'une complexité étonnante. Voir les exemples du NCBI.

La qualité des données contenues dans ces bases présente un certain nombre de lacunes. Les organismes responsables de la maintenance de ces banques ont pris conscience de la nécessité de vérifications des données soumises ou saisies (surtout pour les séquences anciennes). Maintenant, de nombreuses vérifications sont faites systématiquement dès la soumission de la séquence : c'est la curation dont dépend la fiabilité de l'annotation. Exemple : équipe de C. O'Donovan à l'EBI.

Il existe désormais un recueil de séquences référencées, annotées et contrôlées : The Reference Sequence (RefSeq) collection.

Des liens sont établis entre les bases de données : certaines d'entre elles échangent même leur données quotidiennement pour actualiser leurs informations.

Un autre type de lien est établi via les numéros d'accession.

Or ceux-ci ont une nomenclature (pour des raisons historiques) bien souvent propre à chaque base de données ce qui complique l'établissement d'un lien unique entre chaque fichier d'une base de données et son pendant dans une autre.
La figure ci-dessous montre le réseau de liens établis entre la base de données généraliste KEGG et les grandes autres bases de données généralistes.

bioinformatics bioinformatique database base donnees biologique specialized generaliste internet stockage gestion Uniprot NCBI EBI Swissprot PDB Refseq KEGG biochimej

La figure originale permet de visualiser ces liens et surtout de récupérer, pour un fichier donné, l'ensemble des fichiers équivalents dans les autres bases de données.

2. Exemple d'une base de données généraliste

Genbank - NCBI : Créée en 1982 par la société IntelliGenetics et diffusée maintenant par le NCBI ("National Center for Biotechnology Information", Bethesda - Maryland).

Figure ci-dessous : "site map" de l'ensemble de la base de données du NCBI.

bioinformatics bioinformatique database base donnees biologique specialized generaliste internet stockage gestion Uniprot NCBI EBI Swissprot PDB Refseq biochimej

Cette figure décrit les relations entre les différentes tables de données et les programmes constitutifs de cet ensemble de plus en plus gigantesque.

Type de données biologiques	Base de données	Nombre
Séquences protéiques annotées manuellement Nombre d'acides aminés	UniProtKB/TrEMBL (2021)	≈ 564.000 ≈ 200 millions
Séquences protéiques annotées par programmes Nombre d'acides aminés	UniProtKB/TrEMBL (2021)	≈ 146 millions ≈ 71 milliards
Plus de 95% des séquences de protéines de UniProtKB sont issues de la traduction in silico de séquences codantes soumises aux bases de données de séquences nucléotidiques (EMBL-Bank / GenBank / DDBJ), c'est-à-dire à la collaboration des bases de données internationales de séquences nucléotidiques ("International Nucleotide Sequence Database Collaboration" - INSDC).
Séquences nucléotidiques Nombre de nucléotides	GenBank (2021)	≈ 226 millions ≈ 941 milliards
Séquences de référence	RefSeq (2021)	≈ 191 millions
Structure 3D (PDB)	PDB ("Protein Data Bank") (2021)	≈ 182.000
Nombre de repliements ("protein folds")	SCOP ("Structural Classification of Proteins") (2020) Evolution de cette base de données : SCOP2 / SCOPe (berkeley)	≈ 1496
Familles de protéines	Pfam (2020)	≈ 18.300

Autres exemples de bases de données généralistes

DDBJ ("DNA Data Bank of Japan") : Créée en 1986 et diffusée par le NIG ("National Institute of Genetics", Japon).

UniProt ("Universal Protein Resource") : base de données mondiale des protéines créé par le consortium [EBI - SIB - PIR]. Voir par exemple ExPASy Proteomics Server.
Swissprot & TrEMBL : Elle a été constituée à l'Université de Genève à partir de 1986. Elle est maintenant développée par le SIB (Swiss Institute of Bioinformatics) et l'EBI. Elle regroupe (entre autres) des séquences annotées de la PIR-NBRF ainsi que les séquences codantes traduites de l'EMBL (TrEMBL).
Voir un développement ci-dessous.

Ces grandes bases de données généralistes s'échangent systématiquement leur contenu depuis 1987 et adoptent un système de conventions communes (The DDBJ/EMBL/GenBank Feature Table Definition).

PIR-NBRF ("Protein Information Ressource") : banque de protéines créée sous l'influence du NBRF ("National Biomedical Research Foundation") à Washington. Elle diffuse maintenant des données issues du MIPS ("Martinsried Institute for Protein Sequences"), de la base Japonnaise JIPID ("Japan International Protein Information Database") et des données propres de la NBRF.

GOLD ("Genomes OnLine Database") : base de données qui recensse les milliers de génomes séquencés ou en voie de séquençage.

"Nucleic Acids Research" (NAR) est un exemple de journal scientifique dédié plus particulièrement à la diffusion des bases de données biologiques.

3. Exemple plus détaillée : ExPASy - Uniprot - PIR/NBRF

ExPASy ("Expert Protein Analysis System") est une émanation du SIB ("Swiss Institute of Bioinformatics").

ExPASy permet l'accès à une multitude de bases de données (issues de différents domaines des sciences de la vie - génomique, transcriptomique, protéomique, métabolomique, biologie des systèmes, ...) et d'outils logiciels pour manipuler ces données.

ExPASy développe (entre autres) :

La base de données UniProt ("Universal Protein Resource" - créée à l'Université de Genève en 1986, sous le nom de "Swiss-Prot") : base de données mondiale unique de séquences et de fonctions des protéines.
"The UniProt Knowledgebase" (UniProtKB) est composée elle-même de deux sections :
1. "Swiss-Prot" : données révisées et annotées "manuellement" par des curateurs experts. Cet ensemble est constitué de fichiers (# 600.000) contenant des informations extraites de la littérature et de l'analyse bioinformatique précise et complète effectuée par des curateurs.
2. "TrEMBL" : données non révisées (# 220 millions) . L'analyse bioinformatique est automatique et effectuée par des "automates". Constitué de fichiers en attente d'une annotation manuelle complète.
3. Voir les statistiques : UniProtKB/Swiss-Prot - mars 2021

PIR ("Protein Information Resource") : créée en 1984 par NBRF ("National Biomedical Research Foundation"), la fondation pour la recherche biomédicale nationale américaine. En 2002, PIR et ses partenaires internationaux (EBI - "European Bioinformatics Institute" et SIB), ont reçu une subvention du NIH ("National Institutes of Health") pour développer conjointement UniProt.

neXtProt ("Swiss Institute of Bioinformatics"): base de données et plate-forme bioinformatique dédiée aux protéines de l'homme.

"Swiss-PdbViewer" : programme pour l'analyse, la superposition et la visualisation de structures 3D de protéines.

Base de données	Nom du service Web / URL vers la documentation
NCBI	E-utility Web Service [SOAP ("Simple Object Access Protocol") & WSDL ("Web Services Description Language")]
NCBI	Script Python de recherche bibliographique dans la base de données Pubmed - NCBI (via Entrez et les outils "Eutils").
EMBL/EBI	EMBL-EBI Web Services - REST / http://www.ebi.ac.uk/Tools/webservices/
UniprotKB	Programmatic access services - REST
PDB	Web Services Overview
KEGG	REST- style KEGG API
REST ("Representational State Transfer") : style d'architecture logicielle; API ("Application Programming Interface") : interface de programmation d'applications.

4. Les bases de données spécialisées

Pour des besoins spécifiques liés à l'activité d'un groupe de personnes, ou encore par compilations bibliographiques, de nombreuses bases de données spécifiques ont été créées au sein des laboratoires. Certaines sont inconnues ou mal connues et attendent qu'on les exploite davantage.

Les bases de données spécialisées sont d'intérêt divers et la masse des données qu'elles contiennent peut varier d'une base à une autre. Ces bases correspondent à des améliorations ou à des regroupements par rapport aux données issues des bases généralistes.

Exemples de bases de données spécialisées

Late Embryogenesis Abundant Proteins database (LEAPdb - Hunault & Jaspard, 2010) : cette base de données contient des informations sur les protéines LEA impliqués dans la tolérance à de nombreux stress, notament la déshydratation et le froid.

small Heat Shock Proteins database (sHSPdb - Jaspard & Hunault, 2016) : cette base de données contient des informations sur les protéines de choc thermique de faible masse molaire.

RESID Database of Protein Modifications : base de données sur les acides aminés peu fréquents (sous-partie de la base de données PIR).

5. Le consortium de bases de données InterPro

InterPro permet l'analyse de séquences de protéines en les classant dans des familles et en prédisant la présence de domaines et de sites fonctionnels.

InterPro est un consortium : pour mieux classer les protéines, InterPro utilise en effet les modèles ("patterns"), les profils ("profiles") et les signatures ("fingerprints") fournis par 14 bases de données membres (regroupées en une seule ressource) : CATH-Gene3D, SUPERFAMILY, Pfam, SMART, TIGRFAM, PIRSF, SFLD, PANTHER, HAMAP, Prosite, CDD, MobiDB, ProDom, PRINTS.

Cela permet d'accéder au potentiel de prédiction de ces bases de données sans les consulter individuellement.

En combinant ces différentes bases de données et les types de signature, InterPro capitalise leurs forces individuelles et fournit un outil puissant pour la prédiction de la fonction des protéines.

InterPro simplifie et rationalise l'analyse des séquences des protéines en organisant la somme de toutes les informations de manière cohérente, en supprimant la redondance, en augmentant l'annotation des entrées et en ajoutant des liens vers les signatures et les protéines correspondantes.

protein structure prediction macromolecule bioinformatique bioinformatics script langage python Python biopython programmation programming sequence protein motif modelisation modeller software pfam PDB hydrophobicity hydropathy hydrophilicity amino acids acide amine biochimej

Source : InterPro

Par exemple, SUPERFAMILY est une base de données d'annotations structuralles et fonctionnelles des protéines et des génomes. C'est une bibliothèque de modèles de Markov cachés de profils : chaque modèle représente un domaine protéique de structure connue au niveau d'une superfamille SCOP (qui regroupe des domaines qui ont une relation évolutive). L'annotation est générée en confrontant les séquences protéiques de plus de 3200 génomes complètement séquencés contre ces modèles de Markov cachés.

Exemple de classification dans la base de données InterPro (les liens renvoient vers chaque niveau de classification mentionnée) :

Super-familles homologues ("Homologous superfamilies") : Pyruvate-flavodoxin oxidoreductase, central domain (IPR002869)
Dans InterPro, une famille ("family") de protéines est un groupe de protéines qui ont une origine évolutive commune. Cela se traduit par des fonctions semblables, des similitudes de séquences ou des structures secondaires ou tertiaires similaires. Exemple : "Family : Pyruvate-flavodoxin oxidoreductase" (IPR011895)
Domaines et séquences répétées ("Domains and repeats"). Exemple : Pyruvate/ketoisovalerate oxidoreductase, catalytic domain (IPR019752) => Family: POR (PF01558)

6. La base de données Pfam (&asymp 18.300 familles - 2020)

La possibilité de diverses combinaisons de multiples domaines explique la très grande multiplicité des protéines. La caractérisation du ou des domaines d'une protéine permet d'en décrypter la/les fonction(s).

protein structure prediction macromolecule bioinformatique bioinformatics script langage python Python module biopython programmation programming sequence protein motif modelisation modeller software pfam PDB biochimej

Source : Prosite

La base de données Pfam est une collection de familles de domaines des protéines : chaque famille est représentée par des alignements multiples des séquences et un modèle de Markov caché ("hidden Markov model" - HMM).

Chaque famille ou entrée Pfam (souvent désignée sous le nom "Pfam-A entry") est constituée d'un alignement de séquences généré de la manière suivante :

On sélectionne un petit nombre de séquences de protéines que l'on considère comme représentatives de la famille Pfam.
Ces séquences "souches" permettent d'obtenir un alignement de haute qualité ("curated seed alignment").
Un profil HMM est construit avec HMMER à partir de cet alignement de haute qualité.
Ce profil HMM est utilisé comme modèle pour rechercher les séquences homologues dans les bases de données (par exemple Uniprot).
Un alignement est généré automatiquement avec toutes les séquences des protéines appartenant à la famille.

Script python de recherche du profil HMM d'une famille PFAM.

Les entrées Pfam sont classées en 6 catégories, en fonction de la longueur et de la nature des parties de la séquence inclues dans l'entrée :

Famille : ensemble de parties de séquences apparentées qui peuvent contenir un ou plusieurs domaines, sans preuve pour affirmer qu'il existe une subdivision. "famille" est la catégorie par défaut.
Domaine : ensemble de parties de séquences apparentées qui forment une unité structurale.
Répétition ("repeat") : unité courte "instable" tant qu'elle est isolée. Elle forme une structure "stable" quand plusieurs copies sont regroupées.
Motif : unité courte trouvée dans les domaines non globulaires. Cette unité assure un rôle qui lui est propre (exemple : liaison à un métal).
Superhélice ("coiled-coil") : régions d'une protéine qui contiennent de façon prédominante des motifs en double spirales (hélices alpha enroulées en faisceaux 2-7 - "helix bundle").
Régions désordonnées : régions conservées de protéines avec un biais dans la composition en acides aminés et/ou régions dites intrinsèquement désordonnées ou non structurées.

Plusieurs entrées Pfam liées sont regroupées dans un clan. Leur inter-relation est définie par :

la similarité de séquence
la similitude de leurs structures 3D (si elles sont connues)
la similitude entre leur profil HMM (telle que peut l'évaluer un algorithme comme HHsearch, par exemple)

Source : Pfam

7. Les bases de données de motifs

L'utilisation de bases spécialisées comme les bases de motifs est devenue un outil essentiel dans l'analyse des séquences pour tenter de déterminer la fonction de protéines inconnues ou savoir à quelle famille appartient une séquence non encore caractérisée.

a. Les bases de motifs nucléiques

La plupart de ces bases consiste à recenser dans des catalogues les séquences des différents motifs pour lesquels une activité biologique a été identifiée. Certains motifs sont simples et non ambigus, d'autres correspondent à des activités biologiques plus complexes et engendrent donc des séquences moins précises. Pour ces derniers types de motifs, des compilations ont été établies pour donner des listes annotées de motifs qui peuvent être communs à plusieurs séquences.

Il existe différentes bases de motifs nucléiques, notamment celles concernant les motifs de fixation des facteurs de transcription.

b. Les bases spécialisées de motifs protéiques

La base PROSITE peut être considérée comme un dictionnaire qui recense des motifs protéiques ayant une signification biologique.

Elle est établie en regroupant, quand cela est possible, les protéines contenues dans Swissprot par famille (Exemples : les kinases ou les protéases). On recherche ensuite, au sein de ces groupes, des motifs consensus susceptibles de les caractériser spécifiquement.

La conception de la base PROSITE repose sur quatre critères essentiels :

collecter le plus possible de motifs significatifs
avoir des motifs hautement spécifiques pour caractériser au mieux une famille de protéines
donner une documentation complète sur chacun des motifs répertoriés
faire une révision périodique des motifs pour s'assurer de leur validité par rapport aux dernières expérimentations

Voir un exemple : motif "EF-hand" des protéines fixant le calcium comme la calmoduline par exemple.

c. Exemples de logiciels et bases de données de profils PSSM

Voir un cours sur les profils et matrices PSSM ("Position Specific Scoring Matrice").

Pftools : ensemble d'outils logiciels (« package ») pour construire des profils dans le but de rechercher des séquences et les aligner. Parmi ces programmes :

pfmake construit un profil à partir d'alignements multiples
pfsearch pour fouiller une base de données de séquences de protéines sur la base d'un profil
pfscan pour fouiller une base de données de profils sur la base d'une séquence de protéine

PRINTS : base de données de profils PSSM.

PRINTS fournit des annotations détaillées des familles de protéines et un outil de diagnostic pour les nouvelles séquences.
PRINTS est une base de données d'empreintes protéiques ("fingerprints") : groupe de motifs conservés issus d'alignements multiples de séquences. Ensemble, ces motifs constituent une signature caractéristique de la famille de protéines.

PRINTS est l'un des partenaires fondateurs du consortium de ressources bioinformatiques InterPro (base de données de familles de protéines, de domaines et de sites fonctionnels).

Quelques bases de données du consortium InterPro : CATH-Gene3D, CDD, PANTHER, Pfam, PIRSF, PRINTS, ProDom, PROSITE, SMART, SUPERFAMILY, TIGRFAMs
ProDom : collection de motifs protéiques obtenues automatiquement avec PSI-BLAST.

Script Python pour la recherche du profil HMM d'une famille PFAM.

8. Liens Internet et références bibliographiques

Base de données sur les acides aminés peu fréquents (sous-partie de la base de données "Protein Information Resource" - PIR)	RESID Database
Bases de données sur les propriétés physico-chimiques des acides aminés (sous-partie de la base de données "Expasy - Swiss-Prot")	ProtScale Swiss-Prot
NAR Database Summary Paper Category List	NAR
Hunault G. & Jaspard E. (2010) "LEAPdb: a database for the late embryogenesis abundant proteins" BMC Genomics 11, 221 Jaspard E. & Hunault G. (2016) "sHSPdb: a database for the analysis of small Heat Shock Proteins" BMC Plant Biol. 16, 135	Article Article