Quelques formats de fichiers dans les bases de données

 

Remarques préalables

La standardisation de certains formats (plus grande communicabilité / échange de fichiers plus pratique) et la disparition de certains logiciels ou certaines bases de données rendent caduques certains formats.

A l'inverse, l'avènement de nouvelles technologies et/ou programmes est lié à la création de nouveaux formats de fichiers bioinformatiques.

Par exemple : le format XSQ ("eXtensible SeQuence") a été conçu pour les données issues du séquençage SOLiD standard, afin de simplifier l'indexation des échantillons et soutenir de nouveaux types de données telles que ECC ("Exact Chemistry Call").

Malré tout, le très grand nombre de formats (voir tableau ci-dessous) est un handicap pour un échange et une utilisation optimales des données biologiques en bioinformatique. Une plus grande harmonisation est nécessaire.


Exemples de quelques formats en bioinformatique
Nom du format Valeur Nom du format Valeur
EMBL entry format embl Plain text text
GCG sequence format gcg Fitch program format fitch
EMBL new entry format emblnew GCG MSF (multiple sequence file) file format msf
Swissprot entry format swiss Clustalw multiple alignment format clustal
Swissprot entry format (swold) swold NCBI ASN.1 format asn1
Swissprot entry format (swissnew) swissnew Hennig86 output format hennig86
FASTA format fasta Mega interleaved output format mega
NCBI fasta format with NCBI-style IDs ncbi Nexus/paup interleaved format nexus
NCBI fasta format with NCBI-style IDs using GI number gifasta Jackknifer output interleaved format jackknifer
NBRF/PIR entry format nbrf Treecon output format treecon
Genbank entry format genbank FASTQ short read format with phred quality fastq
Genbank/DDBJ entry format (alias) ddbj FASTQ Illumina 1.3 short read format fastq-illumina
Genpept entry format genpept FASTQ Solexa/Illumina 1.0 short read format fastq-solexa
Refseq entry format refseq Sequence alignment/map (SAM) format sam
GFF2 feature file with sequence in the header gff2 Binary sequence alignment/map (BAM) format bam
Old staden package sequence format staden Debugging trace of full internal data content debug

Format FASTA

Sans doute le format de fichier le plus répandu car trés simple et l'un des plus pratiques.

>gi|22777494|dbj|BAC13766.1| glutamate dehydrogenase [Oceanobacillus iheyensis]

MVADKAADSSNVNQENMDVLNTTQTIIKSALDKLGYPEEVFELLKEPMRILTVRIPVRMDDGNVKVFTGY
RAQHNDAVGPTKGGIRFHPNVTETEVKALSIWMSLKSGIVDLPYGGAKGGIICDPREMSFRELEALSRGY
VRAVSQIVGPTKDIPAPDVFTNSQIMAWMMDEYSKIDEFNNPGFITGKPIVLGGSHGRESATAKGVTIVL
NEAAKKKGIDIKGARVVIQGFGNAGSFLAKFLHDAGAKVVAISDAYGALYDPEGLDIDYLLDRRDSFGTV
TKLFNNTISNDALFELDCDIIVPAAVENQITRENAHNIKASIVVEAANGPTTMEATKILTERDILIVPDV
LASAGGVTVSYFEWVQNNQGFYWSEEEIDNKLHEIMIKSFNNIYNMSKTRRIDMRLAAYMVGVRKMAEAS

1. Un fichier au format FASTA peut contenir plusieurs séquences. Chaque séquence (écrite sous forme de lignes de 80 caractères maximum), est précédée d'une ligne de titre (nom, définition ...) qui doit commencer par le caractère ">".

2. gi|22777494 : l'identifiant gi ("GenInfo Identifier") est le numéro d'identification d'une séquence (acides aminés ou nucléotides). Si une séquence est modifiée, un nouveau numéro de GI est attribué.

Voir ci-dessous.

3. dbj|BAC13766.1| : un enregistrement peut exister dans différentes bases de données et peut avoir plusieurs identifiants. Le tableau ci-dessous donne l'explication du nom de la base de données et la syntaxe des identifiants. Dans cet exemple, l'enregistrement existe dans la base de données du Japon DDBJ sous l'identifiant dbj|BAC13766.1.

4. dbj|BAC13766.1| : les identifiants de séquences dans une base de données évoluent en parallèle avec la version du fichier. Dans cet exemple, le «.1» indique que la séquence a été modifiée une fois et qu'un nouveau fichier a été déposé.

5. glutamate dehydrogenase [Oceanobacillus iheyensis] : description de la séquence. Dans cet exemple, glutamate déshydrogénase est le nom de la protéine et Oceanobacillus iheyensis celui de l'organisme à partir duquel elle a été obtenue.


Nom de la base de données Syntaxe de l'identifiant Nom de la base de données Syntaxe de l'identifiant
GenBank gb|accession|locus NCBI Reference Sequence ref|accession|locus
EMBL Data Library emb|accession|locus Protein Research Foundation prf||name
DDBJ, DNA Database of Japan dbj|accession|locus Local Sequence identifier lcl|identifier
NBRF PIR pir||entry GenInfo Backbone Id bbs|number
SWISS-PROT sp|accession|entry name General database identifier gnl|database|identifier
Brookhaven Protein Data Bank (PDB) pdb|entry|chain Patents pat|country|number

Exemple du programme d'alignement multiple MUSCLE

  • fichier d'entrée au format FASTA en texte brut ("plain text") (par exemple, les fichiers issus de Word ne sont pas compris)
  • la fin de ligne : NL ou CR NL
  • pas de limite sur la longueur de la ligne d'annotation
  • aucune exigence que l'annotation soit unique
  • la séquence se termine soit par la ligne d'annotation suivante ou par la fin du fichier

L'identifiant GI

En septembre 2016, le NCBI éliminera l'identifiant GI des fichiers aux formats GenBank, GenPept et FASTA.

L'en-tête de FASTA sera même davantage simplifiée : un simple N° d'accession de la séquence avec la version et le titre de l'enregistrement pour les N° d'accession gérés par l'INSDC ("International Sequence Database Collaboration") et le projet RefSeq.

Il semble que le NCBI continuera à fournir des informations sur la base de données source d'un fichier dans l'en-tête de FASTA, en particulier pour SwissProt, PDB ("Protein Data Bank"), PIR ("Protein Information Resource") et les séquences brevetées.

Fichiers issus des nouvelles technologies de séquençage à très haut débit

Voir les techniques de séquençage.

3 types de formats de fichiers sont couramment utilisés :

  • FASTQ : format basé sur du texte pour stocker une séquence biologique (généralement la séquence nucléotidique) et des scores de qualité liés à cette séquence (les 2 sont codés par des caractères ASCII sur plusieurs lignes - exemple : la ligne 1 commence avec le caractère @). C'est le fichier de données brutes issues du séquenceur.
  • SAM ("Sequence Alignment/Map") : format basé sur du texte délimité avec une section en-tête (facultative) et une section alignement. BAM : codage binaire du ficher SAM correspondant.
  • GTF ("Gene Transfer Format") : format basé sur du texte délimité par des tabulations et des champs. Ce format est utilisé par beaucoup de logiciels pour décrire la structure des transcrits (introns, exons, sites de démarrage, UTR, ...) et le lien entre les transcrits et le gène auquel ils sont associés.
  • BAM ("Binary Alignment/Map") : format compressé au format de compression BGZF. L'objectif de BGZF est de fournir une bonne compression tout en permettant un accès aléatoire efficace au fichier BAM pour des requêtes indexées.

Description du format FASTQ

C'est un format basé sur du texte pour stocker à la fois une séquence biologique (séquence nucléotidique habituellement) et ses scores de qualité.
Une valeur de qualité Q est un nombre entier qui traduit la probabilité que l'appel de la base correspondante est incorrect.

Fichier ci-dessous : première ligne = nom de la séquence après le symbole @ (et, éventuellement, la description) / deuxième ligne = la séquence / quatrième ligne = scores de qualité codés sous forme de lettres.

@sequence 1
ATCGATCAAATAGTCCATTTCACAGTTTGGATTTGGGGTCACAGTTTAAGCAGTTTCAACT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

Retour haut de page

 

Format et base de données RefSeq

RefSeq ("The Reference Sequence database") : base de données de séquences annotées (ADN, ARN, protéines) dites de référence. Elle est est construite par le NCBI.

Contrairement à GenBank, elle ne fournit qu'un seul enregistrement (séquences non redondantes) pour chaque molécule biologique naturelle (ADN, ARN ou protéine) pour les principaux organismes (virus, bactéries, eucaryotes - 58.000 organismes en janvier 2016).

Figure ci-contre : suite logicielle ("pipeline") de construction d'un fichier RefSeq.

Chaque enregistrement de RefSeq représente une synthèse (par une personne ou un groupe - "synthesizing editors") de l'ensemble des informations générées et soumis par la communuté scientifique.

L'ensemble des données RefSeq est curé par des groupes de collaborateurs et par les curateurs du NCBI.

bioinformatics file format fichier FASTA FASTQ sequence proteine bioinformatique Refseq


Signification des préfixes des N° d'accession des fichiers de la base de données RefSeq
préfixe du N° d'accession type de molécule commentaire
AC_ Génomes Complete genomic molecule, usually alternate assembly
NC_ Complete genomic molecule, usually reference assembly
NG_ Incomplete genomic region
NT_ Contig or scaffold, clone-based or WGS ("Whole Genome Shotgun sequence data")
NW_ Contig or scaffold, primarily WGS
NS_ Environmental sequence
NZ_ Unfinished WGS
NM_ ARN messagers -------------------------------
NR_ ARN -------------------------------
XM_ ARN messagers Predicted model (computed)
XR_ ARN Predicted model (computed)
AP_ Protéines Annotated on AC_ alternate assembly
NP_ Associated with an NM_ or NC_ accession
YP_ (computed)
XP_ Predicted model, associated with an XM_ accession (computed)
ZP_ Predicted model, annotated on NZ_ genomic records (computed)

Exemples d'outils de conversion de formats

"EMBOSS Seqret" : programme de l'EBI. Il permet le reformatage général des séquences.

Le programe "GenBank to FASTA" prend en entrée un fichier GenBank et retourne la séquence d'ADN entière au format FASTA. A utiliser quand on veut supprimer les informations non ADN à partir d'un fichier GenBank.

Divers

Retour haut de page

 

Format EMBL

Chaque entrée de la base EMBL est composée de lignes qui commencent par un code à deux caractères (champs) suivi d’informations.

ID 1YYCA STANDARD; PRT; 174 AA
SQ SEQUENCE 174 AA; C11E4F3E CRC32;
GHHHHHHLEA SADEKVVEEK ASVISSLLDK AKGFFAEKLA NIPTPEATVD DVDFKGVTRD 60
GVDYHAKVSV KNPYSQSIPI CQISYILKSA TRTIASGTIP DPGSLVGSGT TVLDVPVKVA 120
YSIAVSLMKD MCTDWDIDYQ LDIGLTFDIP VVGDITIPVS TQGEIKLPSL RDFF 174

Voir la description des codes - champs d'un fichier EMBL.

Exemple : aller à : EBI dbfetch ==> taper "PS13882" dans "search item".

Format PROSITE

La syntaxe pour la description d'un motif structural ou signature ("pattern") de la base de données PROSITE est la suivante :

  • lettres A-Z correspondant aux acides aminés (minuscules ou majuscules)
  • [] indique une ambiguite inclusive. Exemple : [ILVM]
  • {} ambiguite exclusive. Exemple : {FWY}
  • X caractère positionnel indifférent
  • (n) répétition n fixe d'un sous-motif. Exemple : [RD](2)
  • X(n,m) insertions min-max (insertion variable). Exemple : X(2,4)
  • < au début du motif : le motif est cadré à gauche de la séquence
  • > à la fin du motif : le motif est cadré à droite de la séquence
  • le caractère '-' sépare chaque position
  • le caractère '+' indique que la suite du motif continue à la ligne suivante

Exemples de motifs PROSITE : D - x - [DNS] - {ILVFYW} - [DENSTG] - [DNQGHRK] - {GP} - [LIVMC] - [DENQSTAGC] - x(2) - [DE] - [LIVMFYW]

Format ClustalW- suffixe ".aln"
  • Doit commencer avec "CLUSTAL W" sans autre information.
  • Une ou plusieurs lignes vides.
  • Un ou plusieurs blocs de séquences. Chaque bloc contient :
    • une ligne pour chaque séquence. Chaque ligne contient : le nom de la séquence / espace blancs / jusqu'à 60 caractères
    • Une ligne indiquant le degré de conservation (via des caractères spéciaux : "*", ":", ".") pour les colonnes de l'alignement pour ce bloc.

CLUSTAL W (1.8) multiple sequence alignment
1YYCA GHHHHHHLEASADEKVVEEKASVISSLLDKAKGFFAEKLANIPTPEATVDDVDFKGVTRD
1YYCA GVDYHAKVSVKNPYSQSIPICQISYILKSATRTIASGTIPDPGSLVGSGTTVLDVPVKVA
1YYCA YSIAVSLMKDMCTDWDIDYQLDIGLTFDIPVVGDITIPVSTQGEIKLPSLRDFF

Format GCC/MSF ("Pileup") - ("Genetics Computer Group" - GCG fondu dans "Accelrys")
  • Le format adopté par le package GCG permet à la fois de commenter les données et de vérifier l'intégrité de la séquence par une valeur (=Checksum) calculée sur celle-ci.
  • Le format GCG n'autorise qu'une seule séquence par fichier.
  • Le fichier est constitué de la manière suivante:
    1. avant les ".." : commentaires
    2. ligne signal avec identificateur et "Check #### .."
    3. après les ".." : séquence.

1YYCA
1YYCA Length: 174 Feb 14, 2011 10:21 Check: 9268 ..
1 GHHHHHHLEA SADEKVVEEK ASVISSLLDK AKGFFAEKLA NIPTPEATVD
51 DVDFKGVTRD GVDYHAKVSV KNPYSQSIPI CQISYILKSA TRTIASGTIP
101 DPGSLVGSGT TVLDVPVKVA YSIAVSLMKD MCTDWDIDYQ LDIGLTFDIP

Format PIR/NBRF
  • Une ligne qui commence par le caractère ">" et un code à 2 lettres qui désigne le type de séquence : P1, F1, DL, DC, RL, RC ou XX.
  • Un point-virgule suivi par le code lié à la base de donnée (dans l'exemple suivant : ";1YYCA").
  • Une ligne qui décrit la séquence.
  • La séquence elle-même. Cette partie doit finir par une astérisque.
  • Plusieurs séquences peuvent être mises dans un même fichier.
>P1;1YYCA
1YYCA 174 bases
GHHHHHHLEA SADEKVVEEK ASVISSLLDK AKGFFAEKLA NIPTPEATVD
DVDFKGVTRD GVDYHAKVSV KNPYSQSIPI CQISYILKSA TRTIASGTIP
DPGSLVGSGT TVLDVPVKVA YSIAVSLMKD MCTDWDIDYQ LDIGLTFDIP
VVGDITIPVS TQGEIKLPSL RDFF*

Ci-dessous : extrait d'un fichier de fonction au format PIR / NBRF utilisé dans la base de données PIR :

F;1/Modified site: Removed, cleaved_initiator_methionine
F;2-269/Product: Aquaporin-1 PRO_0000063920
F;2-7/Region: Cytoplasmic, extramembrane
F;8-36/Region: Helix 1, transmembrane
F;37-48/Region: Extracellular, extramembrane
F;71-76/Region: In membrane, extramembrane
F;76-78/Region: NPA 1, polypeptide_motif
F;159-162/Region: Poly-Arg, computationally_biased_region
F;56/Region: Substrate discrimination, polypeptide_region
F;189/Region: Hg(2+)-sensitive residue, polypeptide_region
F;262/Modified site: Phosphoserine, protein_modification_categorized_by_chemical_process
F;42/Modified site: N-linked, glycosylated_residue #GlcNAc...
F;38/Region: P -> L (in Co(A-B-) antigen; non functional AQP1; red cells show low osmotic water permeability), natural_variant VAR_013279
F;8-35/Region: alpha_helix
F;37-42/Region: beta_strand
F;119-122/Region: turn

Format Stanford / IG

  • la 1ère ligne est une ligne de commentaires précédée par le caractère ";"
  • la 2e contient l'identificateur (nom de la séquence) dans les 10 premières colonnes
  • les lignes suivantes contiennent la séquence (80 caractères maximum par ligne) terminée par le caractère "1" (séquence linéaire) ou "2" (séquence circulaire)

;1YYCA 174 bases
1YYCA
GHHHHHHLEASADEKVVEEKASVISSLLDKAKGFFAEKLANIPTPEATVD
DVDFKGVTRDGVDYHAKVSVKNPYSQSIPICQISYILKSATRTIASGTIP
DPGSLVGSGTTVLDVPVKVAYSIAVSLMKDMCTDWDIDYQLDIGLTFDIP
VVGDITIPVSTQGEIKLPSLRDFF1

 

Valid XHTML 1.0 Transitional         Flux RSS Retour haut de page