Format fichier FASTA Module bioinformatique Enseignement et recherche Biochimie - Universite Angers Emmanuel Jaspard biochimej

Quelques formats de fichiers dans les bases de données

Remarques préalables

Le format des fichiers bioinformatiques est intimement lié aux logiciels - programmes qui les utilisent et aux bases de données qui les hébergent;

La standardisation de certains formats (plus grande communicabilité / échange de fichiers plus pratique) et la disparition de certains logiciels ou certaines bases de données rendent caduques certains formats.

A l'inverse, l'avènement de nouvelles technologies et/ou programmes est lié à la création de nouveaux formats de fichiers bioinformatiques. Par exemple :

Le format XSQ ("eXtensible SeQuence") a été conçu pour les données issues du séquençage SOLiD standard, afin de simplifier l'indexation des échantillons et soutenir de nouveaux types de données telles que ECC ("Exact Chemistry Call").
Le format "Variant Call Format" (VCF) spécifie le format d'un fichier texte pour stocker les variations de séquences de gènes.
"Multiple Sequence Alignment Tool Input Examples" : formats divers de séquence de nucléotides (FASTA, PHYLIP, Clustal w/o numbers, MSF, ...) et de séquence de protéines (GCG, UniProtKB/Swiss-Prot, PIR, BLAST, ...).

Malré tout, le très grand nombre de formats (voir tableau ci-dessous) est un handicap pour un échange efficace et une utilisation optimale des données biologiques en bioinformatique. Une plus grande harmonisation est nécessaire.

Exemples de formats de fichiers bioinformatiques
Nom du format	Valeur	Nom du format	Valeur
EMBL entry format	embl	Plain text	text
GCG sequence format	gcg	Fitch program format	fitch
EMBL new entry format	emblnew	GCG MSF (multiple sequence file) file format	msf
Swissprot entry format	swiss	Clustalw multiple alignment format	clustal
Swissprot entry format (swold)	swold	NCBI ASN.1 format	asn1
Swissprot entry format (swissnew)	swissnew	Hennig86 output format	hennig86
FASTA format	fasta	Mega interleaved output format	mega
NCBI fasta format with NCBI-style IDs	ncbi	Nexus/paup interleaved format	nexus
NCBI fasta format with NCBI-style IDs using GI number	gifasta	Jackknifer output interleaved format	jackknifer
NBRF/PIR entry format	nbrf	Treecon output format	treecon
Genbank entry format	genbank	FASTQ short read format with phred quality	fastq
Genbank/DDBJ entry format (alias)	ddbj	FASTQ Illumina 1.3 short read format	fastq-illumina
Genpept entry format	genpept	FASTQ Solexa/Illumina 1.0 short read format	fastq-solexa
Refseq entry format	refseq	Sequence alignment/map (SAM) format	sam
GFF2 feature file with sequence in the header	gff2	Binary sequence alignment/map (BAM) format	bam
Old staden package sequence format	staden	Debugging trace of full internal data content	debug
Voir "File formats used in bioinformatics".

Format FASTA

C'est sans doute le format de fichier le plus répandu car trés simple et l'un des plus pratiques.

>gi|22777494|dbj|BAC13766.1| glutamate dehydrogenase [Oceanobacillus iheyensis]

MVADKAADSSNVNQENMDVLNTTQTIIKSALDKLGYPEEVFELLKEPMRILTVRIPVRMDDGNVKVFTGY
RAQHNDAVGPTKGGIRFHPNVTETEVKALSIWMSLKSGIVDLPYGGAKGGIICDPREMSFRELEALSRGY
VRAVSQIVGPTKDIPAPDVFTNSQIMAWMMDEYSKIDEFNNPGFITGKPIVLGGSHGRESATAKGVTIVL
NEAAKKKGIDIKGARVVIQGFGNAGSFLAKFLHDAGAKVVAISDAYGALYDPEGLDIDYLLDRRDSFGTV
TKLFNNTISNDALFELDCDIIVPAAVENQITRENAHNIKASIVVEAANGPTTMEATKILTERDILIVPDV
LASAGGVTVSYFEWVQNNQGFYWSEEEIDNKLHEIMIKSFNNIYNMSKTRRIDMRLAAYMVGVRKMAEAS

1. Un fichier au format FASTA peut contenir plusieurs séquences. Chaque séquence (écrite sous forme de lignes de 80 caractères maximum), est précédée d'une ligne de titre (nom, définition ...) qui doit commencer par le caractère ">".

2. gi|22777494 : l'identifiant gi ("GenInfo Identifier") est le numéro d'identification d'une séquence (acides aminés ou nucléotides). Si une séquence est modifiée, un nouveau numéro de GI est attribué.

Voir ci-dessous.

3. dbj|BAC13766.1| : un enregistrement peut exister dans différentes bases de données et peut avoir plusieurs identifiants. Le tableau ci-dessous donne l'explication du nom de la base de données et la syntaxe des identifiants. Dans cet exemple, l'enregistrement existe dans la base de données du Japon DDBJ sous l'identifiant dbj|BAC13766.1.

4. dbj|BAC13766.1| : les identifiants de séquences dans une base de données évoluent en parallèle avec la version du fichier. Dans cet exemple, le «.1» indique que la séquence a été modifiée une fois et qu'un nouveau fichier a été déposé.

5. glutamate dehydrogenase [Oceanobacillus iheyensis] : description de la séquence. Dans cet exemple, glutamate déshydrogénase est le nom de la protéine et Oceanobacillus iheyensis celui de l'organisme à partir duquel elle a été obtenue.

Base de données	Syntaxe de l'identifiant	Base de données	Syntaxe de l'identifiant
GenBank	gb\|accession\|locus	NCBI Reference Sequence	ref\|accession\|locus
EMBL Data Library	emb\|accession\|locus	Protein Research Foundation	prf\|\|name
DDBJ (DNA Database of Japan)	dbj\|accession\|locus	Local Sequence identifier	lcl\|identifier
NBRF PIR	pir\|\|entry	GenInfo Backbone Id	bbs\|number
UniProtKB/Swiss-Prot	sp\|accession\|entry name	General database identifier	gnl\|database\|identifier
PDB (Protein Data Bank)	pdb\|entry\|chain	Patents	pat\|country\|number

Exemple du programme d'alignement multiple MUSCLE

fichier d'entrée au format FASTA en texte brut ("plain text") (par exemple, les fichiers issus de Word ne sont pas compris)
la fin de ligne : NL ou CR NL
pas de limite sur la longueur de la ligne d'annotation
aucune exigence que l'annotation soit unique
la séquence se termine soit par la ligne d'annotation suivante ou par la fin du fichier

L'en-tête de FASTA : un N° d'accession de la séquence avec la version et le titre de l'enregistrement pour les N° d'accession gérés par l'INSDC ("International Sequence Database Collaboration") et le projet RefSeq.

Il semble que le NCBI continuera à fournir des informations sur la base de données source d'un fichier dans l'en-tête de FASTA, en particulier pour SwissProt, PDB ("Protein Data Bank"), PIR ("Protein Information Resource") et les séquences brevetées.

Fichiers issus des nouvelles technologies de séquençage à très haut débit

Voir les techniques de séquençage.

3 types de formats de fichiers sont couramment utilisés :

FASTQ : format basé sur du texte pour stocker une séquence biologique (généralement la séquence nucléotidique) et des scores de qualité liés à cette séquence (les 2 sont codés par des caractères ASCII sur plusieurs lignes - exemple : la ligne 1 commence avec le caractère @). C'est le fichier de données brutes issues du séquenceur.

SAM ("Sequence Alignment/Map") : format basé sur du texte délimité avec une section en-tête (facultative) et une section alignement. BAM : codage binaire du ficher SAM correspondant.

GTF ("Gene Transfer Format") : format basé sur du texte délimité par des tabulations et des champs. Ce format est utilisé par beaucoup de logiciels pour décrire la structure des transcrits (introns, exons, sites de démarrage, UTR, ...) et le lien entre les transcrits et le gène auquel ils sont associés.

BAM ("Binary Alignment/Map") : format compressé au format de compression BGZF. L'objectif de BGZF est de fournir une bonne compression tout en permettant un accès aléatoire efficace au fichier BAM pour des requêtes indexées.

Description du format FASTQ

C'est un format basé sur du texte pour stocker à la fois une séquence biologique (séquence nucléotidique habituellement) et ses scores de qualité.
Une valeur de qualité Q est un nombre entier qui traduit la probabilité que l'appel de la base correspondante est incorrect.

Fichier ci-dessous : première ligne = nom de la séquence après le symbole @ (et, éventuellement, la description) / deuxième ligne = la séquence / quatrième ligne = scores de qualité codés sous forme de lettres.

@sequence 1
ATCGATCAAATAGTCCATTTCACAGTTTGGATTTGGGGTCACAGTTTAAGCAGTTTCAACT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

Format et base de données RefSeq

RefSeq ("The Reference Sequence database") : base de données de séquences annotées (ADN, ARN, protéines) dites de référence. Elle est est construite par le NCBI.

Contrairement à GenBank, elle ne fournit qu'un seul enregistrement (séquences non redondantes) pour chaque molécule biologique naturelle (ADN, ARN ou protéine) pour les principaux organismes (virus, bactéries, eucaryotes - # 113.000 organismes en octobre 2021).

Figure ci-dessous : suite logicielle ("pipeline") de construction d'un fichier RefSeq.

bioinformatics file format fichier FASTA FASTQ sequence proteine bioinformatique Refseq

Chaque enregistrement de RefSeq représente une synthèse (par une personne ou un groupe - "synthesizing editors") de l'ensemble des informations générées et soumis par la communuté scientifique.

L'ensemble des données RefSeq est curé par des groupes de collaborateurs et par les curateurs du NCBI.

Signification des préfixes des N° d'accession des fichiers de la base de données RefSeq
préfixe du N° d'accession	type de molécule	commentaire
AC_	Génomes	Complete genomic molecule, usually alternate assembly
NC_		Complete genomic molecule, usually reference assembly
NG_		Incomplete genomic region
NT_		Contig or scaffold, clone-based or WGS ("Whole Genome Shotgun sequence data")
NW_		Contig or scaffold, primarily WGS
NS_		Environmental sequence
NZ_		Unfinished WGS
NM_	ARN messagers	-------
NR_	ARN	-------
XM_	ARN messagers	Predicted model (computed)
XR_	ARN	Predicted model (computed)
AP_	Protéines	Annotated on AC_ alternate assembly
NP_		Associated with an NM_ or NC_ accession
YP_		(computed)
XP_		Predicted model, associated with an XM_ accession (computed)
ZP_		Predicted model, annotated on NZ_ genomic records (computed)

Exemples d'outils de conversion de formats

"EMBOSS Seqret" : programme de l'EBI. Il permet le reformatage général des séquences.

Le programe "GenBank to FASTA" prend en entrée un fichier GenBank et retourne la séquence d'ADN entière au format FASTA. A utiliser quand on veut supprimer les informations non ADN à partir d'un fichier GenBank.

Divers

Format EMBL

Chaque entrée de la base de données EMBL est composée de lignes qui commencent par un code à deux caractères (champs) suivi par des informations.

ID 1YYCA STANDARD; PRT; 174 AA
SQ SEQUENCE 174 AA; C11E4F3E CRC32;
GHHHHHHLEA SADEKVVEEK ASVISSLLDK AKGFFAEKLA NIPTPEATVD DVDFKGVTRD 60
GVDYHAKVSV KNPYSQSIPI CQISYILKSA TRTIASGTIP DPGSLVGSGT TVLDVPVKVA 120
YSIAVSLMKD MCTDWDIDYQ LDIGLTFDIP VVGDITIPVS TQGEIKLPSL RDFF 174

Voir la description des codes - champs d'un fichier EMBL.

Format Stockholm

C'est le format des entrées de la base de données Pfam (collection de familles de domaines des protéines). C'est un format d'alignement multiples de séquences.

Exemple pour le domaine CBS ("Cystathionine-β-synthase") :

# STOCKHOLM 1.0
         #=GF ID CBS
         #=GF AC PF00571
         #=GF DE CBS domain
         #=GF AU Bateman A
         #=GF CC CBS domains are small intracellular modules mostly found in 2 or four copies within a protein.
         #=GF SQ 5
         #=GS O31698/18-71 AC O31698
         #=GS O31698/88-139 OS Bacillus subtilis
         O83071/192-246          MTCRAQLIAVPRASSLAEAIACAQKMRVSRVPVYERS
         #=GR O83071/192-246 SA  9998877564535242525515252536463774777
         O83071/259-312          MQHVSAPVFVFECTRLAYVQHKLRAHSRAVAIVLDEY
         #=GR O83071/259-312 SS  CCCCCHHHHHHHHHHHHHEEEEEEEEEEEEEEEEEEE
         O31698/18-71            MIEADKVAHVQVGNNLEHALLVLTKTGYTAIPVLDPS
         #=GR O31698/18-71 SS    CCCHHHHHHHHHHHHHHHEEEEEEEEEEEEEEEEHHH
         O31698/88-139           EVMLTDIPRLHINDPIMKGFGMVINN..GFVCVENDE
         #=GR O31698/88-139 SS   CCCCCCCHHHHHHHHHHHHEEEEEEEEEEEEEEEEEH
         #=GC SS_cons            CCCCCHHHHHHHHHHHHHEEEEEEEEEEEEEEEEEEH
         O31699/88-139           EVMLTDIPRLHINDPIMKGFGMVINN..GFVCVENDE
         #=GR O31699/88-139 AS   ________________*____________________
         #=GR O31699/88-139 IN   ____________1____________2______0____
       //

Composition minimale :

Un en-tête qui indique le format et la version de l'identifiant : # STOCKHOLM 1.0
#=GF : Annotation générique du fichier, texte libre
#=GC : Annotation générique par colonne - exactement 1 caractère par colonne
#=GS (<seqname> <feature>) : Annotation générique par séquence, texte libre. <seqname> = nom de la séquence
#=GR (<seqname> <feature>) : Annotation générique par résidu - exactement 1 caractère par résidu. Les lettres des séquences peuvent inclure tous les caractères sauf les espaces. Les gaps peuvent être indiquées par "." ou "-"
La ligne // indique la fin de l'alignement.

Voir un complément sur la construction des fichiers Pfam.

Format de la base de données PROSITE

Ligne	Exemple	Remarques
identification (ID)	ZF_FCS; MATRIX	2 à 21 caractères alphanumériques majuscules
numéro d'accession (AC)	PS51024	format : PSnnnnn avec PS = PROSITE et nnnnn = nombre à 5 chiffres
date (DT)	01-NOV-2004 CREATED	la date de dépôt de l'entrée et des dernières modifications de l'entrée
description (DE)	Zinc finger FCS-type profile.	toujours la 4ème ligne - informations sur le contenu de l'entrée
pattern (PA)	F-[GSTV]-P-R-L-[G>]	syntaxe des expressions régulières
matrice / profil (MA)	MA /GENERAL_SPEC: ALPHABET='ABCDEFGHIKLMNPQRSTVWYZ'; LENGTH=36; MA /DISJOINT: DEFINITION=PROTECT; N1=4; N2=33; MA /NORMALIZATION: MODE=-1; FUNCTION=LINEAR; R1=1506.6335449; R2=1.4524887; PRIORITY=1; TEXT='Heuristic 5.0%'; MA /CUT_OFF: LEVEL=0; SCORE=733; H_SCORE=2571; N_SCORE=9.0; MODE=1; TEXT='!'; MA /DEFAULT: M0=-9; D=-20; I=-20; B1=-100; E1=-100; MI=-105; MD=-105; IM=-105; DM=-105; MA /I: B1=0; BI=-105; BD=-105; MA /M: SY='P'; M=-8,-7,-29,-2,12,-25,-16,-9,-24,4,-26,-18,-5,24,3,8,3,-4,-23,-30,-21,5; ...
Autres lignes : modifications post-traductionnelles (PP) / commentaires (CC) / références UniProtKB-Swiss-Prot (DR) / références PDB (3D) / règle ProRule associée (PR)
Exemples	PS50011	Prorule PRU00159

La syntaxe pour la description d'un motif structural ou signature ("pattern") de la base de données PROSITE est la suivante :

lettres A-Z correspondant aux acides aminés (minuscules ou majuscules)
[] indique une ambiguite inclusive. Exemple : [ILVM]
{} ambiguite exclusive. Exemple : {FWY}
X caractère positionnel indifférent
(n) répétition n fixe d'un sous-motif. Exemple : [RD](2)
X(n,m) insertions min-max (insertion variable). Exemple : X(2,4)
< au début du motif : le motif est cadré à gauche de la séquence
> à la fin du motif : le motif est cadré à droite de la séquence
le caractère '-' sépare chaque position
le caractère '+' indique que la suite du motif continue à la ligne suivante

Exemples de motifs PROSITE : D-x-[DNS]-{ILVFYW}-[DENSTG]-[DNQGHRK]-{GP}-[LIVMC]-[DENQSTAGC]-x(2)

Format ClustalW- suffixe ".aln"

Doit commencer avec "CLUSTAL W" sans autre information.
Une ou plusieurs lignes vides.
Un ou plusieurs blocs de séquences. Chaque bloc contient :
- une ligne pour chaque séquence. Chaque ligne contient : le nom de la séquence / espace blancs / jusqu'à 60 caractères
- Une ligne indiquant le degré de conservation (via des caractères spéciaux : "*", ":", ".") pour les colonnes de l'alignement pour ce bloc.

CLUSTAL W (1.8) multiple sequence alignment
1YYCA GHHHHHHLEASADEKVVEEKASVISSLLDKAKGFFAEKLANIPTPEATVDDVDFKGVTRD
1YYCA GVDYHAKVSVKNPYSQSIPICQISYILKSATRTIASGTIPDPGSLVGSGTTVLDVPVKVA
1YYCA YSIAVSLMKDMCTDWDIDYQLDIGLTFDIPVVGDITIPVSTQGEIKLPSLRDFF

Voir Clustal Omega.

Format GFF / GTF - Ensembl

Le format GFF ("General Format Feature") est composé d'une ligne par fonction. Chaque ligne contient 9 colonnes de données et des lignes en optionnelles de définition de piste. Le format GTF ("General Transfer Format") est identique au format GFF version 2.

Les champs doivent être séparés par des tabulations. Tous les champs (sauf le dernier) de chaque ligne doivent contenir une valeur :

seqname : nom du chromosome (avec ou sans le préfixe « chr ». Ce nom doit être un nom de chromosome standard ou un identifiant Ensembl
source : nom du programme, de la base de données ou nom du projet à l'origine des données du fichier
fonction ("feature") : nom du type de fonction (gene, diversité, similarité)
"start" : position de début de la fonction (début de numérotation à partir de 1)
"end" : position de fin de la fonction
"score" : valeur à virgule flottante
"strand" : défini comme + ("forward") ou - ("reverse")
"frame" : un « 0 » indique que la première base est la première base du codon, un « 1 » que la seconde base est la première base du codon, etc …
"attribute" : liste (séparée par des points-virgules) de paires de valeurs d'étiquette, fournissant des informations supplémentaires sur chaque fonction

X Ensembl	Repeat	2419108	2419128	42	    .	    . hid=trf; hstart=1; hend=21
X Ensembl	Repeat	2419108	2419410	2502	-	    . hid=AluSx; hstart=1; hend=303
X Ensembl	Repeat	2419108	2419128	0	    .	    . hid=dust; hstart=2419108; hend=2419128
X Ensembl	Pred.trans.	    2416676	2418760	450.19	- 2	genscan=GENSCAN00000019335
X Ensembl	Variation	    2413425	2413425	.	    + . 
X Ensembl	Variation	    2413805	2413805	.	    + .

Format GCC/MSF ("Pileup") - ("Genetics Computer Group" - GCG fondu dans "Accelrys")

Le format adopté par le package GCG permet à la fois de commenter les données et de vérifier l'intégrité de la séquence par une valeur (=Checksum) calculée sur celle-ci.
Le format GCG n'autorise qu'une seule séquence par fichier.
Le fichier est constitué de la manière suivante:
1. avant les ".." : commentaires
2. ligne signal avec identificateur et "Check #### .."
3. après les ".." : séquence.

1YYCA
1YYCA Length: 174 Feb 14, 2011 10:21 Check: 9268 ..
1 GHHHHHHLEA SADEKVVEEK ASVISSLLDK AKGFFAEKLA NIPTPEATVD
51 DVDFKGVTRD GVDYHAKVSV KNPYSQSIPI CQISYILKSA TRTIASGTIP
101 DPGSLVGSGT TVLDVPVKVA YSIAVSLMKD MCTDWDIDYQ LDIGLTFDIP

Format PIR/NBRF

Une ligne qui commence par le caractère ">" et un code à 2 lettres qui désigne le type de séquence : P1, F1, DL, DC, RL, RC ou XX.
Un point-virgule suivi par le code lié à la base de donnée (dans l'exemple suivant : ";1YYCA").
Une ligne qui décrit la séquence.
La séquence elle-même. Cette partie doit finir par une astérisque.
Plusieurs séquences peuvent être mises dans un même fichier.

>P1;1YYCA
1YYCA 174 bases
GHHHHHHLEA SADEKVVEEK ASVISSLLDK AKGFFAEKLA NIPTPEATVD
DVDFKGVTRD GVDYHAKVSV KNPYSQSIPI CQISYILKSA TRTIASGTIP
DPGSLVGSGT TVLDVPVKVA YSIAVSLMKD MCTDWDIDYQ LDIGLTFDIP
VVGDITIPVS TQGEIKLPSL RDFF*

Ci-dessous : extrait d'un fichier de fonction au format PIR / NBRF utilisé dans la base de données PIR :

F;1/Modified site: Removed, cleaved_initiator_methionine
F;2-269/Product: Aquaporin-1 PRO_0000063920
F;2-7/Region: Cytoplasmic, extramembrane
F;8-36/Region: Helix 1, transmembrane
F;37-48/Region: Extracellular, extramembrane
F;71-76/Region: In membrane, extramembrane
F;76-78/Region: NPA 1, polypeptide_motif
F;159-162/Region: Poly-Arg, computationally_biased_region
F;56/Region: Substrate discrimination, polypeptide_region
F;189/Region: Hg(2+)-sensitive residue, polypeptide_region
F;262/Modified site: Phosphoserine, protein_modification_categorized_by_chemical_process
F;42/Modified site: N-linked, glycosylated_residue #GlcNAc...
F;38/Region: P -> L (in Co(A-B-) antigen; non functional AQP1; red cells show low osmotic water permeability), natural_variant VAR_013279
F;8-35/Region: alpha_helix
F;37-42/Region: beta_strand
F;119-122/Region: turn

Format Stanford / IG

la 1ère ligne est une ligne de commentaires précédée par le caractère ";"
la 2e contient l'identificateur (nom de la séquence) dans les 10 premières colonnes
les lignes suivantes contiennent la séquence (80 caractères maximum par ligne) terminée par le caractère "1" (séquence linéaire) ou "2" (séquence circulaire)

;1YYCA 174 bases
1YYCA
GHHHHHHLEASADEKVVEEKASVISSLLDKAKGFFAEKLANIPTPEATVD
DVDFKGVTRDGVDYHAKVSVKNPYSQSIPICQISYILKSATRTIASGTIP
DPGSLVGSGTTVLDVPVKVAYSIAVSLMKDMCTDWDIDYQLDIGLTFDIP
VVGDITIPVSTQGEIKLPSLRDFF1