Bioinformatique module S4BG4

Voir le cours de bioinformatique. En particulier "Algorithmes et programmes d'alignement" et "Matrices".

Aller au NCBI. Faites une recherche pour : « 1AXY_A » dans « All databases ».


Pourquoi n’obtient-on pas de données concernant les séquences de nucléotides ?

1AXY_A : fichier de données protéiques
(1AXY_A est aussi le n° d'accession du fichier de structure PDB)

Décrire les données dans les différents champs du fichier GenPept.

Quel est le nom de la molécule ? Lectin

Les lectines reconnaissent des résidus d'oses spécifiques portés par des glycoprotéines ou des glycolipides présents à la surface des cellules : celà induit l'agglutination d'une grande diversité de types de cellules.
Sur la base des similarités de séquences, de caractéristiques communes telles que la spécificité des sucres fixés, la conservation des domaines de reconnaissance des oses et la nécessité d'ions pour la catalyse (par exemple, les lectines de légumes fixent le calcium, le manganèse et d'autres métaux de transition), les lectines sont regroupées en différentes catégories : lectines de type C, lectines de type I, lectines de type P, galectines et pentraxines.

Quel est l’organisme dont est issue cette molécule ? Erythrina Corallodendron
Enregistrez la séquence FASTA de cette molécule.

Description du format FASTA

>gi|157830136|pdb|1AXY|A Chain A, Erythrina Corallodendron Lectin
VETISFSFSEFEPGNDNLTLQGAALITQSGVLQLTKINQNGMPAWDSTGRTLYAKPVHIWDMTTGTVASF
ETRFSFSIEQPYTRPLPADGLVFFMGPTKSKPAQGYGYLGIFNNSKQDNSYQTLGVEFDTFSNPWDPPQV
PHIGIDVNSIRSIKTQPFQLDNGQVANVVIKYDASSKILHAVLVYPSSGAIYTIAEIVDVKQVLPEWVDV
GLSGATGAQRDAAETHDVYSWSFQASLPE

1. With the FASTA format, a single file can contain several records (sequences). Each record begins with ">".

2. gi|157830136 : the GenInfo Identifier ("GI" or "gi") number is the sequence identification number for a protein or a nucleotide sequence. If a sequence changes in any way, a new GI number will be assigned. GI is simply a series of digits that are assigned consecutively to each sequence record processed by NCBI.

3. pdb|1AXY|A : one record could exist in different databases and may have many identifiers. The table gives the explanation of database name and identifier syntax. In this example, this record exists in PDB under pdb|1AXY|A.

Database sequence identifiers run parallel to the new accession version system as sequence identifiers. In some cases, a ".1", ".2", ... indicates that the sequence has been revised one, two, .. times.

4. Chain A, Erythrina Corallodendron Lectin : description of the molecule and the organism.

Database Name Identifier syntax
GenBank gb|accession|locus
EMBL Data Library emb|accession|locus
DDBJ, DNA Database of Japan dbj|accession|locus
NBRF PIR pir||entry
SWISS-PROT sp|accession|entry name
Brookhaven Protein Data Bank (PDB) pdb|entry|chain
NCBI Reference Sequence ref|accession|locus
Protein Research Foundation prf||name
Local Sequence identifier lcl|identifier
GenInfo Backbone Id bbs|number
General database identifier gnl|database|identifier
Patents pat|country|number

Retour haut de page

 

Aller à UNIPROT. Recherchez le fichier P16404.

  • Décrire les données dans les différents champs du fichier GenPept.
  • Enregistrez la séquence FASTA.

Aller à l’EBI. Choisir un logiciel d'alignement deux à deux ("pairwise sequences alignment"). Exemples : "Emboss Needle" ou "BLAST 2 sequences" (option : "Align two or more sequences")

Comprendre les différents paramètres. Aligner les séquences de la lectine et de P16404.

Le schéma ci-contre est-il cohérent avec l’alignement obtenu (L = lectine, P = P16404).

A quel type de molécule par rapport à la lectine correspond P16404 ?

structure sequence amino acid bioinformatics alignment precurseur precursos lectin

Quelle est la longueur de la chaîne polypeptidique du pro-peptide précurseur ?

Pourquoi l'extémité C-terminale du précurseur est-elle clivée ?

longueur : 281 acides aminés

clivage co-traductionnel du peptide signal N-terminal (1 - 26)
clivage post-traductionnel (position 268) du peptide signal C-terminal

Un pont disulfure est formé entre 2 cystéines. Peut-il y avoir un pont disulfure dans la lectine ? Et dans le précurseur ?

Non

Aller à la PDB. Rechercher : 2NBT. De quelle molécule s'agit-il ?
Récupérer le fichier texte des coordonnées cristallographiques ===> menu "Download files" (en haut à droite), choisir "PDB file (Text)".
Rechercher "SSBOND" dans le fichier et interpréter les données.

Retour haut de page

 

Aller au SignalP Server. Coller la séquence du précurseur et lancer l'application.

Quelle est la position du site de clivage du peptide signal ?

entre 26 et 27

Quelle est la séquence du site de clivage du peptide signal ?

VNS26 / V27ET

Retour haut de page

 

Aller au NCBI. Rechercher le fichier AAA33752.

Exemple d'expressions régulières pour la syntaxe de motifs PROSITE : <A-x-[ST](2)-x(0,1)-{V}

  • Ala en position N-terminale
  • suivi par n'importe quel acide aminé
  • suivi par deux fois (Ser ou Thr)
  • suivi ou non par n'importe quel acide aminé
  • suivi par n'importe quel acide aminé sauf Val

Exemples d'expressions régulières Prosite plus complexes :

  • {AFN} : n'importe quel acide aminé sauf Ala ou Phe ou Asn
  • <A-x- : Ala puisn'importe quel acide aminé en partant de l'extrémité N-terminale (signe "<")
  • <{C}*> : pas de Cys de l'extrémité N-terminale à l'extrémité C-terminale <==> toute séquence ne contenant aucune Cys

Effectuer une recherche PHI-BLAST pour AAA33752 avec les motifs suivants (syntaxe PROSITE) :

  • motif signature des lectines de légumes α : [LIV]-{LA}-[EDQ]-[FYWKR]-V-{VF}-[LIVF]-G-[LF]-[ST]
  • motif signature des lectines de légumes β : [LIV]-[STAG]-V-[DEQV]-[FLI]-D-[ST]
  • "Legume lectins signatures"

Interpréter les résultats.

 

Valid XHTML 1.0 Transitional         Flux RSS Retour haut de page