Etude de toxines - ponts disulfure
Flux RSS

 

Figure ci-contre : représentation schématique du processus de transcription puis de traduction et de la structure des molécules issues de ces processus.

Cette étude bioinformatique de la toxine parcourt ces molécules jusqu'à la structure 3D de la protéine en focalisant sur les cystéines impliquées dans des ponts disulfure.

ExPASy Proteomics tools : ensemble d'applications pour l'analyse de séquences peptidiques.

EMBOSS seqret : application pour la conversion de formats de fichiers.

protein structure JSmol pont disulfure disulfide bridge fasta clustalw toxin BLAST alignment biochimej

1. Analyse du gène et de l'ARNm de la kappa - bungarotoxine de Bungarus multicinctus

Aller au NCBI. Rechercher les données pour "multicinctus mRNA kappa-bungarotoxin" dans "All databases".

Combien de fichiers de nucléotides et de protéines obtient-on ?

nucléotides : 3 / protéines : 2

Cliquer sur le lien « Nucleotide » puis ouvrir le fichier correspondant à la séquence d’ADN codant la bungarotoxine.

A quoi correspond "Y11768".

Quelle est la longueur en nucléotides de la séquence codante ("CDS") ?

Quel codon stop est employé ?

Quelle est la vraie séquence "TATA" ?

Y11768 : numéro d'accession du fichier Genbank du gène de cette toxine

Somme des longueurs des 3 exons constitutifs de la phase de lecture ouverte, soit : (332 - 277) + (1496 - 1397) + (2143 - 2033) = 264 nucléotides

Dernier codon du 3è exon => TAA

TATAAA

Pour combien d’acides aminés code la séquence codante ?

Pour combien d’acides aminés code la séquence du peptide signal ?

Le dernier codon est le codon STOP => 261 nucléotides = 87 codons, soit 87 acides aminés

Peptide signal : 54 nucléotides = 18 codons, soit 18 acides aminés

Voir un cours sur les peptides signaux

Faire un schéma du gène ("TATA box", peptide signal, introns et exons avec leurs positions) sur la base des données de ce fichier.

Quels sont les mots clés de l'ontologie associés à cette molécule ?

schéma

ontologie : modification morphology physiology - acétylcholine - extracellular region - postsynaptic membrane
Voir QuickGO

Voir un rappel sur l'ontologie.

Revenir à la page de résultats de "Nucleotide"et cliquer sur le lien "Y08721".

Cliquer sur le lien "FASTA". De quoi s'agit-il ?
A quoi d'autre correspond "FASTA" ?

FASTA : format de fichier de séquences

FASTA : programme d'alignement

Enregistrer la séquence "FASTA" dans un éditeur de texte. 1mRNA

Aller au site "ExPASy Proteomics". Trouver le programme "Translate".

Coller la séquence FASTA dans la fenêtre et lancer l'application (bouton "Translate sequence").

  • Que fait ce programme ?
  • Que signifient "5'3' Frame 1", "5'3' Frame 2", ... ?
  • Quelle traduction vous semble correcte ?

Attention : si les traductions semblent peu plausibles, revenir à la fenêtre de soumission, supprimer tout le texte qui n'est pas la séquence proprement dite (">gi|1620372|emb|...") et refaire la traduction.

Que fait ce programme ?

Que signifient "5'3' Frame 1", "5'3' Frame 2", ... ?

Quelle traduction vous semble correcte ?

Traduction d'une séquence nucléotidique sur 6 phases de lecture : 3 sur le brin transcrit.

La traduction a priori correcte (tout du moins plausible) est celle qui contient 87 acides aminés (voir ci-dessus)

Refaire la même opération (programme « Translate ») avec la séquence FASTA du gène codant la bungarotoxine (fichier ouvert au début).

Obtient-on un résultat équivalent ? Si non, pourquoi ?

La séquence du gène contient presque 2300 nucléotides sans lien avec la séquence codante : cette traduction n'a donc aucun sens. On remarque cependant que 3 segments de traduction correspondent aux 3 exons.

Retour haut de page

2. Etude de la structure de la bungarotoxine

Aller au NCBI. Rechercher les données pour "2NBT" dans "All databases". Quel type de donnée supplémentaire obtient-on ?

Données structurales

Cliquer sur le lien "Structure". A quelle sous-partie du NCBI accède-t-on ?

MMDB : "Molecular modeling Database"

Dans le cadre "Molecular Components", cliquer sur la barre intitulée "snake_toxin superfamily".

A quelle sous-partie du NCBI accède-t-on ?
Décrire avec quelques mots-clés le mode d'action de ce genre de toxine.
Décrire les particularités structurales du domaine.

CDD : "Conserved Domain Database"

"binding to the nicotinic acetylcholine receptors in the postsynaptic membrane" - "preventing the binding of acetylcholine" - "blocking the excitation of muscles"

domaine : 60 - 75 acides aminés / structure stabilisée par 4 - 5 ponts disulfure / presque complètement sous forme de feuillets β / soit monomère, soit dimère

Cliquer sur le lien - image « cd00206 snake_toxin » (en dessous de « Curated CD Hierarchy »).

Un alignement apparaît en bas de la nouvelle page.

  • Interpréter le code couleur des lettres et minuscules/majuscules
  • Repérer les acides aminés conservés dans cet alignement.
  • Lire la syntaxe PROSITE des expression régulières pour PHI-BLAST.

Ecrire un motif consensus au format PROSITE.

C-x(9,15)-C-x(0,2)-G-x(3)-C-x(14,18)-G-C-x(1,3)
-C-P-x(9,10)-C-C-x(4,5)-[DE]-[KLNV]-C-N

Retour haut de page

3. Visualisation de la bungarotoxine

Revenir à la page "Neuronal Bungarotoxin, NMR, 10 Structures". Cliquer sur le lien "2NBT" dans le petit cadre "PDB ID:" en haut à droite.

A quelle base de données accède-t-on ?
Par quelle méthode, dans quel journal scientifique et en quelle année cette structure de la toxine a-t-elle été résolue ?

PDB : "Protein DataBank"

Résonance magnétique nucléaire

Publié dans "Biochemistry" en 1992

Dans le menu déroulant "Display file" en haut à droite à côté de "2NBT", ouvrir le fichier "PDB file". Rechercher la position des cystéines impliquées dans un pont disulfure ("SSBOND").

Interpréter la syntaxe de ces lignes : nombre de ponts disulfure décrits, positions des cystéines impliquées dans ces ponts disulfure et les chaînes polypeptidiques auxquelles elles appartiennent.

1 CYS A    3    CYS A   21
2 CYS A   14    CYS A   42
3 CYS A   27    CYS A   31
4 CYS A   46    CYS A   58
5 CYS A   59    CYS A   64

5 ponts pour la chaîne A => Idem pour la chaîne B

S'agit-il d'un monomère, d'un homodimère ou d'un hétrodimère ?

Pourquoi ?

La cystéine est l'acide aminé le moins utilisé dans les chaînes polypeptidiques : la probabilité que 2 chaînes polypeptidiques contenant 10 cystéines (sur 87 acides aminés) aux mêmes positions soient différentes est quasiment nulle => homodimère

protein structure JSmol pont disulfure disulfide bridge fasta clustalw toxin BLAST alignment biochimej

Revenir à la page précédente.

Onglet "Annotations" (en haut de la page) : quels sont les termes de l'ontologie associés à cette protéine ?
Onglet "3D View" : visualiser la molécule.

GO Terms

Onglet "Sequence Similarity". Choisir 40% dans la liste de gauche "Cluster Sequence Similarity Cutoff" : Cluster 40%

A quoi correspond ce pourcentage ?
Combien y a-t-il de séquences dans le "cluster 40%" ?

40 % de similarité entre les acides aminés des séquences de l'ensemble sélectionné

3 séquences (Avril 2019)

Sélectionner les boutons radio 1LSI (LSIII) et 2NBT (NEURONAL BUNGAROTOXIN).
Menu déroulant en haut "Select Comparison method" : choisir la méthode de comparaison "jFATCAT - rigid".

Remarque : pour que la visualisation des 2 structures superposées fonctionne, il faut que la version de Java soit à jour. Si rien ne s'affiche dans un délai "court", c'est que la version n'est pas à jour.

Quel est le pourcentage d'identité entre les 2 séquences choisies ?

Qu'en conclure ?

%Id: 8,82 %

Malgré le faible % d'identité / similarité, les 2 structures se superposent remarquablement : les structures des protéines sont plus conservées que les séquences

Quelles sont les parties des 2 chaînes polypeptidiques qui ne se superposent pas bien ?

Pourquoi ?

Les boucles qui relient les brins des feuillets β

Les boucles sont très flexibles - mobiles : elles sont donc mal résolues dans la structure obtenue par RMN en solution. En d'autres termes, il existe plusieurs positions possibles pour les acides aminés de ces boucles : la structure finale tient compte d'une position moyenne.

Autre possibilité si Java n'est pas mis à jour :
Pourcentage d'identité : sélectionner "blast2seq" dans le menu déroulant.
Visualisation : retourner à la page d'accueil 2NBT. Choisir le lien "JSmol" (en dessous de la représentation de la molécule à gauche).
Remarque : une seule structure (2NBT) est représentée.

Aller à la page du calcul du RMSD ("Root Mean Square Deviation") entre ces 2 structures.
Entrer : 2NBT, 1LSI, 1 et 66 (positions des acides aminés superposés).

Que traduit le RMSD et que conclure de la valeur calculée ?

Visualisation de la bungarotoxine (homodimère) - RMN - 10 structures

Code PDB : 2NBT

Retour haut de page

4. Analyse du précurseur de la bungarotoxine de Bungarus multicinctus

Aller à BLAST proposé par EBI.

Coller la séquence "Chain A, Neuronal Bungarotoxin, Nmr, 10 Structures" (appelée aussi "2NBTA") dans la fenêtre et lancer BLAST avec les autres valeurs par défaut.

  • Interpréter les premières lignes du tableau de résultats : "3LKB_BUNMU... 5.0e-35"
  • Visualiser l'alignement en cliquant sur le bouton "Show Alignments".
  • Le choix de la matrice vous semble-t-il judicieux ?
  • La "E-value" est-elle modifiée avec la matrive PAM70 ?
Cliquer sur le lien "3LKB_BUNMU".
  • Quelle est cette protéine ?
  • A quoi correspondent les 21 premiers acides aminés N-terminaux ?
  • Quelle est le contenu en structures secondaires ?
  • Y a-t-il des ponts disulfures ? Si oui, quelles sont les positions des Cys impliquées ?

Voir une description des programmes d'alignement BLAST.

Voir la signification des paramètres "E-value" et "P-value".

Retour haut de page

Revenir au NCBI. Récupérer la séquence au format FASTA de P01398.

Aller au "SignalP 5.0 Server". Coller la séquence, choisir les paramètres corrects, lancer l'application.

Que recherche l'application "SignalP 5.0 Server" ?
Lire les informations "Output format".
Quelle est la séquence et la position la plus probable du site de coupure ?

Recherche de site potentiel de coupure d'un petide signal. Il s'agit d'une prédiction basée sur un algorithme et une base de données de séquences de références.

Site de coupure prédit : TRT23-C24L

Refaire cette recherche avec l'application "Signal-BLAST".

Les résultats sont-ils semblables ? Pourquoi ?

Non.

Algorithmes différents / Jeu de données de séquences de références différents.

Retour haut de page

5. Recherche de motif signature des toxines

Aller à InterProScan sequence search. Coller la séquence du précurseur de la toxine dans la fenêtre et lancer l'application.

Que recherche cette application ?

Rechercher dans la séquence soumise les correspondances avec les de signatures de protéines contenues dans la bases de données InterPro avec le programme InterProScan

Voir un cours sur les motifs et InterPro

Aller à "PDOC00245".

Quel est le motif "signature" des toxines de serpents ? Enregistrer le motif obtenu.

Quel acide aminé particulier en fait partie ? Pourquoi ?

Snake toxins signature : G-C-x(1,3)-C-P-x(8,10)-C-C-x(2)-[PDEN]

La cystéine puisque les ponts disulfure et la structure 3D qui en découle sont la signature de ce type de toxine.


Aller à PHI-Blast ("Pattern Hit Initiated BLAST").

Ce programme prend en entrée une séquence requête protéique et un motif défini par une expression régulière. La syntaxe du motif est décrite à : "Rules for pattern syntax for PHI-BLAST".

Voir un cours sur les expressions régulières.

PHI-Blast est adapté à la recherche de séquences protéiques qui contiennent un motif spécifié par l'utilisateur (fenêtre "PHI pattern" de la section "Algorithm") ET sont similaires à la séquence requête (fenêtre "Search") dans le voisinage proche du motif.

  • Coller la séquence du précurseur de la toxine dans la fenêtre "Enter accession number, gi, or FASTA sequence".
  • Dans la partie "Program Selection", choisir "PHI-BLAST (Pattern Hit Initiated BLAST)" et coller le motif détecté pour les toxines de serpent selon la syntaxe de PROSITE.
  • Choisir la base de données dans laquelle la recherche va être effectuée.
  • Eventuellement, modifier les paramètres (taille du mot, "expect treshold", matrice, pénalités des gaps, ...) de l'algorithme en ouvrant le menu "Algorithm parameters".
  • Lancer BLAST.

Dans la page des résultats, cliquer sur l'un des triangles rouges (ou sur le lien "snake_toxin", on obtient un grand nombre d'information).

Développer ([+]) les menus "List of domain hits" - lien "Snake_toxin".

  • Ces résultats sont-ils en accord avec ceux obtenus dans la partie « 2. Etude de la structure de la bungarotoxine » ?
  • A quelle famille de protéine appartiennnent les toxines de serpents ?
  • Qu'est-ce que PFAM ?

Résultats évidemment confirmés

pfam00087 : Toxin_TOLIP / Snake toxin and toxin-like protein

Voir un cours sur Pfam

Retour haut de page

Ouvrir ce fichier. Déterminer la nature de chaque protéine.

Faire le meilleur alignement possible avec "P01398" et mettre en évidence un acide aminé particulier probablement important pour la structure.

Chercher quelques séquences de toxines de plantes : crambine (Crambe hispanica) / thionine (Arabidopsis thaliana)

Retrouve-t-on le même genre de résultats ?


Fichiers aide avec toutes les séquences résultats

Toutes les Séquences

ToxinPlant

Retour haut de page

Valid XHTML 1.0 Transitional