Déshydrogénases et pli Rossmann / calmoduline et motif "EF-hand" / récepteur de l'insuline / siRNA

Chargement de la page : "Déshydrogénases et pli Rossmann / calmoduline et motif "EF-hand" / récepteur et insuline / siRNA"
A. Etude du pli Rossmann des déshydrogénase à NAD(P)+

1. Aller au NCBI. Rechercher les séquences protéiques de la lactate déshydrogénase. Attention : anglais, abréviation, emploi des opérateurs logiques (Booléens) : "AND", "OR" et "NOT".

Avec l'option "Advanced" (lien en haut de la page), affiner la recherche avec EC 1.1.1.27 et Arabidopsis thaliana dans les résultats précédents :

"#1 AND in builder" puis taper "1.1.1.27" avec le champs "EC/RN Number" du menu déroulant.
"#2 AND in builder" puis taper "Arabidopsis thaliana" avec le champs "Organism" du menu déroulant.

Enregistrer la séquence au format FASTA du fichier AAC02678.

≈ 133.000 résultats

 

1 séquence : AAC02678

Comment sait-on qu'il s'agit d'une enzyme ?

Quelle réaction catalyse-t-elle ?

Dans quelle voie métabolique ?

Remarques

En quoi le fichier de numéro d'accession AAN87112 est-il "abusif" ?
En quoi n'est-il cependant pas "erroné" ?

Retour haut de page

2. Ouvrir le fichier GenPept NP_002292. Examiner les informations des différents champs.

Ouvrir l'onglet "Graphics" (en haut). Examiner la partie "site Features - CDD"

Zoomer à 50% (loupes au centre) afin qu'apparaissent les lettres des acides aminés. Survoler les sites de fixation du NAD+ et du substrat avec les flèches larges (au centre).

  • Quelles sont les positions des acides aminés du site de fixation du NAD+ ?
  • Quelles sont les positions des acides aminés du site de fixation du substrat ?

Quels acides aminés sont communs aux deux sites ?

Pourquoi les acides aminés de chacun de ces sites ne sont-ils pas contigus dans la séquence ?

Acides aminés du site de fixation du NAD+ :

  • Positions 52, 54, 57, [95 - 99], 136, 138, 161, 165, 193, 248 et 252
  • En particulier : ... VT95AGAR99Q ...

Acides aminés du site de fixation du substrat :

  • Positions 100, 106, 138, 169, 193, 238 et 248.
  • En particulier : RQ100Q ... TR106L ... SN138P [.....] YT248S

Les acides aminés N138, H193 et T248 sont communs aux 2 sites de fixation : ils établissent donc des liaisons avec la molécule de coenzyme et avec la molécule de substrat.

Chacun des sites de fixation résultent du regroupement d'acides aminés dans l'espace via le repliement de la chaîne polypeptidique et la formation de domaines indépendants.

Retour haut de page

3. Cliquer sur le lien ci-contre : "Conserved Protein Domain Family - LDH1".

  • A quelle super-famille de protéines appartiennent les lactate déshydrogénases ?
  • Les déshydrogénases à NAD(P) appartiennent-elles toutes à la même super-famille de protéines ?
  • Appartiennent-elles toutes à la même famille de protéines ?
  • Qu'ont en commun ces familles ?
  • "NAD(P)-binding Rossmann fold superfamily"
  • Oui
  • Non
  • Le domaine de fixation du NAD(P)
Examiner l'alignement automatique généré en bas de la page "Conserved Protein Domain Family - LDH_1".
Repérer un motif consensus GXGXXG dans la partie N-terminale des séquences.

Quelles sont les particularités physico-chimiques de la glycine ?

  • Acide aminé peu encombrant : l'atome H constitue la plus petite chaîne latérale.
  • Caractère polaire : possibilité de formation de liaisons hydrogènes.

Ces caractéristiques permettent une certaine fléxibilité de la chaîne polypeptidique : la glycine est souvent dans des portions de séquence d'acides aminés qui forment des boucles.

Retour haut de page

Aller à InterPro. Rechercher "lactate dehydrogenase nad+ Arabidopsis".

Pourquoi obtient-on autant de résultats ?
A quoi correspondent les informations de la colonne "Source database" ?

Il y des résultats pour la lactate déshydrogénase et pour d'autres déshydrogénase.
Certains résultats ont trait à des informations plus générales. Exemple : IPR036291

A certaines des bases de données constitutives du consortium InterPro.

Dans la liste de résultats, cliquer sur le lien vers le motif du site actif de la LDH de la base de données Prosite.

Quelle est l'expression régulière ? L'interpréter.

Lien "View PS00064 in PROSITE patterns".

Expression régulière : [LIVMA]-G-[EQ]-H-G-[DN]-[ST]

Retour haut de page

4. Rechercher dans la base de données Uniprot le fichier correspondant au fichier GenPept obtenu au NCBI.

  • Quel est le numéro d'accession du fichier Uniprot ?
  • Quelles informations suplémentaires obtient-on ?

Numéro d'accession : O49191 (O49191_ARATH)

Un trés grand nombre d'informations supplémentaires. Notamment :

  • La réaction enzymatique, la localisation subcellulaire et de trés nombreux liens vers diverses bases de données (InterPro, NCBI , PDB, ...).
  • L'ontologie et notamment l'annotation du gène codant la lactate déshydrogénase dans la base de données TAIR (dédiée à Arabidopsis thaliana) : "Lactate/malate dehydrogenase family protein" & locus AT4G17260.

A quelle protéine correspond le fichier GenPept ABI54333 ?

Vérifier avec le programme d'alignement de séquences MULTALIN si les séquences des fichiers AAC02678, O49191 et ABI54333 sont identiques (dans ce cas les valeurs du paramètre "check" au dessus de l'alignement obtenu sont identiques).

Pourquoi le fichier ABI54333 n'est-il pas renvoyé dans la requête d'origine au NCBI ?

ABI54333 : lactate déshydrogénase de Arabidopsis thaliana.

  • Les séquences AAC02678 et O49191 sont identiques.
  • Les séquences AAC02678 et ABI54333 diffèrent de 1 acide aminé : V155 => I155 (différence conservative).

Le champs "DEFINITION" du fichier GenPept ABI54333 contient "At4g17260 [Arabidopsis thaliana]" et non "lactate dehydrogenase".

Retour haut de page

5. Aller à ScanProsite.

  • Choisir l'option qui permet de comparer une séquence de protéine à une collection de motifs.
  • Entrer la séquence FASTA de la lactate déshydrogénase AAC02678.
  • Ajuster les paramètres et lancer la recherche.
  • Dans la page de résultat, trouver le lien vers le motif consensus ("consensus pattern") du site actif des lactate déshydrogénases.

Quelle est l'expression régulière de ce motif ?
Pourquoi est-elle identique à la précédente (voir ci-dessus) ?

Lien vers le motif : PS00064

[LIVMA]-G-[EQ]-H-G-[DN]-[ST]

Prosite fait partie du consortium InterPro

Retour haut de page

6. Aller à PHI-BLAST au NCBI.

  • Fenêtre "Enter Query Sequence" : entrer la séquence FASTA de AAC02678.
  • Champs "Organism" : sélectionner Homo sapiens en tapant les premières lettres dans le un menu déroulant qui s'ouvre=> taxid:9606 (attention aux différentes orthographes dans le menu déroulant).
  • Sélectionner l'algorithme PHI-BLAST : une petite fenêtre s'ouvre => entrer l'expression régulière du motif consensus (ci-dessus).
  • Ouvrir l'item "Algorithm parameters" : sélectionner 50 séquences dans le menu "Max target sequences".
  • Lancer PHI-BLAST pour effectuer la recherche de séquences homologues et/ou similaires de la lactate déshydrogénase de l'homme.

Sélectionnez (cocher) 10 résultats caractérisés par des E-value très différentes les unes des autres. Puis dans le menu déroulant "Download" (au dessus de la liste des résultats), sélectionner "FASTA (complete sequence)" => récupérer le fichier texte ainsi créé.

Voir un descriptif de BLAST.

Retour haut de page

7. Avec MULTALIN, alignez la séquence de la lactate déshydrogénase de Arabidopsis thaliana (AAC02678) avec les 10 séquences FASTA récupérées de PHI-BLAST.

  • Le but est de mettre en exergue un motif G-X-G-X-X-G du côté N-terminal des séquences : il faut donc "jouer" sur le choix de la matrice (exemple : Dayhoff), des valeurs de gap (exemple : 6 - 0) et éliminer les séquences trop longues ou trop courtes sauf celle de Arabidopsis thaliana.
  • Ecrire l'expression régulière la plus précise de ce motif (syntaxe Prosite) qui tient compte de toutes les séquences conservées.

Retour haut de page

8. Illustration : structure du domaine liant le NAD(P)+ - le pli Rossmann

  • Récupérer la séquence de la lactate déshydrogénase de Squalus acanthias : Uniprot P00341.
  • Refaire l'alignement MULTALIN en y ajoutant cette séquence : repérer le motif spécifique de la lactate déshydrogénase de Squalus acanthias (GVGAVG).

Voir les spécificités du pli rossmann des déshydrogénases à NAD(P)+ pour la suite.

a. Visualisation de la lactate déshydrogénase de Squalus acanthias à une résolution de 3 Å

Code PDB : 3LDH

Le pli Rossmann ("Rossmann fold" - en hommage à Michael Rossmann) est une structure super-secondaire (assemblage de plusieurs types de structures secondaires) composée de 3 feuillets β liés à 2 hélices α de manière alternée (β-α-β-α-β).

Un pli Rossmann peut fixer 1 nucléotide.

Donc le domaine de fixation d'un dinucléotides (tel que NAD+ ou NADP+) contient 2 plis Rossmann appariés, chacun d'eux fixant l'un des nucléotides du co-facteur.

Retour haut de page

b. Prédiction de la structure secondaire

Le motif consensus GXGXXG riche en glycine forme une boucle ("glycine-rich P-loop motif") qui effectue un tour serré entre la fin du premier feuillet β (β7) et le début de l'hélice de fixation du dinucléotide (α6) au sein du pli Rossmann.

Effectuer une prédiction de la structure secondaire de la séquence de lactate déshydrogénase de Arabidopsis thaliana.

Repérer les acides aminés du Pli Rossmann :

  • Sont-ils prédits dans une structure secondaire correcte ?
  • Et les acides aminés du motif GXGXXG ?

a. Prédiction de la structure secondaire avec HHpred.

b. Exemples d'autres logiciels : Jpred - CFSSP - GOR

(Etre patient pour les résultats).

Retour haut de page

B. Etude des sites de fixation du calcium de la calmoduline (CaM)
1. Exemple de motif écrit avec la syntaxe PROSITE ("Pattern syntax") :
<A-x-[ST](2)-x(0,1)-{V}
Ce motif se lit : "Ala en position N-terminale puis n'importe quel acide aminé puis 2 fois (Ser ou Thr) puis aucun acide aminé ou n'importe quel acide aminé puis n'importe quel acide aminé sauf Val."
Ecrire le motif suivant avec la syntaxe PROSITE :
"4 Ser puis (Asp ou Ser) puis n'importe quel acide aminé puis (Asp ou Glu) puis (Glu ou Gly ou Val) puis 1 à 7 fois n'importe quel acide aminé puis (Glu ou Gly) puis 1 à 2 fois n'importe quel acide aminé puis 4 fois (Arg ou Lys)."

S(4)-[DS]-x-[DE]-[EGV]-x(1,7)-[EG]-x(1,2)-[KR](4)

Exemple : SSSSSDDEEEEKRKR

Retour haut de page

2. Le motif de fixation du calcium de la calmoduline s'appelle motif "EF-hand" composé d'environ 30 acides aminés :

  • Ce motif contient 2 hélices α notées E et F (figurées respectivement par l'index et le pouce d'une main - figure ci-contre), reliées par une boucle.
  • Lors de la fixation du calcium, l'hélice F passe d'une conformation "fermée" (apo-CaM) à une conformation "ouverte" (holo-CaM).

La calmoduline fixe 4 atomes de calcium :

  • Chacune des 4 boucles de liaison au calcium est inclue dans un motif "EF-hand" et ont des séquences homologues.
  • La syntaxe PROSITE du motif consensus de ces séquences est : [DN]-x-D-G-[DN]-G-[TYQ]-x(4)-E

helice helix motif EF hand calmodulin CaM

Source : PFAM (PF00036)

Quelles sont les propriétés physico-chimiques des acides aminés de ce motif consensus ?

Pourquoi ?

  • Acides aminés acides (D et E) ou déprotonable (Y) donc chargés moins au pH cellulaire.
  • Acides aminés polaires (G, N, Q, T et Y à pH 7) donc susceptibles d'établir des liaisons hydrogène ou électrostatiques.

Ces propriétés physico-chimiques permettent la fixation de Ca2+ (cation divalent).

Ci-après, la séquence et la position des acides aminés du 1er motif "EF-hand" qui fixe le Ca2+de la calmoduline de Homo sapiens (exemple : CAA36839) :
FD21KD23GD25G ... KE32L ... VD57AD59D ... GN64G ... PE71F

Retrouve-t-on le motif PROSITE ci-dessus ?

La séquence FD21KD23GD25G ... KE32 répond à l'expression régulière du motif PROSITE.

Visualisation de la calmoduline de l'homme (non complexée au calcium) à une résolution de 1,7 Å

Code PDB : 1CLL

Coordination et acides aminés du motif "EF - hand" EF1 :

X = D21; Y = D23; Z = D25; -X = H2O; -Y = T27; -Z1 = E3; -Z2 = E32

Retour haut de page

3. Aller à ScanProsite.

Rechercher avec l'option adaptée le motif consensus de fixation du calcium (motif "EF-hand") en utilisant l'expression régulière [DN]-x-D-G-[DN]-G-[TYQ]-x(4)-E.

Analyser les résultats (exemples : "polymerase processivity factor component A20", "Calcium-binding allergen Bet v3", "Calbindin", ...).

Quelles informations tire-t-on ?

  • Il existe un très grand nombre de protéines qui fixent le calcium.
  • Ces protéines sont impliquées dans des processus biologiques très divers.
  • Elles ont cependant des séquences en acides aminés caractérisées par la conservation de motifs consensus identiques de fixation du Ca2+.

Repérer le résultat P84074 :

  • De quelle protéine s'agit-il ?
  • Combien de fois le motif recherché est-il présent ?
  • Pourquoi trouve-t-on ce motif ?
  • Hippocalcine ("Neuron-specific calcium-binding protein hippocalcin") de l'homme.
  • Le motif est trouvé 1 fois.
  • Cette protéine fixe le calcium.

Retour haut de page

4. Consulter le fichier PROSITE du motif "EF-hand" : PS00018

Récupérer le motif complet (attention au retour à la ligne / le point final n'en fait pas partie).

Motif complet :
D-{W}-[DNS]-{ILVFYW}-[DENSTG]-[DNQGHRK]-{GP}-[LIVMC]-[DENQSTAGC]-x(2)-[DE]-[LIVMFYW]

Effectuer une recherche ScanProsite avec ce motif (choisir l'option 2).

Fenêtre "STEP2 - Select a PROTEIN sequence database" :

  • Cocher la case "Exclude fragments (concerns UniProtKB only)".
  • Ouvrir le menu "Filters" et limiter la recherche "On taxonomy" à "Homo sapiens".

Limiter le nombre de résultats à 1000 (option "Maximum number of displayed matches").

Pourquoi le résultat est-il étonnant ?

Le motif est très long : le nombre de séquences qui y répondent est très grand.

En conséquence, des protéines ou enzymes qui ne fixent pas le calcium ont malgré tout une partie de leur séquence qui correspondent à ce motif PROSITE.

Retour haut de page

C. Etude du récepteur de l'insuline

a. Aller au NCBI. Effectuer une recherche de récepteur de l'insuline de l'homme.

  • Quels mots-clés est-il judicieux d'employer ?
  • Pourquoi obtient-on autant de résultats ?

Exemple : (insulin receptor[Protein Name]) AND Homo sapiens[Organism]

On obtient beaucoup de fichiers correspondant :

  • à une séquence incomplète ("partial")
  • à des molécules en relation avec le récepteur de l'insuline

Avec les fonctionalités de "Advanced", récupérer le sous-ensemble de fichiers qui ne contiennent pas le mot "partial".

Combien de fichier(s) obtient-on ?

Le fichier AAA59452 est intéressant.

  • Cependant il n'est pas dans les résultats. Pourquoi ?
  • Elimine-t-on ce fichier avec le filtre précédent ?

Réfléchir à la requête la plus exacte (si il y en a une) pour n'obtenir que des fichiers de séquences complètes du récepteur de l'insuline de l'homme.

5 fichiers sont renvoyés.

  • Le fichier AAA59452 contient le mot "Partial" (P majuscule) donc il est éliminé.
  • Filtrer avec ce mot est efficace mais il est difficile de gérer la casse (majuscule / minuscule).

Il n'y a pas de requête évidente à moins de consulter un grand nombre fichiers GenPept pour noter les mots à ne pas utiliser dans le filtre pour éviter d'éliminer des fichiers intéressants.

Retour haut de page

b. Récupérer la séquence FASTA du fichier AAA59452 et effectuer une recherche de séquences homologues avec BLAST.

  • Dans la page de résultats, ouvrir l'onglet "Graphic Summary".
  • Il apparaît une figure avec l'entête "Putative conserved domains have been detected, click on the image below for detailed results" : cliquer sur la figure.

Une nouvelle page s'ouvre. Comparer cette figure à celle du cours sur le récepteur de l'insuline.

Ce récepteur est constituée d'un grand nombre de domaines.

Un domaine est une région de la chaîne polypeptidique :

  • apte à se replier indépendamment
  • qui possède une fonction propre

Cliquer sur le signe "+" de la fenêtre "List of domain hits" : on obtient la séquence des différents domaines.
Dans quel domaine trouve-t-on la séquence "LGQGSFGMVY" ?
De quel domaine du récepteur s'agit-il ?

Le domaine PTKc_InsR.

Domaine catalytique à activité protéine tyrosine kinase.

Dans la figure du haut de la page, cliquer sur l'un quelconque des triangles oranges de la ligne intitulée "ATP binding site".

  • A quel domaine du récepteur de l'insuline appartient ce site ?
  • Quel est le rôle de la fixation de l'ATP ?
  • Retrouve-t-on la séquence "LGQGSFGMVY" dans l'alignement des séquences de récepteurs en bas de la page ?

"Catalytic domain of the Protein Tyrosine Kinase, Insulin Receptor"

"PTKs catalyze the transfer of the gamma-phosphoryl group from ATP to tyrosine (tyr) residues in protein substrates"

Oui, dans la partie N-terminale des séquences.

Retour haut de page

D. Interférence ARN

Voir le cours sur l'interférence ARN.

L'introduction d'ADN double brin ("double-strand DNA" - dsRNA) de plus de 30 nucléotides dans des cellules de mammifères induit la réponse interféron (activation de la protéine kinase R ("interferon-induced, double-stranded RNA-activated protein kinase") et de la 2',5'-oligoadénylate synthétase). Cette réponse entraîne la dégradation non spécifique des ARN messagers et une diminution du taux de traduction.

La conception de siRNA ("design" / "screening") nécessite que les ARN synthétisés contiennent moins de 30 nucléotides. Les siRNA avec un débordement en 3’ constitué du dinucléotide UU sont les plus puissants.

Synthese siRNA RNA interferent miRNA

Retour haut de page

Les règles de conception d’un siRNA à partir d’une séquence d’ARM messager sont :

  • siRNA targeted sequence is usually 21 nt in length.
  • Avoid regions within 50-100 bp of the start codon (ATG) and the termination codon. Targets should be located 50-100 nt downstream of the start codon.
  • Search for sequence motif AA(N19)TT or NA(N21), or NAR(N17)YNN, where : A = Adenine; T = Thymine; N = any nucleotide; R = purine (A, G); Y = pyrimidine (T, C, U).
  • Target sequences should have a [G+C] content between 30-60%.
  • Avoid stretches of 4 or more nucleotide repeats such as AAAA, CCCC.
  • Avoid intron regions, repeats and low complex sequences, single nucleotide polymorphism (SNP) sites.
  • Avoid 5'UTR and 3'UTR, although siRNAs targeting UTRs have been shown to successfully induce gene silencing.
  • Avoid sequences that share a certain degree of homology with other related or unrelated genes : perform BLAST homology search to avoid off-target effects on other genes or sequences.
  • Always design negative controls by scrambling targeted siRNA sequence. The control RNA should have the same length and nucleotide composition as the siRNA but have at least 4-5 bases mismatched to the siRNA. Make sure the scrambling will not create new homology to other genes.

EMBOSS Seqret : logiciel de conversion de formats de fichiers.

Trouver la séquence d’un siRNA dans la séquence de l’ARN messager (GenBank NM_003380) codant la vimentine de l’homme :

Uniprot : Homo sapiens vimentin mRNA

>NM_003380.3 Homo sapiens vimentin mRNA
CCCCGCGCCAGAGACGCAGCCGCGCTCCCACCACCCACACCCACCGCGCCCTCGTTCGCC
TCTTCTCCGGGAGCCAGTCCGCGCCACCGCCGCCGCCCAGGCCATCGCCACCCTCCGCAG
CCATGTCCACCAGGTCCGTGTCCTCGTCCTCCTACCGCAGGATGTTCGGCGGCCCGGGCA
CCGCGAGCCGGCCGAGCTCCAGCCGGAGCTACGTGACTACGTCCACCCGCACCTACAGCC
TGGGCAGCGCGCTGCGCCCCAGCACCAGCCGCAGCCTCTACGCCTCGTCCCCGGGCGGCG
TGTATGCCACGCGCTCCTCTGCCGTGCGCCTGCGGAGCAGCGTGCCCGGGGTGCGGCTCC
TGCAGGACTCGGTGGACTTCTCGCTGGCCGACGCCATCAACACCGAGTTCAAGAACACCC
GCACCAACGAGAAGGTGGAGCTGCAGGAGCTGAATGACCGCTTCGCCAACTACATCGACA
AGGTGCGCTTCCTGGAGCAGCAGAATAAGATCCTGCTGGCCGAGCTCGAGCAGCTCAAGG
GCCAAGGCAAGTCGCGCCTGGGGGACCTCTACGAGGAGGAGATGCGGGAGCTGCGCCGGC
AGGTGGACCAGCTAACCAACGACAAAGCCCGCGTCGAGGTGGAGCGCGACAACCTGGCCG

Il faut trouver une séquence de 21 nucléotides dans l’ARNm cible qui commence par un dinucléotide AA.

On cherche le codon d'initiation de la transcription (AUG) : toutes séquences commençant par AA (et les 19 nucléotides suivants) constituent un site cible potentiel pour les siRNA.

Vimentine RNA interferent siRNA miRNA


Résultat pour la vimentine
séquence ciblée - ADNc ("targeted region") 5' AACTACATCGACAAGGTGCGCTT
siRNA sens 5' CUACAUCGACAAGGUGCGCdTdT
siRNA antisens 5' GCGCACCUUGUCGAUGUAGdTdT

Autres exemples
Lamine A/C
SC : 5'AACTGGACTTCCAGAAGAACATC
sens : 5'CUGGACUUCCAGAAGAACAdTdT
antisens : 5'UGUUCUUCUGGAAGUCCAGdTdT
Lamine B1
SC : 5'AACGCGCTTGGTAGAGGTGGATT
sens : 5'CGCGCUUGGUAGAGGUGGAdTdT
antisens : 5'UCCACCUCUACCAAGCGCGdTdT
GL2 Luciferase
SC : 5'AACGTACGCGGAATACTTCGATT
sens : 5'CGUACGCGGAAUACUUCGAdTdT
antisens : 5'UCGAAGUAUUCCGCGUACGdTdT
Source : Elbashir et al. (2001)

Exemples de programmes

IDT - "Custom Dicer-Substrate siRNA (DsiRNA)"

  • Entrer le nom de la séquence.
  • Coller la séquence cible.
  • Puis cliquer sur "Calculate".
  • Voir les différentes positions des siRNA sens trouvés.

siDirect

  • Entrer la séquence au format
  • Ouvrir les options : cocher les cases des options désirées, notamment le "GC content"

Retour haut de page