Deshydrogenase NAD binding pli Rossmann calmoduline motif EF-hand interference ARN regulation metabolisme Texte et corriges travaux diriges Enseignement et recherche Biochimie Emmanuel Jaspard Universite Angers biochimej

Déshydrogénases et pli Rossmann / calmoduline et motif "EF-hand" / récepteur de l'insuline / siRNA

Chargement de la page : "Déshydrogénases et pli Rossmann / calmoduline et motif "EF-hand" / récepteur et insuline / siRNA"

GenBank & GenPept

Quelle différence y a-t-il entre les bases de données GenBank et GenPept ?
Quelle différence y a-t-il entre un fichier GenBank et un fichier GenPept ?

GenBank

Base de données des fichiers GenBank (extension ".gbk") de toutes les séquences de nucléotides.

Fichier GenBank : voir le détail de son annotation/nomenclature (explication de chaque champs et sous-champs ou "Features").

GenPept

Base de données des fichiers GenPept (extensions ".gp") de traduction (acides aminés) de toutes les séquences codantes ("CoDing Sequence" - CDS - nucléotides).

Le format d'un fichier GenPept dérive de celui du fichier parent GenBank et son contenu est synchronisé avec chaque nouvelle version de ce fichier.

2. Combien de fichiers GenPept le moteur de recherche "Entrez" renvoie-t-il avec le mot clé "protein" ?

En combien de pages ces fichiers sont-ils répartis avec 200 résultats par page ?

≈ 1,57 milliards de fichiers.

≈ 7,83 millons de pages.

3. Effectuer les requêtes suivantes et conclure.
champs de la requête	mot-clé	résultats
protein	protein	≈ 1,57 milliards
nucleotide	protein	≈ 154 millions
protein	gene	≈ 1,25 milliards
nucleotide	gene	≈ 267 millions

A. Etude du pli Rossmann des déshydrogénase à NAD(P)⁺

1. Aller au NCBI. Rechercher les séquences protéiques de la lactate déshydrogénase. Attention : anglais, abréviation, emploi des opérateurs logiques (Booléens) : "AND", "OR" et "NOT".

Avec l'option "Advanced" (lien en haut de la page), affiner la recherche avec EC 1.1.1.27 et Arabidopsis thaliana dans les résultats précédents :

"#1 AND in builder" puis taper "1.1.1.27" avec le champs "EC/RN Number" du menu déroulant.
"#2 AND in builder" puis taper "Arabidopsis thaliana" avec le champs "Organism" du menu déroulant.

Enregistrer la séquence au format FASTA du fichier AAC02678.

≈ 894.500 résultats

1 séquence : AAC02678

Comment sait-on qu'il s'agit d'une enzyme ?

Quelle réaction catalyse-t-elle ?

Dans quelle voie métabolique ?

E.C. = "Enzyme Commission" (voir un cours sur les enzymes).
1.1.1 : oxydoréductases (1) agissant sur le groupe CH-OH du donneur (1) avec NAD⁺ ou NADP⁺ comme accepteurs d'électrons (1).
- L-lactate déshydrogénase : E.C. 1.1.1.27
- D-lactate déshydrogénase : E.C. 1.1.1.28
(S)-lactate + NAD⁺ <=> pyruvate + NADH + H⁺
La fermentation.

Remarques

EC/RN Number : EC = Enzyme Commission - RN = Registry Number
Voir une liste des déshydrogénases.

En quoi le fichier de numéro d'accession AAN87112 est-il "abusif" ?
En quoi n'est-il cependant pas "erroné" ?

Il ne contient qu'un acide aminé.
Cet acide aminé est la méthionine codée par le codon d'initiation de la traduction dans tous les ARN messagers.

2. Ouvrir le fichier GenPept NP_002292. Examiner les informations des différents champs.

Ouvrir l'onglet "Graphics" (en haut). Examiner la partie "site Features - CDD"

Zoomer à 50% (loupes au centre) afin qu'apparaissent les lettres des acides aminés. Survoler les sites de fixation du NAD⁺ et du substrat avec les flèches larges (au centre).

Quelles sont les positions des acides aminés du site de fixation du NAD⁺ ?

Quelles sont les positions des acides aminés du site de fixation du substrat ?

Quels acides aminés sont communs aux deux sites ?

Pourquoi les acides aminés de chacun de ces sites ne sont-ils pas contigus dans la séquence ?

Acides aminés du site de fixation du NAD⁺ :

Positions 52, 54, 57, [95 - 99], 136, 138, 161, 165, 193, 248 et 252
En particulier : ... VT₉₅AGAR₉₉Q ...

Acides aminés du site de fixation du substrat :

Positions 100, 106, 138, 169, 193, 238 et 248.
En particulier : RQ₁₀₀Q ... TR₁₀₆L ... SN₁₃₈P [.....] YT₂₄₈S

Les acides aminés N₁₃₈, H₁₉₃ et T₂₄₈ sont communs aux 2 sites de fixation : ils établissent donc des liaisons avec la molécule de coenzyme et avec la molécule de substrat.

Chacun des sites de fixation résultent du regroupement d'acides aminés dans l'espace via le repliement de la chaîne polypeptidique et la formation de domaines indépendants.

3. Cliquer sur le lien ci-contre : "Conserved Protein Domain Family - LDH1".
A quelle super-famille de protéines appartiennent les lactate déshydrogénases ? Les déshydrogénases à NAD(P) appartiennent-elles toutes à la même super-famille de protéines ? Appartiennent-elles toutes à la même famille de protéines ? Qu'ont en commun ces familles ?	"NAD(P)-binding Rossmann fold superfamily" Oui Non Le domaine de fixation du NAD(P)⁺

Examiner l'alignement automatique généré en bas de la page "Conserved Protein Domain Family - LDH_1". Repérer un motif consensus GXGXXG dans la partie N-terminale des séquences. Ecrire l'expression régulière de ce motif dans la syntaxe Prosite.
Quelles sont les particularités physico-chimiques de la glycine ?	Acide aminé peu encombrant : l'atome H constitue la plus petite chaîne latérale. Caractère polaire : possibilité de formation de liaisons hydrogènes.

Rechercher les statistiques de la base de données Expasy [UniProtKB/Swiss-Prot].

Quelle est la fréquence de cet acide aminé ?

Données statistiques : G = 7,07%

Qu'en conclure ?

Les caractéristiques de la glycine permettent une certaine fléxibilité de la chaîne polypeptidique.
La glycine est souvent présente dans des régions de séquence d'acides aminés qui forment des boucles.
Voir un développement.

Aller à InterPro. Rechercher "lactate dehydrogenase nad+ Arabidopsis".

Pourquoi obtient-on autant de résultats ?

Il y des résultats pour la lactate déshydrogénase et pour d'autres déshydrogénase.

Certains résultats ont trait à des informations plus générales. Exemple : IPR036291

A quoi correspondent les informations de la colonne "Source database" ?

Qu'est le consortium InterPro ?

A certaines des bases de données du consortium InterPro.

Dans la liste de résultats, afficher plus de 20 résultats par page.
Cliquer sur le lien vers le motif du site actif de la LDH de la base de données Prosite

Quelle est l'expression régulière ? L'interpréter.

Lien "View PS00064 in PROSITE patterns".

Expression régulière : [LIVMA]-G-[EQ]-H-G-[DN]-[ST]

4. Rechercher dans la base de données Uniprot le fichier correspondant au fichier GenPept obtenu au NCBI.

Quel est le numéro d'accession du fichier Uniprot ?

Quelles informations suplémentaires obtient-on ?

Numéro d'accession : O49191 (O49191_ARATH)

Un trés grand nombre d'informations supplémentaires. Notamment :

La réaction enzymatique, la localisation subcellulaire et de trés nombreux liens vers diverses bases de données (InterPro, NCBI , PDB, ...).
L'ontologie et notamment l'annotation du gène codant la lactate déshydrogénase dans la base de données TAIR (dédiée à Arabidopsis thaliana) : "Lactate/malate dehydrogenase family protein" & locus AT4G17260.

A quelle protéine correspond le fichier GenPept ABI54333 ?

Vérifier avec le programme d'alignement de séquences MULTALIN si les séquences des fichiers AAC02678, O49191 et ABI54333 sont identiques (dans ce cas les valeurs du paramètre "check" au dessus de l'alignement obtenu sont identiques).

Pourquoi le fichier ABI54333 n'est-il pas renvoyé dans la requête d'origine au NCBI ?

ABI54333 : lactate déshydrogénase de Arabidopsis thaliana.

Les séquences AAC02678 et O49191 sont identiques.
Les séquences AAC02678 et ABI54333 diffèrent de 1 acide aminé : V155 => I155 (différence conservative).

Le champs "DEFINITION" du fichier GenPept ABI54333 contient "At4g17260 [Arabidopsis thaliana]" et non "lactate dehydrogenase".

Pourquoi le fichier ABI54333 n'est-il pas renvoyé dans la requête d'origine au NCBI ?

Le champs "DEFINITION" du fichier GenPept ABI54333 contient les termes "At4g17260 [Arabidopsis thaliana]" et non les termes "lactate dehydrogenase".

5. Aller à ScanProsite.

Choisir l'option qui permet de comparer une séquence de protéine à une collection de motifs.
Entrer la séquence FASTA de la lactate déshydrogénase AAC02678.
Ajuster les paramètres et lancer la recherche.
Dans la page de résultat, trouver le lien vers le motif consensus ("consensus pattern") du site actif des lactate déshydrogénases.

Lien vers le motif : PS00064

Quelle est l'expression régulière de ce motif ?

Pourquoi est-elle identique à la précédente (voir ci-dessus) ?

[LIVMA]-G-[EQ]-H-G-[DN]-[ST]

Prosite fait partie du consortium InterPro

6. Aller à PHI-BLAST au NCBI.

Remarque : l'interface "Protein BLAST" n'affiche plus le bouton radio pour sélectionner le programme PHI-BLAST.
Voici l'URL pour accéder à ce programme : https://blast.ncbi.nlm.nih.gov/Blast.cgi?DATABASE=nr&PAGE=Proteins&PROGRAM=blastp

Fenêtre "Enter Query Sequence" : entrer la séquence FASTA de AAC02678.
Champs "Organism" : sélectionner Homo sapiens en tapant les premières lettres dans le un menu déroulant qui s'ouvre=> taxid:9606 (attention aux différentes orthographes dans le menu déroulant).
Sélectionner l'algorithme PHI-BLAST : une petite fenêtre s'ouvre => entrer l'expression régulière du motif consensus (ci-dessus).
Ouvrir l'item "Algorithm parameters" : sélectionner 50 séquences dans le menu "Max target sequences".
Lancer PHI-BLAST pour effectuer la recherche de séquences homologues et/ou similaires de la lactate déshydrogénase de l'homme.

Sélectionnez (cocher) 10 résultats caractérisés par des E-value très différentes les unes des autres.
Puis dans le menu déroulant "Download" (au dessus de la liste des résultats), sélectionner "FASTA (complete sequence)" => récupérer le fichier texte ainsi créé.

Voir un descriptif de BLAST.

7. Illustration : structure du domaine liant le NAD(P)⁺ - le pli Rossmann

Récupérer la séquence de la lactate déshydrogénase de Squalus acanthias : Uniprot P00341.
Refaire l'alignement MULTALIN en y ajoutant cette séquence : repérer le motif spécifique de la lactate déshydrogénase de Squalus acanthias (GVGAVG).

Voir les spécificités du pli Rossmann des déshydrogénases à NAD(P)⁺ pour la suite.

a. Visualisation de la lactate déshydrogénase de Squalus acanthias à une résolution de 3 Å

Code PDB : 3LDH

Le pli Rossmann ("Rossmann fold" - en hommage à Michael Rossmann) est une structure super-secondaire (assemblage de plusieurs types de structures secondaires) composée de 3 feuillets β liés à 2 hélices α de manière alternée (motif β-α-β-α-β).

Un pli Rossmann peut fixer 1 nucléotide.

Donc le domaine de fixation d'un dinucléotides (tel que NAD⁺ ou NADP⁺) contient 2 plis Rossmann appariés, chacun d'eux fixant l'un des nucléotides du co-facteur.

8. Recherche de structures de déshydrogénases homologues avec un algorithme d'aprentissage automatique

Voir le cours.

L'algorithme pLM-BLAST

pLM-BLAST (Kaminski et al., 2023) est un modèle de langage protéique ("protein Language Model") ou pLM.

Différence majeure entre pLM-BLAST et les différentes versions de BLAST ?

pLM-BLAST repose sur une approche non supervisée ne nécessitant :

Ni l'entraînement d'un modèle d'apprentissage profond spécialisé.
Ni la définition d'étiquettes positives de paires de protéines similaires sur le plan structural.

De plus, pLM-BLAST calcule des alignements globaux et locaux, ce qui permet d'identifier des domaines et des sous-domaines protéiques.

pLM-BLAST étend ainsi le concept de BLAST en remplaçant les matrices de substitution invariantes (exemples : PAM250, BLOSUM62, ...) par des [similarités par résidu d'acides aminés] entre les intégrations protéiques ("per-residue similarities between protein embeddings").

La similarité entre une paire de résidus d'acides aminés donnée dépend ainsi entièrement du contexte, c'est-à-dire de l'ensemble des résidus de la chaîne polypeptidique.

Déroulement de l'algorithme

a. L'intégration globale d'une séquence d'acides aminés est représentée par une matrice de taille [n x m] où n et m sont, respectivement :

Le nombre de résidus d'acides aminés.
Lla dimension des vecteurs d'intégrations généré par le pLM choisi (la dimension = 1024 dans le cas du pLM ProtT5).

Remarque : le script "embeddings.py" de pLM-BLAST utilise les intégrations générées par des pLM de type T5 (exemples : prott5, famille ESM ou tout modèle utilisant la classe "AutoModel" de Transformers).

b. pLM-BLAST calcule ensuite la matrice de substitution pour 2 séquences à comparer par la multiplication des matrices d'intégrations de ces 2 séquences.

Application de pLM-BLAST à la LDH

Aller à pLM-BLAST.

Coller la séquence FASTA de la LDH de Arabidopsis thaliana (AAC02678).
Conserver la basse de données ECOD par défaut ("Select target database : ECOD").
Lancer le programme.

Interpréter les résultats de l'onglet "Hits".

ECOD_002396946_e6cepD2 : | 2003.1.1.40 | 6CEP D:1-160

Identité = 54%
A: a/b three-layered sandwiches, X: Rossmann-like, H: Rossmann-related, T: NAD(P)-binding Rossmann-fold domains, F: Ldh_1_N
- Voir ci-dessous la terminologie des domaines protéiques de ECOD.
Protein: L-lactate dehydrogenase B chain
6CEP D:1-160 : complexe ternaire de la L-lactate déshydrogénase du coeur du sanglier (Sus scrofa) avec NADH et l'oxamate.

Cliquer sur le lien du 1er résultat de la colonne "Accession".
Interpréter les résultats.

Comparaison avec la classification ECOD

Qu'est ECOD ?

ECOD ("Evolutionary Classification of protein Domains" - Cheng et al., 2014) propose plusieurs classifications des protéines de la PDB par homologie des structures de leurs domaines.

Les domaines protéiques de ECOD sont regroupés en 5 niveaux : (A) Architecture; (X) Homologie possible; (H) Homologie; (T) Topologie; (F) Famille.

Aller à ECOD browser.

Taper "lactate dehydrogenase" dans la fenêtre "Enter a word or phrase to search the tree".
Sélectionner "T: L-sulfolactate dehydrogenase-like" dans le menu qui s'affiche.
Ouvrir l'arborescence.
- Remarque : (T) "topology" est le regroupement ECOD des domaines protéiques aux connexions topologiques similaires.
Cliquer sur le lien "F: Ldh_2 - [17 Structures]".

Comparer avec les résultats obtenus avec pLM-BLAST.

9. Superposition de 2 structures de LDH

Aller à la page du calcul du RMSD entre 2 structures de protéines.

Entrer les codes PDB : 1I0Z (LDH du coeur de l'homme) et 6CEP (voir ci-dessus).
Entrer les positions : 1 et 332 (premier et dernier acides aminés superposés).

Que traduit le RMSD ?

Que conclure de la valeur calculée ?

RMSD ("Root Mean Square Deviation") : superposition des carbones α des 2 structures comparées.

Plus la valeur RMSD est faible, meilleure est la superposition des structures, plus ces structures sont similaires.

Voir un complément et la formule du calcul du RMSD.

Quelles parties des 2 chaînes polypeptidiques se superposent le moins bien ?

Pourquoi ?

Les boucles.

Les boucles sont très flexibles et donc mobiles : elles sont parfois mal résolues dans les structures obtenues par différentes techniques.
Il existe donc plusieurs positions possibles pour les acides aminés de ces boucles : la structure finale tient compte d'une position moyenne.

B. Etude des sites de fixation du calcium de la calmoduline (CaM)

1. Exemple de motif écrit avec la syntaxe PROSITE ("Pattern syntax") :
<A-x-[ST](2)-x(0,1)-{V}

Ce motif se lit : "Ala en position N-terminale puis n'importe quel acide aminé puis 2 fois (Ser ou Thr) puis aucun acide aminé ou n'importe quel acide aminé puis n'importe quel acide aminé sauf Val."

Ecrire le motif suivant avec la syntaxe PROSITE :
"4 Ser puis (Asp ou Ser) puis n'importe quel acide aminé puis (Asp ou Glu) puis (Glu ou Gly ou Val) puis 1 à 7 fois n'importe quel acide aminé puis (Glu ou Gly) puis 1 à 2 fois n'importe quel acide aminé puis 4 fois (Arg ou Lys)."

S(4)-[DS]-x-[DE]-[EGV]-x(1,7)-[EG]-x(1,2)-[KR](4)

Exemple : SSSSSDDEEEEKRKR

2. Le motif de fixation du calcium de la calmoduline s'appelle motif "EF-hand" composé d'environ 30 acides aminés :

Ce motif contient 2 hélices α notées E et F (figurées respectivement par l'index et le pouce d'une main - figure ci-contre), reliées par une boucle.

Lors de la fixation du calcium, l'hélice F passe d'une conformation "fermée" (apo-CaM) à une conformation "ouverte" (holo-CaM).

La calmoduline fixe 4 atomes de calcium :

Chacune des 4 boucles de liaison au calcium est inclue dans un motif "EF-hand" et ont des séquences homologues.

La syntaxe PROSITE du motif consensus de ces séquences est : [DN]-x-D-G-[DN]-G-[TYQ]-x(4)-E

helice helix motif EF hand calmodulin CaM

Source : PFAM (PF00036)

Quelles sont les propriétés physico-chimiques des acides aminés de ce motif consensus ?

Pourquoi ?

Acides aminés acides (D et E) ou déprotonable (Y) donc chargés moins au pH cellulaire.
Acides aminés polaires (G, N, Q, T et Y à pH 7) donc susceptibles d'établir des liaisons hydrogène ou électrostatiques.

Ces propriétés physico-chimiques permettent la fixation de Ca²⁺ (cation divalent).

Ci-après, la séquence et la position des acides aminés du 1er motif "EF-hand" qui fixe le Ca²⁺de la calmoduline de Homo sapiens (exemple : CAA36839) :
FD₂₁KD₂₃GD₂₅G ... KE₃₂L ... VD₅₇AD₅₉D ... GN₆₄G ... PE₇₁F

Retrouve-t-on le motif PROSITE ci-dessus ?

La séquence FD₂₁KD₂₃GD₂₅G ... KE₃₂ répond à l'expression régulière du motif PROSITE.

Visualisation de la calmoduline de l'homme (non complexée au calcium) à une résolution de 1,7 Å

Code PDB : 1CLL

Coordination et acides aminés du motif "EF - hand" EF1 :

X = D₂₁; Y = D₂₃; Z = D₂₅; -X = H₂O; -Y = T₂₇; -Z₁ = E3; -Z₂ = E₃₂

3. Aller à ScanProsite.

Rechercher avec l'option adaptée le motif consensus de fixation du calcium (motif "EF-hand") en utilisant l'expression régulière [DN]-x-D-G-[DN]-G-[TYQ]-x(4)-E.

Analyser les résultats (exemples : "polymerase processivity factor component A20", "Calcium-binding allergen Bet v3", "Calbindin", ...).

Quelles informations tire-t-on ?

Il existe un très grand nombre de protéines qui fixent le calcium.
Ces protéines sont impliquées dans des processus biologiques très divers.
Elles ont cependant des séquences en acides aminés caractérisées par la conservation de motifs consensus identiques de fixation du Ca²⁺.

Repérer le résultat P84074.

De quelle protéine s'agit-il ?
Combien de fois le motif recherché est-il présent ?
Pourquoi trouve-t-on ce motif ?

Hippocalcine ("Neuron-specific calcium-binding protein hippocalcin") de l'homme.
Le motif est trouvé 1 fois.
Cette protéine fixe le calcium.

4. Consulter le fichier PROSITE du motif "EF-hand" : PS00018

Récupérer le motif complet (attention au retour à la ligne / le point final n'en fait pas partie).

Motif complet :
D-{W}-[DNS]-{ILVFYW}-[DENSTG]-[DNQGHRK]-{GP}-[LIVMC]-[DENQSTAGC]-x(2)-[DE]-[LIVMFYW]

Effectuer une recherche ScanProsite avec ce motif (choisir l'option 2).

Fenêtre "STEP2 - Select a PROTEIN sequence database" :

Cocher la case "Exclude fragments (concerns UniProtKB only)".
Ouvrir le menu "Filters" et limiter la recherche "On taxonomy" à "Homo sapiens".

Limiter le nombre de résultats à 1000 (option "Maximum number of displayed matches").

Pourquoi le résultat est-il étonnant ?

Le motif est très long : le nombre de séquences qui y répondent est très grand.

En conséquence, des protéines ou enzymes qui ne fixent pas le calcium ont malgré tout une partie de leur séquence qui correspondent à ce motif PROSITE.

C. Etude du récepteur de l'insuline

a. Aller au NCBI. Effectuer une recherche de récepteur de l'insuline de l'homme.

Quels mots-clés est-il judicieux d'employer ?

Pourquoi obtient-on autant de résultats ?

Exemple : (insulin receptor[Protein Name]) AND Homo sapiens[Organism]

On obtient beaucoup de fichiers correspondant :

à une séquence incomplète ("partial")
à des molécules en relation avec le récepteur de l'insuline

Avec les fonctionalités de "Advanced", récupérer le sous-ensemble de fichiers qui ne contiennent pas le mot "partial".

Combien de fichier(s) obtient-on ?

Le fichier AAA59452 est intéressant.

Cependant il n'est pas dans les résultats. Pourquoi ?
Elimine-t-on ce fichier avec le filtre précédent ?

Réfléchir à la requête la plus exacte (si il y en a une) pour n'obtenir que des fichiers de séquences complètes du récepteur de l'insuline de l'homme.

5 fichiers sont renvoyés.

Le fichier AAA59452 contient le mot "Partial" (P majuscule) donc il est éliminé.
Filtrer avec ce mot est efficace mais il est difficile de gérer la casse (majuscule / minuscule).

Il n'y a pas de requête évidente à moins de consulter un grand nombre fichiers GenPept pour noter les mots à ne pas utiliser dans le filtre pour éviter d'éliminer des fichiers intéressants.

b. Récupérer la séquence FASTA du fichier AAA59452 et effectuer une recherche de séquences homologues avec BLAST.

Dans la page de résultats, ouvrir l'onglet "Graphic Summary".
Il apparaît une figure avec l'entête "Putative conserved domains have been detected, click on the image below for detailed results" : cliquer sur la figure.

Une nouvelle page s'ouvre. Comparer cette figure à celle du cours sur le récepteur de l'insuline.

Ce récepteur est constituée d'un grand nombre de domaines.

Un domaine est une région de la chaîne polypeptidique :

apte à se replier indépendamment
qui possède une fonction propre

Cliquer sur le signe "+" de la fenêtre "List of domain hits" : on obtient la séquence des différents domaines.
Dans quel domaine trouve-t-on la séquence "LGQGSFGMVY" ?
De quel domaine du récepteur s'agit-il ?

Le domaine PTKc_InsR.

Domaine catalytique à activité protéine tyrosine kinase.

Dans la figure du haut de la page, cliquer sur l'un quelconque des triangles oranges de la ligne intitulée "ATP binding site".

A quel domaine du récepteur de l'insuline appartient ce site ?
Quel est le rôle de la fixation de l'ATP ?
Retrouve-t-on la séquence "LGQGSFGMVY" dans l'alignement des séquences de récepteurs en bas de la page ?

"Catalytic domain of the Protein Tyrosine Kinase, Insulin Receptor"

"PTKs catalyze the transfer of the gamma-phosphoryl group from ATP to tyrosine (tyr) residues in protein substrates"

Oui, dans la partie N-terminale des séquences.

D. Interférence ARN

Voir le cours sur l'interférence ARN.

L'introduction d'ADN double brin ("double-strand DNA" - dsRNA) de plus de 30 nucléotides dans des cellules de mammifères induit la réponse interféron (activation de la protéine kinase R ("interferon-induced, double-stranded RNA-activated protein kinase") et de la 2',5'-oligoadénylate synthétase). Cette réponse entraîne la dégradation non spécifique des ARN messagers et une diminution du taux de traduction.

La conception de siRNA ("design" / "screening") nécessite que les ARN synthétisés contiennent moins de 30 nucléotides. Les siRNA avec un débordement en 3’ constitué du dinucléotide UU sont les plus puissants.

Synthese siRNA RNA interferent miRNA

Les règles de conception d’un siRNA à partir d’une séquence d’ARM messager sont :

siRNA targeted sequence is usually 21 nt in length.
Avoid regions within 50-100 bp of the start codon (ATG) and the termination codon. Targets should be located 50-100 nt downstream of the start codon.
Search for sequence motif AA(N19)TT or NA(N21), or NAR(N17)YNN, where : A = Adenine; T = Thymine; N = any nucleotide; R = purine (A, G); Y = pyrimidine (T, C, U).
Target sequences should have a [G+C] content between 30-60%.
Avoid stretches of 4 or more nucleotide repeats such as AAAA, CCCC.
Avoid intron regions, repeats and low complex sequences, single nucleotide polymorphism (SNP) sites.
Avoid 5'UTR and 3'UTR, although siRNAs targeting UTRs have been shown to successfully induce gene silencing.
Avoid sequences that share a certain degree of homology with other related or unrelated genes : perform BLAST homology search to avoid off-target effects on other genes or sequences.
Always design negative controls by scrambling targeted siRNA sequence. The control RNA should have the same length and nucleotide composition as the siRNA but have at least 4-5 bases mismatched to the siRNA. Make sure the scrambling will not create new homology to other genes.

EMBOSS Seqret : logiciel de conversion de formats de fichiers.

Trouver la séquence d’un siRNA dans la séquence de l’ARN messager (GenBank NM_003380) codant la vimentine de l’homme :

Uniprot : Homo sapiens vimentin mRNA

>NM_003380.3 Homo sapiens vimentin mRNA
CCCCGCGCCAGAGACGCAGCCGCGCTCCCACCACCCACACCCACCGCGCCCTCGTTCGCC
TCTTCTCCGGGAGCCAGTCCGCGCCACCGCCGCCGCCCAGGCCATCGCCACCCTCCGCAG
CCATGTCCACCAGGTCCGTGTCCTCGTCCTCCTACCGCAGGATGTTCGGCGGCCCGGGCA
CCGCGAGCCGGCCGAGCTCCAGCCGGAGCTACGTGACTACGTCCACCCGCACCTACAGCC
TGGGCAGCGCGCTGCGCCCCAGCACCAGCCGCAGCCTCTACGCCTCGTCCCCGGGCGGCG
TGTATGCCACGCGCTCCTCTGCCGTGCGCCTGCGGAGCAGCGTGCCCGGGGTGCGGCTCC
TGCAGGACTCGGTGGACTTCTCGCTGGCCGACGCCATCAACACCGAGTTCAAGAACACCC
GCACCAACGAGAAGGTGGAGCTGCAGGAGCTGAATGACCGCTTCGCCAACTACATCGACA
AGGTGCGCTTCCTGGAGCAGCAGAATAAGATCCTGCTGGCCGAGCTCGAGCAGCTCAAGG
GCCAAGGCAAGTCGCGCCTGGGGGACCTCTACGAGGAGGAGATGCGGGAGCTGCGCCGGC
AGGTGGACCAGCTAACCAACGACAAAGCCCGCGTCGAGGTGGAGCGCGACAACCTGGCCG

Il faut trouver une séquence de 21 nucléotides dans l’ARNm cible qui commence par un dinucléotide AA.

On cherche le codon d'initiation de la transcription (AUG) : toutes séquences commençant par AA (et les 19 nucléotides suivants) constituent un site cible potentiel pour les siRNA.

Vimentine RNA interferent siRNA miRNA

Résultat pour la vimentine
séquence ciblée - ADNc ("targeted region")	5' AACTACATCGACAAGGTGCGCTT
siRNA sens	5' CUACAUCGACAAGGUGCGCdTdT
siRNA antisens	5' GCGCACCUUGUCGAUGUAGdTdT

Autres exemples
Lamine A/C SC : 5'AACTGGACTTCCAGAAGAACATC sens : 5'CUGGACUUCCAGAAGAACAdTdT antisens : 5'UGUUCUUCUGGAAGUCCAGdTdT	Lamine B1 SC : 5'AACGCGCTTGGTAGAGGTGGATT sens : 5'CGCGCUUGGUAGAGGUGGAdTdT antisens : 5'UCCACCUCUACCAAGCGCGdTdT	GL2 Luciferase SC : 5'AACGTACGCGGAATACTTCGATT sens : 5'CGUACGCGGAAUACUUCGAdTdT antisens : 5'UCGAAGUAUUCCGCGUACGdTdT
Source : Elbashir et al. (2001)

Exemples de programmes

IDT - "Custom Dicer-Substrate siRNA (DsiRNA)"

Entrer le nom de la séquence.
Coller la séquence cible.
Puis cliquer sur "Calculate".
Voir les différentes positions des siRNA sens trouvés.

siDirect

Entrer la séquence au format
Ouvrir les options : cocher les cases des options désirées, notamment le "GC content"