Etude des protéines LEA ("Late Embryogenesis Abundant proteins" - LEAP) Sommaire

1. Mise en évidence d'un motif

2. Affinement du motif

3. Illustration du principe de la recherche de similarité locale avec BLAST

4. Recherche de protéines possédant le(s) motif(s)

a. Compléments sur PSI-blast

b. Profils et matrice PSSM

 

5. PHI-blast

6. Recherche de motifs répétés

7. Caractéristiques structurales des LEA

8. Recherche d'informations bibliographiques liées au motif et à la famille de protéines étudiée

9. Recherche du maximum de séquences de LEA

10. Liens Internet et références bibliographiques

 

"ExPASy Proteomics tools" : Ensemble d'applications pour l'analyse de séquences peptidiques.

"Sequence Manipulation Suite" : Ensemble d'applications Java pour l'analyse de séquences d'ADN et de protéines.

1. Mise en évidence d'un motif

a. Chercher un programme de traduction de séquences nucléotidiques.

b. Obtenez la traduction sur les 6 phases de la séquence nucléotidique de la protéine 1 / (ou Fichier format .rtf)

f. Motifs à repérer : SSSEDD et/ou KIKEKL. Récupérer le fichier FASTA de la protéine qui vous semble le plus logiquement correspondre à la séquence de la protéine 1.

2a. Affinement du motif

a. Effectuer le même travail avec les séquences nucléotidiques suivantes. [Remarque : les séquences protéiques issues de la traduction sont inclues dans ce fichier].

b. Avec un programme d'alignement multiple, aligner les séquences protéiques traduites afin de mettre en évidence un ou des motifs communs à ces séquences de protéines.

Tester l'un des programmes : Clustal Omega / Muscle / T-coffee / MAFFT.

  • Remarque 1 : pour la recherche de motifs conservées vs. des régions peu ou pas conservées, l'échantillon de séquences peptidiques sélectionnées doit contenir des séquences proches entre elles (convergentes) et des séquences éloignées (divergentes) et, bien sûr la ou les séquences requêtes.
  • Remarque 2 : le "meilleur alignement" nécessite d'effectuer plusieurs alignements en modifiant le type de matrice choisie et/ou la valeur de pénalité des différents types de "gaps".

c. Récupérez les séquences FASTA de : CAJ56060, AAD02258, CAA33364, CAJ56055, CAA68765, AAB05927, AAN08718, BAD13498, BAD86644.

Alignez les avec le séquences traduites et le programme MULTALIN. Que peut-on conclure ?

2b. Affinement du motif - suite

a. Aller à "InterPro" et soumettre la séquence FASTA du fichier N° acession AAD02258.

Résultat : en principe pluseurs graphiques sont obtenus. Cliquer sur chacun des liens "PS00823" et "PS00315" à droite du graphique du milieu "S IPR030513 / Dehydrin, conserved site". Enregistrer l'expression régulière du motif signature ("pattern motif").

Pattern motif N° PS00315
Description : Dehydrins signature 1
Pattern : S(4)-[SD]-[DE]-x-[DE]-[GVE]-x(1,7)-[GE]-x(0,2)-[KR](4)

Pattern motif N° PS00823
Description : Dehydrins signature 2
Pattern : [KR]-[LIM]-K-[DE]-K-[LIM]-P-G

Voir le fichier "aide"

3. Illustration du principe de la recherche de similarité locale avec BLAST

Effectuer une recherche de similarité locale avec BLAST à partir de :

  • a. La séquence intitulée "Traduction 53 frame 2 Rice rab21". Cette séquence est la traduction sur une phase de lecture de la séquence nucléotidique de "Rice rab21 gene for water-stress inducible protein RAB21" (accession : Y00842.1).
  • b. La séquence intitulée "Concatenation Aegilops umbellulata dehydrin 1". Cette séquence n'est autre que la concaténation des séquences issues de la traduction d'une même séquence nucléotidique (Aegilops umbellulata mRNA for dehydrin 1) sur les 6 phases.

Les résultats sont-ils si étonnants vu le principe de BLAST ?

Haut page

 

4. Recherche de protéines possédant le(s) motif(s)

En incluant les séquences des protéines "proches" de la séquence requête dans la recherche, PSI-BLAST est beaucoup plus sensible qu'un BLAST "classique" pour trouver des "parents lointains" d'une séquence de protéine.

  • une liste des séquences des protéines "proches" de la séquence requête est créée.
  • ces séquences sont combinées sous la forme d'un "profil général" qui résume leurs principales caractéristiques.
  • une requête contre la base de données est alors effectuée en utilisant ce profil : un groupe plus large de séquences est obtenu.
  • ce groupe plus large est à son tour utilisé pour construire un nouveau profil et le processus est répété.

Démarche simplifiée de PSI-BLAST

  • Une recherche standard BLAST est effectuée contre une base de données en utilisant une matrice de substitution.
  • Une matrice PSSM est construite automatiquement à partir d'un alignement multiple des séquences ayant le plus haut score ("hits") dans cette première recherche BLAST.
    1. positions trés conservées : scores élevés
    2. positions faiblement conservées : scores faibles
  • La matrice PSSM remplace la matrice initiale et on effectue une 2ème recheche BLAST.
  • Les étapes 3 et 4 sont répétées et à chaque fois, les séquences nouvellement trouvées sont ajoutées afin de construire une nouvelle matrice PSSM.
  • On considère que le programme PSI-BLAST a convergé quand aucune nouvelle séquence n'est ajoutée.

Faire une recherche avec PSI-BLAST ("Position-Specific Iterated BLAST") avec la séquence requête P22239. Quelle est cette protéine ?

Effectuer 2 itérations et commenter l'évolution des résultats.

Remarque : le paramètre "Inclusion threshold" = 0.005 par défaut.

Voir le fichier "aide"

Récupérer les séquences les plus similaires du résultat PSI-BLAST.

Aller à MULTALIN.

Effectuer plusieurs alignements en modifiant le choix de la matrice et les valeurs des gaps.

  • Un ou des motifs conservés sont-ils mis en évidence ?
  • Récupérer la séquence ADT65201. Comparer les séquences P22239 et ADT65201 avec MULTALIN.
  • Ecrivez le ou les motif(s) les plus longs et les moins dégénérés.

Aller à LEAPdb ("Late Embryogenesis Abundant Proteins Database" - base de données dédiée aux protéines de la famille "LEA") et effectuer un BLAST avec la séquence ADT65201.

  • Cette séquence est-elle dans la base de données ?
  • A quelle classe de protéines LEA appartient-elle ?
  • La recherche PSI-BLAST est-elle intéressante pour enrichir la base de données LEAPdb ?

Haut page

 

a. Compléments sur PSI-Blast ("Position Specific Iterated Blast")

C'est un programme adapté à :

  • à la recherche de similarité fine entre séquences protéiques
  • la détection de membres éloignés d'une famille protéique
  • l'étude de la fonction de protéines inconnues

PSI-Blast est le programme BLAST le plus sensible ce qui en fait le meilleur outil pour trouver des protéines trés distantes.

  • En effet, PSI-BLAST construit un profil à partir de l'alignement multiple des séquences qui ont obtenu les meilleurs scores avec la séquence requête. Ce profil est comparé à la banque interrogée et est affiné au fur et à mesure des itérations. Ainsi, la sensibilité du programme est augmentée.
  • Un profil est un tableau des fréquences observées des acides aminés (ou nucléotides) à chaque position dans un alignement multiple (voir ci-dessous : matrice PSSM et application à PSI-BLAST).

Exemple (très simple) d'alignement multiple de 2 séquences de 4 acides aminés :

      DWKD
      DWNG

Le profil correspondant (en probabilités) :

      1      2      3      4
D    1.0    0.0    0.0    0.5
G    0.0    0.0    0.0    0.5
K    0.0    0.0    0.5    0.0
N    0.0    0.0    0.5    0.0
W    0.0    1.0    0.0    0.0

Ce qui ce signifie :

  • probabilité de trouver D en position 1 = 1.0 (un D en première position de chaque séquence)
  • probabilité de trouver G en position 1 = 0.0 (aucun G en première position)
  • etc ...

L'utilisation d'un profil permet une recherche beaucoup plus sensible de séquences homologues éloignées que l'utilisation d'une séquence seule car le profil correspond à une information sur la variabilité des différentes positions parmi les protéines connues. En contrepartie un profil est moins spécifique qu'une simple séquence seule.

Si on utilise PSI-BLAST sur un sous ensemble particulier de séquences, il est probable que l'on ne trouve pas tous les homologues, surtout si leur séquence est peu conservée par rapport à la séquence requête.

Pour améliorer la sensibilité de détection des homologues, il est préférable d'effectuer un alignement avec PSI-BLAST sur une banque de séquences plus grande.

Mais la sensibilité est diminuée si la banque de données est trop grande puisque la fréquence d'observation d'un score particulier (la "E-value") augmente avec la taille de la banque de données. Or, pour un alignement de 2 séquences, plus le score est petit, plus la probabilité que ces 2 séquences soient homologues est grande.

Il est donc préférable de chercher d'abord dans une banque "nettoyée" ("curated") comme la base de données non-redondante "nr" où toutes les séquences identiques ont été éliminées sauf un exemplaire.

Si plusieurs séquences sont dans cette banque, on peut calculer un profil et l'utiliser pour effectuer une nouvelle recherche dans ce sous ensemble. On augmente ainsi la sensibilité de la recherche d'homologues.

  • la sensibilité est l'aptitude d'un algorithme à détecter toutes les similarités considérées comme significatives et donc à générer le minimum de faux-négatifs.
  • la sélectivité est l'aptitude d'un algorithme à ne sélectionner que des similarités considérées comme significatives et donc à générer le minimum de faux-positifs.

Les programmes des familles Fasta et BLAST sont des heuristiques qui réduisent le facteur temps en "sacrifiant" un peu de sensibilité.

L'un et l'autre simplifient le problème :

  • en pré-sélectionnant les séquences de la banque susceptibles de présenter une similarité significative avec la séquence requête
  • et en localisant les régions potentiellement similaires dans les séquences
Ces étapes sélectives permettent :
  • de n'appliquer les méthodes de comparaison, coûteuses en temps, qu'à un sous-ensemble des séquences de la banque
  • de restreindre le calcul de l'alignement optimal à des parties des séquences
Cette logique de recherche plus rapide dans son exécution, comporte donc le risque d'éliminer des séquences qui ont une similarité plus difficile à détecter ou d'aboutir à des alignements sub-optimaux.

b. Profils et "Position Specific Scoring Matrice" (PSSM)

Sa construction est basée sur la fréquence de chaque résidu d'acide aminé à une position spécifique d'un alignement multiple.

Profils et Position Specific Scoring Matrice PSSM)

  • Colonne 1 : fréquence (A, 1) = 0/5 = 0 ; fréquence (G, 1) = 5/5 = 1 ; ...
  • Colonne 2 : fréquence (A, 2) = 0/5 = 0 ; fréquence (H, 2) = 5/5 = 1 ; ...
  • ...
  • Colonne 15 : fréquence (A, 15) = 2/5 = 0,4 ; fréquence (C, 15) = 1/5 = 0,2 ; ...

Certaines fréquences sont égales à 0 du fait du nombre de séquence dans l'alignement multiple. Une telle fréquence pourrait entraîner une "exclusion" de l'acide aminé concerné à cette position.

On contourne ce biais en ajoutant une "petite valeur" à toutes les fréquences observées. Cette faible "fréquence non-observée" s'appelle un "pseudo-count". En reprenant l'exemple précédent avec un "pseudo-count" de 1 :

  • Colonne 1 : f' (A, 1) = (0+1)/(5+20) = 0,04 ; f' (G, 1) = (5+1)/(5+20) = 0,24 ; ...
  • Colonne 2 : f' (A, 2) = (0+1)/(5+20) = 0,04 ; f' (H, 2) = (5+1)/(5+20) = 0,24 ; ...
  • ...
  • Colonne 15 : f' (A, 15) = (2+1)/(5+20) = 0,12 ; f' (C, 15) = (1+1)/(5+20) = 0,08 ; ...

La fréquence de chaque acide aminé déterminée à chaque position est comparée à la fréquence à laquelle chaque acide aminé est attendu dans une séquence au hasard avec l'hypothèse que chaque acide aminé est observé avec une fréquence identique dans une séquence au hasard.

Le score est calculé à partir du logarithme du rapport (fréquences observées) / (fréquences attendues) : scoreij = log (f'ij / qi)

  • scoreij est le score pour le résidu i à la position j
  • f'ij est la fréquence relative pour le résidu i à la position j, corrigée par les "pseudo-count"
  • qi est la fréquence relative attendue pour le résidu i dans une séquence au hasard
Ci-contre : la matrice PSSM "Position Specific Scoring Matrice" complète calculée à partir de l'exemple précédent.

Position Specific Scoring Matrice

La matrice PSSM est ensuite appliquée à la séquence requête en utilisant une "fenêtre glissante".

A chaque position, un score PSSM est ca lculé en sommant les scores de toutes les colonnes. Le plus haut score est retenu.

Construction matrice PSSM

Position Specific Scoring Matrice PSSM

Position Specific Scoring Matrice PSSM

Source figures : Pagni M. (2003) "An introduction to Patterns, Profiles, HMMs and PSI-BLAST" / SIB Course
Conclusion PSSM : à utiliser pour modéliser de courtes régions avec une forte variabilité mais de longueurs constantes.
Avantages Inconvénients
  • Bonne méthode pour de courtes régions conservées.
  • Approche statistique (basée sur la taille des banques) / interprétation des résultats sur la base d'une "e-value".
  • Insertions et délétions interdites avec les matrices PSSm . Sinon, il faut utiliser des "profils généralisés".
  • Les séquences correspondant à de longues regions ne peuvent être décrites avec cette méthode.

Exemples d'outils Exemples de bases de données
  • Prosite : Database of protein domains, families and functional sites
  • PRINTS : PSSM database
  • Pfam : protein domain database
  • SMART : protein domain database
  • ProDom : protein domain database
  • InterPRO : protein "signatures" database

Retour haut de page

 

5. PHI-Blast ("Pattern Hit Initiated BLAST")

Ce programme prend en entrée une séquence requête protéique et un motif défini par une expression régulière.

PHI-Blast est adapté à la recherche de séquences protéiques qui contiennent un motif spécifié par l'utilisateur (fenêtre "PHI pattern" de la section "Algorithm") ET sont similaires à la séquence requête (fenêtre "Search") dans le voisinage proche du motif.

La syntaxe du motif doit suivre la syntaxe de PROSITE.

Exemple : <A-x-[ST](2)-x(0,1)-{V}

  • Ala en position N-terminale
  • suivie par n'importe quel acide aminé
  • suivie par deux fois (Ser ou Thr)
  • suivie ou non par n'importe quel acide aminé
  • suivie par n'importe quel acide aminé sauf Val

Exemple 1 de syntaxe de motif : [KR]-[LIM]-K-[DE]-K-[LIM]-P-G

Exemple 2 de syntaxe de motif : S(4)-[SD]-[DE]-x-[DE]-[GVE]-x(1,7)-[GE]-x(0,2)-[KR](4)

Faire une recherche avec PHI-Blast sur la base de un (ou deux) motifs communs à la famille de protéines étudiée.

Attention : vérifier la syntaxe des motifs que vous choisissez.

6. Recherche de motifs répétés

a. 1ère partie

Récupérer la séquence FASTA de "AAC05921" dans LEAPdb.

Aller à la base de données Prosite ("Database of protein domains, families and functional sites").

Remarque : l'EBI propose également une interface ("PPSearch - Protein motifs Search").

  • 1ère recherche : Aller à la base de données Prosite ("Database of protein domains, families and functional sites"). Coller la séquence dans la fenêtre "Quick Scan mode of ScanProsite" et lancer le "scan".
  • 2eme recherche : Aller à la base de données ScanProsite tool. Choisir l'option 2. Coller l'un ou l'autre des motifs suivants dans la fenêtre.
    1. motif 1: [KR]-[LIM]-K-[DE]-K-[LIM]-P-G
    2. motif 2: S(4)-[SD]-[DE]-x-[DE]-[GVE]-x(1,7)-[GE]-x(0,2)-[KR](4)

Voir les motifs des 12 classes de LEAP

Aller à la page du motif "PS00823".

Une déhydrine d'interêt fondamental pour l'équipe "Mitostress" de l'IRHS - Angers ne possède pas l'un des motifs. De quel végétal s'agit-il ?

Retrouver les séquences de déhydrines de ce végétal et aligner avec d'autres déhydrines spécifiques.

Quelles sont les différences ?

b. 2ème partie

"Découper" la séquence FASTA de "AAC05921" (413 acides aminés) en 4 séquences de longueur équivalente (environ 104 acides aminés).

Sauvegarder au format FASTA (outil de conversion de formats Seqret) chaque "quart" de séquence.

Aligner les 4 séquences "quarts" avec un logiciel comme "ClustalW" ou autre.

Si un alignement semble compatible avec la figure ci-contre, repérez et écrivez un ou des motif(s) selon la syntaxe "Prosite" et tester le.

Motifs conserves LEA

Voir le fichier "Motifs répétés"

Retour haut de page

 

7. Caractéristiques structurales des LEA

Les LEA ont une caractéristique structurale.

Récupérer la séquence FASTA de "AAC05921" dans LEAPDB.

Aller à : "DisProt: the Database of Disordered Proteins". Quel est le but de cette base de données ?

Choisir l'item "Disorder Predictors" (menu de gauche). Tester plusieurs programmes de prédiction de sructure, en particulier "Fold Index".

  • Que peut-on dire de la structure native des LEA ? Réponse : elles sont nativement non structurées.
  • Existe-t-il des données cristallographiques pour les LEA ?
  • Si oui, cela est-il compatible avec la principale caractéristique structurale des LEA ?
  • Dés lors y a-t-il eu révision de la classification des protéines cristalisées initialement classifiées LEA et par qui ?

8. Recherche d'informations bibliographiques liées au motif et à la famille de protéines étudiée

Faites une recherche bibliographique sur le rôle physiologique de ce ou ces motifs.

  • Quelles protéines et/ou familles de protéines caractérise-t-il ?
  • Chez quels organismes ?
  • Dans quels processus biologiques ces protéines sont-elles impliquées ?
  • Comment sont "classées" les LEA ? Combien de groupes de LEA y a-t-il et qui a proposé ces groupes ?
  • Cette classification a été revue en 2007 : par qui et combien de groupes ont été proposés ?
  • A quel groupe appartiennent les déhydrines ?
  • Sur la base de motifs répétés, les déhydrines ont été classées par T.J. Close (1997) en sous-groupes : quels sont les architectures de ces déhydrines par sous-groupe ?

9. Recherche du maximum de séquences de LEA

Aller au NCBI et taper "late embryogenesis abundant OR Lea OR dehydrin" en choisissant "Protein".

Examiner le résultat.

Elaborer un crible de plus en plus précis et exhaustif afin de réduire le nombre de résultats aux seules LEA. Pour celà s'inspirer du fichier : "1RequeteRemplirLEA".

 

10. Liens Internet et références bibliographiques

LEAPDB ("Late Embryogenesis Abundant Proteins Database")

DisProt: the Database of Disordered Proteins

Prosite

Logiel d'alignement "Multalin"

BLAST - NCBI

Seqret (EMBOSS) - biosequence conversion tool

Grelet et al. (2005)
Tunnacliffe & Wise (2007)
Battaglia et al. (2008)
Hundertmark & HINCHA (2008)
Tolleter et al. (2010)
Hunault & Jaspard (2010)

Article
Article
Article
Article
Article
Article

 

Valid XHTML 1.0 Transitional         Flux RSS Retour haut de page