LEA late embryogenesis abundant protein analyse motif pattern sequence Module bioinformatique Enseignement et recherche Biochimie - Universite Angers Emmanuel Jaspard biochimej

Etude des protéines LEA ("Late Embryogenesis Abundant Proteins" - LEAP)

1. Mise en évidence d'un motif

2. Affinement du motif

3. Illustration du principe de la recherche de similarité locale avec BLAST

4. Recherche de protéines possédant le(s) motif(s)

a. Compléments sur PSI-BLAST

b. Profil ou matrice PSSM

5. PHI-BLAST

6. Recherche de motifs répétés

7. Caractéristiques structurales des LEA

8. Recherche du maximum de séquences de LEA

9. Liens Internet et références bibliographiques

"ExPASy Proteomics tools" : Ensemble d'applications pour l'analyse de séquences peptidiques.

"Sequence Manipulation Suite" : Ensemble d'applications Java pour l'analyse de séquences d'ADN et de protéines.

1. Mise en évidence d'un motif

a. Chercher un programme de traduction de séquences nucléotidiques.

b. Obtenez la traduction sur les 6 phases de la séquence nucléotidique de la protéine 1 / (ou Fichier format .rtf)

c. Motifs à repérer : SSSEDD et/ou KIKEKL. Récupérer le fichier FASTA de la protéine qui vous semble le plus logiquement correspondre à la séquence de la protéine 1.

2a. Affinement du motif

a. Effectuer le même travail avec les séquences nucléotidiques suivantes. [Remarque : les séquences protéiques issues de la traduction sont inclues dans ce fichier].

b. Avec un programme d'alignement multiple, aligner les séquences protéiques traduites afin de mettre en évidence un ou des motifs communs à ces séquences de protéines.

Tester l'un des programmes : Clustal Omega / Muscle / T-coffee / MAFFT.

Remarque 1 : pour la recherche de motifs conservées vs. des régions peu ou pas conservées, l'échantillon de séquences peptidiques sélectionnées doit contenir des séquences proches entre elles (convergentes) et des séquences éloignées (divergentes) et, bien sûr la ou les séquences requêtes.
Remarque 2 : le "meilleur alignement" nécessite d'effectuer plusieurs alignements en modifiant le type de matrice choisie et/ou la valeur de pénalité des différents types de "gaps".

c. Récupérez les séquences FASTA de : CAJ56060, AAD02258, CAA33364, CAJ56055, CAA68765, AAB05927, AAN08718, BAD13498, BAD86644.

Alignez les avec le séquences traduites et le programme MULTALIN. Que peut-on conclure ?

2b. Affinement du motif - suite

a. Aller à "InterPro" et soumettre la séquence FASTA du fichier N° accession AAD02258.

Résultat : en principe pluseurs graphiques sont obtenus. Cliquer sur chacun des liens "PS00823" et "PS00315" à droite du graphique du milieu "IPR030513 / Dehydrin, conserved site".

Enregistrer l'expression régulière du motif signature ("pattern motif").

Pattern motif N° PS00315
Description : Dehydrins signature 1
Pattern : S(4)-[SD]-[DE]-x-[DE]-[GVE]-x(1,7)-[GE]-x(0,2)-[KR](4)

Pattern motif N° PS00823
Description : Dehydrins signature 2
Pattern : [KR]-[LIM]-K-[DE]-K-[LIM]-P-G

Voir le fichier "aide"

3. Illustration du principe de la recherche de similarité locale avec BLAST

Effectuer une recherche de similarité locale avec BLAST à partir de :

a. La séquence intitulée "Traduction 53 frame 2 Rice rab21". Cette séquence est la traduction sur une phase de lecture de la séquence nucléotidique de "Rice rab21 gene for water-stress inducible protein RAB21" (accession : Y00842.1).
b. La séquence intitulée "Concatenation Aegilops umbellulata dehydrin 1". Cette séquence n'est autre que la concaténation des séquences issues de la traduction d'une même séquence nucléotidique (Aegilops umbellulata mRNA for dehydrin 1) sur les 6 phases.

Les résultats sont-ils si étonnants vu le principe de BLAST ?

4. Recherche de protéines possédant le(s) motif(s) : PSI-BLAST

En incluant dans la recherche les séquences des protéines "proches" de la séquence requête, la recherche avec PSI-BLAST ("Position Specific Iterated BLAST") est beaucoup plus sensible que celle avec BLAST pour trouver des "parents lointains" de la séquence requête.

Une recherche initiale "standard" est effectuée avec BLAST contre une base de données en utilisant une matrice de substitution.

Tous les alignements locaux significatifs obtenus permettent de construire :
1. un premier alignement multiple
2. un "profil" (en anglais : "profile") qui traduit les fréquences observées des acides aminés.
3. le profil est construit automatiquement à partir de l'alignement multiple qui a le plus haut score ("hits") : positions trés conservées = scores élevés / positions faiblement conservées = scores faibles.
4. le profil est aussi appelé matrice PSSM ("Position Specific Scoring Matrice" - voir ci-dessous).

La matrice PSSM (ou profil) remplace la matrice initiale. Une 2ème recherche avec BLAST est alors effectuée avec ce profil : un groupe plus large de séquences est obtenu.

De nouveaux alignements multiples locaux sont générés et ces alignements sont utilisés pour construire un nouveau profil.

Le processus est répété un nombre arbitraire de fois ou jusqu'à convergence (il n'y a plus de séquences ajoutées).

Le programme PSI-BLAST est aussi utilisé pour les séquences nucléotidiques.

Faire une recherche avec PSI-BLAST ("Position-Specific Iterated BLAST") avec la séquence requête P22239. Quelle est cette protéine ?

Effectuer 2 itérations et commenter l'évolution des résultats.

Remarque : le paramètre "Inclusion threshold" = 0.005 par défaut.

Voir le fichier "aide"

Récupérer les séquences les plus similaires du résultat de PSI-BLAST.

Aller à MULTALIN. Effectuer plusieurs alignements en modifiant le choix de la matrice et les valeurs des gaps.

Un ou des motifs conservés sont-ils mis en évidence ?
Récupérer la séquence ADT65201. Comparer les séquences P22239 et ADT65201 avec MULTALIN.
Ecrire le ou les motif(s) les plus longs et les moins dégénérés.

Aller à LEAPdb ("Late Embryogenesis Abundant Proteins Database" - base de données dédiée aux protéines de la famille "LEA") et effectuer un BLAST avec la séquence ADT65201.

Cette séquence est-elle dans la base de données ?
A quelle classe de protéines LEA appartient-elle ?
La recherche PSI-BLAST est-elle intéressante pour enrichir la base de données LEAPdb ?

a. Compléments sur PSI-BLAST

C'est un programme adapté à :

à la recherche de similarité fine entre séquences protéiques
la détection de membres éloignés d'une famille de protéines
l'étude de la fonction de protéines inconnues

PSI-BLAST est le programme dérivé de BLAST le plus sensible ce qui en fait un excellent outil pour trouver des protéines trés distantes.

En effet, PSI-BLAST construit un profil à partir de l'alignement multiple des séquences qui a obtenu le meilleur score avec la séquence requête. Ce profil est comparé à la banque interrogée et est affiné au fur et à mesure des itérations. Ainsi, la sensibilité du programme est augmentée.
Un profil est un tableau des fréquences observées des acides aminés (ou nucléotides) à chaque position dans un alignement multiple (voir ci-dessous : matrice PSSM et application à PSI-BLAST).

Exemple (très simple) d'alignement multiple de 2 séquences de 4 acides aminés :

DWKD
DWNG

Le profil correspondant (en probabilités) :

      1      2      3      4
D    1.0    0.0    0.0    0.5
G    0.0    0.0    0.0    0.5
K    0.0    0.0    0.5    0.0
N    0.0    0.0    0.5    0.0
W    0.0    1.0    0.0    0.0

Ce qui ce signifie :

probabilité de trouver D en position 1 = 1.0 (un D en première position de chaque séquence)
probabilité de trouver G en position 1 = 0.0 (aucun G en première position)
etc ...

L'utilisation d'un profil permet une recherche beaucoup plus sensible de séquences homologues éloignées que l'utilisation d'une séquence seule car le profil correspond à une information sur la variabilité des différentes positions parmi les protéines connues. En contrepartie un profil est moins spécifique qu'une simple séquence seule.

Si on utilise PSI-BLAST sur un sous ensemble particulier de séquences, il est probable que l'on ne trouve pas tous les homologues, surtout si leur séquence est peu conservée par rapport à la séquence requête.

Pour améliorer la sensibilité de détection des homologues, il est préférable d'effectuer un alignement avec PSI-BLAST sur une banque de séquences plus grande.

Mais la sensibilité est diminuée si la banque de données est trop grande puisque la fréquence d'observation d'un score particulier (la "E-value") augmente avec la taille de la banque de données. Or, pour un alignement de 2 séquences, plus le score est petit, plus la probabilité que ces 2 séquences soient homologues est grande.

Il est donc préférable de chercher d'abord dans une banque "nettoyée" ("curated") comme la base de données non-redondante "nr" où toutes les séquences identiques ont été éliminées sauf un exemplaire.

Si plusieurs séquences sont dans cette banque, on peut calculer un profil et l'utiliser pour effectuer une nouvelle recherche dans ce sous ensemble. On augmente ainsi la sensibilité de la recherche d'homologues.

la sensibilité est l'aptitude d'un algorithme à détecter toutes les similarités considérées comme significatives et donc à générer le minimum de faux-négatifs.
la sélectivité est l'aptitude d'un algorithme à ne sélectionner que des similarités considérées comme significatives et donc à générer le minimum de faux-positifs.

Les programmes des familles Fasta et BLAST sont des heuristiques qui réduisent le facteur temps en "sacrifiant" un peu de sensibilité.

L'un et l'autre simplifient le problème :

en pré-sélectionnant les séquences de la banque susceptibles de présenter une similarité significative avec la séquence requête
et en localisant les régions potentiellement similaires dans les séquences

Ces étapes sélectives permettent :

de n'appliquer les méthodes de comparaison, coûteuses en temps, qu'à un sous-ensemble des séquences de la banque
de restreindre le calcul de l'alignement optimal à des parties des séquences

Cette logique de recherche plus rapide dans son exécution, comporte donc le risque d'éliminer des séquences qui ont une similarité plus difficile à détecter ou d'aboutir à des alignements sub-optimaux.

b. Profil ou "Position Specific Scoring Matrice" (PSSM)

Sa construction est basée sur la fréquence de chaque résidu d'acide aminé à une position spécifique dans un alignement multiple.

Profils et Position Specific Scoring Matrice PSSM biochimej

Colonne 1 : fréquence (A, 1) = 0/5 = 0 ; fréquence (G, 1) = 5/5 = 1 ; ...
Colonne 2 : fréquence (A, 2) = 0/5 = 0 ; fréquence (H, 2) = 5/5 = 1 ; ...
...
Colonne 15 : fréquence (A, 15) = 2/5 = 0,4 ; fréquence (C, 15) = 1/5 = 0,2 ; ...

Certaines fréquences sont égales à 0. Une telle fréquence pourrait entraîner une "exclusion" de l'acide aminé concerné à cette position.

On contourne ce biais en ajoutant une "petite valeur" à toutes les fréquences observées. Cette faible "fréquence non-observée" s'appelle un "pseudo-count". En reprenant l'exemple précédent avec un "pseudo-count" de 1 :

Colonne 1 : f' (A, 1) = (0+1)/(5+20) = 0,04 ; f' (G, 1) = (5+1)/(5+20) = 0,24 ; ...
Colonne 2 : f' (A, 2) = (0+1)/(5+20) = 0,04 ; f' (H, 2) = (5+1)/(5+20) = 0,24 ; ...
...
Colonne 15 : f' (A, 15) = (2+1)/(5+20) = 0,12 ; f' (C, 15) = (1+1)/(5+20) = 0,08 ; ...

La fréquence de chaque acide aminé déterminée à chaque position est comparée à la fréquence à laquelle chaque acide aminé est attendu dans une séquence au hasard avec l'hypothèse que chaque acide aminé est observé avec une fréquence identique dans une séquence au hasard.

Le score est calculé à partir du logarithme du rapport (fréquences observées) / (fréquences attendues) : score_ij = log (f'_ij / q_i)

score_ij est le score pour le résidu i à la position j
f'_ij est la fréquence relative pour le résidu i à la position j, corrigée par les "pseudo-count"
q_i est la fréquence relative attendue pour le résidu i dans une séquence au hasard

Ci-dessous : la matrice PSSM "Position Specific Scoring Matrice" complète calculée à partir de l'exemple précédent.

Position Specific Scoring Matrice PSSM biochimej

La matrice PSSM est ensuite appliquée à la séquence requête en utilisant une "fenêtre glissante".

Construction matrice PSSM biochimej

A chaque position, un score PSSM est calculé en sommant les scores de toutes les colonnes. Le plus haut score est retenu.

Position Specific Scoring Matrice PSSM biochimej

Source des figures : Pagni M. (2003) "An introduction to Patterns, Profiles, HMMs and PSI-BLAST" / SIB Course

Conclusion PSSM : à utiliser pour modéliser de courtes régions avec une forte variabilité mais de longueurs constantes.
Avantages	Inconvénients
Bonne méthode pour de courtes régions conservées. Approche statistique (basée sur la taille des banques) / interprétation des résultats sur la base d'une "e-value".	Insertions et délétions interdites avec les matrices PSSM . Sinon, il faut utiliser des "profils généralisés". Les séquences correspondant à de longues régions ne peuvent être décrites avec cette méthode.

Exemples d'outils	Exemples de bases de données
The MEME Suite : Motif-based sequence analysis tools InterProScan : outils de InterPro	Prosite : Database of protein domains, families and functional sites PRINTS : PSSM database Pfam : protein domain database SMART : protein domain database ProDom : protein domain database InterPRO : protein "signatures" database

5. PHI-BLAST ("Pattern Hit Initiated BLAST")

Ce programme prend en entrée une séquence requête protéique et un motif défini par une expression régulière.

PHI-BLAST est adapté à la recherche de séquences protéiques qui contiennent un motif spécifié par l'utilisateur (fenêtre "PHI pattern" de la section "Algorithm") ET sont similaires à la séquence requête (fenêtre "Search") dans le voisinage proche du motif.

La syntaxe du motif doit suivre la syntaxe de PROSITE.

Exemple : <A-x-[ST](2)-x(0,1)-{V}

Ala en position N-terminale
suivie par n'importe quel acide aminé
suivie par deux fois (Ser ou Thr)
suivie ou non par n'importe quel acide aminé
suivie par n'importe quel acide aminé sauf Val

Exemple 1 de syntaxe de motif : [KR]-[LIM]-K-[DE]-K-[LIM]-P-G

Exemple 2 de syntaxe de motif : S(4)-[SD]-[DE]-x-[DE]-[GVE]-x(1,7)-[GE]-x(0,2)-[KR](4)

Faire une recherche avec PHI-BLAST sur la base de un (ou deux) motifs communs à la famille de protéines étudiée.

Attention : vérifier la syntaxe des motifs que vous choisissez.

6. Recherche de motifs répétés

a. 1ère partie

Récupérer la séquence FASTA de "AAC05921" dans LEAPdb.

Aller à la base de données PROSITE ("Database of protein domains, families and functional sites").

Remarque : l'EBI propose également un programme ("InterProScan sequence search").

1ère recherche : Aller à la base de données PROSITE. Coller la séquence dans la fenêtre "Quick Scan mode of ScanProsite" et lancer le "scan".

2eme recherche : Aller à la base de données ScanProsite tool. Choisir l'option 2 ("Submit MOTIFS"). Coller l'un ou l'autre des motifs suivants dans la fenêtre.
1. motif 1: [KR]-[LIM]-K-[DE]-K-[LIM]-P-G
2. motif 2: S(4)-[SD]-[DE]-x-[DE]-[GVE]-x(1,7)-[GE]-x(0,2)-[KR](4)

Voir les motifs des 12 classes de LEAP

Aller à la page du motif "PS00823".

Une déhydrine d'interêt pour l'équipe "Mitostress" de l'IRHS - Angers ne possède pas l'un des motifs. De quel végétal s'agit-il ?

Retrouver les séquences de déhydrines de ce végétal et aligner avec d'autres déhydrines spécifiques.
Quelles sont les différences ?

b. 2ème partie

"Découper" la séquence FASTA de "AAC05921" (413 acides aminés) en 4 séquences de longueur équivalente (environ 104 acides aminés).
Sauvegarder au format FASTA (outil de conversion de formats Seqret) chaque "quart" de séquence.
Aligner les 4 séquences "quarts" avec un logiciel comme "ClustalW" ou autre.
Si un alignement semble compatible avec la figure ci-dessous, repérez et écrivez un ou des motif(s) selon la syntaxe "PROSITE" et tester le.

Voir le fichier "Motifs répétés"

7. Caractéristiques structurales des LEA

Certaines LEA ont une caractéristique structurale.

Récupérer la séquence FASTA de "AAC05921" dans LEAPDB.

Aller à l'ancienne version de : "DisProt: Database of Disordered Proteins". Quel est le but de cette base de données ?

Remarque : voir la version récente de DisProt.

Choisir l'item "Disorder Predictors" (menu de gauche). Tester plusieurs programmes de prédiction de sructure, en particulier "Fold Index".

Que peut-on dire de la structure native de cette classe de LEA ? Réponse : elles sont nativement non structurées.
Existe-t-il des données cristallographiques pour une ou plusieurs LEA ? Rechercher dans la PDB.
Si oui, cela est-il compatible avec la nature intrinsèquement non structurée des LEA en général ?

8. Recherche de séquences de LEA

Aller au NCBI et taper "late embryogenesis abundant OR Lea OR dehydrin" en choisissant "Protein".

Examiner le résultat.

Elaborer un crible de plus en plus précis et exhaustif afin de réduire le nombre de résultats aux seules LEA. Pour celà s'inspirer du fichier : "1RequeteRemplirLEA".

9. Liens Internet et références bibliographiques

LEAPDB("Late Embryogenesis Abundant Proteins Database") DisProt: the Database of Disordered Proteins Prosite
Logiel d'alignement "Multalin" BLAST - NCBI
Seqret (EMBOSS) - biosequence conversion tool
Grelet et al. (2005) Tunnacliffe & Wise (2007) Battaglia et al. (2008) Hundertmark & HINCHA (2008) Tolleter et al. (2010) Hunault & Jaspard (2010)	Article Article Article Article Article Article