Programmation dynamique et phylogénie (globines, insuline et peroxydases de classe III)

 

Déroulé de la séance de TD

  • Partie I - algorithme de Needleman & Wunsch : ≈ 50 min
  • Partie II :
    • Exercice 1 - phylogénie globines : ≈ 1h
    • Pause ≈ 15 min
    • Exercice 2 - phylogénie insulines : ≈ 40 min
    • Exercice 3 - phylogénie peroxydases : ≈ 45 min
  • Contrôle continu (par binôme) en fin de séance : 30 min

Voir les documents de cours et les documents pour le TD sur l'espace Moodle.


Partie I : algorithme de Needleman & Wunsch

Principe

a. On construit un tableau ou matrice de la manière suivante :

Lignes i

  • La 1ère ligne correspond au gap "-".
  • Puis une ligne pour chaque caractère de l'une des deux séquences à comparer, de longueur n.

Colonnes j

  • La 1ère colonne correspond au gap "-".
  • Puis une colonne pour chaque caractère de l'autre séquence à comparer, de longueur m.

La case de "départ" (en haut à gauche de la matrice) est la case (i = 0, j = 0).

La case "d'arrivée" ("en bas à droite de la matrice) est la case (i = n, j = m).

ligne i / colonne j - (gap) A T
- (gap) score (i = 0, j = 0)    
A   score (i = 1, j = 1) score (i = 1, j = 2)
G   score (i = 2, j = 1) score (i = 2, j = 2)
C   score (i = 3, j = 1) score (i = 3, j = 2)

b. Puis on calcule le score (i, j) de chacune des cases, ligne par ligne, selon 3 opérations possibles : insertion, délétion ou correspondance qui peut-être une identité (Xi, Xj) ou une substitution (Xi, Yj).

Ce score est calculé de 3 façons qui traduisent les 3 "déplacements" possibles d'une case à l'autre :

  • Déplacement en diagonale () : score (i, j) = score de la case supérieure à gauche (i-1, j-1) + score de la correspondance (i, j) (identité ou substitution).
  • Déplacement horizontal () : score (i, j) = score de la case à gauche (i, j-1) + score d'un "gap" car insertion en (j-1) ou délétion en i.
  • Déplacement vertical () : score (i, j) = score de la case au-dessus (i-1, j) + score d'un "gap" car insertion en (i-1) ou délétion en j.

c. Le score (i, j) de chacune des cases de cette matrice est la valeur maximale des " déplacements possibles (), () ou ().

Retour haut de page

Application : comparer les 2 séquences suivantes :

séquence 1 : ATTCAAGCTGA
séquence 2 : AACTTGCGTGA

Avec les 3 paramètres de scores : identité = 4, substitution = -1 et insertion/délétion ("gap") = -2 (pénalité).

a. Matrice des coûts

i/j - A A C T T G C G T G A
- 0 -2 -4 -6 -8 -10 -12 -14 -16 -18 -20 -22
A -2         2 0          
T -4         8 c = 6          
T -6                      
C -8 -2 -1                  
A -10 -4 a = 2 3 4              
A -12     1 b = 2              
G -14                      
C -16             11 9      
T -18             9 d = 10      
G -20                   17 15
A -22                   15 e = 21

Exemple pour la case a (i = 5, j = 2) :

  • Déplacement en diagonale () = score de la case supérieure à gauche + score de l'identité A ⇔ A = -2 + 4 = 2
  • Déplacement horizontal () = score de la case à gauche + score d'un "gap" = -4 + -2 = -6
  • Déplacement vertical () = score de la case au-dessus + score d'un "gap" = -1 + -2 = -3
  • Maximum = 2 => score de la case a = 2.

Exemple pour la case c (i = 2, j = 6) :

  • Déplacement en diagonale = score de la case supérieure à gauche + score de la substitution G ➞ T = 2 + -1 = 1
  • Déplacement horizontal = score de la case à gauche + score d'un "gap" = 8 + -2 = 6
  • Déplacement vertical = score de la case au-dessus + score d'un "gap" = 0 + -2 = -2
  • Maximum = 6 => score de la case c = 6.

Retour haut de page

b. Matrice des chemins

  • Elle indique le chemin de la matrice des coûts qui a permis d'obtenir le meilleur score dans chaque case.
  • Le score d'une case de cette matrice est la valeur de score associée au déplacement suivi dans la matrice des coûts : en diagonale = 0 ; horizontal = 1 ; vertical = -1.

Exemple pour la case a' : déplacement suivi en diagonale donc le score de la case a' = 0.

  - A A C T T G C G T G A
- 0 1 1 1 1 1 1 1 1 1 1 1
A -1                      
T -1           horizontal
c' = 1
         
T -1                      
C -1                      
A -1   diagonale
a' = 0
                 
A -1       diagonale
b' = 0
             
G -1                      
C -1                      
T -1               diagonale
d' = 0
     
G -1                      
A -1                     diagonale
e' = 0

Retour haut de page

c. Alignement de seq1 et seq2

On part de la case (i = n, j = m) en bas à droite de la matrice des chemins (dernière position de l'alignement A versus A) et on remonte ( ou ou ) le chemin parcouru.

  - A A C T T G C G T G A
A   0                    
T   ↑ -1                    
T     ↖ 0                  
C       ↖ 0                
A         ↖ 0              
A           ↖ 0            
G             ↖ 0          
C               ↖ 0 ← 1      
T                   ↖ 0    
G                     ↖ 0  
A                      
e'= 0
On obtient l'alignement suivant (paramètres de scores : identité = 4, substitution = -1, indel = -2) :
seq2 A - A C T T G C G T G A
seq1 A T T C A A G C - T G A
S 4 -2 -1 4 -1 -1 4 4 -2 4 4 4

Le score global de l'alignement = 21.
Cette valeur est identique au score da la case e de la matrice des coûts : l'alignement est correct.

Retour haut de page

Partie II : PHYLOGENIE

La phylogénie étudie les liens de parenté (donc l’évolution et la classification) entre organismes et le clade est l’unité élémentaire de la classification phylogénétique.

  • Un cladogramme représente des relations évolutives et une ascendance commune entre des groupes d'organismes. La phylogénie dite "moléculaire" reconstruit les liens de parenté sur la base de séquences de nucléotides ou de séquences d'acides aminés.
  • Un dendrogramme est un diagramme représentant un arbre qui affiche les relations évolutives entre taxons (organismes ayant en commun des caractères définis). Un dendrogramme peut-être également appelé arbre phylogénétique.

Définitions des termes : clade, cladogramme, parcimonie, pas évolutif, synapomorphie, autapomorphie, symplésiomorphie, homoplasie, réversion, diagramme de Venn … voir l'article Wikipédia "cladistique".

Retour haut de page

La phylogénie permet de différencier des gènes homologues descendant d'un même gène ancestral.

Duplication

  • Les gènes homologues issus d'une duplication au sein du génome d'une espèce donnée sont des gènes paralogues.
  • Ils tendent vers des fonctions différentes car la copie du gène a une nouvelle fonction au cours de l'évolution.

Spéciation

  • Les gènes homologues issus d'un gène ancestral par spéciation sont des gènes orthologues.
  • Ils ont une probabilité élevée d'avoir des fonctions similaires.

L'arbre ci-contre décrit l'évolution de 6 gènes (cercles) homologues de 3 espèces A, B et C (couleurs) :

  • La duplication 1 génère les gènes paralogues α et β chez l'ancêtre de [B et C].
  • La duplication 2 génère les gènes paralogues β1 et β2 de la lignée C.

evolution sequence alignment protein structure phylogenie phylogeny ancetre ancestral tree arbre phylogenetique reconstruction duplication speciation homologue orthologue paralogue alignment biochimej

Source : Studer & Robinson-Rechavi (2009)

La duplication des gènes est le principal mécanisme générateur de nouveaux gènes et de nouveaux processus biologiques qui a facilité l’évolution des organismes simples vers les organismes complexes.

Devenir des gènes après duplication :

  • Néofonctionalisation : relativement peu fréquente, une ou des mutations sur une copie de gène dupliqué générer une nouvelle fonction.
  • Pseudogène :
    • Après duplication, la perte totale de l'une des 2 copies d’un gène est l'évènement le plus probable.
    • Une copie du gène subit la pression de sélection afin de maintenir la fonction. Si l’autre copie n’est pas supprimée, elle peut accumuler des mutations potentiellement délétaires : on obtient un pseudogène.
    • Exemple : chez l'homme, les pseudogènes de la familles des gènes codant des récepteurs olfactifs représentent 60-70%. Chez le chien : ils représentent 20%.

Retour haut de page

Exemples de méthodes pour générer un arbre phylogénétique

La méthode UPGMA ("Unweighted Pair Group Method with Arithmetic Mean") construit un arbre enraciné sur la base d'une matrice de distances entre toutes les paires de séquences analysées.

La méthode NJ ("Neighbour Joining") qui recherche de manière séquentielle des voisins en minimisant la longueur totale de l'arbre. Elle génère des arbres non enracinés. Elle est rapide et adaptée à des arbres de plusieurs milliers de séquences.

La méthode ML ("Maximum Likelihood") est basée sur un ou plusieurs caractère(s) à étudier. Elle nécessite un modèle d'évolution probabiliste (dont le choix est déterminant) qui permet d'évaluer, en termes de probabilités (vraisemblance), l'ordre des embranchements et la longueur des branches de l'arbre.

La méthode MP ("Maximum Parcimony") recherche parmi les arbres possibles et les séquences possibles de noeuds ancestraux, la combinaison qui nécessite le plus petit nombre de changements évolutifs.

Approche Bayesienne (exemple : logiciel "MrBayes") : L'inférence bayésienne de la phylogénie ("Bayesian phylogenetic tree") est une méthode pour estimer la probabilité qu'un arbre soit correct sur la base des données analysées, de "l'à priori" et du modèle de vraisemblance employés pour construire cet arbre.

Théorème de Bayes : il permet de déterminer la probabilité d'un évènement compte-tenu des informations connues et de données nouvelles.

Il s'écrit : P(A|B) = [P(B|A) . P(A)] / P(B)

  • A et B sont 2 évènements dont la probabilité est P(A) et P(B), respectivement.
  • P(A|B) est la probabilité conditionnelle que A se réalise étant donné que B est réalisé.
  • P(B|A) est la probabilité conditionnelle que B se réalise étant donné que A est réalisé.

Retour haut de page

La longueur des branches

  • Elle est proportionnelle au degré d'évolution entre des séquences et leurs ancêtres : plus une branche est longue, plus les séquences correspondantes sont éloignées du point de vue évolutif de leur ancêtre.
  • Sur un arbre phylogénétique, les ancêtres sont représentés par les noeuds (jonction de 2 branches ou plus).

Arbre enraciné ou arbre non-enraciné

Plusieurs méthodes pour tenter d'enraciner un arbre phylogénique :

  • Introduire un groupe (une ou plusieurs séquences) externe à ceux étudiés : la branche reliant ce groupe aux autres peut être considérée comme la racine.
  • Considérer que toutes les lignées ont évolué de la même manière en même temps : la racine est le point de l'arbre équidistant de toutes les feuilles.

Valeur de "bootstrap"

Pour compléter la construction d'un arbre phylogénétique, sa robustesse doit être évaluée, en général par une valeur de "bootstrap" (de 0 à 100%) associée à chaque branche de l'arbre :

  • Cette valeur traduit le nombre de fois où la branche considérée est retrouvée au fil des répétitions au cours desquelles l'ensemble des données analysées est ré-échantillonné.
  • La valeur de "bootstrap" est donc une évaluation de la robustesse d'un noeud (jonction entre deux branches) à la perturbation des données.

Retour haut de page

Exercice 1 : étude de la famille des gènes de l'hémoglobine humaine

Les sous-unités de l'hémoglobine sont codées par des gènes de la famille des globines α et β.

Les ancêtres de ces gènes sont apparus après duplication il y a plusieurs centaines de millions d'années.

  • L'apparition des gènes α et β a induit la polymérisation de ce type de globines et la synthèse de l'hémoglobine constituée de sous-unités distinctes.
  • Le gène α a ensuite subi une seconde duplication qui a formé les gènes HBA1 et HBA2.

Voir un cours sur l'hémoglobine.

Types d'hémoglobine

Il existe plusieurs formes d'hémoglobine qui sont toutes des hétérotétramères :

  • L'hémoglobine A (HbA) représente 95 % des molécules d'hémoglobines chez l'adulte. Elle est constituée de 2 chaînes polypeptidiques α et de 2 chaînes polypeptidiques β (α2β2).
  • L'hémoglobine A2 (HbA2) : α2δ2.
  • L'hémoglobine F du fœtus (HbF) : α2γ2.
  • L'hémoglobine E de l'embryon (HbE) : Gower 1 (ζ2ε22), Gower 2 (α222), Portland I (ζ222) et Portland II (ζ2β2).

evolution sequence protein structure phylogenie phylogeny ancetre ancestral tree arbre phylogenetique reconstruction globin hemoglobin alignment biochimej

Retour haut de page

Fonction de l'hémoglobine

Les globines sont impliquées dans le transport ou le stockage du dioxygène.

L'hémoglobine est une hémoprotéine : chaque chaîne polypeptidique contient un groupe hème constitué d'un noyau porphyrine fixant un atome de fer.

Les gènes codant les globines chez l'homme forment une famille multigénique.
  • C'est un ensemble de gènes (d'un même génome) ayant une forte homologie de séquences.
  • Ces séquences sont issues d'un même gène ancestral après divers évènements de duplication, de mutation et/ou de transposition sur de très longues périodes.
  • Les globines codées par ces gènes ont des séquences fortement homologues et ont des fonctions identiques.

Retour haut de page

Gènes codant chaque chaîne polypeptidique

Les gènes sont regroupés ("cluster").

  • α : gènes HBA1 et HBA2 - chromosome 16 (locus 16p13.3)
  • β : gène HBB - chromosome 11 (locus 11p15.4)
  • L' hémoglobine A est donc codée par les gènes HBA1, HBA2 et HBB.
  • δ : gène HBD - chromosome 11 (locus 11p15.4)
  • γ : gènes HBG1 et HBG2 - chromosome 11 (locus 11p15.4)
  • ε : chromosome 11
  • ζ : chromosome 16

evolution sequence  protein structure phylogenie phylogeny ancetre ancestral tree arbre phylogenetique reconstruction duplication speciation homologue orthologue paralogue globin hemoglobin alignment biochimej

Il existe :

  • 2 pseudogènes α (notés ψα1 et ψα2)
  • 2 pseudogènes β (notés ψβ1 et ψβ2)
  • 1 pseudogène ζ

dont les séquences sont très similaires de celles des gènes fonctionnels correspondants. Cependant, ils contiennent des codons de terminaison et d'autres mutations qui empêchent la synthèse d'ARNm codant des hémoglobines fonctionnelles.

Retour haut de page

Question 1 : construction et visualisation de l'arbre avec les séquences des globines

La figure ci-dessous décrit l'enchaînement des programmes "PhyML - OneClick" de la suite logicielle NGPhylogeny pour analyser les séquences FASTA des hémoglobines de l'homme et obtenir un arbre phylogénétique.

evolution sequence protein phylogenie phylogeny ancetre ancestral tree arbre phylogenetique reconstruction duplication speciation homologue orthologue paralogue fasta MAFFT BMGE PhyML alignment biochimej

Source : NGPhylogeny

Récupération des séquences des globines humaines au format FASTA.

Aller à Uniprot.

  • Rechercher les séquences des chaînes polypeptidiques de l'hémoglobine de Homo sapiens avec les mots-clé "human globin".
  • Les globines humaines sont annotées sous la forme "HBxxx_HUMAN".

Résultat : Séquences FASTA des 9 globines de l'homme.

Retour haut de page

Le programme MAFFT ("Multiple Alignment using Fast Fourier Transform" - alignement multiple utilisant la transformée de Fourier rapide) génère plusieurs alignements de séquences (acides aminés ou nucléotides) multiples.

A l'origine, l'algorithme de MAFFT effectuait un alignement progressif, les séquences étant regroupées par transformée de Fourier rapide.

L'algorithme MAFFT suit 5 étapes :

  • Alignement par paire des régions similaires entre les séquences analysées.
  • Calcul de distances : obtention d'une matrice de distance qui évalue la dissemblance entre les alignements en fonction de leurs scores d'alignement.
  • Construction d'un arbre dit "guide" à partir de la matrice de distance : représentation hiérarchique des nœuds et des branches.
  • Alignement progressif des feuilles à la racine à l'aide de l'alignement progressif de l'arbre guide (alignement des nœuds enfants pour calculer un alignement consensuel pour le nœud parent).
  • Raffinement pour ajuster les positions des gaps et des insertions et, ainsi, augmenter la précision de l'alignement (processus par itérations qui répètent l'ensemble des étapes précédentes).

Retour haut de page

Programme BMGE ("Block Mapping and Gathering with Entropy" - cartographie et collecte de blocs avec entropie)

Voir Criscuolo & Gribaldo (2010).

Ce programme sélectionne, au sein d'un alignement de séquences multiples (nucléotides ou acides aminés), des régions adaptées à l'inférence phylogénétique.

Pour chaque caractère, BMGE calcule un score lié à une valeur d'entropie (le calcul du score est pondéré par des matrices de similarité BLOSUM ou PAM) : les ensembles de caractères contigus qui ont un score supérieur à une valeur seuil donnée sont considérés comme non adaptés à l'inférence phylogénétique et supprimés.

Retour haut de page

Le programme PhyML utilise la méthode statistique du maximum de vraisemblance et fait appel à des heuristiques.

  • Si les séquences sont trop similaires, l'arbre phylogénétique ne peut pas être reconstruit avec précision.
  • Ce programme a été beaucoup utilisé lors de la pandémie de SARS-Cov2 pour en reconstruire l'origine et l'évolution.

Newick (extension : .nwk) est un format de fichier bioinformatique de données de relations phylogénétiques pour représenter un arbre :

  • Une combinaison de parenthèses imbriquées traduit les relations entre les feuilles de l'arbre.
  • 2 groupes apparentés sont dans une même parenthèse, séparés par une virgule.
  • Les nœuds sont étiquetés et les longueurs de branche sont spécifiées.

Voir une description de ce format.

Exemple de résultat avec les globines :

(sp_P09105_HBAT_HUMAN_Hemoglobin_subunit_theta_1,sp_P69905_HBA_HUMAN_Hemoglobin_subunit_alpha,
(sp_P02008_HBAZ_HUMAN_Hemoglobin_subunit_zeta,(sp_Q6B0K9_HBM_HUMAN_Hemoglobin_subunit_mu, …
)):0.13):0.05):0.74):0.008):0.15):0.24);

iTOL ("Interactive Tree Of Life" - exécuté sur le serveur de l'EMBL) est un outil en ligne pour afficher, annotater, modifier et gérer des arbres phylogénétiques avec différents jeux de données.

Retour haut de page

Question 1 : quelques commentaires des résultats

MSA : "Multiple Sequence Alignment".

  • La représentation globale en bas (multiples petits carrés de couleurs) traduit l'alignement détaillé présenté au-dessus et permet de se déplacer dans cet alignement.
  • Représentations "Mafft alignment" vs. "BMGE Cleaned sequences Fasta" : les derniers acides aminés de l'extrémité C-terminale de la myoglobine sont enlevés.

On voit bien la duplication qui a engendré les chaînes alpha et la duplication qui a engendré les chaînes béta.

  • La séparation de la myoglobine n'est pas très visible.
  • La séparation de l'hémoglobine mu n'est pas très visible.

evolution sequence protein duplication speciation homologue orthologue paralogue phylogenie phylogeny ancetre ancestral tree arbre phylogenetique reconstruction globin hemoglobin alignment biochimej

Source : NGPhylogeny

Sur cette figure, il est difficile d'estimer le nombre d'évènements de duplication car la résolution n'est pas suffisante.

Tous les noeuds correspondent à des duplications car toutes les séquences sont paralogues puisqu'elles sont issues de la même espèce (Homo sapiens).

La myoglobine diffère des chaînes α et β de l'hémoglobine, davantage que celles-ci ne diffèrent l'une de l'autre.

La myoglobine a divergé avant l'apparition des gènes alpha et bêta.

Source figure : "La famille multigénique des globines" (ENS)

evolution sequence protein phylogenie phylogeny ancetre ancestral tree arbre phylogenetique reconstruction globin hemoglobin duplication speciation homologue orthologue paralogue alignment biochimej

Retour haut de page

Question 2 : construction et visualisation de l'arbre aves les séquences des gènes codant les globines

L'arbre phylogénétique est construit avec l'enchaînement des programmes "FastME - OneClick" (NGPhylogeny).

  • Récupération des séquences des gènes codant les globines au format FASTA sur Moodle : fichier "Exercice 1 - globines_genes_aligned.fasta".
  • Les séquences du fichier sont déjà alignées : MAFFT effectue de toute façon un alignement des séquences : voir "MSAViewer" de l'étape "MAFFT".

Cet arbre est semblable à l'arbre ci-dessus (ENS).

On peut localiser les duplications à partir de l'ancêtre commun qui ont généré :

  • La myoglobine.
  • Les chaînes α et autres de l'hémoglobine.
  • Les chaînes α et autres de l'hémoglobine.

Source figure : NGPhylogeny

evolution sequence protein structure phylogenie phylogeny ancetre ancestral tree arbre phylogenetique duplication speciation homologue orthologue paralogue reconstruction globin hemoglobin alignment biochimej

Retour haut de page

Question 2 : construction et visualisation de l'arbre aves les séquences des gènes codant les globines

L'arbre phylogénétique est construit avec l'enchaînement des programmes "PhyML - OneClick" (NGPhylogeny).

L'arbre obtenu a quasiment la même topologie que le précédent (changement de l'embranchement de l'hémoglobine ε).

  • Les arbres obtenus sont non racinés (fourche à 3 branches).
  • Pour les raciner, il faut ajouter un groupe externe (exemples : globines d'insectes ou de légumineuses).

Source figure : NGPhylogeny

evolution sequence protein structure phylogenie phylogeny ancetre ancestral tree arbre duplication speciation homologue orthologue paralogue phylogenetique reconstruction globin hemoglobin alignment biochimej

Retour haut de page

Exercice 2 : étude de l'insuline

Récupération des séquences d'acides aminés d'insulines au format FASTA sur Moodle : fichier "Exercice 2 - sequences insuline".

Création de l'enchaînement personnel "à la carte" des programmes de la suite logicielle NGPhylogeny pour générer l'arbre phylogénétique.

evolution sequence protein phylogenie phylogeny ancetre ancestral tree arbre phylogenetique reconstruction fasta duplication speciation homologue orthologue paralogue MAFFT BMGE PhyML alignment biochimej

Source : NGPhylogeny

Retour haut de page

Duplication

  • Les gènes homologues issus d'une duplication au sein du génome d'une espèce donnée sont des gènes paralogues.
  • Ils tendent vers des fonctions différentes car la copie du gène a une nouvelle fonction au cours de l'évolution.

 

Spéciation

  • Les gènes homologues issus d'un gène ancestral par spéciation sont des gènes orthologues.
  • Ils ont une probabilité élevée d'avoir des fonctions similaires.

evolution sequence alignment protein structure phylogenie phylogeny ancetre ancestral tree arbre phylogenetique reconstruction duplication speciation homologue orthologue paralogue biochimej

Source : Studer & Robinson-Rechavi (2009)

L'arbre phylogénétique de l'insuline est construit avec personnel "à la carte".

Il y a eu 2 évènements indépendants au cours de l'évolution de la famille de l'insuline :

Une duplication chez le xénope :

  • INS1-XENLA-Xenopus
  • INS1-XENLA-Xenopus

Une duplication chez les rongeurs :

  • INS1-MOUSE-Mus + INS1-RAT-Rattus
  • INS2-RAT-Rattus +INS2-MOUSE-Mus

Source figure : NGPhylogeny

evolution sequence protein structure phylogenie phylogeny ancetre ancestral tree arbre duplication speciation homologue orthologue paralogue phylogenetique reconstruction insulin alignment biochimej

Retour haut de page

Exercice 3 : étude des peroxydases de classe III liées à la membrane

Les peroxydases végétales sécrétoires ou peroxydases de classe III (EC 1.11.1.7) sont :

  • Des oxydoréductases qui appartiennent à la superfamille des [catalases-peroxydases contenant un hème (classification Interpro IPR000763).
  • Des glycoprotéines monomères, contenant 2 ions calcium et 4 ponts disulfures (dont les positions diffèrent de celles des peroxydases de classe II).

Exemples de fonctions : élimination du peroxyde d'hydrogène des chloroplastes et du cytosol ; oxydation de composés toxiques ; biosynthèse de la paroi cellulaire ; défense face aux blessures ; catabolisme de l'acide indole-3-acétique ; biosynthèse de l'éthylène ...

Réaction enzymatique

Les peroxydases sont des enzymes contenant un hème qui utilisent le peroxyde d'hydrogène comme accepteur d'électrons pour catalyser des réactions d'oxydo-réduction.

La plupart des peroxydases à hème suivent le schéma réactionnel :

  • Fe3+ + H2O2 ➞ [Fe4+=O]R' (composé 1) + H2O
  • [Fe4+=O]R' + substrat ➞ [Fe4+=O]R (composé 2) + substrat oxydé
  • [Fe4+=O]R + substrat ➞ Fe3++ H2O + substrat oxydé

Retour haut de page

PeroxiBase (08/2018) : au moins 158 peroxydases de classe III codées par le génome du maïs (Zea mays), 155 isoenzymes dans le génome du riz (Oryza sativa), 103 isoenzymes chez Medicago truncatula et 75 isoenzymes chez Arabidopsis thaliana.

evolution sequence alignment protein structure phylogenie phylogeny ancetre ancestral tree arbre phylogenetique reconstruction fasta alignment peroxydase motif biochimej

Source : PeroxiBase

  • Les flèches noires relient les classes, familles ou superfamilles de protéines issues d'une même séquence ancestrale.
  • Les flèches grises relient deux classes de protéines différentes mais possédant des domaines communs.

Les isoenzymes :

  • Sont des formes multiples d'enzymes qui diffèrent par leur séquence d'acides aminés.
  • Sont fréquemment codées par des gènes homologues qui ont divergé : les isoenzymes sont donc codées par des gènes différents.
  • Les alloenzymes sont codées par des allèles différents du même gène.

Les isoenzymes catalysent la même réaction biochimique, généralement avec des valeurs de paramètres cinétiques différentes ou elles sont régulées différemment.

Retour haut de page

La base de données PDB ("Protein Data Bank")

Elle contient les fichiers de données de structures 3D (déterminées par différentes techniques physiques) de environ 216.000 molécules, en grande majorité des protéines.

  • Ces fichiers décrivent notamment les coordonnées dans l'espace (positions x, y et z) des atomes constitutifs de ces molécules.
  • Un code d'accession PDB est constitué de 4 caractères (1 chiffre puis 3 caractères qui peuvent être un chiffre ou une lettre en majuscule). Il y a donc actuellement 419.904 codes possibles d'identification PDB.

Retour haut de page

La base de données PROSITE

C'est une base de données de domaines de protéines et de familles de protéines, regroupés sur la base des similitudes de leurs séquences : ces protéines ont généralement des fonctions identiques ou semblables et dérivent d'un ancêtre commun.

Certaines régions de protéines sont mieux conservées au cours de l'évolution car elles sont importantes pour la fonction et/ou le maintien de la structure tridimensionnelle.

PROSITE contient actuellement des profils ("profile") spécifiques de plus de 1000 familles ou domaines de protéines, accompagnés d'une documentation sur la structure et la fonction de ces protéines.

  • Un profil est un tableau des poids d'acides aminés et des coûts d'écart spécifiques à une position dans la séquence.
    • Ces tableaux contiennent des valeurs de scores élémentaires pour calculer un score global de similarité pour tout alignement d'un profil (ou partie d'un profil) et une séquence.
    • Un alignement avec un score de similarité supérieur ou égal à une valeur seuil donnée constitue une occurrence de motif.
  • On appelle "pattern" les signatures qui correspondent aux séquences consensus d'acides aminés écrites avec des expressions régulières.

Retour haut de page

Modèle PROSITE ("PROSITE pattern")

La notation PROSITE utilise le code à 1 lettre de l'IUPAC ("International Union of Pure and Applied Chemistry") avec le symbole "-" écrit entre les éléments du motif.

Aller à PROSITE. Fenêtre "Search PROSITE" : entrer "heme peroxidase" => cliquer sur le lien "PDOC00394 Heme peroxidase signatures and profiles".

Résultats

  • PEROXIDASE_1, PS00435; Peroxidases proximal heme-ligand signature  (PATTERN)
  • PEROXIDASE_2, PS00436; Peroxidases active site signature  (PATTERN)

Lien pour accéder au logo PROSITE : "Retrieve the sequence logo from the alignment".

Retour haut de page

Structure des peroxydases de classe III

Leurs structures sont bien conservées.

  • Ces enzymes contiennent un peptide signal N-terminal, des sites de fixation de l'hème et du calcium et 4 ponts disulfure conservés.
  • Des domaines transmembranaires sont prédits pour ZmPrx01, OsPrx95, AtPrx47 et MtPrx02.

Analyse du site actif (figure 1 de Lüthje & Martinez-Cortes (2018) "Membrane-Bound Class III Peroxidases: Unexpected Enzymes with Exciting Functions" Int. J. Mol. Sci. 19, 2876)

Figures a et b : superposition du site actif de la peroxydase du raifort ("horseradish" - HRP, en bleu) et du site actif de OsPrx95 (Oryza sativa, en jaune).

  • Arg38 et His42 du site actif de HRP forment la structure distale.
  • L’hème (en gris avec le groupe méso δ  en rouge) est fixé par His170.

Figure c : alignement de séquences multiples de peroxydases de classe III (HRP, peroxydases liées à la membrane et peroxydases solubles) généré par le programme "Clustal Omega".

  • En italique : séquence du peptide signal N-terminal ; en gras - souligné : domaines transmembranaires.
  • En jaune : résidus d’acides aminés du site actif; en gris : résidus d’acides aminés du site de fixation du calcium ; en bleu : résidus cystéine conservés (formation de ponts disulfure).

Réponses à quelques questions

La stratégie retenue par les auteurs de l'article est la superposition des structures pour les 4 protéines dont on a la structure (1HCH, 3HDL, 5TWT et 5AOG).

L'alignement obtenu avec Clustal Omega permet de retrouver les séquences du site actif, du site de fixation de l'hème et du site de fixation du calcium.

Retour haut de page

Représentation graphique de séquences alignées dite "logo"

Elle traduit la conservation des résidus (nucléotides ou acides aminés) dans des régions particulières (site actifs, sites de fixation, …) de ces séquences : un logo représente donc un motif consensus.

  • Un logo est constitué d’une suite de caractères qui "s’empilent" (s’il y en a au moins 2) à chaque position du motif consensus.
  • La taille relative de chaque caractère traduit sa fréquence à la position considérée.
  • La hauteur totale des lettres représente le contenu informatif de chaque position.

Voir un cours sur les expresssions régulières.

Figure ci-contre : représentation logo du site de fixation de l'hème (PROSITE PS00435) des peroxydases de classe III.

Figure ci-dessous : séquences du site de fixation proximal (positions moyennes 155 à 165) de l’hème de quelques peroxydases de classe III (Lüthje & Martinez-Cortes, 2018).

prosite motif pattern sequence consensus logo peroxydase class III peroxidase heme biochimej

Expression régulière du motif consensus :
[DET]-[LIVMTA]-{NSYL}-{RPFC}-[LIVM]-[LIVMSTAG]-[SAG]-[LIVMSTAG]-H-[STA]-[LIVMFY]

prosite motif pattern sequence consensus logo peroxydase class III peroxidase heme biochimej

Source : PROSITE

Retour haut de page

Figure ci-contre : représentation logo du site actif (PROSITE PS00436) des peroxydases de classe III.

Figure ci-dessous : séquences du site actif (positions moyennes 55 à 65) de quelques peroxydases de classe III (Lüthje & Martinez-Cortes, 2018).

prosite motif pattern sequence consensus logo peroxydase class III peroxidase heme biochimej

Expression régulière du motif consensus :
[SGATV]-{D}-x(2)-[LIVMA]-R-[LIVMA]-x-[FW]-H-{V}-[SAC]

prosite motif pattern sequence consensus logo peroxydase class III peroxidase heme biochimej

Source : PROSITE

Retour haut de page

Visualisation de la peroxydase de Armoracia rusticana (raifort) à une résolution de 1,55 Å.

Code PDB : 1W4W

Retour haut de page