Les matrices de substitution pour la comparaison - alignement des séquences de nucléotides ou d'acides aminés

biochimej biochimej Flux RSS

1. Les matrices pour les acides nucléiques

2. Calcul des valeurs élémentaires des matrices de substitution des acides aminés ("standard log-odds ratios matrices")

3. Les matrices protéiques

a. Mutabilité
b. Les matrices PAM ("Point Accepted Mutation")

 

c. Les matrices BLOSUM ("BLOcks SUbstitution Matrix")
d. Comparaison des matrices PAM et des matrices BLOSUM
e. Les matrices Gonnet
f. Exemples d'autres matrices et matrices spécialisées
g. Quelques règles pour le choix d'une matrice protéique

4. Liens Internet et références bibliographiques

 

Voir un cours sur les algorithmes de comparaison et d'alignement de séquences.

Plusieurs termes sont employés pour décrire une notion difficile : la « ressemblance » entre deux séquences biologiques :

  • L'identité est la ressemblance parfaite entre deux séquences.
  • La similarité : elle se mesure en % d'identité.
  • L'homologie : elle a une connotation évolutive : 2 séquences sont homologues si elles ont un ancêtre commun.
    1. elle est transitive : si la séquence A est homologue à la séquence B et la séquence B est homologue à la séquence C, alors A est homologue à C (même si A et C se ressemblent très peu).
    2. elle se mesure par la similarité (sauf si les séquences ont une faible complexité). L'inverse n'est pas vrai : pas de similarité ne signifie pas non-homologie.

Source : "Genet" R. Jalousot

biochimej biochimej Retour haut de page

1. Les matrices pour les acides nucléiques

Il existe peu de matrices pour les acides nucléiques car il n'y a que 4 lettres pour leur alphabet.

La plus fréquemment utilisée est la matrice dite unitaire (ou matrice identité) où toutes les bases sont considérées comme équivalentes.

  A T G C
A 1 0 0 0
T 0 1 0 0
G 0 0 1 0
C 0 0 0 1

Matrice dite de transition - transversion

  A T G C
A 3 0 1 0
T 0 3 0 1
G 1 0 3 0
C 0 1 0 3

Matrice dite de BLAST

  A T G C
A 1 - 3 - 3 - 3
T - 3 1 - 3 - 3
G - 3 - 3 1 - 3
C - 3 - 3 - 3 - 3

biochimej biochimej Retour haut de page

2. Calcul des valeurs élémentaires des matrices de substitution des acides aminés ("standard log-odds ratios matrices")

Ces matrices de substitution sont construites à partir de grands ensembles d'alignements de séquences de protéines, ces séquences ayant des fréquences d'acides aminés qu'on peu qualifier de "standard".

Les alignements locaux de séquences (calculés de manière rigoureuse par l'algorithme de Smith-Waterman et de manière heuristique par BLASTP ou FASTA) nécessitent des matrices de scores qui génèrent en moyenne des valeurs négatives dans le cas de comparaison des séquences aléatoires.

Si le score de matrice moyen ou attendu est positif, l'alignement s'étendra jusqu'aux extrémités des séquences et sera global plutôt que local.

Les valeurs des matrices PAM (voir ci-dessous) ont été calculées comme le logarithme d'un rapport de probabilités (remarque : "log-odds" = "the logarithm of the odds" = le logarithme du rapport des probabilités) :

fréquence d'alignement observée après une distance d'évolution donnée = homologues
log (---------------------------------------------------------------------------------------- )
fréquence d'alignement attendue liée au hasard

Les valeurs des matrices BLOSUM : même algèbre de rapport de probabilités mais les fréquences de transition ont été calculées en comptant le nombre de changements dans des blocs d'acides aminés dans des séquences de protéines apparentées (voir ci-dessous).

biochimej biochimej Retour haut de page

Calcul numérique des valeurs de scores des matrices PAM et BLOSUM

Dans le cas d'un modèle de protéine de séquence aléatoire (les acides aminés sont présents de manière indépendante les uns des autres, avec une fréquence individuelle f), toute matrice de scores (appropriée aux alignements locaux sans gap) avec au moins un score positif et un score attendu négatif (matrice "log-odds") peut être écrite sous la forme :

Sij = (1/λ) . log (pi,j / fi . fj)

Sij est le score élémentaire calculé pour l'alignement de 2 acides aminés i et j :

  • Sij > 0 indique une substitution fréquente (substitution conservative).
  • Sij < 0 indique une substitution peu probable entre séquences homologues (substitution non conservative).
  • Schématiquement, un score = +2 (positif) signifie que le remplacement de l'acide aminé considéré se produit 10(+2/10) = 1,6 fois plus fréquemment que ce que l'on observerait si ce remplacement était le seul fait du hasard.

Avec les paramètres :

  • fi et fj : fréquences des acides aminés i et j, respectivement.
  • pi,j : probabilité que l'acide aminé i soit substitué en acide aminé j (probabilité que i et j soient alignés dans des séquences homologues).
  • Le produit (fi . fj) est donc la fréquence d'échange de 2 acides aminés i et j alignés par hasard.
  • λ est le facteur d'échelle (positif) qui permet que les scores individuels dans la matrice soient représentés avec précision par des nombres entiers.

Applet java qui construit automatiquement des matrices PAM d'indice 1 à 200 avec possibilité de choisir la valeur du facteur d'échelle.

biochimej biochimej Retour haut de page

Exemple 1 :

  • Le score de la matrice BLOSUM62 pour aligner D avec D est +6.
  • Par ailleurs, la matrice BLOSUM62 est mise à l'échelle en « 1/2 bit » unités (soit : +6 / 2 =3).
  • Donc un alignement (D:D) est 6 = 2*[log2 (pD,D / fD . fD)] ou bien encore 23 = 8 fois plus probable du fait d'une homologie que du fait du hasard.

Exemple 2 :

  • Le score de la matrice BLOSUM62 pour aligner D avec L est -4.
  • Un alignement (D:L) est donc 22 = 4 fois plus probable du fait du hasard que du fait d'être observé dans des blocs homologues alignés pour la construction de la matrice BLOSUM62.

Le score de bit (S') est dérivé du score d'alignement brut (S) en tenant compte des propriétés statistiques du système de calcul des scores (en particulier la matrice de score et la taille de la base de données interrogée).

Puisque les scores de bit sont normalisés par rapport au système de calcul des scores, ils sont utilisés pour comparer les scores de différents alignements.

biochimej biochimej Retour haut de page

Entropie relative

Toute matrice, quels que soient son type et son indice, est caractérisée par son contenu en information, appelée entropie relative ("relative entropy H : average mutual information per amino acid pair") qui est liée au nombre de résidus d'acides aminés qui doivent être alignés pour obtenir un score significatif statistiquement.

  • Elle est exprimée en bit ("binary digit") si le logarithme en base 2 (log2X) est utilisé.
  • Voir la théorie de l'information de Claude Elwood Shannon.

De manière schématique, on peut faire les approximations suivantes en considérant une utilisation équi-probable des 4 nucléotides (p = 0,25) et des 20 acides aminés (p = 0,05), ce qui ne reflète pas la réalité biologique.

Nucléotides

  • Le nombre total de nucléotides WGS ("Whole Genome Sequencing") du NCBI est d'environ 14.922 milliards (décembre 2021) => H = log2(14,922 109) ≈ 43,8 bits.
  • Chaque nucléotide d'une séquende d'ADN contient 2 bits d'information : A, T, G et C => log2(4) = 2 bits.
  • Pour produire un alignement statistiquement significatif, une séquence d'ADN doit avoir une longueur minimale de 43,8/2 ≈ 22 nucléotides.

Acides aminés

  • Le nombre total d'acides aminés dans TrEMBL est d'environ 78,4 milliards (septembre 2021) => H = log2(78,4 109) ≈ 36,2 bits.
  • Les 20 acides aminés naturels contiennent davantage d'informations par résidu : H = log2(20) ≈ 4,3 bits.
  • Pour produire un alignement statistiquement significatif, une séquence protéique doit avoir une longueur minimale de 36,2/4,3 ≈ 8 résidus d'acides aminés.

biochimej biochimej Retour haut de page

3. Les matrices protéiques

a. Mutabilité m d'un acide aminé i : mi = ∑ jAij / fi

séquence 1 Y K Y
séquence 1 Y K C
Acides aminés i Y C K
substitutions observées : ∑ jAij 1 1 0
fréquence d'apparition : fi 3 1 2
Mutabilité : mi 0,33 1 0

Calcul des scores et normalisation

  • Mij = (mj . Aij) / ∑ iAij
  • Aij : paire d'acides aminés
  • Rij = Mij / fi
  • Normalisation : pour un acide aminé i, transformation telle que ∑Rij = 1

biochimej biochimej Retour haut de page

Quelques matrices de scores de substitution des acides aminés
Auteurs (année) Matrice - principe de construction
Fitch & Margoliash (1967) "minimum base change matrix for amino acid exchange converted to similarity measure"
Dayhoff et al. (1978) matrices PAM (voir ci-dessous)
McLachlan (1971) matrice dérivée de 16 familles de protéines
Grantham (1974) matrice dérivée de trois propriétés physico-chimiques des acides aminés
Doolittle (1979) "intuitive structural-genetic matrix"
Miyata et al. (1979) matrice dérivée de la polarité et du volume moléculaire des acides aminés (Grantham, 1974)
Levin et al. (1986) matrice empirique & structures secondaires
Rao (1987) matrice dérivée des paramètres de Chou & Fasman (1974)
Risler et al. (1988) matrice dérivée de la comparaison des structures 3D de 11 familles de protéines homologues
Gonnet et al. (1992) matrices Gonnet (voir ci-dessous)
Henikoff & Henikoff (1992) matrices BLOSUM (voir ci-dessous)
Jones et al. (1992) matrices MS dérivées de 23.000 séquences de protéines
Johnson & Overington (1993) matrices JOHM - substitutions dans des parties similaires des structures de protéines
Jones et al. (1994) matrices JTT
Ng et al. (2000) matrices PHDhtm
Kann et al. (2000) matrice OPTIMA
Muller et al. (2002) matrices VTML (voir ci-dessous)
Midic et al. (2009) matrices MidicMat - régions désordonnées
Yamada & Tomii (2014) matrices MIQS
Keul et al. (2017) matrices PFASUM (voir ci-dessous)
Jia & Jernigan (2018) matrices SeqStruct - corrélations [séquences / contacts au sein des structures de protéines]
Trivedi & Nagarajaram (2019) matrices EDSSMat - acides aminés des régions désordonnées des protéines eucaryotes

biochimej biochimej Retour haut de page

b. Les matrices PAM ("Point Accepted Mutation")

Elles ont été créées par Margaret Dayhoff et ses collaborateurs, après l'alignement d'environ 1300 séquences très semblables (> 85% d'identité) appartenant à 71 familles de protéines.

alignement comparaison comparison sequence acide amine amino acid nucleotide protein ADN DNA matrice substitution Dayhoff blosum pam gonnet PFASUM evolution distance mutation Shannon entropy information bit biochimej

Source : M. Dayhoff (1925-1983). Cette photo est la propriété de sa fille R. Dayhoff et mise à disposition par la National Library of Medicine.

Les matrices PAM donnent la probabilité que, suite à une mutation par substitution au cours de l'évolution, n'importe quel acide aminé remplace n'importe quel autre acide aminé sans que la fonction de la protéine ne soit altérée, d'où la terminologie "mutation acceptée".

Principe de construction des matrices PAM

Elles sont construites avec des modèles de chaînes de Markov :

  • La valeur initiale de la distance de changements d'acides aminés pour la construction de la matrice de transition est de 1%.
  • En conséquence, la première matrice appelée 1PAM ("Percent Accepted Mutations") donne la probabilité qu'1 substitution soit acceptée pour 100 acides aminés.
  • La multiplication X fois de cette matrice par elle-même donne une matrice XPAM qui permet d'analyser des distances d'évolution plus importantes : 2PAM = 1PAM x 1PAM, 3PAM = 2PAM x 1PAM ...
  • La distance évolutive est alors transcrite en mutations ponctuelles acceptées allant de 1 (matrice PAM1) à n (matrice PAMn).
  • Ainsi, la matrice de transition est multipliée n fois par elle-même pour obtenir les n étapes de la chaîne de Markov nécessaires à la construction de la matrice PAMn : matricen = matrice1n.

A chaque matrice XPAM correspond une matrice PAMX, appelée matrice de mutation de Dayhoff : ce sont les matrices PAMX qui sont utilisées par les algorithmes d'alignement.

Voir le détail mathématique de la construction des matrices PAM.

biochimej biochimej Retour haut de page

Exemple de la matrice PAM250 (ci-dessous)

Cette matrice donne la probabilité que 250 mutations soit acceptées pour 100 acides aminés.

Remarque : 0.99250 ≈ 0.08, ce qui signifie qu'après 250 multiplications avec un changement de 1%, environ 8% des acides aminés ne sont pas mutés.

Du fait des mutations silencieuses et des réversions de mutations, cette matrice correspond à des séquences qui ont globalement 20% d'identité.

  • Une valeur faible dans la matrice (exemple : W / C = -8) signifie qu'il est peu probable d'observer la substitution d'un tryptophane par une cystéine sans perte significative de la fonction de la protéine.
  • Au contraire, une valeur forte (exemple : Y / F = 7) signifie qu'il est probable d'observer la substitution d'une tyrosine par une phénylalanine.

A R N D C Q E G H I L K M F P S T W Y V
A 2


















R -2 6

















N 0 0 2
















D 0 -1 2 4















C -2 -4 -4 -5 4














Q 0 1 1 2 -5 4













E 0 -1 1 3 -5 2 4












G 1 -3 0 1 -3 -1 0 5











H -1 2 2 1 -3 3 1 -2 6










I -1 -2 -2 -2 -2 -2 -2 -3 -2 5









L -2 -3 -3 -4 -6 -2 -3 -4 -2 2 6








K -1 3 1 0 -5 1 0 -2 0 -2 -3 5







M -1 0 -2 -3 -5 -1 -2 -3 -2 2 4 0 6






F -4 -4 -4 -6 -4 -5 -5 -5 -2 1 2 -5 0 9





P 1 0 -1 -1 -3 0 -1 -1 0 -2 -3 -1 -2 -5 6




S 1 0 1 0 0 -1 0 1 -1 -1 -3 0 -2 -3 1 3



T 1 -1 0 0 -2 -1 0 0 -1 0 -2 0 -1 -2 0 1 3


W -6 2 -4 -7 -8 -5 -7 -7 -3 -5 -2 -3 -4 0 -6 -2 -5 17

Y -3 -4 -2 -4 0 -4 -4 -5 0 -1 -1 -4 -2 7 -5 -3 -3 0 10
V 0 -2 -2 -2 -2 -2 -2 -1 -2 4 2 -2 2 -1 -1 -1 0 -6 2 4

Les matrices PAM sont un peu moins utilisées maintenant au profit des matrices BLOSUM pour les raisons suivantes :

  • l'hypothèse de départ est que tous les acides aminés ont une probabilité de mutation égale
  • le nombre de séquences protéiques à l'origine des matrices PAM (en 1978) était restreint en regard de l'échantillon de séquences protéiques à l'origine des matrices BLOSUM.
  • Il est cependant à noter qu'en 1992, le nombre de séquences et de familles ont été actualisés par l'analyse de 16130 séquences pour 2621 familles de protéines.
  • l'échantillon de séquences protéiques à l'origine des matrices PAM était biaisé car la majorité des séquences sont celles des petites protéines globulaires

Correspondance entre la distance évolutive et la valeur des matrices PAM

La zone d'ombre ("twilight zone") est la zone à partir de laquelle il devient difficile de dire si deux protéines sont homologues ou si elles se sont alignées par chance.

distance (%) PAM
1 1
25 30
50 80
80 246

alignement comparaison comparison sequence acide amine amino acid nucleotide protein ADN DNA matrice substitution Dayhoff blosum pam gonnet evolution distance mutation biochimej

biochimej biochimej Retour haut de page

c. Les matrices BLOSUM ("BLOcks SUbstitution Matrix")

Elles sont postèrieures aux matrices PAM et ont été développées par Henikoff & Henikoff en 1992.

  • Les blocs (ou "BLOCKS" ) sont des régions conservées de séquences de protéines apparentées.
  • Initialement, pour mesurer les fréquences des acides aminés, 2 000 blocs sans gap (ni insertion, ni délétion) de 500 groupes de protéines apparentées ont été examinés en comptant le nombre de correspondances et le nombre de mésappariements de chacun des 20 acides aminés.
  • Exemple d'un "BLOCK" pour 3 protéines :
LONM_YEAST|P36775 (632) GPPGVGKTSIGKSIARALNR 15
LON1_MAIZE|P93647 (409) GPPGVGKTSLASSIAKALNR 18
LONM_HUMAN|P36776 (526) GPPGVGKTSIARSIARALNR 15

Calculs pour la construction des matrices BLOSUM

  • a. Une table de fréquences a été créée à partir de ces nombres de correspondances et de mésappariements.
  • b. La probabilité de chaque type de correspondances et de mésappariements a été calculée à partir de ces fréquences.
  • c. Cette probabilité a été convertie en logarithme du rapport de probabilités ["log-odds ratios", log2(p/1-p)]. De cette manière :
    • Le score d'alignement est nul si la fréquence observée pour chaque acide aminé d'une nouvelle séquence correspond à la fréquence attendue.
    • Le score est négatif si cette fréquence est inférieure et il est positif si cette fréquence est supérieure.
  • d. Cependant, les valeurs de scores dans les matrices BLOSUM finales résultent d'une dernière opération :
    • Les logarithmes du rapport de probabilités ont été convertis en unités binaires.
    • Puis celles-ci ont été multipliées par un facteur d'échelle.
    • Enfin, les valeurs ont été arrondies à l'entier le plus proche.

Exemple : la matrice BLOSUM62

  • L'indice signifie que les valeurs ont été obtenues à partir d'un jeu de séquences ayant un pourcentage d'identité d'environ 62%). Cette matrice est l'une des plus utilisées dans les programmes d'alignement de séquences.
  • Les matrices BLOSUM sont le type de matrice par défaut du logiciel "BLASTP". Elles sont trés efficaces pour des alignements locaux de séquences ressemblantes.

Voir : "Interactive BLOSUM network visualization". Cet applet java permet de voir le lien entre la substitution d'un acide aminé par un autre et le % d'identité de la matrice et le score seuil de substitution.

Matrices dérivées des matrices BLOSUM

  • Des études de ces matrices ont révélé des incohérences dans la procédure de pondération des groupes du calcul matriciel. Les matrices ainsi corrigées sont appelées RBLOSUM (Styczynski et al., 2008).
  • La correction des imprécisions des matrices BLOSUM par la recherche des vecteurs propres unifiés optimaux a mené au développement des matrices appelées PBLOSUM (Song et al., 2015).
  • Les dernières analyses en date des erreurs ont aboutit aux matrices appelées CorBLOSUM (Hess et al., 2016).
  • Lien vers la série des matrices CorBLOSUM : Substitution Matrices.

biochimej biochimej Retour haut de page

d. Comparaison des matrices PAM et des matrices BLOSUM

Les matrices PAM sont basées sur des modèles d'évolution explicites (c'est-à-dire que les substitutions sont comptabilisées à partir des valeurs des branches d'un arbre phylogénétique), tandis que les matrices BLOSUM sont basées sur des modèles d'évolution implicites.

Les matrices PAM sont basées sur des mutations observées dans un alignement global, incluant aussi bien des régions hautement conservées que des régions hautement mutables.

Les matrices BLOSUM sont basées uniquement sur des régions hautement conservées à partir d'alignements qui ne contiennent pas de brèches ("gaps").

La méthode pour comptabiliser les substitutions est différente. A l'inverse de la procédure suivie pour l'obtention des matrices PAM, celle des matrices BLOSUM utilise des groupes de séquences au sein desquels toutes les mutations n'ont pas le même poids, c'est-à-dire que les mutations ne sont pas toutes comptabilisées de manière identique.

  • un indice élevé pour une matrice PAM décrit une distance d'évolution élevée
  • un indice élevé pour une matrice BLOSUM  décrit au contraire une forte similarité de séquences donc une distance d'évolution faible

Voir une comparaison des modes de calculs des valeurs des matrices PAM et BLOSUM.

Liens et différences entre PAM et BLOSUM
  PAM BLOSUM
Pour comparer des séquences étroitement liées des matrices avec des nombres plus faibles sont créées des matrices avec des nombres plus élevés sont créées
Pour comparer des protéines distantes des matrices avec des nombres élevés sont créées des matrices avec des nombres faibles sont créées
Matrice basée sur des alignements globaux de protéines étroitement apparentées basée sur des alignements locaux
Un indice plus élevé dans la dénomination de la matrice reflète une distance évolutive plus grande une similarité de séquence plus élevée et donc une distance d'évolution plus petite
  PAM1 est la matrice calculée à partir de comparaisons de séquences n'ayant pas plus de 15% de divergence mais correspondant à 99% d'identité de séquence. BLOSUM 62 est la matrice calculée à partir de comparaisons de séquences avec une identité par paire non supérieure à 62%.
  d'autres matrices PAM sont calculées à partir de PAM1 basé sur les alignements observés : ceux-ci ne sont pas extrapolés à partir de comparaisons de protéines étroitement apparentées

L'introduction de gaps dans les alignements réduit considérablement le contenu en information. L'effet est plus prononcé pour de faibles distances évolutives.

  • Matrice PAM30 :
    • Avec une pénalité d'ouverture de gap de 9 et une pénalité d'extension de gap de 1, cette matrice produit 0,9 bits par position.
    • Sans gap, elle produit 2,6 bits par position (3 fois plus d'information).
  • BLOSUM 62 :
    • Le contenu en information passe de 0,40 à 0,74 sans gap.
    • Par ailleurs, la longueur minimale d'alignement qui génère un score statistiquement significatif (50 bits) passe de 125 à 68 résidus d'acides aminés.
Matrice pénalité (ouverture / extension) de gap Pourcentage de similarité Information : bits/position Nombre d'acides aminés pour un score statistiquement significatif (50 bits)
PAM70 10/1 33.9 0.58 86
PAM30 9/1 45.9 0.90 56
BLOSUM80 10/1 32.0 0.48 104
BLOSUM62 11/1 28.9 0.40 125
VTML140 10/1 28.4 0.44 114
VTML120 11/1 32.1 0.54 93
VTML80 10/1 40.5 0.74 68
VTML40 13/1 64.7 1.92 26
VTML20 15/2 86.1 3.30 15
VTML10 16/2 90.9 3.87 13
Source : How to select the right substitution matrix ?

biochimej biochimej Retour haut de page

e. Les matrices Gonnet

Ce type de matrice a été construit en 1992 par Gonnet, Cohen et Benner.

C'est une méthode itérative, sur la base de 16300 séquences de protéines correspondant à 2600 familles. Chaque séquence a été comparée à l'ensemble des séquences de la banque et les alignements ont été obtenus en utilisant une matrice initiale choisie arbitrairement. Une nouvelle matrice a été construite et les alignements ont été recalculés à partir de cette nouvelle matrice.

Cette procédure a été répétée jusqu'à ce que la matrice reste inchangée.

Différentes matrices Gonnet : Gonnet 40, Gonnet 120, ..., Gonnet 250, Gonnet 350.

biochimej biochimej Retour haut de page

f. Exemples d'autres matrices et matrices spécialisées

Matrices VTML (indices : 10, 20, 40, 80, 120, 140, 160, 200)

Les matrices VTML ("Variable Time Maximum Likelihood ") ont été construites à partir d'un ensemble d'alignements de séquences 2 à 2 : les distances évolutives et les vitesses de substitution ont été estimées de manière itérative avec un estimateur de maximum de vraisemblance.

  • Le modèle de M. Dayhoff a été utilisé comme matrice de taux initiale.
  • Les alignements par paires ont été obtenus en échantillonnant de manière aléatoire 2 séquences pré-alignées de chaque famille de protéines de la base de données SYSTERS. Cet ensemble de données étant beaucoup plus volumineux et diversifié que l'ensemble de données à l'origine des matrices PAM, les matrices VTML permettent de mieux détecter les homologues distants.
  • Voir une description de la matrice VTML200
  • Article : Müller et al. (2002)

Les matrices qui ciblent les similarités faibles (exemples : BLOSUM45, PAM250 et VTML160) ont un contenu en information inférieur aux matrices qui ciblent les similarités élevées (exemples : BLOSUM90, PAM100 et VTML10).

Illustration : un alignement a besoin de 50 bits (par exemple) pour être significatif du point de vue statistique.

  • Matrice BLOSUM62 : les valeurs indiquent 0,4 bits par position => l'alignement doit donc être effectué sur une longueur minimale de [50 / 0,4] = 125 résidus d'acides aminés.
  • Matrice VTML10 : les valeurs indiquent 3,87 bits par position => la longueur minimale de l'alignement est de [50 / 3,87] = 13 résidus d'acides aminés. Ce type de matrice pénalise davantage les positions alignées non-identiques.

Matrices PFASUM ("PFAm SUbstitution Matrix")

C'est une série de matrices de substitution dérivée des alignements multiples des séquences "souches" de Pfam ("Pfam seed MSA" - version 29.0) qui couvrent la quasi totalité des séquences apparentées ou divergentes.

  • PFASUM60 est une matrice performante pour la recherche de séquences homologues (en particulier d'homologues très proches).
  • Entropie relative H : PFASUM31 => 0.230 bit; PFASUM43 => 0.335 bit; PFASUM60 => 0.494 bit.
  • Lien vers la série des matrices PFASUM : PFASUM Substitution Matrices.
  • Article : Keul et al. (2017)

Voir un développement sur la base de données de familles de domaines protéiques Pfam.

Autres matrices

  • Matrice de Risler (1988) : obtenue par la superposition des structures tridimensionnelles de 32 protéines regroupées en 11 groupes de séquences très voisines
  • Matrice de Johnson et Overington (1993) : obtenue à partir de 235 structures de protéines protéiques regroupées en 65 familles pour lesquelles on connaissait au moins la structure tridimensionnelle de trois séquences

Enfin, de plus en plus de matrices spécialisées sont développées. Elles s'appuient sur des jeux de données hautement spécifiques qui rassemblent des séquences (et d'autres informations comme des données de structure) de protéines ayant une relation structure - fonction particulière. Par exemple les protéines transmembranaires, en particulier les récepteurs couplés aux protéines G (ou RCPG).

Pourcentages des acides aminés dans différentes matrices de substitution et dans la base de données Swiss-Prot
Acide aminé

GPCRtm
RCPG classe A

JTTtm
Protéines membranaires

PHDhtm
Protéines membranaires

BLOSUM62
Critère évolutif

% issu des données
de Swiss-Prot

Ala (A) 8.0 10.5 8.8 7.4 8.3
Cys (C) 3.6 2.2 2.6 2.5 1.4
Asp (D) 2.1 0.9 1.4 5.4 5.5
Glu (E) 1.9 1.0 1.0 5.4 6.7
Phe (F) 7.3 7.7 9.3 4.7 3.9
Gly (G) 4.6 7.6 5.7 7.4 7.0
His (H) 2.1 1.7 1.1 2.6 2.3
Ile (I) 8.1 11.9 11.0 6.8 5.9
Lys (K) 3.4 1.1 0.9 5.8 5.8
Leu (L) 14.1 16.3 16.0 9.9 9.7
Met (M) 3.1 3.3 4.1 2.8 2.4
Asn (N) 3.4 1.8 2.2 4.5 4.1
Pro (P) 3.8 2.6 3.2 3.9 4.7
Gln (Q) 2.2 1.4 1.2 3.4 3.9
Arg (R) 4.5 1.6 2.1 5.2 5.5
Ser (S) 6.8 5.7 6.5 5.7 6.6
Thr (T) 5.6 5.2 5.3 5.1 5.3
Val (V) 9.2 11.9 11.0 7.3 6.9
Trp (W) 1.9 2.2 1.9 1.3 1.1
Tyr (Y) 4.3 3.2 4.7 3.2 2.9

On remarque la proportion nettement plus importante d'acides aminés hydrophobes constitutifs des hélices transmembranaires. Ces chiffres évoluent (légèrement) au fur et à mesure que de nouvelles séquences sont ajoutées dans les différentes bases de données.

  • Matrices JTT : Jones, Taylor &Thornton (1994) "A mutation data matrix for transmembrane proteins" FEBS Lett. 339, 269 - 275
  • Matrices PHDhtm : Ng et al. (2000) "PHAT: a transmembrane-specific substitution matrix. Predicted hydrophobic and transmembrane" Bioinformatics 16, 760 - 766

biochimej biochimej Retour haut de page

g. Quelques règles pour le choix d'une matrice protéique

Vue la diversité des types de matrices, le problème du choix adapté au type d'analyse que l'on veut faire se pose. La règle la plus simple est de tester diverses matrices et valeurs de gaps et de comparer les résultats obtenus.

Ce pendant, un grand nombre d'études sur les matrices ont mis en évidence que, de manière schématique :

  • pour des séquences similaires et courtes, il est préférable d'utiliser une matrice BLOSUM élevée (ou PAM faible : par exemple 40)
  • inversement pour des séquences divergentes et longues une matrice BLOSUM faible (ou PAM élevée) est mieux adaptée
  • pour une séquence requête courte (50 - 85 acides aminés), la matrice BLOSUM 80 est mieux adaptée
  • pour une séquence requête longue (> 300 acides aminés), la matrice BLOSUM 50 est mieux adaptée
PAM 100
BLOSUM 90
PAM 120
BLOSUM 64 - 80
PAM 160
BLOSUM 60 - 62
PAM 250
BLOSUM 45
séquences peu divergentes <=====> séquences trés divergentes
  • les matrices BLOSUM sont mieux adaptées à la détection d'alignements locaux
  • la matrice BLOSUM 62 est mieux adaptée à la détection de similarités faibles

Pour la comparaison d'une séquence donnée à un ensemble de séquences dans une banque de données, il semble que la matrice PAM 120 soit un bon point de départ. De manière générale, pour les recherches dans les banques : Gonnet > BLOSUM 50 et BLOSUM 62 > PAM.

Les logiciels de recherche de similarité de séquences (exemples : BLASTP, SSEARCH, FASTA …) utilisent des matrices de substitution construites pour identifier les relations évolutives lointaines (BLOSUM62 pour BLAST, BLOSUM50 pour SEARCH et FASTA).

  • BLOSUM50 et BLOSUM62 ciblent des alignements avec une identité de 20 à 30%, tandis que les matrices telles que VTML10 - VTML80 ciblent des alignements avec une identité de 50 à 90 % qui reflètent des changements moins évolutifs.
  • Les matrices telles que BLOSUM50 et BLOSUM62 permettent des recherches de similarité très sensibles mais elles nécessitent des alignements de séquence plus longs : elles peuvent produire une sur-extension de l'alignement dans des régions non homologues.

Les matrices telles que VTML10 - VTML80 sont plus efficaces pour la recherche de domaines protéiques courts ou de séquences orthologues entre organismes ayant divergé récemment.

Voir "How to select the right substitution matrix ?".

 

4. Liens Internet et références bibliographiques

Astral Sequences & Subsets - SCOPe : jeux de données pour tester les performances des différents types de matrices

BAliBASE : "A benchmark alignment database for the evaluation of multiple alignment programs"

Théorie information - modélisation

ASTRAL - SCOPe

BALIBASE

Aller au site

Shannon C.E. (1948) "A mathematical theory of communication" Bell Syst. Tech. J. 27, 379 - 423, 623 - 656

Dayhoff, Schwartz & Orcutt (1978) "A model of evolutionary change in proteins" dans "Atlas of protein sequence and structure", Dayhoff, M.O. (ed.), vol 5, 345 - 352

Johnson & Overington (1993) "A structural basis for sequence comparisons. An evaluation of scoring methodologies" J. Mol. Biol. 233, 716 - 738

Jones et al (1994) "A mutation data matrix for transmembrane proteins" FEBS Lett. 339, 269 - 275

Strait & Dewey (1996) "The Shannon information entropy of protein sequences" Biophys. J. 71, 148 - 155

Henikoff & Henikoff (1992) "Amino acid substitution matrices from protein blocks" Proc. Nat. Acad. Sci. USA 89, 10915 - 10919

Gonnet et al. (1992) "Exhaustive matching of the entire protein sequence database" Science 256, 1443-1444

Ng et al. (2000) "PHAT: a transmembrane-specific substitution matrix. Predicted hydrophobic and transmembrane" Bioinformatics 16, 760 - 766

Müller et al. (2002) "Estimating amino acid substitution models: a comparison of Dayhoff's estimator, the resolvent approach and a maximum likelihood method" Mol. Biol. Evol. 19, 8 - 13

Article

Article

Article

Article

Article

Styczynski et al. (2008) "BLOSUM62 miscalculations improve search performance" Nat. Biotechnol. 26, 274 275

Song et al. (2015) "Parameterized BLOSUM matrices for protein alignment" IEEE/ACM Trans. Comput. Biol. Bioinform. 12, 686 - 694

Rios et al. (2015) "GPCRtm: An amino acid substitution matrix for the transmembrane region of class A G Protein-Coupled Receptors" BMC Bioinformatics 16, 206

Article

Article

Article

Hess et al. (2016) "Addressing inaccuracies in BLOSUM computation improves homology search performance" BMC Bioinform. 17, 189

Keul et al. (2017) "PFASUM: a substitution matrix from Pfam structural alignments" BMC Bioinformatics 18, 293

Trivedi & Nagarajaram (2019) "Amino acid substitution scoring matrices specific to intrinsically disordered regions in proteins" Sci. Rep. 9, 16380

Article

Article

Article

biochimej biochimej Retour haut de page

Valid XHTML 1.0 Transitional