Les matrices de substitution pour la comparaison - alignement des séquences de nucléotides ou d'acides aminés

biochimej biochimej Flux RSS

1. Les matrices nucléiques

2. Les matrices protéiques

a. Mutabilité

b. Les matrices PAM ("Point Accepted Mutation") 

c. Les matrices BLOSUM ("BLOcks SUbstitution Matrix")

d. La matrice Gonnet

e. Quelques règles pour le choix de la matrice protéique

f. Certaines valeurs par défaut de programmes d'alignement

3. Liens Internet et références bibliographiques

 

Voir un cours sur les algorithmes de comparaison et d'alignement de séquences.

Plusieurs termes sont employés pour décrire une notion difficile : la « ressemblance » entre deux séquences biologiques :

  • L'identité est la ressemblance parfaite entre deux séquences.
  • La similarité : elle se mesure en % d'identité.
  • L'homologie : elle a une connotation évolutive : 2 séquences sont homologues si elles ont un ancêtre commun.
    1. elle est transitive : si la séquence A est homologue à la séquence B et la séquence B est homologue à la séquence C, alors A est homologue à C (même si A et C se ressemblent très peu).
    2. elle se mesure par la similarité (sauf si les séquences ont une faible complexité). L'inverse n'est pas vrai : pas de similarité ne signifie pas non-homologie.

Source : « Genet » R. Jalousot

biochimej biochimej Retour haut de page

1. Les matrices nucléiques

Il existe peu de matrices pour les acides nucléiques car il n'y a que 4 lettres pour leur alphabet.

La plus fréquemment utilisée est la matrice dite unitaire (ou matrice identité) où toutes les bases sont considérées comme équivalentes.

  A T G C
A 1 0 0 0
T 0 1 0 0
G 0 0 1 0
C 0 0 0 1

Matrice dite de transition - transversion

  A T G C
A 3 0 1 0
T 0 3 0 1
G 1 0 3 0
C 0 1 0 3

Matrice dite de BLAST

  A T G C
A 1 - 3 - 3 - 3
T - 3 1 - 3 - 3
G - 3 - 3 1 - 3
C - 3 - 3 - 3 - 3

biochimej biochimej Retour haut de page

Les matrices de substitution des acides aminés standard (« standard log-odds ratios matrices »)

Ces matrices de substitution sont construites à partir de grands ensembles d'alignements de séquences de protéines, ces séquences ayant des fréquences d'acides aminés qu'on peu qualifier de « standard ».

Les alignements locaux de séquences (calculés de manière rigoureuse par l'algorithme de Smith-Waterman et de manière heuristique par BLASTP ou FASTA) nécessitent des matrices de scores qui génèrent en moyenne des valeurs négatives dans le cas de comparaison des séquences aléatoires.

Si le score de matrice moyen ou attendu est positif, l'alignement s'étendra jusqu'aux extrémités des séquences et sera global plutôt que local.

Les valeurs des matrices PAM (Dayhoff) ont été calculées comme le logarithme d'un rapport de probabilités (remarque : "log-odds" = "the logarithm of the odds" = le logarithme des probabilités) :

fréquence d'alignement observée après une distance d'évolution donnée = homologues
log (---------------------------------------------------------------------------------------- )
fréquence d'alignement attendue liée au hasard

Les valeurs des matrices BLOSUM (Henikoff & Henikoff) : même algèbre de rapport de probabilités mais les fréquences de transition ont été calculées en comptant le nombre de changements pondérés dans différents blocs.

Toute matrice de scores appropriée pour les alignements locaux (score attendu négatif) peut être traitée comme une matrice « log-odds » de la forme :

Sij = (1/λ) . log (pij / fi . fj)

  • Sij est le score calculé pour l'alignement de 2 acides aminés i et j : Sij > 0 indique une substitution fréquente et Sij < 0 indique une substitution peu probable entre séquences homologues
  • pij est la probabilité que l'acide aminé i soit substitué en acide aminé j
  • fi et fj sont les fréquences des acides aminés i et j
  • le produit (fi . fj) donne la fréquence attendue pour 2 acides aminés alignés par hasard
  • λ est un facteur d'échelle qui permet que les scores individuels dans la matrice soient représentés avec précision par des nombres entiers.
  • Les valeurs des matrices de scores les plus courantes varient de -10 à + 20, ce qui reflète des facteurs d'échelle λ :
    1. de ([ln(2)/2] - 1/2 bit) unités pour les matrices PAM120 ou BLOSUM62 par exemple
    2. de [ln(2)/3] - 1/3 bit) unités pour les matrices PAM250 ou BLOSUM50 par exemple

Exemple 1 :

  • Le score de la matrice BLOSUM62 pour aligner D avec D est +6.
  • Par ailleurs, la matrice BLOSUM62 est mise à l'échelle en « 1/2 bit » unités (soit : +6 / 2 =3).
  • Donc un alignement (D:D) est 6 = 2*[log2 (pD,D / fD . fD)] ou bien encore 23 = 8 fois plus probable du fait d'une homologie que du fait du hasard.

Exemple 2 :

  • Le score de la matrice BLOSUM62 pour aligner D avec L est -4.
  • Un alignement (D:L) est donc 22 = 4 fois plus probable du fait du hasard que du fait d'être observé dans des blocs homologues alignés pour la construction de la matrice BLOSUM62.

Le score de bit (S') est dérivé du score d'alignement brut (S) en tenant compte des propriétés statistiques du système de calcul des scores (en particulier la matrice de score et la taille de la base de données interrogée). Puisque les scores de bit sont normalisés par rapport au système de calcul des scores, ils sont utilisés pour comparer les scores de différents alignements.

biochimej biochimej Retour haut de page

2. Les matrices protéiques

a. Mutabilité m d'un acide aminé i : mi = ∑ jAij / fi

séquence 1 Y K Y
séquence 1 Y K C
Acides aminés i Y C K
substitutions observées : ∑ jAij 1 1 0
fréquence d'apparition : fi 3 1 2
Mutabilité : mi 0,33 1 0

Calcul des scores et normalisation

  • Mij = (mj . Aij) / ∑ iAij
  • Aij : paire d'acides aminés
  • Rij = Mij / fi
  • Normalisation : pour un acide aminé i, transformation telle que ∑Rij = 1

Exemples de matrices de scores de substitution des acides aminés

Fitch & Margoliash (1967) "minimum base change matrix for amino acid exchange converted to similarity measure"
Dayhoff et al. (1968, 1978) matrices PAM (voir ci-dessous)
McLachlan (1971) matrice dérivée de 16 familles de protéines
Grantham (1974) matrice dérivée de trois propriétés physico-chimiques des acides aminés
Doolittle (1979) "intuitive structural-genetic matrix"
Miyata et al. (1979) matrice dérivée de la polarité et du volume moléculaire des acides aminés (Grantham, 1974)
Levin et al. (1986) matrice empirique & structures secondaires
Rao (1987) matrice dérivée des paramètres de Chou & Fasman (1974)
Risler et al. (1988) matrice dérivée de la comparaison des structures 3D de 11 familles de protéines homologues
Gonnet et al. (1992) matrices Gonnet (voir ci-dessous)
Henikoff & Henikoff (1992) matrices BLOSUM (voir ci-dessous)
Jones et al. (1992) matrice dérivée de 23.000 séquences de protéines

biochimej biochimej Retour haut de page

b. Les matrices PAM ("Point Accepted Mutation")

Elles ont été créées par Magaret Dayhoff et ses collaborateurs, après l'alignement d'environ 1300 séquences très semblables (> 85% d'identité) appartenant à 71 familles de protéines.

Ce type de matrice donne la probabilité que, suite à une mutation par substitution au cours de l'évolution, n'importe quel acide aminé remplace n'importe quel autre acide aminé sans que la fonction de la protéine ne soit altérée, d'où la terminologie "mutation acceptée".

  • La première matrice de ce type, appelée 1PAM ("Percent Accepted Mutations") donne la probabilité qu'1 substitution soit acceptée pour 100 acides aminés.
  • La multiplication X fois de cette matrice par elle-même donne une matrice XPAM qui permet d'analyser des distances d'évolution plus importantes : 2PAM = 1PAM x 1PAM, 3PAM = 2PAM x 1PAM ...
  • A chaque matrice XPAM correspond une matrice PAMX, appelée matrice de mutation de Dayhoff. Ce sont les matrices PAMX qui sont utilisées par les algorithmes d'alignement.

Voir le détail mathématique de la construction des matrices PAM.

biochimej biochimej Retour haut de page

Exemple de la matrice PAM250 (ci-dessous)

Cette matrice donne la probabilité que 250 mutations soit acceptées pour 100 acides aminés.

Du fait des mutations silencieuses et des réversions de mutations, cette matrice correspond à des séquences qui ont globalement 20% d'identité.

  • Une valeur faible dans la matrice (exemple : W / C = -8) signifie qu'il est peu probable d'observer la substitution d'un tryptophane par une cystéine sans perte significative de la fonction de la protéine.
  • Au contraire, une valeur forte (exemple : Y / F = 7) signifie qu'il est probable d'observer la substitution d'une tyrosine par une phénylalanine.

A R N D C Q E G H I L K M F P S T W Y V
A 2


















R -2 6

















N 0 0 2
















D 0 -1 2 4















C -2 -4 -4 -5 4














Q 0 1 1 2 -5 4













E 0 -1 1 3 -5 2 4












G 1 -3 0 1 -3 -1 0 5











H -1 2 2 1 -3 3 1 -2 6










I -1 -2 -2 -2 -2 -2 -2 -3 -2 5









L -2 -3 -3 -4 -6 -2 -3 -4 -2 2 6








K -1 3 1 0 -5 1 0 -2 0 -2 -3 5







M -1 0 -2 -3 -5 -1 -2 -3 -2 2 4 0 6






F -4 -4 -4 -6 -4 -5 -5 -5 -2 1 2 -5 0 9





P 1 0 -1 -1 -3 0 -1 -1 0 -2 -3 -1 -2 -5 6




S 1 0 1 0 0 -1 0 1 -1 -1 -3 0 -2 -3 1 3



T 1 -1 0 0 -2 -1 0 0 -1 0 -2 0 -1 -2 0 1 3


W -6 2 -4 -7 -8 -5 -7 -7 -3 -5 -2 -3 -4 0 -6 -2 -5 17

Y -3 -4 -2 -4 0 -4 -4 -5 0 -1 -1 -4 -2 7 -5 -3 -3 0 10
V 0 -2 -2 -2 -2 -2 -2 -1 -2 4 2 -2 2 -1 -1 -1 0 -6 2 4

Les matrices PAM sont un peu moins utilisées maintenant au profit des matrices BLOSUM pour les raisons suivantes :

  • l'hypothèse de départ est que tous les acides aminés ont une probabilité de mutation égale
  • le nombre de séquences protéiques à l'origine des matrices PAM (en 1978) était restreint en regard de l'échantillon de séquences protéiques à l'origine des matrices BLOSUM.
  • Il est cependant à noter qu'en 1992, le nombre de séquences et de familles ont été actualisés par l'analyse de 16130 séquences pour 2621 familles de protéines.
  • l'échantillon de séquences protéiques à l'origine des matrices PAM était biaisé car la majorité des séquences sont celles des petites protéines globulaires

Correspondance entre la distance évolutive et la valeur des matrices PAM

La zone d'ombre ("twilight zone") est la zone à partir de laquelle il devient difficile de dire si deux protéines sont homologues ou si elles se sont alignées par chance.

distance (%) PAM
1 1
25 30
50 80
80 246

alignement comparaison comparison sequence acide amine amino acid nucleotide protein ADN DNA matrice substitution Dayhoff blosum pam gonnet evolution distance mutation biochimej

biochimej biochimej Retour haut de page

c. Les matrices BLOSUM ("BLOcks SUbstitution Matrix")

Elles sont postèrieures aux matrices PAM et ont été développées par Henikoff & Henikoff.

Les matrices BLOSUM sont construites à partir de 2000 BLOCKS provenant de plus de 500 familles de protéines.

Les BLOCKS sont des régions conservées de familles de protéines ne contenant pas d'insertions ou de délétions. Ils sont tenus à jour dans une base de données massive située sur le serveur Blocks WWW Server.

Exemple d'un BLOCK pour 3 protéines :
LONM_YEAST|P36775 (632) GPPGVGKTSIGKSIARALNR 15
LON1_MAIZE|P93647 (409) GPPGVGKTSLASSIAKALNR 18
LONM_HUMAN|P36776 (526) GPPGVGKTSIARSIARALNR 15
  • des BLOCKS d'acides aminés de petites portions de séquences trés conservées sont obtenus par alignement
  • puis à partir d'un ensemble de blocs est constitué un sous-ensemble qui contient les portions de séquences qui révèlent un pourcentage donné d'identité
  • ceci permet d'obtenir une probabilité de substitution pour chaque paire d'acides aminés dont découle la matrice BLOSUM
  • ainsi la matrice BLOSUM 60 est obtenue avec un pourcentage d'identité de 60%

Les matrices BLOSUM sont le type de matrice par défaut du logiciel "Blastp".

Elles sont trés efficaces pour des alignements locaux de séquences ressemblantes.

Voir : "Interactive BLOSUM network visualization". Cet applet java permet de voir le lien entre la substitution d'un acide aminé par un autre et le % d'identité de la matrice et le score seuil de substitution.

biochimej biochimej Retour haut de page

Comparaison des matrices PAM et des matrices BLOSUM

Les matrices PAM sont basées sur des modèles d'évolution explicites (c'est-à-dire que les substitutions sont comptabilisées à partir des valeurs des branches d'un arbre phylogénétique), tandis que les matrices BLOSUM sont basées sur des modèles d'évolution implicites.

Les matrices PAM sont basées sur des mutations observées dans un alignement global, incluant aussi bien des régions hautement conservées que des régions hautement mutables.

Les matrices BLOSUM sont basées uniquement sur des régions hautement conservées à partir d'alignements qui ne contiennent pas de brèches ("gaps").

La méthode pour comptabiliser les substitutions est différente. A l'inverse de la procédure suivie pour l'obtention des matrices PAM, celle des matrices BLOSUM utilise des groupes de séquences au sein desquels toutes les mutations n'ont pas le même poids, c'est-à-dire que les mutations ne sont pas toutes comptabilisées de manière identique.>

  • un indice élevé pour une matrice PAM décrit une distance d'évolution élevée
  • un indice élevé pour une matrice BLOSUM  décrit au contraire une forte similarité de séquences donc une distance d'évolution faible

biochimej biochimej Retour haut de page

d. Les matrices Gonnet

Ce type de matrice a été construit en 1992 par Gonnet, Cohen et Benner.

C'est une méthode itérative, sur la base de 16300 séquences de protéines correspondant à 2600 familles.

Chaque séquence a été comparée à l'ensemble des séquences de la banque et les alignements ont été obtenus en utilisant une matrice initiale choisie arbitrairement. Une nouvelle matrice a été construite et les alignements ont été recalculés à partir de cette nouvelle matrice.

Cette procédure a été répétée jusqu'à ce que la matrice reste inchangée.

Différentes matrices Gonnet : Gonnet 40, Gonnet 120, ..., Gonnet 250, Gonnet 350.

Autres matrices :

  • matrice de Risler (1988) : obtenue par la superposition des structures tridimensionnelles de 32 protéines regroupées en 11 groupes de séquences très voisines
  • matrice de Johnson et Overington (1993) : obtenue à partir de 235 structures de protéines protéiques regroupées en 65 familles pour lesquelles on connaissait au moins la structure tridimensionnelle de trois séquences

biochimej biochimej Retour haut de page

e. Quelques règles pour le choix de la matrice protéique

Vue la diversité des types de matrices, le problème du choix adapté au type d'analyse que l'on veut faire se pose.

Un grand nombre d'études sur les matrices ont mis en évidence que, de manière schématique :

  • pour des séquences similaires et courtes, il est préférable d'utiliser une matrice BLOSUM élevée (ou PAM faible : par exemple 40)
  • inversement pour des séquences divergentes et longues une matrice BLOSUM faible (ou PAM élevée) est mieux adaptée
  • pour une séquence requête courte (50 - 85 acides aminés), la matrice BLOSUM 80 est mieux adaptée
  • pour une séquence requête longue (> 300 acides aminés), la matrice BLOSUM 50 est mieux adaptée
PAM 100
BLOSUM 90
PAM 120
BLOSUM 64 - 80
PAM 160
BLOSUM 60 - 62
PAM 250
BLOSUM 45
séquences peu divergentes <==========> séquences trés divergentes
  • les matrices BLOSUM sont mieux adaptées à la détection d'alignements locaux
  • la matrice BLOSUM 62 est mieux adaptée à la détection de similarités faibles

Pour la comparaison d'une séquence donnée à un ensemble de séquences dans une banque de données, il semble que la matrice PAM120 soit un bon point de départ. De manière générale, pour les recherches dans les banques :

  • Gonnet > BLOSUM 50
  • BLOSUM 62 > PAM

C'est à l'utilisateur de trouver le meilleur outil par différentes analyses et ne surtout pas "prendre pour argent comptant" le résultat d'un alignement.

biochimej biochimej Retour haut de page

f. Certaines valeurs par défaut de programmes d'alignement

a. La longueur des mots "KTUP" : la valeur par défaut pour les protéines est 3.

b. Par défaut, les matrices sont :

  • la matrice identité pour les acides nucléiques
  • la matrice Gonnet 250 pour les protéines

Les matrices pour les protéines sont :

  • Blosum 30
  • PAM 350
  • Gonnet 250
  • matrice "identité" qui alloue un score de 10 à deux acides aminés identiques et un score de 0 sinon

c. Les paramètres de pénalité liés aux gaps

La fonction de pénalité d'un gap est définie par : f(n) = d + [e . (n-1)], où :

  • n = longueur du gap
  • d = pénalité d'ouverture d'un gap
  • e = pénalité d'extension d'un gap

Exemple : un gap de longueur n = 3, avec une pénalité d'ouverture d = -10 et d'extension e = -2, aura un score de f(3) = -10 + (-2 x 2) = -14

  • GAP OPEN : valeur de la pénalité pour l'ouverture d'un gap. La valeur par défaut est 10.
  • GAP EXTENSION : valeur de la pénalité pour l'extension d'un gap. La valeur par défaut est 0.05.
  • GAP DISTANCES : valeur de la pénalité pour la séparation des gap. La valeur par défaut est 8.
  • NO END GAPS : si "YES", il n'y a pas de gap finaux.

 

3. Liens Internet et références bibliographiques

Dayhoff, Schwartz & Orcutt (1978) "A model of evolutionary change in proteins, matrixes for detecting distant relationships" dans "Atlas of protein sequence and structure", Dayhoff, M.O. (ed.), vol 5, 345 - 358

Johnson & Overington (1993) "A structural basis for sequence comparisons. An evaluation of scoring methodologies" J. Mol. Biol. 233, 716 - 738

Henikoff & Henikoff (1992) "Amino acid substitution matrices from protein blocks" Proc. Nat. Acad. Sci. USA 89, 10915 - 10919

Gonnet et al. (1992) "Exhaustive matching of the entire protein sequence database" Science 256, 1443-1444

Article

Article

biochimej biochimej Retour haut de page

Valid XHTML 1.0 Transitional