Les matrices de substitution Sommaire

1. Les matrices nucléiques

2. Les matrices protéiques

a. Score et mutabilité

b. Les matrices PAM ("Point Accepted Mutation") 

c. Les matrices BLOSUM ("BLOcks SUbstitution Matrix")

d. La matrice Gonnet

e. Quelques règles pour le choix de la matrice protéique

f. Les valeurs par défaut de ClustalW

3. Liens Internet et références bibliographiques

 

1. Les matrices nucléiques

Il existe peu de matrices pour les acides nucléiques car il n'y a que 4 lettres pour leur alphabet.

La plus fréquemment utilisée est la matrice dite unitaire (ou matrice identité) où toutes les bases sont considérées comme équivalentes.

matrice unitaire

  A T G C
A 1 0 0 0
T 0 1 0 0
G 0 0 1 0
C 0 0 0 1
 

matrice de transition - transversion

  A T G C
A 3 0 1 0
T 0 3 0 1
G 1 0 3 0
C 0 1 0 3
 

matrice de BLAST

  A T G C
A 1 - 3 - 3 - 3
T - 3 1 - 3 - 3
G - 3 - 3 1 - 3
C - 3 - 3 - 3 1

2. Les matrices protéiques

a. Score et mutabilité

Le score Sij est calculé à partir d'alignement de séquences homologues. C'est le logarithme d'un rapport de 2 probabilités : Sij = log [qij / (pi . pj)]

  • qij est la fréquence de substitution i en j
  • pi est la probabilité normalisée d'apparition du résidu i
  • pi . pj est la probabilité que les acides aminés i et j soit alignés par hasard
  • Sij > 0 : substitution fréquente
  • Sij < 0 : substitution peu probable entre séquences homologues

C'est donc la probabilité que 2 acides aminés i et j soit alignés dans l'alignement de 2 séquences de protéines homologues divisé par la probabilité d'alignement par hasard dans l'alignement de séquences de protéines non homologues.

Mutabilité m d'un acide aminé i : mi = ∑ jAij / fi
séquence 1 Y K Y
séquence 1 Y K C
Acides aminés i Y C K
substitutions observées : ∑ jAij 1 1 0
fréquence d'apparition : fi 3 1 2
Mutabilité : mi 0,33 1 0

Calcul des scores et normalisation

  • Mij = (mj . Aij) / ∑ iAij
  • Aij : paire d'acides aminés
  • Rij = Mij / fi
  • Normalisation : pour un acide aminé i, transformation telle que ∑Rij = 1

b. Les matrices PAM ("Point Accepted Mutation")

Elles ont été créées par Magaret Dayhoff et ses collaborateurs, après l'alignement d'environ 1300 séquences très semblables (> 85% d'identité) appartenant à 71 familles de protéines.

Ce type de matrice donne la probabilité que, suite à une mutation par substitution au cours de l'évolution, n'importe quel acide aminé remplace n'importe quel autre acide aminé sans que la fonction de la protéine ne soit altérée, d'où la terminologie "mutation acceptée".

  • La première matrice de ce type, appelée 1PAM ("Percent Accepted Mutations") donne la probabilité qu'1 substitution soit acceptée pour 100 acides aminés.
  • La multiplication X fois de cette matrice par elle-même donne une matrice XPAM qui permet d'analyser des distances d'évolution plus importantes : 2PAM = 1PAM x 1PAM, 3PAM = 2PAM x 1PAM ...
  • A chaque matrice XPAM correspond une matrice PAMX, appelée matrice de mutation de Dayhoff. Ce sont les matrices PAMX qui sont utilisées par les algorithmes d'alignement.

Exemple de la matrice PAM250 (ci-dessous)

Cette matrice donne la probabilité que 250 mutations soit acceptées pour 100 acides aminés.

Du fait des mutations silencieuses et des réversions de mutations, cette matrice correspond à des séquences qui ont globalement 20% d'identité.

Une valeur faible dans la matrice (exemple : W / C = -8) signifie qu'il est peu probable d'observer la substitution d'un tryptophane par une cystéine sans perte significative de la fonction de la protéine.

Au contraire, une valeur forte (exemple : Y / F = 7) signifie qu'il est probable d'observer la substitution d'une tyrosine par une phénylalanine.


A R N D C Q E G H I L K M F P S T W Y V
A 2


















R -2 6

















N 0 0 2
















D 0 -1 2 4















C -2 -4 -4 -5 4














Q 0 1 1 2 -5 4













E 0 -1 1 3 -5 2 4












G 1 -3 0 1 -3 -1 0 5











H -1 2 2 1 -3 3 1 -2 6










I -1 -2 -2 -2 -2 -2 -2 -3 -2 5









L -2 -3 -3 -4 -6 -2 -3 -4 -2 2 6








K -1 3 1 0 -5 1 0 -2 0 -2 -3 5







M -1 0 -2 -3 -5 -1 -2 -3 -2 2 4 0 6






F -4 -4 -4 -6 -4 -5 -5 -5 -2 1 2 -5 0 9





P 1 0 -1 -1 -3 0 -1 -1 0 -2 -3 -1 -2 -5 6




S 1 0 1 0 0 -1 0 1 -1 -1 -3 0 -2 -3 1 3



T 1 -1 0 0 -2 -1 0 0 -1 0 -2 0 -1 -2 0 1 3


W -6 2 -4 -7 -8 -5 -7 -7 -3 -5 -2 -3 -4 0 -6 -2 -5 17

Y -3 -4 -2 -4 0 -4 -4 -5 0 -1 -1 -4 -2 7 -5 -3 -3 0 10
V 0 -2 -2 -2 -2 -2 -2 -1 -2 4 2 -2 2 -1 -1 -1 0 -6 2 4

Les matrices PAM sont un peu moins utilisées maintenant au profit des matrices BLOSUM. Les raisons sont les suivantes :

  • l'hypothèse de départ est que tous les acides aminés ont une probabilité de mutation égale
  • le nombre de séquences protéiques à l'origine des matrices PAM (en 1978) était restreint en regard de l'échantillon de séquences protéiques à l'origine des matrices BLOSUM.
  • Il est cependant à noter qu'en 1992, le nombre de séquences et de familles ont été actualisés par l'analyse de 16130 séquences pour 2621 familles de protéines.
  • l'échantillon de séquences protéiques à l'origine des matrices PAM était biaisé car la majorité des séquences sont celles des petites protéines globulaires

Correspondance entre la distance évolutive et la valeur des matrices PAM

distance (%) PAM
1 1
25 30
50 80
80 246

La zone d'ombre ("twilight zone") est la zone à partir de laquelle il devient difficile de dire si deux protéines sont homologues ou si elles se sont alignées par chance.

alignement comparaison comparison sequence acide amine amino acid nucleotide protein ADN DNA matrice substitution Dayhoff blosum pam gonnet evolution distance mutation biochimej

Retour haut de page

 

c. Les matrices BLOSUM ("BLOcks SUbstitution Matrix")

Elles sont postèrieures aux matrices PAM et ont été développées par Henikoff & Henikoff.

Les matrices BLOSUM sont construites à partir de 2000 BLOCKS provenant de plus de 500 familles de protéines.

Les BLOCKS sont des régions conservées de familles de protéines ne contenant pas d'insertions ou de délétions. Ils sont tenus à jour dans une base de données massive située sur le serveur Blocks WWW Server.

Exemple d'un BLOCK pour 3 protéines :
LONM_YEAST|P36775 ( 632) GPPGVGKTSIGKSIARALNR 15
LON1_MAIZE|P93647 ( 409) GPPGVGKTSLASSIAKALNR 18
LONM_HUMAN|P36776 ( 526) GPPGVGKTSIARSIARALNR 15
  • des BLOCKS d'acides aminés de petites portions de séquences trés conservées sont obtenus par alignement
  • puis à partir d'un ensemble de blocs est constitué un sous-ensemble qui contient les portions de séquences qui révèlent un pourcentage donné d'identité
  • ceci permet d'obtenir une probabilité de substitution pour chaque paire d'acides aminés dont découle la matrice BLOSUM
  • ainsi la matrice BLOSUM 60 est obtenue avec un pourcentage d'identité de 60%

Les matrices BLOSUM sont le type de matrice par défaut du logiciel "Blastp".

Elles sont trés efficaces pour des alignements locaux de séquences ressemblantes.

Comparaison des matrices PAM et des matrices BLOSUM

Les matrices PAM sont basées sur des modèles d'évolution explicites (c'est-à-dire que les substitutions sont comptabilisées à partir des valeurs des branches d'un arbre phylogénétique), tandis que les matrices BLOSUM sont basées sur des modèles d'évolution implicites.

Les matrices PAM sont basées sur des mutations observées dans un alignement global, incluant aussi bien des régions hautement conservées que des régions hautement mutables.

Les matrices BLOSUM sont basées uniquement sur des régions hautement conservées à partir d'alignements qui ne contiennent pas de brèches ("gaps").

La méthode pour comptabiliser les substitutions est différente. A l'inverse de la procédure suivie pour l'obtention des matrices PAM, celle des matrices BLOSUM utilise des groupes de séquences au sein desquels toutes les mutations n'ont pas le même poids, c'est-à-dire que les mutations ne sont pas toutes comptabilisées de manière identique.>

  • un indice élevé pour une matrice PAM décrit une distance d'évolution élevée
  • un indice élevé pour une matrice BLOSUM  décrit au contraire une forte similarité de séquences donc une distance d'évolution faible

d. Les matrices Gonnet

Ce type de matrice a été construit en 1992 par Gonnet, Cohen et Benner.

C'est une méthode itérative, sur la base de 16300 séquences de protéines correspondant à 2600 familles.

Chaque séquence a été comparée à l'ensemble des séquences de la banque et les alignements ont été obtenus en utilisant une matrice initiale choisie arbitrairement. Une nouvelle matrice a été construite et les alignements ont été recalculés à partir de cette nouvelle matrice.

Cette procédure a été répétée jusqu'à ce que la matrice reste inchangée.

Différentes matrices Gonnet : Gonnet 40, Gonnet 120, ..., Gonnet 250, Gonnet 350.

Autres matrices :

  • matrice de Risler (1988) : obtenue par la superposition des structures tridimensionnelles de 32 protéines regroupées en 11 groupes de séquences très voisines
  • matrice de Johnson et Overington (1993) : obtenue à partir de 235 structures de protéines protéiques regroupées en 65 familles pour lesquelles on connaissait au moins la structure tridimensionnelle de trois séquences

e. Quelques règles pour le choix de la matrice protéique

Vue la diversité des types de matrices, le problème du choix adapté au type d'analyse que l'on veut faire se pose.

Un grand nombre d'études sur les matrices ont mis en évidence que, de manière schématique :

  • pour des séquences similaires et courtes, il est préférable d'utiliser une matrice BLOSUM élevée (ou PAM faible : par exemple 40)
  • inversement pour des séquences divergentes et longues une matrice BLOSUM faible (ou PAM élevée) est mieux adaptée
  • pour une séquence requête courte (50 - 85 acides aminés), la matrice BLOSUM 80 est mieux adaptée
  • pour une séquence requête longue (> 300 acides aminés), la matrice BLOSUM 50 est mieux adaptée

PAM 100

BLOSUM 90

PAM 120

BLOSUM 64 - 80

PAM 160

BLOSUM 60 - 62

PAM 250

BLOSUM 45

séquence peu divergentes <=====================> séquence trés divergentes
  • les matrices BLOSUM sont mieux adaptées à la détection d'alignements locaux
  • la matrice BLOSUM 62 est mieux adaptée à la détection de similarités faibles

Pour la comparaison d'une séquence donnée à un ensemble de séquences dans une banque de données, il semble que la matrice PAM120 soit un bon point de départ. De manière générale, pour les recherches dans les banques :

  • Gonnet > BLOSUM 50
  • BLOSUM 62 > PAM

C'est à l'utilisateur de trouver le meilleur outil par différentes analyses et ne surtout pas "prendre pour argent comptant" le résultat d'un alignement.

f. Certaines valeurs par défaut de programems d'alignement

a. La longueur des mots "KTUP" : la valeur par défaut pour les protéines est 3.

b. Par défaut, les matrices sont :

  • la matrice identité pour les acides nucléiques
  • la matrice Gonnet 250 pour les protéines

Les matrices pour les protéines sont :

  • Blosum30
  • PAM 350
  • Gonnet 250
  • matrice "identité" qui alloue un score de 10 à deux acides aminés identiques et un score de 0 sinon

c. Les paramètres de pénalité liés aux gaps

La fonction de pénalité d'un gap est définie par : f(n) = d + [e . (n-1)], où :

  • n = longueur du gap
  • d = pénalité d'ouverture d'un gap
  • e = pénalité d'extension d'un gap

Exemple : un gap de longueur n = 3, avec une pénalité d'ouverture d = -10 et d'extension e = -2, aura un score de f(3) = -10 + (-2 x 2) = -14

  • GAP OPEN : valeur de la pénalité pour l'ouverture d'un gap. La valeur par défaut est 10.
  • GAP EXTENSION : valeur de la pénalité pour l'extension d'un gap. La valeur par défaut est 0.05.
  • GAP DISTANCES : valeur de la pénalité pour la séparation des gap. La valeur par défaut est 8.
  • NO END GAPS : si "YES", il n'y a pas de gap finaux.

 

3. Liens Internet et références bibliographiques
Dayhoff, Schwartz & Orcutt (1978) "A model of evolutionary change in proteins, matrixes for detecting distant relationships" dans "Atlas of protein sequence and structure", Dayhoff, M.O. (ed.), vol 5, 345 - 358
Henikoff & Henikoff (1992) "Amino acid substitution matrices from protein blocks" Proc. Nat. Acad. Sci. USA 89, 10915 - 10919 Article
Gonnet et al. (1992) "Exhaustive matching of the entire protein sequence database" Science 256, 1443-1444 Article

Johnson & Overington (1993) "A structural basis for sequence comparisons. An evaluation of scoring methodologies" J. Mol. Biol. 233, 716 - 738

 

Valid XHTML 1.0 Transitional         Flux RSS Retour haut de page