Les matrices de substitution pour la comparaison - alignement des séquences de nucléotides ou d'acides aminés |
Tweet |
![]() |
1. Les matrices nucléiques 2. Les matrices protéiques
|
3. Liens Internet et références bibliographiques |
Voir un cours sur les algorithmes de comparaison et d'alignement de séquences. Plusieurs termes sont employés pour décrire une notion difficile : la « ressemblance » entre deux séquences biologiques :
Source : « Genet » R. Jalousot |
1. Les matrices nucléiques Il existe peu de matrices pour les acides nucléiques car il n'y a que 4 lettres pour leur alphabet. La plus fréquemment utilisée est la matrice dite unitaire (ou matrice identité) où toutes les bases sont considérées comme équivalentes. |
A | T | G | C | |
A | 1 | 0 | 0 | 0 |
T | 0 | 1 | 0 | 0 |
G | 0 | 0 | 1 | 0 |
C | 0 | 0 | 0 | 1 |
Matrice dite de transition - transversion |
A | T | G | C | |
A | 3 | 0 | 1 | 0 |
T | 0 | 3 | 0 | 1 |
G | 1 | 0 | 3 | 0 |
C | 0 | 1 | 0 | 3 |
Matrice dite de BLAST |
A | T | G | C | |
A | 1 | - 3 | - 3 | - 3 |
T | - 3 | 1 | - 3 | - 3 |
G | - 3 | - 3 | 1 | - 3 |
C | - 3 | - 3 | - 3 | - 3 |
Les matrices de substitution des acides aminés standard (« standard log-odds ratios matrices ») Ces matrices de substitution sont construites à partir de grands ensembles d'alignements de séquences de protéines, ces séquences ayant des fréquences d'acides aminés qu'on peu qualifier de « standard ». Les alignements locaux de séquences (calculés de manière rigoureuse par l'algorithme de Smith-Waterman et de manière heuristique par BLASTP ou FASTA) nécessitent des matrices de scores qui génèrent en moyenne des valeurs négatives dans le cas de comparaison des séquences aléatoires. Si le score de matrice moyen ou attendu est positif, l'alignement s'étendra jusqu'aux extrémités des séquences et sera global plutôt que local. Les valeurs des matrices PAM (Dayhoff) ont été calculées comme le logarithme d'un rapport de probabilités (remarque : "log-odds" = "the logarithm of the odds" = le logarithme des probabilités) : fréquence d'alignement observée après une distance d'évolution donnée = homologues Les valeurs des matrices BLOSUM (Henikoff & Henikoff) : même algèbre de rapport de probabilités mais les fréquences de transition ont été calculées en comptant le nombre de changements pondérés dans différents blocs. Toute matrice de scores appropriée pour les alignements locaux (score attendu négatif) peut être traitée comme une matrice « log-odds » de la forme : Sij = (1/λ) . log (pij / fi . fj)
Exemple 1 :
Exemple 2 :
Le score de bit (S') est dérivé du score d'alignement brut (S) en tenant compte des propriétés statistiques du système de calcul des scores (en particulier la matrice de score et la taille de la base de données interrogée). Puisque les scores de bit sont normalisés par rapport au système de calcul des scores, ils sont utilisés pour comparer les scores de différents alignements. |
2. Les matrices protéiques |
séquence 1 | Y | K | Y |
séquence 1 | Y | K | C |
Acides aminés i | Y | C | K |
substitutions observées : ∑ jAij | 1 | 1 | 0 |
fréquence d'apparition : fi | 3 | 1 | 2 |
Mutabilité : mi | 0,33 | 1 | 0 |
Calcul des scores et normalisation
Exemples de matrices de scores de substitution des acides aminés Fitch & Margoliash (1967) "minimum base change matrix for amino acid exchange converted to similarity measure" |
b. Les matrices PAM ("Point Accepted Mutation") Elles ont été créées par Magaret Dayhoff et ses collaborateurs, après l'alignement d'environ 1300 séquences très semblables (> 85% d'identité) appartenant à 71 familles de protéines. Ce type de matrice donne la probabilité que, suite à une mutation par substitution au cours de l'évolution, n'importe quel acide aminé remplace n'importe quel autre acide aminé sans que la fonction de la protéine ne soit altérée, d'où la terminologie "mutation acceptée".
Voir le détail mathématique de la construction des matrices PAM. |
Exemple de la matrice PAM250 (ci-dessous) Cette matrice donne la probabilité que 250 mutations soit acceptées pour 100 acides aminés. Du fait des mutations silencieuses et des réversions de mutations, cette matrice correspond à des séquences qui ont globalement 20% d'identité.
|
A | R | N | D | C | Q | E | G | H | I | L | K | M | F | P | S | T | W | Y | V | |
A | 2 | |||||||||||||||||||
R | -2 | 6 | ||||||||||||||||||
N | 0 | 0 | 2 | |||||||||||||||||
D | 0 | -1 | 2 | 4 | ||||||||||||||||
C | -2 | -4 | -4 | -5 | 4 | |||||||||||||||
Q | 0 | 1 | 1 | 2 | -5 | 4 | ||||||||||||||
E | 0 | -1 | 1 | 3 | -5 | 2 | 4 | |||||||||||||
G | 1 | -3 | 0 | 1 | -3 | -1 | 0 | 5 | ||||||||||||
H | -1 | 2 | 2 | 1 | -3 | 3 | 1 | -2 | 6 | |||||||||||
I | -1 | -2 | -2 | -2 | -2 | -2 | -2 | -3 | -2 | 5 | ||||||||||
L | -2 | -3 | -3 | -4 | -6 | -2 | -3 | -4 | -2 | 2 | 6 | |||||||||
K | -1 | 3 | 1 | 0 | -5 | 1 | 0 | -2 | 0 | -2 | -3 | 5 | ||||||||
M | -1 | 0 | -2 | -3 | -5 | -1 | -2 | -3 | -2 | 2 | 4 | 0 | 6 | |||||||
F | -4 | -4 | -4 | -6 | -4 | -5 | -5 | -5 | -2 | 1 | 2 | -5 | 0 | 9 | ||||||
P | 1 | 0 | -1 | -1 | -3 | 0 | -1 | -1 | 0 | -2 | -3 | -1 | -2 | -5 | 6 | |||||
S | 1 | 0 | 1 | 0 | 0 | -1 | 0 | 1 | -1 | -1 | -3 | 0 | -2 | -3 | 1 | 3 | ||||
T | 1 | -1 | 0 | 0 | -2 | -1 | 0 | 0 | -1 | 0 | -2 | 0 | -1 | -2 | 0 | 1 | 3 | |||
W | -6 | 2 | -4 | -7 | -8 | -5 | -7 | -7 | -3 | -5 | -2 | -3 | -4 | 0 | -6 | -2 | -5 | 17 | ||
Y | -3 | -4 | -2 | -4 | 0 | -4 | -4 | -5 | 0 | -1 | -1 | -4 | -2 | 7 | -5 | -3 | -3 | 0 | 10 | |
V | 0 | -2 | -2 | -2 | -2 | -2 | -2 | -1 | -2 | 4 | 2 | -2 | 2 | -1 | -1 | -1 | 0 | -6 | 2 | 4 |
Les matrices PAM sont un peu moins utilisées maintenant au profit des matrices BLOSUM pour les raisons suivantes :
Correspondance entre la distance évolutive et la valeur des matrices PAM La zone d'ombre ("twilight zone") est la zone à partir de laquelle il devient difficile de dire si deux protéines sont homologues ou si elles se sont alignées par chance.
|
c. Les matrices BLOSUM ("BLOcks SUbstitution Matrix") Elles sont postèrieures aux matrices PAM et ont été développées par Henikoff & Henikoff. Les matrices BLOSUM sont construites à partir de 2000 BLOCKS provenant de plus de 500 familles de protéines. Les BLOCKS sont des régions conservées de familles de protéines ne contenant pas d'insertions ou de délétions. Ils sont tenus à jour dans une base de données massive située sur le serveur Blocks WWW Server. Exemple d'un BLOCK pour 3 protéines :LONM_YEAST|P36775 (632) GPPGVGKTSIGKSIARALNR 15
Les matrices BLOSUM sont le type de matrice par défaut du logiciel "Blastp". Elles sont trés efficaces pour des alignements locaux de séquences ressemblantes. Voir : "Interactive BLOSUM network visualization". Cet applet java permet de voir le lien entre la substitution d'un acide aminé par un autre et le % d'identité de la matrice et le score seuil de substitution. |
Comparaison des matrices PAM et des matrices BLOSUM Les matrices PAM sont basées sur des modèles d'évolution explicites (c'est-à-dire que les substitutions sont comptabilisées à partir des valeurs des branches d'un arbre phylogénétique), tandis que les matrices BLOSUM sont basées sur des modèles d'évolution implicites. Les matrices PAM sont basées sur des mutations observées dans un alignement global, incluant aussi bien des régions hautement conservées que des régions hautement mutables. Les matrices BLOSUM sont basées uniquement sur des régions hautement conservées à partir d'alignements qui ne contiennent pas de brèches ("gaps"). La méthode pour comptabiliser les substitutions est différente. A l'inverse de la procédure suivie pour l'obtention des matrices PAM, celle des matrices BLOSUM utilise des groupes de séquences au sein desquels toutes les mutations n'ont pas le même poids, c'est-à-dire que les mutations ne sont pas toutes comptabilisées de manière identique.>
|
Ce type de matrice a été construit en 1992 par Gonnet, Cohen et Benner. C'est une méthode itérative, sur la base de 16300 séquences de protéines correspondant à 2600 familles. Chaque séquence a été comparée à l'ensemble des séquences de la banque et les alignements ont été obtenus en utilisant une matrice initiale choisie arbitrairement. Une nouvelle matrice a été construite et les alignements ont été recalculés à partir de cette nouvelle matrice. Cette procédure a été répétée jusqu'à ce que la matrice reste inchangée. Différentes matrices Gonnet : Gonnet 40, Gonnet 120, ..., Gonnet 250, Gonnet 350. Autres matrices :
|
f. Certaines valeurs par défaut de programmes d'alignement a. La longueur des mots "KTUP" : la valeur par défaut pour les protéines est 3. b. Par défaut, les matrices sont :
Les matrices pour les protéines sont :
c. Les paramètres de pénalité liés aux gaps La fonction de pénalité d'un gap est définie par : f(n) = d + [e . (n-1)], où :
Exemple : un gap de longueur n = 3, avec une pénalité d'ouverture d = -10 et d'extension e = -2, aura un score de f(3) = -10 + (-2 x 2) = -14
|
3. Liens Internet et références bibliographiques |
Dayhoff, Schwartz & Orcutt (1978) "A model of evolutionary change in proteins, matrixes for detecting distant relationships" dans "Atlas of protein sequence and structure", Dayhoff, M.O. (ed.), vol 5, 345 - 358 Johnson & Overington (1993) "A structural basis for sequence comparisons. An evaluation of scoring methodologies" J. Mol. Biol. 233, 716 - 738 |
|
Henikoff & Henikoff (1992) "Amino acid substitution matrices from protein blocks" Proc. Nat. Acad. Sci. USA 89, 10915 - 10919 Gonnet et al. (1992) "Exhaustive matching of the entire protein sequence database" Science 256, 1443-1444 |