Les matrices de substitution pour la comparaison - alignement des séquences de nucléotides ou d'acides aminés

biochimej biochimej Flux RSS

1. Les matrices pour les acides nucléiques

2. Calcul des valeurs élémentaires des matrices de substitution des acides aminés ("standard log-odds ratios matrices")

3. Les matrices protéiques

a. Mutabilité
b. Les matrices PAM ("Point Accepted Mutation")

 

c. Les matrices BLOSUM ("BLOcks SUbstitution Matrix")
d. Comparaison des matrices PAM et des matrices BLOSUM
e. Les matrices Gonnet
f. Exemples d'autres matrices et matrices spécialisées
g. Quelques règles pour le choix d'une matrice protéique

4. Liens Internet et références bibliographiques

 

Voir un cours sur les algorithmes de comparaison et d'alignement de séquences.

Plusieurs termes sont employés pour décrire une notion difficile : la « ressemblance » entre deux séquences biologiques :

  • L'identité est la ressemblance parfaite entre deux séquences.
  • La similarité : elle se mesure en % d'identité.
  • L'homologie : elle a une connotation évolutive : 2 séquences sont homologues si elles ont un ancêtre commun.
    1. elle est transitive : si la séquence A est homologue à la séquence B et la séquence B est homologue à la séquence C, alors A est homologue à C (même si A et C se ressemblent très peu).
    2. elle se mesure par la similarité (sauf si les séquences ont une faible complexité). L'inverse n'est pas vrai : pas de similarité ne signifie pas non-homologie.

Source : « Genet » R. Jalousot

biochimej biochimej Retour haut de page

1. Les matrices pour les acides nucléiques

Il existe peu de matrices pour les acides nucléiques car il n'y a que 4 lettres pour leur alphabet.

La plus fréquemment utilisée est la matrice dite unitaire (ou matrice identité) où toutes les bases sont considérées comme équivalentes.

  A T G C
A 1 0 0 0
T 0 1 0 0
G 0 0 1 0
C 0 0 0 1

Matrice dite de transition - transversion

  A T G C
A 3 0 1 0
T 0 3 0 1
G 1 0 3 0
C 0 1 0 3

Matrice dite de BLAST

  A T G C
A 1 - 3 - 3 - 3
T - 3 1 - 3 - 3
G - 3 - 3 1 - 3
C - 3 - 3 - 3 - 3

biochimej biochimej Retour haut de page

2. Calcul des valeurs élémentaires des matrices de substitution des acides aminés ("standard log-odds ratios matrices")

Ces matrices de substitution sont construites à partir de grands ensembles d'alignements de séquences de protéines, ces séquences ayant des fréquences d'acides aminés qu'on peu qualifier de « standard ».

Les alignements locaux de séquences (calculés de manière rigoureuse par l'algorithme de Smith-Waterman et de manière heuristique par BLASTP ou FASTA) nécessitent des matrices de scores qui génèrent en moyenne des valeurs négatives dans le cas de comparaison des séquences aléatoires.

Si le score de matrice moyen ou attendu est positif, l'alignement s'étendra jusqu'aux extrémités des séquences et sera global plutôt que local.

Les valeurs des matrices PAM (voir ci-dessous) ont été calculées comme le logarithme d'un rapport de probabilités (remarque : "log-odds" = "the logarithm of the odds" = le logarithme des probabilités) :

fréquence d'alignement observée après une distance d'évolution donnée = homologues
log (---------------------------------------------------------------------------------------- )
fréquence d'alignement attendue liée au hasard

Les valeurs des matrices BLOSUM (voir ci-dessous) : même algèbre de rapport de probabilités mais les fréquences de transition ont été calculées en comptant le nombre de changements pondérés dans différents blocs.

Toute matrice de scores appropriée pour les alignements locaux (score attendu négatif) peut être traitée comme une matrice « log-odds » de la forme :

Sij = (1/λ) . log (pij / fi . fj)

  • Sij est le score calculé pour l'alignement de 2 acides aminés i et j : Sij > 0 indique une substitution fréquente et Sij < 0 indique une substitution peu probable entre séquences homologues
  • pij est la probabilité que l'acide aminé i soit substitué en acide aminé j
  • fi et fj sont les fréquences des acides aminés i et j
  • le produit (fi . fj) donne la fréquence attendue pour 2 acides aminés alignés par hasard
  • λ est un facteur d'échelle qui permet que les scores individuels dans la matrice soient représentés avec précision par des nombres entiers.
  • Les valeurs des matrices de scores les plus courantes varient de -10 à + 20, ce qui reflète des facteurs d'échelle λ :
    1. de ([ln(2)/2] - 1/2 bit) unités pour les matrices PAM120 ou BLOSUM62 par exemple
    2. de [ln(2)/3] - 1/3 bit) unités pour les matrices PAM250 ou BLOSUM50 par exemple

Exemple 1 :

  • Le score de la matrice BLOSUM62 pour aligner D avec D est +6.
  • Par ailleurs, la matrice BLOSUM62 est mise à l'échelle en « 1/2 bit » unités (soit : +6 / 2 =3).
  • Donc un alignement (D:D) est 6 = 2*[log2 (pD,D / fD . fD)] ou bien encore 23 = 8 fois plus probable du fait d'une homologie que du fait du hasard.

Exemple 2 :

  • Le score de la matrice BLOSUM62 pour aligner D avec L est -4.
  • Un alignement (D:L) est donc 22 = 4 fois plus probable du fait du hasard que du fait d'être observé dans des blocs homologues alignés pour la construction de la matrice BLOSUM62.

Le score de bit (S') est dérivé du score d'alignement brut (S) en tenant compte des propriétés statistiques du système de calcul des scores (en particulier la matrice de score et la taille de la base de données interrogée). Puisque les scores de bit sont normalisés par rapport au système de calcul des scores, ils sont utilisés pour comparer les scores de différents alignements.

biochimej biochimej Retour haut de page

Entropie relative

Toute matrice, quels que soient son type et son indice, est caractérisée par son contenu en information, appelée entropie relative ("relative entropy H : average mutual information per amino acid pair") qui est liée au nombre de résidus d'acides aminés qui doivent être alignés pour obtenir un score significatif statistiquement.

  • Elle est exprimée en bit ("binary digit") si le logarithme en base 2 (log2X) est utilisé.
  • Voir la théorie de l'information de Claude Elwood Shannon.

De manière schématique, on peut faire les approximations suivantes en considérant une utilisation équi-probable des 4 nucléotides (p = 0,25) et des 20 acides aminés (p = 0,05), ce qui ne reflète pas la réalité biologique.

Nucléotides

  • Le nombre total de nucléotides dans Genbank & WGS est d'environ 4200 milliards (avril 2019) => H = log2(4200 milliards) ≈ 42 bits.
  • Chaque nucléotide d'une séquende d'ADN contient 2 bits d'information : A, T, G et C => log2(4) = 2 bits.
  • Pour produire un alignement statistiquement significatif, une séquence d'ADN doit avoir une longueur minimale de 42/2 = 21 nucléotides.

Acides aminés

  • Le nombre total d'acides aminés dans TrEMBL est d'environ 49 milliards (avril 2019) => H = log2(49 milliards) ≈ 35,5 bits.
  • Les 20 acides aminés naturels contiennent davantage d'informations par résidu : H = log2(20) ≈ 4,3 bits.
  • Pour produire un alignement statistiquement significatif, une séquence protéique doit avoir une longueur minimale de 35,5/4,3 ≈ 8 résidus d'acides aminés.

biochimej biochimej Retour haut de page

3. Les matrices protéiques

a. Mutabilité m d'un acide aminé i : mi = ∑ jAij / fi

séquence 1 Y K Y
séquence 1 Y K C
Acides aminés i Y C K
substitutions observées : ∑ jAij 1 1 0
fréquence d'apparition : fi 3 1 2
Mutabilité : mi 0,33 1 0

Calcul des scores et normalisation

  • Mij = (mj . Aij) / ∑ iAij
  • Aij : paire d'acides aminés
  • Rij = Mij / fi
  • Normalisation : pour un acide aminé i, transformation telle que ∑Rij = 1

Exemples de matrices de scores de substitution des acides aminés

Fitch & Margoliash (1967) "minimum base change matrix for amino acid exchange converted to similarity measure"
Dayhoff et al. (1968, 1978) matrices PAM (voir ci-dessous)
McLachlan (1971) matrice dérivée de 16 familles de protéines
Grantham (1974) matrice dérivée de trois propriétés physico-chimiques des acides aminés
Doolittle (1979) "intuitive structural-genetic matrix"
Miyata et al. (1979) matrice dérivée de la polarité et du volume moléculaire des acides aminés (Grantham, 1974)
Levin et al. (1986) matrice empirique & structures secondaires
Rao (1987) matrice dérivée des paramètres de Chou & Fasman (1974)
Risler et al. (1988) matrice dérivée de la comparaison des structures 3D de 11 familles de protéines homologues
Gonnet et al. (1992) matrices Gonnet (voir ci-dessous)
Henikoff & Henikoff (1992) matrices BLOSUM (voir ci-dessous)
Jones et al. (1992) matrice dérivée de 23.000 séquences de protéines

biochimej biochimej Retour haut de page

b. Les matrices PAM ("Point Accepted Mutation")

Elles ont été créées par Magaret Dayhoff et ses collaborateurs, après l'alignement d'environ 1300 séquences très semblables (> 85% d'identité) appartenant à 71 familles de protéines.

alignement comparaison comparison sequence acide amine amino acid nucleotide protein ADN DNA matrice substitution Dayhoff blosum pam gonnet PFASUM evolution distance mutation Shannon entropy information bit biochimej

Source : M. Dayhoff (1925-1983). Cette photo est la propriété de sa fille R. Dayhoff et mise à disposition par la National Library of Medicine.

Les matrices PAM donnent la probabilité que, suite à une mutation par substitution au cours de l'évolution, n'importe quel acide aminé remplace n'importe quel autre acide aminé sans que la fonction de la protéine ne soit altérée, d'où la terminologie "mutation acceptée".

  • La première matrice de ce type, appelée 1PAM ("Percent Accepted Mutations") donne la probabilité qu'1 substitution soit acceptée pour 100 acides aminés.
  • La multiplication X fois de cette matrice par elle-même donne une matrice XPAM qui permet d'analyser des distances d'évolution plus importantes : 2PAM = 1PAM x 1PAM, 3PAM = 2PAM x 1PAM ...
  • A chaque matrice XPAM correspond une matrice PAMX, appelée matrice de mutation de Dayhoff. Ce sont les matrices PAMX qui sont utilisées par les algorithmes d'alignement.

Voir le détail mathématique de la construction des matrices PAM.

biochimej biochimej Retour haut de page

Exemple de la matrice PAM250 (ci-dessous)

Cette matrice donne la probabilité que 250 mutations soit acceptées pour 100 acides aminés.

Du fait des mutations silencieuses et des réversions de mutations, cette matrice correspond à des séquences qui ont globalement 20% d'identité.

  • Une valeur faible dans la matrice (exemple : W / C = -8) signifie qu'il est peu probable d'observer la substitution d'un tryptophane par une cystéine sans perte significative de la fonction de la protéine.
  • Au contraire, une valeur forte (exemple : Y / F = 7) signifie qu'il est probable d'observer la substitution d'une tyrosine par une phénylalanine.

A R N D C Q E G H I L K M F P S T W Y V
A 2


















R -2 6

















N 0 0 2
















D 0 -1 2 4















C -2 -4 -4 -5 4














Q 0 1 1 2 -5 4













E 0 -1 1 3 -5 2 4












G 1 -3 0 1 -3 -1 0 5











H -1 2 2 1 -3 3 1 -2 6










I -1 -2 -2 -2 -2 -2 -2 -3 -2 5









L -2 -3 -3 -4 -6 -2 -3 -4 -2 2 6








K -1 3 1 0 -5 1 0 -2 0 -2 -3 5







M -1 0 -2 -3 -5 -1 -2 -3 -2 2 4 0 6






F -4 -4 -4 -6 -4 -5 -5 -5 -2 1 2 -5 0 9





P 1 0 -1 -1 -3 0 -1 -1 0 -2 -3 -1 -2 -5 6




S 1 0 1 0 0 -1 0 1 -1 -1 -3 0 -2 -3 1 3



T 1 -1 0 0 -2 -1 0 0 -1 0 -2 0 -1 -2 0 1 3


W -6 2 -4 -7 -8 -5 -7 -7 -3 -5 -2 -3 -4 0 -6 -2 -5 17

Y -3 -4 -2 -4 0 -4 -4 -5 0 -1 -1 -4 -2 7 -5 -3 -3 0 10
V 0 -2 -2 -2 -2 -2 -2 -1 -2 4 2 -2 2 -1 -1 -1 0 -6 2 4

Les matrices PAM sont un peu moins utilisées maintenant au profit des matrices BLOSUM pour les raisons suivantes :

  • l'hypothèse de départ est que tous les acides aminés ont une probabilité de mutation égale
  • le nombre de séquences protéiques à l'origine des matrices PAM (en 1978) était restreint en regard de l'échantillon de séquences protéiques à l'origine des matrices BLOSUM.
  • Il est cependant à noter qu'en 1992, le nombre de séquences et de familles ont été actualisés par l'analyse de 16130 séquences pour 2621 familles de protéines.
  • l'échantillon de séquences protéiques à l'origine des matrices PAM était biaisé car la majorité des séquences sont celles des petites protéines globulaires

Correspondance entre la distance évolutive et la valeur des matrices PAM

La zone d'ombre ("twilight zone") est la zone à partir de laquelle il devient difficile de dire si deux protéines sont homologues ou si elles se sont alignées par chance.

distance (%) PAM
1 1
25 30
50 80
80 246

alignement comparaison comparison sequence acide amine amino acid nucleotide protein ADN DNA matrice substitution Dayhoff blosum pam gonnet evolution distance mutation biochimej

biochimej biochimej Retour haut de page

c. Les matrices BLOSUM ("BLOcks SUbstitution Matrix")

Elles sont postèrieures aux matrices PAM et ont été développées par Henikoff & Henikoff en 1992.

A l'origine, les matrices BLOSUM ont été construites à partir de 2000 BLOCKS provenant de plus de 500 familles de protéines. Actuellement la version 14.3 est construite à partir de presque 6,7 millions de BLOCKS.

Les BLOCKS sont des régions conservées de familles de protéines ne contenant pas d'insertions ou de délétions. Ils sont tenus à jour dans une base de données massive située sur le serveur Blocks WWW Server.

Exemple d'un BLOCK pour 3 protéines :
LONM_YEAST|P36775 (632) GPPGVGKTSIGKSIARALNR 15
LON1_MAIZE|P93647 (409) GPPGVGKTSLASSIAKALNR 18
LONM_HUMAN|P36776 (526) GPPGVGKTSIARSIARALNR 15
  • des BLOCKS d'acides aminés de petites portions de séquences trés conservées sont obtenus par alignement
  • puis à partir d'un ensemble de blocs est constitué un sous-ensemble qui contient les portions de séquences qui révèlent un pourcentage donné d'identité
  • ceci permet d'obtenir une probabilité de substitution pour chaque paire d'acides aminés dont découle la matrice BLOSUM
  • ainsi la matrice BLOSUM 60 est obtenue avec un pourcentage d'identité de 60%

Les matrices BLOSUM sont le type de matrice par défaut du logiciel "Blastp".

Elles sont trés efficaces pour des alignements locaux de séquences ressemblantes.

Voir : "Interactive BLOSUM network visualization". Cet applet java permet de voir le lien entre la substitution d'un acide aminé par un autre et le % d'identité de la matrice et le score seuil de substitution.

Matrices dérivées des matrices BLOSUM

  • Des études de ces matrices ont révélé des incohérences dans la procédure de pondération des groupes du calcul matriciel. Les matrices ainsi corrigées sont appelées RBLOSUM (Styczynski et al., 2008).
  • La correction des imprécisions des matrices BLOSUM par la recherche des vecteurs propres unifiés optimaux a mené au développement des matrices appelées PBLOSUM (Song et al., 2015).
  • Les dernières analyses en date des erreurs ont aboutit aux matrices appelées CorBLOSUM (Hess et al., 2016).
  • Lien vers la série des matrices CorBLOSUM : Substitution Matrices.

biochimej biochimej Retour haut de page

d. Comparaison des matrices PAM et des matrices BLOSUM

Les matrices PAM sont basées sur des modèles d'évolution explicites (c'est-à-dire que les substitutions sont comptabilisées à partir des valeurs des branches d'un arbre phylogénétique), tandis que les matrices BLOSUM sont basées sur des modèles d'évolution implicites.

Les matrices PAM sont basées sur des mutations observées dans un alignement global, incluant aussi bien des régions hautement conservées que des régions hautement mutables.

Les matrices BLOSUM sont basées uniquement sur des régions hautement conservées à partir d'alignements qui ne contiennent pas de brèches ("gaps").

La méthode pour comptabiliser les substitutions est différente. A l'inverse de la procédure suivie pour l'obtention des matrices PAM, celle des matrices BLOSUM utilise des groupes de séquences au sein desquels toutes les mutations n'ont pas le même poids, c'est-à-dire que les mutations ne sont pas toutes comptabilisées de manière identique.

  • un indice élevé pour une matrice PAM décrit une distance d'évolution élevée
  • un indice élevé pour une matrice BLOSUM  décrit au contraire une forte similarité de séquences donc une distance d'évolution faible

Voir une comparason des modes de calculs des valeurs des matrices PAM et BLOSUM.

Liens et différences entre PAM et BLOSUM
  PAM BLOSUM
Pour comparer des séquences étroitement liées des matrices avec des nombres plus faibles sont créées des matrices avec des nombres plus élevés sont créées
Pour comparer des protéines distantes des matrices avec des nombres élevés sont créées des matrices avec des nombres faibles sont créées
Matrice basée sur des alignements globaux de protéines étroitement apparentées basée sur des alignements locaux
Un indice plus élevé dans la dénomination de la matrice reflète une distance évolutive plus grande une similarité de séquence plus élevée et donc une distance d'évolution plus petite
  PAM1 est la matrice calculée à partir de comparaisons de séquences n'ayant pas plus de 15% de divergence mais correspondant à 99% d'identité de séquence. BLOSUM 62 est la matrice calculée à partir de comparaisons de séquences avec une identité par paire non supérieure à 62%.
  d'autres matrices PAM sont calculées à partir de PAM1 basé sur les alignements observés : ceux-ci ne sont pas extrapolés à partir de comparaisons de protéines étroitement apparentées

biochimej biochimej Retour haut de page

e. Les matrices Gonnet

Ce type de matrice a été construit en 1992 par Gonnet, Cohen et Benner.

C'est une méthode itérative, sur la base de 16300 séquences de protéines correspondant à 2600 familles. Chaque séquence a été comparée à l'ensemble des séquences de la banque et les alignements ont été obtenus en utilisant une matrice initiale choisie arbitrairement. Une nouvelle matrice a été construite et les alignements ont été recalculés à partir de cette nouvelle matrice.

Cette procédure a été répétée jusqu'à ce que la matrice reste inchangée.

Différentes matrices Gonnet : Gonnet 40, Gonnet 120, ..., Gonnet 250, Gonnet 350.

biochimej biochimej Retour haut de page

f. Exemples d'autres matrices et matrices spécialisées

Matrices VTML (indices : 10, 20, 40, 80, 120, 140, 160, 200)

Les matrices VTML ("Variable Time Maximum Likelihood ") ont été construites à partir d'un ensemble d'alignements de séquences 2 à 2 : les distances évolutives et les vitesses de substitution ont été estimées de manière itérative avec un estimateur de maximum de vraisemblance.

  • Le modèle de M. Dayhoff a été utilisé comme matrice de taux initiale.
  • Les alignements par paires ont été obtenus en échantillonnant de manière aléatoire 2 séquences pré-alignées de chaque famille de protéines de la base de données SYSTERS. Cet ensemble de données étant beaucoup plus volumineux et diversifié que l'ensemble de données à l'origine des matrices PAM, les matrices VTML permettent de mieux détecter les homologues distants.
  • Voir une description de la matrice VTML200
  • Article : Müller et al. (2002)

Les matrices qui ciblent les similarités faibles (exemples : BLOSUM45, PAM250 et VTML160) ont un contenu en information inférieur aux matrices qui ciblent les similarités élevées (exemples : BLOSUM90, PAM100 et VTML10).

Illustration : un alignement a besoin de 50 bits (par exemple) pour être significatif du point de vue statistique.

  • matrice BLOSUM62 : les valeurs indiquent 0,4 bits par position => l'alignement doit donc être effectué sur une longueur minimale de [50 / 0,4] = 125 résidus d'acides aminés.
  • matrice VTML10 : les valeurs indiquent 3,87 bits par position => la longueur minimale de l'alignement est de [50 / 3,87] = 13 résidus d'acides aminés. Ce type de matrice pénalise davantage les positions alignées non-identiques.

Matrices PFASUM ("PFAm SUbstitution Matrix")

C'est une série de matrices de substitution dérivée des alignements multiples des séquences "souches" de Pfam ("Pfam seed MSA" - version 29.0) qui couvrent la quasi totalité des séquences apparentées ou divergentes.

  • PFASUM60 est une matrice performante pour la recherche de séquences homologues (en particulier d'homologues très proches).
  • Entropie relative H : PFASUM31 => 0.230 bit; PFASUM43 => 0.335 bit; PFASUM60 => 0.494 bit.
  • Lien vers la série des matrices PFASUM : PFASUM Substitution Matrices.
  • Article : Keul et al. (2017)

Voir un développement sur la base de données de familles de domaines protéiques Pfam.

Autres matrices

  • Matrice de Risler (1988) : obtenue par la superposition des structures tridimensionnelles de 32 protéines regroupées en 11 groupes de séquences très voisines
  • Matrice de Johnson et Overington (1993) : obtenue à partir de 235 structures de protéines protéiques regroupées en 65 familles pour lesquelles on connaissait au moins la structure tridimensionnelle de trois séquences

Enfin, de plus en plus de matrices spécialisées sont développées. Elles s'appuient sur des jeux de données hautement spécifiques qui rassemblent des séquences (et d'autres informations comme des données de structure) de protéines ayant une relation structure - fonction particulière. Par exemple les protéines transmembranaires, en particulier les récepteurs couplés aux protéines G (ou RCPG).

Pourcentages des acides aminés dans différentes matrices de substitution et dans la base de données Swiss-Prot
Acide aminé

GPCRtm
RCPG classe A

JTTtm
Protéines membranaires

PHDhtm
Protéines membranaires

BLOSUM62
Critère évolutif

% issu des données
de Swiss-Prot

Ala (A) 8.0 10.5 8.8 7.4 8.3
Cys (C) 3.6 2.2 2.6 2.5 1.4
Asp (D) 2.1 0.9 1.4 5.4 5.5
Glu (E) 1.9 1.0 1.0 5.4 6.7
Phe (F) 7.3 7.7 9.3 4.7 3.9
Gly (G) 4.6 7.6 5.7 7.4 7.0
His (H) 2.1 1.7 1.1 2.6 2.3
Ile (I) 8.1 11.9 11.0 6.8 5.9
Lys (K) 3.4 1.1 0.9 5.8 5.8
Leu (L) 14.1 16.3 16.0 9.9 9.7
Met (M) 3.1 3.3 4.1 2.8 2.4
Asn (N) 3.4 1.8 2.2 4.5 4.1
Pro (P) 3.8 2.6 3.2 3.9 4.7
Gln (Q) 2.2 1.4 1.2 3.4 3.9
Arg (R) 4.5 1.6 2.1 5.2 5.5
Ser (S) 6.8 5.7 6.5 5.7 6.6
Thr (T) 5.6 5.2 5.3 5.1 5.3
Val (V) 9.2 11.9 11.0 7.3 6.9
Trp (W) 1.9 2.2 1.9 1.3 1.1
Tyr (Y) 4.3 3.2 4.7 3.2 2.9

On remarque la proportion nettement plus importante d'acides aminés hydrophobes constitutifs des hélices transmembranaires. Ces chiffres évoluent (légèrement) au fur et à mesure que de nouvelles séquences sont ajoutées dans les différentes bases de données.

  • Matrices JTT : Jones, Taylor &Thornton (1994) "A mutation data matrix for transmembrane proteins" FEBS Lett. 339, 269 - 275
  • Matrices PHDhtm : Ng et al. (2000) "PHAT: a transmembrane-specific substitution matrix. Predicted hydrophobic and transmembrane" Bioinformatics 16, 760 - 766

biochimej biochimej Retour haut de page

g. Quelques règles pour le choix d'une matrice protéique

Vue la diversité des types de matrices, le problème du choix adapté au type d'analyse que l'on veut faire se pose.

Un grand nombre d'études sur les matrices ont mis en évidence que, de manière schématique :

  • pour des séquences similaires et courtes, il est préférable d'utiliser une matrice BLOSUM élevée (ou PAM faible : par exemple 40)
  • inversement pour des séquences divergentes et longues une matrice BLOSUM faible (ou PAM élevée) est mieux adaptée
  • pour une séquence requête courte (50 - 85 acides aminés), la matrice BLOSUM 80 est mieux adaptée
  • pour une séquence requête longue (> 300 acides aminés), la matrice BLOSUM 50 est mieux adaptée
PAM 100
BLOSUM 90
PAM 120
BLOSUM 64 - 80
PAM 160
BLOSUM 60 - 62
PAM 250
BLOSUM 45
séquences peu divergentes <==========> séquences trés divergentes
  • les matrices BLOSUM sont mieux adaptées à la détection d'alignements locaux
  • la matrice BLOSUM 62 est mieux adaptée à la détection de similarités faibles

Pour la comparaison d'une séquence donnée à un ensemble de séquences dans une banque de données, il semble que la matrice PAM 120 soit un bon point de départ. De manière générale, pour les recherches dans les banques : Gonnet > BLOSUM 50 et BLOSUM 62 > PAM.

Les logiciels de recherche de similarité de séquences (exemples : BLASTP, SSEARCH, FASTA …) utilisent des matrices de substitution construites pour identifier les relations évolutives lointaines (BLOSUM62 pour BLAST, BLOSUM50 pour SEARCH et FASTA).

  • BLOSUM50 et BLOSUM62 ciblent des alignements avec une identité de 20 à 30%, tandis que les matrices telles que VTML10 - VTML80 ciblent des alignements avec une identité de 50 à 90 % qui reflètent des changements moins évolutifs.
  • Les matrices telles que BLOSUM50 et BLOSUM62 permettent des recherches de similarité très sensibles mais elles nécessitent des alignements de séquence plus longs : elles peuvent produire une sur-extension de l'alignement dans des régions non homologues.

Les matrices telles que VTML10 - VTML80 sont plus efficaces pour la recherche de domaines protéiques courts ou de séquences orthologues entre organismes ayant divergé récemment.

Voir "How to select the right substitution matrix ?".

 

4. Liens Internet et références bibliographiques

Astral Sequences & Subsets - SCOPe : jeux de données pour tester les performances des différents types de matrices

BAliBASE : "A benchmark alignment database for the evaluation of multiple alignment programs"

Théorie information - modélisation

ASTRAL - SCOPe

BALIBASE

Aller au site

Shannon C.E. (1948) "A mathematical theory of communication" Bell Syst. Tech. J. 27, 379 - 423, 623 - 656

Dayhoff, Schwartz & Orcutt (1978) "A model of evolutionary change in proteins, matrixes for detecting distant relationships" dans "Atlas of protein sequence and structure", Dayhoff, M.O. (ed.), vol 5, 345 - 358

Johnson & Overington (1993) "A structural basis for sequence comparisons. An evaluation of scoring methodologies" J. Mol. Biol. 233, 716 - 738

Strait & Dewey (1996) "The Shannon information entropy of protein sequences" Biophys. J. 71, 148 - 155

Henikoff & Henikoff (1992) "Amino acid substitution matrices from protein blocks" Proc. Nat. Acad. Sci. USA 89, 10915 - 10919

Gonnet et al. (1992) "Exhaustive matching of the entire protein sequence database" Science 256, 1443-1444

Müller et al. (2002) "Estimating amino acid substitution models: a comparison of Dayhoff's estimator, the resolvent approach and a maximum likelihood method" Mol. Biol. Evol. 19, 8 - 13

Article

Article

Article

Article

Styczynski et al. (2008) "BLOSUM62 miscalculations improve search performance" Nat. Biotechnol. 26, 274 275

Song et al. (2015) "Parameterized BLOSUM matrices for protein alignment" IEEE/ACM Trans. Comput. Biol. Bioinform. 12, 686 - 694

Rios et al. (2015) "GPCRtm: An amino acid substitution matrix for the transmembrane region of class A G Protein-Coupled Receptors" BMC Bioinformatics 16, 206

Hess et al. (2016) "Addressing inaccuracies in BLOSUM computation improves homology search performance" BMC Bioinform. 17, 189

Keul et al. (2017) "PFASUM: a substitution matrix from Pfam structural alignments" BMC Bioinformatics 18, 293

Article

Article

Article

Article

Article

biochimej biochimej Retour haut de page

Valid XHTML 1.0 Transitional