Structure primaire acide amine amino acid matrice substitution matrix Enseignement et recherche Biochimie Emmanuel Jaspard Universite Angers biochimej

Les acides aminés et la structure primaire des protéines

1. Structure générale et stéréochimie des acides aminés

2. Structure des chaînes latérales

3. Nature et caractéristiques des chaînes latérales

4. Quelques réactions chimiques de certains acides aminés

5. La structure primaire ou séquence des acides aminés ou chaîne polypeptidique

a. La liaison peptidique
b. Détermination de la séquence primaire à partir de l'extrémité N-terminale : la dégradation de Pehr Edman
c. Détermination de la séquence primaire à partir de l'extrémité C-terminale : carboxypeptidase
d. Machine "artificielle" de synthèse peptidique

6. Acides aminés et protéines intrinsèquement désordonnées

7. Comparaison de séquences et matrices de substitution

a. Notions élémentaires et quelques définitions
b. Les matrices de substitution des acides aminés
c. Les matrices construites à partir de l'analyse de l'évolution des séquences de protéines
d. Pourquoi les identités n'ont-elles pas toutes le même score dans une matrice de substitution ?
e. Les matrices de substitution liées aux propriétés physico-chimiques des acides aminés et aux structures des protéines
f. Exemple de construction d'une matrice de substitution liée à l'environnement des acides aminés
g. Exemple de la démarche de l'algorithme du serveur 3D-BLAST

8. Expériences pour l'étude de la structure primaire de l'hirudine

9. Scripts Python pour l'analyse des propriétés structurales chaînes polypeptidiques

10. Liens Internet et références bibliographiques

1. Structure générale et stéréochimie des acides aminés

A l'exception de la glycine (Gly), tous les acides aminés possèdent un carbone α asymétrique (ou chiral). Il existe donc pour chacun d'entre eux deux isomères stéréochimiques, images en miroir, appelés énantiomères (figure ci-dessous).

Structure acide amine amino acid biochimej

La convention pour définir la stéréochimie du carbone a s'appuie sur celle des énantiomères du glycéraldehyde. A quelques rares exceptions près, les acides aminés constitutifs des protéines sont tous de configuration L.

Dans la cellule (pH neutre), le groupe α-carboxyle et le groupe α-aminé sont ionisés : pK_a groupe carboxyle : 1,8 à 2,5 - pK_a groupe aminé : 8,7 à 10,7

Les acides aminés sont des molécules amphotères (ou zwiterrions).

2. Structures des chaînes latérales

La figure ci-dessous montre la chaîne latérale de chacun des 20 acides aminés les plus fréquemment utilisés par la cellule pour la biosynthèse des protéines. Le nom de l'acide aminé selon le code à trois lettres est écrit entre crochets.

Structure chaine laterale acide amine amino acid biochimej

2 cas particuliers :

Glycine (Gly) : seul acide aminé non chiral et acide aminé le moins encombrant stériquement.
Proline : acide α-Iminé (groupe aminé secondaire). Sa chaîne latérale est liée à la fois au groupe α-carboxyle et au groupe α-aminé.

Les acides aminés sont des molécules amphotères car elles possèdent une ou plusieurs fonction(s) carboxylique(s) et une ou plusieurs fonction(s) aminé(s). Ces fonctions sont donc déprotonnées au fur et à mesure que le pH augmente.

La réaction de déprotonation d'une fonction acide s'écrit : AH <=> A^-+ H₃O⁺

Et la constante de dissociation K_d :

[A^-].[H₃O⁺]
K_d= ----------
[AH]

Voir un exercice courbe de titration et équation de Henderson - Hasselbalch.

3. Nature et caractéristiques des chaînes latérales

Acide aminé	code	Nature de la chaîne latérale	Caractéristiques	pK_a ionisation
alanine (Ala)	A	aliphatique (hydrocarbure saturé) : Ala : groupe méthyle Val, Leu & Ile : chaîne ramifiée	Ile contient 2 carbones asymétriques (4 stéréoisomères)	-----
valine (Val)	V
leucine (Leu)	L
isoleucine (Ile)	I
proline (Pro)	P	acide α-iminé (groupe aminé secondaire) : chaîne latérale liée à la fois au groupe α-carboxyle et au groupe α-aminé	structure particulière qui impose des changements de direction de l'enchaînement des carbones α des chaînes polypeptidiques	-----
phénylalanine (Phe)	F	noyau aromatique : Phe : groupe phényl Trp : noyau indole Tyr : groupe phénol	absorbent la lumière UV (ce qui permet de mesurer la concentration d'une protéine en solution) : Phe : λ = 260 nm Trp : λ = 278 nm Tyr à pH 7 : λ = 273 - 277 nm Tyr à pH 13 (ion phénolate) : λ = 293 - 297 nm Tyr : acide aminé cible de la phosphorylation par les protéines kinases	-----
tryptophane (Trp)	W			-----
tyrosine (Tyr)	Y			10,5
méthionine (Met)	M	groupe méthyl-thioester	Met et Cys sont des mercaptans	-----
cystéine (Cys)	C	groupe thiol	peut former un pont disulfure avec une autre cystéine	8,4
glycine (Gly)	G	atome d'hydrogène	le plus petit acide aminé et seul acide aminé non chiral - joue un rôle important dans l'ubiquitinylation	-----
aspartate (Asp)	D	groupe carboxyle	souvent à la surface des protéines où ils établissent des liaisons hydrogène ou des ponts salins (solvant ou autres molécules)	3,9
glutamate (Glu)	E	groupe carboxyle		4,1
asparagine (Asn)	N	amides respectives de Asp et Glu	trés polaires - souvent à la surface des protéines (liaisons hydrogène) modification post-traductionnelle : N-glycosylation	-----
glutamine (Gln)	Q	amides respectives de Asp et Glu		-----
sérine (Ser)	S	alcool aliphatique groupe β - hydroxyle	acide aminé réactif au sein des protéines, exemple : protéases à sérine acide aminé cible de la phosphorylation par les protéines kinases modification post-traductionnelle : O-glycosylation	non mesurable en solution aqueuse
thréonine (Thr)	T	alcool aliphatique groupe β - hydroxyle	2 carbones asymétriques (4 stéréoisomères) acide aminé cible de la phosphorylation par les protéines kinases modification post-traductionnelle : O-glycosylation	-----
lysine (Lys)	K	groupements azotés : Lys : groupe ε-aminé Arg : ion guanidinium His : noyau imidazole	souvent à la surface des protéines où ils établissent des liaisons hydrogène ou des ponts salins (solvant ou autres molécules)	10,5
arginine (Arg)	R			12
histidine (His)	H		acide aminé réactif au sein des protéines, exemple : protéases à sérine (catalyse acide base)	6,0
histidine (His)	H		Lys : acide aminé cible de modifications post-traductionnelles majeures (exemples : ubiquitinylation, biotinylation, carboxylation, hydroxylation, méthylation, sumoylation, ...)	6,0
Cas particuliers : Asx = Asp ou Asn - B (voir "Hydrolyse totale de protéines") / Glx = Glu ou Gln - Z / N'importe quel acide aminé = Xaa - X Le code à une lettre des acides aminés a été inventé par Margaret Dayhoff dans le but de réduire la taille des fichiers de séquences. Voir le cours sur le métabolisme des acides aminés.

Glycine
Alanine	Leucine
Isoleucine	Valine
Proline
Tyrosine	Phénylalanine
Tryptophane
Arginine	Lysine
Histidine
Aspartate	Glutamate
Asparagine	Glutamine
Sérine	Thréonine
Méthionine	Cystéine
Source des fichiers PDB : "Library of 3-D Molecular Structures"

blanc : hydrogène - gris : carbone
bleu : azote - rouge : oxygène - jaune : soufre

Fréquence des acides aminés dans les protéines

Classification des acides aminés en fonction de leur fréquence dans plus de 569.000 séquences annotées de protéines (février 2023) : Leu, Ala, Gly, Val, Glu, Ser, Ile, Lys, Arg, Asp, Thr, Pro, Asn, Gln, Phe, Tyr, Met, His, Cys, Trp.

Outre les 20 acides aminés les plus fréquemment utilisés pour la biosynthèse des protéines, au moins 319 autres acides aminés ont été recencés dans les protéines.

En voici quelques exemples :

Acide aminé modifié	Exemple de protéine contenant l'acide aminé modifié
N-formyl-L-méthionine	méthionine-tRNA ligase (EC 6.1.1.10) ou methionyl-tRNA formyltransférase (EC 2.1.2.9)
3-hydroxy-L-proline	procollagène-proline 3-dioxygénase (EC 1.14.11.7)
L-cysteinyl molybdoptérine	métalloprotéine à molybdène - phosphoprotéine
N-palmitoyl-glycine	glycylpeptide N-palmitoyltransférase (EC 2.3.1.X)
L-lysine méthyl ester	protéine-lysine O-méthyltransférase (EC 2.1.1.X)
O-(phosphoglycosyl-D-mannose-1-phosphoryl)-L-sérine	GDP-mannose:sérine-protéine mannose-1-phosphotransférase (EC 2.7.8.X)
phycoérythrobiline-bis-L-cystéine	phycoérythrobiline chromophore 1
Source: ("RESID Database")

Les bactériocines (lantibiotiques et sactibiotiques) forment un groupe disparate de peptides et de protéines antimicrobiens synthétisés via des ribosomes par des bactéries.

Les lantibiotiques sont caractérisés par la présence de lanthionine et de méthyl-lanthionine, des acides aminés non-protéinogènes qui contiennent des liaisons thio-éthers.

bacteriocine lantibiotique lantibiotic sactibiotique acide amine amino acid biochimej

Exemples de lantibiotiques : nisine, subtiline, gallidermine, épidermine, lacticine, mutacine, salivaricine, ...
Les sactibiotiques sont caractérisés par une liaison entre le groupement thiol d'une cystéine et le carbone α un autre acide aminé.

Voir un cours sur le métabolisme secondaire.

4. Quelques réactions chimiques de certains acides aminés

Réaction du groupe carboxyle : R - CH(NH₃⁺) - COO^-	action de :	on obtient :
	base	sel
	alcool	ester
	ammoniac	amide
	chlorure (exemples : PCl₅ ou SOCl₂)	R - CH(NH₃⁺) - COCl
	réduction (exemples : H₂ ou LiBH₄)	alcool aminé : R - CH(NH₃⁺) - CH₂OH
	décarboxylation (exemples : baryte ou décarboxylase)	R - CH₂ - NH₂ + CO₂

Réaction du groupe aminé : R - CH(NH₃⁺) - COO^-

acide amine amino acid chemical reactivity alkylation arylation acylation biochimej

acide amine amino acid chemical reactivity aldehyde biochimej

L'acide hippurique (urine de chevaux) est un dérivé important de la glycine.

glycine acide amine amino acid chemical reactivity sarcosine creatin biochimej

Autres dérivés de la glycine : acide glycocholique (glycine + acide cholique), sarcosine (N-méthylglycine), créatine et phosphocréatine.
La créatine peut-être obtenue par voie chimique : sarcosine + cyanamide -> créatine

Synthése de l'alanine à partir de l'acétaldéhyde et de l'acide cyanhydrique.

alanine acide amine amino acid chemical reactivity biochimej

La β-alanine (acide 3-aminopropanoïque) est un isomère de position de l'alanine.

Synthése de la sérine à partir du méthyl-acrylate.

serine purine pyrimidine acide amine amino acid chemical reactivity biochimej

La sérine participe à la biosynthèse des purines et des pyrimidines. La sérine en milieu acide forme l'acide pyruvique et NH₃.

La cystéine donne une couleur rouge avec le nitroprussiate de sodium en milieu alcalin.

cysteine thiazolidine acide amine amino acid chemical reactivity biochimej

Elle peut former des esters : R-SH + HOOC-CH₃ -> R-S-CO-CH₃
L'oxydation poussée conduit à l'acide sulfénique (R-SO-H), l'acide sulfonique (R-SO₂-H) et l'acide sulfinique (R-SO₃-H).

La thréonine traitée par l'acide périodique conduit à la coupure de l'acide aminé.

threonine acide amine amino acid chemical reactivity biochimej

C'est un acide aminé essentiel, cible de la O-glycosylation ou de la phosphorylation.

La méthionine est un acide aminé essentiel. Son dérivé, la S-adénosyl méthionine, est un donneur de groupement méthyle.

methionine acide amine amino acid chemical reactivity biochimej

L'homocystéine est un acide aminé non protéinogène soufré précurseur de la cystathionine puis de la cystéine.
L'action de l'iode permet de doser la méthionine.

5. La structure primaire ou séquence des acides aminés ou chaîne polypeptidique

a. La liaison peptidique

Les protéines sont des bioplolymères formés par la condensation des acides aminés. La liaison qui unit 2 acides aminés consécutifs s'appelle la liaison peptidique.

Formation liaison peptidique acide amine amino acid biochimej

La liaison du carbone carbonyle avec l'azote dans la liaison peptidique (1,33 Å, non indiquée dans la figure) est plus courte que la liaison simple C-N mais plus longue qu'une liaison double C=N classique.
Le caractère partiellement double de la liaison peptidique empêche la rotation autour de la liaison C-N.
En conséquence, le groupe peptidique est confiné dans un plan. Il existe cependant une liberté de rotation autour des liaisons Cα-C et N-Cα.

Angle dihedral liaison peptidique acide amine amino acid biochimej

On obtient ainsi un enchaînement d'acides aminés que l'on appelle structure primaire ou séquence de résidus d'acides aminés ou chaîne polypeptidique.
La chaîne polypeptidique est toujours représentée depuis son extrémité N-terminale (l'acide aminé qui a un groupe α-aminé libre) jusqu'à son extrémité C-terminale (l'acide aminé qui a un groupe α-carboxyle libre).

Les techniques modernes de séquençage des chaînes polypeptidiques :

S'appuient sur la séparation des protéines avec des gels bidimensionnels suivie du séquençage par spectromètrie de masse en tandem.
Le traitement des spectrogrammes inclue éventuellement des étapes bioinformatiques de comparaison avec les données dans des bases de données.
Voir un cours sur la protéomique.

b. Détermination de la séquence primaire à partir de l'extrémité N-terminale

La dégradation de Pehr Edman est historique et elle a précédé les techniques de protéomique.

La fonction α-aminée de l'acide aminé en position N-terminale de la chaîne polypeptidique d'une protéine (ou d'un polypeptide) est traitée à pH alcalin par l'isothiocyanate de phényle (PITC), appelé aussi réactif d'Edman.

On obtient un dérivé phénylthiocarbamyle (PTC) de la protéine ou du peptide.
Ce dérivé est traité par un acide anhydre tel que l'acide trifluoroacétique (CF₃COOH).

Degradation Edman acide amine amino acid biochimej

Source : "Principes de Biochimie" Horton et al. (1994), Ed. DeBoeck Universités

La liaison peptidique liant l'acide aminé en position N-terminale est spécifiquement coupée. Le dérivé anilinothiazolinone de cet acide aminé est séparé du reste de la chaîne polypeptidique par extraction avec un solvant organique, le chlorure de butyle.
On traite ce dérivé instable par une solution acide qui le transforme en dérivé stable : le phénylthiohydantoïne acide aminé (PTH-acide aminé).
Le PTH-acide aminé est séparé, quantifié et identifié par chromatographie en phase reverse avec une phase stationnaire sur laquelle est greffée une chaîne alkylée en C18 (octadécyl).

Degradation Edman acide amine amino acid biochimej

Source : "Principes de Biochimie" Horton et al. (1994), Ed. DeBoeck Universités

Le reste de la chaîne polypeptidique subit de nouveau l'ensemble du traitement et les acides aminés sont ainsi séquencés tour à tour à partir de l'extrémité N-terminale.

c. Détermination de la séquence primaire à partir de l'extrémité C-terminale : carboxypeptidase

La séquence en position C-terminale d'une protéine est obtenue par action de la carboxypeptidase Y :

On prélève une fraction aliquote du milieu réactionnel à différents temps d'action de l'enzyme.
L'échantillon est traité par le PITC et on sépare le PTH-acide aminé, libéré par l'action de l'enzyme, par chromatographie en phase reverse.
On enregistre la cinétique de libération des acides aminés (figure ci-dessous) qui permet d'établir la séquence primaire. Dans l'exemple ci-dessous, la séquence est : Gln₁ - Leu - Tyr - Glu - Glu

Determination sequence primaire extremite terminale carboxypeptidase chaine polypeptide acide amine amino acid biochimej

d. Machine "artificielle" de synthèse peptidique

Les ribosomes synthétisent les protéines en polymérisant (liaison peptidique) les acides aminés dans un ordre déterminé par les ARN messagers.

Des chercheurs ont créé une "machine artificielle de synthèse peptidique" : elle se déplace le long d'un chapelet de molécules, ramasse les acides aminés qui bloquent sa trajectoire, afin de synthétiser un peptide selon une séquence spécifique.

La structure chimique est basée sur un rotaxane, un anneau moléculaire enfilé sur un axe moléculaire.

Peptide synthesis artificial molecular machine rotaxane acide amine amino acid biochimej

Source : Lewandowski et al. (2013)

L'anneau porte un groupe thiolate qui enlève de manière itérative les acides aminés dans l'ordre codé par le brin et les transfère vers un site l'élongation du peptide par ligature chimique.

La synthèse est obtenue avec 10¹⁸ "machines moléculaires" ("molecular machines", nanomachines) agissant en parallèle. Le processus génère des quantités de peptide de l'ordre du milligramme avec une séquence unique confirmée par spectrométrie de masse.

Le Prix Nobel 2016 a été attribué à Jean-Pierre Sauvage, Fraser Stoddart and Bernard Feringa "for the design and synthesis of molecular machines".

6. Acides aminés et protéines intrinsèquement désordonnées

Les protéines ou régions intrinsèquement désordonnées ou "intrinsically disordered proteins or regions" - IDP/IDR :

Peuvent se replier ou s'enrichir en structures secondaires lorsqu'elles interagissent avec leur(s) cible(s) biologique(s).
Sont désordonnées sur une grande partie de la chaîne polypeptidique ou contiennent des régions désordonnées (en nombre variable).
Sont caractérisées par une faible complexité de séquence, un biais dans leur composition en acides aminés et une forte flexibilité prédite.

Les IDP établissent moins de liaisons intramoléculaires stabilisatrices et sont donc plus dynamiques que les protéines ordonnées. En effet, elles ne possèdent pas suffisamment d'acides aminés non polaires pour former le coeur hydrophobe caractéristique des protéines ordonnées.

Cependant, beaucoup d'IDP sont partiellement repliées et ont donc une compacité moyenne (ramenée à la longueur de la chaîne polypeptidique) supérieure à celle d'une chaîne polypeptidique complétement dénaturée / dépliée ("random coil").

On a recensé envron 460 propriétés physico-chimiques pour les acides aminés. Bon nombre d'entre elles sont "redondantes" ou en tout cas, il existe une forte corrélation entre elles.

La charge nette d'une protéine est la propriété physico-chimique qui semble la plus discriminante pour déterminer son degré de désordre et donc s'il s'agit d'une IDP. Cela semble logique puisque plus la charge nette d'une protéine est importante plus les forces de répulsion électrosatiques le sont et plus la chaîne polypeptidique a tendance à être dépliée / désordonnée.

Les études statistiques et bioinformatiques de trés grands jeux de données d'IDP (dis XRAY, dis NMR, dis CD, dis Fam32) ont permis de classer les acides aminés du "plus promoteur d'ordre" au "plus promoteur de désordre" : W, F, Y, I, M, L, V, N, C, T, A, G, R, D, H, Q, K, S, E, P

Propriétés physico-chimiques les plus discriminantes Source : Dunker et al. (2001)	Kyte & Doolittle (1982) "Amino acid scale: Hydropathicity" J. Mol. Biol. 157, 105 - 132 Eisenberg et al. (1984) "Amino acid scale: Normalized consensus hydrophobicity scale" J. Mol. Biol. 179, 125 - 142 ------------------------------------------- Bases de données qui recense les échelles de valeurs des propriétés physico-chimiques des acides aminés : Expasy - ProtScale AAindex : "Amino acid indices, substitution matrices and pair-wise contact potentials"
Charge nette
Nombre de contact dans un rayon de 14 Å
Hydropathie - Echelle de Kyte & Doolittle (1982)
Hydropathie - Echelle de Eisenberg et al. (1984)
Flexibilité
Propension à former des feuillets β
Nombre de liaison de coordination
Pourcentage des acides aminés promoteurs de désordre [R + E + S + P]
Encombrement stérique ("bulkiness")
Pourcentage des acides aminés promoteurs d'ordre [C + F + Y + W]
Volume
Réfractivité

Les compositions en acides aminés de 4 jeux de données "protéines désordonnées" (dis XRAY, dis NMR, dis CD, dis Fam32) ont été comparées entre elles et avec celle d'un jeu de données "protéines ordonnées".

La proportion de chaque acide aminé dans chacun des jeux de données a été exprimée par le rapport : [(nombre de l'acide aminé considéré dans les protéines désordonnées) - (nombre de l'acide aminé considéré dans les protéines ordonnées)] / (nombre de l'acide aminé considéré dans les protéines ordonnées).

Dans la figure ci-dessous, un pic négatif signifie donc que le jeux de données "protéines désordonnées" considéré contient moins l'acide aminé considéré que le jeu de données "protéines ordonnées".

IDP IDR unstructured non structure promoteur ordre desordre acide amine amino acid biochimej

Source : Dunker et al. (2001)

Les acides aminés sont rangés en fonction de leur indice de fléxibilité corrigé par le facteur de température ("Debye-Waller factor" ou "B-factor") qui tient compte des mouvements dûs à la châleur sur l'atténuation de la diffraction des rayons X. Celà permet de tenir davantage compte de certains effets de l'environnement sur les acides aminés.

L'acide aminé le moins flexible est à gauche (Trp) et le plus flexible est à droite (Lys).

Si on représente la valeur absolue de la charge nette moyenne (c'est-à-dire pondérée par la longueur de la chaîne polypeptidique de l'IDP considérée) à pH 7 (<R>) en fonction de la valeur absolue de l'hydrophobicité moyenne (<H>), on obtient un graphique avec deux zones qui correspondent aux IDP et aux protéines structurées, respectivement.

Hydrophobicity plot IDP IDR unstructured non structure promoteur ordre desordre acide amine amino acid biochimej

Source : Uversky et al. (2000)

Ces zones sont délimitées par une droite d'équation : <H> = [ <R> + 1,151 ] / 2,785 et les IDP sont au dessus de cette ligne.

On obtient un graphique équivalent si on représente <R> en fonction de la valeur absolue de l'hydropathie moyenne ("GRand Average of hYdropathy" - <GRAVY>).

7. Comparaison de séquences et matrices de substitution

a. Notions élémentaires et quelques définitions

Un moyen de comparer des séquences (de résidus d'acides aminés ou de nucléotides) est de les aligner. Il existe différents types d'alignements :

alignement 2 à 2 versus alignement de séquences multiples
alignement local versus alignement global
alignement pour la recherche de motifs
analyse de génome ou de transcriptome (RNA-seq) : assemblage de courts fragments (contigs)
...

Voir une liste de programmes d'alignements de séquences par type d'objet biologique comparé.

protein function relationship structure amino acid FASTA matrice substitution matrix biochimej

Alignement de séquences de toxines de serpent : mise en évidence de certaines cystéines conservées.

Les outils nécessaires pour aligner des séquences sont :

Un programme qui traduit un algorithme qui traduit une logique s'appuyant sur des critères de comparaison des nucléotides ou des résidus d'acides aminés.

Un jeu de données constitué :
1. Soit d'un ensemble de séquences de nucléotides ou de résidus d'acides aminés dans un format compatible avec le programme utilisé.
2. Soit d'une séquence de nucléotides ou de résidus d'acides aminés et d'une base de données contenant un ensemble plus ou moins important de séquences de nucléotides ou de résidus d'acides aminés.

Des critères quantitatifs ou qualitatifs de comparaison des nucléotides ou des résidus d'acides aminés des séquences à aligner.
1. Ces critères résultent de divers paramètres évolutifs et/ou structuraux.
2. Ces critères sont traduits par les valeurs contenues dans une matrice de substitution.

Les séquences sont écrites sous la forme de chaînes de caractères :

5 lettres pour les nucléotides et 20 lettres pour les résidus d'acides aminés les plus utilisés par les protéines.
Le mot caractère est employé pour désigner le code à 1 lettre, symbole des nucléotides ou des acides aminés.
Voir "Codes Used in Sequence Description".

Les séquences de nucléotides ou de résidus d'acides aminés sont stockées dans les bases de données sous la forme de fichiers qui ont un format bioinformatique spécifique.

Exemples de séquences résidus d'acides aminés au format FASTA :

protein function relationship structure amino acid FASTA matrice substitution matrix biochimej

Le format FASTA s'impose peu à peu comme le format "standard".
- Il est caractérisé par une première ligne commençant par le symbole ">" ("supérieur"). Cette ligne contient des informations essentielles : le numéro d'accession du fichier bioinformatique, le nom de la molécule (si elle est annotée), l'organisme, éventuellement d'autres informations ...
- Suivent 1 ou plusieurs lignes contenant tout ou partie des caractères de la séquence. Il est recommandé que ces lignes contiennent au plus 80 caractères.

Traduire la "ressemblance" avec l'objet "chaînes de caractères"

Plusieurs termes sont employés pour décrire un concept complexe : la "ressemblance" entre les séquences biologiques.

L'identité est la ressemblance totale entre deux séquences.
La similarité se mesure en % d'identité.
L'homologie a une connotation évolutive : 2 séquences sont homologues si elles ont un ancêtre commun.

La figure ci-dessous illustre 2 formes d'homologies entre gènes basées sur des évènements liés à l'évolution différents : (A) et (B) représentent les possibilités les plus simples. (C) est un cas plus complexe.

protein function relationship structure amino acid FASTA matrice substitution matrix biochimej

Source : "Molecular biology of the cell"

L'homologie est transitive : si la séquence A est homologue à la séquence B et la séquence B est homologue à la séquence C, alors A est homologue à C (même si A et C se ressemblent très peu).
L'homologie se mesure par la similarité (sauf si les séquences ont une faible complexité). L'inverse n'est pas vrai : pas de similarité ne signifie pas non-homologie.

Un mésappariement est la non correspondance entre deux caractères (lettres). Il peut résulter :

Soit de la substitution d'un caractère par un autre, c'est-à-dire une mutation.
Soit de l'introduction d'un "gap" (brèche) ou "trou" fictif dans l'enchaînement des caractères qui constituent la/les séquence(s) : le but est d'otimiser l'alignement des caractères identiques ou similaires entre les séquences comparées.

Voir un développement en phylogénie.

Distance et scores

La "ressemblance" entre les séquences biologiques (protéines ou acides nucléiques) est une notion complexe.

Le calcul de distances permet de traduire quantitativement cette notion relativement floue de "ressemblance" :

Schématiquement, plus la distance entre 2 séquences est élevée, moins ces séquences sont similaires.
L'avantage est qu'avec certaines règles de comparaison, on obtient une valeur chiffrée pour la comparaison entre séquences : cette valeur s'appelle un score.

Définition : la distance d'édition D(S₁,S₂) entre deux séquences S₁ et S₂ est le nombre minimum d'opérations (insertion, délétion et substitution) pour transformer S₁ en S₂.

D(S₁,S₂) est une distance métrique si les conditions suivantes sont remplies : D(S₁,S₂) ≥ 0 pour toutes séquences S₁ et S₂ D(S₁,S₂) = 0 si S₁ = S₂ D(S₁,S₂) = D(S₂,S₁), commutativité D(S₁,S₂) + D(S₂,S₃) ≥ D(S₁,S₃)	Exemple de distance avec une métrique très simple : identité = 0 / mésappariement ("mismatch") = 1 / pas de "gaps"
	Séquences	appariements	distance (D)
	S₁ S₂	E F G N A W R K \| \| \| \| \| E F L N C V R K	3
	S₂ S₃	E F L N C V R K \| \| \| H F G N I P M K	5
	S₁ S₃	E F G N A W R K \| \| \| \| \| H F G N I P M K	3

Exemples de méthodes de calcul de distance : distance de Hamming, distance de Levenshtein, distance de Damerau–Levenshtein, ...

Figure ci-dessous :

Recherche d'homologie (avec le logiciel BLAST) d'une séquence d'ovalbumine de poulet (séquence requête ou "Query" - P01013) .
Le résultat pris en exemple est la séquence ("Sbjct") de l'inhibiteur de l'activateur du plasminogène (XP_019481936) :

protein function relationship structure amino acid FASTA matrice substitution matrix biochimej

Les trous, brèches ou "gap" :

Espaces fictifs introduits dans une séquence pour contre-balancer et matérialiser une insertion dans une autre séquence.
Le but est d'otimiser l'alignement des caractères identiques ("Identities") ou similaires ("Positives") entre les séquences comparées.

Le score de bit (S') :

Il est dérivé du score d'alignement brut (S) par un calcul qui prend en compte les propriétés statistiques du système de calcul des scores : en particulier la matrice de score et la taille de la base de données interrogée.
Voir le calcul de la E-value pour un score S.
Puisque les scores de bit sont normalisés par rapport au système de calcul des scores, ils sont utilisés pour comparer les scores de différents alignements.

Le score par position alignée ("bits-per-position") :

Les matrices de scores ont un contenu d'information associée (qu'on appelle l'entropie relative) ou score par position alignée.
Les scores par position alignée peuvent être utilisés pour estimer le nombre de résidus alignés nécessaires pour générer un score statistiquement significatif :
1. Par exemple, les matrices telles que PAM/VTML10, PAM/VTML20 ou PAM/VTML40 ont un contenu d'information plus élevé que les matrices telles que BLOSUM62 ou PAM250 : celà signifie qu'un alignement plus court (10 à 50 résidus) peut produire un score statistiquement plus significatif.
2. Matrices VTML ("Variable Time Maximum Likelihood") : Müller & Vingron (2000) "Modeling amino acid replacement" J. Comput. Biol. 7, 761 - 776

b. Les matrices de substitution des acides aminés

Les valeurs pondérées de scores élémentaires pour la substitution (remplacement) d'un résidu d'acide aminé par un autre (ou lui-même) sont regroupées dans des tableaux appelés matrices de scores de similarité.

Les matrices de scores de similarité diffèrent sur 3 points :

La logique suivie et la méthode mathématique employée pour les construire.

Leur contenu en information, appelée entropie relative ("relative entropy H : average mutual information per amino acid pair") liée au nombre de résidus d'acides aminés qui doivent être alignés pour obtenir un score significatif statistiquement.

Leur échelle qui est la quantité d'information fournie par unité de score.

Deux grandes familles de matrices de scores de similarité
Matrices construites à partir de l'analyse de l'évolution des séquences de protéines ("standard log-odds ratios matrices").		Matrices construites à partir de l'analyse des propriétés chimiques et structurales des protéines.
Ces matrices sont construites : En analysant les fréquences de substitution observées dans des alignements de familles de protéines. A partir de grands ensembles d'alignements de séquences de protéines ayant des fréquences de résidus d'acides aminés qualifiées de "standard". Ce sont les matrices les plus anciennes et les plus fréquemment utilisées par les programmes de comparaison de séquences. Les principales matrices de ce type sont les matrices PAM, BLOSUM, Gonnet, VTML, ...		Ces matrices s'appuient sur : Les propriétés physico-chimiques des chaînes latérales des résidus d'acides aminés (exemple : fonction chimique, volume, encombrement stérique, polarité, hydrophobicité, charge, mutabilité, …). L'influence de l'environnement (principalement le solvant, l'eau) des résidus d'acides aminés sur les conformations (repliement) des chaînes polypeptidiques. Les similarités de structures tridimensionnelles des protéines, en particulier celles des domaines structuraux. Ces matrices sont souvent obtenues à partir d'ensembles de séquences de protéines très spécifiques regroupées sur la base d'un critère particulier. Exemple : les protéines transmembranaires riches en hélices amphiphiles donc en résidus d'acides aminés hydrophobes.
Voir un cours sur les matrices de substitution. Voir un cours sur la détermination de la structure des protéines.

La plupart des méthodes de comparaison / alignement de séquences de protéines utilisent donc ces matrices de substitution d'acides aminés pour évaluer la similarité entre les séquences. Le but est de "proposer" à l'utilisateur un (ou des) alignement(s) significatif(s).

Des programmes de recherche de séquences dans des bases de données tels que FASTA (Pearson & Lipman, 1988) ou BLAST (Altschul et al., 1990, 1997) utilisent ces matrices de substitution pour calculer des scores d'alignements finaux.

Les alignements locaux de séquences (calculés de manière rigoureuse par l'algorithme de Smith-Waterman et de manière heuristique par FASTA ou BLAST, par exemple) nécessitent des matrices de scores qui génèrent en moyenne des valeurs de score négatives dans le cas de comparaison des séquences aléatoires.

Des programmes d'alignement de séquences multiples tels que CLUSTAL les utilisent pour calculer des scores de sommes de paires de séquences afin de quantifier la similarité entre les séquences alignées.

c. Les matrices construites à partir de l'analyse de l'évolution des séquences de protéines

Les matrices PAM - mutation ponctuelle acceptée

La mutation ponctuelle acceptée par une protéine est le principe de la construction des matrices PAM ("Point Accepted Mutation" ou "Percent Accepted Mutation" ou "Probability of Acceptable Mutation") développées par M. Dayhoff et al. (1978).

Une mutation ponctuelle acceptée par une protéine est un remplacement d'un résidu d'acide aminé par un autre, accepté par la sélection naturelle. Sur le plan évolutif, ce remplacement est le résultat de :

L'apparition d'une mutation dans le gène codant un acide aminé.
L'acceptation de cette mutation par l'espèce comme nouvelle forme prédominante de la protéine.
Pour qu'il soit accepté, le nouveau résidu d'acide aminé (donc la protéine) doit "fonctionner" de manière similaire à l'ancien(ne).

Principe de construction des matrices PAM

Ces matrices représentent donc les probabilités de mutation des acides aminés pour des distances d'évolution spécifiques.

Elles sont construites avec des modèles de chaînes de Markov :

La valeur initiale de la distance de changements de résidus d'acides aminés pour la construction de la matrice de transition est de 1%.
La distance évolutive est alors transcrite en mutations ponctuelles acceptées allant de 1 (matrice PAM1) à n (matrice PAMn).
Ainsi, la matrice de transition est multipliée n fois par elle-même pour obtenir les n étapes de la chaîne de Markov nécessaires à la construction de la matrice PAMn : matrice_n = (matrice₁)ⁿ.
Remarque : 0.99²⁵⁰ ≈ 0.08, ce qui signifie qu'après 250 multiplications avec un changement de 1% (PAM250), environ 8% des résidus d'acides aminés ne sont pas mutés.

Voir un développement des calculs pour la construction des matrices PAM.

Les valeurs de scores des différentes matrices PAM

Elles ont été calculées sur la base du logarithme d'un rapport de probabilités (remarque : "log-odds" = "the logarithm of the odds" = le logarithme du rapport des probabilités) :

protein function relationship structure amino acid FASTA matrice substitution matrix biochimej

Les valeurs de scores dans les matrices sont des valeurs entières (positives, nulles ou négatives).

Cela permet de calculer le score global (ensemble des positions comparées dans les séquences ) comme la somme des scores élémentaires de toutes les positions comparées.

Voir les valeurs de la matrice PAM250.

Tableau des fréquences observées des résidus d'acides aminés

protein function relationship structure amino acid matrice substitution matrix PAM BLOSUM biochimej

Tableau des fréquences observées des résidus d'acides aminés compte-tenu de leur mutabilité relative (alanine = 100%) (voir mutabilité)

protein function relationship structure amino acid matrice substitution matrix PAM BLOSUM biochimej

1978 (matrices PAM - M. Dayhoff et ses collaborateurs) : valeurs d'origine ayant servi à la construction des premières matrices PAM sur la base d'un échantillon de ≈ 1300 séquences très semblables (> 85% d'identité) appartenant à 71 familles de protéines.

1991 (matrice PET91 ou JTT250 / Jones et al., 1992) : valeurs actualisées sur la base d'un échantillon beaucoup plus important de séquences de protéines (16130 séquences correspondant à 26210 familles de protéines).

PET91 est une matrice normalisée de sorte que tous les maxima sont sur la diagonale et ont pour valeur 10.

Les matrices BLOSUM ("BLOcks SUbstitution Matrix" - Henikoff & Henikoff, 1992)

Les blocs (ou "BLOCKS" ) sont des régions conservées de séquences de protéines apparentées.
Initialement, pour mesurer les fréquences des résidus d'acides aminés, 2000 blocs sans gap (ni insertion, ni délétion) de 500 groupes de protéines apparentées ont été examinés en comptant le nombre de correspondances et le nombre de mésappariements de chacun des 20 acides aminés.
Exemple d'un "BLOCK" pour 3 protéines :

LONM_YEAST|P36775 (632) GPPGVGKTSIGKSIARALNR 15
LON1_MAIZE|P93647 (409) GPPGVGKTSLASSIAKALNR 18
LONM_HUMAN|P36776 (526) GPPGVGKTSIARSIARALNR 15

Calculs pour la construction des matrices BLOSUM

Les valeurs des matrices BLOSUM sont calculées selon la même algèbre de rapport de probabilités que pour les matrices PAM.

a. Une table de fréquences a été créée à partir de ces nombres de correspondances et de mésappariements.
b. La probabilité de chaque type de correspondances et de mésappariements a été calculée à partir de ces fréquences.
c. Cette probabilité a été convertie en logarithme du rapport de probabilités ["log-odds ratios", log₂(p/1-p)]. De cette manière :
- Le score d'alignement est nul si la fréquence observée pour chaque résidu d'acide aminé d'une nouvelle séquence correspond à la fréquence attendue.
- Le score est négatif si cette fréquence est inférieure et il est positif si cette fréquence est supérieure.
d. Cependant, les valeurs de scores dans les matrices BLOSUM finales résultent d'une dernière opération :
- Les logarithmes du rapport de probabilités ont été convertis en unités binaires.
- Puis celles-ci ont été multipliées par un facteur d'échelle.
- Enfin, les valeurs ont été arrondies à l'entier le plus proche.

Figure ci-dessous : valeurs de la matrice BLOSUM62

L'indice "62" signifie que les valeurs ont été obtenues à partir d'un jeu de séquences ayant un pourcentage d'identité d'environ 62%.
Cette matrice est l'une des plus utilisées dans les programmes d'alignement de séquences.

protein function relationship structure amino acid matrice substitution matrix PAM BLOSUM biochimej

Calcul numérique des valeurs de scores des matrices PAM et BLOSUM

Dans le cas d'un modèle de protéines de séquences aléatoires (les acides aminés sont présents de manière indépendante les uns des autres, avec une fréquence individuelle f), toute matrice de scores (appropriée aux alignements locaux sans gap) avec au moins un score positif et un score attendu négatif (matrice "log-odds") peut être écrite sous la forme :

S_ij = (1/λ) . log (p_i,j / f_i . f_j)

S_ij est le score élémentaire calculé pour l'alignement de 2 acides aminés i et j :

S_ij > 0 indique une substitution fréquente (substitution conservative).

S_ij < 0 indique une substitution peu probable entre séquences homologues (substitution non conservative).

Schématiquement, un score = +2 (positif) signifie que le remplacement de l'acide aminé considéré se produit 10^(+2/10) = 1,6 fois plus fréquemment que ce que l'on observerait si ce remplacement était le seul fait du hasard.

Avec les paramètres :

f_i et f_j : fréquences des acides aminés i et j, respectivement.

p_i,j : probabilité que l'acide aminé i soit muté en acide aminé j <=> probabilité que i et j soient alignés entre séquences homologues.

Le produit (f_i . f_j) est donc la fréquence d'échange de 2 acides aminés i et j alignés par hasard.

λ est le facteur d'échelle (positif) qui permet que les scores individuels dans la matrice soient représentés avec précision par des nombres entiers.

Voir une applet java qui construit automatiquement des matrices PAM d'indice 1 à 200 avec possibilité de choisir la valeur du facteur d'échelle.

Les valeurs induites par le facteur d'échelle λ

Les valeurs des matrices de scores les plus courantes varient de -10 à +20, ce qui reflète des facteurs d'échelle λ :

De ([ln(2)/2] - 1/2 bit) unités pour les matrices PAM120 ou BLOSUM62 par exemple.

De [ln(2)/3] - 1/3 bit) unités pour les matrices PAM250 ou BLOSUM50 par exemple.

Exemple 1 :

Le score de la matrice BLOSUM62 pour aligner D avec D est +6.
Par ailleurs, la matrice BLOSUM62 est mise à l'échelle en "1/2 bit" unités (soit : +6 / 2 =3).
Donc un alignement (D/D) est 6 = 2*[log2 (p_D,D / f_D . f_D)] ou bien encore 2³ = 8 fois plus probable du fait d'une homologie que du fait du hasard.

Exemple 2 :

Le score de la matrice BLOSUM62 pour aligner D avec L est -4.
Un alignement (D/L) est donc 2² = 4 fois plus probable du fait du hasard que du fait d'être observé dans des blocs homologues alignés pour la construction de la matrice BLOSUM62.

Liens et différences entre les matrices PAM et BLOSUM
	Matrices PAM basées sur des alignements globaux	Matrices BLOSUM basées sur des alignements locaux
Principe	Extrapolation de l'information obtenue sur l'évolution sur des périodes de plus en plus longues, à partir de séquences étroitement liées.	Matrices construites à partir des résidus d'acides aminés contenus dans des "blocs" alignés ayant divergé à des degrés divers.
Pour comparer des séquences étroitement liées	des matrices avec des nombres plus faibles sont créées	des matrices avec des nombres plus élevés sont créées
Pour comparer des protéines distantes	des matrices avec des nombres élevés sont créées	des matrices avec des nombres faibles sont créées
Un indice plus élevé dans la dénomination de la matrice reflète	une distance évolutive plus grande	une similarité de séquence plus élevée et donc une distance d'évolution plus petite
Complément	PAM1 est la matrice calculée à partir de comparaisons de séquences n'ayant pas plus de 15% de divergence mais correspondant à 99% d'identité de séquence.	BLOSUM62 est la matrice calculée à partir de comparaisons de séquences avec une identité par paire non supérieure à 62%.
Complément	Les autres matrices PAM sont calculées à partir de PAM1.	Basées sur les alignements observés : ceux-ci ne sont pas extrapolés à partir de comparaisons de protéines étroitement apparentées.

Entropie relative (en bits) - ou contenu d'information associée - de quelques matrices PAM et de matrices BLOSUM similaires (Altschul S.F., 1991)
PAM100	BLOSUM90	1,18
PAM120	BLOSUM89	0,98
PAM160	BLOSUM60	0,70
PAM200	BLOSUM52	0,51
PAM250	BLOSUM45	0,36

L'introduction de gaps dans les alignements réduit considérablement le contenu en information.

L'effet est plus prononcé pour de faibles distances évolutives.

Matrice PAM30 :
- Avec une pénalité d'ouverture de gap de 9 et une pénalité d'extension de gap de 1, cette matrice produit 0,9 bits par position.
- Sans gap, elle produit 2,6 bits par position, soit ≈ 3 fois plus d'information par position.

Matrice BLOSUM62 :
- Le contenu en information passe de 0,74 à 0,40 avec l'introduction d'un gap.
- Par ailleurs, la longueur minimale d'alignement qui génère un score statistiquement significatif (50 bits) passe de 68 à 125 résidus d'acides aminés.

d. Pourquoi les identités n'ont-elles pas toutes le même score dans une matrice de substitution ?

Fréquence des acides aminés dans les protéines

Statistiques Uniprot (février 2025) : # 573.000 séquences protéiques annotées correspondant à ≈ 208 millions d'acides aminés.
Données globales des protéines dans UniProtKB/TrEMBL : ≈ 253 millions de séquences protéiques correspondant à ≈ 90 milliards d'acides aminés.
Figure ci-dessous : classification des acides aminés en fonction de leur fréquence : Leu, Ala, Gly, Val, Glu, Ser, Ile, Lys, Arg, Asp, Thr, Pro, Asn, Gln, Phe, Tyr, Met, His, Cys, Trp.

fonction protein structure function relationship amino acid chaine laterale side chain physical properties petide bond peptidic primary Edman zwitterion matrice substitution matrix biochimej

Source : Uniprot / Swissprot

Avec la matrice BLOSUM62 (voir ci-dessus) le score de la paire leucine (L/L) est +4 et le score de la paire tryptophane (W/W) est +11. Or, plus l'acide aminé est rare, plus il serait surprenant qu'il s'aligne avec lui-même par hasard.

Dans les alignements de séquences homologues à partir desquels la matrice BLOSUM62 a été construite, la paire (L/L) est plus fréquente que la paire (W/W) : p_L,L = 0,3710 > p_W,W = 0,0065
Cependant, le tryptophane est un acide aminé beaucoup plus rare que la leucine : f_L ≈ 0,097 > f_W ≈ 0,011 (colonne de droite, tableau ci-dessous).

Ces valeurs utilisées pour construire la matrice BLOSUM62 (avec une valeur λ = 0,347) donnent +3.8 pour (L/L) et +10,5 pour (W/W), respectivement, arrondis à +4 et +11 (voir la matrice ci-dessus).

Pourcentages des acides aminés dans différentes matrices de substitution et dans la base de données UniProtKB/Swiss-Prot
Acide aminé (code à 1 lettre)	GPCRtm RCPG classe A	JTTtm Protéines membranaires	PHDhtm Protéines membranaires	BLOSUM62 Critère évolutif	% issu des données de UniProtKB/Swiss-Prot
Ala (A)	8.0	10.5	8.8	7.4	8.25
Cys (C)	3.6	2.2	2.6	2.5	1.38
Asp (D)	2.1	0.9	1.4	5.4	5.46
Glu (E)	1.9	1.0	1.0	5.4	6.72
Phe (F)	7.3	7.7	9.3	4.7	3.86
Gly (G)	4.6	7.6	5.7	7.4	7.07
His (H)	2.1	1.7	1.1	2.6	2.27
Ile (I)	8.1	11.9	11.0	6.8	5.91
Lys (K)	3.4	1.1	0.9	5.8	5.80
Leu (L)	14.1	16.3	16.0	9.9	9.65
Met (M)	3.1	3.3	4.1	2.8	2.41
Asn (N)	3.4	1.8	2.2	4.5	4.06
Pro (P)	3.8	2.6	3.2	3.9	4.74
Gln (Q)	2.2	1.4	1.2	3.4	3.93
Arg (R)	4.5	1.6	2.1	5.2	5.53
Ser (S)	6.8	5.7	6.5	5.7	6.64
Thr (T)	5.6	5.2	5.3	5.1	5.35
Val (V)	9.2	11.9	11.0	7.3	6.86
Trp (W)	1.9	2.2	1.9	1.3	1.10
Tyr (Y)	4.3	3.2	4.7	3.2	2.92
Ces chiffres évoluent (légèrement) au fur et à mesure que de nouvelles séquences sont ajoutées dans les différentes bases de données. Matrices JTT : Jones et al. (1994) "A mutation data matrix for transmembrane proteins" FEBS Lett. 339, 269 - 275 Matrices PHDhtm : Ng et al. (2000) "PHAT: a transmembrane-specific substitution matrix. Predicted hydrophobic and transmembrane" Bioinformatics 16, 760 - 766

e. Les matrices de substitution liées aux propriétés physico-chimiques des acides aminés et aux structures des protéines

La figure ci-dessous montre la "hiérarchie" des 4 niveaux de structures des protéines.

structure primaire secondaire tertiaire quaternaire proteine biochimej

Christian ANFINSEN (Prix Nobel 1972) a montré que, dans un environnement approprié : toute l'information nécessaire au repliement d'une protéine dans sa structure native (donc fonctionnelle) est contenue dans sa séquence primaire (l'enchaînement des acides aminés).

Pour rendre compte de la complexité du processus du repliement, on peut mentionner :

La polarité de l'enchaînement des carbones α des acides aminés : lors de sa biosynthèse, la chaîne polypeptidique s'étend de l'extrémité N-terminale vers l'extrémité C-terminale.
Les contraintes stériques induites par la liaison entre deux acides aminés consécutifs ou liaison peptidique.
La diversité des propriétés physico-chimiques des chaînes latérales des acides aminés.

Les différents types de structures d'une protéine repliée sont donc contrôlés par :

l'ordre des acides aminés dans la séquence primaire
les contraintes stériques de la liaison peptidique
les propriétés physico-chimiques des chaînes latérales des acides aminés
l'environnement (solvant et autre) des acides aminés

Figure ci-dessous : représentation schématique des liaisons au sein d'une protéine repliée. A ces liaisons s'ajoutent les interactions avec le milieu ambiant (le plus souvent, l'eau).

structure primaire secondaire tertiaire quaternaire proteine biochimej

Propriétés physico-chimiques des acides aminés

Les acides aminés ont des propriétés physico-chimiques trés diverses. La base de données " ProtScale" fournit près de 60 tables de valeurs de ces propriétés.

En voici quelques exemples : (Source : " ProtScale")

la composition en acides aminés (pourcentage de fréquence - "A.A. composition") sur la base de l'ensemble des protéines de la base de données "Swiss-Prot"
le poids moléculaire ("molecular weight")
l'hydrophobicité (échelle de Kyte & Doolittle, ...)
la propension à être intégré dans une hélice α ("alpha-helix") ou dans un feuillet β ("beta-sheet") (échelle de Chou & Fasman - échelle de Levitt, ...)
la mutabilité relative ("relative mutability")
...

Voir une liste de tables de 566 propriétés physico-chimiques.

La structure des protéines est de 3 à 10 fois plus conservée que la séquence des protéines

Quand on compare la déviation entre les structures de protéines (RMSD - "Root Mean Square Deviation") et le pourcentage d'identité des séquences de ces mêmes protéines, on observe une relation exponentielle.

Au cours de l'évolution, les séquences de protéines homologues accumulent les substitutions sans que, pour autant, des différences notables de structures soient observées.

Du fait des contraintes topologiques des chaînes polypeptidiques, l'espace des [structures / repliements] possibles est plus réduit que l'espace des séquences en acides aminés possibles.

Bases de données liées aux structures des protéines

La relation évolutive entre protéines peut être analysée en regroupant des protéines similaires.

Il existe un grand nombre de bases de données liées aux structures des protéines. Ces ressources classent les protéines en fonction de leur degré de similarité, mais diffèrent par les définitions qu'elles emploient et leurs méthodes de classification.

Il y a cependant un consensus général en ce qui concerne l'ordre hiérarchique entre topologie globale ou repliement, superfamille, famille et domaines individuels. De nombreuses protéines ayant la même topologie auront évolué de manière convergente, mais les membres des superfamilles et des familles sont susceptibles d'être issus d'un ancêtre commun par une évolution divergente.

Exemples de bases de données

SCOP et CATH sont deux bases de données de classification hiérarchique de la structure des protéines.
InterPro : principale base de données de familles de protéines basées sur les séquences.
InterPro est un consortium de plusieurs bases de données telles que PROSITE, Pfam, PRINTS, ProDom, SMART et TIGRFAMs.

Les matrices de substitution liées à la structure des protéines

Elles sont aussi appelées matrices de substitution liées à l'environnement.

Ces matrices sont construites à partir d'un très grand nombre de combinaisons de propriétés physico-chimiques des acides aminés.

Exemples de propriétés physico-chimiques (aussi appelées descripteurs physico-chimiques) :

Entropie absolue / Energie libre de solvatation (hydratation) / Capacité calorifique
Polarisabilité / Flexibilité moyenne / Effet électrique local
Mutabilité relative / Rotation optique / Surface accessible au solvant
Propension à former une hélice / Propension à former un brin béta
...
Voir d'autres exemples : ProtScale

Pour certaines propriétés physico-chimiques il existe de nombreuses tables (appelées fréquemment échelles) de valeurs expérimentales.

Exemples d'échelles pour l'hydrophobicité : Hopp & Woods (1981) , Kyte & Doolittle (1982), Eisenberg & Weiss (1982), Goldman et al. (1986), Wimley & White (1996); White et al. (2005), "Knowledge-based Unified Hydrophobicity Scale" (2009).

Script Python : profil d'hydrophobicité d'une séquence polypeptidique avec une fenêtre variable.

Les valeurs pour chaque acide aminé dans ces échelles sont utilisées pour calculer les valeurs des matrices de substitution liées à l'environnement.

Les matrices liées à la structure permettent de détecter des protéines plus homologues que ne le permettent les matrices de substitution "standard" liées à la fréquence des acides aminés.

Dand le cas d'une comparaison (superposition) de structures de 2 protéines, leur utilisation nécessite cependant de connaître la structure d'une des protéines comparées.

Les matrices liées à la structure sont aussi utilisées pour comparer des séquences de protéines dont la composition en acides aminés s'écartent de cette répartition standard : exemples, les protéines trans-membranaires ou les protéines d'organismes dont le génome a une composition en nucléotides fortement biaisée.

Exemples de matrices de substitution liées aux propriétés physico-chimiques des acides aminés et à la structure des protéines :

JTT : Jones et al. (1994)
PHAT : Ng et al. (2000)
Matrice VHSE ("principal components score Vectors of Hydrophobic, Steric, and Electronic properties" (Mei et al., 2005) : vecteurs de scores des composantes principales des propriétés liées à l'hydrophobicité, des propriétés stériques et électroniques) : matrice issue de l'analyse en composantes principales individuelle de différentes propriétés physico-chimiques des acides aminés.
PfSSM (Paila et al., 2008) : matrices spécifiques des acides aminés codés par des régions riches en A-T de Plasmodium falciparum.
BAPS : You et al. (2014)
GPCRtm (Rios et al., 2015) - voir ci-dessus.
SeqStruct (Jia & Jernigan, 2018) - Corrélations [séquences / contacts au sein des structures de protéines].
EDSSMat (Trivedi & Nagarajaram, 2019) - Acides aminés des régions désordonnées des protéines eucaryotes.
tcrBLOSUM (Postovskaya et al., 2024) : matrices spécifiques des fréquences et des variations d'acides aminés dans la région déterminant la complémentarité 3 des récepteurs des lymphocytes T ("T-cell receptor" - tCR).

Voir une liste de 94 matrices de substitution d'acides aminés.

f. Exemple de construction d'une matrice de substitution liée à l'environnement des acides aminés

Partie a de la figure ci-dessous

Les acides aminés peuvent être classés dans l'un des 64 environnements correspondant à l'une des combinaisons d'environnements suivants :

4 environnements liés à la structure secondaire : hélice alpha (H), brin beta (E), valeur positive de l'angle de torsion Φ de la chaîne principale (P) et enroulement (C - "coil").
2 environnements liés à l'accessibilité au solvant du résidu d'acide aminé : accessible (A) et inaccessible (a). Les acides aminés localisés dans des régions inaccessibles au solvant sont beaucoup plus conservés que ceux situés dans des régions accessibles au solvant.
8 environnements liés à l'existence (lettre en majuscules) ou à l'absence (lettre en minuscule) de liaisons hydrogène entre une une chaîne latérale et :
1. une autre chaîne latérale (S ou s)
2. un groupement carbonyle de la chaîne principale des carbones alpha (O et o)
3. un groupement amide de la chaîne principale des carbones alpha (N et n)

matrice substitution matrix acide amine amino acid biochimej

Source : Worth et al. (2009)

Partie b de la figure ci-dessus

Construction de matrices de substitution spécifiques de l'environnement (ESST - "Environment-Specific Substitution Tables") à partir d'alignements de structures de protéines homologues dans lesquels chaque résidu d'acide aminé :

A été annoté avec des caractéristiques structurales tridimensionnelles (expliquées ci-dessus).
Est affecté à l'un des 64 environnements (l'exemple du format de la figure est celui du programme JOY).

Distance euclidienne entre 2 ESST X et Y

64 : nombre d'environnements

21 : 20 acides aminés + demie-cystine (J)

Xⁱ_j->k et Yⁱ_j->k : probabilité que l'acide aminé j soit substitué en acide aminé k de X et Y à partir de l'ESST de X et Y dans l'environnement structural de i.

matrice substitution matrix acide amine amino acid biochimej

Source : Gong & Blundell (2008)

La fréquence de substitution des acides aminés est mesurée pour chaque environnement structural puis moyennée sur l'ensemble des familles de protéines homologues.

En additionnant les 64 ESST, on obtient une matrice indépendante de l'environnement (telle qu'une matrice PAM ou BLOSUM). Ainsi, les ESST sub-divisent les matrices de substitution standard en 64 matrices qui diffèrent par l'environnement tri-dimensionnel local des acides aminés.

g. Matrices de substitution construites à partir d'alphabets structuraux

Définir un alphabet structural (motif de 5 résidus d'acides aminés consécutifs) a pour objectif de traduire la structure 3D d'une protéine en une série de lettres correspondant à cet alphabet structural : la structure d'une protéine constituée de n résidus d'acides aminés est donc décrite par une séquence de (n-4) lettres de cet alphabet structural.

Illustration : démarche de l'algorithme proposé par le serveur 3D-BLAST

1ère étape : un ensemble de 674 couples de protéines (1348 protéines au total) a été créé à partir de la base de données de structures SCOP. Chaque couple est caractérisé par une similarité de structure élevée et une faible identité de séquence.

Rappel : SCOP et CATH sont deux bases de données de classification hiérarchique de la structure des protéines.

2ème étape : ces 1348 protéines ont permis de générer 225.523 fragments structuraux.

Chaque fragment structural est constitué de 5 résidus d'acides aminés consécutifs et il est défini par 2 angles :
- L'angle κ (valeur 0° à 180°) d'un résidu d'acide aminé i correspond à l'angle de liaison formé par les 3 atomes Cα des résidus i_-2, i et i₊₂
- L'angle α (valeur -180° à +180°) d'un résidu d'acide aminé i correspond à l'angle dièdre formé par les 4 atomes Cα des résidus i_-1, i, i₊₁ et i₊₂

relation fonction protein function relationship structure amino acid chaine laterale side chain physical properties petide bond peptidic primary Edman zwitterion matrice substitution matrix biochimej

Source : 3D-Blast server

3ème étape : un algorithme de regroupement des plus proches voisins a permis de classer les 225.523 fragments structuraux de protéines en 23 groupes. Chaque groupe définit l'une des 23 lettres de l'alphabet structural :

de type hélice (lettres A, Y, B, C et D)
de type s'apparentant à une hélice ("helix-like") (lettres G, I et L)
de type brin (lettres E, F et H)
de type s'apparentant à un brin ("strand-like") (lettres K et N)
d'autres types (lettres S, T, V, W, X, M, P, Q, R et Z)

4ème étape : une nouvelle matrice de substitution (23 x 23) utilisant cet alphabet structural a ainsi été créée.

Les scores sont élevés si des alphabets structuraux similaires sont alignés.
Exemple : alphabet structural de type hélice (lettres A, Y, B, C et D) aligné avec un alphabet structural de type hélice.

relation fonction protein function relationship structure amino acid chaine laterale side chain physical properties petide bond peptidic primary Edman zwitterion matrice substitution matrix biochimej

Source : 3D-Blast server

Finalement, le logiciel de recherche de séquences BLAST a été modifié afin d'utiliser cette nouvelle matrice et d'interroger la base de données de fragments structuraux (découverte d'homologie de structures ou classification évolutive).

Script Python : diagramme de Ramachandran d'une séquence polypeptidique.

10. Liens Internet et références bibliographiques

Bases de données sur les acides aminés peu fréquents (sous-partie de la base de données "Protein Information Resource" - PIR)

PIR

Bases de données sur les propriétés physico-chimiques des acides aminés (sous-partie de la base de données "Expasy - Swiss-Prot")

ProtScale

Swiss-Prot

Base de données PROWL : propriétés physico - chimiques des acides aminés, peptides, protéines.

Molecular machines : Leigh group

PROWL

Leigh group

Pehr Edman (1950) Acta Chem. Scand. 4, 283

Dunker et al. (2001) "Intrinsically disordered protein" J. Mol. Graph. Model 19, 26 - 59

Uversky et al. (2000) "Why are "natively unfolded" proteins unstructured under physiologic conditions ?" Proteins 41, 415 - 427

Worth et al. (2009) "Structural and functional constraints in the evolution of protein families" Nat. Rev. Mol. Cell. Biol. 10, 709 - 720

Article

Jaspard et al. (2012) "Computational and Statistical Analyses of Amino Acid Usage and Physico-Chemical Properties of the Twelve Late Embryogenesis Abundant Protein Classes" PLoS ONE 7, e36968

Lewandowski et al. (2013) "Sequence-Specific Peptide Synthesis by an Artificial Small-Molecule Machine" Science 339, 189 - 193

Article

Pearson & Lipman (1988) "Improved tools for biological sequence comparison" Proc. Natl. Acad. Sci. 85 2444 - 2448

Altschul et al. (1990) "Basic local alignment search tool" J. Mol. Biol. 215 403 - 410

Altschul S.F. (1991) "Amino acid substitution matrices from an information theoretic perspective" J. Mol. Biol. 219, 555 - 565

Pearson W.R. (2013) "Selecting the right similarity-scoring matrix" Curr. Protoc. Bioinformatics 43: 3.5.1 - 3.5.9

Article

Ng et al. (2000) "PHAT: a transmembrane-specific substitution matrix. Predicted hydrophobic and transmembrane" Bioinformatics 16, 760 - 766

Biegert & Söding (2009) "Sequence context-specific profiles for homology searching" PNAS 106, 3770 - 3775

You et al (2014) "An Approach for a substitution matrix based on protein blocks and physicochemical properties of amino acids through PCA" IBC 6, 1 - 10

Rios et al. (2015) "GPCRtm: An amino acid substitution matrix for the transmembrane region of class A G Protein-Coupled Receptors" BMC Bioinformatics 16, 206

Article

Dayhoff et al. (1978) "A model of Evolutionary Change in Proteins" Atlas of protein sequence and structure (vol 5, supp. 3 ed.) Nat. Biomed. Res. Found., 345 - 358

Henikoff & Henikoff (1992) "Amino acid substitution matrices from protein blocks" PNAS 89, 10915 - 10919

Yu & Altschul (2005) "The construction of amino acid substitution matrices for the comparison of proteins with non-standard compositions" Bioinformatics 21, 902 - 911

Chapitre livre

Article

Tung et al. (2007) "Kappa-alpha plot derived structural alphabet and BLOSUM-like substitution matrix for rapid search of protein structure database" Genome Biol. 8, R31

Gong & Blundell (2008) "Discarding Functional Residues from the Substitution Table Improves Predictions of Active Sites within Three-Dimensional Structures" PLoS Comput. Biol. 4, e1000179

Goonesekere & Lee (2008) "Context-specific amino acid substitution matrices and their use in the detection of protein homologs" Proteins 2008 71, 910 - 919

Illergard et al. (2009) "Structure is three to ten times more conserved than sequence - a study of structural response in protein cores" Proteins 15, 499 - 508

Article

Keul et al. (2017) "PFASUM: a substitution matrix from Pfam structural alignments" BMC Bioinformatics 18, 293

Trivedi & Nagarajaram (2020) "Substitution scoring matrices for proteins - An overview" Protein Sci. 29, 2150 - 2163

Postovskaya et al. (2024) "tcrBLOSUM: an amino acid substitution matrix for sensitive alignment of distant epitope-specific TCRs" Brief. Bioinform. 26, bbae602

Article