Les acides aminés et la structure primaire des protéines |
1. Structure générale et stéréochimie des acides aminés 2. Structure des chaînes latérales 3. Nature et caractéristiques des chaînes latérales 4. Quelques réactions chimiques de certains acides aminés 5. La structure primaire ou séquence des acides aminés ou chaîne polypeptidique
6. Acides aminés et protéines intrinsèquement désordonnées |
7. Comparaison de séquences et matrices de substitution
8. Expériences pour l'étude de la structure primaire de l'hirudine 9. Ensemble de scripts Python pour l'analyse des propriéytés structurales chaînes polypeptidiques 10. Liens Internet et références bibliographiques |
1. Structure générale et stéréochimie des acides aminés A l'exception de la glycine (Gly), tous les acides aminés possèdent un carbone α asymétrique (ou chiral). Il existe donc pour chacun d'entre eux deux isomères stéréochimiques, images en miroir, appelés énantiomères (figure ci-dessous). La convention pour définir la stéréochimie du carbone a s'appuie sur celle des énantiomères du glycéraldehyde. A quelques rares exceptions près, les acides aminés constitutifs des protéines sont tous de configuration L. Dans la cellule (pH neutre), le groupe α-carboxyle et le groupe α-aminé sont ionisés : pKa groupe carboxyle : 1,8 à 2,5 - pKa groupe aminé : 8,7 à 10,7 Les acides aminés sont des molécules amphotères (ou zwiterrions). |
2. Structures des chaînes latérales La figure ci-dessous montre la chaîne latérale de chacun des 20 acides aminés les plus fréquemment utilisés par la cellule pour la biosynthèse des protéines. Le nom de l'acide aminé selon le code à trois lettres est écrit entre crochets. 2 cas particuliers :
Les acides aminés sont des molécules amphotères car elles possèdent une ou plusieurs fonction(s) carboxylique(s) et une ou plusieurs fonction(s) aminé(s). Ces fonctions sont donc déprotonnées au fur et à mesure que le pH augmente. La réaction de déprotonation d'une fonction acide s'écrit : AH <=> A- + H3O+ Et la constante de dissociation Kd :
[A-].[H3O+] Voir un exercice courbe de titration et équation de Henderson - Hasselbalch. |
3. Nature et caractéristiques des chaînes latérales |
Acide aminé | code | Nature de la chaîne latérale | Caractéristiques | pKa ionisation |
alanine (Ala) | A |
aliphatique (hydrocarbure saturé) : Ala : groupe méthyle |
Ile contient 2 carbones asymétriques (4 stéréoisomères) | ----- |
valine (Val) | V | |||
leucine (Leu) | L | |||
isoleucine (Ile) | I | |||
proline (Pro) | P |
acide α-iminé (groupe aminé secondaire) : chaîne latérale liée à la fois au groupe α-carboxyle et au groupe α-aminé |
structure particulière qui impose des changements de direction de l'enchaînement des carbones α des chaînes polypeptidiques |
----- |
phénylalanine (Phe) | F |
noyau aromatique : Phe : groupe phényl |
absorbent la lumière UV (ce qui permet de mesurer la concentration d'une protéine en solution) : Phe : λ = 260 nm Tyr : acide aminé cible de la phosphorylation par les protéines kinases |
----- |
tryptophane (Trp) | W | ----- | ||
tyrosine (Tyr) | Y | 10,5 | ||
méthionine (Met) | M | groupe méthyl-thioester | Met et Cys sont des mercaptans | ----- |
cystéine (Cys) | C | groupe thiol | peut former un pont disulfure avec une autre cystéine | 8,4 |
glycine (Gly) | G | atome d'hydrogène | le plus petit acide aminé et seul acide aminé non chiral - joue un rôle important dans l'ubiquitinylation | ----- |
aspartate (Asp) | D | groupe carboxyle |
souvent à la surface des protéines où ils établissent des liaisons hydrogène ou des ponts salins (solvant ou autres molécules) |
3,9 |
glutamate (Glu) | E | 4,1 | ||
asparagine (Asn) | N | amides respectives de Asp et Glu |
trés polaires - souvent à la surface des protéines
(liaisons hydrogène) |
----- |
glutamine (Gln) | Q | |||
sérine (Ser) | S | alcool aliphatique groupe β - hydroxyle |
acide aminé réactif au sein des protéines,
exemple : protéases à sérine |
non mesurable en solution aqueuse |
thréonine (Thr) | T |
2 carbones asymétriques
(4 stéréoisomères) |
----- | |
lysine (Lys) | K |
groupements azotés : Lys : groupe ε-aminé |
souvent à la surface des protéines où ils établissent des liaisons hydrogène ou des ponts salins (solvant ou autres molécules) |
10,5 |
arginine (Arg) | R | 12 | ||
histidine (His) | H |
acide aminé réactif au sein des protéines, exemple : protéases à sérine (catalyse acide base) |
6,0 | |
Lys : acide aminé cible de modifications post-traductionnelles majeures (exemples : ubiquitinylation, biotinylation, carboxylation, hydroxylation, méthylation, sumoylation, ...) | ||||
Cas particuliers : Asx = Asp ou Asn - B (voir "Hydrolyse totale de protéines") / Glx = Glu ou Gln - Z / N'importe quel acide aminé = Xaa - X |
|
Fréquence des acides aminés dans les protéines Classification des acides aminés en fonction de leur fréquence dans plus de 569.000 séquences annotées de protéines (février 2023) : Leu, Ala, Gly, Val, Glu, Ser, Ile, Lys, Arg, Asp, Thr, Pro, Asn, Gln, Phe, Tyr, Met, His, Cys, Trp. Outre les 20 acides aminés les plus fréquemment utilisés pour la biosynthèse des protéines, au moins 319 autres acides aminés ont été recencés dans les protéines. En voici quelques exemples : |
Acide aminé modifié | Exemple de protéine contenant l'acide aminé modifié |
N-formyl-L-méthionine | méthionine-tRNA ligase (EC 6.1.1.10) ou methionyl-tRNA formyltransférase (EC 2.1.2.9) |
3-hydroxy-L-proline | procollagène-proline 3-dioxygénase (EC 1.14.11.7) |
L-cysteinyl molybdoptérine | métalloprotéine à molybdène - phosphoprotéine |
N-palmitoyl-glycine | glycylpeptide N-palmitoyltransférase (EC 2.3.1.X) |
L-lysine méthyl ester | protéine-lysine O-méthyltransférase (EC 2.1.1.X) |
O-(phosphoglycosyl-D-mannose-1-phosphoryl)-L-sérine | GDP-mannose:sérine-protéine mannose-1-phosphotransférase (EC 2.7.8.X) |
phycoérythrobiline-bis-L-cystéine | phycoérythrobiline chromophore 1 |
Source: ("RESID Database") |
Les bactériocines (lantibiotiques et sactibiotiques) forment un groupe disparate de peptides et de protéines antimicrobiens synthétisés via des ribosomes par des bactéries. Les lantibiotiques sont caractérisés par la présence de lanthionine et de méthyl-lanthionine, des acides aminés non-protéinogènes qui contiennent des liaisons thio-éthers.
|
4. Quelques réactions chimiques de certains acides aminés |
Réaction du groupe carboxyle : R - CH(NH3+) - COO- |
action de : | on obtient : |
base | sel | |
alcool | ester | |
ammoniac | amide | |
chlorure (exemples : PCl5 ou SOCl2) | R - CH(NH3+) - COCl | |
réduction (exemples : H2 ou LiBH4) | alcool aminé : R - CH(NH3+) - CH2OH | |
décarboxylation (exemples : baryte ou décarboxylase) | R - CH2 - NH2 + CO2 |
Réaction du groupe aminé : R - CH(NH3+) - COO- |
L'acide hippurique (urine de chevaux) est un dérivé important de la glycine.
Synthése de l'alanine à partir de l'acétaldéhyde et de l'acide cyanhydrique. La β-alanine (acide 3-aminopropanoïque) est un isomère de position de l'alanine. |
Synthése de la sérine à partir du méthyl-acrylate. La sérine participe à la biosynthèse des purines et des pyrimidines. La sérine en milieu acide forme l'acide pyruvique et NH3. La cystéine donne une couleur rouge avec le nitroprussiate de sodium en milieu alcalin.
|
La thréonine traitée par l'acide périodique conduit à la coupure de l'acide aminé. C'est un acide aminé essentiel, cible de la O-glycosylation ou de la phosphorylation. La méthionine est un acide aminé essentiel. Son dérivé, la S-adénosyl méthionine, est un donneur de groupement méthyle.
|
5. La structure primaire ou séquence des acides aminés ou chaîne polypeptidique Les protéines sont des bioplolymères formés par la condensation des acides aminés. La liaison qui unit 2 acides aminés consécutifs s'appelle la liaison peptidique.
Les techniques modernes de séquençage des chaînes polypeptidiques :
|
b. Détermination de la séquence primaire à partir de l'extrémité N-terminale La dégradation de Pehr Edman est historique et elle a précédé les techniques de protéomique. La fonction α-aminée de l'acide aminé en position N-terminale de la chaîne polypeptidique d'une protéine (ou d'un polypeptide) est traitée à pH alcalin par l'isothiocyanate de phényle (PITC), appelé aussi réactif d'Edman.
Source : "Principes de Biochimie" Horton et al. (1994), Ed. DeBoeck Universités
Source : "Principes de Biochimie" Horton et al. (1994), Ed. DeBoeck Universités Le reste de la chaîne polypeptidique subit de nouveau l'ensemble du traitement et les acides aminés sont ainsi séquencés tour à tour à partir de l'extrémité N-terminale. |
c. Détermination de la séquence primaire à partir de l'extrémité C-terminale : carboxypeptidase La séquence en position C-terminale d'une protéine est obtenue par action de la carboxypeptidase Y :
|
d. Machine "artificielle" de synthèse peptidique Les ribosomes synthétisent les protéines en polymérisant (liaison peptidique) les acides aminés dans un ordre déterminé par les ARN messagers. Des chercheurs ont créé une "machine artificielle de synthèse peptidique" : elle se déplace le long d'un chapelet de molécules, ramasse les acides aminés qui bloquent sa trajectoire, afin de synthétiser un peptide selon une séquence spécifique. La structure chimique est basée sur un rotaxane, un anneau moléculaire enfilé sur un axe moléculaire. Source : Lewandowski et al. (2013) L'anneau porte un groupe thiolate qui enlève de manière itérative les acides aminés dans l'ordre codé par le brin et les transfère vers un site l'élongation du peptide par ligature chimique. La synthèse est obtenue avec 1018 "machines moléculaires" ("molecular machines", nanomachines) agissant en parallèle. Le processus génère des quantités de peptide de l'ordre du milligramme avec une séquence unique confirmée par spectrométrie de masse. Le Prix Nobel 2016 a été attribué à Jean-Pierre Sauvage, Fraser Stoddart and Bernard Feringa "for the design and synthesis of molecular machines". |
6. Acides aminés et protéines intrinsèquement désordonnées Les protéines ou régions intrinsèquement désordonnées ou "intrinsically disordered proteins or regions" - IDP/IDR :
Les IDP établissent moins de liaisons intramoléculaires stabilisatrices et sont donc plus dynamiques que les protéines ordonnées. En effet, elles ne possèdent pas suffisamment d'acides aminés non polaires pour former le coeur hydrophobe caractéristique des protéines ordonnées. Cependant, beaucoup d'IDP sont partiellement repliées et ont donc une compacité moyenne (ramenée à la longueur de la chaîne polypeptidique) supérieure à celle d'une chaîne polypeptidique complétement dénaturée / dépliée ("random coil"). |
On a recensé envron 460 propriétés physico-chimiques pour les acides aminés. Bon nombre d'entre elles sont "redondantes" ou en tout cas, il existe une forte corrélation entre elles. La charge nette d'une protéine est la propriété physico-chimique qui semble la plus discriminante pour déterminer son degré de désordre et donc s'il s'agit d'une IDP. Cela semble logique puisque plus la charge nette d'une protéine est importante plus les forces de répulsion électrosatiques le sont et plus la chaîne polypeptidique a tendance à être dépliée / désordonnée. Les études statistiques et bioinformatiques de trés grands jeux de données d'IDP (dis XRAY, dis NMR, dis CD, dis Fam32) ont permis de classer les acides aminés du "plus promoteur d'ordre" au "plus promoteur de désordre" : W, F, Y, I, M, L, V, N, C, T, A, G, R, D, H, Q, K, S, E, P |
Propriétés physico-chimiques les plus discriminantes |
Kyte & Doolittle (1982) "Amino acid scale: Hydropathicity" J. Mol. Biol. 157, 105 - 132 Eisenberg et al. (1984) "Amino acid scale: Normalized consensus hydrophobicity scale" J. Mol. Biol. 179, 125 - 142 ------------------------------------------- Bases de données qui recense les échelles de valeurs des propriétés physico-chimiques des acides aminés :
|
Charge nette | |
Nombre de contact dans un rayon de 14 Å | |
Hydropathie - Echelle de Kyte & Doolittle (1982) | |
Hydropathie - Echelle de Eisenberg et al. (1984) | |
Flexibilité | |
Propension à former des feuillets β | |
Nombre de liaison de coordination | |
Pourcentage des acides aminés promoteurs de désordre [R + E + S + P] | |
Encombrement stérique ("bulkiness") | |
Pourcentage des acides aminés promoteurs d'ordre [C + F + Y + W] | |
Volume | |
Réfractivité |
Les compositions en acides aminés de 4 jeux de données "protéines désordonnées" (dis XRAY, dis NMR, dis CD, dis Fam32) ont été comparées entre elles et avec celle d'un jeu de données "protéines ordonnées". La proportion de chaque acide aminé dans chacun des jeux de données a été exprimée par le rapport : [(nombre de l'acide aminé considéré dans les protéines désordonnées) - (nombre de l'acide aminé considéré dans les protéines ordonnées)] / (nombre de l'acide aminé considéré dans les protéines ordonnées). Dans la figure ci-dessous, un pic négatif signifie donc que le jeux de données "protéines désordonnées" considéré contient moins l'acide aminé considéré que le jeu de données "protéines ordonnées". Source : Dunker et al. (2001) Les acides aminés sont rangés en fonction de leur indice de fléxibilité corrigé par le facteur de température ("Debye-Waller factor" ou "B-factor") qui tient compte des mouvements dûs à la châleur sur l'atténuation de la diffraction des rayons X. Celà permet de tenir davantage compte de certains effets de l'environnement sur les acides aminés. L'acide aminé le moins flexible est à gauche (Trp) et le plus flexible est à droite (Lys). Si on représente la valeur absolue de la charge nette moyenne (c'est-à-dire pondérée par la longueur de la chaîne polypeptidique de l'IDP considérée) à pH 7 (<R>) en fonction de la valeur absolue de l'hydrophobicité moyenne (<H>), on obtient un graphique avec deux zones qui correspondent aux IDP et aux protéines structurées, respectivement. Source : Uversky et al. (2000) Ces zones sont délimitées par une droite d'équation : <H> = [ <R> + 1,151 ] / 2,785 et les IDP sont au dessus de cette ligne. On obtient un graphique équivalent si on représente <R> en fonction de la valeur absolue de l'hydropathie moyenne ("GRand Average of hYdropathy" - <GRAVY>). |
7. Comparaison de séquences et matrices de substitution a. Notions élémentaires et quelques définitions Un moyen de comparer des séquences (de résidus d'acides aminés ou de nucléotides) est de les aligner. Il existe différents types d'alignements :
Voir une liste de programmes d'alignements de séquences par type d'objet biologique comparé. Alignement de séquences de toxines de serpent : mise en évidence de certaines cystéines conservées. Les outils nécessaires pour aligner des séquences sont :
Les séquences sont écrites sous la forme de chaînes de caractères :
Les séquences de nucléotides ou de résidus d'acides aminés sont stockées dans les bases de données sous la forme de fichiers qui ont un format bioinformatique spécifique. Exemples de séquences résidus d'acides aminés au format FASTA :
|
Traduire la "ressemblance" avec l'objet "chaînes de caractères" Plusieurs termes sont employés pour décrire un concept complexe : la "ressemblance" entre les séquences biologiques.
La figure ci-dessous illustre 2 formes d'homologies entre gènes basées sur des évènements liés à l'évolution différents : (A) et (B) représentent les possibilités les plus simples. (C) est un cas plus complexe. Source : "Molecular biology of the cell"
Un mésappariement est la non correspondance entre deux caractères (lettres). Il peut résulter :
|
Distance et scores Le calcul de distance permet de traduire quantitativement cette notion relativement floue de "ressemblance" :
Définition : la distance d'édition D(S1,S2) entre deux séquences S1 et S2 est le nombre minimum d'opérations (insertion, délétion et substitution) pour transformer S1 en S2. |
D(S1,S2) est une distance métrique si les conditions suivantes sont remplies : D(S1,S2) ≥ 0 pour toutes séquences S1 et S2 D(S1,S2) = 0 si S1 = S2 D(S1,S2) = D(S2,S1), commutativité D(S1,S2) + D(S2,S3) ≥ D(S1,S3) |
Exemple de distance avec une métrique très simple : |
||
Séquences | appariements | distance (D) | |
S1 S2 |
E F G N A W R K | | | | | E F L N C V R K |
3 | |
S2 S3 |
E F L N C V R K | | | H F G N I P M K |
5 | |
S1 S3 |
E F G N A W R K | | | | | H F G N I P M K |
3 |
Exemples de méthodes de calcul de distance : distance de Hamming, distance de Levenshtein, distance de Damerau–Levenshtein, ... |
Figure ci-dessous :
Les trous, brèches ou "gap" :
Le score de bit (S') :
Le score par position alignée ("bits-per-position") :
|
b. Les matrices de substitution des acides aminés Les valeurs pondérées de scores élémentaires pour la substitution (remplacement) d'un résidu d'acide aminé par un autre (ou lui-même) sont regroupées dans des tableaux appelés matrices de scores de similarité. Les matrices de scores de similarité diffèrent sur 3 points :
|
Deux grandes familles de matrices | ||
Matrices construites à partir de l'analyse de l'évolution des séquences de protéines ("standard log-odds ratios matrices"). | Matrices construites à partir de l'analyse des propriétés chimiques et structurales des protéines. | |
Ces matrices sont construites :
Ce sont les matrices les plus fréquemment utilisées par les programmes de comparaison de séquences. Les principales matrices de ce type sont les matrices PAM, BLOSUM, Gonnet, VTML, ... |
Ces matrices s'appuient sur :
Ces matrices sont souvent obtenues à partir d'ensembles de séquences de protéines très spécifiques regroupées sur la base d'un critère particulier. Exemple : les protéines transmembranaires riches en hélices amphiphiles donc en résidus d'acides aminés hydrophobes. |
|
Voir un cours sur les matrices de substitution. Voir un cours sur la détermination de la structure des protéines. |
La plupart des méthodes de comparaison / alignement de séquences de protéines utilisent donc ces matrices de substitution d'acides aminés pour évaluer la similarité entre les séquences. Le but est de "proposer" à l'utilisateur un (ou des) alignement(s) significatif(s).
|
c. Les matrices construites à partir de l'analyse de l'évolution des séquences de protéines Les matrices PAM - mutation ponctuelle acceptée La mutation ponctuelle acceptée par une protéine est le principe de la construction des matrices PAM ("Point Accepted Mutation" ou "Percent Accepted Mutation" ou "Probability of Acceptable Mutation") développées par M. Dayhoff et al. (1978). Une mutation ponctuelle acceptée par une protéine est un remplacement d'un résidu d'acide aminé par un autre, accepté par la sélection naturelle. Sur le plan évolutif, ce remplacement est le résultat de :
Principe de construction des matrices PAM Ces matrices représentent donc les probabilités de mutation des acides aminés pour des distances d'évolution spécifiques. Elles sont construites avec des modèles de chaînes de Markov :
Les valeurs de scores des différentes matrices PAM ont été calculées sur la base du logarithme d'un rapport de probabilités (remarque : "log-odds" = "the logarithm of the odds" = le logarithme du rapport des probabilités) :
|
Tableau des fréquences observées des résidus d'acides aminés |
Tableau des fréquences observées des résidus d'acides aminés compte-tenu de leur mutabilité relative (alanine = 100%) (voir mutabilité) |
|
Les matrices BLOSUM ("BLOcks SUbstitution Matrix" - Henikoff & Henikoff, 1992)
LONM_YEAST|P36775 (632) GPPGVGKTSIGKSIARALNR 15 Calculs pour la construction des matrices BLOSUM Les valeurs des matrices BLOSUM sont calculées selon la même algèbre de rapport de probabilités que pour les matrices PAM.
Figure ci-dessous : valeurs de la matrice BLOSUM62
|
Calcul numérique des valeurs de scores des matrices PAM et BLOSUM Dans le cas d'un modèle de protéine de séquence aléatoire (les acides aminés sont présents de manière indépendante les uns des autres, avec une fréquence individuelle f), toute matrice de scores (appropriée aux alignements locaux sans gap) avec au moins un score positif et un score attendu négatif (matrice "log-odds") peut être écrite sous la forme : Sij = (1/λ) . log (pi,j / fi . fj) Sij est le score élémentaire calculé pour l'alignement de 2 acides aminés i et j :
Avec les paramètres :
|
Les valeurs induites par le facteur d'échelle λ Les valeurs des matrices de scores les plus courantes varient de -10 à +20, ce qui reflète des facteurs d'échelle λ :
Exemple 1 :
Exemple 2 :
|
Liens et différences entre les matrices PAM et BLOSUM | ||
Matrices PAM |
Matrices BLOSUM |
|
Principe | Extrapolation de l'information obtenue sur l'évolution sur des périodes de plus en plus longues, à partir de séquences étroitement liées. | Matrices construites à partir des résidus d'acides aminés contenus dans des "blocs" alignés ayant divergé à des degrés divers. |
Pour comparer des séquences étroitement liées | des matrices avec des nombres plus faibles sont créées | des matrices avec des nombres plus élevés sont créées |
Pour comparer des protéines distantes | des matrices avec des nombres élevés sont créées | des matrices avec des nombres faibles sont créées |
Un indice plus élevé dans la dénomination de la matrice reflète | une distance évolutive plus grande | une similarité de séquence plus élevée et donc une distance d'évolution plus petite |
Complément | PAM1 est la matrice calculée à partir de comparaisons de séquences n'ayant pas plus de 15% de divergence mais correspondant à 99% d'identité de séquence. | BLOSUM62 est la matrice calculée à partir de comparaisons de séquences avec une identité par paire non supérieure à 62%. |
Les autres matrices PAM sont calculées à partir de PAM1. | Basées sur les alignements observés : ceux-ci ne sont pas extrapolés à partir de comparaisons de protéines étroitement apparentées. |
Entropie relative (en bits) - ou contenu d'information associée - de quelques matrices PAM et de matrices BLOSUM similaires (Altschul S.F., 1991) | ||
PAM100 | BLOSUM90 | 1,18 |
PAM120 | BLOSUM89 | 0,98 |
PAM160 | BLOSUM60 | 0,70 |
PAM200 | BLOSUM52 | 0,51 |
PAM250 | BLOSUM45 | 0,36 |
L'introduction de gaps dans les alignements réduit considérablement le contenu en information. L'effet est plus prononcé pour de faibles distances évolutives.
|
d. Pourquoi les identités n'ont-elles pas toutes le même score dans une matrice de substitution ? Fréquence des acides aminés dans les protéines
Source : Uniprot / Swissprot Avec la matrice BLOSUM62 (voir ci-dessus) le score de la paire leucine (L/L) est +4 et le score de la paire tryptophane (W/W) est +11. Or, plus l'acide aminé est rare, plus il serait surprenant qu'il s'aligne avec lui-même par hasard.
Ces valeurs utilisées pour construire la matrice BLOSUM62 (avec une valeur λ = 0,347) donnent +3.8 pour (L/L) et +10,5 pour (W/W), respectivement, arrondis à +4 et +11. |
Pourcentages des acides aminés dans différentes matrices de substitution et dans la base de données UniProtKB/Swiss-Prot | |||||
Acide aminé |
GPCRtm |
JTTtm |
PHDhtm |
BLOSUM62 |
% issu des données de UniProtKB/Swiss-Prot |
Ala (A) | 8.0 | 10.5 | 8.8 | 7.4 | 8.25 |
Cys (C) | 3.6 | 2.2 | 2.6 | 2.5 | 1.38 |
Asp (D) | 2.1 | 0.9 | 1.4 | 5.4 | 5.46 |
Glu (E) | 1.9 | 1.0 | 1.0 | 5.4 | 6.72 |
Phe (F) | 7.3 | 7.7 | 9.3 | 4.7 | 3.86 |
Gly (G) | 4.6 | 7.6 | 5.7 | 7.4 | 7.07 |
His (H) | 2.1 | 1.7 | 1.1 | 2.6 | 2.27 |
Ile (I) | 8.1 | 11.9 | 11.0 | 6.8 | 5.91 |
Lys (K) | 3.4 | 1.1 | 0.9 | 5.8 | 5.80 |
Leu (L) | 14.1 | 16.3 | 16.0 | 9.9 | 9.65 |
Met (M) | 3.1 | 3.3 | 4.1 | 2.8 | 2.41 |
Asn (N) | 3.4 | 1.8 | 2.2 | 4.5 | 4.06 |
Pro (P) | 3.8 | 2.6 | 3.2 | 3.9 | 4.74 |
Gln (Q) | 2.2 | 1.4 | 1.2 | 3.4 | 3.93 |
Arg (R) | 4.5 | 1.6 | 2.1 | 5.2 | 5.53 |
Ser (S) | 6.8 | 5.7 | 6.5 | 5.7 | 6.64 |
Thr (T) | 5.6 | 5.2 | 5.3 | 5.1 | 5.35 |
Val (V) | 9.2 | 11.9 | 11.0 | 7.3 | 6.86 |
Trp (W) | 1.9 | 2.2 | 1.9 | 1.3 | 1.10 |
Tyr (Y) | 4.3 | 3.2 | 4.7 | 3.2 | 2.92 |
Ces chiffres évoluent (légèrement) au fur et à mesure que de nouvelles séquences sont ajoutées dans les différentes bases de données.
|
e. Les matrices de substitution liées aux propriétés physico-chimiques des acides aminés et aux structures des protéines La figure ci-dessous montre la "hiérarchie" des 4 niveaux de structures des protéines. Christian ANFINSEN (Prix Nobel 1972) a montré que, dans un environnement approprié : toute l'information nécessaire au repliement d'une protéine dans sa structure native (donc fonctionnelle) est contenue dans sa séquence primaire (l'enchaînement des acides aminés). Pour rendre compte de la complexité du processus du repliement, on peut mentionner :
Les différents types de structures d'une protéine repliée sont donc contrôlés par :
Figure ci-dessous : représentation schématique des liaisons au sein d'une protéine repliée. A ces liaisons s'ajoutent les interactions avec le milieu ambiant (le plus souvent, l'eau). |
Propriétés physico-chimiques des acides aminés Les acides aminés ont des propriétés physico-chimiques trés diverses. La base de données " ProtScale" fournit près de 60 tables de valeurs de ces propriétés. En voici quelques exemples : (Source : " ProtScale")
Voir une liste de tables de 566 propriétés physico-chimiques. La structure des protéines est de 3 à 10 fois plus conservée que la séquence des protéines
Bases de données liées aux structures des protéines La relation évolutive entre protéines peut être analysée en regroupant des protéines similaires. Il existe un grand nombre de bases de données liées aux structures des protéines. Ces ressources classent les protéines en fonction de leur degré de similarité, mais diffèrent par les définitions qu'elles emploient et leurs méthodes de classification. Il y a cependant un consensus général en ce qui concerne l'ordre hiérarchique entre topologie globale ou repliement, superfamille, famille et domaines individuels. De nombreuses protéines ayant la même topologie auront évolué de manière convergente, mais les membres des superfamilles et des familles sont susceptibles d'être issus d'un ancêtre commun par une évolution divergente. Exemples de bases de données :
|
Les matrices de substitution liées à la structure Elles sont aussi appelées matrices de substitution liées à l'environnement. Ces matrices sont construites à partir d'un très grand nombre de combinaisons de propriétés physico-chimiques des acides aminés. Exemples de propriétés physico-chimiques (aussi appelées descripteurs physico-chimiques) :
Pour certaines propriétés physico-chimiques il existe de nombreuses tables (appelées fréquemment échelles) de valeurs expérimentales. Exemples d'échelles pour l'hydrophobicité : Hopp & Woods (1981) , Kyte & Doolittle (1982), Eisenberg & Weiss (1982), Goldman et al. (1986), Wimley & White (1996); White et al. (2005), "Knowledge-based Unified Hydrophobicity Scale" (2009). Script Python : profil d'hydrophobicité d'une séquence polypeptidique avec une fenêtre variable. Les valeurs pour chaque acide aminé dans ces échelles sont utilisées pour calculer les valeurs des matrices de substitution liées à l'environnement.
Exemples de matrices de substitution liées aux propriétés physico-chimiques des acides aminés et à la structure des protéines :
Voir une liste de 94 matrices de substitution d'acides aminés. |
f. Exemple de construction d'une matrice de substitution liée à l'environnement des acides aminés Partie a de la figure ci-dessous Les acides aminés peuvent être classés dans l'un des 64 environnements correspondant à l'une des combinaisons d'environnements suivants :
Source : Worth et al. (2009) Partie b Construction de matrices de substitution spécifiques de l'environnement (ESST - "Environment-Specific Substitution Tables") à partir d'alignements de structures de protéines homologues dans lesquels chaque résidu d'acide aminé :
La fréquence de substitution des acides aminés est mesurée pour chaque environnement structural puis moyennée sur l'ensemble des familles de protéines homologues. En additionnant les 64 ESST, on obtient une matrice indépendante de l'environnement (telle qu'une matrice PAM ou BLOSUM). Ainsi, les ESST sub-divisent les matrices de substitution standard en 64 matrices qui diffèrent par l'environnement tri-dimensionnel local des acides aminés. |
g. Matrices de substitution construites à partir d'alphabets structuraux Définir un alphabet structural (motif de 5 résidus d'acides aminés consécutifs) a pour objectif de traduire la structure 3D d'une protéine en une série de lettres correspondant à cet alphabet structural : la structure d'une protéine constituée de n résidus d'acides aminés est donc décrite par une séquence de (n-4) lettres de cet alphabet structural. Illustration : démarche de l'algorithme proposé par le serveur 3D-BLAST 1ère étape Un ensemble de 674 couples de protéines (1348 protéines au total) a été créé à partir de la base de données de structures SCOP. Chaque couple est caractérisé par une similarité de structure élevée et une faible identité de séquence. Rappel : SCOP et CATH sont deux bases de données de classification hiérarchique de la structure des protéines. 2ème étape Ces 1348 protéines ont permis de générer 225.523 fragments structuraux : chaque fragment structural est constitué de 5 résidus d'acides aminés consécutifs et il est défini par 2 angles :
|
Source : 3D-Blast server |
3ème étape Un algorithme de regroupement des plus proches voisins a permis de classer les 225.523 fragments structuraux de protéines en 23 groupes. Chaque groupe définit l'une des 23 lettres de l'alphabet structural :
4ème étape Une nouvelle matrice de substitution (23 x 23) utilisant cet alphabet structural a ainsi été créée.
Source : 3D-Blast server Finalement, le logiciel de recherche de séquences BLAST a été modifié afin d'utiliser cette nouvelle matrice et d'interroger la base de données de fragments structuraux (découverte d'homologie de structures ou classification évolutive). Script Python : diagramme de Ramachandran d'une séquence polypeptidique. |
Comparaison et prédiction des structures par apprentissage profond |
9. Liens Internet et références bibliographiques | |
Bases de données sur les acides aminés peu fréquents (sous-partie de la base de données "Protein Information Resource" - PIR) | |
Bases de données sur les propriétés physico-chimiques des acides aminés (sous-partie de la base de données "Expasy - Swiss-Prot") |
|
Base de données PROWL : propriétés physico - chimiques des acides aminés, peptides, protéines. Molecular machines : Leigh group |
|
Pehr Edman (1950) Acta Chem. Scand. 4, 283 Dunker et al. (2001) "Intrinsically disordered protein" J. Mol. Graph. Model 19, 26 - 59 Uversky et al. (2000) "Why are "natively unfolded" proteins unstructured under physiologic conditions ?" Proteins 41, 415 - 427 Worth et al. (2009) "Structural and functional constraints in the evolution of protein families" Nat. Rev. Mol. Cell. Biol. 10, 709 - 720 |
|
Jaspard et al. (2012) "Computational and Statistical Analyses of Amino Acid Usage and Physico-Chemical Properties of the Twelve Late Embryogenesis Abundant Protein Classes" PLoS ONE 7, e36968 Lewandowski et al. (2013) "Sequence-Specific Peptide Synthesis by an Artificial Small-Molecule Machine" Science 339, 189 - 193 |
|
Pearson & Lipman (1988) "Improved tools for biological sequence comparison" Proc. Natl. Acad. Sci. 85 2444 - 2448 Altschul et al. (1990) "Basic local alignment search tool" J. Mol. Biol. 215 403 - 410 Altschul S.F. (1991) "Amino acid substitution matrices from an information theoretic perspective" J. Mol. Biol. 219, 555 - 565 Pearson W.R. (2013) "Selecting the right similarity-scoring matrix" Curr. Protoc. Bioinformatics 43: 3.5.1 - 3.5.9 |
|
Ng et al. (2000) "PHAT: a transmembrane-specific substitution matrix. Predicted hydrophobic and transmembrane" Bioinformatics 16, 760 - 766 Biegert & Söding (2009) "Sequence context-specific profiles for homology searching" PNAS 106, 3770 - 3775 You et al (2014) "An Approach for a substitution matrix based on protein blocks and physicochemical properties of amino acids through PCA" IBC 6, 1 - 10 Rios et al. (2015) "GPCRtm: An amino acid substitution matrix for the transmembrane region of class A G Protein-Coupled Receptors" BMC Bioinformatics 16, 206 |
|
Dayhoff et al. (1978) "A model of Evolutionary Change in Proteins" Atlas of protein sequence and structure (vol 5, supp. 3 ed.) Nat. Biomed. Res. Found., 345 - 358 Henikoff & Henikoff (1992) "Amino acid substitution matrices from protein blocks" PNAS 89, 10915 - 10919 Yu & Altschul (2005) "The construction of amino acid substitution matrices for the comparison of proteins with non-standard compositions" Bioinformatics 21, 902 - 911 |
|
Tung et al. (2007) "Kappa-alpha plot derived structural alphabet and BLOSUM-like substitution matrix for rapid search of protein structure database" Genome Biol. 8, R31 Gong & Blundell (2008) "Discarding Functional Residues from the Substitution Table Improves Predictions of Active Sites within Three-Dimensional Structures" PLoS Comput. Biol. 4, e1000179 Goonesekere & Lee (2008) "Context-specific amino acid substitution matrices and their use in the detection of protein homologs" Proteins 2008 71, 910 - 919 Illergard et al. (2009) "Structure is three to ten times more conserved than sequence - a study of structural response in protein cores" Proteins 15, 499 - 508 |
|
Keul et al. (2017) "PFASUM: a substitution matrix from Pfam structural alignments" BMC Bioinformatics 18, 293 Trivedi & Nagarajaram (2020) "Substitution scoring matrices for proteins - An overview" Protein Sci. 29, 2150 - 2163 |