Les acides aminés et la structure primaire des protéines
Flux RSS

 

1. Structure générale et stéréochimie des acides aminés

2. Structure des chaînes latérales

3. Nature et caractéristiques des chaînes latérales

4. Les réactions chimiques des acides aminés

5. La structure primaire ou séquence primaire ou enchaînement des acides aminés ou chaîne polypeptidique

a. La liaison peptidique

b. Détermination de la séquence primaire à partir de l'extrémité N-terminale : la dégradation de Pehr Edman

c. Détermination de la séquence primaire à partir de l'extrémité C-terminale : carboxypeptidase

d. Machine "artificielle" de synthèse peptidique

6. Acides aminés et protéines intrinsèquement désordonnées

 

7. Comparaison de séquences et matrices de substitution

a. Notions élémentaires

b. Les matrices de substitution des acides aminés

c. Pourquoi les identités n'ont-elles pas toutes le même score dans une matrice de substitution ?

d. Les matrices de substitution liées aux propriétés physico-chimiques et à la structure

e. Exemple de construction d'une matrice de substitution liée à l'environnement des acides aminés

f. Exemple de la démarche de l'algorithme du serveur 3D-BLAST

8. Expériences pour l'étude de la structure primaire de l'hirudine

9. Liens Internet et références bibliographiques

 

1. Structure générale et stéréochimie des acides aminés

A l'exception de la glycine (Gly), tous les acides aminés possèdent un carbone α asymétrique (ou chiral).

Il existe donc pour chacun d'entre eux deux isomères stéréochimiques, images en miroir, appelés énantiomères (figure ci-contre).

La convention pour définir la stéréochimie du carbone a s'appuie sur celle des énantiomères du glycéraldehyde.

A quelques rares exceptions près, les acides aminés constitutifs des protéines sont tous de configuration L.

Structure acide amine amino acid biochimej

Dans la cellule (pH neutre), le groupe α-carboxyle et le groupe α-aminé sont ionisés :

  • pKa groupe carboxyle : 1,8 à 2,5
  • pKa groupe aminé : 8,7 à 10,7

Les acides aminés sont des ions amphotères (ou zwiterrions).

Retour haut de page

 

2. Structures des chaînes latérales

La figure ci-dessous montre les chaines latérales des 20 acides aminés les plus fréquemment utilisés pour la biosynthèse des protéines.

Le nom de l'acide aminé selon le code à trois lettres est écrit entre parenthèses.

Structure chaine laterale acide amine amino acid biochimej

2 cas particuliers :

  • Glycine (Gly) : seul acide aminé non chiral et le plus petit
  • Proline : acide α-Iminé (groupe aminé secondaire). Sa chaîne latérale liée à la fois au groupe α-carboxyle et au groupe α-aminé.

Les acides aminés sont des molécules amphotères car elles possèdent une ou plusieurs fonction(s) carboxylique(s) et une ou plusieurs fonction(s) aminé(s). Ces fonctions sont donc déprotonnées au fur et à mesure que le pH augmente.

La réaction de déprotonation d'une fonction acide s'écrit : AH <===> A- + H3O+

Et la constante de dissociation Kd :             [A-] . [H3O+]
Kd = ---------------
                  [AH]

Retour haut de page

 

3. Nature et caractéristiques des chaînes latérales
Acide aminé code Nature de la chaîne latérale Caractéristiques pKa ionisation
alanine (Ala) A

aliphatique (hydrocarbure saturé) :

Ala : groupe méthyle
Val, Leu & Ile : chaîne ramifiée

Ile contient 2 carbones asymétriques (4 stéréoisomères) ---------
valine (Val) V
leucine (Leu) L
isoleucine (Ile) I
proline (Pro) P

acide α-iminé (groupe aminé secondaire) : chaîne latérale liée à la fois au groupe α-carboxyle et au groupe α-aminé

structure particulière qui impose des changements de direction de l'enchaînement des carbones α des chaînes polypeptidiques

---------
phénylalanine (Phe) F

noyau aromatique :

Phe : groupe phényl
Trp : noyau indole
Tyr : groupe phénol

absorbent la lumière UV (ce qui permet de mesurer la concentration d'une protéine en solution) :

Phe : λ = 260 nm
Trp : λ = 278 nm
Tyr à pH 7 : λ = 273 - 277 nm
Tyr à pH 13 (ion phénolate) : λ = 293 - 297 nm

Tyr : acide aminé cible de la phosphorylation par les protéines kinases

---------
tryptophane (Trp) W ---------
tyrosine (Tyr) Y 10,5
méthionine (Met) M groupe méthyl-thioester Met et Cys sont des mercaptans ---------
cystéine (Cys) C groupe thiol peut former un pont disulfure avec une autre cystéine 8,4
glycine (Gly) G atome d'hydrogène le plus petit acide aminé et seul acide aminé non chiral - joue un rôle important dans l'ubiquitinylation ---------
aspartate (Asp) D groupe carboxyle

souvent à la surface des protéines où ils établissent des liaisons hydrogène ou des ponts salins (solvant ou autres molécules)

3,9
glutamate (Glu) E 4,1
asparagine (Asn) N amides respectives de Asp et Glu

trés polaires - souvent à la surface des protéines (liaisons hydrogène)
modification post-traductionnelle : N-glycosylation

---------
glutamine (Gln) Q
sérine (Ser) S

alcool aliphatique

groupe β - hydroxyle

acide aminé réactif au sein des protéines, exemple : protéases à sérine
acide aminé cible de la phosphorylation par les protéines kinases
modification post-traductionnelle : O-glycosylation

non mesurable en solution aqueuse
thréonine (Thr) T

2 carbones asymétriques (4 stéréoisomères)
acide aminé cible de la phosphorylation par les protéines kinases
modification post-traductionnelle : O-glycosylation

---------
lysine (Lys) K

groupements azotés :

Lys : groupe ε-aminé
Arg : ion guanidinium
His : noyau imidazole

souvent à la surface des protéines où ils établissent des liaisons hydrogène ou des ponts salins (solvant ou autres molécules)

10,5
arginine (Arg) R 12
histidine (His) H

acide aminé réactif au sein des protéines, exemple : protéases à sérine (catalyse acide base)

6,0
Lys : acide aminé cible de modifications post-traductionnelles majeures (exemples : ubiquitinylation, biotinylation, carboxylation, hydroxylation, méthylation, sumoylation, ...)

Cas particuliers : Asx = Asp ou Asn - B (voir "Hydrolyse totale de protéines") / Glx = Glu ou Gln - Z / N'importe quel acide aminé = Xaa - X

Le code à une lettre des acides aminés a été inventé par Margaret Dayhoff dans le but de réduire la taille des fichiers de séquences.

Voir le cours sur le métabolisme des acides aminés.

Glycine
Alanine Leucine
Isoleucine Valine
Proline
Tyrosine Phénylalanine
Tryptophane
Arginine Lysine
Histidine
Aspartate Glutamate
Asparagine Glutamine
Sérine Thréonine
Méthionine Cystéine
Source des fichiers PDB : "Library of 3-D Molecular Structures"


blanc : hydrogène - gris : carbone
bleu : azote - rouge : oxygène - jaune : soufre

Fréquence des acides aminés dans les protéines

Classification des acides aminés en fonction de leur fréquence dans plus de 550.000 séquences de protéines : Leu, Ala, Gly, Val, Glu, Ser, Ile, Lys, Arg, Asp, Thr, Pro, Asn, Gln, Phe, Tyr, Met, His, Cys, Trp.

Outre les 20 acides aminés les plus fréquemment utilisés pour la biosynthèse des protéines, au moins 319 autres acides aminés ont été recencés dans les protéines.

En voici quelques exemples :

Acide aminé modifié Exemple de protéine contenant l'acide aminé modifié
N-formyl-L-méthionine méthionine-tRNA ligase (EC 6.1.1.10) ou methionyl-tRNA formyltransférase (EC 2.1.2.9)
3-hydroxy-L-proline procollagène-proline 3-dioxygénase (EC 1.14.11.7)
L-cysteinyl molybdoptérine métalloprotéine à molybdène - phosphoprotéine
N-palmitoyl-glycine glycylpeptide N-palmitoyltransférase (EC 2.3.1.X)
L-lysine méthyl ester protéine-lysine O-méthyltransférase (EC 2.1.1.X)
O-(phosphoglycosyl-D-mannose-1-phosphoryl)-L-sérine GDP-mannose:sérine-protéine mannose-1-phosphotransférase (EC 2.7.8.X)
phycoérythrobiline-bis-L-cystéine phycoérythrobiline chromophore 1
Source: ("RESID Database")

Les bactériocines (lantibiotiques et sactibiotiques) forment un groupe disparate de peptides et de protéines antimicrobiens synthétisés via des ribosomes par des bactéries.

Voir un cours sur le métabolisme secondaire.

Les lantibiotiques sont caractérisés par la présence de lanthionine et de méthyl-lanthionine, des acides aminés non-protéinogènes qui contiennent des liaisons thio-éthers.

Exemples de lantibiotiques : nisine, subtiline, gallidermine, épidermine, lacticine, mutacine, salivaricine, ...

bacteriocine lantibiotique lantibiotic sactibiotique acide amine amino acid biochimej

Les sactibiotiques sont caractérisés par une liaison entre le groupement thiol d'une cystéine et le carbone α un autre acide aminé.

Retour haut de page

 

4. Les réactions chimiques des acides aminés

Réaction du

groupe carboxyle :

R - CH(NH3+) - COO-

action de : on obtient :
base sel
alcool ester
ammoniac amide
chlorure (exemples : PCl5 ou SOCl2) R - CH(NH3+) - COCl
réduction (exemples : H2 ou LiBH4)

alcool aminé : R - CH(NH3+) - CH2OH

décarboxylation (exemples : baryte ou décarboxylase) R - CH2 - NH2 + CO2

Réaction du groupe aminé : R - CH(NH3+) - COO-

acide amine amino acid chemical reactivity alkylation arylation acylation biochimej

acide amine amino acid chemical reactivity aldehyde biochimej


L'acide hippurique (urine de chevaux) est un dérivé important de la glycine.

Autres dérivés de la glycine : acide glychocholique (glycine + acide cholique), sarcosine (N-méthylglycine), créatine et phosphocréatine.

La créatine peut-être obtenue par voie chimique : sarcosine + cyanamide ----------------> créatine

glycine acide amine amino acid chemical reactivity sarcosine creatin biochimej

Synthése de l'alanine à partir de l'acétaldéhyde et de l'acide cyanhydrique.

La β-alanine (acide 3-aminopropanoïque) est un isomère de position de l'alanine.

alanine acide amine amino acid chemical reactivity biochimej

Synthése de la sérine à partir du méthyl-acrylate.

La sérine participe à la biosynthèse des purines et des pyrimidines.

La sérine en milieu acide forme l'acide pyruvique et NH3.

serine purine pyrimidine acide amine amino acid chemical reactivity biochimej

La cystéine donne une couleur rouge avec le nitroprussiate de sodium en milieu alcalin.

Elle peut former des esters : R-SH + HOOC-CH3 -------> R-S-CO-CH3

L'oxydation poussée conduit à l'acide sulfénique (R-SO-H), l'acide sulfonique (R-SO2-H) et l'acide sulfinique (R-SO3-H).

cysteine thiazolidine acide amine amino acid chemical reactivity biochimej

La thréonine traitée par l'acide périodique conduit à la coupure de l'acide aminé.

C'est un acide aminé essentiel, cible de la O-glycosylation ou de la phosphorylation.

threonine acide amine amino acid chemical reactivity biochimej

La méthionine est un acide aminé essentiel. Son dérivé, la S-adénosyl méthionine, est un donneur de groupement méthyle.

L'homocystéine est un acide aminé non protéinogène soufré précurseur de la cystathionine puis de la cystéine.

L'action de l'iode permet de doser la méthionine.

methionine acide amine amino acid chemical reactivity biochimej

Retour haut de page

 

5. La structure primaire ou séquence primaire ou enchaînement des acides aminés ou chaîne polypeptidique

a. La liaison peptidique

Les protéines sont des bioplolymères formés par la condensation des acides aminés.

La liaison qui unit 2 acides aminés consécutifs s'appelle la liaison peptidique.

Formation liaison peptidique acide amine amino acid biochimej

La liaison du carbone carbonyle avec l'azote dans la liaison peptidique (1,33 Å, non indiquée dans la figure) est plus courte que la liaison simple C-N mais plus longue qu'une liaison double C=N classique.

Le caractère partiellement double de la liaison peptidique empêche la rotation autour de la liaison C-N.

En conséquence, le groupe peptidique est confiné dans un plan.

Il existe cependant une liberté de rotation autour des liaisons Cα-C et N-Cα.

Angle dihedral liaison peptidique acide amine amino acid biochimej

On obtient ainsi un enchaînement d'acides aminés. C'est ce que l'on appelle la structure primaire ou séquence ou chaîne polypeptidique.

La chaîne polypeptidique est toujours représentée depuis l'extrémité N-terminale (c'est-à-dire l'acide aminé qui a un groupe α-aminé libre) jusqu'à l'extrémité C-terminale (l'acide aminé qui a un groupe α-carboxyle libre).

b. Détermination de la séquence primaire à partir de l'extrémité N-terminale : la dégradation de Pehr Edman

La fonction α-aminée de l'acide aminé en position N-terminale de la chaîne polypeptidique d'une protéine (ou d'un polypeptide) est traitée à pH alcalin par l'isothiocyanate de phényle (PITC), appelé aussi réactif d'Edman.

On obtient un dérivé phénylthiocarbamyle (PTC) de la protéine ou du peptide. Ce dérivé est traité par un acide anhydre tel que l'acide trifluoroacétique.

Source : "Principes de Biochimie" Horton et al. (1994), Ed. DeBoeck Universités

Degradation Edman acide amine amino acid biochimej

La liaison peptidique liant l'acide aminé en position N-terminale est spécifiquement coupée. Le dérivé anilinothiazolinone de cet acide aminé est séparé du reste de la chaîne polypeptidique par extraction avec un solvant organique, le chlorure de butyle.

On traite ce dérivé instable par une solution acide qui le transforme en dérivé stable : le phénylthiohydantoïne acide aminé (PTH - acide aminé).

Le PTH - acide aminé est séparé, quantifié et identifié par chromatographie en phase reverse avec une phase stationnaire sur laquelle est greffée une chaîne alkylée en C18 (octadécyl) ;

Le reste de la chaîne polypeptidique subit de nouveau l'ensemble du traitement et les acides aminés sont ainsi séquencés tour à tour à partir de l'extrémité N-terminale.

Source : "Principes de Biochimie" Horton et al. (1994), Ed. DeBoeck Universités

Degradation Edman acide amine amino acid biochimej

c. Détermination de la séquence primaire à partir de l'extrémité C-terminale : carboxypeptidase

La séquence en position C-terminale d'une protéine est obtenue par action de la carboxypeptidase Y :

  • on prélève une fraction aliquote du milieu réactionnel à différents temps d'action de l'enzyme
  • l'échantillon est traité par le PITC
  • on sépare le PTH - acide aminé libéré par l'action de l'enzyme par chromatographie en phase reverse
  • on trace la cinétique de libération des acides aminés (figure ci-contre)

La vitesse de libération des acides aminés permet d'établir la séquence primaire.

Dans l'exemple ci-contre, la séquence est : Gln - Leu - Tyr - Glu - Glu

Determination sequence primaire extremite terminale carboxypeptidase chaine polypeptide acide amine amino acid biochimej

d. Machine "artificielle" de synthèse peptidique

Les ribosomes synthétisent les protéines en polymérisant (liaison peptidique) les acides aminés dans un ordre déterminé par les ARN messagers.

Des chercheurs ont créé une "machine artificielle de synthèse peptidique" : elle se déplace le long d'un chapelet de molécules, ramasse les acides aminés qui bloquent sa trajectoire, afin de synthétiser un peptide selon une séquence spécifique.

La structure chimique est basée sur un rotaxane, un anneau moléculaire enfilé sur un axe moléculaire.

L'anneau porte un groupe thiolate qui enlève de manière itérative les acides aminés dans l'ordre codé par le brin et les transfère vers un site l'élongation du peptide par ligature chimique.

Peptide synthesis artificial molecular machine rotaxane acide amine amino acid biochimej

Source : Lewandowski et al. (2013)

La synthèse est obtenue avec 1018 "machines moléculaires" ("molecular machines", nanomachines) agissant en parallèle. Le processus génère des quantités de peptide de l'ordre du milligramme avec une séquence unique confirmée par spectrométrie de masse.

Le Prix Nobel 2016 a été attribué à Jean-Pierre Sauvage, Fraser Stoddart and Bernard Feringa "for the design and synthesis of molecular machines".

Retour haut de page

 

6. Acides aminés et protéines intrinsèquement désordonnées

Les protéines ou régions intrinsèquement désordonnées ou "intrinsically disordered proteins or regions" - IDP/IDR :

  • peuvent se replier ou s'enrichir en structures secondaires lorsqu'elles interagissent avec leur(s) cible(s) biologique(s).
  • sont désordonnées sur une grande partie de la chaîne polypeptidique ou contiennent des régions désordonnées (en nombre variable).
  • sont caractérisées par une faible complexité de séquence, un biais dans leur composition en acides aminés et une forte flexibilité prédite.

Les IDP établissent moins de liaisons intramoléculaires stabilisatrices et sont donc plus dynamiques que les protéines ordonnées. En effet, elles ne possèdent pas suffisamment d'acides aminés non polaires pour former le coeur hydrophobe caractéristique des protéines ordonnées.

Cependant, beaucoup d'IDP sont partiellement repliées et ont donc une compacité moyenne (ramenée à la longueur de la chaîne polypeptidique) supérieure à celle d'une chaîne polypeptidique complétement dénaturée / dépliée ("random coil").

On a recensé envron 460 propriétés physico-chimiques pour les acides aminés. Bon nombre d'entre elles sont "redondantes" ou en tout cas, il existe une forte corrélation entre elles.

La charge nette d'une protéine est la propriété physico-chimique qui semble la plus discriminante pour déterminer son degré de désordre et donc s'il s'agit d'une IDP. Cela semble logique puisque plus la charge nette d'une protéine est importante plus les forces de répulsion électrosatiques le sont et plus la chaîne polypeptidique a tendance à être dépliée / désordonnée.

Les études statistiques et bioinformatiques de trés grands jeux de données d'IDP (dis XRAY, dis NMR, dis CD, dis Fam32) ont permis de classer les acides aminés du "plus promoteur d'ordre" au "plus promoteur de désordre" : W, F, Y, I, M, L, V, N, C, T, A, G, R, D, H, Q, K, S, E, P

Propriétés physico-chimiques les plus discriminantes

Source : Dunker et al. (2001)

Kyte & Doolittle (1982) "Amino acid scale: Hydropathicity" J. Mol. Biol. 157, 105 - 132

Eisenberg et al. (1984) "Amino acid scale: Normalized consensus hydrophobicity scale" J. Mol. Biol. 179, 125 - 142

-----------------------------------------------------------------

Bases de données qui recense les échelles de valeurs des propriétés physico-chimiques des acides aminés :

Charge nette
Nombre de contact dans un rayon de 14 Å
Hydropathie - Echelle de Kyte & Doolittle (1982)
Hydropathie - Echelle de Eisenberg et al. (1984)
Flexibilité
Propension à former des feuillets β
Nombre de liaison de coordination
Pourcentage des acides aminés promoteurs de désordre [R + E + S + P]
Encombrement stérique ("bulkiness")
Pourcentage des acides aminés promoteurs d'ordre [C + F + Y + W]
Volume
Réfractivité

La composition en acides aminés de 4 jeux de données "protéines désordonnées" (dis XRAY, dis NMR, dis CD, dis Fam32) ont été comparés entre eux et avec un jeu de données "protéines ordonnées".

La proportion de chaque acide aminé dans chacun des jeux de données a été exprimée par : [nombre de l'acide aminé considéré dans les protéines désordonnées) - (nombre de l'acide aminé considéré dans les protéines ordonnées)] / (nombre de l'acide aminé considéré dans les protéines ordonnées).

Dans la figure ci-contre, un pic négatif signifie donc que le jeux de données "protéines désordonnées" considéré contient moins l'acide aminé considéré que le jeu de données "protéines ordonnées".

IDP IDR unstructured non structure promoteur ordre desordre acide amine amino acid biochimej

Source : Dunker et al. (2001)

Les acides aminés sont rangés en fonction de leur indice de fléxibilité corrigé par le facteur de température ("Debye-Waller factor" ou "B-factor") qui tient compte des mouvements dûs à la châleur sur l'atténuation de la diffraction des rayons X. Celà permet de tenir davantage compte de certains effets de l'environnement sur les acides aminés.

L'acide aminé le moins flexible est à gauche (Trp) et le plus flexible est à droite (Lys).

Si on représente la valeur absolue de la charge nette moyenne (c'est-à-dire pondérée par la longueur de la chaîne polypeptidique de l'IDP considérée) à pH 7 (<R>) en fonction de la valeur absolue de l'hydrophobicité moyenne (<H>), on obtient un graphique avec deux zones qui correspondent aux IDP et aux protéines structurées, respectivement.

Ces zones sont délimitées par une droite d'équation : <H> = [ <R> + 1,151 ] / 2,785 et les IDP sont au dessus de cette ligne.

On obtient un graphique équivalent si on représente <R> en fonction de la valeur absolue de l'hydropathie moyenne ("GRand Average of hYdropathy" - <GRAVY>).

Hydrophobicity plot IDP IDR unstructured non structure promoteur ordre desordre acide amine amino acid biochimej

Source : Uversky et al. (2000)

Retour haut de page

7. Comparaison de séquences et matrices de substitution

a. Notions élémentaires

Outils nécessaires pour faire une comparaison de séquences par alignement :

  • un programme (un algorithme)
  • un jeu de données :
    1. un ensemble de séquences de nucléotides ou d'acides aminés (code à une lettre)
    2. ou une séquence de nucléotides ou d'acides aminés et une base de données contenant un ensemble plus ou moins important de séquences de nucléotides ou d'acides aminés
  • un critère de comparaison entre nucléotides ou acides aminés qui tient compte de divers paramètres évolutifs et/ou structuraux : la matrice de substitution

Plusieurs termes sont employés pour décrire une notion difficile : la « ressemblance » entre deux séquences biologiques.

  • L'identité est la ressemblance totale entre deux séquences.
  • La similarité : elle se mesure en % d'identité.
  • L'homologie :
    1. elle a une connotation évolutive : 2 séquences sont homologues si elles ont un ancêtre commun.
    2. elle est transitive : si la séquence A est homologue à la séquence B et la séquence B est homologue à la séquence C, alors A est homologue à C (même si A et C se ressemblent très peu).
    3. elle se mesure par la similarité (sauf si les séquences ont une faible complexité). L'inverse n'est pas vrai : pas de similarité ne signifie pas non-homologie.
  • Source : « Genet » R. Jalousot

Distance et scores

Le calcul de distance permet de traduire quantitativement cette notion floue de "ressemblance" : schématiquement, plus la distance entre 2 séquences est élevée, moins elles sont similaires.

L'avantage est qu'avec certaines règles de comparaison, on obtient une valeur chiffrée pour la comparaison entre séquences, que l'on appelle un score.

Définition : la distance d'édition D(S1,S2) entre deux séquences S1 et S2 est le nombre minimum d'opérations (insertion, délétion et substitution) pour transformer S1 en S2.

D(S1,S2) est une distance métrique si les conditions suivantes sont remplies :

D(S1,S2) ≥ 0 pour toutes séquences S1 et S2
D(S1,S2) = 0 si S1 = S2
D(S1,S2) = D(S2,S1) / commutativité
D(S1,S2) + D(S2,S3) ≥ D(S1,S3)

 

Exemple de distance avec une métrique très simple :
identité = 0 / mésappariement ("mismatch") = 1 / pas de "gaps"

Séquences appariements distance (D)

S1

S2

E F G N A W R K
| |   |     | |
E F L N C V R K
3

S2

S3

E F L N C W R K
  |   |       |
H F G N I P M K
5

S1

S3

E F G N A W R K
  | | | |     |
H F G N I P M K
3

Les valeurs attribué à l'identité, à un mésappariement ou à un "gap" sont très variables car elles dépendent des paramètres pris en compte par les auteurs qui les calculent.

Une séquence au format FASTA (nucléotides ou acides aminés) :

  • une première ligne qui commence par le symbole "supérieur à" (>). Cette ligne contient des informations sur la séquence.
  • plusieurs lignes contenant les caractères de la séquence. Il est recommandé que ces lignes contiennent au plus 80 caractères.

protein function relationship structure amino acid FASTA matrice substitution matrix biochimej

Les trous, brèches ou "gap" : espace artificiel introduit dans une séquence pour contre-balancer et matérialiser une insertion dans une autre séquence. Il permet d'optimiser l'alignement entre les séquences.

Exemple d'un résultat de la recherche d'homologie d'une ovalbumine de poulet (P01013) avec le logiciel BLAST.

protein function relationship structure amino acid FASTA matrice substitution matrix biochimej

Le score de bit (S') : il est dérivé du score d'alignement brut (S) en tenant compte des propriétés statistiques du système de calcul des scores (en particulier la matrice de score et la taille de la base de données interrogée) : puisue les scores de bit sont normalisés par rapport au système de calcul des scores, ils sont utilisés pour comparer les scores de différents alignements.

Le score par positionq alignée (« bits-per-position ») : les matrices de scores ont un contenu d'information associée (qu'on appelle l'entropie relative) ou score par position alignée (« bits-per-position »). Les scores par position alignée peuvent être utilisés pour estimer le nombre de résidus alignés nécessaires pour générer un score statistiquement significatif.

Par exemple, les matrices telles que PAM/VTML 10, PAM/VTML 20 ou PAM/VTML 40 ont un contenu d'information plus élevé que les matrices telles que BLOSUM62 ou PAM250, ce qui signifie qu'un alignement plus court (10 à 50 résidus) peut produire un score plus significatif statistiquement.

Matrices VTML : Müller & Vingron (2000) "Modeling amino acid replacement" J. Comput. Biol. 7, 761 - 776

Retour haut de page

 

b. Les matrices de substitution des acides aminés

Les valeurs pondérées de scores élémentaires pour la substitution (remplacement) d'un acide aminé par un autre (ou lui-même) sont regroupées dans des tableaux appelés matrices de scores de similarité.

Les matrices de scores de similarité différent sur 3 points :

  • la méthode selon laquelle elles sont construites
  • leur contenu en information (appelée entropie relative - "relative entropy H: average mutual information per amino acid pair") qui est lié au nombre de résidus d'acides aminés qui doivent être alignés pour obtenir un score significatif statistiquement
  • leur échelle : c'est-à-dire la quantité d'information fournie par unité de score
Deux grandes familles de matrices

Matrices construites à partir de l'analyse de l'évolution des séquences de protéines (« standard log-odds ratios matrices »)

Ces matrices sont construites en analysant les fréquences de substitution observées dans des alignements de familles de protéines connues.

Ces matrices de substitution sont construites à partir de grands ensembles d'alignements de séquences de protéines, ces séquences ayant des fréquences d'acides aminés qu'on peut qualifier de « standard ».

Ce sont les matrices les plus fréquemment utilisés par les programmes de comparaison de séquences.

Les principales matrices de ce type sont les matrices : PAM, BLOSUM, Gonnet, VTML, ...

Matrices construites à partir de l'analyse des propriétés chimiques et structurales des protéines.

Ces matrices s'appuient sur :

  • les similarités des propriétés chimiques des chaînes latérales des acides aminés (exemple : volume - encombrement, polarité - hydrophobicité, charge, …)
  • et/ou l'influence de l'environnement (principalement le solvant) des acides aminés sur les conformations des chaînes polypeptidiques
  • et/ou les similarités de structures tridimensionnelles des protéines

Ces matrices sont souvent obtenues à partir d'ensembles de séquences de protéines très spécifiques regroupées sur la base d'un critère particulier. Exemple : protéines transmembranaires riches en hélices amphiphiles donc en acides aminés hydrophobes.

La plupart des méthodes de comparaison / alignement de séquences de protéines utilisent donc ces matrices de substitution d'acides aminés pour évaluer la similarité entre les séquences. Le but est de "proposer" à l'utilisateur un (ou des) alignement(s) significatif(s).

  • des programmes de recherche de séquences dans des bases de données tels que FASTA (Pearson & Lipman, 1988) ou BLAST (Altschul et al., 1990, 1997) utilisent ces matrices de substitution pour calculer des scores d'alignements finaux.
  • des programmes d'alignement multiples tels que CLUSTAL les utilisent pour calculer des scores de sommes de paires de séquences afin de quantifier la similarité entre les séquences alignées.
  • Les alignements locaux de séquences (calculés de manière rigoureuse par l'algorithme de Smith-Waterman et de manière heuristique par BLAST ou FASTA) nécessitent des matrices de scores qui génèrent en moyenne des valeurs de score négatives dans le cas de comparaison des séquences aléatoires.
  • Si le score de matrice moyen (ou attendu) est positif, l'alignement s'étendra jusqu'aux extrémités des séquences et sera global plutôt que local.

Voir une liste des programmes d'alignements de séquences.

Les matrices construites à partir de l'analyse de l'évolution des séquences de protéines

Les valeurs de scores dans les matrices PAM ont été calculées comme le logarithme d'un rapport de probabilités (remarque : "log-odds" = "the logarithm of the odds" = le logarithme des probabilités) :

fréquence d'alignement observée après une distance d'évolution donnée = séquences homologues
log ( ----------------------------------------------------------------------------------------------)
fréquence d'alignement attendue du fait du hasard

  • Par commodité, les valeurs de scores dans les matrices sont des valeurs entières (positives, nulles ou négatives).
  • Cela permet de calculer le score global (ensemble des positions comparées dans les séquences ) comme la somme des scores élémentaires de toutes les positions comparées.

Schématiquement, un score = +2 (positif) signifie que le remplacement de l'acide aminé considéré se produit 10(+2/10) = 1,6 fois plus fréquemment que ce que l'on observerait si ce remplacement était le seul fait du hasard.

Matrices PAM - mutation ponctuelle acceptée

La mutation ponctuelle acceptée par une protéine est le principe de la construction des matrices PAM ("Point Accepted Mutation" ou "Percent Accepted Mutation" ou "Probability of Acceptable Mutation") développées par M. Dayhoff et al. (1978).

Une mutation ponctuelle acceptée par une protéine est un remplacement d'un acide aminé par un autre, accepté par la sélection naturelle. Ce remplacement est le résultat de :

  • l'apparition d'une mutation dans le gène codant un acide aminé
  • l'acceptation de cette mutation par l'espèce comme nouvelle forme prédominante de la protéine
  • pour qu'il soit accepté, le nouvel acide aminé doit donc fonctionner de manière similaire à l'ancien

Exemple du calcul des valeurs de scores des matrices PAM

Toute matrice de scores appropriée pour les alignements locaux peut être traitée comme une matrice « log-odds » de la forme :

Sij = (1/λ) . log (pi,j / fi . fj)

Sij est le score élémentaire calculé pour l'alignement de 2 acides aminés i et j :

  • Sij > 0 indique une substitution fréquente (substitution conservative)
  • Sij < 0 indique une substitution peu probable entre séquences homologues (substitution conservative)

Avec les paramètres :

  • pi,j est la probabilité que l'acide aminé i soit substitué en acide aminé j (probabilité que i et j soient alignés dans des séquences homologues)
  • fi et fj sont les fréquences des acides aminés i et j, respectivement
  • le produit (fi . fj) correspond donc à la fréquence pour les acides aminés i et j s'ils sont alignés par hasard
  • λ est un facteur d'échelle qui permet que les scores individuels dans la matrice soient représentés avec précision par des nombres entiers.

Voir un développement des calculs pour la construction des matrices PAM.

Tableau des fréquences observées des acides aminés

protein function relationship structure amino acid matrice substitution matrix PAM BLOSUM biochimej

Tableau des fréquences observées des acides aminés compte-tenu de leur mutabilité relative (alanine = 100%)

protein function relationship structure amino acid matrice substitution matrix PAM BLOSUM biochimej

  • 1978 (matrices PAM) : valeurs d'origine ayant servi à la construction des premières matrices PAM
  • 1991 (matrice PET91 ou JTT250 / Jones et al., 1992) : valeurs actualisées sur la base d'un échantillon beaucoup plus important de séquences de protéines (> 2600 familles de protéines). PET91 est une matrice normalisée de sorte que tous les maxima sont sur la diagonale et ont pour valeur 10.

Source : The art of aligning protein sequences

Les matrices BOLUM ("BLOcks SUbstitution Matrix" - Henikoff & Henikoff, 1992)

Les valeurs des matrices BLOSUM sont calculées selon la même algèbre de rapport de probabilités que pour les matrices PAM.

Les fréquences de transition sont cependant calculées en comptant le nombre de changements pondérés dans différents blocs d'alignements de grands nombre de séquences de protéines.

Figure ci-contre : valeurs de la matrice BLOSUM62.

Cette matrice est l'une des plus utilisées dans les programmes d'alignement de séquences.

protein function relationship structure amino acid matrice substitution matrix PAM BLOSUM biochimej

Les valeurs induites par le facteur d'échelle λ

Les valeurs des matrices de scores les plus courantes varient de -10 à + 20, ce qui reflète des facteurs d'échelle λ :

  • de ([ln(2)/2] - 1/2 bit) unités pour les matrices PAM120 ou BLOSUM62 par exemple
  • de [ln(2)/3] - 1/3 bit) unités pour les matrices PAM250 ou BLOSUM50 par exemple

Exemple 1 :

  • Le score de la matrice BLOSUM62 pour aligner D avec D est +6.
  • Par ailleurs, la matrice BLOSUM62 est mise à l'échelle en « 1/2 bit » unités (soit : +6 / 2 =3).
  • Donc un alignement (D/D) est 6 = 2*[log2 (pD,D / fD . fD)] ou bien encore 23 = 8 fois plus probable du fait d'une homologie que du fait du hasard.

Exemple 2 :

  • Le score de la matrice BLOSUM62 pour aligner D avec L est -4.
  • Un alignement (D/L) est donc 22 = 4 fois plus probable du fait du hasard que du fait d'être observé dans des blocs homologues alignés pour la construction de la matrice BLOSUM62.

Voir un développement sur les matrices de substitution.

Retour haut de page

c. Pourquoi les identités n'ont-elles pas toutes le même score dans une matrice de substitution ?

Fréquence des acides aminés dans les protéines

Classification des acides aminés en fonction de leur fréquence : Leu, Ala, Gly, Val, Glu, Ser, Ile, Lys, Arg, Asp, Thr, Pro, Asn, Gln, Phe, Tyr, Met, His, Cys, Trp.

Source : Uniprot / Swissprot

relation fonction protein function relationship structure amino acid chaine laterale side chain physical properties petide bond peptidic primary Edman zwitterion matrice substitution matrix biochimej

Avec la matrice BLOSUM62, par exemple, le score de la paire leucine (L/L) est +4 et le score de la paire tryptophane (W/W) est +11.

Plus l'acide aminé est rare, plus il serait surprenant que deux d'entre eux s'alignent par hasard.

Dans les alignements de séquences homologues à partir desquels la matrice BLOSUM62 a été construite :

  • la paire (L/L) était plus fréquente que la paire (W/W) : pL,L = 0,371 et pW,W = 0,0065
  • mais le tryptophane est un acide aminé beaucoup plus rare que la leucine : fL = 0. 099 et fW = 0. 013

Ces valeurs utilisées pour construire BLOSUM62 (avec une valeur λ = 0.347) donnent +3.8 pour (L/L) et +10.5 pour (W/W), respectivement, arrondis à +4 et +11.


Pourcentages des acides aminés dans différentes matrices de substitution et dans la base de données Swiss-Prot
Acide aminé

GPCRtm
RCPG classe A

JTTtm
Protéines membranaires

PHDhtm
Protéines membranaires

BLOSUM62
Critère évolutif

% issu des données
de Swiss-Prot

Ala (A) 8.0 10.5 8.8 7.4 8.3
Cys (C) 3.6 2.2 2.6 2.5 1.4
Asp (D) 2.1 0.9 1.4 5.4 5.5
Glu (E) 1.9 1.0 1.0 5.4 6.7
Phe (F) 7.3 7.7 9.3 4.7 3.9
Gly (G) 4.6 7.6 5.7 7.4 7.0
His (H) 2.1 1.7 1.1 2.6 2.3
Ile (I) 8.1 11.9 11.0 6.8 5.9
Lys (K) 3.4 1.1 0.9 5.8 5.8
Leu (L) 14.1 16.3 16.0 9.9 9.7
Met (M) 3.1 3.3 4.1 2.8 2.4
Asn (N) 3.4 1.8 2.2 4.5 4.1
Pro (P) 3.8 2.6 3.2 3.9 4.7
Gln (Q) 2.2 1.4 1.2 3.4 3.9
Arg (R) 4.5 1.6 2.1 5.2 5.5
Ser (S) 6.8 5.7 6.5 5.7 6.6
Thr (T) 5.6 5.2 5.3 5.1 5.3
Val (V) 9.2 11.9 11.0 7.3 6.9
Trp (W) 1.9 2.2 1.9 1.3 1.1
Tyr (Y) 4.3 3.2 4.7 3.2 2.9

Ces chiffres évoluent (légèrement) au fur et à mesure que de nouvelles séquences sont ajoutées dans les différentes bases de données.

  • Matrices JTT : Jones, Taylor &Thornton (1994) "A mutation data matrix for transmembrane proteins" FEBS Lett. 339, 269 - 275
  • Matrices PHDhtm : Ng et al. (2000) "PHAT: a transmembrane-specific substitution matrix. Predicted hydrophobic and transmembrane" Bioinformatics 16, 760 - 766

Retour haut de page

d. Les matrices de substitution liées aux propriétés physico-chimiques et à la structure

La figure ci-contre montre la "hiérarchie" des 4 niveaux de structures des protéines.

Christian ANFINSEN (Prix Nobel 1972) a montré que, dans un environnement approprié : toute l'information nécessaire au repliement d'une protéine dans sa structure native (donc fonctionnelle) est contenue dans sa séquence primaire (l'enchaînement des acides aminés).

Pour rendre compte de la complexité du processus du repliement, on peut mentionner :

  • la polarité de l'enchaînement des carbones α des acides aminés : lors de sa biosynthèse, la chaîne polypeptidique s'étend de l'extrémité N-terminale vers l'extrémité C-terminale.
  • les contraintes stériques induites par la liaison entre deux acides aminés consécutifs ou liaison peptidique.
  • la diversité des propriétés physico-chimiques des chaînes latérales des acides aminés.

structure primaire secondaire tertiaire quaternaire proteine biochimej

Les différents types de structures d'une protéine repliée sont donc contrôlés par :

  • l'ordre des acides aminés dans la séquence primaire
  • les contraintes stériques de la laision peptidique
  • les propriétés physico-chimiques des chaînes latérales des acides aminés
  • l'environnement des acides aminés

Figure ci-contre : représentation schématique des liaisons au sein d'une protéine repliée. A ces liaisons s'ajoutent les interaction avec le milieu ambiant.

structure primaire secondaire tertiaire quaternaire proteine biochimej

Propriétés physico-chimiques des acides aminés

Les acides aminés ont des propriétés physico-chimiques trés diverses. La base de données " ProtScale" fournit près de 60 tables de valeurs de ces propriétés.

En voici quelques exemples : (Source : " ProtScale")

  • la composition en acides aminés (pourcentage de fréquence - "A.A. composition") sur la base de l'ensemble des protéines de la base de données "Swiss-Prot"
  • le poids moléculaire ("molecular weight")
  • l'hydrophobicité (échelle de Kyte & Doolittle - échelle de Joel Janin, ...)
  • la propension à être intégré dans une hélice α ("alpha-helix") ou dans un feuillet β ("beta-sheet") (échelle de Chou & Fasman - échelle de Levitt, ...)
  • la mutabilité relative ("relative mutability")

Voir une liste de tables de 544 propriétés physico-chimiques.

La structure des protéines est de 3 à 10 fois plus conservée que la séquence des protéines

  • Quand on compare la déviation entre les structures de protéines (RMSD - "Root Mean Square Deviation") et l'identité des séquences de ces mêmes protéines, on observe une relation exponentielle.
  • Au cours de l'évolution, les séquences de protéines homologues accumulent les substitutions sans que, pour autant, des différences notables de structures soient observées.
  • Du fait des contraintes topologiques des chaînes d'acides aminés, l'espace des [structures / repliements] possibles est plus réduit que l'espace des séquences en acides aminés possibles.

Bases de données liées aux structures des protéines

La relation évolutive entre protéines peut être analysée en regroupant des protéines similaires.

Il existe un grand nombre de bases de données liées aux structures des protéines. Ces ressources classent les protéines en fonction de leur degré de similarité, mais diffèrent par les définitions qu'elles emploient et leurs méthodes de classification.

Il y a cependant un consensus général en ce qui concerne l'ordre hiérarchique entre topologie globale ou repliement, superfamille, famille et domaines individuels.

De nombreuses protéines ayant la même topologie auront évolué de manière convergente, mais les membres des superfamilles et des familles sont susceptibles d'être issus d'un ancêtre commun par une évolution divergente.

  • SCOP et CATH sont deux bases de données de classification hiérarchique de la structure des protéines.
  • HOMSTRAD, PASS2 (« Protein Alignments organised as Structural Superfamilies »), Toccata, Dali et CE (« RCSB PDB - jCE/jFATCAT Structure Alignment Server ») fournissent des familles de protéines dont les structures sont alignées et superposées avec différentes annotations des résidus d'acides aminés.
  • Pfam et InterPro : principales bases de données de familles de protéines basées sur les séquences.

Les matrices de substitution liées à la structure

Elles sont dérivées à partir d'un très grand nombre de combinaisons de propriétés physico-chimiques des acides aminés.

On trouve aussi la dénomination matrice de substitution liées à l'environnement.

Exemples de propriétés physico-chimiques (aussi appelées descripteurs physico-chimiques) :

  • Entropie absolue / Energie libre de solvatation (hydratation) / Capacité calorifique
  • Polarisabilité / Flexibilité moyenne / Effet électrique local
  • Mutabilité relative / Rotation optique / Surface accessible au solvant
  • Propension à former une hélice / Propension à former un brin béta
  • ...
  • Voir d'autres exemples : ProtScale

Pour certaines propriétés physico-chimiques il existe de nombreuses tables (appelées fréquemment échelles) de valeurs expérimentales. Exemples d'échelles pour l'hydrophobicité :

  • Hopp & Woods (1981)
  • Kyte & Doolittle (1982)
  • Eisenberg & Weiss (1982)
  • Goldman, Engelman and Steitz (1986)
  • Wimley & White (1996)
  • White, von Heijne & colleagues (2005)
  • "Knowledge-based Unified Hydrophobicity Scale" (2009)

Les valeurs pour chaque acide aminé dans ces échelles sont utilisées pour calculer les valeurs des matrices de substitution liées à l'environnement.

  • Les matrices liées à la structure permettent de détecter des protéines plus homologues que ne le permettent les matrices de substitution "standard".
  • Leur utilisation nécessite cependant de connaître la structure d'une des protéines à comparer.
  • Les matrices liées à la structure sont aussi utilisées pour comparer des séquences de protéines dont la composition en acides aminés s'écartent de cette répartition standard : exemples, les protéines trans-membranaires ou les protéines d'organismes dont le génome a une composition en nucléotides fortement biaisée.

Exemples de matrices de substitution liées à la structure :

  • JTT : Jones et al. (1994) "A mutation data matrix for transmembrane proteins"
  • PHAT : Ng et al. (2000) "PHAT: a transmembrane-specific substitution matrix. Predicted hydrophobic and transmembrane"
  • BAPS : You et al. (2014) "Block based Amino acid Physiochemical properties Substitution matrix"
  • GPCRtm : Rios et al. (2015) "GPCRtm: An amino acid substitution matrix for the transmembrane region of class A G Protein-Coupled Receptors"

Voir une liste de 94 matrices de substitution d'acides aminés.

Retour haut de page

 

e. Exemple de construction d'une matrice de substitution liée à l'environnement des acides aminés

Partie a de la figure ci-dessous - Les acides aminés peuvent être classés dans l'un des 64 environnements correspondant à l'une des combinaisons d'environnements suivants :

  • 4 environnements liés à la structure secondaire : hélice alpha (H), brin beta (E), valeur positive de l'angle de torsion Φ de la chaîne principale (P) et enroulement (C - « coil »).
  • 2 environnements liés à l'accessibilité au solvant du résidu d'acide aminé : accessible (A) et inaccessible (a). Les acides aminés localisés dans des régions inaccessibles au solvant sont beaucoup plus conservés que ceux situés dans des régions accessibles au solvant.
  • 8 environnements liés à l'existence (lettre en majuscules) ou à l'absence (lettre en minuscule) de liaisons hydrogène entre une une chaîne latérale et :
    1. une autre chaîne latérale (S ou s)
    2. un groupement carbonyle de la chaîne principale des carbones alpha (O et o)
    3. un groupement amide de la chaîne principale des carbones alpha (N et n)

matrice substitution matrix acide amine amino acid biochimej

Source : Worth et al. (2009)

partie b : construction de tables de substitution spécifiques de l'environnement (ESST - « Environment-Specific Substitution Tables ») à partir d'alignements de structures de protéines homologues dans lesquels chaque résidu a été annoté avec des caractéristiques structurales tridimensionnelles (expliquées ci-dessus) et affecté à l'un des 64 environnements (l'exemple du format de la figure est celui du programme JOY).

Distance euclidienne entre 2 ESST X et Y

64 : nombre d'environnements

21 : 20 acides aminés + demie-cystine (J)

Xij->k et Yij->k : probabilité que l'acide aminé j soit substitué en acide aminé k de X et Y à partir de l'ESST de X et Y dans l'environnement structural de i.

matrice substitution matrix acide amine amino acid biochimej

Source : Gong & Blundell (2008)

La fréquence de substitution des acides aminés est mesurée pour chaque environnement structural puis moyennée sur l'ensemble des familles de protéines homologues.

En additionnant les 64 ESST, on obtient une matrice indépendante de l'environnement telle qu'une matrice PAM (« Point Accepted Mutation ») ou une matrice BLOSUM (« Block Substitution Matrix »).

Ainsi, les ESST sub-divisent les matrices de substitution standard en 64 matrices qui diffèrent par l'environnement tri-dimensionnel local des acides aminés.

Le programme Ulla génère des ESST à partir d'un ensemble d'alignements de structures, annoté dans divers environnements structuraux et fonctionnels des acides aminés.

Retour haut de page

 

f. Démarche de l'algorithme proposé par le serveur 3D-BLAST : recherche dans une bibliothèque de séquences d'alphabet structural, créée à partir de structures connues de protéines

L'objectif de définir un alphabet structural (motif de cinq résidus d'acides aminés consécutifs) est de traduire la structure 3D d'une protéine en une série de lettres correspondant à cet alphabet structural : la structure d'une protéine constituée de n résidus d'acides aminés est donc décrite par une séquence de (n-4) lettres de cet alphabet structural.

1ère étape

Un ensemble de 674 couples de protéines (1348 protéines au total) a été créé à partir de la base de données de structures SCOP. Chaque couple est caractérisé par une similarité de structure élevée mais une faible identité de séquence.

Rappel : SCOP et CATH sont deux bases de données de classification hiérarchique de la structure des protéines.

2ème étape

Ces 1348 protéines ont permis de générer 225.523 fragments structuraux.

Chaque fragment structural est constitué de 5 résidus d'acides aminés consécutifs et il est défini par 2 angles :

  • l'angle κ (kappa / valeur : 0° à 180°) d'un résidu d'acide aminé i correspond à l'angle de liaison formé par les 3 atomes Ca des résidus i-2, i et i+2
  • l'angle α (alpha / valeur : -180° à +180°) d'un résidu d'acide aminé i correspond à l'angle dièdre formé par les 4 atomes Ca des résidus i-1, i, i+1 et i+2
relation fonction protein function relationship structure amino acid chaine laterale side chain physical properties petide bond peptidic primary Edman zwitterion matrice substitution matrix biochimej

relation fonction protein function relationship structure amino acid chaine laterale side chain physical properties petide bond peptidic primary Edman zwitterion matrice substitution matrix biochimej

Source : 3D-Blast server

3ème étape

Un algorithme de regroupement des plus proches voisins a permis de classer les 225.523 fragments structuraux de protéines en 23 groupes. Chaque groupe définit l'une des 23 lettres de l'alphabet structural :

  • de type hélice (lettres A, Y, B, C et D)
  • de type s'apparentant à une hélice (« helix-like ») (lettres G, I et L)
  • de type brin (lettres E, F et H)
  • de type s'apparentant à un brin (« strand-like ») (lettres K et N)
  • d'autres types (S, T, V, W, X, M, P, Q et R)

4ème étape

Une nouvelle matrice de substitution (23 x 23) utilisant cet alphabet structural a ainsi été créée.

Les scores sont élevés si des alphabets structuraux similaires sont alignés.

Exemple : alphabet structural de type hélice (lettres A, Y, B, C et D) aligné avec un alphabet structural de type hélice.

Finalement, le logiciel de recherche de séquences, BLAST, a été modifié afin d'utiliser cette nouvelle matrice et d'interroger la base de données de fragments structuraux (découverte d'homologie de structures ou classification évolutive).

relation fonction protein function relationship structure amino acid chaine laterale side chain physical properties petide bond peptidic primary Edman zwitterion matrice substitution matrix biochimej

Source : 3D-Blast server

Retour haut de page

9. Liens Internet et références bibliographiques
Bases de données sur les acides aminés peu fréquents (sous-partie de la base de données "Protein Information Resource" - PIR)

RESID Database

PIR

Bases de données sur les propriétés physico-chimiques des acides aminés (sous-partie de la base de données "Expasy - Swiss-Prot")

ProtScale

Swiss-Prot

Base de données PROWL : propriétés physico - chimiques des acides aminés, peptides, protéines.

Molecular machines : Leigh group

PROWL

Leigh group

Pehr Edman (1950) Acta Chem. Scand. 4, 283

Dunker et al. (2001) "Intrinsically disordered protein" J. Mol. Graph. Model 19, 26 - 59

Uversky et al. (2000) "Why are "natively unfolded" proteins unstructured under physiologic conditions ?" Proteins 41, 415 - 427

Worth et al. (2009) "Structural and functional constraints in the evolution of protein families" Nat. Rev. Mol. Cell. Biol. 10, 709 - 720

 

Article

Article

Article

Jaspard et al. (2012) "Computational and Statistical Analyses of Amino Acid Usage and Physico-Chemical Properties of the Twelve Late Embryogenesis Abundant Protein Classes" PLoS ONE 7, e36968

Lewandowski et al. (2013) "Sequence-Specific Peptide Synthesis by an Artificial Small-Molecule Machine" Science 339, 189 - 193

Article

Article

Pearson & Lipman (1988) "Improved tools for biological sequence comparison" Proc. Natl. Acad. Sci. 85 2444 - 2448

Altschul et al. (1990) "Basic local alignment search tool" J. Mol. Biol. 215 403 - 410

Altschul S.F. (1991) "Amino acid substitution matrices from an information theoretic perspective" J. Mol. Biol. 219, 555 - 565

Pearson W.R. (2013) "Selecting the right similarity-scoring matrix" Curr. Protoc. Bioinformatics 43: 3.5.1 - 3.5.9

Article

Article

Article

Article

Ng et al. (2000) "PHAT: a transmembrane-specific substitution matrix. Predicted hydrophobic and transmembrane" Bioinformatics 16, 760 - 766

Biegert & Söding (2009) "Sequence context-specific profiles for homology searching" PNAS 106, 3770 - 3775

You et al (2014) "An Approach for a substitution matrix based on protein blocks and physicochemical properties of amino acids through PCA" IBC 6, 1 - 10

Rios et al. (2015) "GPCRtm: An amino acid substitution matrix for the transmembrane region of class A G Protein-Coupled Receptors" BMC Bioinformatics 16, 206

Article

Article

Article

Article

Dayhoff et al. (1978) "A model of Evolutionary Change in Proteins" Atlas of protein sequence and structure (vol 5, supp. 3 ed.) Nat. Biomed. Res. Found., 345 - 358

Henikoff & Henikoff (1992) "Amino acid substitution matrices from protein blocks" PNAS 89, 10915 - 10919

Chapitre livre

Article

Tung et al. (2007) "Kappa-alpha plot derived structural alphabet and BLOSUM-like substitution matrix for rapid search of protein structure database" Genome Biol. 8, R31

Gong & Blundell (2008) "Discarding Functional Residues from the Substitution Table Improves Predictions of Active Sites within Three-Dimensional Structures" PLoS Comput. Biol. 4, e1000179

Goonesekere & Lee (2008) "Context-specific amino acid substitution matrices and their use in the detection of protein homologs" Proteins 2008 71, 910 - 919

Illergard et al. (2009) "Structure is three to ten times more conserved than sequence--a study of structural response in protein cores" Proteins 15, 499 - 508

Article

Article

Article

Article

Retour haut de page