Proteomique proteomics application rubisco ribulose bisphosphate carboxylase oxygenase Enseignement et recherche Biochimie - Universite Angers Emmanuel Jaspard biochimej

Applications et résultats de la protéomique : exemple de la RuBisCO

1. Obtention d'une séquence en acides aminés à partir d'une séquence nucléotidique

Récupérer la séquence FASTA "U91966" (lien ci-contre) et la coller dans un éditeur de texte.

Aller dans la catégorie "Proteomics" des outils de "Expasy" et choisir l'outil "Translate".

Coller la la séquence FASTA "U91966" dans la fenêtre et lancer l'application.

Attention : supprimer tout le texte qui n'est pas la séquence proprement dite. Pourquoi ?

U91966

cliquer sur le lien "5'3' Frame X" ou "3'5' Frame X" de la phase de lecture qui vous semble correcte
cliquer sur la 1ère méthionine qui vous semble correcte
cliquer sur le lien "Sequence in FASTA format"

Sauvegarder la séquence FASTA virtuelle (>VIRTXXX) générée.

Que signifie "5'3' Frame 1", "5'3' Frame 2", ... ?

Pourquoi l'une des traductions est-t-elle plus cohérente ?

Qu'est-ce que FASTA ?

Format de fichier

Description de l'algorithme de FASTA

Voir le cours de protéomique

2. Diagramme de fragmentation virtuel (MS-MS) de la séquence en acides aminés

Ouvrir une nouvelle page de navigateur et choisir l'outil "MS-Digest" de la suite logicielle "Protein Prospector".

Coller la séquence FASTA virtuelle dans la fenêtre "User Protein Sequence". Ajuster les paramètres (ci-contre).

Cliquer sur "Perform Digest".

Paramètres à ajuster :

choisir "User protein" dans le menu "Database".
choisir "Trypsin" dans le menu "Digest".
supprimer le N° d'accession dans la fenêtre "List of Entries".
choisir "ESI_Q_TOF" dans le menu "Instrument".

Qu'effectue ce programme ?

Que signifie (R) ou (K) au début de la séquence de chaque peptide ?

Noter les valeurs de masse molaire et de pI.

L'hydrolyse in silico de la protéine et le calcul des rapports masse/charge des peptides issus de la fragmentation par un spectromètre de masse en tandem de type ESI.

Site d'hydrolyse par la trypsine.

masse molaire : 52956 Da / pI : 5.9

Quels sont la masse isotopique, le nombre d'acides aminés et la modification post-traductionnelle du plus grand et du plus petit fragments ?

AVYECLR : mi = 853.4236 Da / 7 aa / pas de modification

VTPQPGVPPEEAGAAVAAESSTGTWTTVWTDGLTSLDR : mi = 3854.8719 Da / 38 aa / pas de modification

Rechercher le peptide DLAVEGNEIIR et cliquer sur le lien.

Quelle est la masse moyenne de l'ion [M+H]⁺ ?
Quels types d'ions N-terminaux et C-terminaux la fragmentation de ce peptide génère-t-elle ?

m_av = 1229.3838
N-terminal : ions a et b / C-terminal : ions y

Voir un rappel sur la nomenclature des ions issus de la fragmentation.

Choisir l'application "MS-Homology" (bandeau du haut).

Choisir : "Database: UniProtKB" (date la plus récente)
Choisir : "Taxonomy : MODEL PLANTS"
Champs "Possible Sequences (Use CAPITALS)" : coller [D|E][A|I|L|V]AV[D|E]{GEIN}I[K|R]

Quels peptides cette écriture inclue-t-elle ?

Lancer l'application (celà peut prendre du temps). Pendant que le logiciel cherche les résultats, passer à la suite.

De quelle protéine s'agit-il a priori ?

Lire les règles d'écriture des expressions régulières pour décrire un motif.

Expression régulière qui inclue DLAVEGNEIIR.

Ribulose bisphosphate carboxylase large chain.

Accession Uniprot : O03042

3. Confirmation de l'identité de la protéine et recherche de protéines homologues ou similaires

Aller à BLAST - NCBI .

A quoi correspondent les différents programmes de la famille "BLAST" ?

Choisir "protein blast". Fenêtre "Enter accession number(s), gi(s), or FASTA sequence(s)" : coller la séquence FASTA virtuelle (avec la partie descriptive ">VIRT17159").

Différents programmes BLAST

Logique de l'algorithme de BLAST

Choisir la base de données avec laquelle cette séquence va être comparée.

A quoi correspondent ces différentes bases de données ?

Les liens ci-contre renvoient vers une description de chaque type de base de données.

Non-redundant protein sequences (nr)
refseq_ proteins
UniProtKB/Swiss-Prot
Patented protein sequences
Protein Data Bank proteins
metagenomic proteins (env_nr) : "env" signifie "environmental projects"
Transcriptome Shotgun Assembly proteins (tsa_nr)

Voir une explication de la redondance des séquences des 3 bases de données UniProtKB (Swiss-Prot et TrEMBL), UniParc et UniRef : "How redundant are the UniProt databases ?"

Partie "Program Selection", cliquer sur PHI-BLAST.

Une fenêtre s'ouvre : coller le motif [DE][AILV][AILV][AILV][DE]G[DENQ][DE][AILV][AILV][KR]

Que traduit ce motif ?

Que fait PHI-BLAST ("Pattern Hit Initiated BLAST") ?

Voir la syntaxe des expressions régulières pour les motifs PHI-BLAST.

Similarité physico-chimique des chaînes latérales des acides aminés.

"PHI-BLAST performs the search but limits alignments to those that match a pattern in the query."

Partie "Algorithm parameters" (tout en bas) : cliquer sur le bouton "+" pour ouvrir la fenêtre des paramètres de la comparaison des séquences (voir ci-contre).

Lancer la rercherche en cliquant sur le bouton bleu "BLAST".

"Max target sequences" : choisir 50
"Expect threshold" : voir l'explication
"Matrix" : choisir la mieux adaptée
"Gap Costs" : une pénalité moindre permet l'introduction de plus de gaps dans les alignements et l'obtention de séquences plus distantes
Autres paramètres : voir les explications

Interpréter les résultats.

Que signifient les paramètres "Max score", "Query cover" et "E-value" ?

De quelle protéine et de quel organisme s'agit-il ?

Quelle est sa longueur en acides aminés ?

Signification du score et interprétation de la "e-value".

Brassica rapa ou Arabidopsis thaliana

Grande sous-unité de la RuBisCO / longueur : 479 aa

Sélectionner une dizaine de séquences avec des E-value différentes. Enregistrer leur séquence FASTA.
Aller à la liste des outils de l'EBI.
Choisir "Clustal Omega" : coller les séquences, ajuster les paramètres ("More options").
Aligner les séquences.
Interpréter les résultats.

4. Analyse protéomique de la protéine identifiée

Aller à la base de données PPDB : "The Plant Proteome Database".

Choisir : "Protein Function".
Ouvrir l'arborescence (signe "+") : "1 PS" puis "1.3 PS. calvin cycle".
Cliquer sur : "1.3.1 PS. calvin cyle.rubisco large subunit (1.7.5)".
Cliquer sur : "ATCG00490.1".

Précisez les points suivants :

plante / protéine / nombre d'acides aminés / masse molaire / pI

Arabidopsis thaliana / Grande sous-unité de la RuBisCO

longueur : 479 aa / Masse molaire : 52.96 kDa / pI : 5.88

De quel travail sont issues les données de protéomique concernant les protéines de l'enveloppe totale des chloroplastes ("Total chloroplast envelope") ?

Aller à l'item "Published Proteomics Data", cliquer sur 12766230.
On arrive à PubMed. Cliquer sur l'icône de l'éditeur de l'article (en haut à droite).

Ferro et al. (2003) "Proteomics of the Chloroplast Envelope Membranes from Arabidopsis thaliana" Mol. Cell. Prot. 2, 325-345.

D'après cet article, quel est le pourcentage de protéines localisées dans les membranes, les thylacoides, le stroma ?

79%, 8%, 7%

Revenir à PPDB. Ouvir le lien "Get sequence" dans la partie "Links".

Récupérer et enregistrer la séquence FASTA. Ouvrir une nouvelle page de navigateur.

Lancer le programme d'alignement FASTA (EBI) avec la séquence enregistrée.
Optimiser les paramètres de l'alignement.
Commenter les résultats. De quel organisme s'agit-il ?

RLSAT

Cours matrices

Arabidopsis thaliana

Revenir à la base de données PPDB. Dans la partie "Experimental Evidence", cliquer sur "Details" du chiffre "107".

De quel organisme, de quel organe et de quel compartiment proviennent les données ?

Arabidopsis thaliana / feuille

membrane thylakoide des chloroplastes

Cliquer sur le lien "SeqView" du "spot" N° 53.

Quel peptide a été identifié ?
Par quelle méthode de spectroscopie ?
Par quelle protéase a-t-il été généré ?
Quelle est la charge de l'ion ?

Peptide : DLAVEGNEIIR / Méthode : LC-ESI-Q-TOF

Digestion par la trypsine / Charge : +2

Enregistrer ce peptide au format FASTA. Dans une autre page de navigateur, aller à la liste des outils de l'EBI.

Lancer "Clustal Omega" : aligner la séquence de la grande sous-unité de la RuBisCO avec ce peptide.

Le résultat vous parait-il cohérent ?

5. Comparaison avec Oryza sativa et avec le précurseur protéique

Revenir à la base de données PPDB. Dans la partie "Related Genes", repérer la séquence Os12g10580.1.

De quel organisme s'agit-il ? Que vaut la E-value ?

Oryza sativa / E-value : 1E-126

Que signifie la E-value qui vaut zéro dans ce tableau pour Osp1g00420.1 de Oryza sativa en regard de la séquence ?

Quels critères indiquent le meilleur alignement dans ce tableau ?

Os12g10580.1 : E-value : 1E-126 / longueur de match : 257 aa / identité : 84% / similarité : 88%

Osp1g00420.1 : E-value : 0 / longueur de match : 476 aa / identité: 90% / similarité: 93%

Récupérer la séquence Os12g10580 au format FASTA.

Aller à MULTALIN. Aligner cette séquence avec celle de la grande sous-unité de la RuBisCO de Arabidopsis thaliana.

Sur quelle partie les deux séquences s'alignent-elles le mieux ?
Est-ce cohérent avec les résultats du tableau ?

Os12g10580

1 - 245 aa / oui

Aligner les 3 séquences : grande sous-unité de Arabidopsis thaliana, grande sous-unité de Oryza sativa et le peptide DLAVEGNEIIR.

Le résultat est-il étonnant ?

Faire un autre alignement en ajoutant le peptide : LTYYTPEYETK.

Où se situe ce peptide dans la séquence ?
A quelle expérience et à quel spot correspond-il ?

N-terminal / Experience : 107 / Spot : 78

Aller à la page de "ORF Finder" du NCBI. Taper le n° d'accession "U91966" et lancer l'application.

Phase de lecture ouverte la plus cohérente : quelle longueur fait-elle en nucléotides et pour combien d'acides aminés code-t-elle ?

Strand + / Frame 2
from to 284 ..1744
Length : 1461 nucleotides ===> 486 aa

Récupérer la séquence nucléotidique FASTA :

menu déroulant au dessus du cadre des résultats : choisir "CDS FASTA" puis cliquer sur "Download marked set".
enregistrer cette séquence.

ORFframe2

Revenir au programme "Translate".

Coller la séquence FASTA "ORFframe2" dans la fenêtre et lancer l'application.

Cliquer sur la bonne phase de lecture / cliquer sur la méthionine en position 1 / cliquer sur le lien "VIRTXXXX in FASTA format" / Enregistrer la séquence FASTA virtuelle générée.

5'3' Frame 1

Virtuelle

Aller à MULTALIN. Aligner la séquence "RLSAT" avec la séquence "Virtuelle".

Quelle différence y a-t-il entre "RLSAT" et "Virtuelle" ?

Finalement à quoi correspond la séquence U91966 ?

"Virtuelle" est la séquence protéique du précurseur de la grande sous-unité de la RuBisco de Arabidopsis thaliana "RLSAT".

"U91966" est la séquence génomique de la grande sous-unité de la RuBisco de Arabidopsis thaliana.

Liens Internet et références bibliographiques

ExPASy Proteomics tools : Ensemble d'applications pour l'analyse de séquences peptidiques.

Sequence Manipulation Suite : Ensemble d'applications Java pour l'analyse de séquences d'ADN et de protéines.

Site "Ion source" : spectromètrie de masse. Contient aussi des cours et exercices appliqués à la protéomique à faire en ligne.

"La bioinformatique en protéomique : analyse des spectres de masse" - F. Rechenmann & I. Quinkal

Ion source

Aller au site

"The Plant Proteome Database for Arabidopsis thaliana and Zea mays"

"AMPDB : the Arabidopsis Mitochondrial Protein Database"

PPDB

AMPDB

"ProMEX : Protein Mass spectra EXtraction" : base de données de spectres de masse d'ions obtenue après hydrolyse tryptique et générés par spectrométrie de masse à piège à ion couplée à la chromatographie liquide - Arabidopsis thaliana.

ProMEX