Recherche de fichiers GenPept pour la RubisCO
Flux RSS

 

Aller au NCBI. Dans la fenêtre à côté du menu déroulant : "All databases" ===> taper : "Rubisco OR Ribulose bisphosphate carboxylase/oxygenase OR RbcL".

Décrypter les résultats généraux obtenus en les comparant à la figure ci-dessous.

base donnees database format fichier file FASTA FASTQ genpept genbank entrez NCBI biochimej

Selectionner les résultats concernant les protéines ===> cliquer sur le lien "Protein" (environ 225.000 résultats / mars 2017).

Compléments :

Affinement de la recherche

Cliquer sur le lien en haut "Advanced". Dans "History", cliquer sur le lien #XX (colonne "Search") et modifier la requête avec l'opérateur logique désiré.

1. Restreindre les résultats à la grande sous-unité ("large subunit / large chain") dans les chloroplastes.

2. Restreindre les résultats à une gamme de 430 à 530 acides aminés (champs "Sequence Length" du menu déroulant "All fields") ===> syntaxe : XX:YY[Sequence Length].

3. Restreindre aux fichiers de plantes ("Viridiplantae").

4. Eliminer les séquences annotées : partielle, construction synthétique, précurseur ("precursor"), hypothétique, prédite ("predicted"), inconnue, non caractérisée ("uncharacterized"), sans nom ("unnamed"), putatif ("putative"), ... [remarque : utiliser les termes anglais].

5. Eliminer les séquences brevetées ("patent").

6. Restreindre les résultats à ceux publiés depuis le début de l'année (champs "Publication Date" du menu déroulant "All fields").

7. Eliminer le maximum de fichiers dont l'annotation indique qu'il ne s'agit pas de la RubisCO :

  • Choisir le mode "Summary".
  • Afficher 200 résultats par page.
  • Aller aux dernières pages (bouton "last >>").
  • Rechercher des fichiers qui ne correspondent pas à la RuBisCO. Noter des mots-clé caractéristiques de ces fichiers.
  • Quel booléen faut-il utiliser pour éliminer les fichiers contenant ces termes ?

Exemples de mots-clé : plastid maturase oxidase ATP synthase phosphatase SET kinase protease proteinase

ribonuclease pyrenoid methyltransferase N-methyltransferase SET activase enolase LSMT anion metabolite transport isocitrate dehydrogenase carboxysome anhydrase dihydroorotase multidrug resistance nitrogen desulfurase nitrogenase molybdenum surface antigen aspartic peptidase pentatricopeptide CP47 apoprotein

Quelle est la conclusion concernant l'ampleur de l'affinement en nombre de fichiers ?

Récupérer environ 200 séquences FASTA. Aligner ces séquences avec Multalin. Conclure.

Exemple de fichier erroné

Décrypter le contenu du fichier numéro d'accession CAB87765.
Effectuer une recherche de similarité de séquences avec BLAST. De quelle enzyme s'agit-il ?
===> histone-lysine N-methyltransferase setd3 / RuBisCO large subunit N-methyltransferase

Séquences redondantes

Récupérer les séquences FASTA des fichiers dont le numéro d'accession est : ABB22732 ABB22731 ABB22730 ABB22729 ABB22728 ABB22727 ABB22726

Aligner ces séquences avec "Multalin". Quelle est la conclusion ?

Retour haut de page

Valid XHTML 1.0 Transitional