La bioinformatique
biochimej Flux RSS

1. La bioinformatique : définition, description, démarche et principales étapes

2. Deux types de molécules support de la bioinformation : les acides nucléiques et les protéines

3. Deux types de bioinformation : la séquence des nucléotides et la séquence des acides aminés

4. Le séquençage du génome humain

 

5. Le stockage de la bioinformation : les banques de données

6. La structuration de la bioinformation : fichiers et formats

7. Exemples d'algorithmes et de programmes en bioinformatique

8. Exemple d'analyse bioinformatique d'une enzyme : la glutamate déshydrogénase (GDH)

9. Propositions d'emplois en bioinformatique

 

1. La bioinformatique : définition, description, démarche et principales étapes

Définition : La bioinformatique est l'analyse de la bioinformation.

La bioinformation est l'information liée aux molécules biologiques : leurs structures, leurs fonctions, leurs liens de "parenté", leurs interactions et leur intégration dans la cellule.

Divers domaines d'études permettent d'obtenir cette bioinformation : la génomique structurale, la génomique fonctionnelle, la protéomique, la détermination de la structure spatiale des molécules biologiques, la modélisation moléculaire ...

Description : C'est une discipline récente (quelques dizaines d'années).

C'est une discipline "hybride" (au même titre que la biochimie ou la biophysique) : elle est fondée sur des concepts et des formalismes issus de la biologie, de l'informatique, des mathématiques et de la physique.

C'est une discipline qui utilise toutes les potentialités de traitement de l'informatique : modèles théoriques, algorithmes et programmes, ordinateurs, réseau Internet, bases de données, langages, ...

Démarche

1. Compilation et organisation des données biologiques dans des banques de données : ces banques sont soit généralistes (elles contiennent le plus d'information possible sans expertise particulière de l'information déposée), soit spécialisées dans un domaine autour de thèmes précis.

2. Traitements systématiques des données : l'objectif principal est de repérer et de caractériser une fonction et/ou une structure biologique importante. Les résultats de ces traitements constituent de nouvelles données biologiques obtenues "in silico".

3. Elaboration de stratégies :

  • le but est d'apporter des connaissances biologiques supplémentaires en combinant les données biologiques initiales et les données biologiques obtenues "in silico".
  • ces connaissances permettent, à leur tour, de développer de nouveaux concepts en biologie.
  • concepts qui nécessitent l'élaboration de nouvelles théories et outils en mathématiques et en informatique.

Voir les grandes étapes de l'évolution de la bioinformatique.

biochimej Retour haut de page

2. Deux types de molécules support de la bioinformation : les acides nucléiques et les protéines

ADN : Acide DésoxyriboNucléique

  • macromolécule : chaîne nucléotidique
  • forme de stockage de l'information génétique. Cette information est représentée par une suite linéaire de gènes
  • formée de deux brins complémentaires enroulés en double hélice ce qui lui permet de se dupliquer en deux molécules identiques entre elles et identiques à la molécule mère

On distingue :

  • l'ADN du génome du noyau
  • l'ADN du génome mitochondrial
  • l'ADN du génome chloroplastique

 

ARN : Acide RiboNucléique

  • macromolécule : chaîne nucléotidique
  • constitué par un enchaînement d'unités élémentaires : les ribonucléotides
  • forme qui permet de transférer et de traiter l'information dans la cellule
  • le plus souvent formé d'un simple brin

On distingue :

  • les ARN messagers : ils sont transcrits à partir d'un gène (ADN). Ils sont ensuite traduits en protéines.
  • les ARN de transfert
  • les ARN ribosomaux
  • les ARN nucléaires
  • les ARN cytoplasmiques
 

Protéine

  • macromolécule : chaîne polypeptidique
  • constitué par un enchaînement d'unités élémentaires : les acides aminés
  • l'ensemble des protéines assurent les principales fonctions cellulaires
  • se replie sur elle-même et adopte une conformation ou structure particulière dans l'espace. Cette structure tridimensionnelle est à l'origine de la fonction de la protéine et de la spécificité de cette fonction.

biochimej Retour haut de page

3. Deux types de bioinformation : la séquence des nucléotides et la séquence des acides aminés

Les séquences constituent l'un des principaux types de bioinformation qu'analyse la bioinformatique.

Les chaînes nucléotidiques (ADN, ARN) et les chaînes polypeptidiques (protéines) sont des polymères d'unités élémentaires :

  • ADN : 4 désoxyribonucléotides = dCMP, dGMP, dAMP, dTMP
  • ARN : 4 ribonucléotides = CMP, GMP, AMP, UMP
  • protéines : 20 acides aminés = Ala (A), Cys (C), Asp (D), Glu (E), Phe (F), Gly (G), His (H), Ile (I), Lys (K), Leu (L), Met (M), Asn (N), Pro (P), Gln (Q), Arg (R), Ser (S), Thr (T), Val (V), Trp (W), Tyr (Y)

Elles possèdent 2 extrémités distinctes et sont donc orientées :

  • de l'extrémité dite 5' vers l'extrémité dite 3' pour les chaînes nucléotidiques
  • de l'extrémité dite N-terminale vers l'extrémité dite C-terminale pour les chaînes polypeptidiques

En conséquence :

  • les chaînes nucléotidiques et polypeptidiques sont une succession ordonnée et orientée d'unités élémentaires
  • les séquences sont leur transcription sous forme d'une succession ordonnée et orientée de lettres qui correspondent à ces unités élémentaires

L'obtention des séquences

Exemples d'autres types de bioinformation (directe ou obtenue "in silico")
Les structures tridimensionnelles des protéines et aussi, malgré leur nombre plus restreint, des acides nucléiques (en particulier les ARN de transfert). Protein Data Bank
Les données obtenues en protéomique (gels d'électrophorèse bidimensionnel). SWISS-2DPAGE
Le changement d'un nucléotide dans un gène quelconque ("Single Nucleotide Polymorphism"). SNP
La taxonomie (classification) des organismes. Taxonomy
L'ontologie : l'organisation hiérarchique de la connaissance sur un ensemble d'objets par leur regroupement en sous-catégories suivant leurs caractéristiques essentielles. GO
Les données bibliographiques (diffusion des résultats de la recherche par les articles). PubMed

biochimej Retour haut de page

4. Le séquençage du génome humain

La molécule d'ADN est le support biologique de l'information héréditaire. Cette information est transmise par la copie conforme de cette molécule.

C'est une macromolécule formée par l'enchaînement de milliers, de millions ou de milliards (dans le cas de l'homme) de nucléotides. L'extension complète de l'ADN humain formerait un fil de plus d'1,2 m.

Super-enroulement de l'ADN dans les chromosomes qui explique son extrème compacité : voir un cours sur l'épigénétique.

Figure ci-dessous : une seule molécule d'ADN (long brin jaune) d'une bactérie Escherichia coli éclatée par un choc osmotique. Un fragment de la molécule d'ADN d'environ la moitié de la longueur de la bactérie correspond à environ 5000 paires de bases.

biochimie bioinformatique bioinformatics algorithme sequence protein DNA comparison BLAST sequencing database base

Source : L'information biologique

biochimej Retour haut de page

Figure ci-dessous : aperçu du déroulement du séquençage du génome humain.

biochimie bioinformatique bioinformatics algorithme sequence protein DNA comparison BLAST sequencing database base

Source : Nature 409, 860 - 921

biochimej Retour haut de page

1984 à 1990 Les pré-projets.
  • L'Initiative du Génome Humain est annoncée et quelques projets technologiques commencent.
  • Création de la fondation HUGO ("Human Genome Organization") pour coordonner le séquençage au niveau mondial (éviter les doublons). Echec du projet (coût trop élevé).
1990 Le NIH ("National Institute of Health" - USA) et le DOE ("Department of Energy Office of science"- USA) présentent au Congrès américain le projet "Génome Humain" ("Human Genome Project" - HGP). HGP est un consortium regroupant des laboratoires de différents pays (Etats-Unis, Royaume-Uni, Japon, Allemagne, Chine et France - Génoscope). Il est financé par des fonds publiques et caritatifs. Pour éviter les problèmes liés au dépôt de brevet, les résultats du séquençage sont accessibles à tous sur internet dans les 24 heures. Les objectifs du HGP étaient de :
  • séquencer les 3 milliards de paires de bases du génome humain avec un taux d'erreur minimal
  • identifier tous les gènes.
  • développer des méthodes plus rapides et efficaces pour le séquençage de l'ADN et l'analyse des séquences
  • transférer ces technologies à l'industrie
Le Consortium public n'a pas accordé d'importance au choix des multiples donneurs d'ADN.
1992 Première phase du projet : première carte physique génétique complète (basse résolution). Voir une belle animation décrivant le principe du séquençage (Jussieu - Génoscope).
1993 Le Généthon fournit des mega-YACs au HGP. Le YAC ("Yeast Artificial Chromosome") est un vecteur utilisé pour cloner des fragments d'ADN jusqu'à une taille de 400 kb. Le BAC ("Bacterial Artificial Chromosome") est aussi un vecteur utilisé pour cloner des fragments d'ADN jusqu'à une taille de 300 kb.
1997 Séquençage complet du génome de la bactérie Escherichia Coli. Publication de cartes physiques génétiques à haute résolution des chromosomes humains 7 et X. Le décryptage du génome pose la question de la brevetabilité du vivant, l'UNESCO le 11 novembre 1997 à déclaré que le génome humain est un patrimoine de l'humanité, or un patrimoine de l'humanité ne peut pas être la propriété d'un individu. Donc, une séquence d'ADN ne peut pas être brevetée.
1998 Création de la société "Celera Genomics" (USA) par Craig Venter dans le but de séquencer le génome humain en compétition avec l'HGP. Cette société a fait le choix de séquencer l'ADN de cinq personnes d'origine : africaine, asiatique, caucasienne et latino-américaine. Une vraie course au séquençage est lancée : l'enjeu est la propriété publique ou privée du génome humain dans le but d'une exploitation commerciale des tests et des médicaments (brevets).
1999 Première séquence complète du chromosome 22 établie par HGP.
2000 HGP annonce 90 % du séquençage du génome humain. "Celera Genomics" propose les premiers résultats du séquençage total du génome d'une personne.
Publication du génome du chromosome 21.
Publication du génome complet de la mouche Drosophila melanogaster.
Communiqué commun de Tony Blair et Bill Clinton (14 mai 2000) qui annoncent leur souhait que les résultats du séquençage soient en accès libre et que les brevets soient limités à leur exploitation industrielle et commerciale. L'entreprise "Celera Genomics" va donc devoir rendre ses résultats publics de manière trimestrielle.
Février 2001 La même semaine, publication du brouillon initial des travaux de séquençage du génome humain complet par : Valeurs estimées à cette époque :
  • le génome humain contient 3,2 milliards de nucléotides et il contiendrait environ 30.000 à 40.000 gènes (chiffre nettement inférieur à ce qui était prévu).
  • chiffre bien supérieur à la réalité.
  • Cependant, la structure des gènes est trés complexe (introns, exons, épissage alternatif) : un même gène peut coder différentes protéines. On ignore le nombre total de protéines différentes que peut fabriquer l'organisme humain : nombreestimé entre 50 000 et 150 000.
1. L'ADN humain est extrêmement hétérogène. Les gènes ne sont pas répartis uniformément sur le génome. Il existe des zones qui n'en contiennent aucun, mais possèdent des séquences répétitives. On ne connait pas encore les fonctions de ces parties de l'ADN. 2. Les résultats de la société "Celera Genomics" montrent qu'il y a plus de différences entre l'ADN des deux Caucasiens qu'entre celui d'un Africain et d'un Caucasien. Tous les êtres humains sont différents et cette différence résulte des variations entre l'ADN des individus. Ces variations correspondent au changement d'un nucléotide dans un gène quelconque que l'on appelle un "Single Nucleotide Polymorphism" (SNP). Les SNPs représentent 0,1% de différence entre deux génomes (plus de 1,4 millions de SNP ont été identifiés). Ils sont particulièrement intéressants pour la médecine et l'industrie pharmaceutique (détermination de l'origine de nombreuses maladies, développement de tests de prédisposition aux maladies, synthèse de médicaments en fonction de la sensibilité génétique). 3. Le gène ZNF217 est identifié dans le chromosome 20. Ce gène apparaît en nombre croissant de copies dans beaucoup de tumeurs. Il jouerait un rôle dans le cancer du sein.

biochimej Retour haut de page

5. Le stockage de la bioinformation : les banques de données

Les fichiers contenant l'information biologique sous la forme de séquences est l'élément central autour duquel les banques de données se sont constituées. Il existe un grand nombre de bases de données d'intérêt biologique. On peut distinguer :

  • les banques de données ou bases de données généralistes : elles correspondent à une collecte des données la plus exhaustive possible et qui offrent un ensemble plutôt hétérogène d'informations
  • les bases de données ou bases de données spécialisées : elles correspondent à des données plus homogènes établies autour d'une thématique et qui offrent une valeur ajoutée

Exemple de grandes banques généralistes :

  • EMBL : Banque européenne créée en 1980 et financée par l'EMBO (European Moleculary Biology Organisation). Elle est aujourd'hui diffusée par l'EBI (European Bioinformatics Institute, Cambridge)
  • Genbank : Créée en 1982 par la société IntelliGenetics et diffusée maintenant par le NCBI (National Center for Biotechnology Information, Los Alamos)
  • DDBJ (DNA Data Bank of Japan) : Créée en 1986 et diffusée par le NIG (National Institute of Genetics, Japon).

Ces trois banques s'échangent systématiquement leur contenu depuis 1987 et adoptent un système de conventions communes (The DDBJ/EMBL/GenBank Feature Table Definition).

  • PIR-NBRF (Protein Identification Ressource) : banque de protéines créée sous l'influence du NBRF (National Biomedical Research Foundation) à Washington. Elle diffuse maintenant des données issues du MIPS (Martinsried Institute for Protein Sequences), de la base Japonnaise JIPID (Japan International Protein Information Database) et des données propres de la NBRF.
  • UniProtKB - Swissprot : elle a été constituée à l'Université de Genève à partir de 1986 et regroupe entre autres des séquences annotées de la PIR-NBRF ainsi que des séquences codantes traduites de l'EMBL.

Exemple de banques spécialisées :

  • Disulfide Bridge DataBase (J.-M. Richer, G. Hunault & E. Jaspard) : Cette base de données contient un grand nombre d'informations structurales sur les cystéines de plus de 400 protéines cristallisées. Elle a aussi pour but de servir à la mise au point d'un logicel de prédiction des cystéines impliquées dans la formation de pont disulfure.
  • LEAPdb (G. Hunault, L. Châtelain & E. Jaspard) : Cette base de données contient un grand nombre d'informations sur les "Late Embryogenesis Abundant proteins". Elle a pour but d'étudier la relation structure - fonction de ces protéines impliquées entre autre dans la protection contre les stress biotiques et abiotiques.

biochimej Retour haut de page

6. La structuration de la bioinformation: fichiers et formats

Les séquences sont stockées en général sous forme de fichiers texte qui peuvent être soit des fichiers personnels (présents dans un espace personnel), soit des fichiers publics (séquences des banques) accessibles par des programmes interfaces (tels que SRS, GCG, Entrez).

Le format correspond à l'ensemble des règles (contraintes) de présentation auxquelles sont soumises la ou les séquences dans un fichier donné. Le format permet :

  • une mise en forme automatisée
  • le stockage homogène de l'information
  • le traitement informatique ultérieur de l'information.

Pour lire et traiter les séquences, les logiciels d'analyse autorisent un ou plusieurs formats des données.

Voir des exemples de formats.

biochimej Retour haut de page

7. Exemples d'algorithmes et de programmes en bioinformatique

Voir un cours détaillé.

La bioinformatique utilise des programmes spécifiques écrits dans des langages qui peuvent lui être spécifiques. En effet, si la recherche de motifs dans les séquences est bien traitée par les algorithmes d'analyse de texte ("combinatorial pattern matching"), la séquence seule ne suffit pas pour déterminer la fonction de certaines macromolécules comme les ARN, car il faut tenir compte de leur structure tridimentionnelle. Dans ce cas, l'analyse bioinformatique nécessite de nouvelles méthodes :

  • le développement de structures de données et d'algorithmes (arbres et tableaux de suffixes, automates...)
  • la construction automatique (inférence) de structures d'ARN à partir d'alignements de séquences d'ARN ou d'un ensemble de séquences de même type et issues de différents organismes.

Il est difficile de définir en informatique les objets que manipulent les biologistes. Depuis des années, les bioinformaticiens utilisent des concepts aussi divers que :

  • le recuit simulé
  • les chaînes de Markov
  • les statistiques bayésiennes
  • les réseaux de neurones
  • approche par modélisation ("model-driven approach") : les objets (par exemple, les séquences, les structures, les motifs, ...) ne sont plus étudiés (alignés, classés, ...) par comparaison directe (deux à deux ou multiple) mais à travers la construction d'un modèle qui tente d'en capturer les propriétés communes

biochimej Retour haut de page

8. Exemple d'analyse bioinformatique d'une enzyme : la glutamate déshydrogénase (GDH)

On peut considérer la première réaction d'assimilation de l'azote (sous forme d'ammoniac) par la glutamate déshydrogénase (GDH) comme un point d'entrée dans le métabolisme azoté. L'atome d'azote est à l'origine de la fonction α-aminée des acides aminés selon la réaction :

NH3+ + α-cétoglutarate + NAD(P)H + H+ <=> glutamate + NAD(P)+

Il existe trois isoformes de GDH :

  • la GDH EC 1.4.1.2 qui catalyse la réaction dans le sens de la désamination essentiellement
  • la GDH EC 1.4.1.3 qui catalyse la réaction dans les deux sens
  • la GDH EC 1.4.1.4 (GDH4) qui catalyse la réaction dans le sens de formation du glutamate

La GDH4 joue peut-être un rôle clé dans l'assimilation de l'azote. Or ce rôle n'a pas encore été démontré, notamment chez les plantes. Par ailleurs, on ne dispose d'aucune information concernant la structure de la GDH4.

La bioinformatique permet l'étude prospective de la relation structure - fonction de la GDH.

Valid XHTML 1.0 Transitional