La bioinformatique : définition, description, démarche et principales étapes
biochimej Flux RSS

Définition

On trouve un grand nombre de définitions selon l'acception du terme et selon la prépondérance de "bio" sur "informatique" ou l'inverse.

  • La bioinformation est l'information liée aux molécules biologiques : leur séquence, leur nombre, leur(s) structure(s), leur(s) fonction(s), leurs liens de "parenté", leurs interactions et leur intégration dans la cellule ...
  • Cette bioinformation est issue de diverses disciplines : la biochimie, la génétique, la génomique structurale, la génomique fonctionnelle, la transcriptomique, la protéomique, la biologie structurale (structure spatiale des molécules biologiques, modélisation moléculaire ... ), ...
  • Une définition de la bioinformatique : analyse de la bioinformation par des moyens informatiques.

Définition du NCBI (2001) : "Bioinformatics is the field of science in which biology, computer science, and information technology merge into a single discipline."

Description générale

  • Discipline récente (quelques dizaines d'années).
  • Discipline hybride : elle est fondée sur des concepts et des formalismes issus de la biologie, de l'informatique, des mathématiques et de la physique, de la chimie (techniques de séquençage, ...).
  • Discipline qui utilise tout le potentiel de traitement de l'informatique : modèles théoriques, algorithmes et programmes, bases de données, ordinateurs, réseau Internet, protocoles de communication, langages, ...

Démarche

1. Compilation et organisation des données biologiques dans des bases de données :

  • Bases de données généralistes (elles contiennent le plus d'information possible sans expertise très poussée de l'information déposée)
  • Bases de données spécialisées autour de thèmes précis

2. Traitements systématiques des données : l'un des objectifs est de repérer et de caractériser une fonction et/ou une structure biologique importante. Les résultats de ces traitements constituent de nouvelles données biologiques obtenues "in silico".

3. Elaboration de stratégies :

  • Apporter des connaissances biologiques supplémentaires en combinant les données biologiques initiales et les données biologiques obtenues "in silico".
  • Ces connaissances permettent, à leur tour, de développer de nouveaux concepts en biologie.
  • Concepts qui, pour être validés, peuvent nécessiter le développement de nouvelles théories et outils en mathématiques et en informatique.

biochimej Retour haut de page

Quelques étapes clé en biologie moléculaire, en informatique et en bioinformatique (la liste ne peut évidemment pas être exhaustive)
1965 Margaret Dayhoff et al. : Première compilation de protéines ("Atlas of Protein Sequences").
Matrices de substitution
1967 Article : "Construction of Phylogenetic Trees" - Fitch & Margoliash
1970 Algorithme pour l'alignement global de séquences : Saul Needleman & Christian Wunsch
1971 Premier microprocesseur Intel 4004
1972 Clonage de fragments d'ADN dans un virus, l'ADN recombiné : Paul Berg, David Jackson, Robert Symons
1973 Découverte des enzymes de restriction qui coupe spécifiquement l'ADN.
Méthode de transfection (introduction d'un ADN étranger) des cellules eucaryotes grâce à un virus (vecteur).
1974 Programme de prédiction de structures secondaires des protéines : "Prediction of Protein Conformation" - Chou & Fasman.
Vint Cerf et Robert Khan développent le concept des réseaux reliant des ordinateurs au sein d'un « internet » et développent deux protocoles fondamentaux "Transmission Control Protocol" (TCP) et "Internet Protocol" (IP).
1977 Développement des micro-ordinateurs accessibles à tous
Techniques de séquençage d'ADN : Frederick Sanger / Maxam & Gilbert
1978 - 1980 Mutagénèse dirigée : Michael Smith
Séquençage du 1er génome à ADN, le bactériophage phiX174 : Frederick Sanger
Premières bases de données : EMBL, GenBank, PIR
Accès téléphonique à la base de données PIR

1981 : 370.000 nucléotides
GenBank : 270 séquences

Micro-ordinateur IBM-PC 8088
Programme d'alignement local de séquences : Temple Smith & Michael Waterman
1983 IBM-XT disque dur (10 Mb)
1984 Amplification de l'ADN : réaction de polymérisation en chaîne (PCR - Karry Mullis)
MacIntosh : interface graphique & souris
1985 "FASTA" : Programme d'alignement local de séquences - David Lipman & William Pearson
1987 Nouveau vecteur permettant de cloner des fragments d'ADN 20 fois plus grands : le YAC (Yeast Artificial Chromosome) qui rend possible le séquençage de grands génomes.
1988 Taq polymérase, enzyme thermostable pour la PCR.
Création du "National Centre for Biotechnology Information" (NCBI).
1989 INTERNET succède à ARPANET
1990 Clonage positionnel et premier essai de thérapie génique.
"BLAST" : Programme d'alignement local de séquences - Altschul et al.
1991 "Expressed Sequences Tags" (EST) : méthode rapide d'identification des gènes (C. Venter).
1992 Séquençage complet du chromosome III de levure
1993 "European Bioinformatics Institute" (EMBL). Création à terme du "European Bioinformatics Institute" (EMBL - EBI).
1995 Analyse du transcriptome : début des puces à ADN
1996 Séquençage complet de la levure (consortium européen).
1997 11 génomes bactériens séquencés
Evolutions de BLAST : "Gapped BLAST" et "PSI-BLAST"
1998 Séquençage de 2 millions de nucléotides par jour.
Interférence ARN
2000 Séquençage du 1er génome de plante : Arabidopsis thaliana
2001 Séquence "premier jet" complète du génome humain
Années 2000 Epigénétique : développement de technologies d'analyse des modifications de l'ADN et des histones.
Accès aux revues et journaux scientifiques : développement de l'"open access".
Montée en puissance de la biologie synthétique.
Détermination de structures de systèmes biologiques de plus en plus complexes (ribosomes, spliceosome, virus, ...) - cryo-microscopie électronique et autres techniques ("femtosecond pulses / X-ray free-electron laser")
2007 - 2008 Avènement des nouvelles technologies de séquençage à très haut débit, dites de seconde génération et maintenant de 3è génération.
Prise de conscience du phénomène "big data" (pas seulement en biologie) qui devient peu à peu une discipline scientifique.
2016 Apports de l'intelligence artificielle et développement des algorithmes d'apprentissage profond.
2020 AlphaFold : à l'origine un réseau de neurones pour prédire les distances probables entre les paires d'acides aminés et les angles de chaque liaison peptidique reliant les résidus d'acides aminés. Ces 2 prédictions ont ensuite été intégrées à un score avec le "score2" du logiciel de modélisation Rosetta.
AlphaFold est au coeur de la base de données (système de prédiction) AlphaFold DB.
Août 2021
≈ 941 milliards de nucléotides
≈ 191 millions séquences d'acides aminés
Plus de 22.600 génomes eucaryotes et procaryotes séquencés et des milliers en cours de séquençage (Genomes OnLine).
Voir le développement de la banque de données EMBL (banque européenne créée en 1980).
Voir le développement de la banque de données Genbank (créée en 1982 et diffusée par le National Center for Biotechnology Information).

biochimej Retour haut de page

Quelques champs d'application de la bioinformatique

L'acquisition des données biologiques

  • les séquences nucléotidiques et les séquences polypeptidiques
  • les gels bidimensionnels et les différentes méthodes de spectromètrie de masse (protéomique)
  • les données de puce à ADN
  • les données de structures tridimensionnelles
  • l'uniformisation - standardisation des (formats de) données
  • la bibliographie
 

Bases ou banques de donnés & internet

  • stocker, trier, organiser, corriger et annoter les données
  • développer des protocoles de communication interactive (internaute - banques ou entre banques)
  • gérer la diversité des formats des fichiers pour optimiser les échanges de données
Une grande partie du traitement des données s'appuie sur la comparaison de séquences pour trouver des similarités, des motifs connus. Les buts sont multiples (liste non exhaustive) :

Acides nucléiques

  • la recherche de phase de lecture ouverte (gène) et de signaux de régulation de la transcription et de la traduction, détection de bornes introns/exons
  • la recherche de régions transcrites (EST) - profil d'expression des gènes (puces à ADN, analyse d'images)
  • la détection de polymorphismes de nucléotide simple ou d'insertion / délétion
  • la reconstruction d'arbres phylogèniques
  • l'analyse de génomes entiers (génomique structurale, synténie) - réseaux de gènes
  • l'ontologie : l'organisation hiérarchique de la connaissance sur un ensemble d'objets par leur regroupement en sous-catégories suivant leurs caractéristiques essentielles
  • l'annotation des données
 

Protéines

  • traduction in silico
  • régulation de la traduction
  • taux de synthèse des protéines (protéomique)
  • prédiction de modification post-traductionnelles
  • recherche de motifs structuraux : détection de sites actifs (enzymes), de domaines, de types de repliement (famille de protéines)
  • prédiction de structures secondaires et modélisation de structures tridimensionnelles
  • l'ontologie et l'annotation des données

Développement de théories, de modèles, d'algorithmes, de programmes, de langages (Exemples : R, Ruby, Python, ...)

Buts plus généraux : biologie intégrative (métabolomique, réseaux d'interactions entre molécules), modéliser le fonctionnement global d'une cellule.

Exemples de champs d'applications : thérapie génique, pharmacogénomique (cibles pour la mise au point de molécules actives), analyse d'images (IRM), ...

biochimej Retour haut de page

L'industrie de la santé est devenue la première industrie mondiale avec un chiffre d'affaires de 2000 milliards d'euros en l'an 2000, et environ 4000 milliards en 2010.

  • On évaluait le marché de la bioinformatique à plus de 4 milliards de dollars en 2014.
  • On l'évaluait à plus de 12,8 milliards de dollars dans le monde en 2020.

Bioinformatics computational biology bioinformatician big data biochimej

Source : "Allied Market Research"

Exemples de secteurs d'activités :

biotechnologies diverses : animaux, agriculture, environnment, ...
médecine / recherche de médicaments / pharmacologie
thérapie gènique
recherche académique
médecine légale

 

Exemples d'entreprises internationales en bioinformatique

  • Life Technologies
  • Illumina, Inc.
  • Affymetrix, Inc. / Agilent Technologie
  • QIAGEN / Bio-Rad Laboratories
  • Invitrogen

Voir des propositions d'emplois en bioinformatique.

Voir un article sur les compétences de plus en plus requises pour un bioinformaticien.

biochimej Retour haut de page

Les domaines d'étude en "omique"

Le plein essor de la bioinformatique (telle qu'on la conçoit maintenant) a commencé avec la génomique (début des années 80) marquée par des évènements phares comme le séquençage du génome humain.

Puis la quantité et la multiplicité d'informations biologiques obtenues de même que les avancées technologiques ont fait apparaître au fur et à mesure d'autres domaines d'étude en "omique".

Leur définition évolue ce qui explique qu'elle puisse différer selon les sources.

Domaine d'étude Source Déscription
Génomique

Les Actions Concertées Incitatives

Ministère de la Recherche

La génomique est une nouvelle discipline de la biologie qui vise à l'analyse moléculaire et physiologique complète du matériel héréditaire des organismes vivants. [...] il s'agit de déduire les fonctions des gènes et leurs interactions à partir de leurs séquences, ce qui facilite l'intégration de la génomique dans la physiologie. [...]
La génomique repose sur des techniques qui évoluent à une vitesse prodigieuse et l'ensemble des bases de données obtenues, qui représente des dizaines de milliards de caractères répartis en dizaines de milliers de fichiers, pose déjà aux informaticiens des problèmes considérables pour classer et interpréter cette énorme masse de données.

Rapport sur Génomique et informatique

L'impact sur les thérapies et sur l'industrie pharmacaeutique

  • La génomique est l'étude exhaustive des génomes et en particulier de l'ensemble des gènes, de leur disposition sur les chromosomes, de leur séquence, de leur fonction et de leur rôle.
  • La cartographie physique est le positionnement de repères sur le génome.
  • Le séquençage : pour connaître les "instructions " que renferme un fragment d'ADN, on lit la succession des bases puriques et pyrimidiques (A, T, G, C) de l'enchaînement. Cette lecture est appelée séquençage.
Génomique structurale

Voir les cours :

Génomique fonctionnelle végétale

et

Protéomique

Elle décrit l'organisation du génome, réalise son séquençage et dresse l'inventaire des gènes : prédiction des régions codantes d'un gène - dentification des sites de régulation de la transcription - identification d'exons et d'introns ...
La génomique structurale s'attèle à déterminer la structure 3D des protéines codées par le génome. Selon cette définition, elle devrait s'appeler "protéomique structurale"...

Génomique fonctionnelle ou post-génomique

La génomique fonctionnelle ou post-génomique étudie le transcriptome (ensemble des ARN messagers transcrits à partir du génome). Le but est de déterminer la fonction des gènes à partir de leurs produits d'expression (ARN et protéines) et d'étudier leur mode de régulation et leurs interactions.

Protéomique La protéomique étudie le protéome : ensemble des protéines identifiées à partir d'un génome. Toutes les cellules de l'organisme possèdent le même génome, mais ont un protéome différent selon l'organe et le moment du développement de l'individu. La protéomique s'attache à déterminer la localisation, la structure et la fonction de ces protéines. Elle analyse leurs interactions et leurs modifications au cours du temps.

Les autres domaines en "omiques"

Métabolomique : description de la population des différents métabolites d'une cellule dans un stade physiologique donné.
Interactomique : description des interactions entre toutes les macromolécules d'une cellule.
On trouve aussi dans la litérature : lipidome, protéasome, régulome, spliceosome, prédictome, réactome, ...

biochimej Retour haut de page

Valid XHTML 1.0 Transitional