Module bioinformatique definition historique Enseignement et recherche Biochimie - Universite Angers Emmanuel Jaspard biochimej

La bioinformatique : définition, description, démarche et principales étapes

Définition

On trouve un grand nombre de définitions selon l'acception du terme et selon la prépondérance de "bio" sur "informatique" ou l'inverse.

La bioinformation est l'information liée aux molécules biologiques : leur séquence, leur nombre, leur(s) structure(s), leur(s) fonction(s), leurs liens de "parenté", leurs interactions et leur intégration dans la cellule ...
Cette bioinformation est issue de diverses disciplines : la biochimie, la génétique, la génomique structurale, la génomique fonctionnelle, la transcriptomique, la protéomique, la biologie structurale (structure spatiale des molécules biologiques, modélisation moléculaire ... ), ...
Une définition de la bioinformatique : analyse de la bioinformation par des moyens informatiques.

Définition du NCBI (2001) : "Bioinformatics is the field of science in which biology, computer science, and information technology merge into a single discipline."

Description générale

Discipline récente (quelques dizaines d'années).
Discipline hybride : elle est fondée sur des concepts et des formalismes issus de la biologie, de l'informatique, des mathématiques et de la physique, de la chimie (techniques de séquençage, ...).
Discipline qui utilise tout le potentiel de traitement de l'informatique : modèles théoriques, algorithmes et programmes, bases de données, ordinateurs, réseau Internet, protocoles de communication, langages, ...

Démarche

1. Compilation et organisation des données biologiques dans des bases de données :

Bases de données généralistes (elles contiennent le plus d'information possible sans expertise très poussée de l'information déposée)
Bases de données spécialisées autour de thèmes précis

2. Traitements systématiques des données : l'un des objectifs est de repérer et de caractériser une fonction et/ou une structure biologique importante. Les résultats de ces traitements constituent de nouvelles données biologiques obtenues "in silico".

3. Elaboration de stratégies :

Apporter des connaissances biologiques supplémentaires en combinant les données biologiques initiales et les données biologiques obtenues "in silico".
Ces connaissances permettent, à leur tour, de développer de nouveaux concepts en biologie.
Concepts qui, pour être validés, peuvent nécessiter le développement de nouvelles théories et outils en mathématiques et en informatique.

Quelques étapes clé en biologie moléculaire, en informatique et en bioinformatique (la liste ne peut évidemment pas être exhaustive)

1965	Margaret Dayhoff et al. : Première compilation de protéines ("Atlas of Protein Sequences"). Matrices de substitution
1967	Article : "Construction of Phylogenetic Trees" - Fitch & Margoliash
1970	Algorithme pour l'alignement global de séquences : Saul Needleman & Christian Wunsch
1971	Premier microprocesseur Intel 4004
1972	Clonage de fragments d'ADN dans un virus, l'ADN recombiné : Paul Berg, David Jackson, Robert Symons
1973	Découverte des enzymes de restriction qui coupe spécifiquement l'ADN. Méthode de transfection (introduction d'un ADN étranger) des cellules eucaryotes grâce à un virus (vecteur).
1974	Programme de prédiction de structures secondaires des protéines : "Prediction of Protein Conformation" - Chou & Fasman. Vint Cerf et Robert Khan développent le concept des réseaux reliant des ordinateurs au sein d'un « internet » et développent deux protocoles fondamentaux "Transmission Control Protocol" (TCP) et "Internet Protocol" (IP).
1977	Développement des micro-ordinateurs accessibles à tous Techniques de séquençage d'ADN : Frederick Sanger / Maxam & Gilbert
1978 - 1980	Mutagénèse dirigée : Michael Smith Séquençage du 1er génome à ADN, le bactériophage phiX174 : Frederick Sanger Premières bases de données : EMBL, GenBank, PIR Accès téléphonique à la base de données PIR
1981 : 370.000 nucléotides GenBank : 270 séquences	Micro-ordinateur IBM-PC 8088 Programme d'alignement local de séquences : Temple Smith & Michael Waterman
1983	IBM-XT disque dur (10 Mb)
1984	Amplification de l'ADN : réaction de polymérisation en chaîne (PCR - Karry Mullis) MacIntosh : interface graphique & souris
1985	"FASTA" : Programme d'alignement local de séquences - David Lipman & William Pearson
1987	Nouveau vecteur permettant de cloner des fragments d'ADN 20 fois plus grands : le YAC (Yeast Artificial Chromosome) qui rend possible le séquençage de grands génomes.
1988	Taq polymérase, enzyme thermostable pour la PCR. Création du "National Centre for Biotechnology Information" (NCBI).
1989	INTERNET succède à ARPANET
1990	Clonage positionnel et premier essai de thérapie génique. "BLAST" : Programme d'alignement local de séquences - Altschul et al.
1991	"Expressed Sequences Tags" (EST) : méthode rapide d'identification des gènes (C. Venter).
1992	Séquençage complet du chromosome III de levure
1993	"European Bioinformatics Institute" (EMBL). Création à terme du "European Bioinformatics Institute" (EMBL - EBI).
1995	Analyse du transcriptome : début des puces à ADN
1996	Séquençage complet de la levure (consortium européen).
1997	11 génomes bactériens séquencés Evolutions de BLAST : "Gapped BLAST" et "PSI-BLAST"
1998	Séquençage de 2 millions de nucléotides par jour. Interférence ARN
2000	Séquençage du 1er génome de plante : Arabidopsis thaliana
2001	Séquence "premier jet" complète du génome humain
Années 2000	Epigénétique : développement de technologies d'analyse des modifications de l'ADN et des histones. Accès aux revues et journaux scientifiques : développement de l'"open access". Montée en puissance de la biologie synthétique. Détermination de structures de systèmes biologiques de plus en plus complexes (ribosomes, spliceosome, virus, ...) - cryo-microscopie électronique et autres techniques ("femtosecond pulses / X-ray free-electron laser")
2007 - 2008	Avènement des nouvelles technologies de séquençage à très haut débit, dites de seconde génération et maintenant de 3è génération. Prise de conscience du phénomène "big data" (pas seulement en biologie) qui devient peu à peu une discipline scientifique.
2016	Apports de l'intelligence artificielle et développement des algorithmes d'apprentissage profond.
2020	AlphaFold : à l'origine un réseau de neurones pour prédire les distances probables entre les paires d'acides aminés et les angles de chaque liaison peptidique reliant les résidus d'acides aminés. Ces 2 prédictions ont ensuite été intégrées à un score avec le "score2" du logiciel de modélisation Rosetta. AlphaFold est au coeur de la base de données (système de prédiction) AlphaFold DB.
Août 2021 ≈ 941 milliards de nucléotides ≈ 191 millions séquences d'acides aminés	Plus de 22.600 génomes eucaryotes et procaryotes séquencés et des milliers en cours de séquençage (Genomes OnLine).
	Voir le développement de la banque de données EMBL (banque européenne créée en 1980). Voir le développement de la banque de données Genbank (créée en 1982 et diffusée par le National Center for Biotechnology Information).

Quelques champs d'application de la bioinformatique

L'acquisition des données biologiques

les séquences nucléotidiques et les séquences polypeptidiques
les gels bidimensionnels et les différentes méthodes de spectromètrie de masse (protéomique)
les données de puce à ADN
les données de structures tridimensionnelles
l'uniformisation - standardisation des (formats de) données
la bibliographie

Bases ou banques de donnés & internet

stocker, trier, organiser, corriger et annoter les données
développer des protocoles de communication interactive (internaute - banques ou entre banques)
gérer la diversité des formats des fichiers pour optimiser les échanges de données

Une grande partie du traitement des données s'appuie sur la comparaison de séquences pour trouver des similarités, des motifs connus. Les buts sont multiples (liste non exhaustive) :

Acides nucléiques

la recherche de phase de lecture ouverte (gène) et de signaux de régulation de la transcription et de la traduction, détection de bornes introns/exons
la recherche de régions transcrites (EST) - profil d'expression des gènes (puces à ADN, analyse d'images)
la détection de polymorphismes de nucléotide simple ou d'insertion / délétion
la reconstruction d'arbres phylogèniques
l'analyse de génomes entiers (génomique structurale, synténie) - réseaux de gènes
l'ontologie : l'organisation hiérarchique de la connaissance sur un ensemble d'objets par leur regroupement en sous-catégories suivant leurs caractéristiques essentielles
l'annotation des données

Protéines

traduction in silico
régulation de la traduction
taux de synthèse des protéines (protéomique)
prédiction de modification post-traductionnelles
recherche de motifs structuraux : détection de sites actifs (enzymes), de domaines, de types de repliement (famille de protéines)
prédiction de structures secondaires et modélisation de structures tridimensionnelles
l'ontologie et l'annotation des données

Développement de théories, de modèles, d'algorithmes, de programmes, de langages (Exemples : R, Ruby, Python, ...)

Buts plus généraux : biologie intégrative (métabolomique, réseaux d'interactions entre molécules), modéliser le fonctionnement global d'une cellule.

Exemples de champs d'applications : thérapie génique, pharmacogénomique (cibles pour la mise au point de molécules actives), analyse d'images (IRM), ...

L'industrie de la santé est devenue la première industrie mondiale avec un chiffre d'affaires de 2000 milliards d'euros en l'an 2000, et environ 4000 milliards en 2010.

On évaluait le marché de la bioinformatique à plus de 4 milliards de dollars en 2014.
On l'évaluait à plus de 12,8 milliards de dollars dans le monde en 2020.

Bioinformatics computational biology bioinformatician big data biochimej

Source : "Allied Market Research"

Exemples de secteurs d'activités :

biotechnologies diverses : animaux, agriculture, environnment, ...
médecine / recherche de médicaments / pharmacologie
thérapie gènique
recherche académique
médecine légale

Exemples d'entreprises internationales en bioinformatique

Life Technologies
Illumina, Inc.
Affymetrix, Inc. / Agilent Technologie
QIAGEN / Bio-Rad Laboratories
Invitrogen

Voir des propositions d'emplois en bioinformatique.

Voir un article sur les compétences de plus en plus requises pour un bioinformaticien.

Les domaines d'étude en "omique"

Le plein essor de la bioinformatique (telle qu'on la conçoit maintenant) a commencé avec la génomique (début des années 80) marquée par des évènements phares comme le séquençage du génome humain.

Puis la quantité et la multiplicité d'informations biologiques obtenues de même que les avancées technologiques ont fait apparaître au fur et à mesure d'autres domaines d'étude en "omique".

Leur définition évolue ce qui explique qu'elle puisse différer selon les sources.

Domaine d'étude	Source	Déscription
Génomique	Les Actions Concertées Incitatives Ministère de la Recherche	La génomique est une nouvelle discipline de la biologie qui vise à l'analyse moléculaire et physiologique complète du matériel héréditaire des organismes vivants. [...] il s'agit de déduire les fonctions des gènes et leurs interactions à partir de leurs séquences, ce qui facilite l'intégration de la génomique dans la physiologie. [...] La génomique repose sur des techniques qui évoluent à une vitesse prodigieuse et l'ensemble des bases de données obtenues, qui représente des dizaines de milliards de caractères répartis en dizaines de milliers de fichiers, pose déjà aux informaticiens des problèmes considérables pour classer et interpréter cette énorme masse de données.
Génomique	Rapport sur Génomique et informatique L'impact sur les thérapies et sur l'industrie pharmacaeutique	La génomique est l'étude exhaustive des génomes et en particulier de l'ensemble des gènes, de leur disposition sur les chromosomes, de leur séquence, de leur fonction et de leur rôle. La cartographie physique est le positionnement de repères sur le génome. Le séquençage : pour connaître les "instructions " que renferme un fragment d'ADN, on lit la succession des bases puriques et pyrimidiques (A, T, G, C) de l'enchaînement. Cette lecture est appelée séquençage.
Génomique structurale	Voir les cours : Génomique fonctionnelle végétale et Protéomique	Elle décrit l'organisation du génome, réalise son séquençage et dresse l'inventaire des gènes : prédiction des régions codantes d'un gène - dentification des sites de régulation de la transcription - identification d'exons et d'introns ... La génomique structurale s'attèle à déterminer la structure 3D des protéines codées par le génome. Selon cette définition, elle devrait s'appeler "protéomique structurale"...
Génomique fonctionnelle ou post-génomique		La génomique fonctionnelle ou post-génomique étudie le transcriptome (ensemble des ARN messagers transcrits à partir du génome). Le but est de déterminer la fonction des gènes à partir de leurs produits d'expression (ARN et protéines) et d'étudier leur mode de régulation et leurs interactions.
Protéomique		La protéomique étudie le protéome : ensemble des protéines identifiées à partir d'un génome. Toutes les cellules de l'organisme possèdent le même génome, mais ont un protéome différent selon l'organe et le moment du développement de l'individu. La protéomique s'attache à déterminer la localisation, la structure et la fonction de ces protéines. Elle analyse leurs interactions et leurs modifications au cours du temps.
Les autres domaines en "omiques"		Métabolomique : description de la population des différents métabolites d'une cellule dans un stade physiologique donné. Interactomique : description des interactions entre toutes les macromolécules d'une cellule. On trouve aussi dans la litérature : lipidome, protéasome, régulome, spliceosome, prédictome, réactome, ...