La bioinformatique : définition, description, démarche et principales étapes |
Tweet |
Définition On trouve un grand nombre de définitions selon l'acception du terme et selon la prépondérance de "bio" sur "informatique" ou l'inverse.
Définition du NCBI (2001) : "Bioinformatics is the field of science in which biology, computer science, and information technology merge into a single discipline." Description générale
Démarche 1. Compilation et organisation des données biologiques dans des bases de données :
2. Traitements systématiques des données : l'un des objectifs est de repérer et de caractériser une fonction et/ou une structure biologique importante. Les résultats de ces traitements constituent de nouvelles données biologiques obtenues "in silico". 3. Elaboration de stratégies :
|
Quelques étapes clé en biologie moléculaire, en informatique et en bioinformatique (la liste ne peut évidemment pas être exhaustive) |
1965 | Margaret
Dayhoff et al. : Première compilation
de protéines ("Atlas
of Protein Sequences"). Matrices de substitution |
1967 | Article : "Construction of Phylogenetic Trees" - Fitch & Margoliash |
1970 | Algorithme pour l'alignement global de séquences : Saul Needleman & Christian Wunsch |
1971 | Premier microprocesseur Intel 4004 |
1972 | Clonage de fragments d'ADN dans un virus, l'ADN recombiné : Paul Berg, David Jackson, Robert Symons |
1973 | Découverte des enzymes
de restriction qui coupe spécifiquement l'ADN. Méthode de transfection (introduction d'un ADN étranger) des cellules eucaryotes grâce à un virus (vecteur). |
1974 | Programme de prédiction de structures secondaires des protéines : "Prediction
of Protein Conformation" - Chou
& Fasman. Vint Cerf et Robert Khan développent le concept des réseaux reliant des ordinateurs au sein d'un « internet » et développent deux protocoles fondamentaux "Transmission Control Protocol" (TCP) et "Internet Protocol" (IP). |
1977 | Développement des micro-ordinateurs accessibles à tous Techniques de séquençage d'ADN : Frederick Sanger / Maxam & Gilbert |
1978 - 1980 |
Mutagénèse dirigée : Michael Smith Séquençage du 1er génome à ADN, le bactériophage phiX174 : Frederick Sanger Premières bases de données : EMBL, GenBank, PIR Accès téléphonique à la base de données PIR |
1981 : 370.000 nucléotides |
Micro-ordinateur IBM-PC 8088 Programme d'alignement local de séquences : Temple Smith & Michael Waterman |
1983 | IBM-XT disque dur (10 Mb) |
1984 |
Amplification
de l'ADN : réaction de polymérisation en chaîne
(PCR - Karry Mullis) MacIntosh : interface graphique & souris |
1985 | "FASTA" : Programme d'alignement local de séquences - David Lipman & William Pearson |
1987 | Nouveau vecteur permettant de cloner des fragments d'ADN 20 fois plus grands : le YAC (Yeast Artificial Chromosome) qui rend possible le séquençage de grands génomes. |
1988 | Taq polymérase, enzyme
thermostable pour la PCR. Création du "National Centre for Biotechnology Information" (NCBI). |
1989 | INTERNET succède à ARPANET |
1990 |
Clonage positionnel et premier essai de thérapie
génique. "BLAST" : Programme d'alignement local de séquences - Altschul et al. |
1991 | "Expressed Sequences Tags" (EST) : méthode rapide d'identification des gènes (C. Venter). |
1992 | Séquençage complet du chromosome III de levure |
1993 | "European Bioinformatics Institute" (EMBL). Création à terme du "European Bioinformatics Institute" (EMBL - EBI). |
1995 | Analyse du transcriptome : début des puces à ADN |
1996 | Séquençage complet de la levure (consortium européen). |
1997 | 11
génomes bactériens séquencés Evolutions de BLAST : "Gapped BLAST" et "PSI-BLAST" |
1998 | Séquençage
de 2
millions de nucléotides par jour. Interférence ARN |
2000 | Séquençage du 1er génome de plante : Arabidopsis thaliana |
2001 | Séquence "premier jet" complète du génome humain |
Années 2000 | Epigénétique : développement de technologies d'analyse des modifications de l'ADN et des histones. Accès aux revues et journaux scientifiques : développement de l'"open access". Montée en puissance de la biologie synthétique. Détermination de structures de systèmes biologiques de plus en plus complexes (ribosomes, spliceosome, virus, ...) - cryo-microscopie électronique et autres techniques ("femtosecond pulses / X-ray free-electron laser") |
2007 - 2008 | Avènement des nouvelles technologies de séquençage à très haut débit, dites de seconde génération et maintenant de 3è génération. Prise de conscience du phénomène "big data" (pas seulement en biologie) qui devient peu à peu une discipline scientifique. |
2016 | Apports de l'intelligence artificielle et développement des algorithmes d'apprentissage profond. |
2020 | AlphaFold : à l'origine un réseau de neurones pour prédire les distances probables entre les paires d'acides aminés et les angles de chaque liaison peptidique reliant les résidus d'acides aminés. Ces 2 prédictions ont ensuite été intégrées à un score avec le "score2" du logiciel de modélisation Rosetta. AlphaFold est au coeur de la base de données (système de prédiction) AlphaFold DB. |
Août 2021 ≈ 941 milliards de nucléotides ≈ 191 millions séquences d'acides aminés |
Plus de 22.600 génomes eucaryotes et procaryotes séquencés et des milliers en cours de séquençage (Genomes OnLine). |
Voir le développement de la banque
de données EMBL (banque européenne créée
en 1980). Voir le développement de la banque de données Genbank (créée en 1982 et diffusée par le National Center for Biotechnology Information). |
Quelques champs d'application de la bioinformatique |
L'acquisition des données biologiques
|
Bases ou banques de donnés & internet
|
Une grande partie du traitement des données s'appuie sur la comparaison de séquences pour trouver des similarités, des motifs connus. Les buts sont multiples (liste non exhaustive) : |
Acides nucléiques
|
Protéines
|
Développement de théories, de modèles, d'algorithmes, de programmes, de langages (Exemples : R, Ruby, Python, ...) Buts plus généraux : biologie intégrative (métabolomique, réseaux d'interactions entre molécules), modéliser le fonctionnement global d'une cellule. Exemples de champs d'applications : thérapie génique, pharmacogénomique (cibles pour la mise au point de molécules actives), analyse d'images (IRM), ... |
L'industrie de la santé est devenue la première industrie mondiale avec un chiffre d'affaires de 2000 milliards d'euros en l'an 2000, et environ 4000 milliards en 2010.
Source : "Allied Market Research" |
Exemples de secteurs d'activités : biotechnologies diverses : animaux, agriculture, environnment, ... |
Exemples d'entreprises internationales en bioinformatique
|
Voir des propositions d'emplois en bioinformatique. Voir un article sur les compétences de plus en plus requises pour un bioinformaticien. |
Les domaines d'étude en "omique" Le plein essor de la bioinformatique (telle qu'on la conçoit maintenant) a commencé avec la génomique (début des années 80) marquée par des évènements phares comme le séquençage du génome humain. Puis la quantité et la multiplicité d'informations biologiques obtenues de même que les avancées technologiques ont fait apparaître au fur et à mesure d'autres domaines d'étude en "omique". Leur définition évolue ce qui explique qu'elle puisse différer selon les sources. |
Domaine d'étude | Source | Déscription |
Génomique |
Les Actions Concertées Incitatives Ministère de la Recherche |
La génomique est une nouvelle discipline
de la biologie qui vise à l'analyse moléculaire et physiologique
complète du matériel héréditaire des organismes
vivants. [...] il s'agit de déduire les fonctions des gènes
et leurs interactions à partir de leurs séquences, ce
qui facilite l'intégration de la génomique dans la physiologie.
[...] |
Rapport sur Génomique et informatique L'impact sur les thérapies et sur l'industrie pharmacaeutique |
|
|
Génomique structurale |
Voir les cours : Génomique fonctionnelle végétale et |
Elle décrit l'organisation du génome,
réalise son séquençage et dresse l'inventaire des
gènes : prédiction des régions codantes d'un gène - dentification
des sites de régulation de la transcription - identification d'exons
et d'introns ... |
Génomique fonctionnelle ou post-génomique |
La génomique fonctionnelle ou post-génomique étudie le transcriptome (ensemble des ARN messagers transcrits à partir du génome). Le but est de déterminer la fonction des gènes à partir de leurs produits d'expression (ARN et protéines) et d'étudier leur mode de régulation et leurs interactions. |
|
Protéomique | La protéomique étudie le protéome : ensemble des protéines identifiées à partir d'un génome. Toutes les cellules de l'organisme possèdent le même génome, mais ont un protéome différent selon l'organe et le moment du développement de l'individu. La protéomique s'attache à déterminer la localisation, la structure et la fonction de ces protéines. Elle analyse leurs interactions et leurs modifications au cours du temps. | |
Métabolomique : description de la
population des différents métabolites d'une cellule dans
un stade physiologique donné.
Interactomique : description des interactions entre toutes les macromolécules d'une cellule. On trouve aussi dans la litérature : lipidome, protéasome, régulome, spliceosome, prédictome, réactome, ... |