Les méthodes bioinformatiques
Sommaire |
Les méthodes bioinformatiques
Les méthodes bioinformatiques fonctionnent essentiellement sur les comparaisons de séquences nucléiques ou protéiques ; ainsi que sur la modélisation des protéines et des interactions impliquant des protéines. Dans le cas des comparaisons de séquences, ces systèmes sont basés sur des banques de données regroupant toutes les séquences publiées dans la littérature. Le logiciel va donc comparer la séquence qu’on lui propose avec toutes les autres qu’il a dans les banques de données, et va indiquer de quels gènes d’autres espèces les gènes proposés sont proches. Mais avant tout, il y a des systèmes permettant l’annotation des gènes, c'est-à-dire qu’ils s’occupent de déterminer où un gène commence et où il finit.
Annotation d’un génome
Délimitation des séquences
Pour les bactéries, le Génoscope a créé AMIGene (Annotation of Microbial Gene), qui permet d’annoter, comme son nom l’indique, les bactéries.
Ce système va en fait lire la séquence qu’on lui propose de six façons différentes (cadres de lecture), et va repérer les débuts et fin de gènes.
En effet, sur cette portion de double brin :
On peut lire six "phrases" différentes (on lit toujours de 5’ vers 3’) :
On voit bien que suivant où on démarre la lecture, les gènes sont tous différents et c’est à cela que va servir le programme, il va donner la séquence qui semble la plus probable, et nous donnera comme résultat les chaînes nucléiques et protéiques. Plus d'informations peuvent être trouvées ici
De plus, les programmes d’annotations permettent de repérer en plus des séquences codantes les séquences promotrices ou d’autres types, qui jouent un rôle important.
Comparaisons de séquences
Puis après la délimitation des différentes séquences, il faut comparer les séquences nucléiques et protéiques avec celles existantes et répertoriées dans les trois grandes banques publiques : le NCBI (USA), l’EBI (Europe), et la DNA Data Bank of Japan ; cette dernière ne contenant que des séquences nucléiques.
Pour cela, il y a des programmes qui vont interroger ces banques (les deux plus importantes étant Blast et Fasta), et donner des correspondances avec d’autres gènes ou séquences protéiques existantes qui ont été séquencées, selon que l’on cherche à comparer des séquences de nucléotides ou protéiques.
En plus du pourcentage d’identité avec les autres gènes ou séquences protéiques, le programme va indiquer leur statut :
- soit connu, c'est-à-dire que l’on a prouvé expérimentalement la fonction du gène ;
- soit probable, ce qui signifie que le gène est homologue à un gène dont la fonction à été prouvée expérimentalement ;
- soit inconnue, et dans ce cas on n’a aucune idée de sa fonction.
Les voies métaboliques
Afin de connaître les voies métaboliques qui conduiront, par exemple à la transformation du glucose en pyruvate ; des bases du même type que celles du NCBI ou de l’EBI existent. Elles permettent, elles aussi grâce à de puissants algorithmes, de trouver quels sont les enchaînements qui conduiront d’une molécule initiale (glucose) à une molécule finale (pyruvate) et quels sont les gènes qui interviennent, pour former telle ou telle nouvelle molécule.
Le Génoscope a utilisé l’une de ces bases de données : BioCyc, après avoir annoté le génome d'A. baylyi, afin d’aider au travail d’élucidation du métabolisme qui est fait expérimentalement.
Les protéines
Prédiction des structures
Les structures primaires et secondaires
Les structures primaires et secondaires se prédisent assez facilement.
Les structures tertiaires et quaternaires
Il n’est pour le moment pas possible de connaître les structures tertiaire et quaternaire d’une protéine uniquement grâce à la chaîne d’acides aminés.
En effet, les programmes permettant de prédire la structure tertiaire d’une protéine ne font que donner toutes les possibilités qu’elles peuvent prendre soit souvent plusieurs centaines de formes différentes. De plus, chaque année, de nouveaux repliements sont trouvés (bien que cela ralentisse), ce qui oblige à affiner régulièrement les programmes.
Un moyen pour limiter le nombre de repliements possible, est d’augmenter le nombre de protéines dont on connaît exactement la structure grâce à l’expérimentation. De plus, les programmes se servent eux aussi de l’analogie par rapport à d’autres protéines de conformation connue et de chaîne protéique semblable pour prédire la structure tertiaire d’une protéine.
En revanche, pour la structure quaternaire, il n’y a que la connaissance de protéines homologues qui permet d’avoir une idée le la conformation spatiale qu’aura la molécule.
Annexe
Il existe de nombreux programmes permettant de visualiser les protéines dont la conformation 3D est connue. C’est le cas de Jmol par exemple, qui a l'avantage de pouvoir s'ouvrir dans un navigateur Internet. Cliquez ici pour voir une démonstration.
Mais il existe aussi, comme nous l'avons déjà vu, des logiciels permettant la modélisation d'une protéine par homologie. C'est le cas de Swiss-PdbViewer, qui, en s'appuyant sur le serveur de modélisation par homologie SWISS-MODEL permet de prédire la structure tertiaire d'une protéine.
Interactions protéiques
Mais il n’y a pas que la structure des protéines qui intéresse les scientifiques, il y a aussi les interactions protéines-protéines, ou d’autres types d’interactions impliquant des protéines. Ce travail de recherche s’effectue avec des protéines dont on connaît la structure tertiaire, expérimentalement. L’un des principaux problèmes lorsque l’on cherche à modéliser des interactions entre plusieurs milliers de protéines, c’est la nécessité de disposer de puissances de calculs monstrueuses pour les ordinateurs : le simple calcul d’interaction de 168 protéines mettrait 13 siècles pour être résolu sur un ordinateur de 2 Giga Hertz !
Heureusement, il existe des systèmes permettant de mettre en commun la puissance et la capacité de stockage de centaines de milliers d’ordinateurs. Et c’est pour cette raison là qu’est né le Décrypthon : il demande à tous ceux qui le peuvent de mettre leur(s) ordinateur(s) au service de la science, c'est-à-dire d’installer un logiciel, qui se déclenchera une fois l’ordinateur en veille, et qui fera les calculs demandés par le serveur central. Ainsi le calcul de l’interaction de cent soixante-huit protéines ne prendrait plus que 4 à 5 mois avec le réseau actuel, qui est de plus de 250 000 ordinateurs[1].
NB : Les interactions de ces 168 protéines sont déjà connues expérimentalement, et serviront en fait à améliorer les algorithmes déjà existants, afin d’atteindre l’objectif final du calcul de l’interaction de 4000 protéines.
Références
Plan
Problématique
- Introduction
- Les méthodes expérimentales
- Les méthodes bioinformatiques
- Conclusion
- Bibliographie
Annexe : le séquençage
- Introduction
- Présentation du séquençage
- Chimie des molécules du vivant et technologie de l'ADN
- Historique du séquençage
- Comment se fait le séquençage ?
- Intérêt et buts du séquençage
- Les acteurs de la recherche
- La guerre privé-public
- Bibliographie
Annexe : autre