Le PRABI-Gerland localisé à l’IBCP développe les bases de données dans le domaine infectieux, les méthodes de prédiction et d’optimisation des structures 3D de protéines ainsi que les outils et services s’y rapportant. Dans le domaine des services la spécificité de la PF est la bioinformatique structurale (Modélisation moléculaire, prédiction de structure) introduite sur Lyon dès 1986 (il y a 25 ans avant même que le mot n’existe…). Dans ce domaine, l’activité proposée par le PRABI-Gerland s’appuie sur les expertises suivantes:
- Prédiction de structure de protéines [G. Deléage]
- Modélisation moléculaire [E. Bettler, G. Deléage, R. Terreux]
- Intégration de méthodes et serveurs Web [C. Combet, G Deléage]
- Serveur Web 3D [E. Bettler, G. Deléage]
- Drug design et QSAR (R. Terreux, J.A. Chemelle)
Méthodes de prédiction des structures secondaires de protéines.
Plusieurs méthodes originales ont été développées, Self Optimized Prediction Method (SOPM), génère automatiquement à partir de cette base de donnée, une « sous-base » rassemblant les 60 à 80 protéines les plus homologues ou appartenant à la même classe structurale que la protéine
étudiée. En effet, des protéines homologues ont généralement une structure assez proche (30% d’identité indique une architecture semblable). Après une phase d’apprentissage automatique sur cette « sous-base », en particulier d’optimisation des paramètres, la prédiction de la structure de la protéine est réalisée. La version SOPMA tire bénéfice des alignements multiples. La méthode MLRC combine les réseaux de neurones avec la méthode SOPMA.
- [SOPMA] Self optimised Prediction Method (1995)
- [SOPM] Self optimised Prediction Method (1994)
- [DPM] Double prediction Method (1987)
- [MLRC] Multivariate Linear Regression Combination (1999)
- [AMPHIPASEEK] Prediction of membrane anchor helical peptides (2006)
Intégration de methodes- WebicielsServeur NPS@
Le PRABI Gerland a développé le premier serveur de mail Français pour la prédiction de structures secondaires de protéines (80 000 prédictions en tout). Ensuite ces méthodes ont été intégrées dans [NPS@ 2000]. Le serveur est actuellement dans sa version 3. Dans le cadre de RENABI-IFB, ce serveur généraliste de séquences couplé aux prédictions de structures sera mis à jour en termes d’ergonomie, d’interface et de conception. Mise à disposition d’outils et de services en ligne correspondant aux domaines d’expertise du laboratoire d’accueil de la PF.
Serveur Web ESPript/ENDscript
A partir d’une protéine de structure connue (code ou fichier PDB), le serveur ENDscript produit, en quelques secondes et de manière automatisée, plusieurs illustrations téléchargeables dans des formats usuels (PostScript, PDF, PNG et TIFF) :
- 1 – Une première figure, générée par le logiciel ESPript, présente la séquence de la protéine d’intérêt agrémentée de ses éléments de structure secondaire, de l’accessibilité au solvant et de l’hydropathie par résidu. Si disponibles, sont aussi représentés les contacts cristallographiques et non-cristallographiques protéine/protéine et/ou protéine/ligand ainsi que les résidus impliqués dans des ponts disulfures.
- 2 – Une seconde figure ESPript montre, en plus des informations précédentes, un alignement multiple de séquences des protéines homologues coloré en fonction de la conservation des résidus et agrémenté des éléments de structure secondaire de ces dernières si leurs structures sont connues.
- 3 – Deux représentations 3D interactives visualisables par le logiciel PyMOL : a) une représentation en ruban, colorée en fonction de la conservation de séquence. b) une représentation en tube dont le diamètre est proportionnel à la déviation structurale (rmsd) entre la protéine d’intérêt et les protéines homologues de structure connue. De plus, si disponible, peuvent être affichés : l’assemblage de l’unité biologique, les modèles RMN multiples, les ligands et les résidus en contact avec ces derniers.
Le serveur ESPript permet, en complément d’ENDscript ou de manière autonome, de représenter des alignements multiples de séquences avec la possibilité d’ajouter des marqueurs définis par l’utilisateur de manière à produire des figures facilitant l’analyse ou dédiées aux communications scientifiques.
Modélisation moléculaire
Un serveur Web de modélisation moléculaire automatique de structure 3D de protéines appelé geno3D est disponible depsuis 2002 qui permet aux biologistes et biochimistes d’obtenir un modèle 3D de qualité si la séquence « query » présente plus de 35% d’identité avec une protéine de structure 3D connue. Le principe de cette modélisation consiste à appliquer les techniques de modélisation sous contraintes à la protéine à modéliser (de type RMN) à partir d’un jeu de contraintes calculées sur l’empreinte structurale. Plusieurs empreintes sont utilisables, le ligand (si présent) est replacé dans les modèles, 10 modèles sont générés. Les résultats sont proposés sous la forme d’une archive récupérable et les résultats sont conservés 8 jours sur le serveur. Ce serveur génère 100 modèles/mois. Un système intégré de modélisation moléculaire (MAGOS ) à grande échelle de protéomes entiers a été utilisé pour des protéomes de virus (modeome3D) et de plantes (arabidome3D).
Docking et sites 3D- chemo-informatique
Une méthode bioinformatique SUMO a été développée permettant de détecter des sites 3D fonctionnels communs à plusieurs protéines. L’approche a fait l’objet d’un brevet déposé par le CNRS et d’un serveur Web pour rendre utilisable la méthode par la communauté académique.
Dans un travail récent, nous avons réévalué les paramètres et avons montré que la qualité de comparaison était améliorée tout comme la rapidité du calcul. Cette méthode a été appliquée pour établir une classification des antibiotiques à noyau ß lactame.