Un modèle de langage dédié à la biologie

OpenAI a annoncé, jeudi, le lancement de GPT-Rosalind, un grand modèle de langage (LLM) spécialement conçu pour les flux de travail biologiques courants. Contrairement aux modèles scientifiques génériques proposés par d'autres géants technologiques, GPT-Rosalind se distingue par son approche ciblée.

Deux défis majeurs pour les chercheurs

Lors d'une conférence de presse, Yunyun Wang, responsable des produits en sciences de la vie chez OpenAI, a expliqué que ce système visait à résoudre deux obstacles majeurs rencontrés par les chercheurs en biologie :

  • La gestion des masses de données issues du séquençage génomique et de la biochimie des protéines, souvent trop volumineuses pour une analyse individuelle.
  • La spécialisation des sous-domaines en biologie, chacun avec ses propres techniques et terminologies. Par exemple, un généticien travaillant sur un gène actif dans les cellules cérébrales peut rencontrer des difficultés à comprendre la littérature neurobiologique.

Une formation ciblée et des résultats prometteurs

OpenAI a entraîné GPT-Rosalind sur 50 flux de travail biologiques courants, ainsi que sur l'accès aux principales bases de données publiques d'informations biologiques. Les résultats montrent que le modèle peut désormais :

  • Suggérer des voies biologiques probables.
  • Prioriser les cibles potentielles pour les médicaments.

« Nous relions le génotype au phénotype via des voies et mécanismes de régulation connus, inférons les propriétés structurales ou fonctionnelles des protéines, et exploitons cette compréhension mécanistique », a déclaré Yunyun Wang.

Une avancée pour la recherche biologique

GPT-Rosalind représente une avancée significative pour les chercheurs en biologie, leur offrant un outil capable de traiter des données complexes et de naviguer dans des domaines hautement spécialisés. Cette innovation pourrait accélérer les découvertes scientifiques et faciliter l'analyse des vastes ensembles de données générés par les technologies modernes.