La empresa OpenAI ha presentado GPT-Rosalind, un nuevo modelo de lenguaje de gran tamaño (LLM) entrenado específicamente para procesos comunes en biología. A diferencia de otros modelos científicos de grandes tecnológicas, que suelen tener un enfoque más generalista, este sistema está optimizado para abordar necesidades concretas de la investigación biológica.
En una rueda de prensa, Yunyun Wang, responsable de Producto en Ciencias de la Vida en OpenAI, explicó que el modelo fue creado para resolver dos grandes obstáculos que enfrentan los investigadores en biología:
- La gestión de datos masivos: Décadas de secuenciación genómica y bioquímica han generado conjuntos de datos tan extensos que resultan inabordables para un solo investigador.
- La especialización de los campos: La biología cuenta con múltiples subdisciplinas, cada una con su propio lenguaje técnico y metodologías. Por ejemplo, un genetista que estudia un gen activo en células cerebrales podría tener dificultades para interpretar la literatura neurobiológica.
Para desarrollar GPT-Rosalind, OpenAI entrenó el modelo con 50 flujos de trabajo biológicos comunes, así como con el acceso a las principales bases de datos públicas de información biológica. El resultado es un sistema capaz de:
- Sugerir posibles vías biológicas.
- Priorizar dianas farmacológicas potenciales.
- Conectar genotipo con fenotipo mediante vías conocidas y mecanismos regulatorios.
- Inferir propiedades estructurales o funcionales de proteínas.
- Aprovechar el conocimiento mecanicista para ofrecer respuestas más precisas.
Wang destacó que, con esta herramienta, los investigadores podrán «aprovechar esta comprensión mecanicista para avanzar en sus estudios». El lanzamiento de GPT-Rosalind marca un paso significativo hacia la aplicación de la inteligencia artificial en la investigación biológica especializada.