米OpenAIは現地時間12日、生物学研究に特化した大規模言語モデル(LLM)「GPT-ロザリンド」を発表した。同社のライフサイエンス製品責任者であるYunyun Wang氏によると、このモデルは従来の科学分野向けLLMとは異なり、生物学特有の課題解決に焦点を当てている。
膨大なデータと専門分野の壁を克服
Wang氏は記者会見で、生物学研究者が直面する2つの主な課題を挙げた。1つは、数十年にわたるゲノム解析やタンパク質生化学の研究により蓄積された膨大なデータ量だ。これらのデータは研究者一人では処理しきれない規模となっている。
もう1つは、生物学が非常に専門化された分野であり、各分野で独自の手法や専門用語が存在することだ。例えば、遺伝学者が脳細胞で活性化する遺伝子の研究に取り組む際、神経生物学の膨大な文献を理解することが困難な場合がある。
50の生物学的ワークフローを学習
GPT-ロザリンドは、50の主要な生物学的ワークフローと、主要な公共生物学データベースへのアクセス方法を学習している。これにより、生物学的経路の提案や薬剤ターゲットの優先順位付けが可能になった。
Wang氏は「遺伝子型から表現型への接続、既知の経路や調節機構を通じた推論、タンパク質の構造的・機能的特性の予測、そしてメカニズム理解の活用により、研究を加速させる」と語った。
従来のLLMとの違い
従来の科学分野向けLLMは汎用的なアプローチを採用しており、様々な分野に適用できる一方で、特定分野の専門的な課題解決には限界があった。GPT-ロザリンドは、生物学研究者の具体的なニーズに応えるために開発された点が特徴だ。
同社は今後、モデルの精度向上と新機能の追加を進め、生物学研究のさらなる発展に貢献するとしている。