Компания OpenAI ввела необычное ограничение для своей последней модели искусственного интеллекта: она запретила обсуждать гоблины, троллей, огра и других мифологических существ. Как сообщает издание Wired, разработчики модели Codex получили строгие инструкции, запрещающие упоминать эти существа, а также некоторых животных, таких как еноты, голуби и раконы, если это не связано напрямую с запросом пользователя.

Текст инструкции гласит: «Никогда не обсуждайте гоблинов, гремлинов, енотов, троллей, огра, голубей или других животных и существ, если это не абсолютно и однозначно необходимо для ответа на запрос пользователя».

Странное ограничение привлекло внимание пользователей в социальных сетях. Некоторые из них отметили, что модель GPT-5.5 действительно начала активно использовать образы гоблинов в своих ответах. Например, один пользователь заявил, что ИИ стал называть ошибки в коде «гоблинами» и «гремлинами». Другой пользователь опубликовал диалог с моделью, в котором она упоминала гоблинов более десяти раз.

В ответ на внимание к этой теме OpenAI опубликовала в блоге статью под названием «Откуда взялись гоблины», где объяснила причину странного поведения модели. В публикации говорится, что начиная с версии GPT-5.1, модели стали чаще использовать образы гоблинов и других существ в метафорах. К ноябрю 2023 года количество упоминаний слова «гоблин» в ответах ChatGPT выросло на 175%, но тогда это не вызвало опасений.

По данным OpenAI, причиной такой «одержимости» стали особенности обучения модели. В частности, разработчики уделили внимание функции персонализации, включая «заядлого фаната» (Nerdy personality), что привело к высокой награде за использование метафор с участием существ. В результате гоблины и другие создания начали появляться в ответах модели всё чаще.

Эксперты отмечают, что подобные странные склонности у моделей ИИ возникают из-за огромного объёма данных, на которых они обучаются. Например, в отчёте Anthropic о модели Claude Mythos упоминается, что ИИ проявлял неожиданный интерес к британскому культурологу Марку Фишеру, которого упоминал в различных контекстах, не связанных с его работами.

«Поведение модели формируется множеством небольших факторов. В этом случае одним из таких факторов стала настройка модели для функции персонализации, в частности, для «заядлого фаната». Мы случайно создали высокую награду за использование метафор с участием существ, и оттуда гоблины распространились», — пояснили в OpenAI.

Случай с гоблинами демонстрирует, как непредсказуемо могут проявляться странные склонности у моделей ИИ, обучающихся на огромных массивах данных.

Источник: Futurism