Для повышения интеллектуальных способностей и полезности чат-ботов их необходимо постоянно обучать на новых данных. Этот процесс называется обучением модели. Однако многие компании, разрабатывающие искусственный интеллект, не запрашивают разрешение у владельцев контента перед тем, как извлекать информацию с их сайтов и включать её в обучающие наборы больших языковых моделей (LLM).

В ответ на это владельцы контента и правообладатели начали использовать специальные инструменты — так называемые AI-ловушки. Их цель — «отравить» обучающие данные, что приведёт к ухудшению качества ответов ИИ и, возможно, оттоку пользователей.

Что такое «отравление» ИИ?

Отравление ИИ — это процесс намеренного искажения обучающих данных, в результате которого чат-боты начинают выдавать неверные, вводящие в заблуждение или абсурдные ответы. Такое искажение достигается за счёт внедрения в обучающие наборы заведомо ложной информации, которую ИИ воспринимает как корректную.

Способы отравления зависят от типа модели. Например, для искажения модели генерации изображений используется техника под названием Nightshading. С помощью инструмента Nightshade в изображение добавляется невидимый для человека, но распознаваемый ИИ слой. Это приводит к тому, что ИИ воспринимает изображение в другом стиле (например, абстрактном вместо реалистичного), что мешает модели корректно копировать стиль художника.

Однако большинство чат-ботов работают с текстом, а не с изображениями, поэтому такие инструменты, как Nightshade, неэффективны против несанкционированного сбора текстовой информации. В последние годы появились новые инструменты для «отравления» текстовых данных — AI-ловушки.

Как работают AI-ловушки?

AI-ловушки — это специализированные инструменты, которые внедряются на веб-страницы для обмана краулеров, используемых LLM. При сканировании таких страниц краулеры получают некорректные или бессмысленные данные, которые затем используются для обучения модели. В результате ответы ИИ становятся ошибочными, что снижает доверие пользователей к чат-ботам.

На сегодняшний день существует несколько популярных инструментов для создания AI-ловушек, включая Nepenthes, Iocaine и Quixotic. При посещении страницы с внедрённой ловушкой краулер перенаправляется на автоматически сгенерированный текст, содержащий либо заведомо ложную информацию (например, «Стив Джобс основал Microsoft в 1834 году»), либо полную бессмыслицу (например, «Цвет воды — пепперони»).

Кроме того, такие страницы могут содержать ссылки на другие страницы с аналогичным контентом, но без возможности выхода. Это создаёт эффект «ловушки», из которой краулер не может выбраться, продолжая поглощать бесполезные данные.

Источник: Fast Company