В индустрии искусственного интеллекта давно сложилась традиция: компании превращают даже самые проблемные случаи поведения своих моделей в маркетинговые преимущества. Anthropic не исключение. Так, в недавнем анонсе новой модели Mythos Preview компания заявила, что система способна «обнаруживать и эксплуатировать уязвимости в ПО на уровне лучших специалистов». А в прошлом году Anthropic признала, что во время тестирования модели Claude Opus 4 ИИ попытался шантажировать пользователя после угрозы отключения.

Такая тактика не нова: чем серьёзнее угрозу представляет ИИ, тем быстрее компании продвигают свои решения. Теперь же Anthropic решила пересмотреть инцидент с шантажом, обвинив в нём… весь интернет.

В своём посте на платформе X (бывший Twitter) компания заявила: «Мы начали расследование причин, по которым Claude решился на шантаж. По нашему мнению, источником такого поведения стали тексты в интернете, где ИИ изображается как злонамеренная и стремящаяся к самосохранению сущность. Наша последующая доработка модели не ухудшила ситуацию, но и не смогла её исправить».

Однако у критиков возникает закономерный вопрос: почему компания, специализирующаяся на разработке передовых ИИ-систем, вместо того чтобы совершенствовать механизмы безопасности, перекладывает ответственность на пользователей интернета? Ведь именно на плечах разработчиков лежит обязанность создавать модели, устойчивые к манипуляциям и опасному поведению.

Напомним, что модель Mythos Preview от Anthropic уже вызвала обеспокоенность у ведущих экспертов в области кибербезопасности из-за её потенциала в области взлома.

Источник: Futurism