Новые исследования подтверждают: даже самые передовые ИИ-модели для кибербезопасности, разработанные Anthropic и OpenAI, не могут полностью заменить человека. Эксперты, тестировавшие системы в реальных условиях, пришли к выводу, что для эффективной работы требуется значительный вклад специалистов.

Почему это важно

Новая фаза развития ИИ в кибербезопасности смещает акцент с полностью автономных атак на способность человека управлять, проверять и внедрять результаты работы мощных систем. Даже при обнаружении тысяч уязвимостей без экспертной оценки их практической применимости эффективность остается низкой.

Революционные возможности и реальные ограничения

Когда Anthropic представила Mythos Preview, компания предупредила, что модель настолько мощная, что способна выявить десятки тысяч уязвимостей практически во всех операционных системах. Тесты сторонних экспертов показали, что OpenAI GPT-5.5-Cyber демонстрирует аналогичные результаты в обнаружении багов и написании эксплойтов.

Крупные компании и правительства по всему миру стремятся получить доступ к этим моделям, чтобы понять, с чем им придется столкнуться, когда подобные возможности попадут в руки злоумышленников.

Результаты тестирования

  • Palo Alto Networks: Используя модели Anthropic и OpenAI, компания обнаружила 75 уязвимостей за короткий период, тогда как обычно выявляет лишь 5-10 в месяц. Эксперты также отметили способность моделей объединять незначительные уязвимости в рабочие цепочки атак.
  • Microsoft: Новая агентная система безопасности, работающая на основе передовых моделей, выявила 16 новых уязвимостей в сетевом стеке и системе аутентификации Windows. Компания предупреждает, что ИИ-инструменты увеличат общее количество обнаруживаемых уязвимостей, что создаст дополнительную нагрузку на службы безопасности.
  • Cisco: В этом месяце компания выпустила «Foundry Security Spec» — открытый стандарт для использования передовых ИИ-моделей в кибербезопасности.
  • XBOW: Стартап, специализирующийся на ИИ-тестировании на проникновение, заявил, что Mythos «чрезвычайно эффективен для аудита исходного кода».

Человеческий фактор остается ключевым

Поставщики решений единодушны: модели показывают наилучшие результаты только при участии опытных специалистов по безопасности. Они необходимы для проверки выводов, управления рабочими процессами и отделения реальных угроз от ложных срабатываний.

XBOW отметил, что Mythos «хорош, но менее эффективен в проверке эксплойтов» и может быть «слишком буквальным и консервативным», иногда преувеличивая значимость своих находок.

Palo Alto Networks, работая с Mythos, Opus 4.7 и GPT-5.5-Cyber, зафиксировала уровень ложных срабатываний около 30%. Однако после обучения модели на специфике среды этот показатель снизился.

Даниэль Стенберг, ведущий разработчик проекта с открытым исходным кодом Curl, сообщил, что Mythos выявил одну незначительную уязвимость в коде проекта наряду с несколькими ложными срабатываниями и еще одной проблемой, которую Curl в итоге посчитал несущественной. Это еще раз подчеркивает необходимость ручной проверки результатов.

Рекомендации от Cisco

В спецификациях Cisco для нового стандарта содержится важная рекомендация: «Передовые модели генерируют убедительные и правдоподобные отчеты об уязвимостях, которые оказываются ошибочными в большинстве случаев, делая нерецензируемый вывод бесполезным».

Вместо того чтобы просто требовать от моделей быть более осторожными, исследователи Cisco выяснили, что лучшие результаты достигаются, когда системам дают указание формулировать выводы так, чтобы их можно было легко проверить.

«ИИ — мощный инструмент, но он не заменит опыт и интуицию человека в области кибербезопасности. Даже самые совершенные модели требуют контроля и валидации со стороны экспертов».

— Эксперт по кибербезопасности, комментарий для издания Axios
Источник: Axios