Почему размер модели ИИ больше не решает всё

Эксперты в области искусственного интеллекта всё чаще говорят о том, что дальнейшее увеличение размеров больших языковых моделей (LLM) не даёт пропорционального роста производительности. Тем не менее компании продолжают выпускать всё более масштабные модели. Например, последняя версия Meta Llama насчитывает 2 триллиона параметров. Однако рост модели сопровождается увеличением энергопотребления и времени выполнения, что повышает её углеродный след.

Разреженность как решение проблемы

Альтернативный подход заключается в использовании разреженности — свойства моделей, при котором большинство параметров (весов и активаций) близки к нулю и могут быть исключены без потери точности. Вместо выполнения лишних вычислений с нулями и хранения огромного количества нулевых значений в памяти, можно сосредоточиться только на ненулевых параметрах.

По оценкам, до 90% параметров в некоторых моделях могут быть разреженными. Это открывает значительные возможности для оптимизации вычислений: пропуск операций с нулями и сокращение объёма памяти позволяют ускорить работу и снизить энергопотребление.

Почему современное оборудование не использует разреженность в полной мере

Современные процессоры (CPU) и графические ускорители (GPU) не оптимизированы для работы с разреженными данными. Для полноценного использования этого потенциала требуется переработка всей технологической цепочки: от аппаратного обеспечения до низкоуровневого программного обеспечения и приложений.

Исследователи из Стэнфордского университета разработали первый в своём роде чип, способный эффективно обрабатывать как разреженные, так и традиционные рабочие нагрузки. По результатам испытаний, новый чип потребляет в среднем в 70 раз меньше энергии, чем стандартный процессор, и работает в 8 раз быстрее.

Как работает разреженность?

Нейронные сети и данные для них представлены в виде массивов чисел (векторов, матриц или тензоров). Если в массиве более 50% элементов равны нулю, его называют разреженным. В таких случаях можно применять специализированные методы вычислений, которые игнорируют нулевые значения.

Разреженность может быть естественной или искусственно индуцированной. Например, в социальных сетях матрица связей между пользователями будет разреженной, так как большинство людей не являются друзьями друг с другом. Аналогичные принципы применяются в рекомендательных системах, обработке изображений и других областях ИИ.

Перспективы развития энергоэффективного ИИ

Создание специализированного оборудования для работы с разреженными моделями — лишь первый шаг. Учёные надеются, что дальнейшие разработки в области аппаратного и программного обеспечения позволят сделать ИИ более доступным и экологичным. Это особенно важно на фоне растущих требований к вычислительным ресурсам и ужесточения экологических стандартов.

«Наше исследование доказывает, что разреженность — это не просто теоретическая возможность, а практический инструмент для оптимизации ИИ. Мы уверены, что будущее за энергоэффективными решениями, которые не жертвуют производительностью».

— Исследователи из Стэнфордского университета

Заключение

Рост моделей ИИ не всегда оправдан, если он не сопровождается улучшением их эффективности. Технология разреженности открывает новые горизонты для разработчиков, позволяя создавать более быстрые и экономичные решения. Внедрение специализированного оборудования, такого как чип от Стэнфордской команды, может стать ключевым фактором в переходе к устойчивому развитию искусственного интеллекта.

Источник: IEEE Spectrum