Почему трансформеры не решат проблему ИОИ

Крупнейшие лаборатории искусственного интеллекта, такие как DeepMind, Microsoft и OpenAI, вкладывают основные ресурсы и капитал в развитие предобученных трансформер-моделей, считая их основным путем к созданию искусственного общего интеллекта (ИОИ). Этот подход опирается на стандартный алгоритм обратного распространения, используемый для обучения глубоких нейросетей.

Однако Бен Гёрцел, автор термина «ИОИ» и основатель компании SingularityNET, выражает скептицизм. По его мнению, коммерческая индустрия ИИ делает ставку на копирование архитектуры GPT в различных вариациях, что, по его словам, является «растратой ресурсов».

«Коммерческая индустрия ИИ буквально ставит всё на одну карту, копируя GPT в разных вариациях. На мой взгляд, это пустая трата сил, потому что все большие языковые модели делают примерно одно и то же».

Гёрцел подчеркивает, что слепое масштабирование моделей не приведет к качественному скачку в развитии ИИ. Трансформер-модели требуют огромных вычислительных мощностей для обучения и эксплуатации, а их эффективность растет все медленнее по мере увеличения размера. Это ставит под угрозу окупаемость таких инвестиций.

Альтернативные архитектуры: почему их недостаточно финансируют

Основная проблема трансформеров, по мнению Гёрцела, заключается в их неспособности к непрерывному обучению. В отличие от человека, они не обновляют свои внутренние параметры в реальном времени на основе новых данных. Вместо этого они возвращаются к базовым настройкам после каждого взаимодействия, не извлекая уроков из предыдущего опыта.

Некоторые исследователи, включая команды из Google DeepMind и Microsoft, работают над альтернативными архитектурами нейросетей, которые могли бы обеспечить непрерывное обучение. Однако такие проекты остаются на периферии индустрии из-за высоких финансовых рисков.

«У DeepMind есть потрясающее разнообразие в команде ИИ и большой опыт в альтернативных парадигмах», — отмечает Гёрцел. — «Но основные ресурсы тратятся на усовершенствование существующих моделей, а не на поиск принципиально новых решений».

Sakana AI: новый подход к мультиагентным системам

Несмотря на доминирование трансформеров, появляются и альтернативные решения. Японский стартап Sakana AI, основанный в 2023 году Лионом Джонсом (одним из разработчиков трансформеров) и бывшим исследователем DeepMind Дэвидом Ха, представил свою первую коммерческую разработку — Sakana Fugu.

Это система оркестрации мультиагентных моделей, способная координировать работу нескольких передовых фундаментальных моделей, включая решения от OpenAI, Google и Anthropic. Такой подход позволяет распределять нагрузку и повышать эффективность обработки данных без необходимости масштабирования одной гигантской модели.

Будущее ИИ: что ждет индустрии

Гёрцел считает, что ИОИ может появиться в ближайшие годы, но для этого потребуется отойти от слепого масштабирования текущих больших языковых моделей. Эксперт уверен, что будущее за гибридными системами, сочетающими преимущества разных архитектур.

Тем временем, индустрия продолжает инвестировать в трансформеры, рискуя упустить потенциал альтернативных подходов. Вопрос остается открытым: смогут ли компании пересмотреть свои стратегии, прежде чем ресурсы будут окончательно распределены в пользу одной парадигмы.

Источник: Fast Company