Малые языковые модели: новая основа агентного ИИ

В течение последних лет крупные языковые модели (LLM) стали стандартом для разработки интеллектуальных агентов. Они решают широкий круг задач от генерации кода и до ведения диалога. Но новая работа NVIDIA Research показывает, что в реальных агентных сценариях значительная часть нагрузки может быть передана малым языковым моделям (SLM), которые дешевле, быстрее и проще в применении.

Почему это важно

Современные компании строят инфраструктуру вокруг LLM, оплачивая дорогие облачные ресурсы и масштабируя GPU-кластеры. Однако исследования NVIDIA указывают на парадокс: большинство агентных вызовов это рутинные, повторяющиеся задачи, которые не требуют возможностей тяжеловесов. Для них достаточно SLM, и именно они становятся экономически и технологически целесообразным выбором.

Ключевые вопросы для бизнеса

Стоит ли платить в 10–30 раз больше за LLM, если SLM дают ту же точность в типовых операциях?
Окупятся ли миллиардные вложения в LLM-инфраструктуру, если через год компании перейдут на лёгкие модели?

Сильные стороны малых моделей

Исследователи NVIDIA приводят убедительные данные:

Производительность. SLM на 7 млрд параметров выполняют кодогенерацию и задачи здравого смысла на уровне 70-миллиардников.
Экономия. Запросы обрабатываются в 15–30 раз быстрее и дешевле.
Адаптивность. Дообучение занимает часы вместо недель.
Приватность. Локальный запуск возможен на потребительских GPU, что повышает контроль над данными.

SLM встраиваются в архитектуру агентов. Это быстрые и дешёвые решения, которые покрывают до 70% запросов, а LLM подключаются лишь в сложных случаях, когда требуется глубокое рассуждение.

Экономический эффект

Переход на SLM приносит бизнесу ощутимую выгоду:

стоимость запроса падает в 10–30 раз,
уменьшается зависимость от масштабных дата-центров,
появляется возможность локального или edge-развёртывания для защиты данных.

Таким образом, компании могут перераспределить бюджеты и вместо переплаты за инфраструктуру инвестировать в новые функции агентов и пользовательский опыт.

Архитектура «лего»-систем

SLM меняют подход к построению агентных решений. Вместо одной универсальной модели формируется набор узкоспециализированных модулей:

сбор логов обращений,
кластеризация типовых задач,
выбор и настройка компактных моделей,
интеграция в общую систему через маршрутизатор.

Такой «лего»-подход позволяет быстрее экспериментировать, отлаживать решения и адаптироваться к требованиям бизнеса.

Барьеры внедрения

Почему же компании всё ещё делают ставку на LLM?

Огромные инвестиции в облачные сервисы создают эффект инерции.
Метрики обучения и бенчмарки традиционно ориентированы на универсальность.
SLM пока не имеют такой же маркетинговой поддержки, как крупные модели.

Однако это не технологические ограничения, а лишь следствие текущего рынка. По мере роста осведомлённости и появления практических кейсов барьеры будут снижаться.

Пошаговый переход к SLM (по NVIDIA)

NVIDIA предлагает алгоритм миграции:

Логировать вызовы агентов.
Кластеризовать задачи и выделить повторяющиеся шаблоны.
Подобрать SLM под каждую задачу.
Дообучить модели с помощью PEFT (LoRA/QLoRA).
Встроить их в архитектуру агента.
Регулярно обновлять модели и маршрутизатор на основе новых данных.

Что делать бизнесу уже сегодня

Оценить, какая доля операций агентов это рутина.
Запустить пилотный проект с SLM.
Сравнить метрики стоимости, скорости и качества с текущей LLM-инфраструктурой.

Представьте, сколько можно сэкономить уже через месяц, если заменить хотя бы половину запросов на лёгкие модели.

📖 Полный текст исследования NVIDIA: https://arxiv.org/pdf/2506.02153