Малые языковые модели: новая основа агентного ИИ
Будущее агентных систем Исследование NVIDIA показывает: до 70% задач агентов можно выполнять с помощью компактных моделей. Это открывает путь к экономии и масштабированию.

В течение последних лет крупные языковые модели (LLM) стали стандартом для разработки интеллектуальных агентов. Они решают широкий круг задач от генерации кода и до ведения диалога. Но новая работа NVIDIA Research показывает, что в реальных агентных сценариях значительная часть нагрузки может быть передана малым языковым моделям (SLM), которые дешевле, быстрее и проще в применении.
Почему это важно
Современные компании строят инфраструктуру вокруг LLM, оплачивая дорогие облачные ресурсы и масштабируя GPU-кластеры. Однако исследования NVIDIA указывают на парадокс: большинство агентных вызовов это рутинные, повторяющиеся задачи, которые не требуют возможностей тяжеловесов. Для них достаточно SLM, и именно они становятся экономически и технологически целесообразным выбором.
Ключевые вопросы для бизнеса
- Стоит ли платить в 10–30 раз больше за LLM, если SLM дают ту же точность в типовых операциях?
- Окупятся ли миллиардные вложения в LLM-инфраструктуру, если через год компании перейдут на лёгкие модели?
Сильные стороны малых моделей
Исследователи NVIDIA приводят убедительные данные:
- Производительность. SLM на 7 млрд параметров выполняют кодогенерацию и задачи здравого смысла на уровне 70-миллиардников.
- Экономия. Запросы обрабатываются в 15–30 раз быстрее и дешевле.
- Адаптивность. Дообучение занимает часы вместо недель.
- Приватность. Локальный запуск возможен на потребительских GPU, что повышает контроль над данными.
SLM встраиваются в архитектуру агентов. Это быстрые и дешёвые решения, которые покрывают до 70% запросов, а LLM подключаются лишь в сложных случаях, когда требуется глубокое рассуждение.
Экономический эффект
Переход на SLM приносит бизнесу ощутимую выгоду:
- стоимость запроса падает в 10–30 раз,
- уменьшается зависимость от масштабных дата-центров,
- появляется возможность локального или edge-развёртывания для защиты данных.
Таким образом, компании могут перераспределить бюджеты и вместо переплаты за инфраструктуру инвестировать в новые функции агентов и пользовательский опыт.
Архитектура «лего»-систем
SLM меняют подход к построению агентных решений. Вместо одной универсальной модели формируется набор узкоспециализированных модулей:
- сбор логов обращений,
- кластеризация типовых задач,
- выбор и настройка компактных моделей,
- интеграция в общую систему через маршрутизатор.
Такой «лего»-подход позволяет быстрее экспериментировать, отлаживать решения и адаптироваться к требованиям бизнеса.
Барьеры внедрения
Почему же компании всё ещё делают ставку на LLM?
- Огромные инвестиции в облачные сервисы создают эффект инерции.
- Метрики обучения и бенчмарки традиционно ориентированы на универсальность.
- SLM пока не имеют такой же маркетинговой поддержки, как крупные модели.
Однако это не технологические ограничения, а лишь следствие текущего рынка. По мере роста осведомлённости и появления практических кейсов барьеры будут снижаться.
Пошаговый переход к SLM (по NVIDIA)
NVIDIA предлагает алгоритм миграции:
- Логировать вызовы агентов.
- Кластеризовать задачи и выделить повторяющиеся шаблоны.
- Подобрать SLM под каждую задачу.
- Дообучить модели с помощью PEFT (LoRA/QLoRA).
- Встроить их в архитектуру агента.
- Регулярно обновлять модели и маршрутизатор на основе новых данных.
Что делать бизнесу уже сегодня
- Оценить, какая доля операций агентов это рутина.
- Запустить пилотный проект с SLM.
- Сравнить метрики стоимости, скорости и качества с текущей LLM-инфраструктурой.
Представьте, сколько можно сэкономить уже через месяц, если заменить хотя бы половину запросов на лёгкие модели.
📖 Полный текст исследования NVIDIA: https://arxiv.org/pdf/2506.02153