Zavalishev
Исследования ИИ

Малые языковые модели: новая основа агентного ИИ

Будущее агентных систем Исследование NVIDIA показывает: до 70% задач агентов можно выполнять с помощью компактных моделей. Это открывает путь к экономии и масштабированию.

Победа малых языковых моделей над большими LLM: командная работа, эффективность и экономия ресурсов
23 августа 2025 г.
4 мин чтения

В течение последних лет крупные языковые модели (LLM) стали стандартом для разработки интеллектуальных агентов. Они решают широкий круг задач от генерации кода и до ведения диалога. Но новая работа NVIDIA Research показывает, что в реальных агентных сценариях значительная часть нагрузки может быть передана малым языковым моделям (SLM), которые дешевле, быстрее и проще в применении.

Почему это важно

Современные компании строят инфраструктуру вокруг LLM, оплачивая дорогие облачные ресурсы и масштабируя GPU-кластеры. Однако исследования NVIDIA указывают на парадокс: большинство агентных вызовов это рутинные, повторяющиеся задачи, которые не требуют возможностей тяжеловесов. Для них достаточно SLM, и именно они становятся экономически и технологически целесообразным выбором.

Ключевые вопросы для бизнеса

  • Стоит ли платить в 10–30 раз больше за LLM, если SLM дают ту же точность в типовых операциях?
  • Окупятся ли миллиардные вложения в LLM-инфраструктуру, если через год компании перейдут на лёгкие модели?

Сильные стороны малых моделей

Исследователи NVIDIA приводят убедительные данные:

  • Производительность. SLM на 7 млрд параметров выполняют кодогенерацию и задачи здравого смысла на уровне 70-миллиардников.
  • Экономия. Запросы обрабатываются в 15–30 раз быстрее и дешевле.
  • Адаптивность. Дообучение занимает часы вместо недель.
  • Приватность. Локальный запуск возможен на потребительских GPU, что повышает контроль над данными.

SLM встраиваются в архитектуру агентов. Это быстрые и дешёвые решения, которые покрывают до 70% запросов, а LLM подключаются лишь в сложных случаях, когда требуется глубокое рассуждение.

Экономический эффект

Переход на SLM приносит бизнесу ощутимую выгоду:

  • стоимость запроса падает в 10–30 раз,
  • уменьшается зависимость от масштабных дата-центров,
  • появляется возможность локального или edge-развёртывания для защиты данных.

Таким образом, компании могут перераспределить бюджеты и вместо переплаты за инфраструктуру инвестировать в новые функции агентов и пользовательский опыт.

Архитектура «лего»-систем

SLM меняют подход к построению агентных решений. Вместо одной универсальной модели формируется набор узкоспециализированных модулей:

  1. сбор логов обращений,
  2. кластеризация типовых задач,
  3. выбор и настройка компактных моделей,
  4. интеграция в общую систему через маршрутизатор.

Такой «лего»-подход позволяет быстрее экспериментировать, отлаживать решения и адаптироваться к требованиям бизнеса.

Барьеры внедрения

Почему же компании всё ещё делают ставку на LLM?

  • Огромные инвестиции в облачные сервисы создают эффект инерции.
  • Метрики обучения и бенчмарки традиционно ориентированы на универсальность.
  • SLM пока не имеют такой же маркетинговой поддержки, как крупные модели.

Однако это не технологические ограничения, а лишь следствие текущего рынка. По мере роста осведомлённости и появления практических кейсов барьеры будут снижаться.

Пошаговый переход к SLM (по NVIDIA)

NVIDIA предлагает алгоритм миграции:

  1. Логировать вызовы агентов.
  2. Кластеризовать задачи и выделить повторяющиеся шаблоны.
  3. Подобрать SLM под каждую задачу.
  4. Дообучить модели с помощью PEFT (LoRA/QLoRA).
  5. Встроить их в архитектуру агента.
  6. Регулярно обновлять модели и маршрутизатор на основе новых данных.

Что делать бизнесу уже сегодня

  • Оценить, какая доля операций агентов это рутина.
  • Запустить пилотный проект с SLM.
  • Сравнить метрики стоимости, скорости и качества с текущей LLM-инфраструктурой.

Представьте, сколько можно сэкономить уже через месяц, если заменить хотя бы половину запросов на лёгкие модели.

📖 Полный текст исследования NVIDIA: https://arxiv.org/pdf/2506.02153

Автор: Алик Завалишев

Эксперт по ИИ и автоматизации процессов

Больше статей