Абстрактное футуристическое изображение искусственного интеллекта: светящийся символ «AI» в центре, окружённый потоками энергии, неоновыми линиями и цифровыми эффектами в сине-фиолетовой гамме. Визуализация технологий будущего и концепции агентивного ИИ.
Исследования ИИ

Один год агентивного ИИ: Шесть уроков от тех, кто выполняет работу

Один год агентивного ИИ показал: ценность появляется только тогда, когда внимание смещается с «агентов ради агентов» на реальные рабочие процессы

21 сентября 2025 г.
10 мин чтения

Успешное внедрение агентивного ИИ — задача непростая. Вот чему мы учимся, чтобы сделать это правильно.

Авторы: Ларейна Йи, Майкл Чуи и Роджер Робертс при участии Стивена Сюй Сентябрь 2025 г.

Прошел год с начала революции агентивного ИИ, и один урок стал совершенно ясен: чтобы сделать это хорошо, требуется упорный труд.

Трансформация предприятия на основе агентивного ИИ обещает беспрецедентный рост производительности. Хотя некоторые компании уже добиваются первых успехов в подобной деятельности, многие другие сталкиваются с трудностями в получении ценности от своих инвестиций. В некоторых случаях они даже отступают — снова нанимают людей на места, где агенты потерпели неудачу.

Что такое агентивный ИИ?

Агентивный ИИ — это система, основанная на фундаментальных моделях генеративного ИИ, которая может действовать в реальном мире и выполнять многоэтапные процессы. ИИ-агенты могут автоматизировать и выполнять сложные задачи, часто используя обработку естественного языка, которые обычно требуют человеческих усилий (подробнее см. «Что такое ИИ-агент?» в нашей серии McKinsey Explainers).

Подобные неудачи — естественная эволюция любой новой технологии, и мы уже наблюдали эту закономерность с другими инновациями. Чтобы понять первые уроки, мы недавно проанализировали более 50 проектов по созданию агентивного ИИ, которыми мы руководили в McKinsey, а также десятки других на рынке.

Мы свели результаты нашего анализа к шести урокам, которые помогут лидерам успешно извлекать ценность из агентивного ИИ (см. врезку «Что такое агентивный ИИ?»).

Речь идет не об агенте, а о рабочем процессе

Для достижения бизнес-ценности с помощью агентивного ИИ необходимо изменить рабочие процессы. Однако организации часто слишком сосредотачиваются на агенте или агентивном инструменте. Это неизбежно приводит к созданию впечатляющих на вид агентов, которые на самом деле не улучшают общий рабочий процесс, что приводит к разочаровывающе низкой отдаче.

Инициативы по внедрению агентивного ИИ, которые сосредоточены на фундаментальном переосмыслении целых рабочих процессов — то есть шагов, включающих людей, процессы и технологии, — с большей вероятностью принесут положительный результат.

Понимание того, как агенты могут помочь на каждом из этих этапов, — это путь к ценности. Люди по-прежнему будут играть центральную роль в выполнении работы, но теперь с поддержкой различных агентов, инструментов и средств автоматизации.

Важной отправной точкой при перепроектировании рабочих процессов является картирование процессов и выявление ключевых болевых точек пользователей. Этот шаг критически важен для проектирования агентивных систем, которые сокращают ненужную работу и позволяют агентам и людям сотрудничать для более эффективного и действенного достижения бизнес-целей. Это сотрудничество может происходить через циклы обучения и механизмы обратной связи, создавая самоподдерживающуюся систему. Чем чаще используются агенты, тем умнее и лучше согласованными они становятся.

Рассмотрим пример поставщика альтернативных юридических услуг, который работал над модернизацией своих рабочих процессов по проверке контрактов. Юридическое рассуждение в его сфере постоянно развивалось, с появлением новых судебных прецедентов, юрисдикционных нюансов и интерпретаций политики, что затрудняло кодификацию экспертных знаний.

Чтобы учесть естественную изменчивость, команда спроектировала свои агентивные системы так, чтобы они обучались в рамках рабочего процесса. Например, каждое редактирование пользователя в редакторе документов регистрировалось и классифицировалось. Это давало инженерам и специалистам по данным богатый поток обратной связи, который они могли использовать для обучения агентов, корректировки логики промптов и обогащения базы знаний. Со временем агенты смогли кодифицировать новые экспертные знания.

Фокусировка на рабочем процессе, а не на агенте, позволила командам внедрять нужные технологии в нужный момент, что особенно важно при реинжиниринге сложных, многоэтапных рабочих процессов (см. иллюстрацию). Например, у страховых компаний часто есть большие исследовательские рабочие процессы, охватывающие несколько этапов (таких как обработка претензий и андеррайтинг), при этом каждый этап требует разных видов деятельности и когнитивных задач. Компании могут перепроектировать такие рабочие процессы, продуманно используя целевую комбинацию систем, основанных на правилах, аналитического ИИ, генеративного ИИ и агентов, объединенных общей оркестрационной платформой (например, с открытым исходным кодом, такой как AutoGen, CrewAI и LangGraph). В этих случаях агенты выступают в роли оркестраторов и интеграторов, получая доступ к инструментам и интегрируя выходные данные других систем в свой контекст. Они являются «клеем», который объединяет рабочий процесс, обеспечивая реальное завершение задач с минимальным вмешательством.

Агенты — не всегда ответ

ИИ-агенты могут многое, но их не обязательно использовать для всего. Слишком часто лидеры недостаточно внимательно рассматривают работу, которая должна быть выполнена, или не задаются вопросом, является ли агент лучшим выбором для ее выполнения.

Чтобы избежать бесполезных инвестиций или нежелательной сложности, бизнес-лидеры могут подходить к роли агентов так же, как они оценивают людей для высокоэффективной команды. Ключевой вопрос, который нужно задать: «Какая работа должна быть выполнена и какие относительные таланты у каждого потенциального члена команды — или агента — для совместной работы над достижением этих целей?» Бизнес-проблемы часто можно решить с помощью более простых подходов к автоматизации, таких как автоматизация на основе правил, прогнозная аналитика или подсказки на основе больших языковых моделей (LLM), которые могут быть более надежными, чем агенты «из коробки».

Прежде чем спешить к агентивному решению, бизнес-лидерам следует оценить требования задачи. На практике это означает четкое понимание того, насколько стандартизированным должен быть процесс, сколько вариативности процесс должен обрабатывать и какие части работы лучше всего подходят для выполнения агентами.

На одном уровне эти вопросы просты. Например, рабочие процессы с низкой вариативностью и высокой степенью стандартизации, такие как онбординг инвесторов или регуляторные раскрытия, как правило, строго регулируются и следуют предсказуемой логике. В этих случаях агенты, основанные на недетерминированных LLM, могут добавить больше сложности и неопределенности, чем ценности.

Напротив, рабочие процессы с высокой вариативностью и низкой степенью стандартизации могут значительно выиграть от использования агентов. Например, в одной компании финансовых услуг агенты были внедрены для извлечения сложной финансовой информации, что сократило объем требуемой человеческой проверки и оптимизировало рабочие процессы. Эти задачи требовали агрегации информации, проверок достоверности и анализа соответствия — задач, где агенты могут быть эффективны.

Основные практические правила при выборе инструментов ИИ

При выборе инструмента ИИ для разных задач могут помочь следующие рекомендации:

— Если задача основана на правилах и является повторяющейся, со структурированным вводом (например, ввод данных), используйте автоматизацию на основе правил.

— Если ввод неструктурированный (например, длинные документы), но задача по-прежнему является извлекающей или генеративной, используйте генеративный ИИ, обработку естественного языка или прогнозную аналитику.

— Если задача включает классификацию или прогнозирование на основе прошлых данных, используйте прогнозную аналитику или генеративный ИИ.

— Если вывод требует синтеза, суждения или творческой интерпретации, используйте генеративный ИИ.

— Если задача включает многоэтапное принятие решений и имеет длинный «хвост» высоковариативных входных данных и контекстов, используйте ИИ-агентов.

Важно помнить, что не следует попадать в бинарное мышление «агент/не агент».

Некоторые агенты могут хорошо справляться с конкретными задачами, другие могут помогать людям лучше выполнять свою работу, а во многих случаях могут быть более подходящими совсем другие технологии. Ключ в том, чтобы выяснить, какой инструмент или агент лучше всего подходит для задачи, как люди могут наиболее эффективно работать с ними и как агенты и работники должны быть объединены для достижения максимального результата.

То, насколько хорошо люди, агенты и инструменты работают вместе — это секретный соус для создания ценности

Прекратите «ИИ-хлам»: инвестируйте в оценки и стройте доверие пользователей

Одна из самых распространенных ловушек, с которыми сталкиваются команды при внедрении ИИ-агентов — это агентивные системы, которые впечатляют на демонстрациях, но раздражают пользователей, которые на самом деле отвечают за работу. Часто можно услышать жалобы пользователей на «ИИ-хлам» или низкокачественные результаты. Пользователи быстро теряют доверие к агентам, и уровень внедрения оказывается низким. Любые достижения в эффективности за счет автоматизации легко могут быть компенсированы потерей доверия или снижением качества.

Ценный урок, извлеченный из этой повторяющейся проблемы, заключается в том, что компании должны активно инвестировать в разработку агентов, как они инвестируют в развитие сотрудников. Как сказал нам один бизнес-лидер:

Онбординг агентов больше похож на найм нового сотрудника, чем на развертывание программного обеспечения. Агентам следует давать четкие должностные инструкции, проводить их онбординг и постоянно предоставлять обратную связь, чтобы они становились более эффективными и регулярно улучшались.

Разработка эффективных агентов — сложная работа, требующая использования индивидуальной экспертизы для создания оценок (или «evals») и кодификации лучших практик с достаточной детализацией для конкретных задач. Эта кодификация служит как учебным пособием, так и тестом на производительность для агента, гарантируя, что он работает, как ожидалось.

Эти практики могут существовать в стандартных операционных процедурах или в виде скрытых знаний в головах людей. При кодификации практик важно сосредоточиться на том, что отличает лучших исполнителей от остальных. Для торговых представителей это может включать то, как они ведут разговор, обрабатывают возражения и соответствуют стилю клиента.

Типы оценок

Вот некоторые типичные оценки, используемые для оценки производительности агента:

— Уровень успешного выполнения задачи (от начала до конца). Этот показатель измеряет процент рабочих процессов, успешно завершенных без эскалации или вмешательства человека, отражая полезность в реальных условиях.

— F1-мера/точность и полнота. Этот показатель уравновешивает ложные срабатывания и пропуски, что делает его полезным для задач классификации, извлечения и точности принятия решений, где есть четкий измеримый результат (то есть да или нет).

— Точность поиска. Точность поиска — это процент правильно найденных документов, фактов или доказательств относительно эталонного набора, что критически важно для рабочих процессов, усиленных поиском.

— Семантическое сходство. Семантическое сходство измеряется с помощью косинусного сходства на основе векторных представлений между сгенерированным выводом и эталонным выводом, захватывая согласованность по смыслу, выходящую за рамки точного совпадения слов.

— Большая языковая модель (LLM) в качестве судьи. Использование большой языковой модели (LLM) в качестве судьи включает оценку выводов по сравнению с эталонными стандартами или человеческими предпочтениями. Этот показатель хорошо масштабируется для субъективных суждений, таких как ясность, полезность и обоснованность рассуждений.

— Обнаружение предвзятости (с помощью матриц ошибок). Обнаружение предвзятости измеряет систематические различия в результатах для разных групп пользователей с помощью матриц ошибок, которые показывают, где проявляется предвзятость (например, ложные отрицательные результаты, непропорционально влияющие на одну группу).

— Уровень галлюцинаций. Этот показатель отслеживает частоту фактически неверных или необоснованных утверждений, обеспечивая достоверность выводов агента.

— Ошибка калибровки (уверенность против точности). Ошибка калибровки измеряет, насколько показатели уверенности агента соответствуют фактической правильности, что важно для рабочих процессов, связанных с риском.

Крайне важно, чтобы эксперты продолжали участвовать в тестировании производительности агентов с течением времени; в этой области не может быть подхода «запустил и забыл». Такая приверженность оценке требует, например, чтобы эксперты буквально записывали или маркировали желаемые (а возможно, и нежелательные) результаты для заданных входных данных, количество которых иногда может исчисляться тысячами для более сложных агентов. Таким образом, команды могут оценить, насколько агент был прав или неправ, и внести необходимые исправления.

Один глобальный банк принял этот подход близко к сердцу при трансформации своих процессов «знай своего клиента» и анализа кредитного риска. Всякий раз, когда рекомендация агента о соответствии руководящим принципам приема отличалась от человеческого суждения, команда выявляла логические пробелы, уточняла критерии принятия решений и проводила повторные тесты.

В одном случае, например, первоначальный анализ агентов был слишком общим. Команда предоставила эту обратную связь, затем разработала и внедрила дополнительных агентов, чтобы гарантировать, что глубина анализа обеспечивала полезные идеи на нужном уровне детализации. Один из способов, которым они этого добились, заключался в том, чтобы задавать агентам вопрос «почему» несколько раз подряд. Этот подход обеспечил хорошую работу агентов, что значительно повысило вероятность того, что люди будут принимать их результаты.

Сделайте отслеживание и проверку каждого шага простыми

Когда вы работаете всего с несколькими ИИ-агентами, просмотр их работы и выявление ошибок может быть в основном простым. Но по мере того, как компании внедряют сотни или даже тысячи агентов, задача становится сложной. Усугубляет проблему то, что многие компании отслеживают только конечные результаты. Поэтому, когда происходит ошибка — а ошибки всегда будут по мере масштабирования агентов — трудно точно определить, что именно пошло не так.

Производительность агента должна проверяться на каждом этапе рабочего процесса. Внедрение мониторинга и оценки в рабочий процесс позволяет командам выявлять ошибки на ранней стадии, уточнять логику и постоянно улучшать производительность даже после развертывания агентов.

Например, в одном рабочем процессе проверки документов команда продукта поставщика альтернативных юридических услуг заметила внезапное падение точности, когда система столкнулась с новым набором дел.

Но поскольку они создали агентивный рабочий процесс с инструментами наблюдаемости для отслеживания каждого шага процесса, команда быстро выявила проблему: определенные сегменты пользователей отправляли данные более низкого качества, что приводило к неверным интерпретациям и плохим рекомендациям на последующих этапах.

Имея это понимание, команда улучшила свои практики сбора данных, предоставила руководящие принципы по форматированию документов заинтересованным сторонам на предыдущих этапах и скорректировала логику анализа системы. Производительность агента быстро восстановилась.

Лучший вариант использования — это вариант повторного использования

В спешке добиться прогресса с агентивным ИИ компании часто создают уникального агента для каждой выявленной задачи. Это может привести к значительному дублированию и растрате ресурсов, поскольку один и тот же агент часто может выполнять разные задачи, которые имеют много общих действий (например, прием, извлечение, поиск и анализ).

Решение о том, сколько инвестировать в создание многоразовых агентов (в отличие от агента, выполняющего одну конкретную задачу), аналогично классической проблеме ИТ-архитектуры, когда компаниям нужно быстро строить, но не фиксировать выбор, который ограничивает будущие возможности. Поиск этого баланса часто требует большого количества суждений и анализа.

Выявление повторяющихся задач — это хорошая отправная точка. Компании могут разрабатывать агентов и компоненты агентов, которые легко можно повторно использовать в разных рабочих процессах, и упрощать разработчикам доступ к ним. Это включает в себя разработку централизованного набора проверенных сервисов (например, наблюдаемость LLM или предварительно одобренные промпты) и активов (например, шаблоны приложений, многоразовый код и учебные материалы), которые легко найти и использовать. Интеграция этих возможностей в единую платформу имеет решающее значение. По нашему опыту, это помогает практически устранить 30–50 процентов несущественной работы, которая обычно требуется.

Люди остаются незаменимыми, но их роли и количество изменятся

По мере того как ИИ-агенты продолжают распространяться, вопрос о том, какую роль будут играть люди, вызывает большую тревогу — с одной стороны, о безопасности рабочих мест, а с другой — о высоких ожиданиях роста производительности. Это привело к резко расходящимся взглядам на роль людей во многих современных профессиях.

Чтобы было ясно: агенты смогут многое, но люди останутся неотъемлемой частью уравнения рабочей силы, даже если со временем будет меняться характер работы, которую выполняют как агенты, так и люди. Людям нужно будет контролировать точность модели, обеспечивать соответствие, применять суждение и обрабатывать крайние случаи, например. И, как мы уже говорили ранее, агенты не всегда будут лучшим ответом, поэтому потребуются люди, работающие с другими инструментами, такими как модели машинного обучения. Количество людей, работающих в конкретном рабочем процессе, однако, скорее всего, изменится и часто будет меньше после трансформации рабочего процесса с использованием агентов. Бизнес-лидерам крайне важно управлять этими переходами, как они это делают для любой программы изменений, и продуманно распределять работу, необходимую для обучения и оценки агентов.

Еще один важный урок из нашего опыта заключается в том, что компании должны целенаправленно перепроектировать работу, чтобы люди и агенты могли хорошо сотрудничать. Без такой фокусировки даже самые передовые агентивные программы рискуют столкнуться с незаметными сбоями, накапливающимися ошибками и отвержением пользователями.

Возьмем, к примеру, упомянутого ранее поставщика альтернативных юридических услуг, который хотел использовать агентов для рабочего процесса юридического анализа. При проектировании рабочего процесса команда потратила время на то, чтобы определить, где, когда и как интегрировать человеческий ввод. В одном случае агенты смогли организовать основные претензии и суммы в долларах с высокой точностью, но, учитывая центральную важность претензий для всего дела, было важно, чтобы юристы перепроверили и утвердили их.

Аналогично, агенты могли рекомендовать подходы к плану работы по делу, но, учитывая важность решения, было критически важно, чтобы люди не просто просмотрели, но и скорректировали рекомендацию. Агенты также были запрограммированы на выделение крайних случаев и аномалий, помогая юристам формировать более комплексные взгляды. Кто-то все равно должен был подписать документ в конце процесса, подтверждая юридическое решение своей лицензией и полномочиями.

Важной частью этого совместного проектирования взаимодействия человека и агента является разработка простых визуальных пользовательских интерфейсов, которые облегчают людям взаимодействие с агентами. Например, одна страховая компания имущества и ответственности разработала интерактивные визуальные элементы (такие как ограничивающие рамки, подсветка и автоматическая прокрутка), чтобы помочь рецензентам быстро проверять сводки, сгенерированные ИИ.

Когда люди щелкали по какому-либо выводу, приложение, например, сразу же прокручивалось к нужной странице и выделяло соответствующий текст. Такая фокусировка на пользовательском опыте экономила время, уменьшала сомнения и укрепляла уверенность в системе, что привело к уровню принятия пользователями около 95 процентов.

Мир ИИ-агентов быстро меняется, поэтому мы можем ожидать, что узнаем гораздо больше уроков. Но если компании не будут подходить к своим агентивным программам с настроем на обучение (и на практике), они, скорее всего, будут повторять ошибки и замедлять свой прогресс.

Ларейна Йи — директор McKinsey Global Institute и старший партнер в офисе McKinsey в районе залива Сан-Франциско, где Майкл Чуи — старший научный сотрудник, а Роджер Робертс — партнер; Стивен Сюй — старший директор по управлению продуктами в офисе в Торонто.

Авторы благодарят Алекса Синглу, Александра Сухаревского, Альберто Марио Пировано, Аллена Чена, Ани Агабабяна, Антонио Кастро, Карло Джовине, Медху Банкхвал, Рикарда Стрёма и всю команду продукта в QuantumBlack Labs, центре McKinsey, посвященном стимулированию инноваций и экспериментов в области ИИ, за их вклад в эту статью.

Эта статья была отредактирована Барром Сейцем, директором по редактуре в нью-йоркском офисе.

Авторское право © 2025 McKinsey & Company. Все права защищены.

Автор: Алик Завалишев

Эксперт по ИИ и автоматизации процессов

Больше статей