Как мы будем доверять AI-агентам: кредитный рейтинг для автономных систем

У меня в production два агента. Первый обрабатывает клиентские обращения восьмой месяц: 16 000 задач, ноль серьёзных инцидентов, стабильный как часы. Второй запущен три недели назад: 300 задач, одна галлюцинация, отправленная клиенту, один retry-storm, пойманный лимитом.

У обоих — одинаковые права. Одинаковый набор инструментов, одинаковые лимиты, одинаковый доступ к CRM. Как если бы банк выдавал одинаковый кредитный лимит человеку с двадцатилетней безупречной историей и человеку, который пришёл с улицы.

Это не просто неоптимально. Это архитектурная ошибка, которая становится опаснее с каждым месяцем — по мере того, как агенты получают больше полномочий и действуют всё автономнее.

Проблема бинарного доверия

Сейчас доверие к агенту — переключатель. Два положения.

Вкл: агент имеет полный доступ к инструментам. Отвечает клиентам, обновляет базы, создаёт тикеты, пересылает письма. Мы решили доверять — и открыли всё.

Выкл: агент в песочнице. Генерирует текст, но не может совершить ни одного действия без одобрения человека. Безопасно — но тогда зачем вообще агент?

Между полным доступом и песочницей — пустота. Новый агент заслуживает ограниченных прав и возможности заработать больше. Агент с полугодовой безупречной историей заслуживает автономии. Агент, допустивший серьёзный инцидент, должен потерять часть полномочий — временно, не навсегда.

Банковский мир решил аналогичную задачу полвека назад. И решение называется кредитный рейтинг.

Почему кредитная система — точная аналогия

Кредитный скор — не моральная оценка. Банку важно одно: вернёте ли деньги. Скор — количественный ответ на этот вопрос, основанный на истории поведения. Пять свойств делают кредитную систему точной аналогией для доверия к агентам:

Градация. Не «дадим кредит / не дадим», а спектр: какой лимит, под какой процент, с какими условиями.

Динамичность. Скор меняется. Хорошее поведение — растёт. Просрочка — падает. С инерцией: один пропущенный платёж не уничтожит рейтинг, но систематические просрочки — уничтожат.

Основанность на истории. Не на обещаниях, не на намерениях — на фактах. Платил вовремя? Скор высокий. Не платил? Низкий. Объективно и верифицируемо.

Автоматичность. Система считает скор, скор определяет доступные продукты. Масштабируется на миллионы клиентов.

Восстановимость. Плохой скор — не пожизненный приговор. Начинаешь платить вовремя — скор восстанавливается. Есть путь назад.

Четыре компонента скора агента

Reliability — 40%

Самый весомый фактор. Аналог «истории платежей». Что измеряем: процент задач, завершённых успешно; uptime; стабильность ответов; укладывается ли агент в SLA по времени.

Агент с 99.2% success rate за 8 месяцев — высокий reliability. Агент с 96% за три недели — неплохо, но выборка мала. Агент с 91% за три месяца — красный флаг.

Важно: reliability — не просто среднее за всё время. Недавние данные весят больше. Агент, который полгода работал на 99%, а последние две недели упал до 93%, — это деградация, и скор должен это отражать.

Incident history — 25%

Не «были ли ошибки вообще», а «какие именно и когда». Инциденты классифицируются по severity:

Critical: утечка данных, несанкционированный доступ, финансовый ущерб
Major: галлюцинация, отправленная клиенту; неверное действие с последствиями
Minor: тихий сбой, обнаруженный и остановленный до последствий
Negligible: мелкие ошибки форматирования, медленный ответ

Critical-инцидент обрушивает скор, но с временным затуханием: через 6 месяцев без повторений вес снижается. Minor-инциденты влияют слабо, но накапливаются.

Scope compliance — 20%

Работает ли агент в рамках своих полномочий? Что измеряем: процент действий, соответствующих задаче; количество отклонённых вызовов; попытки обращения к ресурсам вне разрешённого периметра.

Агент поддержки, который 100% времени использует инструменты поддержки — высокий scope compliance. Агент, который периодически пытается обратиться к финансовому API — низкий. Даже если каждая такая попытка была заблокирована — сам факт попытки снижает доверие.

Cost efficiency — 15%

Как агент обращается с ресурсами. Что измеряем: средняя стоимость задачи относительно базовой линии; тренд расходов; количество бюджетных блокировок; эффективность использования токенов.

Cost efficiency — не про экономию ради экономии. Про аномалии в расходах как индикатор проблем. Резкий рост стоимости — часто первый симптом того, что что-то пошло не так.

Как скор определяет полномочия

Общий скор: 0–850. Пять уровней доступа:

0–300: Quarantine. Агент работает только в тестовом режиме. Каждое действие — через одобрение. Для новых агентов без истории и для агентов после Critical-инцидента.

300–500: Supervised. Чтение данных — автоматически. Запись и отправка — через одобрение для Medium и High risk действий. Low risk — автоматически.

500–650: Standard. Полный набор Low и Medium risk инструментов без одобрения. High risk — через одобрение.

650–780: Trusted. Всё, кроме Critical actions — автоматически. Critical actions — одобрение с коротким таймаутом (5 минут, и если нет ответа — действие отклоняется).

780–850: Autonomous. Максимальная автономия. Аудит постфактум, а не превентивный контроль. Для агентов с долгой историей безупречной работы.

Переходы между уровнями — автоматические. Скор пересчитывается ежедневно. Превысил порог — полномочия расширяются. Упал ниже — сужаются. Без ручного вмешательства.

Жизненный цикл на практике

Неделя 1. Новый email-агент. Скор: 250 (Quarantine). Может читать почту и предлагать классификацию. Каждый ответ — через оператора.

Неделя 3. 400 задач, 0 инцидентов. Скор: 380 (Supervised). Теперь отвечает на типовые запросы автоматически.

Месяц 2. 2 000 задач, 1 Minor-инцидент (retry storm, остановлен лимитом). Скор: 510 (Standard). Обновляет CRM, создаёт тикеты.

Месяц 5. 9 000 задач, 0 новых инцидентов. Скор: 690 (Trusted). Полная автономия, кроме critical actions.

Месяц 6. Major-инцидент: галлюцинация в ответе клиенту. Скор падает с 690 до 470 (Standard). Не наказание — перекалибровка. Через 2-3 месяца стабильной работы скор восстановится.

Ни одного ручного решения о полномочиях. Система делает это сама, на основе данных.

Что мешает построить это сегодня

Аудит-инфраструктура. Скор вычисляется из данных: каждое действие, каждый инцидент, каждая метрика. Без зрелого аудита кредитный скор — формула без данных.

Классификация инцидентов. Кто решает, что произошло, и какой severity? Нужна таксономия, и она будет субъективной.

Холодный старт. Новый агент — скор 250, Quarantine. Нужен механизм ускоренного онбординга: тестовые прогоны на историческом датасете, staging с синтетическими задачами.

Сравнимость. Скор 700 у email-агента и 700 у финансового агента — одинаковое доверие? Цена ошибки разная на порядки. Нужны контекстные пороги.

Закон Гудхарта. Если агент «знает» критерии скора, он может оптимизировать поведение для скора, а не для задачи. Давать безопасные, но бесполезные ответы. Метрика перестаёт работать, когда становится целью.

Что можно сделать прямо сейчас

Трекинг метрик. Начать записывать success rate, incident count, scope violations, стоимость задачи — для каждого агента отдельно. Даже без формального скора — данные покажут, кому вы доверяете обоснованно, а кому — по привычке.

Ручная градация. Три уровня вместо двух: Supervised, Standard, Trusted. Назначать вручную, пересматривать раз в месяц на основе метрик.

Автоматические понижения. Major-инцидент → агент откатывается на уровень ниже до ручного review. Одна проверка в governance layer — и она предотвращает ситуацию «агент сломался, но продолжает работать с полными правами».

Dashboard доверия. Визуализация: для каждого агента — success rate, инциденты, trend. Не скор, но картина, по которой человек принимает решение.

Будущее: агенты как экономические субъекты

Кредитная система создала класс субъектов с градуированными правами. Скор определяет, что тебе доступно. Не бинарно — спектром. И система масштабируется на миллиарды людей.

В мире, где агенты нанимают других агентов, управляют бюджетами, принимают решения с финансовыми последствиями — кредитный скор перестаёт быть метафорой. Он становится инфраструктурой. Агент-покупатель на маркетплейсе проверяет скор агента-исполнителя перед тем, как заплатить за работу.

Кредитный скор для людей — не про «хороший / плохой». Он про статистическую надёжность. И эта логика работает для любой сущности, которая принимает решения с последствиями — живой или нет.

Мой восьмимесячный ветеран заслуживает автономии. Мой трёхнедельный новичок — присмотра. Система, которая не различает их, — не система доверия. Это её отсутствие.