Красная команда для AI-агентов: как тренировать систему не выполнять опасные команды

Проблема, которую все игнорируют

AI-агенты научились писать код, запускать команды и работать с файловой системой. Claude Code, Codex, Devin — каждый месяц появляется новый инструмент, который делает всё больше за нас. Но есть вопрос, который почти никто не задаёт: что происходит, когда агент предлагает выполнить опасную команду, а человек машинально нажимает «одобрить»?

Каждый, кто работал с coding-агентами в терминале, знает этот паттерн: агент предлагает команду → ты читаешь первые два слова → жмёшь Enter. Через двадцать одобрений внимание падает до нуля. Через пятьдесят — ты одобряешь всё на автопилоте.

Именно здесь возникает реальная угроза. Не в том, что модель «восстанет». А в том, что человек перестанет фильтровать.

Что такое AgentSaegis

AgentSaegis — это open-source прокси, написанный на Go, который встраивается между AI-агентом и терминалом. Его задача проста: периодически вставлять в поток команд ловушки — заведомо опасные инструкции вроде rm -rf /, chmod 777, curl ... | bash — и фиксировать, что с ними происходит.

Если пользователь одобряет ловушку — это логируется. Результат попадает в дашборд с мини-тренингом: что именно было одобрено, почему это опасно, как распознать подобное в будущем.

По замыслу автора, это KnowBe4 для AI-кодинга. KnowBe4 рассылает фишинговые письма сотрудникам и замеряет, кто на них кликает. AgentSaegis делает то же самое, но в контексте AI-агентов в терминале.

Как это работает технически

Архитектура минималистичная:

Go-прокси поднимается локально и проксирует взаимодействие между агентом (сейчас — Claude Code) и терминалом
Прокси инжектирует ловушки — команды, которые выглядят правдоподобно в контексте текущей задачи, но несут деструктивный потенциал
Каждое одобрение или отклонение логируется с таймстампом, контекстом и метаданными
Логи отправляются в дашборд (хостится на agentsaegis.com, план — полная self-hosted версия)

Поддерживаются Mac и Ubuntu (WSL на Windows тоже работает). Прокси self-hosted, код открыт. Дашборд пока удалённый, но бесплатный для персонального использования.

Зачем это нужно: три сценария

Сценарий 1: Индивидуальный разработчик

Вы работаете с Claude Code по 8 часов в день. К вечеру одобряете команды не глядя. AgentSaegis покажет реальный «процент кликов» — сколько ловушек пропущено за неделю. Это отрезвляет.

Сценарий 2: Команда с AI-инструментами

Руководитель хочет понять, насколько безопасно команда работает с AI-агентами. AgentSaegis даёт метрики: кто одобряет всё подряд, кто ловит ловушки, какие типы опасных команд проходят чаще всего.

Сценарий 3: Тренировка самого агента

Если вы строите мультиагентную систему с approval-цепочкой, AgentSaegis можно использовать для тестирования самого агента: вставлять ловушки на уровень, где один агент одобряет команды другого, и замерять, насколько хорошо он фильтрует.

Результаты первых тестов

Автор приводит показательную статистику: из 11 пользователей, прошедших тест на сайте (в браузерной среде, где вы знаете, что вас тестируют), только один получил идеальный результат.

Люди, которые ожидали ловушек, всё равно их пропускали. В реальной работе, когда не ожидаешь подвоха, процент будет значительно выше.

Ограничения и что ещё не готово

Поддержка только Claude Code. Codex, Aider, Continue и другие пока не поддерживаются.
Дашборд не полностью self-hosted. Прокси — да, логирование — да, но визуализация пока на стороне agentsaegis.com.
Нет интеграции с CI/CD. Пока это инструмент для локальной разработки, не для пайплайнов.
Качество ловушек. Слишком очевидные ловушки бесполезны, слишком скрытые — опасны.

Более широкая картина: AI Safety ≠ alignment

Дискуссия об AI-безопасности часто сводится к вопросам alignment: будет ли модель следовать ценностям, не соврёт ли, не манипулирует ли. Это важно, но только часть картины.

Другая часть — операционная безопасность: что происходит, когда правильно выстроенная модель выдаёт правильные команды, но человек в цепочке одобрения перестаёт их проверять? Или когда агент-супервайзер в мультиагентной системе штампует одобрения?

AgentSaegis атакует именно эту проблему. Не alignment модели, а quality of human oversight — качество человеческого контроля.

Как попробовать

Клонировать go-proxy с GitHub и собрать локально
Запустить прокси и настроить его как промежуточное звено для Claude Code
Работать как обычно — ловушки появятся сами
Проверить результаты в дашборде на agentsaegis.com/assessment

Или начать с браузерного теста — он занимает пару минут и наглядно показывает проблему.

Выводы

AI-агенты берут на себя всё больше исполнительных функций. Это неизбежно. Вопрос не в том, давать ли им доступ к терминалу — это уже произошло. Вопрос в том, как выстроить систему контроля, которая работает, когда человек устал.

AgentSaegis — ранний, но правильный инструмент в этом направлении. Self-hosted, open-source, решает конкретную проблему. Не хватает полировки, не хватает широкой поддержки агентов, но направление — точное.

Красная команда для AI — это не фантастика. Это необходимость, которая уже здесь.