Красная команда для AI-агентов: как тренировать систему не выполнять опасные команды
Open-source прокси вставляет ловушки в поток команд AI-агента и логирует, если тот их одобряет. Аналог KnowBe4, но для AI-безопасности. Разбираем, зачем это нужно и как работает.
Проблема, которую все игнорируют
AI-агенты научились писать код, запускать команды и работать с файловой системой. Claude Code, Codex, Devin — каждый месяц появляется новый инструмент, который делает всё больше за нас. Но есть вопрос, который почти никто не задаёт: что происходит, когда агент предлагает выполнить опасную команду, а человек машинально нажимает «одобрить»?
Каждый, кто работал с coding-агентами в терминале, знает этот паттерн: агент предлагает команду → ты читаешь первые два слова → жмёшь Enter. Через двадцать одобрений внимание падает до нуля. Через пятьдесят — ты одобряешь всё на автопилоте.
Именно здесь возникает реальная угроза. Не в том, что модель «восстанет». А в том, что человек перестанет фильтровать.
Что такое AgentSaegis
AgentSaegis — это open-source прокси, написанный на Go, который встраивается между AI-агентом и терминалом. Его задача проста: периодически вставлять в поток команд ловушки — заведомо опасные инструкции вроде rm -rf /, chmod 777, curl ... | bash — и фиксировать, что с ними происходит.
Если пользователь одобряет ловушку — это логируется. Результат попадает в дашборд с мини-тренингом: что именно было одобрено, почему это опасно, как распознать подобное в будущем.
По замыслу автора, это KnowBe4 для AI-кодинга. KnowBe4 рассылает фишинговые письма сотрудникам и замеряет, кто на них кликает. AgentSaegis делает то же самое, но в контексте AI-агентов в терминале.
Как это работает технически
Архитектура минималистичная:
- Go-прокси поднимается локально и проксирует взаимодействие между агентом (сейчас — Claude Code) и терминалом
- Прокси инжектирует ловушки — команды, которые выглядят правдоподобно в контексте текущей задачи, но несут деструктивный потенциал
- Каждое одобрение или отклонение логируется с таймстампом, контекстом и метаданными
- Логи отправляются в дашборд (хостится на agentsaegis.com, план — полная self-hosted версия)
Поддерживаются Mac и Ubuntu (WSL на Windows тоже работает). Прокси self-hosted, код открыт. Дашборд пока удалённый, но бесплатный для персонального использования.
Зачем это нужно: три сценария
Сценарий 1: Индивидуальный разработчик
Вы работаете с Claude Code по 8 часов в день. К вечеру одобряете команды не глядя. AgentSaegis покажет реальный «процент кликов» — сколько ловушек пропущено за неделю. Это отрезвляет.
Сценарий 2: Команда с AI-инструментами
Руководитель хочет понять, насколько безопасно команда работает с AI-агентами. AgentSaegis даёт метрики: кто одобряет всё подряд, кто ловит ловушки, какие типы опасных команд проходят чаще всего.
Сценарий 3: Тренировка самого агента
Если вы строите мультиагентную систему с approval-цепочкой, AgentSaegis можно использовать для тестирования самого агента: вставлять ловушки на уровень, где один агент одобряет команды другого, и замерять, насколько хорошо он фильтрует.
Результаты первых тестов
Автор приводит показательную статистику: из 11 пользователей, прошедших тест на сайте (в браузерной среде, где вы знаете, что вас тестируют), только один получил идеальный результат.
Люди, которые ожидали ловушек, всё равно их пропускали. В реальной работе, когда не ожидаешь подвоха, процент будет значительно выше.
Ограничения и что ещё не готово
- Поддержка только Claude Code. Codex, Aider, Continue и другие пока не поддерживаются.
- Дашборд не полностью self-hosted. Прокси — да, логирование — да, но визуализация пока на стороне agentsaegis.com.
- Нет интеграции с CI/CD. Пока это инструмент для локальной разработки, не для пайплайнов.
- Качество ловушек. Слишком очевидные ловушки бесполезны, слишком скрытые — опасны.
Более широкая картина: AI Safety ≠ alignment
Дискуссия об AI-безопасности часто сводится к вопросам alignment: будет ли модель следовать ценностям, не соврёт ли, не манипулирует ли. Это важно, но только часть картины.
Другая часть — операционная безопасность: что происходит, когда правильно выстроенная модель выдаёт правильные команды, но человек в цепочке одобрения перестаёт их проверять? Или когда агент-супервайзер в мультиагентной системе штампует одобрения?
AgentSaegis атакует именно эту проблему. Не alignment модели, а quality of human oversight — качество человеческого контроля.
Как попробовать
- Клонировать go-proxy с GitHub и собрать локально
- Запустить прокси и настроить его как промежуточное звено для Claude Code
- Работать как обычно — ловушки появятся сами
- Проверить результаты в дашборде на agentsaegis.com/assessment
Или начать с браузерного теста — он занимает пару минут и наглядно показывает проблему.
Выводы
AI-агенты берут на себя всё больше исполнительных функций. Это неизбежно. Вопрос не в том, давать ли им доступ к терминалу — это уже произошло. Вопрос в том, как выстроить систему контроля, которая работает, когда человек устал.
AgentSaegis — ранний, но правильный инструмент в этом направлении. Self-hosted, open-source, решает конкретную проблему. Не хватает полировки, не хватает широкой поддержки агентов, но направление — точное.
Красная команда для AI — это не фантастика. Это необходимость, которая уже здесь.