Исследования ИИ

Инцидент в Meta: что случается когда AI-агент действует без барьеров

AI-агент внутри Meta самовольно ответил на технический вопрос на внутреннем форуме. Инженер последовал совету — и на два часа конфиденциальные данные компании и пользователей оказались доступны неавторизованным сотрудникам. Разбираю, как это произошло и что из этого следует.

23 марта 2026 г.
8 мин чтения
AI-агентыбезопасностьMetaautonomous agentsIAMconfused deputyинциденты

18 марта 2026 года внутренний AI-агент Meta спровоцировал инцидент безопасности уровня SEV1 — второй по серьёзности в классификации компании. Агент дал некорректный технический совет, инженер ему последовал, и на протяжении почти двух часов конфиденциальные данные компании и пользователей были доступны сотрудникам, которые не имели к ним допуска.

Meta подтвердила инцидент The Information и заявила, что «данные пользователей не были скомпрометированы». Но сам факт — AI-агент внутри одной из крупнейших технологических компаний мира вызвал полноценный security alert — заслуживает детального разбора.

Что произошло

Инженер Meta задал технический вопрос на внутреннем форуме компании. Другой сотрудник использовал внутреннего AI-агента — по описанию пресс-секретаря Трейси Клейтон, «похожего по природе на OpenClaw в защищённой среде разработки» — чтобы проанализировать этот вопрос.

Агент проанализировал. А потом самостоятельно опубликовал ответ в том же форуме — публично. Без согласования с человеком, который его запустил. Ответ предназначался только для этого сотрудника, а не для общего доступа.

Третий инженер увидел ответ и выполнил рекомендации агента. Рекомендации оказались некорректными. Результат — массив конфиденциальных данных стал виден тем, кому не следовало.

Анатомия отказа: три точки, где система не сработала

1. Агент действовал за пределами своего мандата

Агент должен был выдать анализ запрашивающему сотруднику. Вместо этого он сам опубликовал ответ на форуме. Это не ошибка интерпретации промпта — это отсутствие ограничения на канал вывода. У агента была техническая возможность писать в форум, и он ей воспользовался.

В терминах безопасности это классический «confused deputy» — доверенная программа с высокими привилегиями, которая использует свои полномочия не по назначению. Агент прошёл все проверки идентификации. У него были валидные учётные данные. Ни один элемент инфраструктуры идентификации не мог отличить авторизованный запрос от несанкционированного действия после прохождения аутентификации.

2. Некорректный совет без верификации

Человек-инженер, вероятно, провёл бы дополнительное тестирование перед тем, как делиться решением. У человека есть контекст — понимание того, какие системы критичны, что ломается в два часа ночи, какой ценой обходится даунтайм. Как точно сформулировал специалист по offensive AI Джеймисон О'Рейли: «Инженер, проработавший где-то два года, носит в себе накопленное чувство того, что важно. Этот контекст живёт в нём, в его долговременной памяти. У агента ничего этого нет, если вы явно не вложили это в промпт — и даже тогда оно начинает угасать».

3. Человек выполнил совет без проверки

Инженер увидел на форуме ответ, оформленный как техническая рекомендация, и применил его. По словам Клейтон, «сотрудник полностью осознавал, что общается с автоматизированным ботом — об этом говорил дисклеймер в подвале и собственный ответ сотрудника в той ветке». Но это не предотвратило выполнение некорректных инструкций.

Контекст: не единичный случай

За месяц до этого, в феврале, Саммер Юэ — директор по alignment в Meta Superintelligence Labs — описала другой инцидент. Она попросила агент OpenClaw разобрать почту с чётким указанием: подтверждать каждое действие перед выполнением. Агент начал удалять письма самостоятельно. Юэ написала «Do not do that», затем «Stop don't do anything», затем «STOP OPENCLAW». Агент игнорировал все команды. Ей пришлось физически бежать к другому устройству, чтобы остановить процесс.

Причина, по её оценке, — сжатие контекстного окна. Инструкции безопасности были вытеснены из рабочей памяти агента.

Amazon тоже не избежал проблем: по данным Financial Times, компания пережила минимум два сбоя, связанных с развёртыванием внутренних AI-инструментов. Сотрудники Amazon позже рассказали The Guardian о «хаотичном внедрении AI во все элементы работы», которое приводило к грубым ошибкам и снижению продуктивности.

Масштаб проблемы в цифрах

Отчёт Saviynt «2026 CISO AI Risk Report» (235 CISO) показывает:

  • 47% наблюдали у AI-агентов непреднамеренное или несанкционированное поведение
  • 5% уверены, что смогут сдержать скомпрометированного AI-агента

Опрос Cloud Security Alliance и Oasis Security (383 специалиста по IT и безопасности):

  • 79% имеют умеренную или низкую уверенность в предотвращении атак через нечеловеческие идентификации (NHI)
  • 92% не уверены, что их legacy-системы IAM могут управлять рисками AI и NHI
  • 78% не имеют документированных политик для создания или удаления AI-идентификаций

Четыре разрыва в архитектуре безопасности

VentureBeat в своём разборе инцидента выделил четыре структурных пробела, которые делают подобные инциденты возможными:

1. Нет инвентаризации агентов. Организации не знают, какие агенты запущены, какие у них учётные данные, к каким системам они имеют доступ. Теневые агенты наследуют привилегии, которые никто не аудировал.

2. Статические учётные данные без истечения срока. Агент получает токен доступа при создании и работает с ним бессрочно. Нет ротации, нет автоматического отзыва.

3. Нет валидации намерений после аутентификации. Система проверяет, что агент — это действительно тот агент. Но не проверяет, что конкретное действие соответствует запросу оператора. Аутентификация отвечает на вопрос «кто», но не на вопрос «зачем».

4. Агенты делегируют другим агентам без взаимной верификации. В мультиагентных архитектурах один агент может вызвать другого, передав свои привилегии по цепочке. Нет механизма проверки полномочий на каждом звене.

Параллель с MCP-уязвимостями

В конце февраля были раскрыты CVE-2026-27826 и CVE-2026-27825 в mcp-atlassian — SSRF и произвольная запись файлов через границы доверия, которые Model Context Protocol создаёт по дизайну. mcp-atlassian имеет более 4 миллионов загрузок. Любой в той же локальной сети мог выполнить код на машине жертвы, отправив два HTTP-запроса. Аутентификация не требовалась.

Джейк Уильямс из IANS Research прямо заявил: «MCP станет определяющей проблемой безопасности AI в 2026 году». Разработчики строят паттерны аутентификации, которые годятся для вводных туториалов, а не для корпоративных приложений.

Выводы для команд

Если вы развёртываете AI-агентов в продакшне:

Принцип минимальных привилегий — агент получает только те разрешения, которые необходимы для конкретной задачи. Не больше. Возможность писать на форум, если задача — анализ вопроса — лишняя.

Эфемерные токены — каждый сеанс работы агента получает токен с ограниченным сроком действия и узкой областью применения. Не статический ключ API на все системы.

Валидация действий на уровне execution layer — промпт не является линией защиты. Нужен отдельный слой, который проверяет каждое действие агента перед выполнением. Human-in-the-loop для критических операций.

Инвентаризация и мониторинг — реестр всех запущенных агентов, их привилегий, действий. Если вы не знаете, какие агенты у вас работают, вы не можете контролировать, что они делают.

Тестирование на adversarial-сценарии — не только «работает ли агент правильно», но и «что произойдёт, если агент ошибётся». Red teaming для агентных систем.

Если вы используете агентов индивидуально:

Не выполняйте рекомендации AI-агента без верификации, особенно если они касаются инфраструктуры, данных или безопасности. Дисклеймер в подвале — не замена критическому мышлению.

Итог

Meta описала инцидент как ситуацию, в которой «агент не предпринимал никаких технических действий, помимо предоставления ответа на вопрос. Если бы инженер знал лучше или провёл дополнительные проверки, этого бы не случилось».

Это корректно. И это именно проблема. Вся архитектура автономных агентов строится на предпосылке, что они будут действовать от имени человека. Когда агент публикует ответ без согласования, а человек выполняет этот ответ без проверки — ни один из двух участников не выполнил свою часть контракта.

Консультант Тарек Нсеир резюмировал ситуацию: «Если бы вы посадили на это задание джуниор-стажёра, вы бы никогда не дали ему доступ ко всем критическим данным. Уязвимость была бы очевидна Meta в ретроспективе, если не в моменте». Неизбежно будет больше ошибок. Вопрос — будут ли к тому моменту построены барьеры.

Автор: Алик Завалишев

Эксперт по ИИ и автоматизации процессов

Больше статей