Agent Memory Benchmark: новый стандарт оценки памяти ИИ-агентов

Проблема, которую все игнорировали

Каждый, кто строил агентную систему с памятью, сталкивался с одним и тем же вопросом: как понять, что память работает хорошо? До недавнего времени ответ был — прогнать LoComo или LongMemEval и посмотреть на accuracy. Если выше 80%, можно расслабиться.

Этот ответ больше не работает.

Оба бенчмарка создавались, когда контекстное окно моделей упиралось в 32 тысячи токенов. Сама идея была в том, что длинный разговор физически не помещается в контекст — значит, нужна система памяти, которая выберет релевантные фрагменты. Тест измерял именно эту способность: насколько точно система извлекает нужные факты из большого объёма.

С тех пор контекстные окна выросли до миллиона токенов. И вот что произошло: наивный подход «запихнуть всё в контекст» стал показывать конкурентные результаты на тех же датасетах. Не потому что это хорошая архитектура, а потому что бенчмарк перестал различать.

Четыре оси вместо одной

Команда Vectorize (авторы системы памяти Hindsight) выпустила Agent Memory Benchmark — AMB. Ключевое отличие от предшественников: оценка по четырём измерениям, а не по одному.

Точность (Accuracy)

Классический показатель — правильно ли агент отвечает на вопросы, используя свою память. AMB использует двухступенчатую оценку: модель-генератор формирует ответ на основе извлечённого контекста, модель-судья сравнивает с эталоном. Оба шага — Gemini, промпты опубликованы.

Важный нюанс: авторы признают, что изменение промпта судьи на несколько слов может качнуть accuracy на 10–15 процентных пунктов. Поэтому всё открыто — промпты генерации, промпты оценки, конкретные версии моделей.

Скорость (Speed)

Сколько времени занимает retain (загрузка документов в память) и recall (извлечение при запросе). Время retrieval отделено от времени генерации — это позволяет оценить именно систему памяти, а не скорость LLM.

Стоимость (Cost)

Сколько токенов потребляет каждая операция. Система с 90% accuracy и ценой $10 на пользователя в день — не лучше системы с 82% accuracy и ценой $0.10. Эта метрика прямо отражает production-реальность: бюджет на inference ограничен.

Удобство (Usability)

Сколько конфигурации, тюнинга и инфраструктуры нужно, чтобы система заработала. Если для запуска требуются три inference-провайдера и графовая база данных, это не «лучшая система» — это исследовательский прототип.

Почему чатбот-бенчмарки не подходят агентам

Вторая фундаментальная проблема LoComo и LongMemEval — они построены вокруг чатбот-сценария. Два человека разговаривают, потом модель отвечает на вопросы о содержании разговора.

Агенты так не работают. Агент исследует документы, планирует, выполняет многошаговые задачи, строит знание из разных источников и взаимодействий. Типичные задачи памяти агента:

Память через tool calls — агент вызвал API, получил результат, через 50 шагов должен использовать этот результат.
Знание из исследования документов — агент прочитал 20 PDF, должен синтезировать выводы.
Предпочтения в многошаговых решениях — пользователь однажды сказал «я предпочитаю TypeScript», и агент должен учитывать это при генерации кода через неделю.

AMB добавляет датасеты, покрывающие именно эти агентные сценарии. Пока в основе — PersonaMem, но архитектура рассчитана на расширение.

Как устроен бенчмарк

Пайплайн из четырёх шагов: Ingest — документы из датасета загружаются в memory-провайдер. Retrieve — для каждого запроса провайдер извлекает релевантный контекст. Generate — Gemini генерирует ответ из извлечённого контекста. Judge — второй вызов Gemini оценивает ответ относительно эталона.

На каждом шаге записываются время и расход токенов. Результаты сохраняются в JSON — их можно просматривать через встроенный веб-интерфейс (uv run amb view).

Есть режим Oracle: загружаются только эталонные документы (без шума). Это изолирует качество генерации от качества retrieval — полезно для диагностики.

Что это значит на практике

AMB — не академическое упражнение. Это инструмент для тех, кто выбирает систему памяти для production-агента.

Раньше выбор выглядел так: прогнал LoComo, выбрал лучший по accuracy, пошёл в production. Потом обнаружил, что latency неприемлемый, стоимость убивает юнит-экономику, а настройка требует DevOps-команду.

AMB позволяет сравнивать системы так, как их сравнивают в реальности: хорошая точность при приемлемой стоимости и скорости, с разумной сложностью настройки.

Ограничения и честность

Авторы открыто признают несколько вещей:

AMB создан командой, которая продаёт систему памяти Hindsight. Конфликт интересов очевиден. Противовес — полная открытость: код, данные, промпты, методология.
Размерности скорости, стоимости и удобства пока менее формализованы, чем accuracy. Это направление развития.
Датасеты для агентных сценариев пока в ранней стадии. PersonaMem покрывает не все паттерны.

Тем не менее, сам факт, что кто-то формализовал проблему «accuracy — не единственная метрика» и выпустил воспроизводимый инструмент — шаг вперёд для индустрии.

Итог

Эпоха, когда бенчмарк памяти сводился к «процент правильных ответов на вопросы по чат-логу» — заканчивается. AMB предлагает многомерную оценку, ориентированную на реальные агентные сценарии.

Код доступен на GitHub: github.com/vectorize-io/agent-memory-benchmark. Лидерборд: agentmemorybenchmark.ai.

Если вы строите агента с памятью — прогоните AMB на своём стеке. Результат может неприятно удивить. Но лучше узнать это сейчас, чем после запуска.