Agent Memory Benchmark: новый стандарт оценки памяти ИИ-агентов
Старые бенчмарки памяти LoComo и LongMemEval создавались в эпоху 32k-токенов. Agent Memory Benchmark переосмысляет оценку: точность, скорость, стоимость, удобство — и фокус на агентных сценариях.
Проблема, которую все игнорировали
Каждый, кто строил агентную систему с памятью, сталкивался с одним и тем же вопросом: как понять, что память работает хорошо? До недавнего времени ответ был — прогнать LoComo или LongMemEval и посмотреть на accuracy. Если выше 80%, можно расслабиться.
Этот ответ больше не работает.
Оба бенчмарка создавались, когда контекстное окно моделей упиралось в 32 тысячи токенов. Сама идея была в том, что длинный разговор физически не помещается в контекст — значит, нужна система памяти, которая выберет релевантные фрагменты. Тест измерял именно эту способность: насколько точно система извлекает нужные факты из большого объёма.
С тех пор контекстные окна выросли до миллиона токенов. И вот что произошло: наивный подход «запихнуть всё в контекст» стал показывать конкурентные результаты на тех же датасетах. Не потому что это хорошая архитектура, а потому что бенчмарк перестал различать.
Четыре оси вместо одной
Команда Vectorize (авторы системы памяти Hindsight) выпустила Agent Memory Benchmark — AMB. Ключевое отличие от предшественников: оценка по четырём измерениям, а не по одному.
Точность (Accuracy)
Классический показатель — правильно ли агент отвечает на вопросы, используя свою память. AMB использует двухступенчатую оценку: модель-генератор формирует ответ на основе извлечённого контекста, модель-судья сравнивает с эталоном. Оба шага — Gemini, промпты опубликованы.
Важный нюанс: авторы признают, что изменение промпта судьи на несколько слов может качнуть accuracy на 10–15 процентных пунктов. Поэтому всё открыто — промпты генерации, промпты оценки, конкретные версии моделей.
Скорость (Speed)
Сколько времени занимает retain (загрузка документов в память) и recall (извлечение при запросе). Время retrieval отделено от времени генерации — это позволяет оценить именно систему памяти, а не скорость LLM.
Стоимость (Cost)
Сколько токенов потребляет каждая операция. Система с 90% accuracy и ценой $10 на пользователя в день — не лучше системы с 82% accuracy и ценой $0.10. Эта метрика прямо отражает production-реальность: бюджет на inference ограничен.
Удобство (Usability)
Сколько конфигурации, тюнинга и инфраструктуры нужно, чтобы система заработала. Если для запуска требуются три inference-провайдера и графовая база данных, это не «лучшая система» — это исследовательский прототип.
Почему чатбот-бенчмарки не подходят агентам
Вторая фундаментальная проблема LoComo и LongMemEval — они построены вокруг чатбот-сценария. Два человека разговаривают, потом модель отвечает на вопросы о содержании разговора.
Агенты так не работают. Агент исследует документы, планирует, выполняет многошаговые задачи, строит знание из разных источников и взаимодействий. Типичные задачи памяти агента:
- Память через tool calls — агент вызвал API, получил результат, через 50 шагов должен использовать этот результат.
- Знание из исследования документов — агент прочитал 20 PDF, должен синтезировать выводы.
- Предпочтения в многошаговых решениях — пользователь однажды сказал «я предпочитаю TypeScript», и агент должен учитывать это при генерации кода через неделю.
AMB добавляет датасеты, покрывающие именно эти агентные сценарии. Пока в основе — PersonaMem, но архитектура рассчитана на расширение.
Как устроен бенчмарк
Пайплайн из четырёх шагов: Ingest — документы из датасета загружаются в memory-провайдер. Retrieve — для каждого запроса провайдер извлекает релевантный контекст. Generate — Gemini генерирует ответ из извлечённого контекста. Judge — второй вызов Gemini оценивает ответ относительно эталона.
На каждом шаге записываются время и расход токенов. Результаты сохраняются в JSON — их можно просматривать через встроенный веб-интерфейс (uv run amb view).
Есть режим Oracle: загружаются только эталонные документы (без шума). Это изолирует качество генерации от качества retrieval — полезно для диагностики.
Что это значит на практике
AMB — не академическое упражнение. Это инструмент для тех, кто выбирает систему памяти для production-агента.
Раньше выбор выглядел так: прогнал LoComo, выбрал лучший по accuracy, пошёл в production. Потом обнаружил, что latency неприемлемый, стоимость убивает юнит-экономику, а настройка требует DevOps-команду.
AMB позволяет сравнивать системы так, как их сравнивают в реальности: хорошая точность при приемлемой стоимости и скорости, с разумной сложностью настройки.
Ограничения и честность
Авторы открыто признают несколько вещей:
- AMB создан командой, которая продаёт систему памяти Hindsight. Конфликт интересов очевиден. Противовес — полная открытость: код, данные, промпты, методология.
- Размерности скорости, стоимости и удобства пока менее формализованы, чем accuracy. Это направление развития.
- Датасеты для агентных сценариев пока в ранней стадии. PersonaMem покрывает не все паттерны.
Тем не менее, сам факт, что кто-то формализовал проблему «accuracy — не единственная метрика» и выпустил воспроизводимый инструмент — шаг вперёд для индустрии.
Итог
Эпоха, когда бенчмарк памяти сводился к «процент правильных ответов на вопросы по чат-логу» — заканчивается. AMB предлагает многомерную оценку, ориентированную на реальные агентные сценарии.
Код доступен на GitHub: github.com/vectorize-io/agent-memory-benchmark. Лидерборд: agentmemorybenchmark.ai.
Если вы строите агента с памятью — прогоните AMB на своём стеке. Результат может неприятно удивить. Но лучше узнать это сейчас, чем после запуска.