Dominion Rift: игровой бенчмарк, который ломает представления об агентных способностях LLM
Разработчик потратил два месяца на создание текстовой стратегии, где LLM управляют «странами». Результат: квантизованная Qwen3.5-122B обошла Claude Opus и Grok-4, уступив только GPT-5.4.
Проблема стандартных бенчмарков
MMLU, HumanEval, GPQA — все эти тесты измеряют одно: способность модели выдать правильный ответ на изолированный вопрос. Один промпт → один ответ → оценка. Реальные агентные задачи устроены иначе: модель должна принимать цепочки решений, помнить контекст десятков предыдущих ходов, адаптировать стратегию на основе обратной связи, управлять несколькими сущностями одновременно.
Разработчик потратил два месяца на создание Dominion Rift — чтобы измерить именно это.
Что такое Dominion Rift
Dominion Rift — текстовая стратегическая игра, в которой две LLM сражаются друг с другом. Каждая модель управляет четырьмя провинциями и одним Суверенным доменом. На каждом ходу модель решает:
- Что строить (бастионы, зернохранилища, казармы)
- Какие войска обучать (защитные, наступательные, шпионы)
- Что производить и с кем торговать
- Какие заклинания применять
- Как распределить роли между провинциями
Критическая особенность — система памяти. После каждого хода модель получает отчёт о нанесённом и полученном ущербе, анализирует результат и формирует новый промпт для следующего хода. Это происходит более 20 раз за игру — бенчмарк тестирует способность к самокритике и быстрой адаптации стратегии.
Уравнивание условий
Каждой модели отведено примерно 60 секунд на рассуждение. Это ключевой методологический ход: измеряется не способность «думать дольше всех», а качество мышления за фиксированное время.
Как формулирует автор: «Порождать парламент шума ради нескольких сотен выходных токенов не выглядит как интеллект — это больше похоже на перебор».
Результаты: таблица лидеров
1. GPT-5.4 — ELO 1604, Win Rate 100%, Avg MPS 918
2. Qwen3.5-122B AWQ 4bit — ELO 1529, Win Rate 62%, Avg MPS 727
3. Claude Opus 4.6 — ELO 1500, Win Rate 50%, Avg MPS 628
4. Grok-4.20 Reasoning — ELO 1444, Win Rate 25%, Avg MPS 588
5. Gemini-3.1 Pro Preview — ELO 1421, Win Rate 12%, Avg MPS 553
GPT-5.4 доминирует с 100% win rate. Но сенсация — второе место.
Феномен Qwen3.5-122B
Qwen3.5-122B запущена в формате AWQ 4-bit квантизации. Это локальная модель, работающая на пользовательском железе. Она обошла Claude Opus, Grok-4.20 и Gemini-3.1 Pro.
Координация провинций — 9 из 10. Модель выстраивает чёткое разделение труда: экономика, военная мощь, шпионаж, логистический хаб. «Весь продовольственный трафик через P2, чтобы избежать прямых зависимостей P0→P3».
Тактическая синхронизация. 137 скоординированных многопровинциальных ударов за 8 матчей. Модель рассчитывает время прибытия войск из разных провинций, чтобы удары совпадали.
Адаптивный выбор целей. При обнаружении внутренних проблем: «Приоритет — саботаж/похищение вместо разведки».
Характерные слабости: Qwen строила 2840 бастионов и всего 59 зернохранилищ (соотношение 48:1) — 1083 тика голодания за 8 матчей. В рефлексивных заметках регулярно писала «решить проблему с едой», но в следующем матче повторяла ту же ошибку. Диссонанс между рефлексией и действием — модель анализирует проблемы точно, но не исправляет поведенческие паттерны.
Почему GPT-5.4 побеждает
GPT-5.4 демонстрирует «систематическую осадную архитектуру»: разведка → магическое истощение → решающий удар. Adversarial reasoning уровня 9/10 — фокус всех ресурсов на одной цели. Против Qwen это работает разрушительно: победа за 42–59 тиков, экономика подавлена до того, как координационная машина Qwen успевает разогнаться.
Что этот бенчмарк измеряет
Dominion Rift тестирует семь измерений:
- Темпоральное мышление — планирование на несколько ходов с учётом времени перемещения войск
- Оптимизация ресурсов — баланс между военным давлением и экономической стабильностью
- Управление информацией — ROI от разведки и действия на основе разведданных
- Состязательное мышление — эксплуатация слабостей оппонента
- Адаптивность — скорость коррекции стратегии после ошибок
- Координация сущностей — управление четырьмя провинциями как единой системой
- Понимание правил — штрафы за голодание, время перемещения, длительность баффов
Стандартные бенчмарки не покрывают ни одно из этих измерений.
Три вывода для отрасли
Локальные модели конкурентоспособны в агентных задачах. Qwen3.5-122B в 4-bit квантизации на пользовательском железе обходит облачные модели. Для агентных приложений с требованиями к задержке и приватности — практический аргумент.
Стандартные бенчмарки слепы к агентным способностям. Gemini-3.1 Pro, лидирующая на многих академических тестах, заняла последнее место. Корреляция с MMLU/GPQA минимальна.
Поведенческие профили информативнее числовых оценок. Dominion Rift генерирует не число, а развёрнутый анализ: архетип, тенденции, сильные и слабые стороны. Ближе к тому, что нужно инженерам при выборе модели для конкретной агентной задачи.