Dominion Rift: игровой бенчмарк, который ломает представления об агентных способностях LLM

Проблема стандартных бенчмарков

MMLU, HumanEval, GPQA — все эти тесты измеряют одно: способность модели выдать правильный ответ на изолированный вопрос. Один промпт → один ответ → оценка. Реальные агентные задачи устроены иначе: модель должна принимать цепочки решений, помнить контекст десятков предыдущих ходов, адаптировать стратегию на основе обратной связи, управлять несколькими сущностями одновременно.

Разработчик потратил два месяца на создание Dominion Rift — чтобы измерить именно это.

Что такое Dominion Rift

Dominion Rift — текстовая стратегическая игра, в которой две LLM сражаются друг с другом. Каждая модель управляет четырьмя провинциями и одним Суверенным доменом. На каждом ходу модель решает:

Что строить (бастионы, зернохранилища, казармы)
Какие войска обучать (защитные, наступательные, шпионы)
Что производить и с кем торговать
Какие заклинания применять
Как распределить роли между провинциями

Критическая особенность — система памяти. После каждого хода модель получает отчёт о нанесённом и полученном ущербе, анализирует результат и формирует новый промпт для следующего хода. Это происходит более 20 раз за игру — бенчмарк тестирует способность к самокритике и быстрой адаптации стратегии.

Уравнивание условий

Каждой модели отведено примерно 60 секунд на рассуждение. Это ключевой методологический ход: измеряется не способность «думать дольше всех», а качество мышления за фиксированное время.

Как формулирует автор: «Порождать парламент шума ради нескольких сотен выходных токенов не выглядит как интеллект — это больше похоже на перебор».

Результаты: таблица лидеров

1. GPT-5.4 — ELO 1604, Win Rate 100%, Avg MPS 918

2. Qwen3.5-122B AWQ 4bit — ELO 1529, Win Rate 62%, Avg MPS 727

3. Claude Opus 4.6 — ELO 1500, Win Rate 50%, Avg MPS 628

4. Grok-4.20 Reasoning — ELO 1444, Win Rate 25%, Avg MPS 588

5. Gemini-3.1 Pro Preview — ELO 1421, Win Rate 12%, Avg MPS 553

GPT-5.4 доминирует с 100% win rate. Но сенсация — второе место.

Феномен Qwen3.5-122B

Qwen3.5-122B запущена в формате AWQ 4-bit квантизации. Это локальная модель, работающая на пользовательском железе. Она обошла Claude Opus, Grok-4.20 и Gemini-3.1 Pro.

Координация провинций — 9 из 10. Модель выстраивает чёткое разделение труда: экономика, военная мощь, шпионаж, логистический хаб. «Весь продовольственный трафик через P2, чтобы избежать прямых зависимостей P0→P3».

Тактическая синхронизация. 137 скоординированных многопровинциальных ударов за 8 матчей. Модель рассчитывает время прибытия войск из разных провинций, чтобы удары совпадали.

Адаптивный выбор целей. При обнаружении внутренних проблем: «Приоритет — саботаж/похищение вместо разведки».

Характерные слабости: Qwen строила 2840 бастионов и всего 59 зернохранилищ (соотношение 48:1) — 1083 тика голодания за 8 матчей. В рефлексивных заметках регулярно писала «решить проблему с едой», но в следующем матче повторяла ту же ошибку. Диссонанс между рефлексией и действием — модель анализирует проблемы точно, но не исправляет поведенческие паттерны.

Почему GPT-5.4 побеждает

GPT-5.4 демонстрирует «систематическую осадную архитектуру»: разведка → магическое истощение → решающий удар. Adversarial reasoning уровня 9/10 — фокус всех ресурсов на одной цели. Против Qwen это работает разрушительно: победа за 42–59 тиков, экономика подавлена до того, как координационная машина Qwen успевает разогнаться.

Что этот бенчмарк измеряет

Dominion Rift тестирует семь измерений:

Темпоральное мышление — планирование на несколько ходов с учётом времени перемещения войск
Оптимизация ресурсов — баланс между военным давлением и экономической стабильностью
Управление информацией — ROI от разведки и действия на основе разведданных
Состязательное мышление — эксплуатация слабостей оппонента
Адаптивность — скорость коррекции стратегии после ошибок
Координация сущностей — управление четырьмя провинциями как единой системой
Понимание правил — штрафы за голодание, время перемещения, длительность баффов

Стандартные бенчмарки не покрывают ни одно из этих измерений.

Три вывода для отрасли

Локальные модели конкурентоспособны в агентных задачах. Qwen3.5-122B в 4-bit квантизации на пользовательском железе обходит облачные модели. Для агентных приложений с требованиями к задержке и приватности — практический аргумент.

Стандартные бенчмарки слепы к агентным способностям. Gemini-3.1 Pro, лидирующая на многих академических тестах, заняла последнее место. Корреляция с MMLU/GPQA минимальна.

Поведенческие профили информативнее числовых оценок. Dominion Rift генерирует не число, а развёрнутый анализ: архетип, тенденции, сильные и слабые стороны. Ближе к тому, что нужно инженерам при выборе модели для конкретной агентной задачи.