DeepMind Aletheia: AI перешёл от решения задач к созданию знаний

До 2025 года AI в математике — это блестящая олимпиадная машина. Даёшь задачу с гарантированным ответом — получаешь решение. Красиво, впечатляет инвесторов, но к реальной науке отношения не имеет. Наука — это когда ты не знаешь, есть ли вообще решение. Когда нужно перекопать сотни статей, построить гипотезу, проверить, выбросить, начать заново.

DeepMind сделал следующий шаг. Aletheia — AI-агент на базе Gemini Deep Think — работает именно так. Он не решает олимпиадные задачи. Он проводит исследования.

Что конкретно произошло

Цифры, которые стоит запомнить:

95.1% на IMO-ProofBench Advanced — бенчмарке из 60 задач на полноценные математические доказательства. Предыдущий рекорд — 65.7%. Это не инкрементальный рост, это скачок на другой уровень.
4 открытые задачи Эрдёша решены автономно. Из 700 задач в базе система нашла 63 технически корректных решения, четыре из которых — закрытие открытых вопросов.
5 научных статей на рецензировании, включая Feng26 — статью по арифметической геометрии, полностью сгенерированную без участия человека.

Это не «AI помог исследователю». Это «AI провёл исследование, а человек оформил результат».

Архитектура: generate-verify-revise

Ключевая идея Aletheia — разделение когнитивных функций. Система состоит из трёх компонентов:

Generator создаёт кандидатное решение. Это стандартная генерация, как в любой языковой модели, но с контекстом исследовательской задачи.

Verifier — отдельный процесс, который проверяет решение на логические ошибки и галлюцинации. Критический момент: верификатор отделён от генератора. Когда модель проверяет собственный вывод внутри одного потока, она склонна соглашаться сама с собой. Разделение ломает этот паттерн.

Reviser берёт найденные ошибки и исправляет решение. Цикл повторяется до тех пор, пока верификатор не одобрит результат.

Это не новая идея в теории — self-verification обсуждается давно. Новизна в реализации: DeepMind показал, что при правильном разделении процессов и достаточном inference-time compute цикл действительно сходится к корректным результатам на задачах исследовательского уровня.

Inference-time scaling > размер модели

Вот что действительно меняет парадигму. Версия Deep Think от января 2026 года сократила вычислительные затраты на решение олимпиадных задач в 100 раз по сравнению с версией 2025 года. Не за счёт увеличения модели — за счёт оптимизации inference-time compute.

Что это значит на практике:

Традиционный подход: берём модель побольше, обучаем на данных побольше, надеемся на лучший результат. Подход Aletheia: берём модель разумного размера и даём ей больше «времени на размышление» при каждом запросе.

Аналогия из человеческого мира: разница между студентом, который зазубрил учебник (большая модель, много тренировочных данных), и исследователем, который умеет думать над задачей часами (inference-time scaling). Первый хорош на экзамене. Второй делает открытия.

Для разработчиков это конкретный сигнал: гонка за размером модели — не единственный путь. Оптимизация inference pipeline может дать сопоставимые или лучшие результаты при меньших затратах.

Инструменты: поиск и синтез литературы

Ещё одна практическая деталь: Aletheia использует Google Search и веб-браузинг для работы с научной литературой. Это решает одну из главных проблем LLM в научном контексте — галлюцинации цитат.

Модель не выдумывает ссылки на несуществующие статьи. Она ищет реальные публикации, синтезирует найденное и встраивает в свою цепочку рассуждений. При этом поисковый процесс не ломает логическую нить доказательства — это отдельная инженерная задача, которую команда DeepMind решила.

Таксономия автономности

DeepMind предложил классификацию AI-вклада в исследования — по аналогии с уровнями автономного вождения:

Level 0 — Преимущественно человек. Олимпиадный уровень.
Level 1 — Коллаборация человек-AI. Минорная новизна.
Level 2 (A2) — По сути автономно. Публикуемое исследование.

Статья Feng26 классифицирована как Level A2 — автономная работа публикуемого качества. Для контекста: большинство AI-систем до Aletheia работали на уровне 0.

Что это значит для разработчиков

Три практических вывода:

Агентные архитектуры побеждают монолиты. Разделение на генератор-верификатор-ревизор работает лучше, чем единый prompt → response. Если вы строите сложные AI-пайплайны — закладывайте отдельные этапы верификации.

Inference-time compute — рычаг, который недооценивают. Вместо того чтобы файнтюнить модель или увеличивать контекстное окно, попробуйте дать модели больше «времени на размышление». Техники вроде chain-of-thought, self-consistency, итеративной верификации — это и есть inference-time scaling в доступной форме.

Tool use — не опция, а необходимость. Для задач, требующих актуальных знаний, встроенный поиск и доступ к инструментам критичен. RAG на статических базах — прошлый этап. Следующий — динамический tool use внутри цепочки рассуждений.

Что дальше

Aletheia работает в математике — области с формальной верификацией, где можно объективно проверить результат. Перенос на физику, биологию, химию — задача другого порядка сложности, потому что там нет такого чёткого критерия «правильно/неправильно».

Но сам факт остаётся: AI перешёл от уровня «решает задачи, которые придумал человек» к уровню «создаёт знания, которых у человека не было». Это не количественный рост. Это качественный переход.

И пять статей на рецензировании — это уже не демонстрация технологии. Это научный результат.