Holotron-12B: специализированная модель для computer-use агентов от H Company

Есть модели, которые отвечают на вопросы. Есть модели, которые пишут код. А теперь есть модель, которая двигает мышкой, кликает по кнопкам и заполняет формы. Holotron-12B от H Company — открытая модель на 12 миллиардов параметров, созданная совместно с NVIDIA специально для одной задачи: управлять компьютером.

Не генерировать текст про управление компьютером. Именно управлять — смотреть на экран, понимать интерфейс, планировать последовательность действий и выполнять их. Click, type, scroll, navigate.

Это интересно не только как продукт. Это интересно как сигнал: индустрия начинает строить модели не для всего подряд, а для конкретных задач.

Что такое computer-use и почему это сложно

Computer-use агент — это AI, который взаимодействует с компьютером так же, как человек: через графический интерфейс. Видит экран, распознаёт элементы (кнопки, поля ввода, меню), решает, куда кликнуть, что напечатать, и выполняет действия.

Звучит просто — пока не начинаешь разбираться в деталях.

Визуальное понимание. Модель получает скриншот и должна понять структуру: вот кнопка «Отправить», вот поле ввода email, вот выпадающее меню. Разные приложения, разные дизайн-системы, разные разрешения экрана.

Планирование действий. «Отправь email Марине с отчётом за квартал» — это не одно действие. Это цепочка: открыть почтовый клиент → нажать «Новое письмо» → найти контакт → вложить файл → написать тему → написать текст → отправить. Каждый шаг зависит от результата предыдущего.

Точность координат. Модель должна сказать не «нажми кнопку Отправить», а «кликни в координаты (1247, 683)». Пиксельная точность на экранах разных размеров.

Скорость. Каждое действие — это цикл: сделать скриншот → отправить в модель → получить действие → выполнить. Если один цикл занимает 5 секунд, простая задача из 20 шагов растягивается на две минуты.

General-purpose модели справляются с этим посредственно. Claude с computer-use, GPT-4o с vision — они могут, но это как забивать гвозди микроскопом.

Holotron-12B: что под капотом

H Company — та самая, которая делает Holo-серию моделей для агентов. Holotron-12B — результат коллаборации с NVIDIA.

Размер: 12B параметров. Сознательный выбор — модель должна быть достаточно маленькой, чтобы работать быстро, и достаточно большой, чтобы справляться с задачей.

Мультимодальность. Модель принимает скриншот + текстовую инструкцию и выдаёт структурированное действие: тип (click, type, scroll, key press), координаты, текст для ввода. Конкретную команду, которую можно выполнить программно.

Обучение. Тренировка на массиве computer-use взаимодействий: пары «скриншот + инструкция → действие». Десятки тысяч сессий на разных приложениях и операционных системах.

Оптимизация инференса. Совместная работа с NVIDIA дала результат: модель оптимизирована под TensorRT-LLM. Throughput — вдвое выше, чем у моделей аналогичного размера.

Бенчмарки: на уровне тяжеловесов

На OSWorld (бенчмарк для computer-use агентов: реальные задачи на реальных ОС) Holotron-12B выступает на уровне Holo2 и Qwen-VL — моделей, которые значительно больше по размеру.

На ScreenSpot (точность определения элементов интерфейса) — сопоставимые результаты с лучшими мультимодальными моделями.

Но главная цифра — throughput. При сравнимом качестве Holotron-12B обрабатывает вдвое больше запросов в секунду. Посчитаем: задача из 30 действий при 3 секундах на действие — полторы минуты. При 1.5 секундах — 45 секунд. Ощущение от взаимодействия принципиально другое.

Open-source: почему это принципиально

Приватность. Computer-use агент видит ваш экран. Весь экран. С паролями, личными сообщениями, финансовыми данными. Отправлять скриншоты в облачный API — не то, на что многие готовы подписаться. Локальная модель — скриншоты никуда не уходят.

Кастомизация. Каждая компания использует свой набор приложений. Открытая модель допускает файнтюнинг на интерфейсах конкретных приложений — точность на них резко растёт.

Стоимость. Computer-use требует десятки вызовов на одну задачу. При $0.01 за вызов cloud API — каждая задача стоит $0.20-0.50. При 1000 задач в день — $200-500 ежедневно. Локальный инференс в разы дешевле.

Тренд: специализированные модели для агентов

Holotron-12B — не изолированный продукт. Это часть тренда: появление моделей, заточенных под конкретные агентные задачи.

General-purpose модель оптимизирована на всё сразу: генерация текста, анализ, код, математика, диалоги. Computer-use — одна задача из тысяч. Модель тратит свою «ёмкость» на все эти способности, даже когда нужна только одна.

Специализированная модель — другой подход. Все 12B параметров заточены на одну задачу. Нет «лишних» знаний. Каждый параметр работает на computer-use.

Это даёт две вещи:

Эффективность размера. 12B специализированных параметров дают результат на уровне 70B+ универсальных.

Формат выхода. General-purpose модель отвечает текстом, который нужно парсить. Специализированная выдаёт структурированную команду: {action: click, x: 1247, y: 683}. Без промежуточного парсинга, без галлюцинаций в формате.

Я ожидаю, что тренд усилится. Модели для code review. Для data extraction. Для работы с конкретными API. Каждая — компактная, быстрая, заточенная. Вместо одного универсального монстра — набор специалистов.

Практические сценарии

RPA нового поколения. Классический RPA работает через жёсткие скрипты. Сломался UI — сломался скрипт. Computer-use агент адаптируется: кнопка переехала — найдёт её.

Тестирование интерфейсов. «Пройди регистрацию как новый пользователь. Проверь обработку невалидного email». Агент выполняет как человек-тестировщик, но быстрее и круглосуточно.

Legacy-системы без API. Старая ERP-система, к которой нельзя подключиться через API — только через GUI. Computer-use агент работает через интерфейс.

Ограничения и трезвый взгляд

Скорость всё ещё ощутима. Даже с двукратным преимуществом, computer-use агент медленнее человека. 1-2 секунды на действие — для фоновых задач приемлемо, для интерактивной работы — пока раздражает.

Хрупкость. Нестандартные UI-элементы, кастомные компоненты, анимации — создают edge cases. Требуется fallback на человека.

Цена ошибки. Нажала «Удалить» вместо «Отменить» — данные потеряны. Computer-use агенту нужен governance-слой строже, чем текстовому.

Что это значит для архитектуры

Holotron-12B встраивается как специализированный исполнитель. Основной агент планирует задачу. Когда нужно взаимодействие с GUI — передаёт управление computer-use агенту на Holotron.

Получается двухуровневая система: мозг (планирование) отделён от рук (выполнение). Это архитектурный паттерн, который мы увидим повсеместно: оркестратор решает, что делать. Специализированные модели — как делать.

12B параметров. Open-source. Вдвое быстрее аналогов. Holotron-12B — хороший пример того, куда движется индустрия: от универсальных гигантов к команде компактных специалистов. И мне эта траектория нравится больше, чем гонка за триллионом параметров.