Claude управляет компьютером, OpenClaw строит Agent OS — два подхода к автоматизации
Anthropic научил Claude кликать по кнопкам и скроллить страницы. В тот же день OpenClaw выпустил Plugin SDK и магазин навыков ClawHub. Разбираю, чем отличаются подходы и когда какой выбирать.
31 марта 2026 года случилось два события одновременно. Anthropic выпустил Claude Computer Use — возможность управлять рабочим столом через клики, ввод текста и скроллинг. В тот же день OpenClaw опубликовал Plugin SDK, официальный магазин навыков ClawHub и автоматический маппинг навыков от Claude, Codex и Cursor.
Два конкурирующих проекта. Два противоположных подхода к одной задаче: сделать так, чтобы AI не просто отвечал на вопросы, а выполнял работу.
Что умеет Claude Computer Use
Claude получил буквальный контроль над десктопом. Модель видит экран, двигает курсор, кликает по элементам интерфейса, вводит текст, запускает bash-команды. Это не API-интеграция — это симуляция человека за клавиатурой.
Как работает:
- Claude делает скриншот экрана
- Анализирует, что видит
- Решает, куда кликнуть или что напечатать
- Выполняет действие
- Делает новый скриншот и проверяет результат
Цикл «скриншот → анализ → действие» повторяется, пока задача не выполнена.
На практике это выглядит впечатляюще. Просишь «организуй папку с загрузками» — Claude открывает Finder, создаёт подпапки, раскидывает файлы. Без уточняющих вопросов, без конфигурации.
Что сделал OpenClaw
OpenClaw пошёл другим путём. Вместо симуляции человека — модульная архитектура:
Plugin SDK. Открытый протокол для создания навыков. Каждый навык — это чёткая инструкция: что делать, какие инструменты использовать, как обрабатывать результат. Навык для публикации статьи не «кликает по кнопкам WordPress», а вызывает API напрямую.
ClawHub. Магазин навыков. Ставишь нужный навык одной командой. Кто-то написал интеграцию с Notion — берёшь и пользуешься. Экосистемный подход, как npm для агентов.
Auto-mapping. OpenClaw автоматически подбирает оптимальную модель для каждого шага. Для анализа текста — Claude. Для генерации кода — Codex. Для сложных reasoning-задач — GPT-5.4. Оркестратор ZenMux направляет запрос к нужной модели без ручной настройки.
Парадигма «симуляция человека»
Claude Computer Use — это подход «сверху вниз». Модель видит то же, что видит человек. Делает то же, что делает человек. Теоретический предел — всё, что может сделать человек за компьютером.
Когда работает хорошо:
- Одноразовые задачи без чёткой структуры: «найди вот этот документ и перешли его»
- Приложения без API: legacy-софт, десктопные программы
- Задачи, которые проще показать, чем запрограммировать
Фундаментальные ограничения:
Задержка. Каждое действие — это скриншот → отправка на сервер → анализ → ответ. На простой задаче «кликнуть по кнопке» уходит 2–5 секунд. Человек делает это за 300 миллисекунд.
Хрупкость. Интерфейсы меняются. Кнопка переехала — агент ломается. Тёмная тема, нестандартный шрифт, уведомление поверх окна — всё это источники ошибок. Каждый скриншот — это заново распознавание.
Sandbox. Anthropic запускает Computer Use в изолированной среде. Это правильно с точки зрения безопасности, но ограничивает доступ к реальной системе. Полноценная интеграция с рабочим окружением требует дополнительных настроек.
Только Mac. На момент запуска — только macOS. Windows и Linux — позже.
Стоимость. Каждый скриншот — это токены. Много токенов. Задача из 20 шагов может стоить в разы больше, чем один API-вызов.
Парадигма «Agent OS»
OpenClaw — это подход «снизу вверх». Вместо имитации человека — прямое взаимодействие с системами через API, CLI и структурированные протоколы.
Когда работает хорошо:
- Повторяющиеся workflow: публикация контента, деплой, мониторинг
- Мультимодельные задачи: разные шаги требуют разных моделей
- Когда нужна скорость и надёжность: API-вызов быстрее и стабильнее кликов
Ограничения:
- Нужна интеграция. Если у сервиса нет API и нет навыка в ClawHub — не работает
- Порог входа выше: надо понимать, как устроены навыки и оркестрация
- Менее интуитивно: нельзя просто сказать «сделай то, что я вижу на экране»
Прямое сравнение
- Метод взаимодействия: Computer Use — скриншоты + клики; Agent OS — API + CLI + плагины
- Задержка: Computer Use — 2–5 сек на действие; Agent OS — миллисекунды (API)
- Надёжность: Computer Use — зависит от UI; Agent OS — зависит от API
- Универсальность: Computer Use — любое приложение с GUI; Agent OS — только с интеграцией
- Стоимость за задачу: Computer Use — высокая (токены за скриншоты); Agent OS — низкая (структурированные вызовы)
- Выбор модели: Computer Use — только Claude; Agent OS — любая через ZenMux
- Масштабируемость: Computer Use — одна задача = одна сессия; Agent OS — параллельные pipeline
Что это значит на практике
Два подхода не конкурируют — они закрывают разные ниши.
Computer Use нужен, когда: задача одноразовая, приложение не имеет API, вы автоматизируете legacy-процесс, вам лень писать скрипт для чего-то, что сделаете один раз.
Agent OS нужен, когда: задача повторяется, workflow состоит из нескольких шагов, разные шаги требуют разных моделей, надёжность критична, стоимость имеет значение.
Интересно другое: OpenClaw уже включает browser-контроль как один из инструментов. То есть при необходимости оркестратор может «кликать по кнопкам» — но только как fallback, когда прямая интеграция невозможна. Это не либо/либо — это вопрос приоритетов.
Куда это ведёт
Мартовские релизы показали направление движения. Computer Use будет дешеветь и ускоряться. Магазины навыков будут расти. Граница между подходами размоется.
Через год-два скорее всего увидим гибрид: агент сначала проверяет, есть ли прямая интеграция. Если есть — использует API. Если нет — переключается на визуальное управление. Лучший агент — тот, который выбирает правильный инструмент для каждой конкретной задачи.
Пока же выбор прост. Для быстрых визуальных задач на Mac — Claude Computer Use. Для серьёзной автоматизации с контролем над каждым шагом — Agent OS с модульной оркестрацией.