Claude управляет компьютером, OpenClaw строит Agent OS — два подхода к автоматизации | База знаний Завалишев

31 марта 2026 года случилось два события одновременно. Anthropic выпустил Claude Computer Use — возможность управлять рабочим столом через клики, ввод текста и скроллинг. В тот же день OpenClaw опубликовал Plugin SDK, официальный магазин навыков ClawHub и автоматический маппинг навыков от Claude, Codex и Cursor.

Два конкурирующих проекта. Два противоположных подхода к одной задаче: сделать так, чтобы AI не просто отвечал на вопросы, а выполнял работу.

Что умеет Claude Computer Use

Claude получил буквальный контроль над десктопом. Модель видит экран, двигает курсор, кликает по элементам интерфейса, вводит текст, запускает bash-команды. Это не API-интеграция — это симуляция человека за клавиатурой.

Как работает:

Claude делает скриншот экрана
Анализирует, что видит
Решает, куда кликнуть или что напечатать
Выполняет действие
Делает новый скриншот и проверяет результат

Цикл «скриншот → анализ → действие» повторяется, пока задача не выполнена.

На практике это выглядит впечатляюще. Просишь «организуй папку с загрузками» — Claude открывает Finder, создаёт подпапки, раскидывает файлы. Без уточняющих вопросов, без конфигурации.

Что сделал OpenClaw

OpenClaw пошёл другим путём. Вместо симуляции человека — модульная архитектура:

Plugin SDK. Открытый протокол для создания навыков. Каждый навык — это чёткая инструкция: что делать, какие инструменты использовать, как обрабатывать результат. Навык для публикации статьи не «кликает по кнопкам WordPress», а вызывает API напрямую.

ClawHub. Магазин навыков. Ставишь нужный навык одной командой. Кто-то написал интеграцию с Notion — берёшь и пользуешься. Экосистемный подход, как npm для агентов.

Auto-mapping. OpenClaw автоматически подбирает оптимальную модель для каждого шага. Для анализа текста — Claude. Для генерации кода — Codex. Для сложных reasoning-задач — GPT-5.4. Оркестратор ZenMux направляет запрос к нужной модели без ручной настройки.

Парадигма «симуляция человека»

Claude Computer Use — это подход «сверху вниз». Модель видит то же, что видит человек. Делает то же, что делает человек. Теоретический предел — всё, что может сделать человек за компьютером.

Когда работает хорошо:

Одноразовые задачи без чёткой структуры: «найди вот этот документ и перешли его»
Приложения без API: legacy-софт, десктопные программы
Задачи, которые проще показать, чем запрограммировать

Фундаментальные ограничения:

Задержка. Каждое действие — это скриншот → отправка на сервер → анализ → ответ. На простой задаче «кликнуть по кнопке» уходит 2–5 секунд. Человек делает это за 300 миллисекунд.

Хрупкость. Интерфейсы меняются. Кнопка переехала — агент ломается. Тёмная тема, нестандартный шрифт, уведомление поверх окна — всё это источники ошибок. Каждый скриншот — это заново распознавание.

Sandbox. Anthropic запускает Computer Use в изолированной среде. Это правильно с точки зрения безопасности, но ограничивает доступ к реальной системе. Полноценная интеграция с рабочим окружением требует дополнительных настроек.

Только Mac. На момент запуска — только macOS. Windows и Linux — позже.

Стоимость. Каждый скриншот — это токены. Много токенов. Задача из 20 шагов может стоить в разы больше, чем один API-вызов.

Парадигма «Agent OS»

OpenClaw — это подход «снизу вверх». Вместо имитации человека — прямое взаимодействие с системами через API, CLI и структурированные протоколы.

Когда работает хорошо:

Повторяющиеся workflow: публикация контента, деплой, мониторинг
Мультимодельные задачи: разные шаги требуют разных моделей
Когда нужна скорость и надёжность: API-вызов быстрее и стабильнее кликов

Ограничения:

Нужна интеграция. Если у сервиса нет API и нет навыка в ClawHub — не работает
Порог входа выше: надо понимать, как устроены навыки и оркестрация
Менее интуитивно: нельзя просто сказать «сделай то, что я вижу на экране»

Прямое сравнение

Метод взаимодействия: Computer Use — скриншоты + клики; Agent OS — API + CLI + плагины
Задержка: Computer Use — 2–5 сек на действие; Agent OS — миллисекунды (API)
Надёжность: Computer Use — зависит от UI; Agent OS — зависит от API
Универсальность: Computer Use — любое приложение с GUI; Agent OS — только с интеграцией
Стоимость за задачу: Computer Use — высокая (токены за скриншоты); Agent OS — низкая (структурированные вызовы)
Выбор модели: Computer Use — только Claude; Agent OS — любая через ZenMux
Масштабируемость: Computer Use — одна задача = одна сессия; Agent OS — параллельные pipeline

Что это значит на практике

Два подхода не конкурируют — они закрывают разные ниши.

Computer Use нужен, когда: задача одноразовая, приложение не имеет API, вы автоматизируете legacy-процесс, вам лень писать скрипт для чего-то, что сделаете один раз.

Agent OS нужен, когда: задача повторяется, workflow состоит из нескольких шагов, разные шаги требуют разных моделей, надёжность критична, стоимость имеет значение.

Интересно другое: OpenClaw уже включает browser-контроль как один из инструментов. То есть при необходимости оркестратор может «кликать по кнопкам» — но только как fallback, когда прямая интеграция невозможна. Это не либо/либо — это вопрос приоритетов.

Куда это ведёт

Мартовские релизы показали направление движения. Computer Use будет дешеветь и ускоряться. Магазины навыков будут расти. Граница между подходами размоется.

Через год-два скорее всего увидим гибрид: агент сначала проверяет, есть ли прямая интеграция. Если есть — использует API. Если нет — переключается на визуальное управление. Лучший агент — тот, который выбирает правильный инструмент для каждой конкретной задачи.

Пока же выбор прост. Для быстрых визуальных задач на Mac — Claude Computer Use. Для серьёзной автоматизации с контролем над каждым шагом — Agent OS с модульной оркестрацией.