Чеклист зрелости workflow: 5 проверок тихих отказов перед продакшном в n8n

Проблема, которую все знают, но никто не чинит

Workflow отработал. Статус — «success». Зелёная галочка. Клиент доволен. А через две недели выясняется, что из 200 лидов обогатились 3, CRM-синхронизация молча потеряла 40% контактов, а интеграция с платёжкой отвалилась после обновления API — и никто не заметил.

Это не баг. Это тихий отказ — silent failure. Workflow не упал, не выбросил ошибку. Он просто перестал делать то, ради чего создавался.

Вот 5 проверок, без которых нельзя называть n8n-workflow production-ready.

1. Мониторинг объёма данных, а не только ошибок

Большинство команд настраивают алерты на ошибки. Workflow упал — пришло уведомление. Это необходимый минимум, но недостаточный.

Реальная проблема выглядит иначе: workflow обрабатывал 40 записей в день, а сегодня обработал 2. Ошибок нет. Статус — success. Но что-то сломалось выше по цепочке: API отдаёт меньше данных, фильтр стал слишком жёстким, источник поменял формат.

Что делать: Логируйте количество обработанных записей на каждом прогоне. Минимальный формат — workflow, статус, records_processed, failed_records, last_run. Установите пороги: если обычный объём 30–50 записей, а пришло меньше 5 или больше 500 — это аномалия. В n8n это реализуется через IF-ноду после основной обработки: проверяете $items.length и отправляете алерт.

Почему это важно: снижение объёма на 90% при статусе «success» — это именно тот сценарий, который убивает доверие клиента. Он узнаёт о проблеме не от мониторинга, а от своего отдела продаж через неделю.

2. Алерты на пустые успешные прогоны

Workflow запустился по расписанию, прошёл все ноды, завершился с success. Обработал 0 записей. Это нормально? Может быть. А может — источник данных вернул пустой ответ, потому что истёк токен, поменялся эндпоинт или API молча перешёл на новую версию.

Что делать: После HTTP Request или триггера поставьте IF-ноду: если data.length === 0 — отправьте уведомление с контекстом: какой workflow, когда, какой эндпоинт вернул пустоту. Ведите счётчик: если пустых прогонов 3 подряд — это уже не «нет новых данных», а проблема.

Тонкость: не каждый пустой прогон — ошибка. Ночью заказов может не быть. Поэтому важно знать нормальный паттерн и алертить на отклонение, а не на абсолютный ноль.

3. Таймауты на внешние API

Стандартная проблема: workflow вызывает внешний API, тот не отвечает 30 секунд, потом минуту, потом n8n зависает или падает с непонятной ошибкой. По умолчанию HTTP Request нода в n8n не имеет жёсткого таймаута — она будет ждать, пока соединение не оборвётся на уровне системы.

Что делать: Установите явный таймаут в каждом HTTP Request: Options → Timeout → 10–15 секунд для критичных вызовов, 30 для тяжёлых. Добавьте retry-логику: Options → Retry On Fail → 2–3 попытки с паузой 5 секунд. В Error Workflow ловите таймаут отдельно. Валидируйте тело ответа: 200 — не гарантия успеха, API может вернуть 200 с телом {"error": "rate_limit_exceeded"}.

4. Схема-валидация входящих данных

API поменял структуру ответа. Поле email стало contact_email. Поле price из числа превратилось в строку. Workflow не упал — он просто записал undefined в CRM, посчитал сумму как NaN или создал запись без привязки к заказу.

Что делать: Определите схему ожидаемых данных для каждого входа: какие поля обязательны, какие типы, какие диапазоны. Добавьте Code-ноду с валидацией сразу после получения данных — проверяйте наличие обязательных полей и типы значений. Невалидные записи отправляйте в dead-letter queue: не выбрасывайте, а сохраняйте отдельно с причиной ошибки.

Зачем dead-letter: без него вы теряете данные. С ним — у вас таблица с записями, которые не прошли валидацию. Можно исправить схему и переобработать.

5. Тест после каждого изменения зависимостей

Workflow зависит не только от своего кода — от версий API внешних сервисов, структуры данных в источниках, прав доступа (токены, OAuth), настроек n8n, других workflow в цепочке. Обновился n8n — нода поменяла поведение. Истёк OAuth-токен — workflow молча перестал получать данные.

Что делать: Заведите тестовый набор данных (фикстуры с заранее известным результатом) для каждого workflow. После любого изменения — прогоните фикстуры и сверьте выход. Добавьте manual fallback trigger — кнопку или endpoint для перезапуска с конкретными данными. Документируйте зависимости: таблица «workflow → внешние API → версии → дата последней проверки».

Итого: чеклист перед продакшном

Мониторинг объёма: IF-нода + лог + порог
Алерт на пустой прогон: IF-нода на length === 0
Таймауты на API: HTTP Request → Options → Timeout + Retry
Схема-валидация: Code-нода + dead-letter queue
Тест зависимостей: фикстуры + manual trigger + таблица зависимостей

Когда workflow действительно production-ready

Production-ready — это не «работает на тестовых данных». Это «я узнаю о проблеме раньше клиента».

Пять проверок выше — минимум. Не потолок, а пол. Если хотя бы одна отсутствует — workflow находится в состоянии «работает, пока везёт». И везение заканчивается ровно тогда, когда ставки максимальны.

Внедрение всех пяти занимает 2–3 часа на один workflow. Это ничто по сравнению с неделей разбора «почему мы потеряли 400 лидов и никто не заметил».