Gemma 3 27B сравнялась с Claude Haiku: честный бенчмарк 12 моделей на few-shot адаптации

Главный результат: разница — 0.001

Исследователь протестировал 12 моделей — 6 локальных и 6 облачных — на пяти задачах с количеством few-shot примеров от 0 до 8. Три прогона на каждую конфигурацию. Метрика — площадь под кривой (AUC) адаптации.

Результат: Gemma 3 27B набрала AUC 0.814. Claude Haiku 4.5 — 0.815. Разница в третьем знаке после запятой.

Это не абстрактный академический бенчмарк. Few-shot адаптация — способность модели обучаться на нескольких примерах прямо в контексте. Именно так работают реальные продакшн-пайплайны: вы даёте модели 3–5 примеров нужного формата, и она адаптируется. Чем выше AUC адаптации, тем меньше примеров нужно для стабильного результата.

Методология: 5 задач, 0–8 примеров, 3 прогона

Тестировались пять задач:

Классификация — стандартная категоризация текста
Исправление кода — нахождение и фикс багов
Оптимизация маршрутов — логистическая задача
Анализ тональности — sentiment analysis
Суммаризация — сжатие текста с сохранением смысла

Для каждой задачи модели получали от 0 до 8 few-shot примеров. Каждая конфигурация запускалась трижды для снижения дисперсии. Инструмент — adapt-gauge-core (GitHub), работает с LM Studio из коробки.

Полная таблица результатов

1. Claude Haiku 4.5 (Облако) — 0.815

2. Gemma 3 27B (Локальная) — 0.814

3. Claude Sonnet 4.6 (Облако) — 0.802

4. LLaMA 4 Scout (Локальная) — 0.748

5. GPT-5.4-mini (Облако) — 0.730

6. GPT-OSS 120B (Локальная) — 0.713

Полные данные по всем 12 моделям — в репозитории adapt-gauge-core.

Наблюдение 1: Gemma 3 27B — лидер в суммаризации

Gemma 3 27B набрала 75% на задаче суммаризации. Это лучший результат среди всех 12 моделей — включая облачные. Ни Claude Haiku, ни Claude Sonnet, ни GPT-5.4-mini не обогнали 27-миллиардную модель, которая запускается на одной видеокарте.

Суммаризация — одна из самых практичных задач: сжатие документов, генерация аннотаций, выделение ключевых тезисов. Именно здесь локальная модель оказалась лучше всех.

Наблюдение 2: LLaMA 4 Scout обгоняет GPT-5.4-mini

LLaMA 4 Scout — модель с архитектурой Mixture of Experts (17B активных параметров) — набрала AUC 0.748 против 0.730 у GPT-5.4-mini. На задаче оптимизации маршрутов Scout показала 95%, что сравнимо с Claude.

MoE-архитектура даёт Scout преимущество: при 17B активных параметров модель работает быстрее полноразмерных аналогов, а качество few-shot адаптации при этом выше, чем у облачных мини-моделей OpenAI.

Наблюдение 3: провал Gemini 3 Flash

Самый интригующий результат — поведение Gemini 3 Flash (облачная версия). На задаче оптимизации маршрутов при zero-shot модель показала 93%. При 8-shot — провалилась до 30%.

Gemma 3 27B — та же архитектурная линейка, локальная версия — стабильно держала 90%+.

Как это объяснить? Возможная причина — overfitting на формат инструкций при RLHF. Модель научилась слишком хорошо следовать определённому шаблону, и когда few-shot примеры конфликтуют с этим шаблоном, происходит коллапс. Базовая Gemma 3 27B, не прошедшая такой обработки, оказывается устойчивее.

Что это значит для практики

Экономика. Gemma 3 27B запускается на RTX 4090 (24 ГБ VRAM) или на Mac с 32 ГБ RAM через llama.cpp / LM Studio. Один раз купил железо — дальше бесплатно. Claude Haiku стоит $0.25/$1.25 за миллион входных/выходных токенов.

Приватность. Локальная модель не отправляет данные на внешние серверы. Для медицины, юриспруденции, финансов — это не преимущество, а требование.

Латентность. Нет сетевого round-trip. При интеграции в пайплайн с множеством вызовов экономия суммируется.

Ограничения. Gemma 3 27B проигрывает на задачах, требующих широких знаний и сложного рассуждения. Claude Sonnet 4.6 набрала 0.802 — выше Gemma — и в абсолютных метриках разрыв больше. Few-shot адаптация — не единственная метрика.

Как воспроизвести

Автор выложил инструмент adapt-gauge-core на GitHub. Включает все 5 задач из бенчмарка, демо-данные для 12 моделей, интеграцию с LM Studio, расчёт AUC адаптации. Можно добавить свои модели и задачи, получить сравнимые результаты.

Выводы

Граница между локальными и облачными моделями размывается. Не «скоро» — уже сейчас. Gemma 3 27B за $0 в эксплуатации показывает тот же уровень few-shot адаптации, что и Claude Haiku за деньги.

Это не значит, что облачные модели бесполезны. Claude Sonnet, GPT-5.4 и другие топовые модели по-прежнему лидируют в сложных задачах. Но для конкретных production-юзкейсов — классификация, суммаризация, sentiment — локальные модели уже конкурентоспособны.

Бенчмарк, который показывает «среднюю температуру по больнице», бесполезен. Бенчмарк, который тестирует вашу конкретную задачу с вашими данными — инструмент принятия решений. adapt-gauge-core позволяет сделать именно это.