Gemma 3 27B сравнялась с Claude Haiku: честный бенчмарк 12 моделей на few-shot адаптации
Независимый бенчмарк 12 LLM на задачах few-shot адаптации показал, что Gemma 3 27B практически не уступает Claude Haiku 4.5. Разбираем методологию, таблицу результатов и неожиданный провал Gemini 3 Flash.
Главный результат: разница — 0.001
Исследователь протестировал 12 моделей — 6 локальных и 6 облачных — на пяти задачах с количеством few-shot примеров от 0 до 8. Три прогона на каждую конфигурацию. Метрика — площадь под кривой (AUC) адаптации.
Результат: Gemma 3 27B набрала AUC 0.814. Claude Haiku 4.5 — 0.815. Разница в третьем знаке после запятой.
Это не абстрактный академический бенчмарк. Few-shot адаптация — способность модели обучаться на нескольких примерах прямо в контексте. Именно так работают реальные продакшн-пайплайны: вы даёте модели 3–5 примеров нужного формата, и она адаптируется. Чем выше AUC адаптации, тем меньше примеров нужно для стабильного результата.
Методология: 5 задач, 0–8 примеров, 3 прогона
Тестировались пять задач:
- Классификация — стандартная категоризация текста
- Исправление кода — нахождение и фикс багов
- Оптимизация маршрутов — логистическая задача
- Анализ тональности — sentiment analysis
- Суммаризация — сжатие текста с сохранением смысла
Для каждой задачи модели получали от 0 до 8 few-shot примеров. Каждая конфигурация запускалась трижды для снижения дисперсии. Инструмент — adapt-gauge-core (GitHub), работает с LM Studio из коробки.
Полная таблица результатов
1. Claude Haiku 4.5 (Облако) — 0.815
2. Gemma 3 27B (Локальная) — 0.814
3. Claude Sonnet 4.6 (Облако) — 0.802
4. LLaMA 4 Scout (Локальная) — 0.748
5. GPT-5.4-mini (Облако) — 0.730
6. GPT-OSS 120B (Локальная) — 0.713
Полные данные по всем 12 моделям — в репозитории adapt-gauge-core.
Наблюдение 1: Gemma 3 27B — лидер в суммаризации
Gemma 3 27B набрала 75% на задаче суммаризации. Это лучший результат среди всех 12 моделей — включая облачные. Ни Claude Haiku, ни Claude Sonnet, ни GPT-5.4-mini не обогнали 27-миллиардную модель, которая запускается на одной видеокарте.
Суммаризация — одна из самых практичных задач: сжатие документов, генерация аннотаций, выделение ключевых тезисов. Именно здесь локальная модель оказалась лучше всех.
Наблюдение 2: LLaMA 4 Scout обгоняет GPT-5.4-mini
LLaMA 4 Scout — модель с архитектурой Mixture of Experts (17B активных параметров) — набрала AUC 0.748 против 0.730 у GPT-5.4-mini. На задаче оптимизации маршрутов Scout показала 95%, что сравнимо с Claude.
MoE-архитектура даёт Scout преимущество: при 17B активных параметров модель работает быстрее полноразмерных аналогов, а качество few-shot адаптации при этом выше, чем у облачных мини-моделей OpenAI.
Наблюдение 3: провал Gemini 3 Flash
Самый интригующий результат — поведение Gemini 3 Flash (облачная версия). На задаче оптимизации маршрутов при zero-shot модель показала 93%. При 8-shot — провалилась до 30%.
Gemma 3 27B — та же архитектурная линейка, локальная версия — стабильно держала 90%+.
Как это объяснить? Возможная причина — overfitting на формат инструкций при RLHF. Модель научилась слишком хорошо следовать определённому шаблону, и когда few-shot примеры конфликтуют с этим шаблоном, происходит коллапс. Базовая Gemma 3 27B, не прошедшая такой обработки, оказывается устойчивее.
Что это значит для практики
Экономика. Gemma 3 27B запускается на RTX 4090 (24 ГБ VRAM) или на Mac с 32 ГБ RAM через llama.cpp / LM Studio. Один раз купил железо — дальше бесплатно. Claude Haiku стоит $0.25/$1.25 за миллион входных/выходных токенов.
Приватность. Локальная модель не отправляет данные на внешние серверы. Для медицины, юриспруденции, финансов — это не преимущество, а требование.
Латентность. Нет сетевого round-trip. При интеграции в пайплайн с множеством вызовов экономия суммируется.
Ограничения. Gemma 3 27B проигрывает на задачах, требующих широких знаний и сложного рассуждения. Claude Sonnet 4.6 набрала 0.802 — выше Gemma — и в абсолютных метриках разрыв больше. Few-shot адаптация — не единственная метрика.
Как воспроизвести
Автор выложил инструмент adapt-gauge-core на GitHub. Включает все 5 задач из бенчмарка, демо-данные для 12 моделей, интеграцию с LM Studio, расчёт AUC адаптации. Можно добавить свои модели и задачи, получить сравнимые результаты.
Выводы
Граница между локальными и облачными моделями размывается. Не «скоро» — уже сейчас. Gemma 3 27B за $0 в эксплуатации показывает тот же уровень few-shot адаптации, что и Claude Haiku за деньги.
Это не значит, что облачные модели бесполезны. Claude Sonnet, GPT-5.4 и другие топовые модели по-прежнему лидируют в сложных задачах. Но для конкретных production-юзкейсов — классификация, суммаризация, sentiment — локальные модели уже конкурентоспособны.
Бенчмарк, который показывает «среднюю температуру по больнице», бесполезен. Бенчмарк, который тестирует вашу конкретную задачу с вашими данными — инструмент принятия решений. adapt-gauge-core позволяет сделать именно это.
- Gemma 3
- Perplexity
- few-shot
- бенчмарки
- локальные модели
- LLM
- сравнение моделей