Технический контекст
Я люблю такие сравнения не за таблички, а за приземлённость. Здесь не синтетика и не “модель решила олимпиадку”, а 69 реальных транскрипций колл-центра, прогнанных через один и тот же промпт. Для AI automation это уже не теория, а почти готовый кусок пайплайна поддержки.
Источник тут не официальный релиз вендора, а практический тест из комьюнити. Поэтому я воспринимаю его именно как полевой бенчмарк, а не как истину в последней инстанции. Но такие штуки обычно полезнее маркетинговых PDF, потому что быстро показывают, где модель врёт, где ломает JSON, а где держит структуру.
Сравнивали qwen3.5:27b и gemma4_26b на задаче анализа готовых транскриптов, не аудио. Это важная оговорка. Речь не про распознавание речи и не про определение эмоций по голосу, а про текстовый слой: саммари, sentiment, satisfaction score, action flags и набор структурированных полей.
Судьёй выступал Claude Sonnet 4.6, который сверял ответы моделей с самим транскриптом. Оценивали точность саммари, полноту bullet points, совпадение по полям и адекватность числовых оценок. По выводу автора теста, Qwen3.5-27B оказался сильнее: лучше калибрует score, точнее ловит sentiment и реже теряет важные поля.
И вот здесь я как раз остановился. Потому что на практике именно калибровка и структурная дисциплина решают, будет у вас рабочая AI integration в саппорте или очередной красивый демо-ролик.
По общему контексту модели сопоставимы по классу. Qwen3.5-27B, по доступной информации, вышел в феврале 2026, Gemma-4-26B в апреле 2026. У обеих длинный контекст, у Gemma сильная мультимодальность на бумаге, но в этом тесте её козыри почти не играют, потому что вход уже очищен до нормального текста.
Что это меняет для бизнеса и автоматизации
Если я строю систему анализа звонков, меня волнует не “какая модель выглядит умнее в общем рейтинге”, а сколько ручной проверки останется у команды после внедрения. Когда модель завышает satisfaction score или пропускает action flags, менеджер видит красивый отчёт и принимает кривое решение. Это хуже, чем просто средний результат.
Qwen в таком сценарии выглядит практичнее. Не потому что он магически умнее, а потому что лучше держит форму ответа и не так активно приукрашивает картину. Для очередей контроля качества, SLA-мониторинга и маршрутизации эскалаций это очень полезное свойство.
Gemma я бы не списывал. В исходном тесте прямо сказано, что разрыв можно заметно сократить промпт-тюнингом. И я в это верю: некоторые модели плохо стартуют на дефолтном промпте, но оживают, когда жёстко задаёшь схему, ограничения на поля и правила калибровки числовых оценок.
Но есть нюанс. Если вам нужен результат сейчас, без недели танцев с шаблонами, валидаторами и постобработкой, то “потенциал после настройки” не всегда выгоден. Иногда дешевле взять модель, которая уже на первом проходе даёт предсказуемый JSON и меньше фантазирует на операционных метриках.
Ещё один важный вывод: аудио-эмоции тут вообще ни при чём. В обсуждении правильно уточнили, что тест был на готовых транскрипциях. Я с этим согласен на уровне архитектуры: определение сентимента по тексту и по голосу это две разные задачи, и мешать их в один слой не стоит, если не хотите получить шум вместо сигнала.
В клиентских проектах я обычно раскладываю это на отдельные блоки: ASR, нормализация текста, LLM-анализ, валидация структуры, бизнес-правила и только потом выгрузка в CRM или BI. Именно так artificial intelligence implementation перестаёт быть игрушкой и начинает экономить часы супервайзеров, QA-команды и руководителей саппорта.
Кому от такого теста хорошо? Тем, кто выбирает open-weight модель для локального или приватного контура. Кому плохо? Тем, кто всё ещё выбирает по хайпу в X и по чужим скриншотам с арен. В операционке такие решения быстро мстят.
Если у вас поддержка уже тонет в звонках, а отчёты собираются вручную, я бы посмотрел на ваши реальные транскрипты и собрал рабочую схему без лишней магии. В Nahornyi AI Lab мы как раз делаем AI solution development под такие процессы: от выбора модели и промптов до валидации полей, интеграции в CRM и нормальной автоматизации, которая не ломает бизнес на второй неделе.