Qwen3.5-27B проти Gemma4-26B на задачах кол-центру

На 69 реальних транскрипціях кол-центру Qwen3.5-27B виявився сильнішим за Gemma4-26B за якістю резюме, тональністю, калібруванням оцінок і стабільністю структури. Для бізнесу це корисний орієнтир, якщо ви плануєте AI-автоматизацію в підтримці та хочете обрати відкриту модель, не покладаючись на маркетингові бенчмарки.

Технічний контекст

Я люблю такі порівняння не за таблички, а за їхню приземленість. Тут не синтетика і не “модель розв'язала олімпіадку”, а 69 реальних транскрипцій кол-центру, прогнаних через один і той самий промпт. Для AI-автоматизації це вже не теорія, а майже готовий шматок пайплайну підтримки.

Джерело тут не офіційний реліз вендора, а практичний тест від спільноти. Тому я сприймаю його саме як польовий бенчмарк, а не як істину в останній інстанції. Але такі штуки зазвичай корисніші за маркетингові PDF, бо швидко показують, де модель бреше, де ламає JSON, а де тримає структуру.

Порівнювали qwen3.5:27b та gemma4_26b на задачі аналізу готових транскриптів, а не аудіо. Це важливе зауваження. Йдеться не про розпізнавання мови і не про визначення емоцій за голосом, а про текстовий шар: самарі, sentiment, satisfaction score, action flags та набір структурованих полів.

Суддею виступав Claude Sonnet 4.6, який звіряв відповіді моделей із самим транскриптом. Оцінювали точність самарі, повноту bullet points, збіг за полями та адекватність числових оцінок. За висновком автора тесту, Qwen3.5-27B виявився сильнішим: краще калібрує score, точніше ловить sentiment і рідше губить важливі поля.

І ось тут я якраз зупинився. Тому що на практиці саме калібрування та структурна дисципліна вирішують, чи буде у вас робоча AI integration у сапорті, чи черговий красивий демо-ролик.

За загальним контекстом моделі можна порівняти за класом. Qwen3.5-27B, за доступною інформацією, вийшов у лютому 2026 року, Gemma-4-26B у квітні 2026 року. В обох довгий контекст, у Gemma сильна мультимодальність на папері, але в цьому тесті її козирі майже не грають, бо вхід уже очищений до нормального тексту.

Що це змінює для бізнесу та автоматизації

Якщо я будую систему аналізу дзвінків, мене хвилює не “яка модель виглядає розумнішою в загальному рейтингу”, а скільки ручної перевірки залишиться в команди після впровадження. Коли модель завищує satisfaction score або пропускає action flags, менеджер бачить гарний звіт і ухвалює хибне рішення. Це гірше, ніж просто середній результат.

Qwen у такому сценарії виглядає практичніше. Не тому, що він магічно розумніший, а тому, що краще тримає форму відповіді й не так активно прикрашає картину. Для черг контролю якості, SLA-моніторингу та маршрутизації ескалацій це дуже корисна властивість.

Gemma я б не списував. У вихідному тесті прямо сказано, що розрив можна помітно скоротити промпт-тюнінгом. І я в це вірю: деякі моделі погано стартують на дефолтному промпті, але оживають, коли жорстко задаєш схему, обмеження на поля та правила калібрування числових оцінок.

Але є нюанс. Якщо вам потрібен результат зараз, без тижня танців із шаблонами, валідаторами та постобробкою, то “потенціал після налаштування” не завжди вигідний. Іноді дешевше взяти модель, яка вже на першому проході дає передбачуваний JSON і менше фантазує на операційних метриках.

Ще один важливий висновок: аудіо-емоції тут взагалі ні до чого. В обговоренні правильно уточнили, що тест був на готових транскрипціях. Я з цим згоден на рівні архітектури: визначення сентименту за текстом і за голосом — це два різні завдання, і змішувати їх в один шар не варто, якщо не хочете отримати шум замість сигналу.

У клієнтських проєктах я зазвичай розкладаю це на окремі блоки: ASR, нормалізація тексту, LLM-аналіз, валідація структури, бізнес-правила і тільки потім вивантаження в CRM або BI. Саме так artificial intelligence implementation перестає бути іграшкою і починає економити години супервайзерів, QA-команди та керівників сапорту.

Кому від такого тесту добре? Тим, хто обирає open-weight модель для локального або приватного контуру. Кому погано? Тим, хто досі обирає за хайпом в X та за чужими скріншотами з арен. В операційній діяльності такі рішення швидко мстять.

Якщо ваша підтримка вже тоне у дзвінках, а звіти збираються вручну, я б подивився на ваші реальні транскрипти та зібрав робочу схему без зайвої магії. У Nahornyi AI Lab ми якраз робимо AI solution development під такі процеси: від вибору моделі та промптів до валідації полів, інтеграції в CRM та нормальної автоматизації, яка не ламає бізнес на другому тижні.

Поділитися статтею

Twitter/X LinkedIn Telegram

Qwen3.5-27B проти Gemma4-26B на задачах кол-центру

Технічний контекст

Що це змінює для бізнесу та автоматизації

Ще новини

LFM2.5-8B-A1B: як реально позбутися зациклення

Твіт Альтмана є, а релізу поки не видно