Skip to main content
LLMself-distillationQwen

Самодистиляція без розмітки: чому це важливо

З'явилася сильна практична теза: LLM можна швидко донавчати без розмічених даних, використовуючи її власні внутрішні маніфолди та самодистиляцію. Для бізнесу це важливо як шлях до дешевшої AI automation на вузьких задачах, де потрібна точність, а якісного датасету просто немає.

Технічний контекст

Я зачепився тут не за гучне слово, а за механіку. Якщо теза підтверджується, ми отримуємо не черговий «трюк для бенчмарку», а цілком робочий шлях для AI implementation там, де компанія не має розміченого датасету, але є повторювана задача і модель, яка вже «щось розуміє».

Суть у тому, що модель зберігає корисні алгоритми всередині себе, але дістає їх нестабільно. В одних прогонах вона потрапляє у правильну траєкторію прихованих станів, в інших — хибить. Ідея самодистиляції на знайдених маніфолдах полягає в тому, щоб підштовхнути її назад у ту внутрішню область, де правильна відповідь уже існує.

Мені тут сподобався не хайп, а швидкість. У прикладі з Qwen на модульній арифметиці модель дає близько 50% на простих операціях за mod 11, а після дуже короткого донавчання піднімається до 80%+. Якщо це відтворюється, то ціна експерименту смішна порівняно зі звичайним supervised fine-tuning.

Технічно це схоже на суміш self-distillation, pseudo-labeling та вирівнювання прихованих представлень. Не обов’язково мати зовнішні мітки: можна брати власні найкращі відповіді моделі, фільтрувати їх верифікатором, а далі дистилювати не тільки логіти, а й внутрішню геометрію. На вузьких символічних задачах це звучить дуже правдоподібно.

Але тут я б не продавав магію. Такий підхід не створює знання з повітря. Він радше витягує вже наявний алгоритм і робить доступ до нього стабільнішим. Якщо базова модель системно не вміє вирішувати задачу, самодистиляція лише відполірує помилку.

Що це змінює для бізнесу та автоматизації

Перший наслідок простий: дешевшає адаптація під вузькі кейси. Якщо у вас є розрахунки, класифікація, нормалізація, табличні перевірки чи внутрішня логіка, де відповіді можна автоматично верифікувати, AI automation можна створювати без довгої ручної розмітки.

Друге: змінюється AI architecture. Замість «спочатку зберемо датасет на тисячі прикладів» я б дивився на контур із генерації, перевірки, відбору правильних трас та короткого донавчання. Це швидше, а на деяких задачах ще й чистіше за якістю.

Виграють команди, у яких є формалізована перевірка результату. Програють ті, хто спробує застосувати цей трюк на розмитих задачах без верифікатора та контролю якості.

Я саме такі штуки й люблю перевіряти руками, а не на слайдах. Якщо у ваших процесах є вузьке місце, де люди витрачають години на однотипні перевірки, в Nahornyi AI Lab ми можемо зібрати AI solution development під ваш контур: знайти, де модель вже «вміє», закріпити це донавчанням і перетворити на робочу автоматизацію, а не на ще один красивий демо-ролик.

Раніше ми розглядали просту самодистиляцію — ще один метод для значного підвищення продуктивності моделей, особливо в генерації коду, без складного навчання з підкріпленням чи верифікаторів. Цей підхід пропонує інший погляд на оптимізацію впровадження AI для конкретних завдань.

Поділитися статтею