Skip to main content
LLMself-distillationQwen

Самодистилляция без разметки: почему это важно

Появился сильный практический тезис: LLM можно быстро доучивать без размеченных данных, используя её собственные внутренние манифолды и самодистилляцию. Для бизнеса это важно как путь к более дешёвой AI automation на узких задачах, где нужна точность, а нормального датасета просто нет.

Технический контекст

Я зацепился здесь не за громкое слово, а за механику. Если тезис подтверждается, мы получаем не очередной «трюк для бенчмарка», а вполне рабочий путь для AI implementation там, где у компании нет размеченного датасета, но есть повторяемая задача и модель, которая уже «что-то понимает».

Суть в том, что модель хранит полезные алгоритмы внутри себя, но достаёт их нестабильно. В одних прогонах она попадает в правильную траекторию скрытых состояний, в других мажет. Идея самодистилляции на найденных манифолдах в том, чтобы подтолкнуть её обратно в ту внутреннюю область, где правильный ответ уже существует.

Мне здесь понравился не хайп, а скорость. В примере с Qwen на модульной арифметике модель даёт около 50% на простых операциях по mod 11, а после очень короткого дообучения поднимается до 80%+. Если это воспроизводится, то цена эксперимента смешная по сравнению с обычным supervised fine-tuning.

Технически это похоже на смесь self-distillation, pseudo-labeling и выравнивания скрытых представлений. Не обязательно иметь внешние метки: можно брать собственные лучшие ответы модели, фильтровать их верификатором, а дальше дистиллировать не только логиты, но и внутреннюю геометрию. На узких символических задачах это звучит очень правдоподобно.

Но тут я бы не продавал магию. Такой подход не создаёт знание из воздуха. Он скорее вытаскивает уже присутствующий алгоритм и делает доступ к нему стабильнее. Если базовая модель системно не умеет задачу, самодистилляция только отполирует ошибку.

Что это меняет для бизнеса и автоматизации

Первое последствие простое: дешевеет адаптация под узкие кейсы. Если у вас расчёты, классификация, нормализация, табличные проверки или внутренняя логика, где ответы можно автоматически верифицировать, AI automation можно собирать без долгой ручной разметки.

Второе: меняется AI architecture. Вместо «сначала соберём датасет на тысячи примеров» я бы смотрел на контур из генерации, проверки, отбора правильных трасс и короткого дообучения. Это быстрее, а на некоторых задачах ещё и чище по качеству.

Выиграют команды, у которых есть формализуемая проверка результата. Проиграют те, кто попытается прогнать этот же трюк на расплывчатых задачах без верификатора и без контроля качества.

Я как раз такие штуки и люблю проверять руками, а не на слайдах. Если у вас в процессах есть узкое место, где люди тратят часы на однотипные проверки, в Nahornyi AI Lab мы можем собрать AI solution development под ваш контур: найти, где модель уже «умеет», закрепить это дообучением и превратить в рабочую автоматизацию, а не в ещё один красивый демо-ролик.

Ранее мы рассматривали простую самодистилляцию — еще один метод для значительного повышения производительности моделей, особенно в генерации кода, без сложного обучения с подкреплением или верификаторов. Этот подход предлагает другой взгляд на оптимизацию AI-решений для конкретных задач.

Поделиться статьёй