Simple Self-Distillation для кодовых LLM

На arXiv вышла работа про Simple Self-Distillation: кодовые LLM улучшают обычным SFT на собственных сырых ответах, без RL, учителей и верификаторов. Для бизнеса это важно, потому что порог входа в улучшение кодогенерации и ИИ автоматизации резко снижается.

Что именно показали в работе

Я сначала споткнулся о пересказ новости: метод приписали Apple, но первоисточник другой. Речь про arXiv-работу Embarrassingly Simple Self-Distillation Improves Code Generation, опубликованную 1 апреля 2024 года. И вот это, честно, даже интереснее, чем бренд на обложке.

Суть почти нагло простая. Берём модель, просим её сэмплировать собственные решения задач с определёнными настройками декодинга, а потом дообучаем её на этих же сырых, непроверенных ответах через обычный supervised fine-tuning. Без RL, без верификаторов, без teacher model, без всей той инфраструктуры, на которой обычно сгорают недели.

Я как человек, который регулярно собирает архитектура ИИ-решений для прикладных кейсов, на таких идеях обычно настораживаюсь. Слишком просто звучит. Но цифры тут неприятно убедительные: у Qwen3-30B-Instruct на LiveCodeBench v6 pass@1 вырос с 42.4% до 55.3%.

И самое вкусное не в среднем приросте, а в том, где он сидит. Авторы пишут, что усиление заметнее на сложных задачах. То есть метод не просто полирует лёгкие примеры, а реально помогает там, где модель раньше разваливалась по ходу решения.

Работа проверена не на одной случайной модели. Метод показали на семействах Qwen и Llama в размерах 4B, 8B и 30B, включая instruct и thinking-варианты. Это уже похоже не на трюк под один чекпойнт, а на что-то, что можно пробовать как повторяемый посттрейнинг-приём.

Техническое объяснение тоже любопытное. Авторы связывают эффект с конфликтом между точностью и исследованием при декодинге: где-то модели надо жёстче подавлять мусорный хвост распределения, а где-то сохранять разнообразие. SSD как будто подправляет это поведение контекстно, и модель потом стабильнее выбирает полезную траекторию генерации кода.

Почему я бы смотрел на это как на прикладной инструмент

Если отбросить академическую мишуру, сигнал очень практичный. Чтобы улучшить кодогенерацию, больше не обязательно городить тяжёлый RL-контур, тащить внешнюю проверку и строить целый зоопарк из reward-моделей. Во многих сценариях достаточно нормального пайплайна данных, аккуратного SFT и дисциплины в экспериментах.

Для бизнеса это меняет экономику. Если вы делаете ИИ решения для бизнеса, где модель пишет SQL, glue-код, тесты, интеграционные скрипты или куски backend-логики, такой подход снижает стоимость итерации. А значит, внедрение искусственного интеллекта становится не только быстрее, но и менее болезненным для команды.

Кто выигрывает? Команды с собственной предметной кодовой базой и понятным форматом задач. Они могут собрать self-generated датасет на своём домене и получить прирост без магии. Особенно там, где нужен не идеальный research-grade агент, а надёжный помощник внутри продукта или внутренней разработки.

Кто проигрывает? Те, кто надеялся, что достаточно просто взять базовую модель и воткнуть её в IDE. Эта работа ещё раз показывает: качество в проде рождается не из выбора модного чекпойнта, а из того, как вы делаете ИИ интеграцию, какие данные подаёте и как валидируете результат на своём контуре.

Я бы ещё не делал из SSD серебряную пулю. Сырые собственные ответы модели могут закреплять и её ошибки, если домен узкий или токсично смещённый. Поэтому в реальном проекте я бы ставил это рядом с нормальной evaluation-матрицей: offline-бенч, golden set, доменные тесты, контроль деградации по типам задач.

Мы в Nahornyi AI Lab как раз с такими штуками и работаем: не обсуждаем абстрактный AGI, а собираем прикладные пайплайны, где важны стоимость, повторяемость и контроль качества. Если метод вроде SSD позволяет сделать ИИ автоматизацию проще и дешевле, я на это смотрю очень серьёзно.

Где я бы применял это уже сейчас

Первый кандидат, который я вижу, это внутренние кодовые ассистенты под конкретный стек компании. Второй, генерация интеграционного кода для CRM, ERP, API-шлюзов и n8n-сценариев. Третий, узкие инженерные агенты, которым нужно не философствовать, а стабильно собирать рабочие куски логики.

Я, Вадим Нагорный из Nahornyi AI Lab, разбираю такие вещи не как наблюдатель, а как человек, который потом это превращает в рабочую систему. Если хотите обсудить ваш кейс, сделать ИИ автоматизацию, создать ИИ агента или заказать n8n автоматизацию под ваш процесс, пишите мне. Посмотрим, где тут реально нужен кастомный посттрейнинг, а где хватит умной сборки пайплайна.

Поделиться статьёй

Twitter/X LinkedIn Telegram

Simple Self-Distillation для кодовых LLM

Что именно показали в работе

Почему я бы смотрел на это как на прикладной инструмент

Где я бы применял это уже сейчас

Ещё новости

LFM2.5-8B-A1B: что реально помогает от циклов

Твит Альтмана есть, а релиза пока не видно