Skip to main content
интерпретируемостьLLMmanifold-features

Manifold features: 4 алгоритма без магии

Вышла новая часть работы Николая Юдина про manifold features с разбором четырёх алгоритмов и сравнением геометрии внутри разных архитектур. Для бизнеса это важно не как академика, а как база для более надёжной AI automation, диагностики моделей и аккуратной AI integration.

Технический контекст

Я сходил в новую часть работы Николая Юдина про manifold features и залип не на красивых картинках, а на более неприятной мысли: похоже, многие геометрические эффекты действительно переживают смену архитектуры. Для тех, кто делает AI implementation, это не абстракция. Это прямой намёк, что часть поведения модели можно ловить и использовать до того, как она сломает продовый пайплайн.

Во второй части автор разбирает четыре алгоритма, а в обсуждении сразу полезли репликации на toy Mamba-2 и Kimi Linear. Мне особенно понравился момент, где div-геометрия у Mamba-подобной реализации вылезает уже на SSM output, ещё до gate, norm и out projection. Для add картина другая: там сигнал, похоже, собирается не одной простой окружностью, а смесью частот.

Вот это уже интересно не только исследователям. Если одинаковые паттерны проявляются в Transformer, Mamba и линейных вариациях, то разговор смещается с “какая архитектура победит” на “где именно кодируется признак и как рано его можно вытащить”. И да, сам автор в треде прямо пишет: архитектура не важна, это работает везде.

Ещё один сильный кусок в обсуждении, который я бы не пропускал, это наблюдение про “податливость” моделей к конфликтующим знаниям. Старый Qwen оказался более внушаемым, GPT-3.5 стабильнее, Llama тоже проваливалась. То есть manifold features здесь уже стыкуются не только с интерпретируемостью, но и с темой self-improvement без разметки, подмешивания знаний и устойчивости внутренней памяти.

Влияние на бизнес и автоматизацию

Для прикладных команд вывод простой: я бы смотрел на такие работы как на инструмент дебага, а не как на ещё одну красивую теорию. Если я могу раньше увидеть, где в слое рождается нужный признак, я точнее проектирую AI architecture, фильтры, проверки и дешёвые проберы вместо слепого дообучения.

Выигрывают те, кто строит сложные пайплайны с несколькими моделями, особенно где важны надёжность и объяснимость. Проигрывают те, кто всё ещё верит, что достаточно “просто взять модель получше” и она магически решит проблемы с памятью, bias и нестабильным выводом.

Мы в Nahornyi AI Lab такие вещи как раз приземляем в рабочие сценарии: где поставить интерпретационный зонд, когда лучше не трогать веса вообще и как собрать automation with AI без лишних расходов на переобучение. Если у вас модель ведёт себя странно, а прод уже дышит в затылок, давайте разберём архитектуру и соберём AI solution development под ваш реальный поток задач, а не под чужую демку.

Идея использования существующей логики системы и внутренних возможностей для обучения моделей без больших объемов размеченных данных вызывает всё больший интерес. Этот подход перекликается с такими методами, как Simple Self-Distillation for Code Generation, который направлен на улучшение производительности модели за счёт её собственных знаний, а не за счёт сложного внешнего контроля или верификаторов.

Поделиться статьёй