Технический контекст
Я сходил в новую часть работы Николая Юдина про manifold features и залип не на красивых картинках, а на более неприятной мысли: похоже, многие геометрические эффекты действительно переживают смену архитектуры. Для тех, кто делает AI implementation, это не абстракция. Это прямой намёк, что часть поведения модели можно ловить и использовать до того, как она сломает продовый пайплайн.
Во второй части автор разбирает четыре алгоритма, а в обсуждении сразу полезли репликации на toy Mamba-2 и Kimi Linear. Мне особенно понравился момент, где div-геометрия у Mamba-подобной реализации вылезает уже на SSM output, ещё до gate, norm и out projection. Для add картина другая: там сигнал, похоже, собирается не одной простой окружностью, а смесью частот.
Вот это уже интересно не только исследователям. Если одинаковые паттерны проявляются в Transformer, Mamba и линейных вариациях, то разговор смещается с “какая архитектура победит” на “где именно кодируется признак и как рано его можно вытащить”. И да, сам автор в треде прямо пишет: архитектура не важна, это работает везде.
Ещё один сильный кусок в обсуждении, который я бы не пропускал, это наблюдение про “податливость” моделей к конфликтующим знаниям. Старый Qwen оказался более внушаемым, GPT-3.5 стабильнее, Llama тоже проваливалась. То есть manifold features здесь уже стыкуются не только с интерпретируемостью, но и с темой self-improvement без разметки, подмешивания знаний и устойчивости внутренней памяти.
Влияние на бизнес и автоматизацию
Для прикладных команд вывод простой: я бы смотрел на такие работы как на инструмент дебага, а не как на ещё одну красивую теорию. Если я могу раньше увидеть, где в слое рождается нужный признак, я точнее проектирую AI architecture, фильтры, проверки и дешёвые проберы вместо слепого дообучения.
Выигрывают те, кто строит сложные пайплайны с несколькими моделями, особенно где важны надёжность и объяснимость. Проигрывают те, кто всё ещё верит, что достаточно “просто взять модель получше” и она магически решит проблемы с памятью, bias и нестабильным выводом.
Мы в Nahornyi AI Lab такие вещи как раз приземляем в рабочие сценарии: где поставить интерпретационный зонд, когда лучше не трогать веса вообще и как собрать automation with AI без лишних расходов на переобучение. Если у вас модель ведёт себя странно, а прод уже дышит в затылок, давайте разберём архитектуру и соберём AI solution development под ваш реальный поток задач, а не под чужую демку.