Технічний контекст
Я заглибився в нову частину роботи Миколи Юдіна про manifold features і «залип» не на красивих картинках, а на більш неприємній думці: схоже, багато геометричних ефектів справді переживають зміну архітектури. Для тих, хто займається AI implementation, це не абстракція. Це прямий натяк, що частину поведінки моделі можна ловити та використовувати до того, як вона зламає продакшн-пайплайн.
У другій частині автор розбирає чотири алгоритми, а в обговоренні одразу з'явилися реплікації на toy Mamba-2 та Kimi Linear. Мені особливо сподобався момент, де div-геометрія у Mamba-подібної реалізації вилазить вже на SSM output, ще до gate, norm та out projection. Для add картина інша: там сигнал, схоже, збирається не одним простим колом, а сумішшю частот.
Ось це вже цікаво не лише дослідникам. Якщо однакові патерни проявляються у Transformer, Mamba та лінійних варіаціях, то розмова зміщується з “яка архітектура переможе” на “де саме кодується ознака і як рано її можна витягти”. І так, сам автор у треді прямо пише: архітектура не важлива, це працює скрізь.
Ще один сильний фрагмент в обговоренні, який я б не пропускав, це спостереження про “податливість” моделей до конфліктних знань. Старий Qwen виявився більш вразливим, GPT-3.5 стабільнішим, Llama теж провалювалася. Тобто manifold features тут уже пов'язані не тільки з інтерпретованістю, а й з темою self-improvement без розмітки, підмішування знань та стійкості внутрішньої пам'яті.
Вплив на бізнес та автоматизацію
Для прикладних команд висновок простий: я б дивився на такі роботи як на інструмент дебагу, а не як на ще одну красиву теорію. Якщо я можу раніше побачити, де в шарі народжується потрібна ознака, я точніше проєктую AI architecture, фільтри, перевірки та дешеві проби замість сліпого донавчання.
Виграють ті, хто будує складні пайплайни з кількома моделями, особливо де важливі надійність та пояснюваність. Програють ті, хто все ще вірить, що достатньо “просто взяти кращу модель” і вона магічно вирішить проблеми з пам'яттю, упередженнями та нестабільним висновком.
Ми в Nahornyi AI Lab такі речі якраз приземляємо в робочі сценарії: де поставити інтерпретаційний зонд, коли краще не чіпати ваги взагалі і як зібрати automation with AI без зайвих витрат на перенавчання. Якщо у вас модель поводиться дивно, а прод уже дихає в потилицю, давайте розберемо архітектуру та створимо AI solution development під ваш реальний потік завдань, а не під чужу демку.