Skip to main content
interpretabilityLLMmodular-arithmetic

Чому LLM рахує по колу

Трансформери в задачах модульної арифметики справді спонтанно приходять до кругових представлень, схожих на циферблат. Для бізнесу це не іграшка з interpretability, а сигнал: ефективне впровадження AI часто спирається на внутрішні структури, які модель сама знаходить як оптимальний алгоритм для себе.

Технічний контекст

Я люблю такі знахідки з interpretability, тому що вони добре протверезжують увесь гайп навколо «магії» моделей. Тут картина доволі земна: у задачах на кшталт x + y mod p трансформер не зобов'язаний зубрити таблицю, він може знайти компактніший спосіб кодування, і це якраз кругова геометрія. Для мене це прямий натяк, чому нормальна AI integration має враховувати внутрішню механіку моделі, а не лише гарний інтерфейс зверху.

Якщо спростити, залишки за модулем розкладаються як точки на колі: cos і sin для кожного значення. Далі додавання за модулем перетворюється майже на поворот на потрібний кут. Тобто модель фактично не «пам'ятає відповідь», а крутить стрілку на внутрішньому циферблаті.

І тут я б не поспішав казати, що вона просто повторила текст із датасету. Механістичні роботи з modular addition та grokking показують, що коло з'являється в активаціях та embedding space як зручна обчислювальна структура. Це видно через PCA, SVD і особливо через аналіз у Fourier space, де починають домінувати потрібні частоти.

Мені особливо подобається спостереження про кілька «циферблатів». Це схоже на ансамбль представлень: модель тримає не одне коло, а кілька частотних проєкцій одного й того ж значення. Коли вони сходяться, впевненість вища. І так, це вже не метафора рівня «ну, ніби годинник», а цілком робочий опис того, як мережа збирає стійку відповідь.

Важливий нюанс: новина сама по собі не нова, це скоріше гарний привід повернутися до результатів 2024-2026 років щодо grokking та modular arithmetic. Але саме такі ретроспективи я вважаю корисними, бо вони пояснюють, чому модель іноді сама знаходить алгоритм кращий, ніж ми б зашили вручну.

Вплив на бізнес та автоматизацію

Практичний висновок у мене простий. Якщо модель вміє спонтанно знаходити компактну геометрію задачі, то в AI automation не завжди вигідно душити її жорсткими правилами на кожному кроці. Іноді краще дати архітектурі простір для навчання правильного внутрішнього представлення, а потім вже обвішувати систему валідацією.

Виграють команди, які будують пайплайни з перевіркою внутрішніх сигналів, а не лише підсумкового accuracy. Програють ті, хто дивиться на LLM як на чорну скриньку і дивується дивним збоям на межових кейсах.

Ми в Nahornyi AI Lab вирішуємо такі речі на практиці: де залишити моделі свободу, а де зафіксувати логіку зовнішніми інструментами, retrieval або правилами. Якщо розробка вашого AI-рішення впирається в непередбачуваність моделі, можна спокійно розібрати задачу на рівні архітектури та зібрати систему так, щоб вона не «вгадувала», а стабільно працювала в реальному процесі. Це саме той випадок, де Вадим Нагорний та Nahornyi AI Lab можуть допомогти без магії, просто якісною інженерією.

Ми вже досліджували, як аналіз графів LLM допомагає зрозуміти процеси їхнього «розширеного мислення» та оптимізувати архітектуру. Це доповнює наше поточне розуміння того, як моделі можуть формувати внутрішні представлення для таких абстрактних концепцій, як модулярна арифметика.

Поділитися статтею