Skip to main content
interpretabilityLLMmodular-arithmetic

Почему LLM считает по кругу

Трансформеры в задачах модульной арифметики действительно спонтанно приходят к круговым представлениям, похожим на циферблат. Для бизнеса это не игрушка из interpretability, а сигнал: AI implementation часто опирается на внутренние структуры, которые модель сама находит как более оптимальный алгоритм.

Технический контекст

Я люблю такие находки из interpretability, потому что они хорошо отрезвляют весь хайп вокруг «магии» моделей. Здесь картина довольно земная: в задачах вроде x + y mod p трансформер не обязан зубрить таблицу, он может найти более компактный способ кодирования, и это как раз круговая геометрия. Для меня это прямой намек, почему нормальная AI integration должна учитывать внутреннюю механику модели, а не только красивый интерфейс сверху.

Если упростить, остатки по модулю раскладываются как точки на окружности: cos и sin для каждого значения. Дальше сложение по модулю превращается почти в поворот на нужный угол. То есть модель фактически не «помнит ответ», а крутит стрелку на внутреннем циферблате.

И вот здесь я бы не спешил говорить, что она просто повторила текст из датасета. Механистические работы по modular addition и grokking показывают, что круг появляется в активациях и embedding space как удобная вычислительная структура. Это видно через PCA, SVD и особенно через анализ в Fourier space, где начинают доминировать нужные частоты.

Мне особенно нравится наблюдение про несколько «циферблатов». Это похоже на ансамбль представлений: модель держит не один круг, а несколько частотных проекций одного и того же значения. Когда они сходятся, уверенность выше. И да, это уже не метафора уровня «ну типа часы», а вполне рабочее описание того, как сеть собирает устойчивый ответ.

Важный нюанс: новость сама по себе не новая, это скорее хороший повод вернуться к результатам 2024-2026 по grokking и modular arithmetic. Но именно такие ретроспективы я считаю полезными, потому что они объясняют, почему модель иногда сама находит алгоритм лучше, чем мы бы зашили вручную.

Влияние на бизнес и автоматизацию

Практический вывод у меня простой. Если модель умеет самопроизвольно находить компактную геометрию задачи, то в AI automation не всегда выгодно душить ее жесткими правилами на каждом шаге. Иногда лучше дать архитектуре пространство для обучения правильного внутреннего представления, а потом уже обвешивать систему валидацией.

Выигрывают команды, которые строят пайплайны с проверкой внутренних сигналов, а не только итогового accuracy. Проигрывают те, кто смотрит на LLM как на черный ящик и удивляется странным сбоям на пограничных кейсах.

Мы в Nahornyi AI Lab решаем такие вещи на практике: где оставить модели свободу, а где зафиксировать логику внешними инструментами, retrieval или правилами. Если у вас AI solution development упирается в непредсказуемость модели, можно спокойно разобрать задачу на уровне архитектуры и собрать систему так, чтобы она не «угадывала», а стабильно работала в реальном процессе. Это как раз тот случай, где Vadym Nahornyi и Nahornyi AI Lab могут помочь без магии, просто нормальной инженерией.

Мы уже исследовали, как анализ графов LLM помогает понять их «расширенное мышление» и оптимизировать архитектуру. Это дополняет наше текущее понимание того, как модели могут формировать внутренние представления для абстрактных концепций, таких как модулярная арифметика.

Поделиться статьёй