Skip to main content
interpretabilityLLMmodular-arithmetic

Warum LLMs im Kreis denken

Transformer, die modulare Arithmetik lernen, entwickeln spontan kreisförmige, uhrenähnliche Darstellungen. Für Unternehmen ist dies keine bloße Interpretierbarkeits-Kuriosität, sondern eine wichtige Erkenntnis. Es zeigt, dass eine effektive KI-Implementierung auf dem Verständnis der optimalen internen Strukturen beruht, die Modelle selbst entdecken, um robuster zu werden.

Der technische Kontext

Ich liebe solche Erkenntnisse aus dem Bereich der Interpretierbarkeit, denn sie relativieren den ganzen Hype um die „Magie“ der Modelle. Das Bild hier ist ziemlich bodenständig: Bei Aufgaben wie x + y mod p muss ein Transformer keine Tabelle auswendig lernen; er kann eine kompaktere Art der Kodierung finden, und das ist eben die Kreisgeometrie. Für mich ist das ein direkter Hinweis darauf, warum eine vernünftige KI-Integration die interne Mechanik des Modells berücksichtigen muss und nicht nur die schicke Oberfläche.

Vereinfacht gesagt lassen sich die Reste modulo als Punkte auf einem Kreis anordnen: Kosinus und Sinus für jeden Wert. Dann wird die modulare Addition fast zu einer Drehung um den entsprechenden Winkel. Das heißt, das Modell „erinnert“ sich nicht an die Antwort, sondern dreht praktisch einen Zeiger auf einem internen Zifferblatt.

Und hier würde ich nicht voreilig behaupten, dass es einfach nur Text aus dem Datensatz wiederholt. Mechanistische Arbeiten zur modularen Addition und zum „Grokking“ zeigen, dass der Kreis in den Aktivierungen und im Embedding-Raum als eine effiziente Berechnungsstruktur entsteht. Dies wird durch PCA, SVD und insbesondere durch die Analyse im Fourier-Raum sichtbar, wo die erforderlichen Frequenzen zu dominieren beginnen.

Besonders gefällt mir die Beobachtung über mehrere „Zifferblätter“. Das ist wie ein Ensemble von Darstellungen: Das Modell unterhält nicht einen Kreis, sondern mehrere Frequenzprojektionen desselben Wertes. Wenn sie übereinstimmen, ist die Konfidenz höher. Und ja, das ist keine Metapher mehr auf dem Niveau von „na ja, wie eine Uhr“, sondern eine funktionale Beschreibung, wie das Netzwerk eine stabile Antwort konstruiert.

Eine wichtige Nuance: Die Nachricht an sich ist nicht neu, sondern eher ein guter Anlass, auf die Ergebnisse von 2024-2026 zu Grokking und modularer Arithmetik zurückzublicken. Aber genau solche Rückblicke halte ich für nützlich, weil sie erklären, warum ein Modell manchmal von selbst einen besseren Algorithmus findet, als wir ihn manuell einprogrammieren würden.

Auswirkungen auf Unternehmen und Automatisierung

Meine praktische Schlussfolgerung ist einfach. Wenn ein Modell in der Lage ist, spontan die kompakte Geometrie einer Aufgabe zu finden, ist es bei der KI-Automatisierung nicht immer vorteilhaft, es bei jedem Schritt mit starren Regeln zu erdrücken. Manchmal ist es besser, der Architektur Raum zu geben, um die richtige interne Darstellung zu lernen, und das System erst dann mit Validierungen zu versehen.

Es gewinnen die Teams, die Pipelines bauen, die interne Signale überprüfen und nicht nur die endgültige Genauigkeit. Es verlieren diejenigen, die LLMs als Blackbox betrachten und sich über seltsame Ausfälle bei Grenzfällen wundern.

Wir bei Nahornyi AI Lab lösen solche Probleme in der Praxis: Wo geben wir dem Modell Freiheit und wo fixieren wir die Logik durch externe Werkzeuge, Retrieval oder Regeln. Wenn Ihre KI-Lösungsentwicklung an der Unvorhersehbarkeit des Modells scheitert, können wir die Aufgabe auf Architekturebene analysieren und ein System aufbauen, das im realen Prozess stabil arbeitet, anstatt nur zu „raten“. Genau hier können Vadym Nahornyi und das Nahornyi AI Lab helfen – ohne Magie, sondern mit solider Ingenieurskunst.

Wir haben bereits untersucht, wie die Analyse von LLM-Graphen hilft, ihre 'erweiterten Denkprozesse' zu verstehen und die Architektur zu optimieren. Dies ergänzt unser aktuelles Verständnis davon, wie Modelle interne Darstellungen für abstrakte Konzepte wie modulare Arithmetik bilden können.

Diesen Artikel teilen