Gemma 4 26B auf MLX beschleunigt auf 115 Token/s

Ein starker Benchmark für Gemma 4 26B-A4B-it-mlx-lm-4bit ist aufgetaucht: rund 115 Token/s auf Apple MLX. Für Unternehmen ist dies wichtig, da die KI-Automatisierung und die lokale Inferenz großer Modelle wirklich schnell werden, ohne die Notwendigkeit von Cloud-Diensten und den damit verbundenen Latenzzeiten.

Technischer Kontext

Die Zahl 115 tok/sec hat mich nicht wegen eines schönen Screenshots beeindruckt, sondern weil sie eine realistische Arbeitsgeschwindigkeit für AI automation auf einem Mac darstellt und nicht nur eine Laborattraktion ist. Es geht um gemma-4-26B-A4B-it-mlx-lm-4bit, ein 26B MoE-Modell (Mixture-of-Experts), bei dem pro Token etwa 4B Parameter aktiv sind.

Das ist ein entscheidender Punkt. Auf dem Papier ist das Modell groß, aber in der Praxis ist die Inferenzlast deutlich geringer als bei einem dichten 26B- oder 30B-Modell. Deshalb erscheint die Kombination aus Gemma 4 und MLX auf Apple Silicon jetzt nicht mehr wie ein Kompromiss, sondern wie eine durchaus praktische KI-Integration für lokale Szenarien.

Einen offiziellen Benchmark von Google für genau dieses Setup habe ich nicht gesehen. Die Quelle ist hier im Wesentlichen die Community: MLX-LM, ein 4-Bit-Build für Apple, Optimierungen wie TurboQuant und Messungen von Leuten, die es live auf M-Serien-Chips laufen lassen. Ein wichtiger Teil der Nachricht ist, dass 115 tok/sec deutlich höher ist als das, was viele zuvor durch umständliche Pipelines oder Fallback-Modi gesehen haben.

Und hier würde ich nicht alles in einen Topf werfen. Ollama, llama.cpp, rohes MLX-LM, Kontextlänge, Prefill und Decode liefern sehr unterschiedliche Zahlen. Wenn jemand 2 tok/sec bei einem 26B MoE gesehen und entschieden hat, das Modell sei „lokal nicht lauffähig“, beweist dieser Benchmark das Gegenteil: Das Problem lag oft nicht am Modell, sondern am Stack.

Ein weiterer praktischer Punkt: Die 4-Bit-MLX-Variante passt in etwa 14 GB, aber für einen reibungslosen Betrieb benötigt man dennoch einen Puffer an Unified Memory. Mit 24 GB kann man bereits schmerzfrei experimentieren, und auf High-End-M-Chips wird dies zu einer wirklich komfortablen lokalen Inferenz ohne Cloud, mit gutem Kontext und ohne ewiges Warten auf eine Antwort.

Was bedeutet das für Unternehmen und Automatisierung?

Für mich ist die Schlussfolgerung einfach: Lokale Agenten auf dem Mac sind kein Spielzeug mehr. Wenn ein Modell diese Decode-Geschwindigkeit wirklich halten kann, kann ich private Pipelines für Dokumente, Support, interne Suche und Analysen erstellen, ohne Daten zwangsläufig nach außen senden zu müssen.

Gewinner sind Teams, denen Geschwindigkeit, Datenschutz und vorhersehbare Kosten wichtig sind. Verlierer sind in erster Linie Cloud-Szenarien, in denen kleine Anfragen aus reiner Gewohnheit über eine teure externe API abgewickelt werden.

Aber es gibt einen Haken, den ich regelmäßig in Kundenprojekten sehe: Ein schneller Benchmark allein bedeutet noch kein gutes System. Man braucht eine richtige KI-Architektur, Aufgaben-Routing, Kontextmanagement, Caching und ein Verständnis dafür, wo ein lokales Modell stark ist und wo es besser ist, einen externen Dienst anzubinden. Bei Nahornyi AI Lab bauen wir genau solche Dinge für reale Prozesse und nicht für schöne Demos.

Wenn bei Ihnen bereits eine AI implementation ohne Cloud-Abhängigkeit ansteht, würde ich einen nüchternen Blick auf Ihren Stack empfehlen: Was kann lokalisiert werden, wo können Latenzen reduziert werden und wie lässt sich daraus eine funktionierende Automatisierung zusammenbauen? Bei Nahornyi AI Lab fange ich normalerweise genau damit an, denn Vadym Nahornyi verkauft ungern Magie, wo ein Unternehmen einfach ein zuverlässiges Ergebnis braucht.

Diese beeindruckende Geschwindigkeit und Effizienz, die oft durch fortschrittliche Techniken wie die 4-Bit-Quantisierung erreicht wird, unterstreicht die entscheidende Rolle einer durchdachten Konfiguration bei KI-Implementierungen. Zuvor haben wir untersucht, wie man die KI-Architektur für Ergebnisse in der Geschäftsautomatisierung optimiert, wobei wir die Notwendigkeit betonten, spezifische Modelleigenschaften zu verstehen und Betriebskosten zu verwalten.

Diesen Artikel teilen

Twitter/X LinkedIn Telegram

Gemma 4 26B auf MLX beschleunigt auf 115 Token/s

Technischer Kontext

Was bedeutet das für Unternehmen und Automatisierung?

Weitere News

Qwen 3.6 27B und 51 tok/s: Jetzt wird es ernst

Der ASUS Ascent GX10 ist plötzlich sehr interessant geworden