Skip to main content
DeepSeekRaspberry PiAI automation

DeepSeek Flash auf dem Raspberry Pi ist kein Scherz

Ein aufsehenerregender Fall des Starts von DeepSeek 4 Flash auf einem Raspberry Pi 8GB mit SSD ist aufgetaucht, aber bisher ist es eher ein starkes R&D-Signal als ein fertiges Produktionsrezept. Für KI-Automatisierung ist das wichtig wegen autonomer Geräte ohne Internet und hybrider Setups mit einem lokalen intelligenten Orchestrator und skalierbaren Architekturen.

Technischer Kontext

Mich hat nicht der Wow-Effekt gepackt, sondern die architektonische Idee: KI-Implementierung lässt sich jetzt nicht nur in der Cloud, sondern auch auf billigster Hardware diskutieren. In der Diskussion wurde gezeigt, wie DeepSeek 4 Flash auf einem Raspberry Pi 8GB mit SSD läuft, wobei die Modellgewichte tatsächlich auf einem schnellen Flash-Speicher basieren und nicht versuchen, komplett im RAM zu residieren.

Und genau da habe ich innegehalten. Nach öffentlich zugänglichen Daten ist eine normale, wenn auch nicht rekordverdächtige Basis für einen Pi 5 eher DeepSeek R1 1.5B oder 7B in quantisierter Form über Ollama und nicht irgendein Frontiermonster frontal. Für speziell V4 Flash auf dem Pi sehe ich keine verlässlich reproduzierbaren Messungen, nur eine Behauptung in einem X-Post ohne klaren Benchmark.

Das Konzept ist also plausibel: NVMe über PCIe, Gewichte auf SSD, aktiver Arbeitsspeicher im RAM, starke Abhängigkeit von Bandbreite und Kühlung. Aber das mit Magie zu verwechseln, wäre falsch. Flash ersetzt hier nicht den RAM, sondern erweitert die Grenze dessen, was überhaupt ausgeführt werden kann, wenn auch langsam.

Schaut man sich bereits bestätigte Zahlen an, schafft ein Raspberry Pi 5 typischerweise etwa 6-9 Tok/s für das 1.5B-Modell und rund 1,4-3 Tok/s für das 7B-Modell. Für viele Dialog-Szenarien ist das schmerzhaft langsam. Für einen lokalen Orchestrator, der nicht plaudert, sondern seltene Entscheidungen trifft, sieht die Sache jedoch ganz anders aus.

Besonders gefallen hat mir das Schema: Kleine lokale Agenten erledigen schnelle Dinge im Speicher, während ein langsameres, aber klügeres Gehirn obendrauf sitzt und nur dann eingreift, wenn eine komplexe Wahl ansteht. Das wirkt schon weniger wie Spielzeug und mehr wie eine richtige KI-Architektur.

Auswirkungen auf Geschäft und Automatisierung

Dieses Setup macht APIs nicht überflüssig. Aber in Szenarien ohne Internet, mit strengen Datenschutzanforderungen oder wenn Autonomie auf Geräteebene gefragt ist, wirkt lokale KI-Automatisierung plötzlich sehr praktisch.

Wer profitiert: Industriesensoren, Feldgeräte, Agrarautomatisierung, Laboraufbauten, jegliche Edge-Szenarien mit seltenen, aber folgenreichen Entscheidungen. Wer verliert: Chat-Schnittstellen mit dauerndem Dialog und alles, was schnelle Echtzeit-Generierung erfordert.

Ich möchte noch einen wichtigen Kostenaspekt ergänzen. Manchmal ist es günstiger, ein langsames lokales Gehirn vor Ort zu halten und nur Ereignisse nach außen zu senden, als ständig für eine API zu zahlen und von Netzwerk, SLA und Anbieterpolitik abhängig zu sein.

Aber das ist nichts, was man an einem Abend zusammenschustern und als fertig betrachten kann. Es erfordert, Orchestrierung, Speichermanagement, Degradationsszenarien, Energieverbrauch und Fallback-Logik sorgfältig aufzubauen. Genau das tun wir bei Nahornyi AI Lab für unsere Kunden: Wenn bei Ihnen ein Gerät oder Prozess ansteht, das eine autonome Integration künstlicher Intelligenz ohne ständige Cloud-Anbindung braucht, würde ich an Ihrer Stelle schon prüfen, ob Sie das in ein hybrides Setup mit Vadym Nahornyi überführen können, während die Konkurrenz noch darüber streitet, ob 2 Token pro Sekunde ausreichen.

Wir haben zuvor den Versuch analysiert, Codex 5.2 auf dem Raspberry Pi auszuführen, und kamen zu dem Schluss, dass solche Demonstrationen ohne durchdachte Architektur Mythen bleiben. Diese Erfahrung lässt sich direkt auf die aktuelle Herausforderung mit DeepSeek 4 Flash übertragen, wo 'souveräne KI mit Batterien' ähnliche Hardware- und Integrationskompromisse erfordert.

Diesen Artikel teilen