13. Juni 20263 Min. Lesezeit

autoresearch: Wenn das Modell einen ML-Ingenieur anheuert

autoresearchML engineeringAI automation

Andrej Karpathy zeigte autoresearch, eine Open-Source-Schleife, in der das Modell seinen eigenen Code bearbeitet, kurze Trainingsläufe startet, Ergebnisse misst und schlechte Ideen zurückrollt. Für Unternehmen ist dies eine frühe, aber sehr praktische Blaupause für KI-Automatisierung im ML-Engineering, die Routineexperimente beschleunigt.

Technischer Kontext

Ich mag solche Dinge nicht wegen des Hypes, sondern wegen der Form des Zyklus. Im autoresearch hat Karpathy einen sehr bodenständigen Kreislauf zusammengestellt: Der Agent liest das Repository und program.md, ändert das Trainingsskript, führt einen kurzen Lauf durch, schaut auf die Metrik und übernimmt entweder die Änderung oder setzt sie per Git zurück.

Im Grunde ist das kein „Code-Assistent“ mehr, sondern eine Vorlage für KI-Automatisierung für ein ML-Team. Der Mensch gibt Ziel und Einschränkungen vor, und das Modell übernimmt den mechanischen Teil der KI-Implementierung: Hypothese, Änderung, Ausführung, Überprüfung, Rollback.

Was mich hier besonders gereizt hat, ist, dass die Steuerungsoberfläche kein schweres Dashboard ist, sondern eine Markdown-Spezifikation. Man greift nicht jedes Mal manuell in die train.py ein, sondern beschreibt, was als Erfolg gilt, was angerührt werden darf, welches Budget das Experiment hat und wie das Journal geführt wird.

Der aktuelle öffentliche Kreislauf ist recht starr: ein kurzes Budget von etwa 5 Minuten pro Lauf, die Hauptmetrik ist val_bpb, wobei niedriger besser ist, und der Vergleich findet unter identischen Bedingungen statt. Das ist wichtig: Der Agent „trainiert nicht magisch ein Modell“, sondern variiert Änderungen innerhalb eines formalisierten Sandkastens.

Den veröffentlichten Ergebnissen zufolge wirkt die Idee nicht als ein großer Sprung, sondern als eine Reihe kleiner Treffer. Dutzende oder Hunderte von Läufen ergeben einige echte Verbesserungen, und genau diese treiben im Laufe der Zeit die Qualität oder Trainingsgeschwindigkeit voran.

Und ja, Nebenmetriken können dabei leicht absacken. Wenn man einen KPI optimiert, drückt der Agent genau dort hin. Ohne vernünftige Schutzplanken findet ein solches System daher ebenso schnell ein schlechtes lokales Maximum wie einen guten Zug.

Was das für Geschäft und Automatisierung verändert

Der erste Effekt ist einfach: Der Experimentierzyklus wird billiger. Wenn Ihr Team Stunden mit eintönigen Läufen verbringt, kann dieses Muster als innerer Regelkreis der KI-Integration in die F&E eingebettet werden, und die Leute kümmern sich um das Experimentdesign statt um Routine.

Der zweite Punkt betrifft die Architektur. Gewinnen werden die, die das Training in kurze, messbare Iterationen mit einer klaren Metrik zerlegen. Verlieren werden Projekte, bei denen alles an langen Läufen, schwammigen KPIs und mündlichen Absprachen im Chat hängt.

Die dritte Nuance erscheint mir am wichtigsten: Das ist kein Ersatz für den ML-Ingenieur, sondern ein Verstärker guter Ingenieursdisziplin. Wir bei Nahornyi AI Lab lösen solche Aufgaben regelmäßig für Kunden: Zuerst sammeln wir objektive Metriken und Einschränkungen, dann bauen wir Automation with AI auf – sonst automatisiert der Agent nur das Chaos.

Wenn Ihr Modelltraining, Prompt-Tuning oder interne Experimente in manuellen Wiederholungen stecken bleiben, kann man das auf Prozessebene aufdröseln. Bei Nahornyi AI Lab helfe ich Ihnen, eine KI-Lösungsentwicklung für Ihren echten Workflow zusammenzustellen, damit der Agent keine Wissenschaft spielt, sondern den Leuten Wochen an Arbeit erspart.

Wir haben bereits die Simple Self-Distillation Methode untersucht, die die Qualität der Codegenerierung verbessert, indem sie die eigenen Vorhersagen des Modells ohne externe Verifikatoren oder komplexes Verstärkungslernen nutzt. Dieser Ansatz zeigt in der Praxis, wie KI autonom ihre Ergebnisse optimieren kann – genau die Idee, die Karpathy in autoresearch skaliert.

Twitter/X LinkedIn Telegram

← Zurück zu News

autoresearch: Wenn das Modell einen ML-Ingenieur anheuert

Technischer Kontext

Was das für Geschäft und Automatisierung verändert

Weiterlesen

PerceptionBench: Moonshot prüft, ob KI sieht

Kimi K3: Offene Gewichte und nicht nur 50B aktiv