Skip to main content
xAIbrowser-automationai-agents

Grok über DevTools: Der Agent braucht keine API mehr

xAI hat eine Diskussion über einen einfachen, aber leistungsstarken Ansatz angestoßen: einem KI-Agenten Zugriff auf DevTools zu geben und den Browser als universelle Schnittstelle zu nutzen. Dies ist für Unternehmen entscheidend, da es KI-Automatisierung für Dienste ohne geeignete API ermöglicht.

Technischer Kontext

Ich beschäftige mich schon länger mit Browser-Automatisierung, und da ist gerade ein passender Fall aufgetaucht: Anstelle einer separaten API arbeitet ein Agent über die Chrome DevTools. Im Grunde wird die Website zur Schnittstelle für die KI-Automatisierung, und der Browser gibt dem Modell Augen und Hände.

Ich persönlich mag solche Lösungen nicht wegen des Hypes, sondern wegen ihrer Bodenständigkeit. Wenn eine Seite von einem Menschen geöffnet werden kann, kann sie oft auch einem Agenten übergeben werden: zum Lesen des DOM, Klicken, Ausfüllen von Formularen, Überwachen des Netzwerks, Abfangen von Konsolenfehlern und nicht nur Raten, was anhand eines Screenshots schiefgelaufen ist.

Technisch dreht sich hier alles um CDP und neuerdings immer öfter um DevTools MCP. Der Agent erhält keinen 'magischen Internetzugang', sondern ein normales Set an Entwicklerwerkzeugen: Navigation, Elementinspektion, Seitenzustand, Anfragen, Antworten, Protokolle, manchmal sogar Umgebungs-Emulation.

Deshalb halte ich diesen Ansatz für stärker als reines Scraping. Wenn das Layout leicht verrutscht, stirbt ein XPath-Skript stillschweigend. Ein DevTools-Ansatz ermöglicht es jedoch zu verstehen, was wirklich kaputtgegangen ist: ein Selektor, die Authentifizierung, eine Anfrage, clientseitige Validierung oder sogar ein Anti-Bot-Schutz.

Was ändert das für Unternehmen und Automatisierung?

Der erste Effekt ist offensichtlich: Man kann KI-Integrationen dort erstellen, wo es bisher gar keine gab. Interne Dashboards, Nischen-SaaS, alte Admin-Panels, Partnerportale ohne API – all das wird plötzlich für die Automatisierung zugänglich.

Der zweite Punkt ist weniger erfreulich: Die Zuverlässigkeit ist immer noch geringer als bei einer richtigen API. CAPTCHAs, UI-Änderungen, Zeitüberschreitungen, Bot-Schutz, instabile Selektoren, unerwartete Modalfenster – und schon beginnt Ihr 'universeller Agent' ein Eigenleben zu führen.

Daher gewinnen diejenigen, die eine schnelle Inbetriebnahme und die Abdeckung seltener Systeme benötigen. Es verlieren die Teams, die denken, Browser-Automatisierung sei kostenlose Magie ohne technische Unterstützung.

Im Nahornyi AI Lab lösen wir genau solche Probleme in der Praxis: Wo man eine API beibehält, wo man eine Browser-Schicht hinzufügt und wo man eine hybride KI-Architektur aufbaut, damit der Prozess nicht nach einer Woche zusammenbricht. Wenn Ihre Mitarbeiter immer noch für einen einzigen Vorgang manuell durch fünf verschiedene Dashboards klicken, kontaktieren Sie mich: Wir schauen uns gemeinsam den Workflow an und entwickeln eine KI-Lösung ohne das unnötige Theater um 'intelligente Agenten'.

Während wir die Fähigkeiten der Chrome DevTools in der Web-Automatisierung untersuchen, ist es nützlich, reale Anwendungen zu betrachten, bei denen KI bei komplexen Web-Aufgaben hilft. Wir haben zuvor behandelt, wie Firecrawl bei der Migration von Webflow-Inhalten hilft, wo es auf Einschränkungen bei Stilen und Interaktionen stoßen kann, und die Strategien zur Strukturierung der KI-Automatisierung, um eine nahtlose Datenextraktion zu gewährleisten.

Diesen Artikel teilen