Künstliche Intelligenz

Vergessen Sie den Hype – Robotertraining wird zur Aufgabe für andere KI-Agenten

Nvidias ENPIRE-Framework nutzt KI-Coding-Agenten, um Roboterflotten ohne menschliche Hilfe zu trainieren, was die Trainingszeit verkürzt und eine Erfolgsquote von 99 % erreicht.
Vergessen Sie den Hype – Robotertraining wird zur Aufgabe für andere KI-Agenten

Ein kleiner Metallstift gleitet mit der Präzision eines Uhrmachers in ein vier Millimeter großes Loch. Der Roboterarm, der den Stift hält, bewegt sich mit einer flüssigen, sicheren Bewegung, die jahrelange Übung vermuten lässt. Diese erfolgreiche Aktion ist das fertige Produkt einer neuen automatisierten Pipeline. Hinter dieser einzelnen erfolgreichen Bewegung steht eine komplexe Kette von Softwarebefehlen. Diese Befehle stammen von einem KI-Coding-Agenten wie Claude oder Codex. Der Agent selbst existiert innerhalb eines Frameworks namens ENPIRE, das Nvidia-Forscher vor kurzem der Öffentlichkeit vorgestellt haben. Um diesen Agenten anzutreiben, stellte Nvidia ein massives Budget an GPU-Rechenzeit und digitalen Token zur Verfügung. Ganz am Anfang dieser Kette steht ein einfaches Ziel: Einer Maschine beizubringen, eine Aufgabe ohne einen Menschen im Raum zu erledigen.

Nvidia hat vor kurzem in Zusammenarbeit mit Forschern der Carnegie Mellon University und der UC Berkeley ein Paper veröffentlicht, das ENPIRE im Detail beschreibt. Das Framework ermöglicht es KI-Coding-Agenten, den gesamten Prozess des Robotertrainings zu übernehmen. Es handelt sich dabei um dieselben Software-Tools, die Entwickler verwenden, um Website-Code zu schreiben oder Anwendungen zu debuggen. Im ENPIRE-System sind diese Agenten dafür verantwortlich, den Trainingscode zu schreiben, ihn auf physischer Hardware zu testen und Fehler zu beheben, wenn der Roboter scheitert. Traditionell verbrachte ein menschlicher Ingenieur Wochen damit, diese Bewegungen fein abzustimmen. Jetzt kann eine Flotte von acht Robotern sich dieselben Fähigkeiten in einem Bruchteil der Zeit selbst beibringen.

Der unermüdliche Praktikant in der Maschine

Um zu verstehen, wie das funktioniert, stellen Sie sich den KI-Coding-Agenten als einen unermüdlichen Praktikanten vor. In einem typischen Labor muss ein Ingenieur beobachten, wie ein Roboter versucht, einen Block aufzuheben, sieht ihn scheitern und schreibt dann den Code manuell um, um den Griff zu korrigieren. Das ist langsam und teuer. ENPIRE ersetzt den menschlichen Beobachter durch eine digitale Schleife. Der Prozess hat zwei Anfangsschritte, an denen Menschen beteiligt sind. Zuerst hilft eine Person dem Agenten, eine Reset-Routine zu erstellen. Dies ist eine Reihe von Anweisungen, die dem Roboter sagen, wie er den Arbeitsbereich nach einem fehlgeschlagenen Versuch wieder in den Originalzustand versetzt. Zweitens hilft der Mensch bei der Erstellung einer Belohnungsfunktion (Reward Function). Dies ist ein KI-Schiedsrichter, der Kamerabilder beobachtet, um zu entscheiden, ob der Roboter erfolgreich war oder nicht.

Sobald diese beiden Werkzeuge vorhanden sind, gehen die Menschen. Der KI-Agent beginnt seine Schicht, indem er akademische Arbeiten nach den besten Trainingsmethoden durchsucht. Er wählt eine Strategie aus, schreibt den erforderlichen Python-Code und sendet ihn an die Roboterarme. Wenn der Roboter einen Stift fallen lässt oder ein Ziel verfehlt, sieht der Agent den Fehler, analysiert die Daten und schreibt den Code um. Das ist Autoforschung in der physischen Welt. Während die Menschen schlafen, führen die Agenten hunderte von Experimenten durch. Sie langweilen sich nicht und brauchen keine Kaffeepausen. Dieser ständige Zyklus von Versuch und Irrtum ermöglicht es dem System, eine Erfolgsquote von 99 % bei komplexen physischen Aufgaben zu erreichen.

Warum acht Arme besser sind als einer

Die wahre Stärke von ENPIRE zeigt sich, wenn das System von einem einzelnen Roboter auf eine Flotte übergeht. Nvidia nutzte für sein primäres Experiment acht bimanuelle Roboterstationen. Diese Stationen sind nicht isoliert. Sie sind über Git verbunden, das Standardwerkzeug, das Softwareentwickler verwenden, um Codeänderungen zu teilen und zu verfolgen. Wenn ein Roboter einen besseren Weg entdeckt, eine Grafikkarte einzusetzen oder einen Kabelbinder zu schneiden, überträgt (commits) er diesen Code in ein gemeinsames Repository. Die anderen sieben Roboter laden das Update sofort herunter.

Diese geteilte Intelligenz schafft einen massiven Geschwindigkeitsvorteil. Bei der als "Push-T" bekannten Aufgabe, bei der ein Roboter einen T-förmigen Block in eine bestimmte Zone schieben muss, benötigte ein einzelner Roboter etwa fünf Stunden, um die Bewegung zu meistern. Als die Forscher alle acht Roboter einschalteten, sank die Zeit auf nur zwei Stunden. Der gleiche Trend zeigte sich bei der Stifteinführung. Ein einzelner Arm benötigte über 90 Minuten, um zuverlässig zu werden, aber die Flotte erledigte die Aufgabe in 40 Minuten.

Aufgabe Trainingszeit einzelner Roboter Trainingszeit Acht-Roboter-Flotte Endgültige Erfolgsquote
Push-T 5 Stunden 2 Stunden 99%
Pin-Einführung 90 Minuten 40 Minuten 99%
Kabelbinder-Schneiden N/V Beschleunigt 99%
GPU-Einsetzen N/V Beschleunigt 99%

Betrachtet man das Gesamtbild, deutet dies darauf hin, dass der Engpass in der Robotik nie die Hardware war. Die Einschränkung war die Geschwindigkeit der menschlichen Instruktion. Indem man die Roboter über einen zentralen Coding-Agenten miteinander kommunizieren lässt, wird der Lernprozess dezentralisiert und unglaublich schnell.

Die Reibung der realen Welt

Es gibt eine bedeutende Hürde, die KI-Forscher als "Sim-to-Real Gap" bezeichnen. Es ist einfach, einem Roboter in einer Computersimulation etwas beizubringen, in der die Schwerkraft perfekt ist und Oberflächen keine Textur haben. In einem Simulator ist jeder T-förmige Block identisch und jeder Tisch perfekt flach. Die reale Welt ist unordentlich. Tische haben Reibung, die Beleuchtung ändert sich im Laufe des Tages und mechanische Teile haben winzige Unvollkommenheiten.

Während der ENPIRE-Experimente war die Lücke zwischen Simulation und Realität deutlich erkennbar. Alle drei getesteten Coding-Agenten – OpenAIs Codex, Anthropics Claude Code und Moonshots Kimi Code – lösten die Push-T-Aufgabe problemlos in einer virtuellen Küche. Doch als der Code auf die tatsächlichen physischen Roboter übertragen wurde, scheiterten zwei dieser drei Agenten zunächst. Sie hatten mit der Physik eines echten Tisches zu kämpfen. Die Agenten mussten ihren Code mehrmals umschreiben, um die Art und Weise zu berücksichtigen, wie der Kunststoffblock tatsächlich über die Oberfläche gleitet. Dies unterstreicht, warum physische Tests immer noch der Goldstandard für die Robotik sind. Eine KI kann in einer digitalen Welt ein Genie sein und dennoch daran scheitern, einen Kabelbinder in einem Labor zu schneiden, weil sie nicht berücksichtigt hat, wie sich der Kunststoff biegt.

Der hohe Preis des maschinellen Denkens

Obwohl die Zeitersparnis beeindruckend ist, ist sie nicht kostenlos. Es gibt versteckte Kosten, wenn man KI-Agenten die Regie überlässt. Jedes Mal, wenn ein Agent wie Claude Code über ein Problem nachdenkt, verbraucht er Token. Diese Token repräsentieren die vom großen Sprachmodell verarbeiteten Daten und kosten echtes Geld. Nvidia stellte fest, dass die Skalierung von einem auf acht Roboter die Trainingszeit zwar um mehr als die Hälfte verkürzte, die Token-Rechnung jedoch noch schneller anstieg.

Im Wesentlichen tauscht das System billige menschliche Zeit gegen teure Computerzeit ein. Für einen Riesen wie Nvidia, der die Chips und die Rechenzentren besitzt, ist dies ein gewinnbringendes Geschäft. Für ein kleineres Startup könnten die Kosten, die entstehen, wenn ein KI-Agent sich durch tausend fehlgeschlagene Experimente "denkt", höher sein als die einfache Einstellung eines menschlichen Ingenieurs. Dies schafft eine Kluft auf dem Markt. Unternehmen mit der größten Rechenleistung werden wahrscheinlich diejenigen sein, die die fähigsten Roboter produzieren, weil sie sich die hohen Kosten des automatisierten Scheiterns leisten können.

Was das für Ihr zukünftiges Zuhause bedeutet

Für den durchschnittlichen Nutzer ist diese Forschung der erste Schritt hin zu Robotern, die in einem Haushalt tatsächlich nützlich sind. Die meisten aktuellen Haushaltsroboter, wie einfache Staubsauger, sind mit starren Regeln programmiert. Sie haben Probleme, wenn Sie Ihre Möbel umstellen oder einen neuen Teppich kaufen. Ein Roboter, der von einem System wie ENPIRE angetrieben wird, bräuchte kein Software-Update vom Hersteller, um eine neue Aufgabe zu bewältigen. Er könnte theoretisch einen Nachmittag damit verbringen zu "üben", wie er Ihre spezifische Wäsche faltet oder Ihre spezifische Spülmaschine belädt.

Auf der Marktseite sehen wir ein Rennen zwischen den USA und China. In derselben Woche, in der Nvidia ENPIRE veröffentlichte, stellte Alibaba seine Qwen-Robot Suite vor. Alibaba konzentriert sich auf die Software-Gehirne, die auf jedem Roboterkörper funktionieren können, während Nvidia testet, wie seine eigene Hardware sich selbst verbessern kann. Dieser Wettbewerb ist gut für die Verbraucher. Er bedeutet, dass die Technologie, um Roboter intelligenter zu machen, den rein theoretischen Raum verlässt und in die Fabrik und das Zuhause einzieht.

Praktisch gesehen bewegen wir uns weg von der Ära der Roboter, die programmiert werden, hin zu einer Ära der Roboter, die gecoacht werden. Der Mensch gibt das Ziel und den Schiedsrichter vor, und die KI übernimmt die mühsame Arbeit des Übens, bis es perfekt ist. Letztendlich wird dies die Art und Weise verändern, wie wir mit Technologie interagieren. Anstatt zu lernen, wie man eine Maschine bedient, werden wir der Maschine einfach sagen, was sie lernen soll.

Hinter dem Fachjargon von Coding-Agenten und Belohnungsfunktionen verbirgt sich eine einfache Realität: Die Maschinen beginnen, ihre eigenen Handbücher zu schreiben. Dieser Wandel wird wahrscheinlich zu widerstandsfähigerer Hardware und intuitiveren Geräten führen. Beobachten Sie, wie die Werkzeuge in Ihrem Leben derzeit von Ihnen verlangen, dass Sie sich ihnen anpassen. In einigen Jahren, wenn diese autonomen Trainingsschleifen zum Standard werden, werden die Geräte in Ihrem Zuhause diejenigen sein, die sich anpassen.

Quellen: Nvidia GEAR Lab Research Paper, offizielle Ankündigungen von Jim Fan via X/Twitter und die technische Dokumentation des ENPIRE-Projekts.

bg
bg
bg

Wir sehen uns auf der anderen Seite.

Unsere Ende-zu-Ende-verschlüsselte E-Mail- und Cloud-Speicherlösung bietet die leistungsfähigsten Mittel für den sicheren Datenaustausch und gewährleistet die Sicherheit und den Schutz Ihrer Daten.

/ Kostenloses Konto erstellen