Une petite tige métallique glisse dans un trou de quatre millimètres avec la précision d'un horloger. Le bras robotisé qui tient la tige se déplace avec un mouvement fluide et confiant qui suggère des années de pratique. Cette action réussie est le produit fini d'un nouveau pipeline automatisé. Derrière ce seul mouvement réussi se cache une chaîne complexe de commandes logicielles. Ces commandes proviennent d'un agent de codage IA comme Claude ou Codex. L'agent lui-même existe au sein d'un cadre appelé ENPIRE, que les chercheurs de Nvidia ont récemment dévoilé au public. Pour alimenter cet agent, Nvidia a alloué un budget massif de temps de traitement GPU et de jetons numériques. Au tout début de cette chaîne se trouve un objectif simple : apprendre à une machine à effectuer une corvée sans humain dans la pièce.
Nvidia, en collaboration avec des chercheurs de Carnegie Mellon et de l'UC Berkeley, a récemment publié un article détaillant ENPIRE. Le cadre permet aux agents de codage IA de prendre en charge l'ensemble du processus d'entraînement d'un robot. Ce sont les mêmes outils logiciels que les développeurs utilisent pour écrire du code de site Web ou déboguer des applications. Dans le système ENPIRE, ces agents sont responsables de l'écriture du code d'entraînement, de son test sur du matériel physique et de la correction des erreurs lorsque le robot échoue. Traditionnellement, un ingénieur humain passait des semaines à peaufiner ces mouvements. Désormais, une flotte de huit robots peut apprendre elle-même les mêmes compétences en une fraction du temps.
Pour comprendre comment cela fonctionne, imaginez l'agent de codage IA comme un stagiaire infatigable. Dans un laboratoire typique, un ingénieur doit regarder un robot essayer de ramasser un bloc, le voir échouer, puis réécrire manuellement le code pour corriger la prise. C'est lent et coûteux. ENPIRE remplace l'observateur humain par une boucle numérique. Le processus comporte deux étapes initiales où les humains sont impliqués. Premièrement, une personne aide l'agent à construire une routine de réinitialisation. Il s'agit d'un ensemble d'instructions qui indiquent au robot comment remettre l'espace de travail dans son état d'origine après une tentative infructueuse. Deuxièmement, l'humain aide à créer une fonction de récompense. Il s'agit d'un arbitre IA qui surveille les images des caméras pour décider si le robot a réussi ou échoué.
Une fois ces deux outils en place, les humains s'en vont. L'agent IA commence son quart de travail en effectuant des recherches dans des articles académiques pour trouver les meilleures méthodes d'entraînement. Il choisit une stratégie, écrit le code Python nécessaire et l'envoie aux bras robotisés. Si le robot laisse tomber une tige ou manque une cible, l'agent voit l'échec, analyse les données et réécrit le code. C'est de l'autorecherche dans le monde physique. Pendant que les humains dorment, les agents mènent des centaines d'expériences. Ils ne s'ennuient pas et n'ont pas besoin de pauses café. Ce cycle constant d'essais et d'erreurs est ce qui permet au système d'atteindre un taux de réussite de 99 % sur des tâches physiques complexes.
La véritable puissance d'ENPIRE est évidente lorsque le système passe d'un seul robot à une flotte. Nvidia a utilisé huit stations robotisées bimanuelles pour son expérience principale. Ces stations ne sont pas isolées. Elles sont connectées via Git, qui est l'outil standard utilisé par les développeurs de logiciels pour partager et suivre les modifications du code. Lorsqu'un robot découvre une meilleure façon d'insérer une carte graphique ou de couper un serre-câble, il soumet ce code à un référentiel partagé. Les sept autres robots téléchargent immédiatement la mise à jour.
Cette intelligence partagée crée un avantage de vitesse massif. Dans la tâche connue sous le nom de Push-T, où un robot doit faire glisser un bloc en forme de T dans une zone spécifique, un seul robot a mis environ cinq heures pour maîtriser le mouvement. Lorsque les chercheurs ont activé les huit robots, le temps est tombé à seulement deux heures. La même tendance est apparue pour l'insertion de tiges. Un seul bras a eu besoin de plus de 90 minutes pour devenir fiable, mais la flotte a terminé le travail en 40 minutes.
| Tâche | Temps d'entraînement (Robot unique) | Temps d'entraînement (Flotte de 8 robots) | Taux de réussite final |
|---|---|---|---|
| Push-T | 5 Heures | 2 Heures | 99% |
| Insertion de tige | 90 Minutes | 40 Minutes | 99% |
| Coupe de serre-câble | N/A | Accéléré | 99% |
| Installation de GPU | N/A | Accéléré | 99% |
En regardant la situation globale, cela suggère que le goulot d'étranglement en robotique n'a jamais été le matériel. La limitation était la vitesse de l'instruction humaine. En laissant les robots se parler entre eux via un agent de codage central, le processus d'apprentissage devient décentralisé et incroyablement rapide.
Il existe un obstacle important que les chercheurs en IA appellent l'écart "sim-to-real" (simulation au réel). Il est facile d'apprendre à un robot à faire quelque chose dans une simulation informatique où la gravité est parfaite et les surfaces n'ont pas de texture. Dans un simulateur, chaque bloc en forme de T est identique et chaque table est parfaitement plane. Le monde réel est désordonné. Les tables ont de la friction, l'éclairage change tout au long de la journée et les pièces mécaniques ont de minuscules imperfections.
Lors des expériences ENPIRE, l'écart entre la simulation et la réalité était clair. Les trois agents de codage testés — Codex d'OpenAI, Claude Code d'Anthropic et Kimi Code de Moonshot — ont résolu la tâche Push-T facilement dans une cuisine virtuelle. Cependant, lorsque le code est passé aux robots physiques réels, deux de ces trois agents ont échoué initialement. Ils ont lutté avec la physique d'une table réelle. Les agents ont dû réécrire leur code plusieurs fois pour tenir compte de la façon dont le bloc de plastique glissait réellement sur la surface. Cela souligne pourquoi les tests physiques sont toujours la référence absolue pour la robotique. Une IA peut être un génie dans un monde numérique et pourtant échouer à couper un serre-câble dans un laboratoire parce qu'elle n'a pas tenu compte de la façon dont le plastique se plie.
Bien que le temps gagné soit impressionnant, il n'est pas gratuit. Il y a un coût caché à laisser les agents d'IA diriger le spectacle. Chaque fois qu'un agent comme Claude Code réfléchit à un problème, il consomme des jetons. Ces jetons représentent les données traitées par le grand modèle de langage, et ils coûtent de l'argent réel. Nvidia a noté que si le passage d'un robot à huit a réduit le temps d'entraînement de plus de moitié, la facture des jetons a augmenté encore plus rapidement.
Essentiellement, le système échange du temps humain bon marché contre du temps informatique coûteux. Pour un géant comme Nvidia, qui possède les puces et les centres de données, c'est un échange gagnant. Pour une startup plus petite, le coût de laisser un agent IA "réfléchir" à travers un millier d'expériences ratées pourrait être plus élevé que le simple fait d'embaucher un ingénieur humain. Cela crée une fracture sur le marché. Les entreprises disposant de la plus grande puissance de calcul seront probablement celles qui produiront les robots les plus performants, car elles peuvent se permettre le coût élevé de l'échec automatisé.
Pour l'utilisateur moyen, cette recherche est la première étape vers des robots réellement utiles dans une maison. La plupart des robots domestiques actuels, comme les aspirateurs de base, sont programmés avec des règles rigides. Ils ont du mal si vous déplacez vos meubles ou achetez un nouveau tapis. Un robot alimenté par un système comme ENPIRE n'aurait pas besoin d'une mise à jour logicielle du fabricant pour gérer une nouvelle corvée. Il pourrait théoriquement passer un après-midi à "s'entraîner" à plier votre marque spécifique de linge ou à charger votre lave-vaisselle spécifique.
Du côté du marché, nous assistons à une course entre les États-Unis et la Chine. La même semaine où Nvidia a publié ENPIRE, Alibaba a introduit sa suite Qwen-Robot. Alibaba se concentre sur les cerveaux logiciels capables de fonctionner sur n'importe quel corps de robot, tandis que Nvidia teste comment son propre matériel peut s'améliorer lui-même. Cette compétition est bénéfique pour les consommateurs. Elle signifie que la technologie pour rendre les robots plus intelligents sort du domaine purement théorique pour entrer dans l'usine et la maison.
Pratiquement parlant, nous nous éloignons de l'ère des robots programmés pour nous diriger vers une ère de robots coachés. L'humain fournit l'objectif et l'arbitre, et l'IA s'occupe du travail fastidieux de la pratique jusqu'à ce qu'elle soit parfaite. En fin de compte, cela changera notre façon d'interagir avec la technologie. Au lieu d'apprendre à utiliser une machine, nous dirons simplement à la machine ce que nous voulons qu'elle apprenne.
Derrière le jargon des agents de codage et des fonctions de récompense se cache une réalité simple : les machines commencent à écrire leurs propres manuels. Ce changement conduira probablement à un matériel plus résilient et à des appareils plus intuitifs. Observez comment les outils de votre vie vous obligent actuellement à vous adapter à eux. Dans quelques années, à mesure que ces boucles d'entraînement autonomes deviendront la norme, ce seront les appareils de votre maison qui s'adapteront.
Sources: Nvidia GEAR Lab Research Paper, official announcements from Jim Fan via X/Twitter, and the ENPIRE project technical documentation.



Notre solution de messagerie cryptée de bout en bout et de stockage en nuage constitue le moyen le plus puissant d'échanger des données en toute sécurité, garantissant ainsi la sûreté et la confidentialité de vos données.
/ Créer un compte gratuit