Intelligenza artificiale

Dimenticate l'hype -- l'addestramento dei robot sta diventando un lavoro per altri agenti IA

Il framework ENPIRE di Nvidia utilizza agenti di codifica IA per addestrare flotte di robot senza l'aiuto umano, riducendo i tempi di addestramento e raggiungendo un tasso di successo del 99%.
Dimenticate l'hype -- l'addestramento dei robot sta diventando un lavoro per altri agenti IA

Un piccolo perno metallico scivola in un foro da quattro millimetri con la precisione di un orologiaio. Il braccio robotico che tiene il perno si muove con un movimento fluido e sicuro che suggerisce anni di pratica. Questa azione riuscita è il prodotto finito di una nuova pipeline automatizzata. Dietro quel singolo movimento di successo c'è una complessa catena di comandi software. Quei comandi provengono da un agente di codifica IA come Claude o Codex. L'agente stesso esiste all'interno di un framework chiamato ENPIRE, che i ricercatori di Nvidia hanno recentemente svelato al pubblico. Per alimentare quell'agente, Nvidia ha stanziato un budget enorme di tempo di elaborazione GPU e token digitali. All'inizio di questa catena c'è un obiettivo semplice: insegnare a una macchina a svolgere un compito senza un essere umano nella stanza.

Nvidia, in collaborazione con i ricercatori della Carnegie Mellon e della UC Berkeley, ha recentemente pubblicato un documento che dettaglia ENPIRE. Il framework consente agli agenti di codifica IA di farsi carico dell'intero processo di addestramento di un robot. Si tratta degli stessi strumenti software che gli sviluppatori utilizzano per scrivere codice per siti web o eseguire il debug di applicazioni. Nel sistema ENPIRE, questi agenti sono responsabili della scrittura del codice di addestramento, del test sull'hardware fisico e della correzione degli errori quando il robot fallisce. Tradizionalmente, un ingegnere umano passava settimane a perfezionare questi movimenti. Ora, una flotta di otto robot può apprendere da sola le stesse abilità in una frazione del tempo.

Il tirocinante instancabile nella macchina

Per capire come funziona, pensate all'agente di codifica IA come a un tirocinante instancabile. In un tipico laboratorio, un ingegnere deve guardare un robot che cerca di sollevare un blocco, vederlo fallire e poi riscrivere manualmente il codice per correggere la presa. Questo è lento e costoso. ENPIRE sostituisce l'osservatore umano con un ciclo digitale. Il processo prevede due passaggi iniziali in cui sono coinvolti gli esseri umani. In primo luogo, una persona aiuta l'agente a costruire una routine di ripristino. Si tratta di un insieme di istruzioni che dice al robot come riportare lo spazio di lavoro allo stato originale dopo un tentativo fallito. In secondo luogo, l'umano aiuta a creare una funzione di ricompensa. Si tratta di un arbitro IA che guarda le riprese video per decidere se il robot ha avuto successo o ha fallito.

Una volta predisposti questi due strumenti, gli umani se ne vanno. L'agente IA inizia il suo turno cercando tra i documenti accademici i migliori metodi di addestramento. Sceglie una strategia, scrive il codice Python necessario e lo invia ai bracci robotici. Se il robot fa cadere un perno o manca un bersaglio, l'agente vede il fallimento, analizza i dati e riscrive il codice. Questa è autoricerca nel mondo fisico. Mentre gli umani dormono, gli agenti eseguono centinaia di esperimenti. Non si annoiano e non hanno bisogno di pause caffè. Questo ciclo costante di tentativi ed errori è ciò che consente al sistema di raggiungere un tasso di successo del 99% su compiti fisici complessi.

Perché otto braccia sono meglio di una

La vera potenza di ENPIRE è evidente quando il sistema passa da un singolo robot a una flotta. Nvidia ha utilizzato otto stazioni robotiche bimanuali per il suo esperimento principale. Queste stazioni non sono isolate. Sono collegate tramite Git, che è lo strumento standard utilizzato dagli sviluppatori software per condividere e tracciare le modifiche al codice. Quando un robot scopre un modo migliore per inserire una scheda grafica o tagliare una fascetta, invia quel codice a un repository condiviso. Gli altri sette robot scaricano immediatamente l'aggiornamento.

Questa intelligenza condivisa crea un enorme vantaggio in termini di velocità. Nel compito noto come Push-T, in cui un robot deve far scorrere un blocco a forma di T in una zona specifica, un singolo robot ha impiegato circa cinque ore per padroneggiare il movimento. Quando i ricercatori hanno attivato tutti gli otto robot, il tempo è sceso a sole due ore. La stessa tendenza è apparsa nell'inserimento del perno. Un singolo braccio ha avuto bisogno di oltre 90 minuti per diventare affidabile, ma la flotta ha terminato il lavoro in 40 minuti.

Attività Tempo di addestramento robot singolo Tempo di addestramento flotta di otto robot Tasso di successo finale
Push-T 5 Ore 2 Ore 99%
Inserimento perno 90 Minuti 40 Minuti 99%
Taglio fascette N/A Accelerato 99%
Alloggiamento GPU N/A Accelerato 99%

Guardando il quadro generale, ciò suggerisce che il collo di bottiglia nella robotica non è mai stato l'hardware. Il limite era la velocità dell'istruzione umana. Lasciando che i robot parlino tra loro attraverso un agente di codifica centrale, il processo di apprendimento diventa decentralizzato e incredibilmente veloce.

L'attrito del mondo reale

Esiste un ostacolo significativo che i ricercatori di IA chiamano divario sim-to-real. È facile insegnare a un robot a fare qualcosa in una simulazione al computer dove la gravità è perfetta e le superfici non hanno consistenza. In un simulatore, ogni blocco a forma di T è identico e ogni tavolo è perfettamente piano. Il mondo reale è disordinato. I tavoli hanno attrito, l'illuminazione cambia durante il giorno e le parti meccaniche presentano minuscole imperfezioni.

Durante gli esperimenti ENPIRE, il divario tra simulazione e realtà era evidente. Tutti e tre gli agenti di codifica testati — Codex di OpenAI, Claude Code di Anthropic e Kimi Code di Moonshot — hanno risolto facilmente il compito Push-T in una cucina virtuale. Tuttavia, quando il codice è passato ai robot fisici reali, due di questi tre agenti inizialmente hanno fallito. Hanno lottato con la fisica di un tavolo vero. Gli agenti hanno dovuto riscrivere il loro codice diverse volte per tenere conto del modo in cui il blocco di plastica scivolava effettivamente sulla superficie. Ciò evidenzia perché i test fisici sono ancora il gold standard per la robotica. Un'IA può essere un genio in un mondo digitale e fallire comunque nel tagliare una fascetta in un laboratorio perché non ha tenuto conto del modo in cui la plastica si piega.

L'alto prezzo del pensiero delle macchine

Sebbene il tempo risparmiato sia impressionante, non è gratuito. C'è un costo nascosto nel lasciare che gli agenti IA gestiscano lo spettacolo. Ogni volta che un agente come Claude Code riflette su un problema, consuma token. Questi token rappresentano i dati elaborati dal modello linguistico di grandi dimensioni e costano denaro reale. Nvidia ha notato che mentre il passaggio da uno a otto robot ha ridotto il tempo di addestramento di oltre la metà, il conto dei token è cresciuto ancora più velocemente.

In sostanza, il sistema sta scambiando tempo umano economico con tempo di calcolo costoso. Per un gigante come Nvidia, che possiede i chip e i data center, questo è uno scambio vincente. Per una startup più piccola, il costo di lasciare che un agente IA "pensi" la sua strada attraverso mille esperimenti falliti potrebbe essere superiore al semplice assumere un ingegnere umano. Questo crea un divario nel mercato. Le aziende con la maggiore potenza di calcolo saranno probabilmente quelle che produrranno i robot più capaci perché possono permettersi l'alto costo del fallimento automatizzato.

Cosa significa questo per la vostra casa del futuro

Per l'utente medio, questa ricerca è il primo passo verso robot che siano effettivamente utili in una casa. La maggior parte degli attuali robot domestici, come i semplici aspirapolvere, sono programmati con regole rigide. Hanno difficoltà se spostate i mobili o comprate un nuovo tappeto. Un robot alimentato da un sistema come ENPIRE non avrebbe bisogno di un aggiornamento software dal produttore per gestire un nuovo compito. Potrebbe teoricamente passare un pomeriggio a "esercitarsi" su come piegare la vostra specifica marca di biancheria o caricare la vostra specifica lavastoviglie.

Dal lato del mercato, stiamo assistendo a una corsa tra Stati Uniti e Cina. La stessa settimana in cui Nvidia ha rilasciato ENPIRE, Alibaba ha introdotto la sua Qwen-Robot Suite. Alibaba si sta concentrando sui cervelli software che possono funzionare su qualsiasi corpo robotico, mentre Nvidia sta testando come il proprio hardware possa migliorare se stesso. Questa competizione è positiva per i consumatori. Significa che la tecnologia per rendere i robot più intelligenti si sta spostando dallo spazio puramente teorico verso la fabbrica e la casa.

In termini pratici, ci stiamo allontanando dall'era dei robot programmati verso un'era di robot "allenati". L'umano fornisce l'obiettivo e l'arbitro, e l'IA gestisce il noioso lavoro di esercitarsi fino alla perfezione. In definitiva, questo cambierà il modo in cui interagiamo con la tecnologia. Invece di imparare a usare una macchina, diremo semplicemente alla macchina cosa vogliamo che impari.

Dietro il gergo degli agenti di codifica e delle funzioni di ricompensa c'è una realtà semplice: le macchine iniziano a scrivere i propri manuali. Questo cambiamento porterà probabilmente a un hardware più resiliente e a dispositivi più intuitivi. Osservate come gli strumenti nella vostra vita richiedano attualmente che siate voi ad adattarvi a loro. Tra qualche anno, man mano che questi cicli di addestramento autonomi diventeranno standard, saranno i dispositivi della vostra casa a doversi adattare.

Fonti: Documento di ricerca del Nvidia GEAR Lab, annunci ufficiali di Jim Fan via X/Twitter e documentazione tecnica del progetto ENPIRE.

bg
bg
bg

Ci vediamo dall'altra parte.

La nostra soluzione di archiviazione e-mail crittografata end-to-end fornisce i mezzi più potenti per lo scambio sicuro dei dati, garantendo la sicurezza e la privacy dei tuoi dati.

/ Creare un account gratuito