Un pequeño pasador de metal se desliza en un orificio de cuatro milímetros con la precisión de un relojero. El brazo robótico que sostiene el pasador se mueve con un movimiento fluido y seguro que sugiere años de práctica. Esta acción exitosa es el producto final de una nueva tubería automatizada. Detrás de ese único movimiento exitoso hay una compleja cadena de comandos de software. Esos comandos provinieron de un agente de codificación de IA como Claude o Codex. El agente en sí existe dentro de un marco llamado ENPIRE, que los investigadores de Nvidia revelaron recientemente al público. Para alimentar a ese agente, Nvidia asignó un presupuesto masivo de tiempo de procesamiento de GPU y tokens digitales. Al principio de esta cadena hay un objetivo simple: enseñar a una máquina a hacer una tarea sin un humano en la habitación.
Nvidia, en colaboración con investigadores de Carnegie Mellon y UC Berkeley, publicó recientemente un artículo detallando ENPIRE. El marco permite que los agentes de codificación de IA se hagan cargo de todo el proceso de entrenamiento de un robot. Estas son las mismas herramientas de software que los desarrolladores utilizan para escribir código de sitios web o depurar aplicaciones. En el sistema ENPIRE, estos agentes son responsables de escribir el código de entrenamiento, probarlo en hardware físico y corregir errores cuando el robot falla. Tradicionalmente, un ingeniero humano pasaba semanas ajustando estos movimientos. Ahora, una flota de ocho robots puede aprender por sí misma las mismas habilidades en una fracción del tiempo.
Para entender cómo funciona esto, piense en el agente de codificación de IA como un becario incansable. En un laboratorio típico, un ingeniero tiene que observar a un robot intentar recoger un bloque, verlo fallar y luego reescribir manualmente el código para corregir el agarre. Esto es lento y costoso. ENPIRE reemplaza al observador humano con un bucle digital. El proceso tiene dos pasos iniciales en los que intervienen humanos. Primero, una persona ayuda al agente a construir una rutina de reinicio. Se trata de un conjunto de instrucciones que le indican al robot cómo devolver el espacio de trabajo a su estado original tras un intento fallido. Segundo, el humano ayuda a crear una función de recompensa. Se trata de un árbitro de IA que observa las imágenes de las cámaras para decidir si el robot ha tenido éxito o ha fallado.
Una vez que estas dos herramientas están en su lugar, los humanos se marchan. El agente de IA comienza su turno buscando en artículos académicos los mejores métodos de entrenamiento. Elige una estrategia, escribe el código Python necesario y lo envía a los brazos robóticos. Si el robot deja caer un pasador o falla un objetivo, el agente ve el fallo, analiza los datos y reescribe el código. Esto es autoinvestigación en el mundo físico. Mientras los humanos duermen, los agentes realizan cientos de experimentos. No se aburren y no necesitan pausas para el café. Este ciclo constante de prueba y error es lo que permite al sistema alcanzar una tasa de éxito del 99% en tareas físicas complejas.
El verdadero poder de ENPIRE es evidente cuando el sistema pasa de un solo robot a una flota. Nvidia utilizó ocho estaciones de robots bimanuales para su experimento principal. Estas estaciones no están aisladas. Están conectadas a través de Git, que es la herramienta estándar que utilizan los desarrolladores de software para compartir y rastrear cambios en el código. Cuando un robot descubre una mejor manera de insertar una tarjeta gráfica o cortar una brida, envía ese código a un repositorio compartido. Los otros siete robots descargan inmediatamente la actualización.
Esta inteligencia compartida crea una ventaja de velocidad masiva. En la tarea conocida como Push-T, donde un robot debe deslizar un bloque en forma de T hacia una zona específica, un solo robot tardó unas cinco horas en dominar el movimiento. Cuando los investigadores activaron los ocho robots, el tiempo se redujo a solo dos horas. La misma tendencia apareció en la inserción de pasadores. Un solo brazo necesitó más de 90 minutos para ser fiable, pero la flota terminó el trabajo en 40 minutos.
| Tarea | Tiempo de entrenamiento de un solo robot | Tiempo de entrenamiento de flota de ocho robots | Tasa de éxito final |
|---|---|---|---|
| Push-T | 5 Horas | 2 Horas | 99% |
| Inserción de pasadores | 90 Minutos | 40 Minutos | 99% |
| Corte de bridas | N/A | Acelerado | 99% |
| Colocación de GPU | N/A | Acelerado | 99% |
Mirando el panorama general, esto sugiere que el cuello de botella en la robótica nunca ha sido el hardware. La limitación era la velocidad de la instrucción humana. Al permitir que los robots hablen entre sí a través de un agente de codificación central, el proceso de aprendizaje se vuelve descentralizado e increíblemente rápido.
Existe un obstáculo significativo que los investigadores de IA llaman la brecha de lo simulado a lo real (sim-to-real gap). Es fácil enseñar a un robot a hacer algo en una simulación por ordenador donde la gravedad es perfecta y las superficies no tienen textura. En un simulador, cada bloque en forma de T es idéntico y cada mesa es perfectamente plana. El mundo real es desordenado. Las mesas tienen fricción, la iluminación cambia a lo largo del día y las piezas mecánicas tienen pequeñas imperfecciones.
Durante los experimentos de ENPIRE, la brecha entre la simulación y la realidad fue clara. Los tres agentes de codificación probados —Codex de OpenAI, Claude Code de Anthropic y Kimi Code de Moonshot— resolvieron la tarea Push-T fácilmente en una cocina virtual. Sin embargo, cuando el código se trasladó a los robots físicos reales, dos de esos tres agentes fallaron inicialmente. Tuvieron problemas con la física de una mesa real. Los agentes tuvieron que reescribir su código varias veces para tener en cuenta la forma en que el bloque de plástico se deslizaba realmente por la superficie. Esto resalta por qué las pruebas físicas siguen siendo el estándar de oro para la robótica. Una IA puede ser un genio en un mundo digital y aun así fallar al cortar una brida en un laboratorio porque no tuvo en cuenta la forma en que el plástico se dobla.
Si bien el tiempo ahorrado es impresionante, no es gratuito. Hay un coste oculto al dejar que los agentes de IA dirijan el espectáculo. Cada vez que un agente como Claude Code piensa en un problema, consume tokens. Estos tokens representan los datos procesados por el modelo de lenguaje grande y cuestan dinero real. Nvidia señaló que, si bien escalar de uno a ocho robots redujo el tiempo de entrenamiento a más de la mitad, la factura de tokens creció aún más rápido.
Esencialmente, el sistema está intercambiando tiempo humano barato por tiempo de ordenador caro. Para un gigante como Nvidia, que posee los chips y los centros de datos, este es un intercambio ganador. Para una startup más pequeña, el coste de dejar que un agente de IA "piense" su camino a través de mil experimentos fallidos podría ser mayor que simplemente contratar a un ingeniero humano. Esto crea una brecha en el mercado. Las empresas con mayor potencia de cálculo serán probablemente las que produzcan los robots más capaces porque pueden permitirse el alto coste del fallo automatizado.
Para el usuario medio, esta investigación es el primer paso hacia robots que sean realmente útiles en una casa. La mayoría de los robots domésticos actuales, como las aspiradoras básicas, están programados con reglas rígidas. Tienen dificultades si mueves los muebles o compras una alfombra nueva. Un robot impulsado por un sistema como ENPIRE no necesitaría una actualización de software del fabricante para encargarse de una nueva tarea. Teóricamente, podría pasar una tarde "practicando" cómo doblar su marca específica de ropa o cargar su lavavajillas específico.
En el lado del mercado, estamos viendo una carrera entre EE. UU. y China. La misma semana que Nvidia lanzó ENPIRE, Alibaba presentó su Qwen-Robot Suite. Alibaba se está centrando en los cerebros de software que pueden funcionar en cualquier cuerpo de robot, mientras que Nvidia está probando cómo su propio hardware puede mejorarse a sí mismo. Esta competencia es buena para los consumidores. Significa que la tecnología para hacer que los robots sean más inteligentes está saliendo del espacio puramente teórico para entrar en la fábrica y el hogar.
En términos prácticos, nos estamos alejando de la era de los robots programados y avanzando hacia una era de robots entrenados. El humano proporciona el objetivo y el árbitro, y la IA se encarga del trabajo tedioso de practicar hasta que sea perfecto. En última instancia, esto cambiará la forma en que interactuamos con la tecnología. En lugar de aprender a usar una máquina, simplemente le diremos a la máquina lo que queremos que aprenda.
Detrás de la jerga de los agentes de codificación y las funciones de recompensa hay una realidad simple: las máquinas están empezando a escribir sus propios manuales. Este cambio probablemente conducirá a un hardware más resistente y a dispositivos más intuitivos. Observe cómo las herramientas de su vida requieren actualmente que usted se adapte a ellas. En unos pocos años, a medida que estos bucles de entrenamiento autónomos se conviertan en el estándar, los dispositivos de su hogar serán los que se adapten.
Fuentes: Nvidia GEAR Lab Research Paper, anuncios oficiales de Jim Fan a través de X/Twitter y la documentación técnica del proyecto ENPIRE.



Nuestra solución de correo electrónico cifrado y almacenamiento en la nube de extremo a extremo proporciona los medios más potentes para el intercambio seguro de datos, lo que garantiza la seguridad y la privacidad de sus datos.
/ Crear una cuenta gratuita