Inteligencia artificial

¿Por qué su fábrica local pronto podría ser gestionada por un robot con un 'bloc de notas visual'?

Gemini Robotics-ER 1.6 de Google permite que Spot de Boston Dynamics lea indicadores con un 98% de precisión, aportando 'visión agéntica' a las inspecciones industriales.
¿Por qué su fábrica local pronto podría ser gestionada por un robot con un 'bloc de notas visual'?

Imagine a un pasante incansable deambulando por un extenso complejo industrial. Este pasante no necesita café, nunca se aburre de mirar el mismo manómetro por milésima vez y ahora puede distinguir entre un perno ligeramente flojo y una falla catastrófica en una tubería con la precisión de un ingeniero experimentado. Esta no es una escena de un reinicio de ciencia ficción; es el resultado tangible de la última colaboración entre Google DeepMind y Boston Dynamics.

El 14 de abril de 2026, Google anunció el lanzamiento de Gemini Robotics-ER 1.6, un modelo de IA especializado diseñado para dotar a robots como el cuadrúpedo Spot de "razonamiento incorporado". En términos sencillos, esto significa que el robot ya no es solo una cámara de control remoto. Está empezando a comprender el mundo físico que habita, pasando de ser una simple herramienta a un inspector autónomo capaz de leer diales analógicos e identificar herramientas en una habitación desordenada con una precisión casi humana.

El fin del robot 'ciego'

Históricamente, los robots han sido brillantes en la repetición pero terribles en la observación. Si se programaba un brazo robótico para soldar por puntos la puerta de un coche, lo haría perfectamente un millón de veces. Sin embargo, si esa puerta se desplazaba cinco centímetros a la izquierda, el robot probablemente seguiría soldando al aire. Esta falta de adaptabilidad ha mantenido a los robots confinados en entornos altamente controlados, como las líneas de montaje.

Bajo el capó de esta nueva actualización se encuentra algo que Google llama "visión agéntica". Piense en esto como un bloc de notas visual. Cuando el robot observa una escena compleja —por ejemplo, una pared con 50 indicadores analógicos diferentes en una central eléctrica antigua— no se limita a tomar una foto. Utiliza el modelo de IA para "señalar" elementos específicos, ejecutar pequeños fragmentos de código para verificar lo que ve y razonar a través de los datos.

En términos prácticos, esto ha supuesto un salto masivo en el rendimiento. La versión anterior de este modelo, la 1.5, solo lograba leer los instrumentos correctamente alrededor del 23 por ciento de las veces. El nuevo modelo 1.6 ha disparado esa precisión hasta un asombroso 98 por ciento. Para el usuario medio, esta es la diferencia entre un GPS que ocasionalmente te dice que conduzcas hacia un lago y uno que navega por una compleja intersección de cinco vías sin despeinarse.

Por qué los indicadores analógicos siguen importando en un mundo digital

Podría parecer contradictorio gastar millones de dólares enseñando a un perro robot de alta tecnología a leer un termómetro analógico de hace 50 años. ¿Por qué no sustituir simplemente el termómetro por un sensor digital que envíe datos a la nube?

Si observamos el panorama general, la columna vertebral industrial mundial es increíblemente resistente e increíblemente antigua. Sustituir cada válvula manual, mirilla y manómetro en una refinería o en una planta de automoción de Hyundai costaría miles de millones y requeriría meses de inactividad. Es mucho más escalable dotar a un robot de "ojos" para leer los equipos existentes que reconstruir el mundo para adaptarlo al robot.

Aquí es donde la asociación con Boston Dynamics resulta fundamental. Su robot, Spot, ya se está probando en instalaciones propiedad de Hyundai Motor Group. Mediante el uso de Gemini Robotics-ER 1.6, Spot ahora puede realizar un "razonamiento multivista". Puede utilizar sus diversas transmisiones de cámara para comprender su entorno en 3D, asegurándose de que no solo ve un indicador, sino que comprende dónde se encuentra ese indicador en relación con el resto de la maquinaria.

Resolviendo el problema de la 'alucinación'

Uno de los mayores obstáculos para la IA en el mundo físico es la "alucinación": la tendencia de los modelos a afirmar con confianza que algo está ahí cuando no lo está. En un chatbot, una alucinación es una curiosidad divertida; en un entorno de industria pesada donde un robot supervisa productos químicos volátiles, una alucinación es una pesadilla de seguridad.

Las pruebas de Google demostraron que el modelo 1.6 es mucho mejor a la hora de mantenerse anclado en la realidad. En una prueba que incluía una mesa desordenada con herramientas, el modelo anterior "vio" una carretilla que no existía simplemente porque se le pidió que buscara una. El nuevo modelo, por el contrario, identificó correctamente los martillos, las tijeras y los alicates, ignorando la pregunta "trampa". Esta precisión mejorada es fundamental para sacar a los robots del laboratorio y llevarlos al mundo real, desordenado e impredecible.

Característica Gemini Robotics-ER 1.5 Gemini Robotics-ER 1.6 Gemini 3.0 Flash
Precisión de lectura de instrumentos 23% 98% 67%
Razonamiento visual Básico Agéntico (Bloc de notas visual) Estándar
Restricciones de seguridad Manual Integrado/Sistémico General
Tasa de alucinación Alta Baja Moderada

La seguridad es lo primero: el robot como guardián

Más allá de la simple lectura de diales, el nuevo modelo se describe como el más seguro de Google hasta la fecha. Ha sido entrenado para comprender las limitaciones de seguridad física, como por ejemplo cómo manipular líquidos sin derramarlos o cómo desplazarse alrededor de seres humanos.

Dicho de otro modo, la IA está aprendiendo las reglas de "sentido común" del mundo físico. Ahora puede percibir el riesgo de lesiones en escenarios complejos, como reconocer que un niño cerca de una toma de corriente es una situación de alto riesgo. Aunque todavía estamos lejos de que un robot tenga una comprensión de la ética a nivel humano, estos pasos incrementales hacia el "razonamiento incorporado" son esenciales para el futuro descentralizado de la robótica, donde las máquinas trabajen junto a nosotros en lugar de detrás de una valla de seguridad.

Qué significa esto para usted

Desde el punto de vista del consumidor, es probable que no tenga un perro Spot leyendo el termostato de su casa pronto. Sin embargo, los efectos derivados son significativos.

  1. Menores costes, menos fallos: A medida que las instalaciones industriales se vuelven más eficientes y menos propensas al error humano o al fallo de los equipos, el coste de fabricación de los bienes —desde los coches hasta la electricidad— se vuelve más estable.
  2. La democratización de la visión: La tecnología de "visión agéntica" desarrollada aquí acabará llegando a los dispositivos de consumo. Imagine una aplicación para smartphone que no se limite a hacer una foto de su caja de fusibles, sino que le diga exactamente qué interruptor ha saltado y por qué.
  3. Estándares de seguridad: Estamos asistiendo al nacimiento de un nuevo marco de seguridad para la IA. A medida que estos modelos aprenden a respetar los límites físicos, sientan las bases para asistentes domésticos y robots de reparto más avanzados que sean realmente seguros para estar cerca de ellos.

En última instancia, no se trata solo de un perro robot mirando un termómetro. Se trata de la fusión de la inteligencia digital con la presencia física. Avanzamos hacia un mundo en el que el "petróleo crudo digital" de los datos está siendo extraído y refinado por máquinas que, por fin, pueden ver el mundo tan claramente como nosotros.

Mientras realiza sus actividades cotidianas, tómese un momento para observar la mecánica industrial invisible que le rodea: las tuberías de su sótano, los contadores en el lateral de su casa, la compleja maquinaria en la parte trasera de una tienda de comestibles. Durante décadas, estos han requerido un par de ojos humanos para mantenerse seguros. Ahora entramos en una era en la que esos ojos nunca parpadean, nunca se cansan y —gracias a un bloc de notas visual— rara vez cometen un error.

bg
bg
bg

Nos vemos en el otro lado.

Nuestra solución de correo electrónico cifrado y almacenamiento en la nube de extremo a extremo proporciona los medios más potentes para el intercambio seguro de datos, lo que garantiza la seguridad y la privacidad de sus datos.

/ Crear una cuenta gratuita