Intelligence Artificielle

Pourquoi votre usine locale pourrait bientôt être gérée par un robot doté d'un « bloc-notes visuel »

Le modèle Gemini Robotics-ER 1.6 de Google permet au robot Spot de Boston Dynamics de lire des cadrans avec une précision de 98 %, apportant la « vision agentique » aux inspections industrielles.
Pourquoi votre usine locale pourrait bientôt être gérée par un robot doté d'un « bloc-notes visuel »

Imaginez un stagiaire infatigable déambulant dans un vaste complexe industriel. Ce stagiaire n'a pas besoin de café, ne se lasse jamais de fixer le même manomètre pour la millième fois, et peut désormais faire la différence entre un boulon légèrement desserré et une rupture de canalisation catastrophique avec la précision d'un ingénieur chevronné. Il ne s'agit pas d'une scène tirée d'un remake de science-fiction ; c'est le résultat concret de la dernière collaboration entre Google DeepMind et Boston Dynamics.

Le 14 avril 2026, Google a annoncé la sortie de Gemini Robotics-ER 1.6, un modèle d'IA spécialisé conçu pour donner aux robots comme le quadrupède Spot un « raisonnement incarné ». En termes simples, cela signifie que le robot n'est plus seulement une caméra télécommandée. Il commence à comprendre le monde physique dans lequel il évolue, passant d'un simple outil à un inspecteur autonome capable de lire des cadrans analogiques et d'identifier des outils dans une pièce encombrée avec une précision quasi humaine.

La fin du robot « aveugle »

Historiquement, les robots ont été excellents pour la répétition mais médiocres pour l'observation. Si vous programmiez un bras robotique pour effectuer une soudure par points sur une portière de voiture, il le ferait parfaitement un million de fois. Cependant, si cette portière était décalée de cinq centimètres vers la gauche, le robot continuerait probablement à souder dans le vide. Ce manque d'adaptabilité a confiné les robots à des environnements hautement contrôlés comme les lignes d'assemblage.

Sous le capot de cette nouvelle mise à jour se trouve ce que Google appelle la « vision agentique ». Considérez cela comme un bloc-notes visuel. Lorsque le robot regarde une scène complexe — par exemple, un mur de 50 manomètres analogiques différents dans une vieille centrale électrique — il ne se contente pas de prendre une photo. Il utilise le modèle d'IA pour « pointer » des éléments spécifiques, exécuter de courts extraits de code pour vérifier ce qu'il voit et raisonner à travers les données.

Concrètement, cela a conduit à un bond massif des performances. La version précédente de ce modèle, la version 1.5, ne parvenait à lire correctement les instruments qu'environ 23 % du temps. Le nouveau modèle 1.6 a fait grimper cette précision à un taux stupéfiant de 98 %. Pour l'utilisateur moyen, c'est la différence entre un GPS qui vous demande occasionnellement de rouler dans un lac et un autre qui navigue dans une intersection complexe à cinq voies sans sourciller.

Pourquoi les cadrans analogiques comptent encore dans un monde numérique

Il peut semblé contre-intuitif de dépenser des millions de dollars pour apprendre à un chien robot de haute technologie comment lire un thermomètre analogique vieux de 50 ans. Pourquoi ne pas simplement remplacer le thermomètre par un capteur numérique qui envoie des données dans le cloud ?

En regardant la situation dans son ensemble, l'épine dorsale industrielle mondiale est incroyablement résiliente — et incroyablement vieille. Remplacer chaque vanne manuelle, indicateur de niveau et manomètre dans une raffinerie ou une usine automobile Hyundai coûterait des milliards et nécessiterait des mois d'arrêt. Il est bien plus évolutif de donner au robot des « yeux » pour lire l'équipement existant que de reconstruire le monde pour l'adapter au robot.

C'est là que le partenariat avec Boston Dynamics devient crucial. Leur robot, Spot, est déjà à l'essai dans des installations appartenant au Hyundai Motor Group. En utilisant Gemini Robotics-ER 1.6, Spot peut désormais effectuer un « raisonnement multi-vues ». Il peut utiliser ses différents flux de caméras pour comprendre son environnement en 3D, s'assurant qu'il ne voit pas seulement un cadran, mais qu'il comprend où ce cadran se situe par rapport au reste de la machine.

Résoudre le problème de l'« hallucination »

L'un des plus grands obstacles pour l'IA dans le monde physique est l'« hallucination » — la tendance des modèles à affirmer avec assurance qu'une chose est présente alors qu'elle ne l'est pas. Dans un chatbot, une hallucination est une curiosité amusante ; dans un cadre industriel lourd où un robot surveille des produits chimiques volatils, une hallucination est un cauchemar pour la sécurité.

Les tests de Google ont montré que le modèle 1.6 est bien meilleur pour rester ancré dans la réalité. Dans un test impliquant une table encombrée d'outils, l'ancien modèle a « vu » une brouette qui n'existait pas simplement parce qu'on lui avait demandé d'en chercher une. Le nouveau modèle, à l'inverse, a correctement identifié les marteaux, les ciseaux et les pinces tout en ignorant la question « piège ». Cette précision accrue est fondamentale pour sortir les robots des laboratoires et les amener dans le monde réel, désordonné et imprévisible.

Caractéristique Gemini Robotics-ER 1.5 Gemini Robotics-ER 1.6 Gemini 3.0 Flash
Précision de lecture des instruments 23% 98% 67%
Raisonnement visuel Basique Agentique (Bloc-notes visuel) Standard
Contraintes de sécurité Manuelles Intégrées/Systémiques Générales
Taux d'hallucination Élevé Faible Modéré

La sécurité d'abord : le robot comme gardien

Au-delà de la simple lecture des cadrans, le nouveau modèle est décrit comme le plus sûr de Google à ce jour. Il a été formé pour comprendre les contraintes de sécurité physique, comme la manipulation de liquides sans les renverser ou la navigation autour des humains.

Pour le dire autrement, l'IA apprend les règles de « bon sens » du monde physique. Elle peut désormais percevoir le risque de blessure dans des scénarios complexes — comme reconnaître qu'un enfant à proximité d'une prise électrique est une situation à haut risque. Bien que nous soyons encore loin d'un robot ayant une compréhension de l'éthique de niveau humain, ces étapes progressives vers le « raisonnement incarné » sont essentielles pour l'avenir décentralisé de la robotique, où les machines travaillent à nos côtés plutôt que derrière une barrière de sécurité.

Ce que cela signifie pour vous

Du point de vue du consommateur, il est peu probable que vous ayez un chien Spot lisant votre thermostat domestique de sitôt. Cependant, les effets en aval sont significatifs.

  1. Coûts réduits, moins de pannes : À mesure que les installations industrielles deviennent plus efficaces et moins sujettes aux erreurs humaines ou aux défaillances d'équipement, le coût de fabrication des biens — des voitures à l'électricité — devient plus stable.
  2. La démocratisation de la vision : La technologie de « vision agentique » développée ici finira par se propager aux appareils grand public. Imaginez une application pour smartphone qui ne se contente pas de prendre une photo de votre boîte à fusibles, mais vous indique exactement quel interrupteur a sauté et pourquoi.
  3. Normes de sécurité : Nous assistons à la naissance d'un nouveau cadre de sécurité pour l'IA. À mesure que ces modèles apprennent à respecter les limites physiques, ils ouvrent la voie à des assistants domestiques et des robots de livraison plus avancés, avec lesquels on peut cohabiter en toute sécurité.

En fin de compte, il ne s'agit pas seulement d'un chien robot qui regarde un thermomètre. Il s'agit de la fusion de l'intelligence numérique avec la présence physique. Nous évoluons vers un monde où le « pétrole brut numérique » des données est extrait et raffiné par des machines qui peuvent enfin voir le monde aussi clairement que nous.

Au fil de votre journée, prenez un moment pour observer la mécanique industrielle invisible qui vous entoure — les tuyaux dans votre sous-sol, les compteurs sur le côté de votre maison, les machines complexes à l'arrière d'une épicerie. Pendant des décennies, ces éléments ont nécessité une paire d'yeux humains pour rester sûrs. Nous entrons maintenant dans une ère où ces yeux ne clignent jamais, ne se fatiguent jamais et — grâce à un bloc-notes visuel — font rarement des erreurs.

bg
bg
bg

On se retrouve de l'autre côté.

Notre solution de messagerie cryptée de bout en bout et de stockage en nuage constitue le moyen le plus puissant d'échanger des données en toute sécurité, garantissant ainsi la sûreté et la confidentialité de vos données.

/ Créer un compte gratuit