Intelligence Artificielle

Oubliez le battage médiatique -- les vrais robots ont encore du mal à ouvrir une porte, mais NVIDIA Cosmos 3 veut changer cela

NVIDIA Cosmos 3 est un modèle d'IA physique ouvert qui aide les robots et les véhicules autonomes à comprendre la physique du monde avec une grande précision.
Oubliez le battage médiatique -- les vrais robots ont encore du mal à ouvrir une porte, mais NVIDIA Cosmos 3 veut changer cela

La plupart des titres technologiques suggèrent que les robots sont sur le point de plier votre linge et de promener votre chien. En réalité, un robot dans une usine moderne nécessite souvent une équipe d'ingénieurs pour programmer chaque centimètre de son mouvement. Si une boîte est légèrement de travers sur un tapis roulant, tout le système peut s'arrêter. Le monde physique est complexe, imprévisible et difficile à naviguer pour les logiciels. Alors que l'IA numérique peut écrire un poème en quelques secondes, l'IA physique a eu du mal à comprendre comment une balle rebondit ou comment un verre se brise.

NVIDIA a lancé Cosmos 3 pour combler cette lacune spécifique. L'entreprise l'appelle un modèle de fondation en monde ouvert pour l'IA physique. Ce système est une rupture par rapport aux chatbots que beaucoup de gens utilisent aujourd'hui. Il s'agit d'un système nerveux numérique conçu pour aider les machines à percevoir le monde physique et à prédire ce qui va se passer ensuite. Globalement, cette version est une initiative visant à déplacer l'IA de nos écrans d'ordinateur vers l'industrie lourde qui constitue la colonne vertébrale invisible de la vie moderne.

Les deux cerveaux à l'intérieur de la machine

Sous le capot, Cosmos 3 utilise une architecture de mélange de transformateurs (mixture-of-transformers). Cela semble complexe, mais cela donne essentiellement à l'IA deux types différents de puissance de réflexion. La première partie est un transformateur de raisonnement. Considérez-le comme le navigateur d'une voiture qui regarde la carte et décide du meilleur itinéraire. Il traite les informations visuelles et les relations spatiales pour comprendre l'environnement. La deuxième partie est un transformateur de génération expert. C'est le conducteur qui sait exactement de combien tourner le volant et quand appuyer sur les freins.

En associant ces deux structures, le modèle comprend les interactions entre les objets et le mouvement avant d'essayer d'agir. Par le passé, les robots s'appuyaient souvent sur des scripts fixes. Ils ne comprenaient pas pourquoi ils se déplaçaient d'une certaine manière. Cosmos 3 utilise ce que NVIDIA appelle une précision physique de pointe pour prédire les trajectoires. Si un robot doit ramasser un objet glissant, le modèle l'aide à comprendre comment la friction et la gravité affecteront la tâche.

Pourquoi un omnimodèle est différent d'un chatbot

La plupart des gens connaissent les modèles de langage qui traitent du texte. Cosmos 3 est un omnimodèle, ce qui signifie qu'il gère simultanément une grande variété de types de données. Il comprend le texte, les images, la vidéo et le son ambiant. C'est une façon simplifiée de construire une machine capable de survivre réellement dans un environnement humain. Un robot dans un entrepôt doit voir un chariot élévateur arriver, entendre son bip d'avertissement et comprendre une instruction textuelle sur un écran, tout cela en même temps.

Ce modèle génère également ses propres données. C'est une solution pratique à un problème majeur en robotique. Il est très coûteux et lent de filmer des milliers d'heures de robots échouant dans le monde réel pour leur apprendre ce qu'il ne faut pas faire. Cosmos 3 crée des données synthétiques, ou des sessions d'entraînement numériques, où les robots peuvent échouer des millions de fois dans une simulation avant de toucher un seul composant matériel. Cela réduit le besoin d'énormes ensembles de données d'entraînement en conditions réelles et permet un développement plus rapide.

Passer de la simulation à la réalité

Les chercheurs industriels de McKinsey suggèrent que la robotique va bientôt franchir le fossé entre la simulation et la réalité. Historiquement, les robots travaillaient dans des cages sur des lignes d'assemblage pour assurer la sécurité des humains. Aujourd'hui, ils opèrent dans des contextes dynamiques où ils doivent s'adapter aux mouvements des personnes et aux déplacements d'objets. Cela nécessite une autonomie que les anciens logiciels ne pouvaient pas fournir.

Caractéristique Logiciel de robotique traditionnel IA physique NVIDIA Cosmos 3
Environnement Cages contrôlées et statiques Espaces dynamiques et imprévisibles
Données d'entraînement Scripts codés à la main Données synthétiques et modèles de vision
Réponse au changement Échoue souvent si une pièce est déplacée Prédit la physique pour s'adapter à la volée
Types d'entrée Données de capteurs limitées Vidéo, son, texte et données spatiales
Matériel Machines à usage unique Agents d'IA physique universels

Deloitte prévoit que la capacité installée mondiale de robots industriels atteindra 5,5 millions d'ici 2026. Cette croissance dépend de machines devenant plus intuitives. Lorsqu'un robot dispose d'un modèle fondateur comme Cosmos 3, il n'a pas besoin d'être reprogrammé pour chaque nouvelle tâche. Il possède une compréhension générale du fonctionnement du monde.

La puissance d'une coalition ouverte

NVIDIA ne garde pas cette technologie derrière des portes closes. L'entreprise a lancé la Cosmos Coalition, qui comprend des développeurs et des constructeurs de modèles mondiaux comme Black Forest Labs et Runway. Il s'agit d'une approche décentralisée du développement. En rendant le modèle ouvert, NVIDIA permet à d'autres entreprises de contribuer avec leurs propres recherches et données.

Pour l'utilisateur moyen, cela signifie que différentes marques de robots ou de voitures autonomes peuvent partager un langage commun pour comprendre la physique. De grandes entreprises d'électronique comme Samsung et LG utilisent déjà la plateforme. Dans le secteur automobile, Li Auto l'utilise pour développer des véhicules autonomes. Lorsque ces entreprises travaillent sur le même modèle fondateur, la technologie s'améliore plus rapidement pour tout le monde.

Derrière le jargon des données synthétiques

L'un des aspects les plus perturbateurs de cette annonce est l'accent mis sur la reconstruction de scène neuronale et l'augmentation vidéo. Essentiellement, ces outils permettent à un développeur de prendre une seule vidéo d'un entrepôt et de la transformer en milliers de scénarios différents. Ils peuvent modifier l'éclairage, ajouter des obstacles ou simuler une panne d'équipement.

Il s'agit d'un progrès tangible car il résout le goulot d'étranglement des données. Il est beaucoup plus facile de former une voiture autonome à gérer un blizzard rare si vous pouvez générer une simulation de haute qualité et physiquement précise de ce blizzard. Pour le consommateur, cela conduit à des produits plus résilients et plus sûrs. Un robot de livraison utilisant ces compétences est moins susceptible d'être dérouté par une flaque d'eau sur le trottoir ou un chien errant parce qu'il a déjà vu des milliers de variations de ces obstacles dans son entraînement numérique.

Ce que cela signifie pour votre vie quotidienne

En fin de compte, vous ne verrez peut-être jamais le logiciel Cosmos 3 directement, mais vous en ressentirez les effets. Cette technologie est une couche fondamentale pour la prochaine génération de biens de consommation et de services. Sur le plan du marché, ce changement pourrait conduire à des produits plus abordables à mesure que les usines intelligentes deviennent plus efficaces.

Ce que cela signifie pour vous :

  • Systèmes autonomes plus sûrs : Les voitures et les drones de livraison auront une meilleure compréhension des lois physiques, ce qui les rendra plus prévisibles par mauvais temps ou dans des rues bondées.
  • Appareils plus intelligents : La prochaine génération de robots domestiques s'éloignera probablement du simple passage de l'aspirateur pour se diriger vers des tâches complexes comme débarrasser une table sans briser un verre.
  • Fabrication plus rapide : Des entreprises comme Samsung peuvent rééquiper leurs usines pour de nouveaux produits en quelques jours au lieu de plusieurs mois, car leurs robots sont plus faciles à former.
  • Sécurité au travail améliorée : Les agents d'IA dans les entrepôts peuvent détecter des défauts ou des risques de sécurité que les yeux humains pourraient manquer lors d'un long quart de travail.

Une vision d'ensemble

Jensen Huang, le fondateur de NVIDIA, décrit cela comme le big bang de l'IA physique. Bien qu'il s'agisse d'un langage d'entreprise, le changement sous-jacent est réel. Nous passons d'une IA qui ne fait que parler à une IA qui agit. La sortie de Cosmos 3 Super offre le plus haut niveau de précision physique pour les applications qui ne peuvent se permettre aucune erreur, comme les machines lourdes ou le transit autonome.

Du point de vue du consommateur, nous entrons dans une période où les machines qui nous entourent commenceront à ressembler moins à des outils programmés et plus à des assistants conscients. Elles percevront, raisonneront et agiront avec un niveau de fluidité qui était autrefois réservé à la science-fiction. À mesure que ces modèles se généraliseront, la barrière entre le monde numérique et le monde physique continuera de s'amincir.

Au lieu d'attendre qu'un seul robot révolutionnaire change le monde, nous assistons à l'arrivée d'un cerveau universel qui peut être installé dans de nombreux types de machines différents. Ce changement systémique redéfinira probablement la façon dont nous interagissons avec la technologie dans nos maisons, nos bureaux et nos villes. Observez la prochaine fois que vous verrez une machine de caisse automatique ou un chariot de livraison automatisé. Ces appareils passent du statut de simples ordinateurs à celui d'agents d'IA physique qui comprennent véritablement le monde dans lequel ils évoluent.

Sources : NVIDIA Corporate Newsroom, McKinsey Global Institute, Deloitte Industrial Outlook 2026.

bg
bg
bg

On se retrouve de l'autre côté.

Notre solution de messagerie cryptée de bout en bout et de stockage en nuage constitue le moyen le plus puissant d'échanger des données en toute sécurité, garantissant ainsi la sûreté et la confidentialité de vos données.

/ Créer un compte gratuit