Künstliche Intelligenz

Vergessen Sie den Hype – Echte Roboter haben immer noch Mühe, eine Tür zu öffnen, aber NVIDIA Cosmos 3 will das ändern

NVIDIA Cosmos 3 ist ein offenes Modell für physische KI, das Robotern und autonomen Fahrzeugen hilft, die Weltphysik mit hoher Genauigkeit zu verstehen.

Alwin Davies

Leitender Technologiekorrespondent

15. Juni 2026

Vergessen Sie den Hype – Echte Roboter haben immer noch Mühe, eine Tür zu öffnen, aber NVIDIA Cosmos 3 will das ändern

Die meisten Schlagzeilen aus der Tech-Welt suggerieren, dass Roboter nur noch Augenblicke davon entfernt sind, Ihre Wäsche zu falten und mit Ihrem Hund spazieren zu gehen. In der Realität benötigt ein Roboter in einer modernen Fabrik oft ein Team von Ingenieuren, um jeden einzelnen Zentimeter seiner Bewegung zu programmieren. Wenn ein Karton nur leicht schräg auf einem Förderband liegt, kann das gesamte System zum Stillstand kommen. Die physische Welt ist unordentlich, unvorhersehbar und für Software schwer zu navigieren. Während eine digitale KI in Sekundenschnelle ein Gedicht schreiben kann, hat die physische KI bisher damit gekämpft zu verstehen, wie ein Ball abprallt oder wie ein Glas zerbricht.

NVIDIA hat Cosmos 3 veröffentlicht, um genau diese Lücke zu schließen. Das Unternehmen bezeichnet es als ein Open-World-Basismodell für physische KI. Dieses System unterscheidet sich grundlegend von den Chatbots, die viele Menschen heute nutzen. Es ist ein digitales Nervensystem, das Maschinen helfen soll, die physische Welt wahrzunehmen und vorherzusagen, was als Nächstes passiert. Im Großen und Ganzen ist diese Veröffentlichung ein Schritt, um KI von unseren Computerbildschirmen in die Schwerindustrie zu bringen, die das unsichtbare Rückgrat des modernen Lebens bildet.

Die zwei Gehirne in der Maschine

Unter der Haube nutzt Cosmos 3 eine Mixture-of-Transformers-Architektur. Das klingt komplex, verleiht der KI aber im Wesentlichen zwei verschiedene Arten von Denkkraft. Der erste Teil ist ein Reasoning-Transformer. Stellen Sie sich diesen wie den Navigator in einem Auto vor, der auf die Karte schaut und die beste Route festlegt. Er verarbeitet visuelle Informationen und räumliche Beziehungen, um die Umgebung zu verstehen. Der zweite Teil ist ein Expert-Generation-Transformer. Dies ist der Fahrer, der genau weiß, wie weit er das Lenkrad drehen und wann er die Bremse betätigen muss.

Durch die Paarung dieser beiden Strukturen versteht das Modell Objektinteraktionen und Bewegungen, bevor es versucht zu handeln. In der Vergangenheit verließen sich Roboter oft auf fest vorgegebene Skripte. Sie verstanden nicht, warum sie sich auf eine bestimmte Weise bewegten. Cosmos 3 nutzt das, was NVIDIA als führende Physikgenauigkeit bezeichnet, um Trajektorien vorherzusagen. Wenn ein Roboter ein rutschiges Objekt aufheben muss, hilft ihm das Modell zu verstehen, wie Reibung und Schwerkraft die Aufgabe beeinflussen werden.

Warum ein Omnimodell anders ist als ein Chatbot

Die meisten Menschen sind mit Sprachmodellen vertraut, die Text verarbeiten. Cosmos 3 ist ein Omnimodell, was bedeutet, dass es eine Vielzahl von Datentypen gleichzeitig verarbeitet. Es versteht Text, Bilder, Video und Umgebungsgeräusche. Dies ist ein effizienter Weg, um eine Maschine zu bauen, die in einer menschlichen Umgebung tatsächlich bestehen kann. Ein Roboter in einem Lagerhaus muss sehen, dass ein Gabelstapler kommt, dessen Warnton hören und gleichzeitig eine textbasierte Anweisung auf einem Bildschirm verstehen.

Dieses Modell generiert auch seine eigenen Daten. Dies ist eine praktische Lösung für ein großes Problem in der Robotik. Es ist sehr teuer und zeitaufwendig, tausende Stunden von Robotern zu filmen, die in der realen Welt scheitern, um ihnen beizubringen, was sie nicht tun sollen. Cosmos 3 erstellt synthetische Daten oder digitale Trainingseinheiten, in denen Roboter millionenfach in einer Simulation scheitern können, bevor sie jemals ein Stück Hardware berühren. Dies reduziert den Bedarf an massiven realen Trainingsdatensätzen und ermöglicht eine schnellere Entwicklung.

Der Übergang von der Simulation zur Realität

Branchenforscher von McKinsey gehen davon aus, dass die Robotik bald die Lücke von der Simulation zur Realität schließen wird. Historisch gesehen arbeiteten Roboter in Käfigen an Montagelinien, um die Sicherheit von Menschen zu gewährleisten. Heute agieren sie in dynamischen Umgebungen, in denen sie sich an bewegende Menschen und verschobene Objekte anpassen müssen. Dies erfordert eine Autonomie, die ältere Software nicht bieten konnte.

Merkmal	Traditionelle Robotik-Software	NVIDIA Cosmos 3 Physische KI
Umgebung	Kontrollierte, statische Käfige	Dynamische, unvorhersehbare Räume
Trainingsdaten	Handkodierte Skripte	Synthetische Daten und Visionsmodelle
Reaktion auf Veränderung	Scheitert oft, wenn ein Teil bewegt wird	Sagt Physik voraus, um sich sofort anzupassen
Eingabetypen	Begrenzte Sensordaten	Video, Ton, Text und räumliche Daten
Hardware	Einzweckmaschinen	Universelle physische KI-Agenten

Deloitte prognostiziert, dass die weltweit installierte Kapazität von Industrierobotern bis 2026 5,5 Millionen erreichen wird. Dieses Wachstum hängt davon ab, dass Maschinen intuitiver werden. Wenn ein Roboter über ein Basismodell wie Cosmos 3 verfügt, muss er nicht für jede neue Aufgabe neu programmiert werden. Er besitzt ein allgemeines Verständnis dafür, wie die Welt funktioniert.

Die Kraft einer offenen Koalition

NVIDIA hält diese Technologie nicht hinter verschlossenen Türen. Das Unternehmen hat die Cosmos Coalition ins Leben gerufen, der Entwickler und Ersteller von Weltmodellen wie Black Forest Labs und Runway angehören. Dies ist ein dezentraler Entwicklungsansatz. Indem NVIDIA das Modell offen zugänglich macht, ermöglicht es anderen Unternehmen, ihre eigene Forschung und Daten beizusteuern.

Für den Durchschnittsnutzer bedeutet dies, dass verschiedene Robotermarken oder autonome Autos eine gemeinsame Sprache zum Verständnis der Physik teilen können. Große Elektronikunternehmen wie Samsung und LG nutzen die Plattform bereits. Im Automobilsektor nutzt Li Auto sie zur Entwicklung autonomer Fahrzeuge. Wenn diese Unternehmen am selben Basismodell arbeiten, verbessert sich die Technologie für alle schneller.

Hinter dem Fachjargon der synthetischen Daten

Einer der bahnbrechendsten Teile dieser Ankündigung ist der Fokus auf neuronale Szenenrekonstruktion und Video-Augmentierung. Im Wesentlichen ermöglichen diese Werkzeuge einem Entwickler, ein einzelnes Video eines Lagerhauses aufzunehmen und es in tausende verschiedene Szenarien zu verwandeln. Sie können die Beleuchtung ändern, Hindernisse hinzufügen oder einen Geräteausfall simulieren.

Dies ist ein greifbarer Fortschritt, da er den Datenengpass löst. Es ist viel einfacher, ein selbstfahrendes Auto für einen seltenen Schneesturm zu trainieren, wenn man eine hochwertige, physikalisch genaue Simulation dieses Schneesturms erstellen kann. Für den Verbraucher führt dies zu Produkten, die widerstandsfähiger und sicherer sind. Ein Lieferroboter, der diese Fähigkeiten nutzt, wird seltener durch eine Pfütze auf dem Gehweg oder einen streunenden Hund verwirrt, da er bereits tausende Variationen dieser Hindernisse in seinem digitalen Training gesehen hat.

Was das für Ihren Alltag bedeutet

Letztendlich werden Sie die Cosmos 3 Software vielleicht nie direkt sehen, aber Sie werden ihre Auswirkungen erleben. Diese Technologie ist eine Basisschicht für die nächste Generation von Konsumgütern und Dienstleistungen. Marktseitig könnte dieser Wandel zu erschwinglicheren Produkten führen, da intelligente Fabriken effizienter werden.

Was das für Sie bedeutet:

Sicherere autonome Systeme: Autos und Lieferdrohnen werden physikalische Gesetze besser begreifen, was sie bei schlechtem Wetter oder in belebten Straßen berechenbarer macht.
Intelligentere Haushaltsgeräte: Die nächste Generation von Haushaltsrobotern wird sich wahrscheinlich vom einfachen Staubsaugen hin zu komplexen Aufgaben entwickeln, wie etwa dem Abräumen eines Tisches, ohne ein Glas zu zerbrechen.
Schnellere Fertigung: Unternehmen wie Samsung können ihre Fabriken in Tagen statt Monaten auf neue Produkte umstellen, da ihre Roboter einfacher zu trainieren sind.
Verbesserte Sicherheit am Arbeitsplatz: KI-Agenten in Lagerhäusern können Defekte oder Sicherheitsrisiken erkennen, die menschlichen Augen während einer langen Schicht entgehen könnten.

Das Gesamtbild betrachten

Jensen Huang, der Gründer von NVIDIA, beschreibt dies als den Urknall der physischen KI. Auch wenn dies eine Marketingsprache ist, ist der zugrunde liegende Wandel real. Wir bewegen uns weg von einer KI, die nur spricht, hin zu einer KI, die handelt. Die Veröffentlichung von Cosmos 3 Super bietet das höchste Maß an Physikgenauigkeit für Anwendungen, die sich keine Fehler leisten können, wie schwere Maschinen oder der autonome Nahverkehr.

Aus der Sicht der Verbraucher treten wir in eine Phase ein, in der die Maschinen um uns herum weniger wie programmierte Werkzeuge und mehr wie bewusste Assistenten wirken werden. Sie werden wahrnehmen, schlussfolgern und mit einer Geschmeidigkeit agieren, die einst der Science-Fiction vorbehalten war. Da diese Modelle immer verbreiteter werden, wird die Grenze zwischen der digitalen und der physischen Welt weiter verschwimmen.

Anstatt auf einen einzigen bahnbrechenden Roboter zu warten, der die Welt verändert, erleben wir die Ankunft eines universellen Gehirns, das in viele verschiedene Arten von Maschinen eingebaut werden kann. Dieser systemische Wandel wird wahrscheinlich neu definieren, wie wir mit Technologie in unseren Häusern, Büros und Städten interagieren. Achten Sie das nächste Mal darauf, wenn Sie einen Self-Checkout-Automaten oder einen automatisierten Lieferwagen sehen. Diese Geräte wandeln sich von einfachen Computern zu physischen KI-Agenten, die die Welt, in der sie sich befinden, wirklich verstehen.

Quellen: NVIDIA Corporate Newsroom, McKinsey Global Institute, Deloitte Industrial Outlook 2026.

#AutonomeSysteme #NVIDIACosmos3 #OpenSourceKI #PhysischeKI #RobotikTrends

Wir sehen uns auf der anderen Seite.

Unsere Ende-zu-Ende-verschlüsselte E-Mail- und Cloud-Speicherlösung bietet die leistungsfähigsten Mittel für den sicheren Datenaustausch und gewährleistet die Sicherheit und den Schutz Ihrer Daten.

/ Kostenloses Konto erstellen

Benutzerdefinierte Domänen

Bis zu 1TB Speicherplatz

Erweiterte Freigabe

Ende-zu-Ende-Verschlüsselung

Selbstzerstörende E-Mails

Benutzerdefinierte Domänen

Bis zu 1TB Speicherplatz

Erweiterte Freigabe

Ende-zu-Ende-Verschlüsselung

Selbstzerstörende E-Mails

Beeble Mail

Beeble Drive

Über Beeble

Mission

Geschichte

Premium

Allgemeine Fragen

Spenden

Kontakte