Künstliche Intelligenz

Warum Ihre lokale Fabrik bald von einem Roboter mit einem „visuellen Notizblock“ verwaltet werden könnte

Googles Gemini Robotics-ER 1.6 ermöglicht es dem Spot von Boston Dynamics, Messgeräte mit einer Genauigkeit von 98 % abzulesen, und bringt „agentische Sicht“ in die industrielle Inspektion.
Warum Ihre lokale Fabrik bald von einem Roboter mit einem „visuellen Notizblock“ verwaltet werden könnte

Stellen Sie sich einen unermüdlichen Praktikanten vor, der durch einen weitläufigen Industriekomplex wandert. Dieser Praktikant braucht keinen Kaffee, wird nie müde, zum tausendsten Mal auf dasselbe Manometer zu starren, und kann nun den Unterschied zwischen einem leicht lockeren Bolzen und einem katastrophalen Rohrbruch mit der Präzision eines erfahrenen Ingenieurs erkennen. Dies ist keine Szene aus einem Sci-Fi-Reboot; es ist das greifbare Ergebnis der neuesten Zusammenarbeit zwischen Google DeepMind und Boston Dynamics.

Am 14. April 2026 kündigte Google die Veröffentlichung von Gemini Robotics-ER 1.6 an, ein spezialisiertes KI-Modell, das Robotern wie dem vierbeinigen Spot „verkörperte Argumentation“ (embodied reasoning) verleihen soll. Einfach ausgedrückt bedeutet dies, dass der Roboter nicht mehr nur eine ferngesteuerte Kamera ist. Er beginnt, die physische Welt, in der er sich bewegt, zu verstehen und entwickelt sich von einem einfachen Werkzeug zu einem autonomen Inspektor, der in der Lage ist, analoge Skalen zu lesen und Werkzeuge in einem unordentlichen Raum mit fast menschlicher Genauigkeit zu identifizieren.

Das Ende des „blinden“ Roboters

In der Vergangenheit waren Roboter brillant darin, Dinge zu wiederholen, aber schrecklich darin, aufmerksam zu sein. Wenn man einen Roboterarm darauf programmierte, eine Autotür punktzuschweißen, tat er dies eine Million Mal perfekt. Wenn diese Autotür jedoch um fünf Zentimeter nach links verschoben wurde, würde der Roboter wahrscheinlich einfach weiter ins Leere schweißen. Dieser Mangel an Anpassungsfähigkeit hat Roboter bisher auf streng kontrollierte Umgebungen wie Montagelinien beschränkt.

Unter der Haube dieses neuen Updates steckt etwas, das Google „agentische Sicht“ (agentic vision) nennt. Stellen Sie sich dies als einen visuellen Notizblock vor. Wenn der Roboter eine komplexe Szene betrachtet – sagen wir, eine Wand mit 50 verschiedenen analogen Anzeigen in einem alternden Kraftwerk –, macht er nicht einfach nur ein Foto. Er nutzt das KI-Modell, um auf spezifische Elemente zu „zeigen“, kleine Code-Schnipsel auszuführen, um das Gesehene zu verifizieren, und die Daten logisch zu analysieren.

Praktisch gesehen hat dies zu einem massiven Leistungssprung geführt. Die Vorgängerversion dieses Modells, Version 1.5, schaffte es nur in etwa 23 Prozent der Fälle, Instrumente korrekt abzulesen. Das neue Modell 1.6 hat diese Genauigkeit auf beeindruckende 98 Prozent gesteigert. Für den Durchschnittsnutzer ist dies der Unterschied zwischen einem GPS, das einem gelegentlich sagt, man solle in einen See fahren, und einem, das eine komplexe fünfseitige Kreuzung ohne Mühe meistert.

Warum analoge Anzeigen in einer digitalen Welt noch immer wichtig sind

Es mag kontraintuitiv erscheinen, Millionen von Dollar auszugeben, um einem Hightech-Roboterhund beizubringen, wie man ein 50 Jahre altes analoges Thermometer liest. Warum ersetzt man das Thermometer nicht einfach durch einen digitalen Sensor, der Daten in die Cloud sendet?

Betrachtet man das große Ganze, so ist das globale industrielle Rückgrat unglaublich widerstandsfähig – und unglaublich alt. Jedes manuelle Ventil, jedes Schauglas und jedes Manometer in einer Raffinerie oder einem Hyundai-Automobilwerk zu ersetzen, würde Milliarden kosten und monatliche Ausfallzeiten erfordern. Es ist weitaus skalierbarer, einem Roboter die „Augen“ zu geben, um vorhandene Ausrüstung zu lesen, als die Welt umzubauen, damit sie dem Roboter entspricht.

Hier wird die Partnerschaft mit Boston Dynamics entscheidend. Ihr Roboter Spot wird bereits in Anlagen der Hyundai Motor Group getestet. Durch den Einsatz von Gemini Robotics-ER 1.6 kann Spot nun eine „Multi-View-Argumentation“ durchführen. Er kann seine verschiedenen Kamerastreams nutzen, um seine Umgebung in 3D zu verstehen, wodurch sichergestellt wird, dass er nicht nur eine Anzeige sieht, sondern versteht, wo diese Anzeige im Verhältnis zum Rest der Maschinerie platziert ist.

Das Problem der „Halluzinationen“ lösen

Hürden für KI in der physischen Welt sind „Halluzinationen“ – die Tendenz von Modellen, selbstbewusst zu behaupten, dass etwas da ist, obwohl es nicht existiert. In einem Chatbot ist eine Halluzination eine lustige Eigenheit; in einem Schwerindustrie-Umfeld, in dem ein Roboter flüchtige Chemikalien überwacht, ist eine Halluzination ein Sicherheitsalbtraum.

Googles Tests zeigten, dass das 1.6-Modell viel besser darin ist, in der Realität verankert zu bleiben. In einem Test mit einem überfüllten Tisch voller Werkzeuge „sah“ das ältere Modell eine Schubkarre, die gar nicht existierte, nur weil es gefragt wurde, nach einer zu suchen. Das neue Modell hingegen identifizierte die Hämmer, Scheren und Zangen korrekt und ignorierte die Fangfrage. Diese verbesserte Genauigkeit ist die Grundlage dafür, Roboter aus dem Labor in die unordentliche, unvorhersehbare reale Welt zu bringen.

Merkmal Gemini Robotics-ER 1.5 Gemini Robotics-ER 1.6 Gemini 3.0 Flash
Genauigkeit beim Ablesen von Instrumenten 23% 98% 67%
Visuelle Argumentation Basis Agentisch (Visueller Notizblock) Standard
Sicherheitsbeschränkungen Manuell Integriert/Systemisch Allgemein
Halluzinationsrate Hoch Niedrig Moderat

Sicherheit zuerst: Der Roboter als Wächter

Über das bloße Ablesen von Skalen hinaus wird das neue Modell als das bisher sicherste von Google beschrieben. Es wurde darauf trainiert, physische Sicherheitsbeschränkungen zu verstehen, wie etwa den Umgang mit Flüssigkeiten ohne Verschütten oder das Navigieren um Menschen herum.

Anders ausgedrückt: Die KI lernt die Regeln des „gesunden Menschenverstands“ der physischen Welt. Sie kann nun das Verletzungsrisiko in komplexen Szenarien wahrnehmen – etwa erkennen, dass ein Kind in der Nähe einer Steckdose eine Hochrisikosituation darstellt. Obwohl wir noch weit davon entfernt sind, dass ein Roboter ein menschliches Verständnis von Ethik besitzt, sind diese inkrementellen Schritte hin zur „verkörperten Argumentation“ essenziell für die dezentrale Zukunft der Robotik, in der Maschinen an unserer Seite arbeiten, anstatt hinter einem Schutzzaun.

Was das für Sie bedeutet

Aus der Sicht des Verbrauchers werden Sie wahrscheinlich so schnell keinen Spot-Hund haben, der Ihr heimisches Thermostat abliest. Die nachgelagerten Auswirkungen sind jedoch signifikant.

  1. Niedrigere Kosten, weniger Ausfälle: Da Industrieanlagen effizienter werden und weniger anfällig für menschliche Fehler oder Geräteausfälle sind, stabilisieren sich die Herstellungskosten für Güter – von Autos bis hin zu Strom.
  2. Die Demokratisierung der Sicht: Die hier entwickelte „agentische Sicht“-Technologie wird schließlich in Endgeräte einfließen. Stellen Sie sich eine Smartphone-App vor, die nicht nur ein Foto Ihres Sicherungskastens macht, sondern Ihnen genau sagt, welcher Schalter herausgesprungen ist und warum.
  3. Sicherheitsstandards: Wir erleben die Geburtsstunde eines neuen Sicherheitsrahmens für KI. Indem diese Modelle lernen, physische Grenzen zu respektieren, bereiten sie den Weg für fortschrittlichere Haushaltsassistenten und Lieferroboter, in deren Nähe man sich wirklich sicher fühlen kann.

Letztendlich geht es hier nicht nur um einen Roboterhund, der auf ein Thermometer schaut. Es geht um die Verschmelzung von digitaler Intelligenz mit physischer Präsenz. Wir bewegen uns auf eine Welt zu, in der das „digitale Rohöl“ der Daten von Maschinen extrahiert und veredelt wird, die die Welt endlich so klar sehen können wie wir.

Wenn Sie Ihren Tag verbringen, nehmen Sie sich einen Moment Zeit, um die unsichtbare Industriemechanik um Sie herum zu betrachten – die Rohre in Ihrem Keller, die Zähler an der Seite Ihres Hauses, die komplexen Maschinen im hinteren Teil eines Supermarkts. Jahrzehntelang erforderten diese ein menschliches Augenpaar, um sicher zu bleiben. Wir treten nun in eine Ära ein, in der diese Augen niemals blinzeln, niemals müde werden und – dank eines visuellen Notizblocks – selten einen Fehler machen.

bg
bg
bg

Wir sehen uns auf der anderen Seite.

Unsere Ende-zu-Ende-verschlüsselte E-Mail- und Cloud-Speicherlösung bietet die leistungsfähigsten Mittel für den sicheren Datenaustausch und gewährleistet die Sicherheit und den Schutz Ihrer Daten.

/ Kostenloses Konto erstellen