Ένας μικρός μεταλλικός πείρος γλιστράει σε μια τρύπα τεσσάρων χιλιοστών με την ακρίβεια ενός ωρολογοποιού. Ο ρομποτικός βραχίονας που κρατά τον πείρο κινείται με μια ρευστή, σίγουρη κίνηση που υποδηλώνει χρόνια εξάσκησης. Αυτή η επιτυχημένη ενέργεια είναι το τελικό προϊόν μιας νέας αυτοματοποιημένης ροής εργασίας. Πίσω από αυτή τη μοναδική επιτυχημένη κίνηση κρύβεται μια πολύπλοκη αλυσίδα εντολών λογισμικού. Αυτές οι εντολές προήλθαν από έναν πράκτορα κωδικοποίησης AI όπως το Claude ή το Codex. Ο ίδιος ο πράκτορας υπάρχει μέσα σε ένα πλαίσιο που ονομάζεται ENPIRE, το οποίο οι ερευνητές της Nvidia αποκάλυψαν πρόσφατα στο κοινό. Για την τροφοδοσία αυτού του πράκτορα, η Nvidia διέθεσε έναν τεράστιο προϋπολογισμό χρόνου επεξεργασίας GPU και ψηφιακών διακριτικών (tokens). Στην αρχή αυτής της αλυσίδας βρίσκεται ένας απλός στόχος: να διδαχθεί μια μηχανή να κάνει μια δουλειά χωρίς την παρουσία ανθρώπου στο δωμάτιο.
Η Nvidia, σε συνεργασία με ερευνητές από το Carnegie Mellon και το UC Berkeley, δημοσίευσε πρόσφατα μια εργασία που περιγράφει λεπτομερώς το ENPIRE. Το πλαίσιο επιτρέπει σε πράκτορες κωδικοποίησης AI να αναλάβουν ολόκληρη τη διαδικασία εκπαίδευσης ενός ρομπότ. Πρόκειται για τα ίδια εργαλεία λογισμικού που χρησιμοποιούν οι προγραμματιστές για να γράψουν κώδικα ιστοσελίδων ή να αποσφαλματώσουν εφαρμογές. Στο σύστημα ENPIRE, αυτοί οι πράκτορες είναι υπεύθυνοι για τη συγγραφή του κώδικα εκπαίδευσης, τη δοκιμή του σε φυσικό υλικό και τη διόρθωση σφαλμάτων όταν το ρομπότ αποτυγχάνει. Παραδοσιακά, ένας μηχανικός χρειαζόταν εβδομάδες για να συντονίσει αυτές τις κινήσεις. Τώρα, ένας στόλος οκτώ ρομπότ μπορεί να διδαχθεί τις ίδιες δεξιότητες σε ένα κλάσμα του χρόνου.
Για να καταλάβετε πώς λειτουργεί αυτό, σκεφτείτε τον πράκτορα κωδικοποίησης AI ως έναν ακούραστο ασκούμενο. Σε ένα τυπικό εργαστήριο, ένας μηχανικός πρέπει να παρακολουθεί ένα ρομπότ που προσπαθεί να σηκώσει έναν κύβο, να το βλέπει να αποτυγχάνει και στη συνέχεια να ξαναγράφει χειροκίνητα τον κώδικα για να διορθώσει τη λαβή. Αυτό είναι αργό και δαπανηρό. Το ENPIRE αντικαθιστά τον ανθρώπινο παρατηρητή με έναν ψηφιακό βρόχο. Η διαδικασία έχει δύο αρχικά βήματα στα οποία εμπλέκονται άνθρωποι. Πρώτον, ένα άτομο βοηθά τον πράκτορα να δημιουργήσει μια ρουτίνα επαναφοράς. Πρόκειται για ένα σύνολο οδηγιών που λέει στο ρομπότ πώς να επαναφέρει τον χώρο εργασίας στην αρχική του κατάσταση μετά από μια αποτυχημένη προσπάθεια. Δεύτερον, ο άνθρωπος βοηθά στη δημιουργία μιας συνάρτησης ανταμοιβής. Πρόκειται για έναν «διαιτητή» AI που παρακολουθεί πλάνα από κάμερες για να αποφασίσει αν το ρομπότ πέτυχε ή απέτυχε.
Μόλις αυτά τα δύο εργαλεία τεθούν σε λειτουργία, οι άνθρωποι αποχωρούν. Ο πράκτορας AI ξεκινά τη βάρδιά του αναζητώντας σε ακαδημαϊκές εργασίες τις καλύτερες μεθόδους εκπαίδευσης. Επιλέγει μια στρατηγική, γράφει τον απαραίτητο κώδικα Python και τον στέλνει στους ρομποτικούς βραχίονες. Εάν το ρομπότ ρίξει έναν πείρο ή χάσει έναν στόχο, ο πράκτορας βλέπει την αποτυχία, αναλύει τα δεδομένα και ξαναγράφει τον κώδικα. Αυτό είναι αυτο-έρευνα στον φυσικό κόσμο. Ενώ οι άνθρωποι κοιμούνται, οι πράκτορες εκτελούν εκατοντάδες πειράματα. Δεν βαριούνται και δεν χρειάζονται διαλείμματα για καφέ. Αυτός ο συνεχής κύκλος δοκιμής και σφάλματος είναι που επιτρέπει στο σύστημα να φτάσει σε ποσοστό επιτυχίας 99% σε πολύπλοκες φυσικές εργασίες.
Η πραγματική ισχύς του ENPIRE είναι εμφανής όταν το σύστημα μεταβαίνει από ένα μεμονωμένο ρομπότ σε έναν στόλο. Η Nvidia χρησιμοποίησε οκτώ σταθμούς ρομπότ με δύο βραχίονες για το κύριο πείραμά της. Αυτοί οι σταθμοί δεν είναι απομονωμένοι. Συνδέονται μέσω του Git, το οποίο είναι το τυπικό εργαλείο που χρησιμοποιούν οι προγραμματιστές λογισμικού για να μοιράζονται και να παρακολουθούν αλλαγές στον κώδικα. Όταν ένα ρομπότ ανακαλύπτει έναν καλύτερο τρόπο για να τοποθετήσει μια κάρτα γραφικών ή να κόψει ένα δεματικό (zip tie), καταχωρεί (commits) αυτόν τον κώδικα σε ένα κοινό αποθετήριο. Τα άλλα επτά ρομπότ κατεβάζουν αμέσως την ενημέρωση.
Αυτή η κοινή νοημοσύνη δημιουργεί ένα τεράστιο πλεονέκτημα ταχύτητας. Στην εργασία γνωστή ως Push-T, όπου ένα ρομπότ πρέπει να σύρει ένα μπλοκ σχήματος Τ σε μια συγκεκριμένη ζώνη, ένα μεμονωμένο ρομπότ χρειάστηκε περίπου πέντε ώρες για να μάθει την κίνηση. Όταν οι ερευνητές ενεργοποίησαν και τα οκτώ ρομπότ, ο χρόνος μειώθηκε σε μόλις δύο ώρες. Η ίδια τάση εμφανίστηκε στην εισαγωγή πείρου. Ένας μεμονωμένος βραχίονας χρειαζόταν πάνω από 90 λεπτά για να γίνει αξιόπιστος, αλλά ο στόλος ολοκλήρωσε τη δουλειά σε 40 λεπτά.
| Εργασία | Χρόνος Εκπαίδευσης Ενός Ρομπότ | Χρόνος Εκπαίδευσης Στόλου Οκτώ Ρομπότ | Τελικό Ποσοστό Επιτυχίας |
|---|---|---|---|
| Push-T | 5 Ώρες | 2 Ώρες | 99% |
| Εισαγωγή Πείρου | 90 Λεπτά | 40 Λεπτά | 99% |
| Κοπή Δεματικού | Μ/Δ | Επιταχυνόμενη | 99% |
| Τοποθέτηση GPU | Μ/Δ | Επιταχυνόμενη | 99% |
Κοιτάζοντας τη συνολική εικόνα, αυτό υποδηλώνει ότι το εμπόδιο στη ρομποτική δεν ήταν ποτέ το υλικό (hardware). Ο περιορισμός ήταν η ταχύτητα της ανθρώπινης καθοδήγησης. Επιτρέποντας στα ρομπότ να μιλούν μεταξύ τους μέσω ενός κεντρικού πράκτορα κωδικοποίησης, η διαδικασία μάθησης γίνεται αποκεντρωμένη και απίστευτα γρήγορη.
Υπάρχει ένα σημαντικό εμπόδιο που οι ερευνητές AI ονομάζουν «χάσμα προσομοίωσης-πραγματικότητας» (sim-to-real gap). Είναι εύκολο να διδάξεις ένα ρομπότ να κάνει κάτι σε μια προσομοίωση υπολογιστή όπου η βαρύτητα είναι τέλεια και οι επιφάνειες δεν έχουν υφή. Σε έναν προσομοιωτή, κάθε μπλοκ σχήματος Τ είναι πανομοιότυπο και κάθε τραπέζι είναι απόλυτα επίπεδο. Ο πραγματικός κόσμος είναι ακατάστατος. Τα τραπέζια έχουν τριβή, ο φωτισμός αλλάζει κατά τη διάρκεια της ημέρας και τα μηχανικά μέρη έχουν μικροσκοπικές ατέλειες.
Κατά τη διάρκεια των πειραμάτων ENPIRE, το χάσμα μεταξύ προσομοίωσης και πραγματικότητας ήταν σαφές. Και οι τρεις πράκτορες κωδικοποίησης που δοκιμάστηκαν —το Codex της OpenAI, το Claude Code της Anthropic και το Kimi Code της Moonshot— έλυσαν την εργασία Push-T εύκολα σε μια εικονική κουζίνα. Ωστόσο, όταν ο κώδικας μεταφέρθηκε στα πραγματικά φυσικά ρομπότ, δύο από αυτούς τους τρεις πράκτορες απέτυχαν αρχικά. Δυσκολεύτηκαν με τη φυσική ενός πραγματικού τραπεζιού. Οι πράκτορες έπρεπε να ξαναγράψουν τον κώδικά τους αρκετές φορές για να λάβουν υπόψη τον τρόπο με τον οποίο το πλαστικό μπλοκ γλιστρούσε πραγματικά στην επιφάνεια. Αυτό υπογραμμίζει γιατί οι φυσικές δοκιμές εξακολουθούν να είναι το χρυσό πρότυπο για τη ρομποτική. Μια AI μπορεί να είναι ιδιοφυΐα σε έναν ψηφιακό κόσμο και παρόλα αυτά να αποτύχει να κόψει ένα δεματικό σε ένα εργαστήριο επειδή δεν υπολόγισε τον τρόπο με τον οποίο λυγίζει το πλαστικό.
Αν και ο χρόνος που εξοικονομείται είναι εντυπωσιακός, δεν είναι δωρεάν. Υπάρχει ένα κρυφό κόστος στο να αφήνεις τους πράκτορες AI να διευθύνουν την παράσταση. Κάθε φορά που ένας πράκτορας όπως το Claude Code σκέφτεται ένα πρόβλημα, καταναλώνει διακριτικά (tokens). Αυτά τα διακριτικά αντιπροσωπεύουν τα δεδομένα που επεξεργάζεται το μεγάλο γλωσσικό μοντέλο και κοστίζουν πραγματικά χρήματα. Η Nvidia σημείωσε ότι ενώ η κλιμάκωση από ένα ρομπότ σε οκτώ μείωσε τον χρόνο εκπαίδευσης περισσότερο από το μισό, ο λογαριασμός των tokens αυξήθηκε ακόμη πιο γρήγορα.
Ουσιαστικά, το σύστημα ανταλλάσσει τον φθηνό ανθρώπινο χρόνο με ακριβό χρόνο υπολογιστή. Για έναν γίγαντα όπως η Nvidia, που κατέχει τα τσιπ και τα κέντρα δεδομένων, αυτή είναι μια κερδοφόρα ανταλλαγή. Για μια μικρότερη startup, το κόστος του να αφήσει έναν πράκτορα AI να «σκεφτεί» τη λύση μέσα από χίλια αποτυχημένα πειράματα μπορεί να είναι υψηλότερο από το να προσλάβει απλώς έναν άνθρωπο μηχανικό. Αυτό δημιουργεί ένα χάσμα στην αγορά. Οι εταιρείες με τη μεγαλύτερη υπολογιστική ισχύ θα είναι πιθανότατα εκείνες που θα παράγουν τα πιο ικανά ρομπότ, επειδή μπορούν να αντέξουν το υψηλό κόστος της αυτοματοποιημένης αποτυχίας.
Για τον μέσο χρήστη, αυτή η έρευνα είναι το πρώτο βήμα προς ρομπότ που είναι πραγματικά χρήσιμα σε ένα σπίτι. Τα περισσότερα τρέχοντα οικιακά ρομπότ, όπως οι βασικές ηλεκτρικές σκούπες, είναι προγραμματισμένα με άκαμπτους κανόνες. Δυσκολεύονται αν μετακινήσετε τα έπιπλά σας ή αγοράσετε ένα νέο χαλί. Ένα ρομπότ που τροφοδοτείται από ένα σύστημα όπως το ENPIRE δεν θα χρειαζόταν ενημέρωση λογισμικού από τον κατασκευαστή για να χειριστεί μια νέα δουλειά. Θα μπορούσε θεωρητικά να περάσει ένα απόγευμα «εξασκούμενο» στο πώς να διπλώνει τη δική σας συγκεκριμένη μάρκα ρούχων ή να γεμίζει το δικό σας συγκεκριμένο πλυντήριο πιάτων.
Από την πλευρά της αγοράς, βλέπουμε έναν αγώνα δρόμου μεταξύ των ΗΠΑ και της Κίνας. Την ίδια εβδομάδα που η Nvidia κυκλοφόρησε το ENPIRE, η Alibaba παρουσίασε το Qwen-Robot Suite. Η Alibaba επικεντρώνεται στους «εγκεφάλους» λογισμικού που μπορούν να λειτουργήσουν σε οποιοδήποτε σώμα ρομπότ, ενώ η Nvidia δοκιμάζει πώς το δικό της υλικό μπορεί να βελτιώσει τον εαυτό του. Αυτός ο ανταγωνισμός είναι καλός για τους καταναλωτές. Σημαίνει ότι η τεχνολογία που κάνει τα ρομπότ εξυπνότερα μετακινείται από τον καθαρά θεωρητικό χώρο στο εργοστάσιο και στο σπίτι.
Πρακτικά μιλώντας, απομακρυνόμαστε από την εποχή των ρομπότ που προγραμματίζονται και οδεύουμε προς μια εποχή ρομπότ που καθοδηγούνται. Ο άνθρωπος παρέχει τον στόχο και τον διαιτητή, και η AI αναλαμβάνει την κουραστική δουλειά της εξάσκησης μέχρι να γίνει τέλεια. Τελικά, αυτό θα αλλάξει τον τρόπο με τον οποίο αλληλεπιδρούμε με την τεχνολογία. Αντί να μαθαίνουμε πώς να χρησιμοποιούμε μια μηχανή, θα λέμε απλώς στη μηχανή τι θέλουμε να μάθει.
Πίσω από την ορολογία των πρακτόρων κωδικοποίησης και των συναρτήσεων ανταμοιβής κρύβεται μια απλή πραγματικότητα: οι μηχανές αρχίζουν να γράφουν τα δικά τους εγχειρίδια. Αυτή η στροφή πιθανότατα θα οδηγήσει σε πιο ανθεκτικό υλικό και πιο διαισθητικές συσκευές. Παρατηρήστε πώς τα εργαλεία στη ζωή σας απαιτούν επί του παρόντος να προσαρμόζεστε εσείς σε αυτά. Σε λίγα χρόνια, καθώς αυτοί οι αυτόνομοι βρόχοι εκπαίδευσης γίνουν πρότυπο, οι συσκευές στο σπίτι σας θα είναι αυτές που θα προσαρμόζονται.
Πηγές: Nvidia GEAR Lab Research Paper, επίσημες ανακοινώσεις από τον Jim Fan μέσω X/Twitter και η τεχνική τεκμηρίωση του έργου ENPIRE.



Η από άκρη σε άκρη κρυπτογραφημένη λύση ηλεκτρονικού ταχυδρομείου και αποθήκευσης στο cloud παρέχει τα πιο ισχυρά μέσα ασφαλούς ανταλλαγής δεδομένων, εξασφαλίζοντας την ασφάλεια και το απόρρητο των δεδομένων σας.
/ Εγγραφείτε δωρεάν