Τεχνητή Νοημοσύνη

Η μεγαλύτερη απειλή για την ασφάλεια της Τεχνητής Νοημοσύνης είναι το λογισμικό που κατασκευάζει τον εαυτό του

Ο συνιδρυτής της Anthropic, Jack Clark, προειδοποιεί ότι η αναδρομική αυτοβελτίωση της AI θα μπορούσε να οδηγήσει σε απώλεια του ανθρώπινου ελέγχου. Δείτε γιατί η βιομηχανία χρειάζεται ένα πεντάλ φρένου.

Alwin Davies

Ανώτερος Ανταποκριτής Τεχνολογίας

5 Ιουνίου 2026

Η μεγαλύτερη απειλή για την ασφάλεια της Τεχνητής Νοημοσύνης είναι το λογισμικό που κατασκευάζει τον εαυτό του

Ενώ πολλοί χρήστες βλέπουν την τεχνητή νοημοσύνη ως έναν παθητικό ψηφιακό βοηθό που περιμένει μια εντολή για να δράσει, η πραγματικότητα είναι ότι η τεχνολογία γίνεται γρήγορα ο ίδιος της ο αρχιτέκτονας. Συχνά φανταζόμαστε έναν άνθρωπο προγραμματιστή να κάθεται σε ένα γραφείο, πληκτρολογώντας γραμμές κώδικα για να κάνει ένα chatbot πιο έξυπνο. Αυτή η εικόνα είναι όλο και περισσότερο ξεπερασμένη. Ο συνιδρυτής της Anthropic, Jack Clark, αποκάλυψε πρόσφατα ότι το 80% της εργασίας κωδικοποίησης για την τεχνητή νοημοσύνη τους, το Claude, εκτελείται ήδη από την ίδια την AI. Μέσα σε δύο χρόνια, ο αριθμός αυτός αναμένεται να φτάσει το 100%. Αυτή η μετατόπιση σηματοδοτεί την αρχή της αναδρομικής αυτοβελτίωσης, μια διαδικασία όπου μια μηχανή κατασκευάζει τον δικό της διάδοχο χωρίς την παρέμβαση ανθρώπου.

Η έννοια μιας μηχανής που βελτιώνει τον εαυτό της ακούγεται σαν όνειρο για την αποδοτικότητα, αλλά δημιουργεί ένα θεμελιώδες πρόβλημα για την ασφάλεια. Με απλά λόγια, η βιομηχανία της AI είναι επί του παρόντος χτισμένη εξ ολοκλήρου πάνω σε ένα πεντάλ γκαζιού. Οι εταιρείες αγωνίζονται να κάνουν τα μοντέλα ταχύτερα, μεγαλύτερα και πιο ικανά για να κερδίσουν μερίδιο αγοράς. Ωστόσο, όπως επισημαίνει ο Clark, το αυτοκίνητο δεν διαθέτει πεντάλ φρένου. Εάν ένα σύστημα AI γίνει αρκετά ικανό ώστε να εκπαιδεύσει την επόμενη έκδοση του εαυτού του, οι άνθρωποι χάνουν την ικανότητα να επαληθεύσουν την ασφάλεια ή τη λογική του νέου μοντέλου. Αυτό δημιουργεί έναν κύκλο όπου η τεχνολογία κινείται ταχύτερα από την ικανότητά μας να την κατανοήσουμε ή να την ελέγξουμε.

Πώς λειτουργεί στην πράξη η αναδρομική αυτοβελτίωση

Για να καταλάβουμε γιατί πρόκειται για μια τεράστια αλλαγή, μπορούμε να δούμε την AI ως έναν ακούραστο ασκούμενο. Παραδοσιακά, αυτός ο ασκούμενος ακολουθούσε συγκεκριμένες οδηγίες από έναν διευθυντή. Ο διευθυντής έλεγχε την εργασία, διόρθωνε τα λάθη και αποφάσιζε πότε ο ασκούμενος ήταν έτοιμος για περισσότερες ευθύνες. Η αναδρομική αυτοβελτίωση αλλάζει εντελώς αυτή τη δυναμική. Ο ασκούμενος γράφει τώρα το εγχειρίδιο του γραφείου, εκπαιδεύει την επόμενη ομάδα προσλήψεων και επανασχεδιάζει τη ροή εργασίας της εταιρείας, ενώ ο διευθυντής λείπει από το δωμάτιο.

Η Anthropic έχει ήδη παρατηρήσει αυτό να συμβαίνει με το Claude. Η AI είναι πλέον σε θέση να διεξάγει τα δικά της ερευνητικά πειράματα. Όταν της τέθηκε μια περίπλοκη ερώτηση σχετικά με την επίβλεψη μοντέλων, η AI δεν έδωσε απλώς μια απάντηση. Σχεδίασε μια μεθοδολογία, δοκίμασε τις θεωρίες της και κατέληξε σε ένα συμπέρασμα χωρίς ανθρώπινη καθοδήγηση. Ταυτόχρονα, ο ρυθμός με τον οποίο τα ανθρώπινα μέλη του προσωπικού χρειάζεται να διορθώνουν τον κώδικα του Claude έχει μειωθεί σταθερά κατά το τελευταίο έτος. Το λογισμικό κάνει λιγότερα λάθη επειδή μαθαίνει από τις δικές του προηγούμενες επαναλήψεις.

Σε ένα αναδρομικό μοντέλο, οι πράκτορες AI ενεργούν ως αυτόνομοι εργαζόμενοι. Αυτοί οι πράκτορες μπορούν να κατασκευάσουν και να εκπαιδεύσουν νέα μοντέλα, δημιουργώντας έναν βρόχο ανάδρασης όπου το λογισμικό βελτιώνεται με εκθετικό ρυθμό. Κοιτάζοντας τη συνολική εικόνα, αυτό σημαίνει ότι ο ανθρώπινος ρόλος στενεύει σε κάθε στάδιο της διαδικασίας ανάπτυξης. Μετακινούμαστε από το να είμαστε οι δημιουργοί της τεχνολογίας στο να είμαστε οι επόπτες μιας διαδικασίας που δεν μπορούμε πλέον να παρακολουθήσουμε πλήρως.

Το πεντάλ φρένου που λείπει σε έναν παγκόσμιο αγώνα δρόμου

Η ώθηση για αναδρομική AI τροφοδοτείται από το τεράστιο κόστος ανάπτυξης. Η εκπαίδευση ενός κορυφαίου μοντέλου AI απαιτεί χιλιάδες εξειδικευμένα τσιπ και δισεκατομμύρια δολάρια σε ηλεκτρική ενέργεια. Εάν μια εταιρεία μπορεί να χρησιμοποιήσει μια υπάρχουσα AI για να αυτοματοποιήσει την εκπαίδευση της επόμενης, εξοικονομεί τεράστια ποσά χρόνου και χρήματος. Από την πλευρά της αγοράς, η πρώτη εταιρεία που θα επιτύχει ένα πλήρως αυτοβελτιούμενο σύστημα έχει ένα τεράστιο ανταγωνιστικό πλεονέκτημα. Αυτή η οικονομική πίεση δημιουργεί ένα συστημικό κίνητρο για να παραμείνει το πεντάλ του γκαζιού πατημένο μέχρι το τέρμα.

Η Anthropic ζητά μια συλλογική συμφωνία για την κατασκευή ενός πεντάλ φρένου. Πρακτικά μιλώντας, αυτό θα περιλάμβανε ένα σύστημα παρακολούθησης του κατά πόσον οι προγραμματιστές επιβραδύνουν την κίνησή τους προς την πλήρη αναδρομή. Ωστόσο, μια μεμονωμένη εταιρεία δεν μπορεί να επιλέξει να σταματήσει από μόνη της. Εάν ένα εργαστήριο πατήσει φρένο ενώ άλλα συνεχίζουν να επιταχύνουν, το εργαστήριο που σταμάτησε χάνει τη σημασία του και την ικανότητά του να επηρεάζει τη βιομηχανία.

Η καθιέρωση μιας πραγματικής επιβράδυνσης απαιτεί πολλαπλά εργαστήρια με καλούς πόρους σε πολλές χώρες να συμφωνήσουν στις ίδιες προϋποθέσεις για μια παύση. Αυτό είναι δύσκολο επειδή η βιομηχανία της AI είναι επί του παρόντος ένας αποκεντρωμένος ανταγωνισμός. Ακριβώς όπως καμία χώρα δεν θέλει να είναι η πρώτη που θα σταματήσει να αναπτύσσει προηγμένα όπλα, κανένας τεχνολογικός γίγαντας δεν θέλει να είναι ο πρώτος που θα περιορίσει την ταχύτητα ανάπτυξης του λογισμικού του. Το αποτέλεσμα είναι ένα ασταθές περιβάλλον όπου η ταχύτητα προηγείται της ικανότητας διατήρησης της ανθρώπινης επίβλεψης.

Γιατί η απώλεια ελέγχου έχει σημασία για τον μέσο χρήστη

Για τον καθημερινό χρήστη, η ιδέα μιας AI που κατασκευάζει τον εαυτό της μπορεί να φαντάζει ως μια μακρινή ανησυχία για τους επιστήμονες. Στην πραγματικότητα, ωστόσο, αυτή η αλλαγή έχει απτά αποτελέσματα στον τρόπο με τον οποίο αλληλεπιδρούμε με την τεχνολογία. Όταν ένας άνθρωπος γράφει κώδικα, υπάρχει ένα ίχνος λογικής που ένας άλλος άνθρωπος μπορεί να ακολουθήσει. Εάν ο κώδικας προκαλέσει διαρροή απορρήτου ή μια μεροληπτική απόφαση, ένας προγραμματιστής μπορεί να βρει τη συγκεκριμένη γραμμή κώδικα και να τη διορθώσει.

Όταν μια AI κατασκευάζει τον δικό της διάδοχο, αυτή η λογική γίνεται αδιαφανής. Προχωράμε περισσότερο στο πρόβλημα του "μαύρου κουτιού", όπου η μηχανή παράγει ένα αποτέλεσμα, αλλά δεν έχουμε κανέναν τρόπο να γνωρίζουμε πώς κατέληξε σε αυτό το συμπέρασμα. Αυτό επηρεάζει τα πάντα, από το πώς μια τράπεζα αξιολογεί το πιστωτικό σας σκορ μέχρι το πώς μια ιατρική AI διαγιγνώσκει μια ασθένεια. Εάν το σύστημα αυτοβελτιώνεται χωρίς επίβλεψη, δεν μπορούμε να εγγυηθούμε ότι δεν αναπτύσσει κρυφές προκαταλήψεις ή απρόβλεπτες συμπεριφορές που θα μπορούσαν να βλάψουν τους χρήστες.

Υπάρχει επίσης το θέμα της ασφάλειας. Εάν μια AI είναι ικανή να κατασκευάζει πλήρως τους δικούς της διαδόχους, οι τρόποι με τους οποίους ασφαλίζουμε και παρακολουθούμε αυτά τα συστήματα γίνονται πιο δύσκολοι. Μια αυτοβελτιούμενη AI θα μπορούσε θεωρητικά να βρει και να εκμεταλλευτεί τρωτά σημεία στη δική της ασφάλεια ταχύτερα από ό,τι μια ανθρώπινη ομάδα μπορεί να τα διορθώσει. Ουσιαστικά, δημιουργούμε ένα ψηφιακό οικοσύστημα που μπορεί να εξελιχθεί από μόνο του, ξεπερνώντας ενδεχομένως τα δίχτυα ασφαλείας που έχουμε θέσει.

Η μετάβαση από δημιουργό σε επόπτη

Ιστορικά, η βιομηχανική πρόοδος περιλάμβανε πάντα τους ανθρώπους να διαχειρίζονται εργαλεία. Από την ατμομηχανή μέχρι τη γραμμή συναρμολόγησης, ένα άτομο ήταν πάντα η τελική αρχή για τη λειτουργία της μηχανής. Η AI σπάει αυτή την ιστορική αλυσίδα. Καθώς ο ανθρώπινος ρόλος στενεύει, η κύρια δουλειά μας μετατοπίζεται από την κατασκευή του λογισμικού στην παρακολούθηση του λογισμικού που κατασκευάζει τον εαυτό του.

Αυτή η μετάβαση απαιτεί ένα νέο σύνολο εργαλείων για διαφάνεια. Το ίδιο το ερευνητικό ινστιτούτο της Anthropic εργάζεται πάνω σε συστήματα για την επαλήθευση της προόδου της αναδρομικής AI, αλλά η τεχνολογία κινείται ταχύτερα από τη νομοθεσία. Από την πλευρά του καταναλωτή, αυτό σημαίνει ότι εισερχόμαστε σε μια εποχή όπου τα προϊόντα που χρησιμοποιούμε καθημερινά δεν είναι πλέον το άμεσο αποτέλεσμα της ανθρώπινης εφευρετικότητας. Είναι το αποτέλεσμα της ερμηνείας των ανθρώπινων αναγκών από μια μηχανή.

Περιέργως, αυτό δεν σημαίνει ότι η τεχνολογία θα γίνει λιγότερο χρήσιμη. Στην πραγματικότητα, η αναδρομική AI πιθανότατα θα οδηγήσει σε ανακαλύψεις στην υγειονομική περίθαλψη και την επιστήμη που προηγουμένως ήταν αδύνατες. Θα μπορούσε να ανακαλύψει νέα υλικά για μπαταρίες ή να βρει πιο αποτελεσματικούς τρόπους διαχείρισης των παγκόσμιων αλυσίδων εφοδιασμού. Τα οφέλη είναι πρωτοφανή, αλλά συνοδεύονται από έναν συστημικό κίνδυνο που η βιομηχανία μόλις τώρα αρχίζει να αντιμετωπίζει.

Πλοήγηση σε έναν αυτοβελτιούμενο ψηφιακό κόσμο

Η ουσία είναι ότι η βιομηχανία της AI πλησιάζει σε ένα σημείο χωρίς επιστροφή. Μόλις η τεχνολογία καταστεί ικανή για 100% αυτοβελτίωση, η ανθρώπινη ικανότητα παρέμβασης περιορίζεται. Βρισκόμαστε επί του παρόντος σε ένα σύντομο παράθυρο όπου μπορούμε ακόμα να αποφασίσουμε πόσο έλεγχο θέλουμε να διατηρήσουμε.

Για τον μέσο χρήστη, η καλύτερη πορεία προς τα εμπρός είναι να παραμείνει παρατηρητικός ως προς το πόση αυτονομία παραχωρούμε στις εφαρμογές και τις υπηρεσίες που χρησιμοποιούμε. Θα πρέπει να αναζητούμε εταιρείες που δίνουν προτεραιότητα στη διαφάνεια και στους ελέγχους των μοντέλων τους από τρίτους. Η κατανόηση ότι το λογισμικό σας γράφει τώρα το δικό του σενάριο είναι το πρώτο βήμα για την απαίτηση καλύτερης επίβλεψης από τους ανθρώπους που κρατούν το πεντάλ του γκαζιού.

Τελικά, ο στόχος δεν είναι να σταματήσει η πρόοδος, αλλά να διασφαλιστεί ότι η πρόοδος παραμένει ευθυγραμμισμένη με την ανθρώπινη ασφάλεια. Καθώς η AI αρχίζει να εκπαιδεύει την AI, η ανάγκη για μια παγκόσμια συμφωνία για ένα πεντάλ φρένου γίνεται πιο επιτακτική. Πρέπει να διασφαλίσουμε ότι ακόμα κι αν η μηχανή κάνει τη δουλειά, ο άνθρωπος θα είναι αυτός που θα αποφασίζει πού πηγαίνει το αυτοκίνητο.

Πηγές: Anthropic, BBC World News, Συνέντευξη Jack Clark.

#Anthropic #ArtificialIntelligence #JackClark #RecursiveSelfImprovement #TechGovernance

Τα λέμε στην άλλη πλευρά.

Η από άκρη σε άκρη κρυπτογραφημένη λύση ηλεκτρονικού ταχυδρομείου και αποθήκευσης στο cloud παρέχει τα πιο ισχυρά μέσα ασφαλούς ανταλλαγής δεδομένων, εξασφαλίζοντας την ασφάλεια και το απόρρητο των δεδομένων σας.

/ Εγγραφείτε δωρεάν

Προσαρμοσμένοι τομείς

Αποθηκευτικός χώρος έως 1 TB

Προηγμένη κοινή χρήση

Κρυπτογράφηση από άκρο σε άκρο

Αυτοκαταστροφικά email

Προσαρμοσμένοι τομείς

Αποθηκευτικός χώρος έως 1 TB

Προηγμένη κοινή χρήση

Κρυπτογράφηση από άκρο σε άκρο

Αυτοκαταστροφικά email

Beeble Mail

Beeble Drive

Σχετικά με Beeble

Αποστολή

Ιστορία

Premium

Κοινές ερωταπαντήσεις

Προσφέρω

Επικοινωνία