Πέρασα τρεις ώρες χθες το βράδυ αναλύοντας μια σειρά από εχθρικές προτροπές (adversarial prompts) σε έναν τοπικό σταθμό εργασίας. Αυτή η εγκατάσταση ήταν αποσυνδεδεμένη από το διαδίκτυο και εκτελούσε ένα μοντέλο ανοιχτού βάρους (open-weight) τρέχουσας γενιάς. Το πείραμα ήταν ήσυχο. Δεν υπήρχαν εξερχόμενες κλήσεις API σε κάποιον κεντρικό πάροχο όπως η OpenAI ή η Google για να επισημάνουν ύποπτη δραστηριότητα. Δεν υπήρχαν όρια ρυθμού (rate limits) για να περιορίσουν την εκτέλεση. Μέσα σε λίγα λεπτά, ένα μόνο εισερχόμενο αρχείο κειμένου ανάγκασε το μοντέλο να δημιουργήσει μια σειρά δευτερευουσών οδηγιών. Αυτές οι οδηγίες σχεδιάστηκαν για να βρουν άλλα αρχεία στο σύστημα και να εισαγάγουν σε αυτά ένα αντίγραφο της αρχικής προτροπής. Αυτή είναι η πραγματικότητα του διαδόχου του Morris II. Είναι ένα σκουλήκι (worm) που ζει εξ ολοκλήρου μέσα στη λογική της τεχνητής νοημοσύνης.
Οι ερευνητές απέδειξαν πρόσφατα ότι αυτά τα αυτο-αναπαραγόμενα σκουλήκια AI δεν περιορίζονται πλέον σε θεωρητικές λευκές βίβλους ή περιβάλλοντα που βασίζονται στο cloud. Τώρα λειτουργούν σε τοπικά μοντέλα ανοιχτού βάρους. Οι οργανισμοί μεταφέρουν συχνά τον φόρτο εργασίας AI σε τοπικό υλικό για να διασφαλίσουν το απόρρητο των δεδομένων. Πιστεύουν ότι η διατήρηση των δεδομένων εντός των εγκαταστάσεων αποτελεί επαρκή άμυνα. Αυτό δημιουργεί ένα αρχιτεκτονικό παράδοξο. Η ίδια τοπική απομόνωση που προστατεύει τα δεδομένα από το δημόσιο cloud, κρύβει επίσης την κακόβουλη δραστηριότητα AI από τους κεντρικούς ελεγκτές ασφαλείας. Εάν ένα μοντέλο είναι ευάλωτο σε μια εχθρική αυτο-αναπαραγόμενη προτροπή, η επίθεση συμβαίνει μέσα στην έμπιστη περίμετρο. Η ομάδα ασφαλείας βλέπει μια νόμιμη διαδικασία να καταναλώνει κύκλους GPU, ενώ το σκουλήκι εξαπλώνεται μέσω της εσωτερικής βάσης δεδομένων.
Τα παραδοσιακά σκουλήκια εξαπλώνονται εκμεταλλευόμενα σφάλματα μνήμης ή αδυναμίες στα πρωτόκολλα δικτύου. Χρησιμοποιούν υπερχειλίσεις buffer για να εκτελέσουν κώδικα που το σύστημα δεν σκόπευε ποτέ να εκτελέσει. Ένα σκουλήκι AI λειτουργεί διαφορετικά. Χρησιμοποιεί μια σημασιολογική υπερχείλιση (semantic overflow). Σε αυτό το σενάριο, ο επιτιθέμενος παρέχει μια προτροπή την οποία το μοντέλο ερμηνεύει ως ένα σύνολο οδηγιών ανώτερης τάξης. Το μοντέλο δεν καταρρέει. Λειτουργεί ακριβώς όπως έχει σχεδιαστεί, επεξεργαζόμενο την είσοδο και παράγοντας μια απόκριση. Το πρόβλημα είναι ότι η είσοδος περιέχει μια κρυφή εντολή που αναγκάζει το μοντέλο να συμπεριλάβει την ίδια εντολή στην επόμενη έξοδό του. Αυτό δημιουργεί έναν βρόχο ανάδρασης.
Όταν ένας πράκτορας AI (AI agent) έχει την εξουσιοδότηση να διαβάζει και να γράφει αρχεία, ο βρόχος γίνεται κύκλος αναπαραγωγής. Το μοντέλο διαβάζει ένα μολυσμένο αρχείο, ακολουθεί την κρυφή οδηγία για να αναπαράγει αυτή την οδηγία και τη γράφει σε μια νέα τοποθεσία. Στο παρασκήνιο, το σκουλήκι αξιοποιεί τη βασική λειτουργικότητα του Μεγάλου Γλωσσικού Μοντέλου (LLM) για να εξαπλωθεί. Αντιμετωπίζει το μοντέλο ως μεταγλωττιστή και μηχανή εκτέλεσης. Επειδή η οδηγία είναι γραμμένη σε φυσική γλώσσα, παρακάμπτει τα παραδοσιακά εργαλεία προστασίας από ιούς που βασίζονται σε υπογραφές. Ένας σαρωτής αναζητά κακόβουλα δυαδικά αρχεία ή σενάρια. Δεν αναζητά μια παράγραφο κειμένου που ζητά από ένα μοντέλο να είναι χρήσιμο και να συμπεριλάβει μια συγκεκριμένη πρόταση στο επόμενο προσχέδιο email του.
Οι πάροχοι AI που φιλοξενούνται στο cloud εφαρμόζουν επίπεδα ασφάλειας που προσπαθούν να φιλτράρουν τις κακόβουλες προτροπές. Αυτά τα φίλτρα δεν είναι τέλεια, αλλά παρέχουν μια βασική γραμμή άμυνας που ενημερώνεται σε πραγματικό χρόνο. Όταν ένας οργανισμός κατεβάζει ένα μοντέλο ανοιχτού βάρους όπως το Llama ή το Mistral για να το εκτελέσει στους δικούς του διακομιστές, γίνεται υπεύθυνος για αυτά τα επίπεδα ασφάλειας. Πολλές αναπτύξεις αφαιρούν αυτά τα φίλτρα για να βελτιώσουν την απόδοση ή για να αποφύγουν την καθυστέρηση (latency) ενός δευτερεύοντος μοντέλου ελέγχου. Αυτό αφήνει το σύστημα ανοιχτό σε άμεση έγχυση προτροπής (prompt injection).
Από την άποψη του κινδύνου, η μετάβαση σε τοπικά μοντέλα αυξάνει την επιφάνεια επίθεσης του εσωτερικού δικτύου. Ένας επιτιθέμενος δεν χρειάζεται να παραβιάσει ένα τείχος προστασίας (firewall) για να φτάσει στο AI. Χρειάζεται μόνο να στείλει ένα δεδομένο που το AI είναι προγραμματισμένο να επεξεργαστεί. Αυτό θα μπορούσε να είναι ένα email, ένα αίτημα υποστήριξης ή ένα έγγραφο που μεταφορτώθηκε σε μια ιδιωτική Βάση Γνώσης. Μόλις ο πράκτορας AI διαβάσει τα μολυσμένα δεδομένα, το σκουλήκι αρχίζει να αναπαράγεται εντός του τοπικού περιβάλλοντος. Χρησιμοποιεί τα ίδια τα βάρη του μοντέλου για να δημιουργήσει την επόμενη επανάληψη της επίθεσης. Η αποκεντρωμένη φύση αυτών των μοντέλων σημαίνει ότι δεν υπάρχει διακόπτης απενεργοποίησης (kill switch). Ένας ερευνητής ασφαλείας δεν μπορεί να καλέσει έναν μόνο πάροχο για να κατεβάσει την υποδομή του σκουληκιού. Η υποδομή είναι το ίδιο το ράφι διακομιστών της εταιρείας.
Οι επαγγελματίες ασφάλειας πληροφοριών συχνά βλέπουν τα δεδομένα ως έναν πολύτιμο πόρο που απαιτεί προστασία. Στο πλαίσιο των αυτο-αναπαραγόμενων σκουληκιών AI, τα δεδομένα γίνονται τοξικό περιουσιακό στοιχείο. Κάθε πληροφορία που προσλαμβάνεται από έναν πράκτορα AI είναι ένας δυνητικός φορέας για μια ιογενή προτροπή. Εάν ο πράκτορας έχει την άδεια να συνοψίζει email ή να οργανώνει αρχεία, ενεργεί ως ψηφιακός Δούρειος Ίππος. Φέρνει την απειλή στις πιο ευαίσθητες περιοχές του δικτύου υπό το πρόσχημα της παραγωγικότητας.
Πρόσφατα παρείχα συμβουλές σε μια εταιρεία που χρησιμοποιούσε έναν πράκτορα AI για την παρακολούθηση εσωτερικών καναλιών Slack για ενημερώσεις έργων. Έδωσαν στον πράκτορα πρόσβαση ανάγνωσης σε όλα τα κανάλια και πρόσβαση εγγραφής σε μια κεντρική βάση δεδομένων διαχείρισης έργων. Αυτή η εγκατάσταση είναι ένας παιδότοπος για ένα σκουλήκι AI. Ένα μόνο μήνυμα σε ένα δημόσιο κανάλι θα μπορούσε να περιέχει μια κρυφή προτροπή. Ο πράκτορας διαβάζει το μήνυμα, δημιουργεί μια σύνοψη και εν αγνοία του περιλαμβάνει την προτροπή αναπαραγωγής στη βάση δεδομένων. Κάθε άλλος πράκτορας ή χρήστης που αλληλεπιδρά με αυτήν τη βάση δεδομένων γίνεται στη συνέχεια ένας δυνητικός φορέας για περαιτέρω εξάπλωση. Η ακεραιότητα ολόκληρου του οικοσυστήματος δεδομένων διακυβεύεται επειδή το σύστημα εμπιστεύεται την έξοδο του μοντέλου χωρίς επαλήθευση.
Για δεκαετίες, η περίμετρος του δικτύου ήταν η κύρια άμυνα. Λειτουργούσε σαν την τάφρο ενός κάστρου που κρατούσε τους εισβολείς έξω, ενώ επέτρεπε την είσοδο στην έμπιστη κυκλοφορία. Τα σκουλήκια AI καθιστούν αυτή την τάφρο παρωχημένη. Δεν εισέρχονται στο δίκτυο μέσω μιας σπασμένης πύλης. Προσκαλούνται ως δεδομένα. Όταν ένας υπάλληλος λαμβάνει ένα βιογραφικό από έναν υποψήφιο για εργασία, το αρχείο περνά μέσα από το τείχος προστασίας επειδή είναι ένα νόμιμο έγγραφο. Εάν χρησιμοποιηθεί ένα εργαλείο AI για τη σύνοψη αυτού του βιογραφικού, το σκουλήκι εκτελείται μέσα στη μνήμη της GPU.
Μιλώντας προληπτικά, ο κλάδος πρέπει να κινηθεί προς μια αρχιτεκτονική μηδενικής εμπιστοσύνης (zero-trust) για τις αλληλεπιδράσεις AI. Η μηδενική εμπιστοσύνη είναι σαν ένας πορτιέρης σε κάθε εσωτερική πόρτα. Ποτέ δεν εμπιστεύεσαι μια προτροπή και πάντα επαληθεύεις την έξοδο. Αυτό σημαίνει ότι η έξοδος ενός LLM δεν πρέπει ποτέ να αντιμετωπίζεται ως έμπιστο δεδομένο. Εάν ένα μοντέλο δημιουργήσει μια εντολή για εγγραφή σε ένα αρχείο ή αποστολή ενός email, ένα δευτερεύον σύστημα πρέπει να επικυρώσει αυτήν την ενέργεια έναντι ενός συνόλου αυστηρών πολιτικών. Τα τοπικά μοντέλα απαιτούν περισσότερο έλεγχο, όχι λιγότερο. Επειδή είναι αόρατα στους εξωτερικούς προμηθευτές ασφαλείας, η εσωτερική παρακολούθηση πρέπει να είναι πιο λεπτομερής.
Η ασφάλιση μιας τοπικής στοίβας AI απαιτεί μια μετατόπιση από την παρακολούθηση της κίνησης του δικτύου στην παρακολούθηση της σημασιολογικής πρόθεσης. Οι οργανισμοί δεν μπορούν να βασίζονται στην προεπιλεγμένη ασφάλεια των μοντέλων ανοιχτού βάρους. Αυτά τα μοντέλα είναι εργαλεία και, όπως κάθε εργαλείο, μπορούν να χρησιμοποιηθούν εναντίον του ιδιοκτήτη εάν αφεθούν απροστάτευτα. Μια ισχυρή άμυνα περιλαμβάνει πολλαπλά επίπεδα απομόνωσης και επαλήθευσης.
Εξετάστε τα ακόλουθα συμπεράσματα για άμεση εφαρμογή:
Ως αντίμετρο, ορισμένες ομάδες χρησιμοποιούν τώρα προτροπές honeytoken. Πρόκειται για συγκεκριμένες, κρυφές συμβολοσειρές που τοποθετούνται σε έγγραφα και δεν πρέπει ποτέ να υποβάλλονται σε επεξεργασία από ένα AI. Εάν ένα εργαλείο ασφαλείας ανιχνεύσει τη δημιουργία αυτών των συμβολοσειρών σε μια έξοδο LLM, ενεργοποιεί μια άμεση ειδοποίηση. Αυτή είναι μια αντιδραστική προσέγγιση, αλλά παρέχει ένα ιατροδικαστικό ίχνος κατά τη διάρκεια ενός περιστατικού. Ο στόχος είναι να ανιχνευθεί η αναπαραγωγή πριν το σκουλήκι κορεστεί την εσωτερική αποθήκη δεδομένων.
Η ανακάλυψη αυτο-αναπαραγόμενων σκουληκιών AI σε τοπικά μοντέλα είναι μια προειδοποίηση. Δείχνει ότι η ευκολία των πρακτόρων AI συνοδεύεται από έναν συστημικό κίνδυνο. Χτίζουμε συστήματα που έχουν σχεδιαστεί για να ακολουθούν οδηγίες και εκπλησσόμαστε όταν ακολουθούν οδηγίες που παρέχονται από έναν αντίπαλο. Αυτό δεν είναι αποτυχία του AI. Είναι αποτυχία της αρχιτεκτονικής που περιβάλλει το AI.
Οι ηγέτες ασφαλείας πρέπει να σταματήσουν να αντιμετωπίζουν τα LLM ως «μαύρα κουτιά» που απλώς λειτουργούν. Είναι πολύπλοκα συστήματα λογισμικού που απαιτούν το ίδιο επίπεδο αυστηρών δοκιμών και ελέγχου ορίων με οποιαδήποτε άλλη εταιρική εφαρμογή. Πέρα από τις διορθώσεις (patching), η πιο αποτελεσματική άμυνα είναι η αλλαγή νοοτροπίας. Μην εμπιστεύεστε την προτροπή. Μην εμπιστεύεστε το μοντέλο. Μην εμπιστεύεστε την έξοδο. Πραγματοποιήστε μια πλήρη αξιολόγηση κινδύνου των τοπικών αναπτύξεων AI σήμερα και ελέγξτε τα δικαιώματα κάθε πράκτορα που συνδέεται με τα εσωτερικά σας δεδομένα.
Πηγές:
Αποποίηση ευθύνης: Αυτό το άρθρο προορίζεται μόνο για ενημερωτικούς και εκπαιδευτικούς σκοπούς και δεν αντικαθιστά έναν επαγγελματικό έλεγχο κυβερνοασφάλειας ή μια υπηρεσία απόκρισης σε περιστατικά.



Η από άκρη σε άκρη κρυπτογραφημένη λύση ηλεκτρονικού ταχυδρομείου και αποθήκευσης στο cloud παρέχει τα πιο ισχυρά μέσα ασφαλούς ανταλλαγής δεδομένων, εξασφαλίζοντας την ασφάλεια και το απόρρητο των δεδομένων σας.
/ Εγγραφείτε δωρεάν