Intelligenza artificiale

La più grande minaccia alla sicurezza dell'IA è il software che si costruisce da solo

Il co-fondatore di Anthropic Jack Clark avverte che l'auto-miglioramento ricorsivo dell'IA potrebbe portare a una perdita del controllo umano. Ecco perché l'industria ha bisogno di un pedale del freno.
La più grande minaccia alla sicurezza dell'IA è il software che si costruisce da solo

Mentre molti utenti vedono l'intelligenza artificiale come un assistente digitale passivo che attende un input per agire, la realtà è che la tecnologia sta diventando rapidamente il proprio architetto. Spesso immaginiamo un programmatore umano seduto a una scrivania, che digita linee di codice per rendere un chatbot più intelligente. Questa immagine è sempre più obsoleta. Il co-fondatore di Anthropic, Jack Clark, ha recentemente rivelato che l'80% del lavoro di programmazione per la loro IA, Claude, è già eseguito dall'IA stessa. Entro due anni, si prevede che tale cifra raggiungerà il 100%. Questo cambiamento segna l'inizio dell'auto-miglioramento ricorsivo, un processo in cui una macchina costruisce il proprio successore senza un essere umano nel ciclo decisionale.

Il concetto di una macchina che migliora se stessa sembra un sogno per l'efficienza, ma crea un problema fondamentale per la sicurezza. In termini semplici, l'industria dell'IA è attualmente costruita interamente su un pedale dell'acceleratore. Le aziende corrono per rendere i modelli più veloci, più grandi e più capaci per conquistare quote di mercato. Tuttavia, come sottolinea Clark, l'auto non ha un pedale del freno. Se un sistema di IA diventa abbastanza capace da addestrare la versione successiva di se stesso, gli esseri umani perdono la capacità di verificare la sicurezza o la logica del nuovo modello. Ciò crea un ciclo in cui la tecnologia si muove più velocemente della nostra capacità di comprenderla o governarla.

Come funziona in pratica l'auto-miglioramento ricorsivo

Per capire perché questo sia un cambiamento enorme, possiamo guardare all'IA come a uno stagista instancabile. Tradizionalmente, questo stagista seguiva istruzioni specifiche da un manager. Il manager controllava il lavoro, correggeva gli errori e decideva quando lo stagista fosse pronto per maggiori responsabilità. L'auto-miglioramento ricorsivo cambia completamente questa dinamica. Lo stagista ora sta scrivendo il manuale dell'ufficio, addestrando il prossimo gruppo di assunti e riprogettando il flusso di lavoro dell'azienda mentre il manager è fuori dalla stanza.

Anthropic ha già osservato questo fenomeno con Claude. L'IA è ora in grado di condurre i propri esperimenti di ricerca. Quando le è stata posta una domanda complessa sulla supervisione dei modelli, l'IA non si è limitata a fornire una risposta. Ha progettato una metodologia, testato le sue teorie e raggiunto una conclusione senza guida umana. Allo stesso tempo, la frequenza con cui il personale umano deve correggere il codice di Claude è diminuita costantemente nell'ultimo anno. Il software commette meno errori perché sta imparando dalle proprie iterazioni precedenti.

In un modello ricorsivo, gli agenti di IA agiscono come lavoratori autonomi. Questi agenti possono costruire e addestrare nuovi modelli, creando un ciclo di feedback in cui il software migliora a un ritmo esponenziale. Guardando il quadro generale, ciò significa che il ruolo umano si sta restringendo in ogni fase del processo di sviluppo. Stiamo passando dall'essere i creatori della tecnologia all'essere i supervisori di un processo che non possiamo più monitorare completamente.

Il pedale del freno mancante in una corsa globale

La spinta verso l'IA ricorsiva è alimentata dai massicci costi di sviluppo. L'addestramento di un modello di IA di alto livello richiede migliaia di chip specializzati e miliardi di dollari in elettricità. Se un'azienda può utilizzare un'IA esistente per automatizzare l'addestramento della successiva, risparmia enormi quantità di tempo e denaro. Dal lato del mercato, la prima azienda a ottenere un sistema completamente auto-migliorante ha un enorme vantaggio competitivo. Questa pressione economica crea un incentivo sistemico a mantenere il pedale dell'acceleratore premuto al massimo.

Anthropic chiede un accordo collettivo per costruire un pedale del freno. In termini pratici, ciò comporterebbe un sistema per monitorare se gli sviluppatori stiano rallentando il loro passaggio verso la ricorsione completa. Tuttavia, una singola azienda non può scegliere di fermarsi da sola. Se un laboratorio frena mentre altri continuano ad accelerare, il laboratorio che si è fermato perde la sua rilevanza e la sua capacità di influenzare l'industria.

Stabilire un vero rallentamento richiede che più laboratori ben finanziati in diversi paesi concordino sulle stesse condizioni per una pausa. Questo è difficile perché l'industria dell'IA è attualmente una competizione decentralizzata. Proprio come nessun singolo paese vuole essere il primo a smettere di sviluppare armamenti avanzati, nessun gigante tecnologico vuole essere il primo a limitare la velocità dello sviluppo del proprio software. Il risultato è un ambiente volatile in cui la velocità ha la priorità sulla capacità di mantenere la supervisione umana.

Perché la perdita di controllo è importante per l'utente comune

Per l'utente comune, l'idea di un'IA che costruisce se stessa potrebbe sembrare una preoccupazione lontana per scienziati. Sotto il cofano, tuttavia, questo cambiamento ha effetti tangibili su come interagiamo con la tecnologia. Quando un essere umano scrive il codice, c'è una traccia logica che un altro essere umano può seguire. Se il codice causa una fuga di dati sulla privacy o una decisione parziale, uno sviluppatore può trovare la riga di codice specifica e correggerla.

Quando un'IA costruisce il proprio successore, quella logica diventa opaca. Ci addentriamo ulteriormente nel problema della "scatola nera", dove la macchina produce un risultato, ma non abbiamo modo di sapere come sia arrivata a quella conclusione. Ciò influisce su tutto, da come una banca valuta il tuo punteggio di credito a come un'IA medica diagnostica una malattia. Se il sistema si auto-migliora senza supervisione, non possiamo garantire che non stia sviluppando pregiudizi nascosti o comportamenti imprevedibili che potrebbero danneggiare gli utenti.

C'è anche la questione della sicurezza. Se un'IA è capace di costruire interamente i propri successori, i modi in cui proteggiamo e monitoriamo questi sistemi diventano più difficili. Un'IA auto-migliorante potrebbe teoricamente trovare e sfruttare vulnerabilità nella propria sicurezza più velocemente di quanto un team umano possa correggerle. In sostanza, stiamo creando un ecosistema digitale che può evolversi da solo, superando potenzialmente le reti di sicurezza che abbiamo predisposto.

Il passaggio da creatore a supervisore

Storicamente, il progresso industriale ha sempre coinvolto esseri umani che gestivano strumenti. Dal motore a vapore alla catena di montaggio, una persona era sempre l'autorità finale sul funzionamento della macchina. L'IA sta rompendo questa catena storica. Man mano che il ruolo umano si restringe, il nostro compito principale si sta spostando dal costruire il software al guardare il software che si costruisce da solo.

Questa transizione richiede una nuova serie di strumenti per la trasparenza. L'istituto di ricerca di Anthropic sta lavorando a sistemi per verificare i progressi dell'IA ricorsiva, ma la tecnologia si muove più velocemente della regolamentazione. Dal punto di vista del consumatore, ciò significa che stiamo entrando in un'era in cui i prodotti che usiamo quotidianamente non sono più il risultato diretto dell'ingegno umano. Sono il risultato dell'interpretazione di una macchina dei bisogni umani.

Curiosamente, questo non significa che la tecnologia diventerà meno utile. In effetti, l'IA ricorsiva porterà probabilmente a scoperte nella sanità e nella scienza che erano precedentemente impossibili. Potrebbe scoprire nuovi materiali per le batterie o trovare modi più efficienti per gestire le catene di approvvigionamento globali. I benefici sono senza precedenti, ma portano con sé un rischio sistemico che l'industria sta solo iniziando ad affrontare.

Navigare in un mondo digitale che si auto-migliora

Il punto fondamentale è che l'industria dell'IA si sta avvicinando a un punto di non ritorno. Una volta che la tecnologia sarà capace di un auto-miglioramento al 100%, la capacità umana di intervenire diventerà limitata. Siamo attualmente in una breve finestra in cui possiamo ancora decidere quanto controllo vogliamo mantenere.

Per l'utente medio, la strada migliore da seguire è rimanere osservatori di quanta autonomia concediamo alle app e ai servizi che utilizziamo. Dovremmo cercare aziende che diano priorità alla trasparenza e agli audit di terze parti dei loro modelli. Capire che il tuo software sta ora scrivendo il proprio copione è il primo passo per richiedere una migliore supervisione da parte di chi tiene il piede sull'acceleratore.

In definitiva, l'obiettivo non è fermare il progresso, ma garantire che il progresso rimanga allineato con la sicurezza umana. Mentre l'IA inizia ad addestrare l'IA, la necessità di un accordo globale su un pedale del freno diventa più urgente. Dobbiamo assicurarci che, anche se la macchina sta facendo il lavoro, sia ancora un essere umano a decidere dove sta andando l'auto.

Fonti: Anthropic, BBC World News, Jack Clark Interview.

bg
bg
bg

Ci vediamo dall'altra parte.

La nostra soluzione di archiviazione e-mail crittografata end-to-end fornisce i mezzi più potenti per lo scambio sicuro dei dati, garantendo la sicurezza e la privacy dei tuoi dati.

/ Creare un account gratuito