La corsa per la supremazia nell'intelligenza artificiale è entrata in un nuovo e controverso capitolo. Mentre il mondo osserva il rilascio di modelli linguistici di grandi dimensioni (LLM) sempre più potenti, una guerra ombra viene combattuta proprio sui dati utilizzati per addestrarli. In una serie di rapporti sorprendenti, le principali aziende americane di IA — tra cui Anthropic, OpenAI e Google — hanno accusato diverse promettenti startup cinesi di IA di aver bypassato anni di ricerca e miliardi di dollari di investimenti attraverso una tecnica nota come "attacco di distillazione".
Al centro dell'ultima controversia c'è Anthropic, la creatrice della serie di modelli Claude. L'azienda ha recentemente rivelato di aver rilevato uno sforzo massiccio e coordinato per sottrarre la propria proprietà intellettuale. Secondo Anthropic, aziende tra cui DeepSeek, Moonshot AI e MiniMax avrebbero utilizzato oltre 24.000 account falsi per generare più di 16 milioni di conversazioni con Claude. L'obiettivo? Utilizzare il sofisticato ragionamento e la logica di Claude per addestrare i propri modelli concorrenti a una frazione del costo.
Per capire perché queste accuse siano così significative, è necessario comprendere il concetto di distillazione del modello. In un contesto di ricerca legittimo, la distillazione è una tecnica comune in cui un modello "studente" più piccolo ed efficiente viene addestrato per imitare il comportamento di un modello "insegnante" più grande e complesso. Ciò consente agli sviluppatori di creare un'IA veloce e leggera in grado di funzionare su smartphone o hardware locale, pur mantenendo gran parte dell'intelligenza di un enorme modello di classe data-center.
Tuttavia, un attacco di distillazione si verifica quando un concorrente utilizza l'API (Application Programming Interface) del modello di un rivale per estrarne sistematicamente la conoscenza senza autorizzazione. Immaginatelo come uno studente che, invece di studiare i libri di testo originali e fare il lavoro di laboratorio, registra semplicemente ogni parola pronunciata da un professore di fama mondiale e usa quelle registrazioni per costruire un corso rivale. Lo studente risparmia anni di fatica e milioni di retta, mentre il lavoro originale del professore viene svalutato.
La portata stessa dell'attività riportata da Anthropic suggerisce un'operazione altamente industrializzata. Creando 24.000 account separati, gli aggressori stavano probabilmente tentando di aggirare i "limiti di frequenza" (rate limits) — i freni di sicurezza che le aziende di IA mettono in atto per impedire a un singolo utente di accaparrarsi risorse o rastrellare dati.
Distribuendo 16 milioni di query su questi account, le aziende cinesi avrebbero raccolto un enorme dataset di "dati sintetici" di alta qualità. Questi dati sono particolarmente preziosi perché contengono il ragionamento "chain-of-thought" per cui modelli come Claude 3.5 e Claude 4 sono famosi. Per un'azienda come DeepSeek o Moonshot AI, questi dati raccolti fungono da scorciatoia, consentendo loro di colmare il divario tra le loro attuali capacità e lo stato dell'arte senza i costi astronomici della scoperta originale.
Anthropic non è sola nelle sue lamentele. All'inizio di questo mese, OpenAI e Google hanno emesso avvertimenti simili, notando che i loro modelli proprietari venivano interrogati secondo schemi che suggerivano una raccolta automatizzata di dati da parte di entità legate al settore tecnologico cinese.
Questa tendenza evidenzia una crescente disperazione nella corsa globale all'IA. Mentre il governo degli Stati Uniti inasprisce i controlli sulle esportazioni di chip NVIDIA di fascia alta — l'hardware essenziale per l'addestramento dell'IA — le aziende cinesi stanno affrontando una "crisi di calcolo". Se non possono accedere all'hardware per addestrare i modelli da zero utilizzando dati grezzi, la loro strada più percorribile è "distillare" l'intelligenza già perfezionata dalle aziende americane che hanno chip da vendere.
Le implicazioni di questi attacchi vanno ben oltre i bilanci aziendali. Stiamo assistendo al consolidamento di una "Guerra Fredda dell'IA", dove la proprietà intellettuale è il campo di battaglia principale.
| Caratteristica | Addestramento Originale | Attacco di Distillazione |
|---|---|---|
| Costo | Miliardi (Calcolo + Talento) | Milioni (Tariffe API + Scraping) |
| Arco Temporale | Anni di R&S | Mesi di Raccolta Dati |
| Requisiti Hardware | Decine di migliaia di GPU H100/B200 | Infrastruttura Cloud Standard |
| Fonte dei Dati | Crawl massicci del web + Feedback umano | Output del modello di un rivale |
Per i decisori politici statunitensi, questa è una preoccupazione per la sicurezza nazionale. Se le aziende cinesi riuscissero a "cortocircuitare" il processo di sviluppo, il vantaggio attualmente detenuto dagli Stati Uniti nella sicurezza e nelle capacità dell'IA potrebbe evaporare. Ciò ha portato a richieste di requisiti "Know Your Customer" (KYC) più severi per i fornitori di API di IA, trattando di fatto l'accesso a un potente LLM con lo stesso livello di controllo di un conto bancario.
I laboratori di IA non si concentrano più solo nel rendere i loro modelli più intelligenti; si stanno concentrando nel renderli più difficili da rubare. Diverse strategie difensive sono attualmente in fase di implementazione:
Mentre il panorama dell'IA diventa più litigioso e difensivo, gli sviluppatori e le aziende dovrebbero prepararsi a un ambiente più restrittivo.
Le accuse contro DeepSeek, Moonshot AI e MiniMax rappresentano un cambiamento fondamentale nell'industria dell'IA. L'era della "ricerca aperta" si sta chiudendo rapidamente mentre le aziende si rendono conto che i loro output sono i loro asset più preziosi. Mentre gli Stati Uniti continuano a guidare l'innovazione pura, la capacità dei concorrenti globali di rispecchiare tale innovazione attraverso la distillazione rimane una minaccia potente. La Guerra Fredda dell'IA non è più un futuro teorico: è la realtà del presente.



La nostra soluzione di archiviazione e-mail crittografata end-to-end fornisce i mezzi più potenti per lo scambio sicuro dei dati, garantendo la sicurezza e la privacy dei tuoi dati.
/ Creare un account gratuito