Il panorama dell'intelligenza artificiale sta subendo un cambiamento fondamentale. Negli ultimi tre anni, l'attenzione dell'industria è stata quasi interamente rivolta all'addestramento (training): il processo computazionalmente costoso di insegnare ai modelli linguistici di grandi dimensioni (LLM) come pensare. Ma alla conferenza per sviluppatori GTC 2026 a San Jose, il CEO di Nvidia Jensen Huang ha segnalato che l'era della dominanza dell'addestramento si sta evolvendo nell'era dell'inferenza.
Con un'opportunità di ricavi prevista di 1 trilione di dollari entro il 2027, Nvidia non sta più solo costruendo i motori della creazione; si sta posizionando per alimentare ogni interazione in tempo reale nel mondo digitale. Il fulcro di questa strategia è un massiccio accordo di licenza da 17 miliardi di dollari con la startup di chip Groq, volto a risolvere il più grande collo di bottiglia del settore: la velocità.
Per capire perché Nvidia stia cambiando rotta, è necessario comprendere la differenza tra addestramento e inferenza. Se l'addestramento è il processo di scrittura di un'enorme enciclopedia, l'inferenza è l'atto di un utente che cerca un fatto specifico in quel libro e ottiene una risposta istantaneamente.
Mentre l'addestramento richiede enormi cluster di GPU in funzione per mesi, l'inferenza avviene ogni volta che un utente interroga un chatbot, un'auto a guida autonoma prende una decisione in una frazione di secondo o un'IA medica analizza una scansione. Man mano che l'IA passa dai laboratori sperimentali a prodotti di consumo onnipresenti, si prevede che il volume delle attività di inferenza supererà l'addestramento di ordini di grandezza. È da qui che deriva la valutazione di 1 trilione di dollari. È il passaggio dal costruire il cervello al far funzionare il cervello su scala globale.
Uno degli annunci più sorprendenti al GTC 2026 è stata la profonda integrazione della tecnologia di Groq, la startup per cui Nvidia ha pagato una licenza da 17 miliardi di dollari alla fine dello scorso anno. Groq è diventata famosa per le sue Language Processing Units (LPU), che danno priorità alle prestazioni "deterministiche", garantendo essenzialmente che le risposte dell'IA siano fornite con un ritardo quasi nullo.
Incorporando i segreti architettonici di Groq nel suo nuovo processore centrale e nei sistemi IA, Nvidia sta affrontando la principale lamentela dell'IA aziendale: la latenza. In un mondo in cui un ritardo di mezzo secondo in un bot del servizio clienti o in un algoritmo di trading finanziario può tradursi in una perdita di ricavi, la velocità è la valuta definitiva. La nuova suite hardware svelata da Huang promette di eseguire i modelli più complessi del mondo con una fluidità che imita la conversazione umana, superando i balbettii "parola per parola" comuni nelle precedenti iterazioni dell'IA.
Il keynote di Jensen Huang ha introdotto una nuova classe di processori centrali progettati specificamente per lavorare in tandem con la tecnologia Groq in licenza. Non si tratta solo di una GPU più veloce; è un system-on-a-chip (SoC) specializzato progettato per la "Real-Time Enterprise".
| Caratteristica | Generazione precedente (H200/B200) | Nuovo sistema di inferenza 2026 |
|---|---|---|
| Focus principale | Addestramento modelli e Throughput | Inferenza in tempo reale e Latenza |
| Architettura | Hopper/Blackwell | Architettura unificata potenziata da LPU |
| Efficienza energetica | Alto consumo per token | Riduzione del 40% del consumo per inferenza |
| Interconnessione | NVLink 4.0 | Fabric derivato da Groq a latenza ultra-bassa |
Questo hardware rappresenta una mossa difensiva e offensiva. Difensivamente, impedisce ai giganti del cloud come Amazon e Google di rubare quote di mercato con i propri chip di inferenza personalizzati (come Inferentia o TPU). Offensivamente, stabilisce un nuovo standard di riferimento per le prestazioni che i concorrenti faticheranno a eguagliare.
Per l'industria tecnologica, la scommessa di Nvidia sull'inferenza cambia la tabella di marcia per i prossimi 24 mesi. Ci stiamo allontanando da una mentalità "più grande è meglio" riguardo alle dimensioni dei modelli verso un'era in cui "l'efficienza è sovrana".
Suggerimenti pratici per le imprese:
La proiezione di 1 trilione di dollari di Nvidia è audace, ma si basa sulla realtà che l'IA sta diventando l'interfaccia primaria per l'informatica. Assicurandosi la tecnologia necessaria per dominare il mercato dell'inferenza, Nvidia sta tentando di garantire di rimanere la spina dorsale indispensabile dell'economia dell'IA.
Come ha osservato Jensen Huang durante i suoi commenti conclusivi, il primo trilione di dollari dell'era dell'IA è stato speso per l'apprendimento. Il prossimo trilione sarà speso per applicare tale conoscenza in tempo reale. Per Nvidia, l'obiettivo è assicurarsi che ogni volta che un'IA "pensa", lo faccia sul loro silicio.



La nostra soluzione di archiviazione e-mail crittografata end-to-end fornisce i mezzi più potenti per lo scambio sicuro dei dati, garantendo la sicurezza e la privacy dei tuoi dati.
/ Creare un account gratuito