Pastarąjį dešimtmetį technologijų pasaulis vadovavosi viena brangia prielaida: DI reikalingi masyvūs, bendrosios paskirties GPU ir sudėtingas programinės įrangos rinkinys, vadinamas CUDA. Ši prielaida pavertė „Nvidia“ vertingiausia įmone Žemėje ir sukūrė „skaičiavimo skolą“, kurią turėjo mokėti kiekvienas startuolis ir įmonė.
2026 m. vasario 19 d. ši prielaida išgaravo. Kanados startuolis „Taalas“ pasirodė iš šešėlio, kad pademonstruotų tai, ką daugelis pramonės atstovų laikė neįmanomu dalyku — arba bent jau dešimtmečių ateitimi. Jie ne tik sukūrė greitesnį lustą; jie sukūrė lustą, kuris yra pats modelis. Tiesiogiai integruodami „Llama 3.1 8B“ modelį į silicio metalo sluoksnius, „Taalas“ vienu ypu veiksmingai įveikė „atminties sieną“, energijos krizę ir „Nvidia“ mokestį.
Norėdami suprasti, kodėl tai svarbu, turime pažvelgti į tai, kaip veikia tradiciniai lustai. Nesvarbu, ar tai būtų „Intel“ procesorius, ar „Nvidia B200“, jie visi vadovaujasi von Neumanno architektūra: instrukcijos ir duomenys saugomi atmintyje (HBM) ir nuolat perkeliami į procesorių bei atgal. Didžiųjų kalbos modelių (LLM) pasaulyje šis perkėlimas yra pagrindinė vėlavimo ir didžiulio energijos suvartojimo priežastis. Mus riboja ne tai, kaip greitai galime skaičiuoti, o tai, kaip greitai galime perkelti duomenis.
„Taalas“ atsisakė šios paradigmos. Įterpus „Llama 3.1 8B“ svorius į viršutinius lusto metalo sluoksnius, modelis nebeturi būti „įkeliamas“ iš atminties. Modelis yra pati grandinė. Tai visiškai panaikina didelio pralaidumo atminties (HBM) poreikį. Be nuolatinio duomenų judėjimo energijos sąnaudos smarkiai sumažėja, o greitis šokteli į viršų.
„Taalas“ paskelbti našumo rodikliai yra stulbinantys. Vienas 250 W lustas, kurį galima aušinti standartiniu ventiliatoriumi, vienam vartotojui generuoja 17 000 žetonų per sekundę. Palyginimui, aukščiausios klasės GPU klasteriai dažnai sunkiai pasiekia bent dalį šio greičio vienam srautui dėl atminties valdymo ir bendrosios paskirties branduolių sąnaudų.
Kadangi lustas yra specializuotas vienam konkrečiam modeliui, jam nereikia bendrosios paskirties procesoriaus „balasto“. Čia nėra nenaudojamų grandinių grafikos atvaizdavimui ar pasenusiems skaičiavimams. Kiekvienas kristalo kvadratinis milimetras yra skirtas „Llama 3.1“ inferencijai.
| Funkcija | Nvidia B200 (bendrosios paskirties) | „Taalas“ specializuotas „Llama“ lustas |
|---|---|---|
| Atminties tipas | HBM3e (išorinė) | Tiesiogiai integruota (vidiniai metalo sluoksniai) |
| Aušinimas | Rekomenduojamas aušinimas skysčiu | Standartinis aušinimas oru |
| Pralaidumas | Didelis (priklauso nuo partijos) | 17 000 žetonų/sek. (vienam vartotojui) |
| Gamybos sąnaudos | Itin didelės | ~20 kartų mažesnės |
| Lankstumas | Veikia su bet kokiu modeliu | Tiesiogiai integruotas „Llama 3.1 8B“ |
Labiausiai trikdantis „Taalas“ pranešimo aspektas yra ne greitis, o ekonomika. Pašalinusi HBM ir supaprastinusi architektūrą, „Taalas“ teigia, kad gamybos sąnaudos yra 20 kartų mažesnės nei panašios GPU sąrankos.
Daugelį metų „Nvidia“ pranašumas buvo CUDA — programinės įrangos sluoksnis, leidžiantis kūrėjams lengvai rašyti DI kodą. Tačiau jei modelis jau yra įkeptas į silicį, CUDA jums nebereikia. Jums nereikia kompiliatoriaus. Jūs tiesiog pateikiate lustui įvestį ir gaunate išvestį. Šis „modelis kaip prietaisas“ požiūris paverčia DI iš sudėtingos superkompiuterių užduoties į paprastą techninės įrangos komponentą.
Akivaizdi tiesiogiai integruoto silicio kritika yra jo nelankstumas. Jei šiandien įkepsite „Llama 3.1“ į lustą, kas nutiks, kai rytoj pasirodys „Llama 4.0“?
„Taalas“ tai išsprendė pristatydami savo automatizuotą „nuo modelio iki litografijos“ procesą. Jie sutrumpino laiką nuo galutinio modelio kontrolinio taško iki galutinio gamybai paruošto dizaino iki vos dviejų mėnesių. Nors tai vis dar lėčiau nei atsisiųsti naują svorių failą iš „Hugging Face“, šis mainas tampa nenugalimas didiesiems duomenų centrams. Jei įmonė žino, kad konkrečią modelio versiją naudos milijardus kartų per dieną, tiesiogiai integruoto lusto efektyvumas nusveria GPU lankstumą.
Šis pokytis žymi „integruoto DI“ eros pradžią. Mes judame nuo centralizuotų „visagalių modelių“, veikiančių masyviuose, skysčiu aušinamuose duomenų centruose, link specializuoto, itin efektyvaus silicio, kuris gali būti bet kur.
Įsivaizduokite autonominę transporto priemonę su tiesiogiai integruotu vaizdo atpažinimo modeliu, kuriam nereikia jokios išorinės atminties, arba išmanųjį telefoną, kuris vietinį LLM valdo superkompiuterio greičiu neišeikvodamas baterijos. Sumažindama patekimo į rinką kainą 20 kartų, „Taalas“ veiksmingai demokratizuoja techninės įrangos sluoksnį DI revoliucijoje.
Tiesiogiai integruotų DI lustų atsiradimas keičia kiekvieno technologijų lyderio gaires. Štai ką turėtumėte apsvarstyti:
„Nvidia“ imperija buvo pastatyta ant idėjos, kad DI yra programinės įrangos problema, sprendžiama lanksčia technine įranga. „Taalas“ ką tik įrodė, kad DI yra techninės įrangos problema, sprendžiama nelanksčiu, bet tobulu siliciu. Jei rinka paseks efektyvumu, GPU karaliaus era gali artėti prie pabaigos.



Pašto ir debesies saugojimo sprendimas suteikia galingiausias saugaus keitimosi duomenimis priemones, užtikrinančias jūsų duomenų saugumą ir privatumą.
/ Sukurti nemokamą paskyrą