Pramonės naujienos

Bendrosios paskirties eros pabaiga: kaip „Taalas“ tiesiogiai integravo DI ateitį į lustus

„Taalas“ pristato tiesiogiai integruotą „Llama 3.1 8B“ lustą, aplenkiantį GPU su 17 000 žetonų/sek. greičiu ir 20 kartų mažesnėmis sąnaudomis. Ar „Nvidia“ imperijai iškilo grėsmė?
Bendrosios paskirties eros pabaiga: kaip „Taalas“ tiesiogiai integravo DI ateitį į lustus

Pastarąjį dešimtmetį technologijų pasaulis vadovavosi viena brangia prielaida: DI reikalingi masyvūs, bendrosios paskirties GPU ir sudėtingas programinės įrangos rinkinys, vadinamas CUDA. Ši prielaida pavertė „Nvidia“ vertingiausia įmone Žemėje ir sukūrė „skaičiavimo skolą“, kurią turėjo mokėti kiekvienas startuolis ir įmonė.

2026 m. vasario 19 d. ši prielaida išgaravo. Kanados startuolis „Taalas“ pasirodė iš šešėlio, kad pademonstruotų tai, ką daugelis pramonės atstovų laikė neįmanomu dalyku — arba bent jau dešimtmečių ateitimi. Jie ne tik sukūrė greitesnį lustą; jie sukūrė lustą, kuris yra pats modelis. Tiesiogiai integruodami „Llama 3.1 8B“ modelį į silicio metalo sluoksnius, „Taalas“ vienu ypu veiksmingai įveikė „atminties sieną“, energijos krizę ir „Nvidia“ mokestį.

Von Neumanno kliūties mirtis

Norėdami suprasti, kodėl tai svarbu, turime pažvelgti į tai, kaip veikia tradiciniai lustai. Nesvarbu, ar tai būtų „Intel“ procesorius, ar „Nvidia B200“, jie visi vadovaujasi von Neumanno architektūra: instrukcijos ir duomenys saugomi atmintyje (HBM) ir nuolat perkeliami į procesorių bei atgal. Didžiųjų kalbos modelių (LLM) pasaulyje šis perkėlimas yra pagrindinė vėlavimo ir didžiulio energijos suvartojimo priežastis. Mus riboja ne tai, kaip greitai galime skaičiuoti, o tai, kaip greitai galime perkelti duomenis.

„Taalas“ atsisakė šios paradigmos. Įterpus „Llama 3.1 8B“ svorius į viršutinius lusto metalo sluoksnius, modelis nebeturi būti „įkeliamas“ iš atminties. Modelis yra pati grandinė. Tai visiškai panaikina didelio pralaidumo atminties (HBM) poreikį. Be nuolatinio duomenų judėjimo energijos sąnaudos smarkiai sumažėja, o greitis šokteli į viršų.

17 000 žetonų per sekundę: nauja realybė

„Taalas“ paskelbti našumo rodikliai yra stulbinantys. Vienas 250 W lustas, kurį galima aušinti standartiniu ventiliatoriumi, vienam vartotojui generuoja 17 000 žetonų per sekundę. Palyginimui, aukščiausios klasės GPU klasteriai dažnai sunkiai pasiekia bent dalį šio greičio vienam srautui dėl atminties valdymo ir bendrosios paskirties branduolių sąnaudų.

Kadangi lustas yra specializuotas vienam konkrečiam modeliui, jam nereikia bendrosios paskirties procesoriaus „balasto“. Čia nėra nenaudojamų grandinių grafikos atvaizdavimui ar pasenusiems skaičiavimams. Kiekvienas kristalo kvadratinis milimetras yra skirtas „Llama 3.1“ inferencijai.

Funkcija Nvidia B200 (bendrosios paskirties) „Taalas“ specializuotas „Llama“ lustas
Atminties tipas HBM3e (išorinė) Tiesiogiai integruota (vidiniai metalo sluoksniai)
Aušinimas Rekomenduojamas aušinimas skysčiu Standartinis aušinimas oru
Pralaidumas Didelis (priklauso nuo partijos) 17 000 žetonų/sek. (vienam vartotojui)
Gamybos sąnaudos Itin didelės ~20 kartų mažesnės
Lankstumas Veikia su bet kokiu modeliu Tiesiogiai integruotas „Llama 3.1 8B“

20 kartų mažesnių sąnaudų pranašumas

Labiausiai trikdantis „Taalas“ pranešimo aspektas yra ne greitis, o ekonomika. Pašalinusi HBM ir supaprastinusi architektūrą, „Taalas“ teigia, kad gamybos sąnaudos yra 20 kartų mažesnės nei panašios GPU sąrankos.

Daugelį metų „Nvidia“ pranašumas buvo CUDA — programinės įrangos sluoksnis, leidžiantis kūrėjams lengvai rašyti DI kodą. Tačiau jei modelis jau yra įkeptas į silicį, CUDA jums nebereikia. Jums nereikia kompiliatoriaus. Jūs tiesiog pateikiate lustui įvestį ir gaunate išvestį. Šis „modelis kaip prietaisas“ požiūris paverčia DI iš sudėtingos superkompiuterių užduoties į paprastą techninės įrangos komponentą.

Nuo modelio iki silicio per 60 dienų

Akivaizdi tiesiogiai integruoto silicio kritika yra jo nelankstumas. Jei šiandien įkepsite „Llama 3.1“ į lustą, kas nutiks, kai rytoj pasirodys „Llama 4.0“?

„Taalas“ tai išsprendė pristatydami savo automatizuotą „nuo modelio iki litografijos“ procesą. Jie sutrumpino laiką nuo galutinio modelio kontrolinio taško iki galutinio gamybai paruošto dizaino iki vos dviejų mėnesių. Nors tai vis dar lėčiau nei atsisiųsti naują svorių failą iš „Hugging Face“, šis mainas tampa nenugalimas didiesiems duomenų centrams. Jei įmonė žino, kad konkrečią modelio versiją naudos milijardus kartų per dieną, tiesiogiai integruoto lusto efektyvumas nusveria GPU lankstumą.

Geopolitinis ir pramoninis atgarsis

Šis pokytis žymi „integruoto DI“ eros pradžią. Mes judame nuo centralizuotų „visagalių modelių“, veikiančių masyviuose, skysčiu aušinamuose duomenų centruose, link specializuoto, itin efektyvaus silicio, kuris gali būti bet kur.

Įsivaizduokite autonominę transporto priemonę su tiesiogiai integruotu vaizdo atpažinimo modeliu, kuriam nereikia jokios išorinės atminties, arba išmanųjį telefoną, kuris vietinį LLM valdo superkompiuterio greičiu neišeikvodamas baterijos. Sumažindama patekimo į rinką kainą 20 kartų, „Taalas“ veiksmingai demokratizuoja techninės įrangos sluoksnį DI revoliucijoje.

Praktinės įžvalgos DI pramonei

Tiesiogiai integruotų DI lustų atsiradimas keičia kiekvieno technologijų lyderio gaires. Štai ką turėtumėte apsvarstyti:

  • Įvertinkite modelio stabilumą: Jei jūsų verslas priklauso nuo konkretaus modelio (pavyzdžiui, „Llama 3.1“), laikas pasidomėti ASIC (specializuotų integrinių grandynų) sprendimais, o ne bendrosios paskirties GPU nuoma.
  • Permąstykite pranašumą: Jei techninė įranga tampa prekine preke, o CUDA nebetenka sargo vaidmens, jūsų vertė turi kilti iš nuosavų duomenų ir tikslaus derinimo, o ne tik iš prieigos prie skaičiavimo išteklių.
  • Pasiruoškite „Edge“ skaičiavimams: Energijos sąnaudų sumažėjimas (250 W aušinant oru) reiškia, kad aukščiausio lygio DI ateina į galinius įrenginius. Pradėkite planuoti vietinę, didelės spartos inferenciją, kuriai nereikia debesijos paslaugų teikėjo.
  • Stebėkite „greito sekėjo“ modelius: Traukiantis „nuo modelio iki silicio“ grandinei, pranašumą būti „pirmam“ su nauja modelio architektūra gali užtemdyti pranašumas būti „efektyviausiam“ su tiesiogiai integruotu lustu.

„Nvidia“ imperija buvo pastatyta ant idėjos, kad DI yra programinės įrangos problema, sprendžiama lanksčia technine įranga. „Taalas“ ką tik įrodė, kad DI yra techninės įrangos problema, sprendžiama nelanksčiu, bet tobulu siliciu. Jei rinka paseks efektyvumu, GPU karaliaus era gali artėti prie pabaigos.

Šaltiniai

  • Oficiali „Taalas“ techninė apžvalga (2026 m. vasaris)
  • Semiconductor Engineering: Tiesiogiai integruotų neuroninių tinklų iškilimas
  • Meta AI: „Llama 3.1“ architektūra ir įgyvendinimo standartai
  • Journal of Applied Physics: Metalo sluoksnio logikos ir atminties integracija
bg
bg
bg

Iki pasimatymo kitoje pusėje.

Pašto ir debesies saugojimo sprendimas suteikia galingiausias saugaus keitimosi duomenimis priemones, užtikrinančias jūsų duomenų saugumą ir privatumą.

/ Sukurti nemokamą paskyrą