Pēdējo desmitgadi tehnoloģiju pasaule darbojās saskaņā ar vienu dārgu pieņēmumu: AI nepieciešami masīvi, vispārēja lietojuma GPU un sarežģīta programmatūras kopa CUDA. Šis pieņēmums padarīja Nvidia par vērtīgāko uzņēmumu pasaulē un radīja "skaitļošanas parādu", kas bija jāmaksā katram jaunuzņēmumam un uzņēmumam.
Lai saprastu, kāpēc tas ir svarīgi, mums jāaplūko, kā darbojas tradicionālās mikroshēmas. Neatkarīgi no tā, vai tas ir Intel procesors vai Nvidia B200, tie visi seko fon Neimana arhitektūrai: instrukcijas un dati tiek glabāti atmiņā (HBM) un pārvietoti šurpu turpu uz procesoru. Lielo valodu modeļu (LLM) pasaulē šī pārvietošana ir galvenais latentuma un milzīgā enerģijas patēriņa cēlonis. Mūs neierobežo tas, cik ātri mēs varam skaitļot; mūs ierobežo tas, cik ātri mēs varam pārvietot datus.
Taalas ir atmetis šo paradigmu. Iegulstot Llama 3.1 8B svarus mikroshēmas augšējos metāla slāņos, modelis vairs netiek "ielādēts" no atmiņas. Modelis ir pati shēma. Tas pilnībā novērš nepieciešamību pēc augstas joslas platuma atmiņas (HBM). Bez pastāvīgas datu kustības enerģijas patēriņš ievērojami samazinās, un ātrums strauji pieaug.
Taalas publicētie veiktspējas rādītāji ir satriecoši. Viena 250 W mikroshēma — ko var dzesēt ar standarta gaisa ventilatoru — ģenerē 17 000 žetonu sekundē vienam lietotājam. Salīdzinājumam, augstākā līmeņa GPU klasteris bieži vien nespēj sasniegt pat daļu no šī ātruma uz vienu plūsmu atmiņas pārvaldības un vispārēja lietojuma kodolu pieskaitāmo izmaksu dēļ.
Tā kā mikroshēma ir specializēta vienam konkrētam modelim, tai nav nepieciešami vispārēja lietojuma procesora "tauki". Nav neizmantotu shēmu grafikas renderēšanai vai mantotajiem aprēķiniem. Katrs kvadrātmilimetrs ir veltīts Llama 3.1 secināšanai.
| Funkcija | Nvidia B200 (Vispārēja lietojuma) | Taalas Llama specifiskā mikroshēma |
|---|---|---|
| Atmiņas veids | HBM3e (Ārējā) | Tieši savienota (Iekšējie metāla slāņi) |
| Dzesēšana | Ieteicama šķidruma dzesēšana | Standarta gaisa dzesēšana |
| Caurlaidspēja | Augsta (Atkarīga no paketes) | 17 000 žetonu/sek (Viens lietotājs) |
| Ražošanas izmaksas | Ārkārtīgi augstas | ~20x zemākas |
| Elastība | Darbina jebkuru modeli | Tieši savienota ar Llama 3.1 8B |
Visvairāk traucējošais Taalas paziņojuma aspekts nav ātrums — tā ir ekonomika. Noņemot HBM un vienkāršojot arhitektūru, Taalas apgalvo, ka ražošanas izmaksas ir 20 reizes zemākas nekā salīdzināmam GPU iestatījumam.
Gadiem ilgi Nvidia "aizsarggrāvis" bija CUDA — programmatūras slānis, kas izstrādātājiem atviegloja AI koda rakstīšanu. Bet, ja modelis jau ir "iecepts" silīcijā, CUDA nav vajadzīga. Nav vajadzīgs kompilators. Jūs vienkārši padodat mikroshēmai ievadi un saņemat izvadi. Šī "modelis-kā-ierīce" pieeja pārvērš AI no augstas uzturēšanas superdatoru uzdevuma par plaša patēriņa aparatūras komponentu.
Acīmredzamā kritika par tieši savienotu silīciju ir stingrība. Ja jūs šodien mikroshēmā iecepsiet Llama 3.1, kas notiks, kad rīt iznāks Llama 4.0?
Taalas to risināja, atklājot savu automatizēto "no-modeļa-līdz-litogrāfijai" cauruļvadu. Viņi ir samazinājuši laiku no pabeigta modeļa kontrolpunkta līdz galīgajam ražošanai gatavam dizainam līdz tikai diviem mēnešiem. Lai gan tas joprojām ir lēnāk nekā jauna svara faila lejupielāde no Hugging Face, šis kompromiss kļūst neatvairāms liela mēroga pakalpojumu sniedzējiem. Ja uzņēmums zina, ka tas darbinās konkrētu modeļa versiju miljardiem reižu dienā, tieši savienotas mikroshēmas efektivitāte atsver GPU elastību.
Šī maiņa iezīmē "Iebūvētā AI" ēras sākumu. Mēs attālināmies no centralizētiem "Dieva modeļiem", kas darbojas masīvos, ar ūdeni dzesējamos datu centros, uz specializētu, hiperefektīvu silīciju, kas var atrasties jebkur.
Iedomājieties autonomu transportlīdzekli ar tieši savienotu redzes modeli, kuram nav nepieciešama ārējā atmiņa, vai viedtālruni, kas darbina lokālu LLM ar superdatora ātrumu, neiztukšojot akumulatoru. Samazinot ieejas izmaksas par 20 reizēm, Taalas efektīvi demokratizē AI revolūcijas aparatūras slāni.
Tieši savienotu AI mikroshēmu parādīšanās maina ceļa karti ikvienam tehnoloģiju vadītājam. Lūk, kas jums būtu jāapsver:
Nvidia impērija tika uzcelta uz idejas, ka AI ir programmatūras problēma, ko atrisina elastīga aparatūra. Taalas tikko apgalvoja, ka AI ir aparatūras problēma, ko atrisina neelastīgs, perfekts silīcijs. Ja tirgus sekos efektivitātei, GPU karaļa ēra varētu tuvoties beigām.



Mūsu end-to-end šifrētais e-pasta un mākoņdatu glabāšanas risinājums nodrošina visefektīvākos līdzekļus drošai datu apmaiņai, garantējot jūsu datu drošību un konfidencialitāti.
/ Izveidot bezmaksas kontu