Tööstusuudised

Üldotstarbelise ajastu lõpp: kuidas Taalas riistvarastas tehisintellekti tuleviku

Taalas avalikustas riistvaralise Llama 3.1 8B kiibi, möödudes GPU-dest 17 000 tps kiiruse ja 20x madalamate kuludega. Kas Nvidia impeerium on ohus?
Üldotstarbelise ajastu lõpp: kuidas Taalas riistvarastas tehisintellekti tuleviku

Viimase kümnendi jooksul on tehnoloogiamaailm tuginenud ühele kallile eeldusele: tehisintellekt vajab massiivseid üldotstarbelisi GPU-sid ja keerulist tarkvarapinu nimega CUDA. See eeldus muutis Nvidia maailma väärtuslikumaks ettevõtteks ja tekitas „arvutusvõla”, mida iga idufirma ja suurettevõte pidi maksma.

  1. veebruaril 2026 see eeldus hajus. Kanada idufirma Taalas väljus varjust, et demonstreerida seda, mida paljud tööstuses pidasid võimatuks – või vähemalt aastakümnete kaugusel olevaks. Nad ei ehitanud lihtsalt kiiremat kiipi; nad ehitasid kiibi, mis on mudel. Riistvarastades Llama 3.1 8B mudeli otse räni metallikihtidesse, on Taalas ühe hoobiga möödunud mälubarjäärist, energiakriisist ja Nvidia-maksust.

Von Neumanni pudelikaela surm

Mõistmaks, miks see on oluline, peame vaatama, kuidas traditsioonilised kiibid töötavad. Olgu tegemist Inteli protsessori või Nvidia B200-ga, järgivad need kõik von Neumanni arhitektuuri: juhised ja andmed salvestatakse mällu (HBM) ning neid liigutatakse protsessori vahel edasi-tagasi. Suurte keelemudelite (LLM) maailmas on see andmete liigutamine peamine viivituse ja tohutu energiatarbimise põhjus. Meid ei piira arvutuskiirus, vaid see, kui kiiresti suudame andmeid liigutada.

Taalas on selle paradigma hüljanud. Manustades Llama 3.1 8B kaalud kiibi ülemistesse metallikihtidesse, ei „laadita” mudelit enam mälust. Mudel ongi vooluring. See kaotab täielikult vajaduse suure ribalaiusega mälu (HBM) järele. Ilma pideva andmeliikumiseta langeb energiatarve märkimisväärselt ja kiirus tõuseb hüppeliselt.

17 000 tokenit sekundis: uus reaalsus

Taalase avaldatud jõudlusnäitajad on hämmastavad. Üksainus 250 W kiip – mida saab jahutada tavalise õhkjahutusega – genereerib ühele kasutajale 17 000 tokenit sekundis. Võrdluseks: tipptasemel GPU-klaster jääb sageli hätta isegi murdosa selle kiiruse saavutamisega ühe voo kohta, kuna mäluhalduse ja üldotstarbeliste tuumade ülakulud on suured.

Kuna kiip on spetsialiseerunud ühele konkreetsele mudelile, ei vaja see üldotstarbelise protsessori „rasvakihti”. Puuduvad kasutamata vooluringid graafika renderdamiseks või pärandarvutusteks. Iga ruutmillimeeter kiibist on pühendatud Llama 3.1 järeldustööle.

Funktsioon Nvidia B200 (Üldotstarbeline) Taalas Llama-spetsiifiline kiip
Mälu tüüp HBM3e (Väline) Riistvaraline (Sisemised metallikihid)
Jahutus Vedelikjahutus soovituslik Tavaline õhkjahutus
Läbilaskevõime Kõrge (Sõltub partiist) 17 000 tokenit/sek (Üks kasutaja)
Tootmiskulu Äärmiselt kõrge ~20x madalam
Paindlikkus Käitab mis tahes mudelit Riistvaraliselt fikseeritud Llama 3.1 8B-le

20-kordne kulueelis

Taalase teadaande kõige murrangulisem aspekt ei ole kiirus, vaid ökonoomika. Eemaldades HBM-i ja lihtsustades arhitektuuri, väidab Taalas, et tootmiskulu on 20 korda madalam kui võrreldaval GPU-seadistusel.

Aastaid oli Nvidia „vallikraaviks” CUDA – tarkvarakiht, mis tegi arendajatele tehisintellekti koodi kirjutamise lihtsaks. Kuid kui mudel on juba ränisse „küpsetatud”, pole CUDA-t vaja. Pole vaja kompilaatorit. Kiibile antakse sisend ja sealt saadakse väljund. See „mudel-kui-seade” lähenemine muudab tehisintellekti kõrget hooldust nõudvast superarvutusülesandest tavaliseks riistvarakomponendiks.

Mudelist ränini 60 päevaga

Ilmne kriitika riistvaraliselt fikseeritud räni suunas on jäikus. Kui küpsetate Llama 3.1 täna kiibi sisse, mis saab siis, kui homme ilmub Llama 4.0?

Taalas lahendas selle, paljastades oma automatiseeritud „mudelist-litograafiani” konveieri. Nad on lühendanud aega valmis mudeli kontrollpunktist kuni lõpliku tootmisvalmis disainini vaid kahele kuule. Kuigi see on endiselt aeglasem kui uue kaalufaili allalaadimine Hugging Face'ist, on see kompromiss muutumas suurte andmekeskuste jaoks vastupandamatuks. Kui ettevõte teab, et nad käitavad konkreetset mudeli versiooni miljardeid kordi päevas, kaalub riistvaralise kiibi tõhusus üles GPU paindlikkuse.

Geopoliitiline ja tööstuslik ahelreaktsioon

See muutus märgib „manustatud tehisintellekti” (Embedded AI) ajastu algust. Me liigume eemale tsentraliseeritud „jumal-mudelitest”, mis töötavad massiivsetes vesijahutusega andmekeskustes, spetsialiseeritud ja ülitõhusa räni suunas, mis võib asuda kõikjal.

Kujutage ette isesõitvat autot, millel on riistvaraline nägemismudel, mis ei vaja välist mälu, või nutitelefoni, mis käitab kohalikku LLM-i superarvuti kiirusel ilma akut tühjendamata. Alandades sisenemisbarjääri 20 korda, demokratiseerib Taalas tõhusalt AI-revolutsiooni riistvarakihti.

Praktilised soovitused tehisintellekti tööstusele

Riistvaraliste AI-kiipide ilmumine muudab iga tehnoloogiajuhi teekaarti. Siin on asjad, mida peaksite kaaluma:

  • Hinnake mudeli stabiilsust: Kui teie äri toetub konkreetsele mudelile (nagu Llama 3.1), on aeg vaadata ASIC (rakendusspetsiifiline integraallülitus) lahenduste, mitte üldotstarbeliste GPU-de rentimise poole.
  • Mõelge „vallikraav” ümber: Kui riistvara muutub tarbekaubaks ja CUDA ei ole enam väravavaht, peab teie väärtus tulenema omandis olevatest andmetest ja peenhäälestusest, mitte ainult juurdepääsust arvutusvõimsusele.
  • Valmistuge äärearvutuseks: Energiatarbe vähenemine (250 W õhkjahutusega) tähendab, et tipptasemel AI jõuab seadmetesse. Alustage kohapealse (on-premise) ja kiire järeldustöö planeerimist, mis ei vaja pilveteenuse pakkujat.
  • Jälgige „kiireid järgijaid”: Kuna „mudelist-ränini” ahel lüheneb, võib uue mudeliarhitektuuri puhul „esimesena turul olemise” eelise varjutada eelis olla „kõige tõhusam” riistvaralisel kiibil.

Nvidia impeerium rajati ideele, et AI on tarkvaraline probleem, mille lahendab paindlik riistvara. Taalas on just väitnud, et AI on riistvaraline probleem, mille lahendab jäik ja täiuslik räni. Kui turg järgib tõhusust, võib GPU-kuninga ajastu lõpule läheneda.

Allikad

  • Taalas Official Technical Briefing (veebruar 2026)
  • Semiconductor Engineering: The Rise of Hardwired Neural Networks
  • Meta AI: Llama 3.1 Architecture and Implementation Standards
  • Journal of Applied Physics: Metal-Layer Logic and Memory Integration
bg
bg
bg

Kohtumiseni teisel poolel.

Meie läbivalt krüpteeritud e-posti ja pilvesalvestuse lahendus pakub kõige võimsamaid vahendeid turvaliseks andmevahetuseks, tagades teie andmete turvalisuse ja privaatsuse.

/ Tasuta konto loomin