Przez ostatnią dekadę świat technologii opierał się na jednym, kosztownym założeniu: AI wymaga potężnych procesorów GPU ogólnego przeznaczenia i złożonego stosu oprogramowania o nazwie CUDA. To założenie uczyniło Nvidię najcenniejszą firmą na Ziemi i stworzyło „dług obliczeniowy”, który musiał spłacić każdy startup i przedsiębiorstwo.
19 lutego 2026 r. to założenie prysło. Kanadyjski startup Taalas wyszedł z cienia, aby zademonstrować coś, co wielu w branży uważało za niemożliwe — a przynajmniej odległe o dekady. Nie tylko zbudowali szybszy układ; zbudowali układ, który jest modelem. Poprzez sprzętowe zintegrowanie modelu Llama 3.1 8B bezpośrednio w metalowych warstwach krzemu, Taalas skutecznie ominął barierę pamięci, kryzys energetyczny i „podatek Nvidii” za jednym zamachem.
Aby zrozumieć, dlaczego ma to znaczenie, musimy przyjrzeć się działaniu tradycyjnych układów. Niezależnie od tego, czy jest to procesor Intel, czy Nvidia B200, wszystkie one opierają się na architekturze von Neumanna: instrukcje i dane są przechowywane w pamięci (HBM) i przesyłane tam i z powrotem do procesora. W świecie dużych modeli językowych (LLM), to przesyłanie jest główną przyczyną opóźnień i ogromnego zużycia energii. Nie ogranicza nas szybkość obliczeń; ogranicza nas szybkość przesyłania danych.
Taalas odrzucił ten paradygmat. Dzięki osadzeniu wag Llama 3.1 8B w górnych metalowych warstwach chipu, model nie jest już „ładowany” z pamięci. Model jest obwodem. Eliminuje to całkowicie potrzebę stosowania pamięci o wysokiej przepustowości (HBM). Bez ciągłego przesyłania danych pobór mocy drastycznie spada, a prędkość gwałtownie rośnie.
Wskaźniki wydajności opublikowane przez Taalas są zdumiewające. Pojedynczy układ o mocy 250 W — który może być chłodzony standardowym wentylatorem — generuje 17 000 tokenów na sekundę dla jednego użytkownika. Dla porównania, najwyższej klasy klastry GPU często mają trudności z osiągnięciem ułamka tej prędkości na pojedynczy strumień ze względu na narzut związany z zarządzaniem pamięcią i jądrami ogólnego przeznaczenia.
Ponieważ układ jest wyspecjalizowany pod jeden konkretny model, nie potrzebuje „zbędnej masy” procesora ogólnego przeznaczenia. Nie ma nieużywanych obwodów do renderowania grafiki czy obliczeń starszego typu. Każdy milimetr kwadratowy matrycy jest dedykowany inferencji modelu Llama 3.1.
| Cecha | Nvidia B200 (Ogólnego przeznaczenia) | Układ Taalas dedykowany Llama |
|---|---|---|
| Rodzaj pamięci | HBM3e (Zewnętrzna) | Zintegrowana sprzętowo (Wewnętrzne warstwy metalu) |
| Chłodzenie | Zalecane chłodzenie cieczą | Standardowe chłodzenie powietrzem |
| Przepustowość | Wysoka (Zależna od partii) | 17 000 tokenów/s (Pojedynczy użytkownik) |
| Koszt produkcji | Ekstremalnie wysoki | ~20x niższy |
| Elastyczność | Obsługuje dowolny model | Sprzętowo zintegrowany z Llama 3.1 8B |
Najbardziej przełomowym aspektem ogłoszenia Taalas nie jest prędkość — to ekonomia. Dzięki usunięciu HBM i uproszczeniu architektury, Taalas deklaruje koszty produkcji 20-krotnie niższe niż w przypadku porównywalnej konfiguracji GPU.
Przez lata „fosą” Nvidii była CUDA — warstwa oprogramowania ułatwiająca programistom pisanie kodu AI. Jeśli jednak model jest już „wypalony” w krzemie, CUDA nie jest potrzebna. Nie potrzebujesz kompilatora. Po prostu podajesz dane wejściowe do układu i otrzymujesz wynik. To podejście typu „model jako urządzenie” zmienia AI z wysokokosztowego zadania superkomputerowego w powszechny komponent sprzętowy.
Oczywistą krytyką sprzętowo zintegrowanego krzemu jest sztywność. Jeśli dziś „wypalisz” Llama 3.1 w układzie, co się stanie, gdy jutro pojawi się Llama 4.0?
Taalas odniósł się do tego, ujawniając swój zautomatyzowany rurociąg „z modelu do litografii”. Skrócili czas od gotowego punktu kontrolnego modelu do finalnego projektu gotowego do produkcji do zaledwie dwóch miesięcy. Choć to wciąż wolniej niż pobranie nowego pliku wag z Hugging Face, kompromis staje się nieodparty dla gigantów technologicznych. Jeśli firma wie, że będzie uruchamiać określoną wersję modelu miliardy razy dziennie, wydajność układu sprzętowego przeważa nad elastycznością GPU.
Ta zmiana oznacza początek ery „wbudowanej sztucznej inteligencji”. Odchodzimy od scentralizowanych „modeli-bogów” działających w ogromnych, chłodzonych wodą centrach danych w stronę wyspecjalizowanego, hiperwydajnego krzemu, który może znajdować się wszędzie.
Wyobraźmy sobie autonomiczny pojazd ze sprzętowo zintegrowanym modelem wizyjnym, który nie wymaga zewnętrznej pamięci, lub smartfon z lokalnym modelem LLM działającym z szybkością superkomputera bez wyczerpywania baterii. Obniżając próg wejścia 20-krotnie, Taalas skutecznie demokratyzuje warstwę sprzętową rewolji AI.
Pojawienie się sprzętowych układów AI zmienia mapę drogową dla każdego lidera technologii. Oto co należy wziąć pod uwagę:
Nvidia zbudowała swoje imperium na przekonaniu, że AI to problem programowy rozwiązywany przez elastyczny sprzęt. Taalas właśnie udowodnił, że AI to problem sprzętowy rozwiązywany przez sztywny, doskonały krzem. Jeśli rynek podąży za wydajnością, era królowania GPU może dobiegać końca.



Nasze kompleksowe, szyfrowane rozwiązanie do poczty e-mail i przechowywania danych w chmurze zapewnia najpotężniejsze środki bezpiecznej wymiany danych, zapewniając bezpieczeństwo i prywatność danych.
/ Utwórz bezpłatne konto