Последнее десятилетие технологический мир жил, исходя из одного дорогостоящего предположения: для ИИ требуются массивные универсальные GPU и сложный программный стек под названием CUDA. Это предположение превратило Nvidia в самую дорогую компанию на Земле и создало «вычислительный долг», который приходилось оплачивать каждому стартапу и предприятию.
19 февраля 2026 года это предположение испарилось. Канадский стартап Taalas вышел из режима скрытности, чтобы продемонстрировать то, что многие в отрасли считали невозможным — или, по крайней мере, делом десятилетий. Они не просто создали более быстрый чип; они создали чип, который и есть модель. Путем аппаратной прошивки модели Llama 3.1 8B непосредственно в металлические слои кремния, Taalas фактически одним махом обошла «стену памяти», энергетический кризис и «налог на Nvidia».
Чтобы понять, почему это важно, нужно взглянуть на то, как работают традиционные чипы. Будь то процессор Intel или Nvidia B200, все они следуют архитектуре фон Неймана: инструкции и данные хранятся в памяти (HBM) и перемещаются туда-обратно к процессору. В мире больших языковых моделей (LLM) это перемещение является основной причиной задержек и огромного энергопотребления. Мы ограничены не скоростью вычислений, а скоростью перемещения данных.
Taalas отказалась от этой парадигмы. Благодаря внедрению весов Llama 3.1 8B в верхние металлические слои чипа, модель больше не «загружается» из памяти. Модель и есть схема. Это полностью устраняет необходимость в памяти с высокой пропускной способностью (HBM). Без постоянного перемещения данных энергопотребление значительно снижается, а скорость взлетает до небес.
Показатели производительности, опубликованные Taalas, ошеломляют. Один чип мощностью 250 Вт, который можно охлаждать обычным воздушным вентилятором, генерирует 17 000 токенов в секунду для одного пользователя. Для сравнения: топовый кластер GPU часто с трудом достигает лишь малой доли этой скорости на отдельный поток из-за накладных расходов на управление памятью и универсальных ядер.
Поскольку чип специализирован под одну конкретную модель, ему не нужен «лишний жир» универсального процессора. В нем нет неиспользуемых схем для рендеринга графики или устаревших вычислений. Каждый квадратный миллиметр кристалла выделен для инференса Llama 3.1.
| Характеристика | Nvidia B200 (универсальный) | Специализированный чип Taalas для Llama |
|---|---|---|
| Тип памяти | HBM3e (внешняя) | Аппаратная (внутренние металлические слои) |
| Охлаждение | Рекомендуется жидкостное | Стандартное воздушное |
| Пропускная способность | Высокая (зависит от пакета) | 17 000 токенов/сек (один пользователь) |
| Стоимость производства | Чрезвычайно высокая | В ~20 раз ниже |
| Гибкость | Запуск любой модели | Аппаратно зашит под Llama 3.1 8B |
Самым разрушительным аспектом анонса Taalas является не скорость, а экономика. Убрав HBM и упростив архитектуру, Taalas заявляет о стоимости производства в 20 раз ниже, чем у сопоставимой установки на базе GPU.
В течение многих лет «рвом» Nvidia была CUDA — программный слой, который позволял разработчикам легко писать код для ИИ. Но если модель уже встроена в кремний, CUDA не нужна. Вам не нужен компилятор. Вы просто подаете на чип входные данные и получаете результат. Этот подход «модель как устройство» превращает ИИ из высокозатратной суперкомпьютерной задачи в стандартный аппаратный компонент.
Очевидная критика аппаратного кремния — его жесткость. Если вы «зашьете» Llama 3.1 в чип сегодня, что произойдет, когда завтра выйдет Llama 4.0?
Taalas ответила на это, представив свой автоматизированный конвейер «от модели к литографии». Они сократили время от готовой контрольной точки модели до финального дизайна, готового к производству, всего до двух месяцев. Хотя это все еще медленнее, чем загрузка нового файла весов с Hugging Face, компромисс становится непреодолимым для гиперскейлеров. Если компания знает, что будет запускать конкретную версию модели миллиарды раз в день, эффективность аппаратного чипа перевешивает гибкость GPU.
Этот сдвиг знаменует начало эры «встроенного ИИ». Мы переходим от централизованных «бог-моделей», работающих в массивных дата-центрах с водяным охлаждением, к специализированному, гиперэффективному кремнию, который может находиться где угодно.
Представьте себе автономный автомобиль с аппаратной моделью зрения, не требующей внешней памяти, или смартфон, который запускает локальную LLM со скоростью суперкомпьютера, не разряжая аккумулятор. Снижая порог входа в 20 раз, Taalas фактически демократизирует аппаратный уровень революции ИИ.
Появление аппаратных ИИ-чипов меняет дорожную карту для каждого технологического лидера. Вот что следует учитывать:
Империя Nvidia была построена на идее, что ИИ — это программная проблема, решаемая гибким оборудованием. Taalas только что доказала, что ИИ — это аппаратная проблема, решаемая жестким, идеальным кремнием. Если рынок последует за эффективностью, эра короля GPU может подойти к концу.



Наше решение для электронной почты и облачного хранения данных со сквозным шифрованием обеспечивает наиболее мощные средства безопасного обмена данными, гарантируя их сохранность и конфиденциальность.
/ Создать бесплатный аккаунт