通用时代的终结：Taalas 如何将 AI 的未来硬连线到芯片中

Taalas 发布硬连线 Llama 3.1 8B 芯片，以 17,000 tps 的速度和低 20 倍的成本绕过 GPU。英伟达的帝国终于受到威胁了吗？

2026年2月22日

在过去的十年里，科技界一直运行在一个昂贵的假设之上：AI 需要大规模、通用的 GPU 和名为 CUDA 的复杂软件栈。这个假设让英伟达成为了全球最有价值的公司，并创造了每个初创公司和企业都必须支付的“算力债”。

2026年2月19日，这一假设破灭了。加拿大初创公司 Taalas 从隐身模式中现身，展示了许多业内人士认为不可能——或者至少是几十年后才能实现的技术。他们不仅仅制造了一个更快的芯片；他们制造了一个“即模型”的芯片。通过将 Llama 3.1 8B 模型直接硬连线到硅片的金属层中，Taalas 一举绕过了内存墙、电力危机和英伟达税。

冯·诺依曼瓶颈的消亡

要理解其重要性，我们必须审视传统芯片的工作方式。无论是英特尔 CPU 还是英伟达 B200，它们都遵循冯·诺依曼架构：指令和数据存储在内存 (HBM) 中，并在处理器之间来回调度。在大语言模型 (LLM) 的世界里，这种调度是导致延迟和巨大功耗的主要原因。我们受限的不是计算速度，而是移动数据的速度。

Taalas 抛弃了这一范式。通过将 Llama 3.1 8B 的权重嵌入到芯片的上层金属层中，模型不再需要从内存中“加载”。模型即电路。这完全消除了对高带宽内存 (HBM) 的需求。由于没有持续的数据移动，功耗大幅下降，速度则飞速提升。

每秒 17,000 个 Token：新的现实

Taalas 发布的性能指标令人震惊。单个 250W 芯片——只需标准风扇即可散热——能为单个用户每秒生成 17,000 个 token。相比之下，由于管理内存和通用内核的开销，顶级 GPU 集群在处理单个流时往往难以达到这一速度的一小部分。

因为该芯片是针对特定模型专门定制的，它不需要通用处理器的“冗余”。没有用于图形渲染或旧式计算的闲置电路。晶圆的每一平方毫米都致力于 Llama 3.1 的推理。

特性	英伟达 B200 (通用型)	Taalas Llama 专用芯片
内存类型	HBM3e (外部)	硬连线 (内部金属层)
散热	建议液冷	标准风冷
吞吐量	高 (取决于批处理)	17,000 Tokens/秒 (单用户)
制造成本	极高	约低 20 倍
灵活性	运行任何模型	硬连线至 Llama 3.1 8B

20 倍的成本优势

Taalas 公告中最具颠覆性的不是速度，而是经济效益。通过移除 HBM 并简化架构，Taalas 声称其制造成本比同类 GPU 配置低 20 倍。

多年来，英伟达的“护城河”一直是 CUDA——让开发人员能够轻松编写 AI 代码的软件层。但如果模型已经固化在硅片中，你就不需要 CUDA 了。你不需要编译器。你只需向芯片输入数据并接收输出。这种“模型即设备”的方法将 AI 从一项高维护的超级计算任务转变为一种商品硬件组件。

60 天内从模型到芯片

对硬连线芯片显而易见的批评是其僵化性。如果你今天把 Llama 3.1 固化到芯片中，明天 Llama 4.0 问世了怎么办？

Taalas 通过展示其自动化的“模型到光刻”流水线解决了这一问题。他们将从完成模型检查点到最终可流片设计的时间缩短到了仅两个月。虽然这仍然比从 Hugging Face 下载新的权重文件要慢，但对于超大规模云服务商来说，这种权衡正变得不可抗拒。如果一家公司知道他们每天将运行特定版本的模型数十亿次，硬连线芯片的效率将超过 GPU 的灵活性。