行业新闻

通用时代的终结:Taalas 如何将 AI 的未来硬连线到芯片中

Taalas 发布硬连线 Llama 3.1 8B 芯片,以 17,000 tps 的速度和低 20 倍的成本绕过 GPU。英伟达的帝国终于受到威胁了吗?
通用时代的终结:Taalas 如何将 AI 的未来硬连线到芯片中

在过去的十年里,科技界一直运行在一个昂贵的假设之上:AI 需要大规模、通用的 GPU 和名为 CUDA 的复杂软件栈。这个假设让英伟达成为了全球最有价值的公司,并创造了每个初创公司和企业都必须支付的“算力债”。

2026年2月19日,这一假设破灭了。加拿大初创公司 Taalas 从隐身模式中现身,展示了许多业内人士认为不可能——或者至少是几十年后才能实现的技术。他们不仅仅制造了一个更快的芯片;他们制造了一个“即模型”的芯片。通过将 Llama 3.1 8B 模型直接硬连线到硅片的金属层中,Taalas 一举绕过了内存墙、电力危机和英伟达税。

冯·诺依曼瓶颈的消亡

要理解其重要性,我们必须审视传统芯片的工作方式。无论是英特尔 CPU 还是英伟达 B200,它们都遵循冯·诺依曼架构:指令和数据存储在内存 (HBM) 中,并在处理器之间来回调度。在大语言模型 (LLM) 的世界里,这种调度是导致延迟和巨大功耗的主要原因。我们受限的不是计算速度,而是移动数据的速度。

Taalas 抛弃了这一范式。通过将 Llama 3.1 8B 的权重嵌入到芯片的上层金属层中,模型不再需要从内存中“加载”。模型即电路。这完全消除了对高带宽内存 (HBM) 的需求。由于没有持续的数据移动,功耗大幅下降,速度则飞速提升。

每秒 17,000 个 Token:新的现实

Taalas 发布的性能指标令人震惊。单个 250W 芯片——只需标准风扇即可散热——能为单个用户每秒生成 17,000 个 token。相比之下,由于管理内存和通用内核的开销,顶级 GPU 集群在处理单个流时往往难以达到这一速度的一小部分。

因为该芯片是针对特定模型专门定制的,它不需要通用处理器的“冗余”。没有用于图形渲染或旧式计算的闲置电路。晶圆的每一平方毫米都致力于 Llama 3.1 的推理。

特性 英伟达 B200 (通用型) Taalas Llama 专用芯片
内存类型 HBM3e (外部) 硬连线 (内部金属层)
散热 建议液冷 标准风冷
吞吐量 高 (取决于批处理) 17,000 Tokens/秒 (单用户)
制造成本 极高 约低 20 倍
灵活性 运行任何模型 硬连线至 Llama 3.1 8B

20 倍的成本优势

Taalas 公告中最具颠覆性的不是速度,而是经济效益。通过移除 HBM 并简化架构,Taalas 声称其制造成本比同类 GPU 配置低 20 倍。

多年来,英伟达的“护城河”一直是 CUDA——让开发人员能够轻松编写 AI 代码的软件层。但如果模型已经固化在硅片中,你就不需要 CUDA 了。你不需要编译器。你只需向芯片输入数据并接收输出。这种“模型即设备”的方法将 AI 从一项高维护的超级计算任务转变为一种商品硬件组件。

60 天内从模型到芯片

对硬连线芯片显而易见的批评是其僵化性。如果你今天把 Llama 3.1 固化到芯片中,明天 Llama 4.0 问世了怎么办?

Taalas 通过展示其自动化的“模型到光刻”流水线解决了这一问题。他们将从完成模型检查点到最终可流片设计的时间缩短到了仅两个月。虽然这仍然比从 Hugging Face 下载新的权重文件要慢,但对于超大规模云服务商来说,这种权衡正变得不可抗拒。如果一家公司知道他们每天将运行特定版本的模型数十亿次,硬连线芯片的效率将超过 GPU 的灵活性。

地缘政治与工业连锁反应

这一转变标志着“嵌入式 AI”时代的开始。我们正在从运行在大型水冷数据中心中的集中式“上帝模型”,转向可以存在于任何地方的专用、超高效硅片。

想象一辆拥有硬连线视觉模型的自动驾驶汽车,它不需要外部内存;或者一部智能手机,能以超级计算机的速度运行本地 LLM 而不消耗电池。通过将准入门槛降低 20 倍,Taalas 实际上正在让 AI 革命的硬件层民主化。

AI 行业的实践启示

硬连线 AI 芯片的出现改变了每位技术领导者的路线图。以下是您应该考虑的内容:

  • 评估模型稳定性: 如果您的业务依赖于特定模型(如 Llama 3.1),现在是时候考虑 ASIC(专用集成电路)解决方案,而不是租用通用 GPU。
  • 重新思考“护城河”: 如果硬件变成商品,CUDA 不再是守门人,您的价值必须来自专有数据和微调,而不仅仅是获取算力。
  • 为边缘计算做准备: 功耗的降低(250W 风冷)意味着高端 AI 正在走向边缘。开始规划不需要云服务商的本地、高速推理。
  • 关注“快速跟随者”模型: 随着“模型到硅片”流水线的缩短,成为新模型架构的“第一人”的优势可能会被在硬连线芯片上实现“最高效率”的优势所掩盖。

英伟达的帝国建立在 AI 是一个由灵活硬件解决的软件问题这一理念之上。Taalas 刚刚辩称,AI 是一个由僵化、完美的硅片解决的硬件问题。如果市场追随效率,GPU 王者的时代可能即将结束。

来源

  • Taalas Official Technical Briefing (February 2026)
  • Semiconductor Engineering: The Rise of Hardwired Neural Networks
  • Meta AI: Llama 3.1 Architecture and Implementation Standards
  • Journal of Applied Physics: Metal-Layer Logic and Memory Integration
bg
bg
bg

另一边见

我们的端到端加密电子邮件和云存储解决方案提供了最强大的安全通信手段,确保您的数据安全和隐私。

/ 创建免费账户