产品延迟通常对硅谷巨头来说是一场灾难。但对于谷歌而言,Gemini 3.5 Pro 推迟一个月发布,标志着该公司终于开始尊重其自身创造物的复杂性。虽然有些人将发布时间从 6 月移至 7 月视为未能按时完成任务,但现实情况更具实际意义。行业已经发展到这样一个阶段:原始动力不如可靠性重要。谷歌在 5 月的 I/O 开发者大会上承诺推出 Gemini 3.5 Pro。首席执行官桑达尔·皮查伊(Sundar Pichai)表示该模型将于 6 月问世。现在,由于已到月底,该公司将目标推迟到 7 月,以便从早期测试人员那里收集更多反馈。
这种延迟表明科技公司处理 AI 军备竞赛的方式发生了转变。在过去几年中,目标是尽快发布模型,即使它会产生奇怪或错误的结果。今天,赌注更高了。用户期望 AI 能像一个不知疲倦的实习生,无需持续监督即可处理复杂任务。如果这个实习生在编码项目或财务表格中犯了错,损失是显而易见的。通过多花四周时间,谷歌正试图确保 Gemini 3.5 Pro 是一个工具而非玩具。
谷歌设计 Gemini 3.5 Pro 的目的是为了在工程师所谓的“长周期任务”(long-horizon tasks)中表现出色。简单来说,这是指需要长时间、多个步骤才能完成的工作。目前大多数 AI 模型擅长快速回答。你索要一份食谱,它就会给你一份。长周期任务则不同。想象一下,要求 AI 计划一次为期三周的旅行、预订机票、根据天气调整行程,并向朋友发送日历邀请。这要求模型在其活跃内存中保留海量信息而不会产生混乱。
在这些术语背后,其实是一个内存问题。当 AI 模型处理大型文档或长对话时,它会使用一种称为“上下文窗口”的技术。谷歌在这方面历史上一直处于市场领先地位。然而,如果 AI 无法找到所需的特定细节,拥有巨大的内存也是徒劳的。这次延迟表明谷歌正在优化模型从这些深层档案中检索信息的方式。对于普通用户来说,这意味着当你要求 AI 总结一份 500 页的 PDF 时,它产生幻觉或捏造事实的可能性更小。
从实际角度来看,这种可靠性是 AI 智能体(AI agents)的基础要求。智能体不仅仅是一个聊天机器人。它是一个可以操作你的电脑或网页来完成任务的软件。如果你想让 AI 整理你的纳税申报表,它必须做到完美。为了一个不会删除错误文件的系统,多花一个月的时间进行测试是一个很小的代价。
此次延迟的背景包括来自 Anthropic 和 OpenAI 等对手的巨大压力。虽然谷歌的模型去年表现良好,但其竞争对手在特定领域取得了领先:计算机编程。这不仅仅是软件工程师关心的问题。编码是这些实验室测试 AI 逻辑和推理能力的主要方式。如果一个模型能编写复杂的代码,它通常也能以同样的精度思考其他逻辑问题。
在市场方面,编码是公司从 AI 中获利的首个主要途径。企业会为能帮助开发人员提高工作效率的工具付费。如果谷歌在编码方面落后,它将失去很大一部分企业市场。早期测试人员一直在 Antigravity 等平台和基准测试网站 LMArena 上使用 Gemini 3.5 Pro。这些环境为 AI 性能提供了全球性的“晴雨表”。反馈可能显示,虽然 Gemini 3.5 速度很快,但它需要更多打磨才能在逻辑一致性上击败最新版本的 Claude 或 GPT-4o。
从大局来看,编码是现代经济的数字原油。它驱动着从银行应用到汽车传感器的一切。当谷歌调整其模型以更好地进行编码时,它本质上是在增强其所有未来产品底层逻辑的韧性。这额外一个月的测试让公司能够为模型提供更多真实世界的场景,而之前的版本可能会在这些场景中遇到困难。
7 月延迟的一个最有趣的原因涉及到一个名为 Gemini 3.5 Flash 的较小模型。这个版本专为速度和低成本而设计。然而,早期反馈表明 Flash 消耗 Token 的速度太快。在 AI 世界中,Token 就像一个数字音节。模型使用 Token 来处理和生成文本。如果模型效率低下,它完成任务所消耗的 Token 就会超过必要量。这使得开发者使用 AI 的成本更高,消费者的使用速度更慢。
这意味着谷歌正试图防止 Gemini 3.5 Pro 成为一个“耗油大户”。如果 AI 处理一个简单的请求使用了过多的算力,它会耗尽你的笔记本电脑电池并增加数据中心的负载。谷歌正在将 Flash 模型的教训融入到 Pro 模型中,使其更加精简。这涉及到调整底层的数学逻辑,以便模型能以更少的计算能耗得出相同的结论。
对于普通用户来说,这种效率是去中心化的。它表现为手机上更快的响应速度,或者 AI 服务更低的月度订阅费。当模型经过优化后,它可以在较小的设备上运行,而不需要持续连接到庞大的服务器集群。谷歌很可能正在利用这段额外的时间来确保 Pro 模型在智能和资源管理之间达到最佳平衡。
当 Gemini 3.5 Pro 最终在 7 月发布时,其影响将是系统性的而非孤立的。你可能会首先在 Docs 和 Gmail 等 Google Workspace 工具中看到这些更新。目标是从简单的文本生成转向真正的协助。
| 功能 | 当前 AI 能力 | Gemini 3.5 Pro 目标 |
|---|---|---|
| 记忆 | 记住对话的近期部分 | 在海量文档中保留上下文 |
| 逻辑 | 遵循简单的 A 到 B 指令 | 独立解决多步骤问题 |
| 速度 | 快但经常重复 | 高效的 Token 使用以降低延迟 |
| 代理能力 | 建议你可以采取的操作 | 跨多个应用执行操作 |
对于每天使用谷歌工具的人来说,这意味着“帮我写”按钮将变成“帮我做”按钮。AI 可能不再仅仅是起草一封电子邮件,而是能够查看你的电子表格,计算剩余预算,然后给你的老板起草邮件。这种转变需要一种谷歌承担不起破坏代价的信任。如果 AI 在预算数字上产生幻觉,用户就会对整个系统失去信心。
最终,延迟是行业成熟的标志。对于 AI 来说,“快速行动,打破常规”的时代正在结束,因为牵涉到的利益太大了。谷歌现在竞争的是一个波动剧烈的市场,声誉是最宝贵的货币。7 月发布让他们有机会在公众发现之前修复模型中的细微漏洞。
从消费者的角度来看,对 Gemini 3.5 Pro 的等待应该从透明度的角度来看待。过去,科技公司可能会发布有缺陷的产品,稍后再通过更新修复。对于前沿 AI 来说,一旦模型上线,其基础训练就很难改变。谷歌现在所做的调整很可能深入神经网络内部。这些变化影响着模型如何感知思想之间的关系。
好奇的是,这次延迟也可能给谷歌更多时间来准备其硬件。AI 模型需要大量的专用芯片才能运行。通过将发布推迟到 7 月,谷歌可以确保其数据中心已准备好应对新模型发布带来的流量激增。这可以防止经常困扰新 AI 发布的那种令人沮丧的“服务容量已满”消息。
随着新的发布日期临近,值得观察你目前如何使用这些工具。大多数人将 AI 作为搜索引擎的替代品。Gemini 3.5 Pro 被设计成完全不同的东西。它是一个逻辑引擎。当它到来时,焦点将不在于它写诗写得有多好,而在于它处理你数字生活中隐形的工业力学的能力有多强。延迟并不是公司陷入困境的迹象。这是一个知道演示原型与耐用产品之间区别的公司的标志。



