在过去的几年里,科技界一直痴迷于对话的艺术。我们花费了无数小时试图找到完美的提示词,让聊天机器人听起来更像人类,写出更好的电子邮件,或者总结冗长的会议。我们被告知,计算的未来是一个聊天气泡。但当全世界都在忙着对着屏幕说话时,谷歌刚刚发出信号,对话者的时代即将结束。
随着 Gemini 3.5 Flash 的发布,叙事发生了根本性的转变。这不再是一个更好的聊天机器人;它是数字劳动力的开始。虽然之前的 AI 模型感觉像是更高级的搜索引擎,但这一新浪潮旨在实现“代理化(agentic)”——这个词实际上意味着 AI 可以停止交谈并开始执行。从大局来看,我们正见证着 AI 从一个记录笔记的勤奋实习生,向一群能够在您睡觉时建造房屋的数字建筑工人的转变。
要理解这为何重要,我们必须看透那些术语。今天的大多数 AI 交互都遵循一个可预测的模式:你提出问题,AI 提供答案。如果答案错误,你进行纠正,它再次尝试。这是一个线性的、高触感的反馈过程,仍然需要人类作为工作的主要引擎。
相反,像 Gemini 3.5 Flash 这样的代理模型旨在以极少的人工干预运行。你不再是要求它“写一段代码”,而是给它一个目标,比如“构建一个天气应用程序,从三个不同的来源获取数据,进行错误自测,并将其部署到服务器”。AI 不仅仅是给你一个文本回复;它会生成多个子代理来处理任务的每个部分,针对发现的错误进行迭代,并交付最终成品。
简单来说,谷歌押注你实际上并不想和电脑聊天;你想要电脑完成你的待办事项清单。这是我们感知软件方式的一次颠覆性转变。我们正在从需要飞行员操作的工具,转向像数字生活自动驾驶仪一样运行的系统。
在 I/O 开发者大会的发布过程中,最引人注目的数据不是 AI 的智商,而是它的速度。谷歌 DeepMind 的首席技术官 Koray Kavukcuoglu 指出,虽然标准的 Flash 模型比之前的领先者快四倍,但他们开发了一个优化版本,在不牺牲质量的情况下快了 12 倍。
对于普通用户来说,速度似乎是一种奢侈——一种在半秒内而不是两秒内得到答案的方式。但对于自主代理来说,速度是一项基础要求。换句话说,如果一个 AI 代理需要连续执行 50 个小任务来完成一个复杂的项目(如研究市场趋势、交叉引用数据并起草报告),那么一个缓慢的模型可能需要一个小时才能完成。而一个快 12 倍的模型在五分钟内就能完成同样的思维链。
这种速度允许“并行处理”。在市场端,这正是谷歌新平台 Antigravity 能够运行的原因。在现场演示中,工程师们展示了代理们同时分化出来处理操作系统不同组件的情景。这不仅仅是一种更快的打字方式;这是一种可扩展的执行复杂劳动的方式。
谷歌正在引入一种模仿传统公司结构的二级层级体系。当 Gemini 3.5 Pro 发布时,它将充当“协调者”或高级经理。它拥有强大的推理能力,能够理解高层目标并制定战略计划。
一旦计划确定,Pro 模型就会将实际的“体力活”委托给 Gemini 3.5 Flash。这种设置出于几个原因是切合实际的:
| 功能 | Gemini 3.5 Flash (执行者) | Gemini 3.5 Pro (管理者) |
|---|---|---|
| 主要角色 | 执行与子任务完成 | 战略规划与推理 |
| 速度 | 12倍速(优化后) | 为深度思考而平衡 |
| 上下文 | 中短程,高速迭代 | 远程项目管理 |
| 最适用于 | 编程、数据检索、24/7 监控 | 复杂问题解决、创意指导 |
虽然这听起来大部分是为软件工程师准备的,但谷歌正通过一项名为 Gemini Spark 的新服务将这些代理能力带给消费者。这是一个旨在 24/7 全天候运行的个人 AI 代理。
对于普通人来说,这意味着超越简单的语音命令(如“定个闹钟”)。一个由 Flash 驱动的个人代理理论上可以监控你的电子邮件以获取航班延误信息,自动与客服机器人协商退款,然后重新预订租车——而这一切都在你醒来查看手机之前就已经完成了。
从历史上看,技术一直要求我们去适应它的界面。我们必须学习如何使用文件夹,然后是搜索栏,接着是应用程序。随着 Spark 以及代理功能集成到搜索中,界面简化为了你的意图。你提供目标,AI 就会在互联网不透明的层级中穿梭以实现它。这是一个精简的未来愿景,但它并非没有系统性风险。
在“有用的工具”和“自主的工具”之间存在着一种不稳定的张力。在涉及用户与其之前聊天机器人模型的悲剧性事件后,谷歌目前正在应对敏感的法律环境。当 AI 从回答问题转向执行动作时,造成伤害的可能性就会增加。
当一个自主代理被赋予一个目标,但它解释实现该目标的路径时侵犯了隐私或安全,会发生什么?谷歌声称已经加强了防御措施,特别是在网络安全和敏感材料方面。该模型还被设计为在遇到“决策点”时暂停并请求许可。
然而,从消费者的角度来看,透明度是一个合理的担忧。如果一个代理在后台工作了几个小时,我们如何审计它的选择?这种转变需要对一家仍在完善其安全协议的公司保持高度信任。底线是,随着 AI 通过独立工作变得更加有用,它也变成了一个我们无法轻易实时监督的“黑匣子”。
最终,Gemini 3.5 Flash 的发布表明,我们正在进入一个技术的“如何实现”不如“实现什么”重要的时期。以下是您如何为这种不断变化的格局做准备:
我们正在告别为了工作而“上电脑”的时代。很快,工作将不断发生,由不需要喝咖啡休息或睡眠的数字代理驱动。Gemini 3.5 Flash 是对未来经济那根永不疲倦的支柱的第一次真正窥探。我们是否准备好迎接一个机器不仅会说话、而且会行动的世界,这是一个我们很快就必须回答的问题。
资料来源:


