虽然普遍的说法认为人工智能是科学加速的纯粹引擎,但实际情况正变得越来越复杂。我们曾被告知,大语言模型(LLMs)将扮演不知疲倦的实习生角色,在几秒钟内总结庞大的数据集并起草复杂的论文,帮助人类攻克癌症或破解核聚变。但在全球最关键的研究库中,这位实习生开始在简历上造假——而管理者们终于要将他们扫地出门了。
ArXiv 是一个久负盛名的开放获取库,几十年来一直托管着物理学、数学和计算机科学领域的突破性研究。该机构最近宣布了一项严格的新政策:如果作者提交的论文中包含“无可辩驳的证据”,证明其在未检查结果的情况下让 AI 代劳,他们将面临为期一年的强制禁令。对于普通用户来说,这似乎只是学术界内部的争论。但实际上,这是一场关于信息完整性的基础之战,这些信息最终会影响从智能手机电池寿命到你在谷歌上找到的医疗建议等方方面面。
要理解这一举措为何如此具有颠覆性,我们首先要看看 ArXiv 到底是什么。它不是传统的期刊,没有缓慢而磨人的同行评审过程。相反,它是一个预印本服务器——研究人员在这里立即发布他们的工作,以便全球社区能够看到。它是科学界的数字原油;它是想法在转化为我们购买的产品之前进行提炼的地方。如果 ArXiv 中的源材料被“AI 垃圾(AI slop)”污染,整个下游知识供应链就会开始崩溃。
多年来,科技界一直将 LLM 誉为终极生产力黑客。然而,从大局来看,我们正看到一种系统性的转变,即生成的便捷性正在超过我们的验证能力。在“不发表就出局”的巨大压力下,研究人员开始不仅将 AI 用作校对员,还将其用作代笔者。问题在于?这些 AI 模型本质上是复杂的模式匹配器。它们并不“知道”事实;它们只是预测句子中下一个可能出现的单词。当它们没有掌握事实时,往往会编造一个听起来很合理的说法——这种现象被称为“幻觉”。
ArXiv 计算机科学部门主席托马斯·迪特里希(Thomas Dietterich)最近澄清说,该库并非完全禁止使用 AI。相反,他们禁止的是“粗心大意”地使用。在这些术语背后,迪特里希所指的“无可辩驳的证据”通常尴尬得显而易见。
在日常生活中,我们都见过 AI 撰写邮件的痕迹:过于礼貌的语气、通用的结构,或者是懒惰的发件人留下的偶尔出现的“作为 AI 语言模型,我无法……”之类的短语。在事关重大的研究领域,这些危险信号以更危险的形式出现:
从历史上看,科学造假是需要付出努力的。你必须伪造数据或在 Photoshop 中处理图像。现在,制作一篇看起来像模像样(但完全虚假)的科学论文所花的时间比点一份披萨还短。这就是为什么 ArXiv 正在转向“一次出局”规则。如果审核员发现明确证据表明你甚至懒得阅读自己生成的 AI 投稿,你就出局了。
根据新规则,后果是严重的。在 ArXiv 上被禁一年对研究人员的职业生涯是一个重大打击,尤其是在 AI 研究等瞬息万变的领域,抢先发布就是一切。但惩罚并不会在 12 个月后结束。禁令解除后,这些作者随后的任何投稿必须首先被信誉良好的同行评审机构接受,然后才能出现在 ArXiv 上。
从本质上讲,ArXiv 是在说:如果我们不能信任你做自己的编辑,我们将把这种信任外包给别人。
| 特征 | 人类主导的研究 | 未经检查的 AI 生成 |
|---|---|---|
| 准确性 | 高(受人为错误影响) | 波动(容易产生幻觉) |
| 引用文献 | 真实且可验证 | 经常伪造或错误归属 |
| 语气 | 具体且专业 | 通用且重复 |
| 问责制 | 作者承担全部责任 | 责任往往不透明 |
| 审核速度 | 缓慢且有条理 | 瞬间完成 |
有趣的是,这次打击行动恰逢该库的一次重大结构变革。在康奈尔大学托管 20 多年后,ArXiv 正在转型为一个独立的非营利组织。在市场方面,这是为了增强韧性的战略举措。作为一个独立实体,ArXiv 可以筹集更多样化的资金来构建自动化工具,并聘请人类审核员,以应对日益增长的 AI 生成虚假信息浪潮。
从消费者的角度来看,我们应该将其视为必要的基础设施升级。如果 ArXiv 被低质量内容充斥,对于依赖其数据构建下一代设备的投资者和科技公司来说,它将变成一个不稳定的环境。通过清理门户,ArXiv 正在保护科技行业的基石。
换句话说,为什么普通人——那些不写量子拓扑论文的人——要关心这件事?因为科学不会只停留在实验室里。
当一篇“突破性”论文发布到 ArXiv 时,它往往会引发一波新闻报道。如果那篇论文是由 AI 幻觉产生的,且从未经过人类作者检查,那么虚假信息就会通过新闻循环传播,最终出现在你的社交媒体推送中。我们已经在生物医学研究中看到伪造引用呈上升趋势的案例。如果医生或政策制定者依赖于一份从未实际进行过的研究摘要,那么现实世界的后果是切实且危险的。
最终,ArXiv 的举动提醒我们,在一个信息去中心化的世界里,人的因素仍然是最重要的过滤器。AI 是扩大产出的强大工具,但它无法扩大真相。真相需要人类缓慢而有条理的核实工作。
当我们审视数字信息不断变化的格局时,ArXiv 的新政策为我们自己的数字习惯提供了几点启示。我们正进入一个内容创作成本为零的时代,这意味着除非有可靠的人类或机构支持,否则该内容的价值也趋向于零。
从实际操作来看,我们都应该开始对消费的信息应用“ArXiv 过滤器”。如果一条新闻感觉结构过于完美、使用过于通用的语言,或者引用了你通过快速搜索找不到的“研究”,请像 ArXiv 审核员对待可疑预印本那样,对其保持怀疑。
从大局来看,“一次出局”规则不仅仅是为了惩罚懒惰的科学家。它是为了保留一个可以交流思想的空间,而不用担心被数字噪音淹没。随着 AI 继续用内容充斥互联网,世界上最宝贵的资源将不是数据或处理能力——而是信任。
来源:


