你是否曾想过,在这个我们每天产生数万亿字节的时代,AI开发者为何还在抱怨“数据干旱”?这是一个听起来违背直觉的问题。截至2026年初,CommonCrawl 归档文件已膨胀至超过3000亿个网页。我们生活在数字洪流中,每一次晚餐预订、医疗预约和传感器读取都在增加全球信息的蓄水池。然而,该行业正面临瓶颈。
这就是 AI 数据悖论。尽管在线内容量达到了前所未有的规模,但高质量、多样化且法律允许的数据供应却在萎缩。2024年,IBM 将数据短缺确定为开发者的首要障碍;到2025年,经合组织(OECD)警告称数据危机即将到来。从本质上讲,我们拥有充足的水,但其中很少是可饮用的。无节制网页抓取的“西部荒野”时代正达到其自然极限,迫使行业向可持续和伦理的数据共享进行范式转移。
在过去的十年里,抓取一直是培养 AI “学徒”的默认机制。通过从开放网络上获取数十亿张图片和文章,开发者构建了我们今天使用的基础模型。然而,这种方法变得越来越不稳定。在底层,支持抓取的法律和伦理基础设施正在断裂。创作者要求补偿,平台正在收紧其 API 作为防止未经授权采集的桥梁,而“公共”数据的质量正被泛滥的 AI 生成内容所稀释。
当我前往新兴技术中心拜访初创公司时,我经常会想到家乡的基础设施挑战。在成长过程中,我们不担心最新的社交网络;我们担心的是水管是否牢固,或者电网是否足够稳健以度过寒冬。我在这里看到了相似之处。我们在“借来”的数据这一脆弱基础上构建了第一代 AI。现在,随着 AI 成为现代社会的公用事业网,我们需要一个更强大的蓝图来规定这些数据的来源和维护方式。
奇怪的是,解决数据危机的方案并不一定是产生更多数据,而是解锁已有的数据。在 VIADUCT 倡议下制作的 GPAI 相关新报告《从抓取到伦理数据共享》(From scraping to ethical data sharing)指出了一条关键的前进道路。基于2025年全年举行的广泛研讨会,该报告建议,AI 性能的下一次飞跃将来自于目前锁定在组织孤岛中的私人、高质量数据集。
在实践中,这意味着要摆脱抓取中“先拿后问”的心态。相反,我们正看到多方数据共享协议的兴起。这些框架以经合组织《关于加强数据访问和共享的建议书》(EASD)为基础,旨在平衡 AI 开发者与数据持有者的权益。换句话说,我们正在从榨取模式转向托管模式。
为什么这种转变现在发生?几个因素共同导致了旧方式的过时:
| 数据获取方法 | 可靠性 | 伦理地位 | 2026年的可扩展性 |
|---|---|---|---|
| 网页抓取 | 低(噪声/AI垃圾) | 不稳定 | 下降 |
| 合成数据 | 中(偏见风险) | 高 | 高 |
| 伦理共享 | 高(经验证/利基) | 高 | 增长 |
我对生态学的热爱经常启发我对技术的看法。当我进行数字排毒或选择生态旅游时,我被提醒每个生态系统都有其承载能力。数据生态系统也不例外。我们不能在不补充来源或不尊重其来源环境的情况下,无限期地榨取价值。
在我的家乡,我们了解到共享资源(如当地的水井)只有在每个人都同意使用规则的情况下才能生存。AI 数据是我们新的集体水井。如果我们继续将互联网视为可以毫无后果地开采的资源,我们就有可能用低质量、有偏见或受限的内容毒害这口井。因此,向伦理共享的转变不仅是一个道德选择;它是高性能 AI 生存的功能性必然。
那么,可持续的数据未来是什么样的?它涉及创建无缝、安全的路径,让数据在不损害隐私的情况下从组织流向开发者。这需要创新的技术解决方案,如联邦学习和差分隐私,它们充当敏感信息的安全免疫系统。
由于这些转变,我们看到初创公司专注于“数据合作社”,贡献者可以获得公平补偿,并对信息的使用方式拥有发言权。这与过去不透明的黑箱模型有着显著的不同。它使技术对普通人来说更加触手可及,确保 AI 的利益不仅保留给硅谷精英,而是分布在我们全球社会的生命有机体中。
如果您是正在应对这一转型的开发者或商业领袖,请考虑以下步骤以确保您的数据策略具有韧性:
从抓取到伦理共享的转变是从西部荒野向文明社会的旅程。这是一次复杂的演变,有望使 AI 变得更加确定、可靠且以人为本。


