为什么 AI 在自己的垃圾上进行训练(以及如何解决)
Source: Towards Data Science
AI 训练中的数据困境
如果你已经使用 LLM 或 AI 代理一段时间,你可能会想,这些工具在不久的将来将如何进行训练。一个常见的担忧是,我们可能已经耗尽了用于训练更大模型的高质量、人类生成的数据。
“模型崩溃”问题
- 持续的数据增长: 每天都有新内容被添加到网络上。
- AI 生成的噪声: 越来越多的新内容本身是由 AI 生成的。
- 自我强化: 在公开网络数据上进行训练最终意味着在训练中使用前一代模型的输出。
- 模型崩溃: 研究人员将这种反馈循环称为 模型崩溃——模型不断学习前辈的错误,直至系统退化为胡言乱语。
不同的视角
如果我们并没有真正用尽数据,而只是看错了方向呢?
在本文的其余部分,我将拆解 这篇精彩论文 中的关键洞见,论文提出了替代数据来源和策略,以保持 AI 训练的可持续性。
我们已经在使用的网络与重要的网络
大多数人把网络视为单一的信息来源,但实际上至少存在两个不同的层次。
表层网络
已被索引的公共互联网部分——比如 Reddit、维基百科、新闻网站以及搜索引擎能够爬取的其他页面。这些是我们多年来一直在抓取并过度使用来训练当今主流 AI 模型的数据。
深网
不要与“暗网”或非法内容混淆。
深网包括所有位于登录或防火墙之后的内容——任何未被公开索引的在线信息。例子包括:
- 医院患者门户
- 银行内部仪表盘
- 企业文档档案
- 私有数据库
- 通过身份验证页面存储多年的电子邮件
这些都是普通且常常乏味,但极具价值的数据来源。
为什么深网重要
- 规模: 研究表明,深网的规模比表层网络大几个数量级。
- 质量: 内容通常更干净、经过验证,并由关注其准确性的人组织。
- 可靠性: 与表层网络相比,后者可能噪声多、充斥错误信息、经过 SEO 优化,并且日益被设计用于误导或投毒 AI 模型,深网数据(例如医疗记录、已验证的财务文件、内部数据库)提供更高的保真度。
问题
最大的障碍是 隐私。在未解决法律和伦理考量的情况下,提取大量敏感数据——如医疗记录——将导致灾难性后果。
The PROPS Framework
Protected Pipelines (PROPS) 是由 Ari Juels(Cornell Tech)、Farinaz Koushanfar(UCSD)和 Laurence Moroney(前 Google AI 负责人)提出的隐私保护架构。它在 不暴露原始数据 的前提下,将敏感数据与需要这些数据的 AI 模型进行桥接。
How PROPS Works
- Permission – 数据所有者登录自己的门户(例如健康记录系统),并明确授权对其数据的特定使用。
- Privacy‑Preserving Oracle – 该 oracle 充当 受信任的中间人:
- 它访问所有者的私人来源,验证数据的真实性,然后 向 AI 系统提供加密证明。
- AI 永远看不到原始数据;它只收到类似 “我已经查看了原始文档并确认其真实性” 的声明。
- 已有实现包括 DECO,这是一种让用户能够证明他们通过安全 TLS 通道获取了特定数据的协议。
- Secure Enclave – 训练在基于硬件的 受信任执行环境(TEE)中进行:
- AI 模型和私有数据被加载进 enclave,且该 enclave 通过加密方式封闭。
- 在训练进行期间,任何人、开发者或外部进程都无法检查其中的数据。
- Result – 训练完成后,只有 更新后的模型权重(学习到的知识)会离开 enclave。原始数据仍然锁在内部,直至会话结束后被安全销毁。
Benefits
- 数据永不离开所有者的域 —— AI 只收到可验证的证明,而不是数据本身。
- 细粒度同意 —— 用户明确知道自己允许的内容,并可根据其贡献价值获得相应补偿。
- 更强的信任 —— 数据所有者与 AI 系统的关系从 “交付” 转变为 “已验证使用”。
因此,PROPS 框架为现代 AI 模型面临的数据可用性挑战提供了一种实用且密码学上可靠的解决方案。
为什么不直接使用合成数据?
有些人可能会问:“既然我们可以直接生成合成数据,何必费心搭建这么复杂的系统?”
答案是,合成数据是 多样性的杀手。按照定义,合成数据生成器会强化正态分布的中间部分。如果你有一种仅影响 0.01 % 人群的罕见疾病,合成数据生成器很可能会把它平滑为“噪声”。
在合成数据上训练的模型在处理异常值时会逐渐变得更差。PROPS 通过为拥有罕见疾病或独特背景的真实人群提供 自愿加入 的安全方式来解决这个问题。它将数据共享从隐私风险转变为一个 数据市场,让有价值的数据获得应有的报酬。
推理也很重要
大多数讨论都聚焦于训练,但 PROPS 在推理方面也有有趣的应用。
示例:贷款决策工作流
- 授权 – 您授权贷款决策模型(LDM)直接与您的银行对话。
- 验证 – 银行通过隐私保护的预言机(oracle)确认您的余额。
- 决策 – LDM 作出决定。
- 结果 – 贷款方收到经过验证的“是”或“否”,而无需查看您的私人文件。
这消除了数据泄露的风险,并且几乎不可能让欺诈者提交经过 Photoshop 处理的文件。
什么阻止它在 2026 年发生?
关键在于 规模和基础设施。
- 最强大的 PROPS 版本需要在硬件支持的安全隔离区(例如 Intel SGX 或 NVIDIA 的 H100 TEE)中进行训练。
- 这些隔离区在小规模下运行良好,但将其扩展到前沿大语言模型所需的大规模 GPU 集群仍是一个未解决的工程难题。
- 在完美、加密同步的情况下协调大型集群是一个非平凡的挑战。
研究人员很明确:PROPS 仍不是一个完成的产品——它是一个有说服力的概念验证。然而,轻量版已经可以在今天部署。即使没有完整的硬件保障,你也可以构建能够为用户提供有意义保证的系统,这已经比让人通过电子邮件发送 PDF 要好得多。
我的最终想法
PROPS 不是全新的技术;它是 现有工具的新应用。隐私保护预言机已经在区块链和 Web3 领域(例如 Chainlink)使用多年。关键在于认识到相同的工具可以帮助解决 AI 数据危机。
“数据危机”并不是信息不足——而是 信任 的缺失。我们拥有足够的数据来构建下一代 AI,但这些数据被锁在深网之门后。蛇不必吃自己的尾巴;它只需要找到一个更好的花园。
与我联系
- LinkedIn: Sabrine Bendimerad
- Medium: @sabrine.bendimerad1
- Instagram: tinyurl.com/datailearn