Synthetic Data 并非为了取代现实,而是为了质疑它。
Source: Dev.to
(请提供您希望翻译的正文内容,我将按照要求保留源链接、格式和代码块,仅翻译文本部分。)
现实数据的隐藏问题
我们常常把现实数据当作中立的来讨论。事实并非如此。
- 招聘数据 反映了数十年来在教育、就业和机会方面的不平等获取。
- 医疗数据 反映了谁被诊断、谁被相信以及谁被忽视。
- 行为数据集 反映了文化规范和经济压力。
当 AI 系统仅仅基于历史数据进行训练时,它们并没有学习公平;它们学习的是模式——其中许多模式是由不平等塑造的。这不是哲学争论,而是统计学的论点。
合成数据到底是什么
合成数据是人工生成的、模仿真实数据集结构和统计特性的资料,但不代表真实个人。
- 它 不是 为了让人类阅读而创建的。
- 它是为系统学习或进行测试而创建的。
示例
- 合成简历并非用于申请工作。
- 合成患者记录并非用于描述真实人物。
- 合成手写样本并非用于取代人类书写。
它们的存在是为了在 不造成伤害 的前提下进行实验。
合成数据作为受控视角
合成数据最强大的属性之一是 控制。在现实世界中,你无法在伦理上做到以下操作:
- 选取一名求职者。
- 仅更改他们的姓名、年龄或提及残疾的单行文字。
- 然后重新运行招聘流程。
使用合成数据,你可以做到这一点。
针对公平性测试的合成简历生成研究表明,可以创建 除一个变量外所有变量保持不变 的人工求职者档案。这使研究人员和从业者能够观察自动化招聘系统对特定人口属性变化的响应,而无需涉及真实候选人或违反隐私义务(Saldivar、Gatzioura、Castillo,2025)。
当在这些受控条件下结果发生变化时,偏见便显现出来——不是作为指控,而是作为可观察的行为。
Source: …
医疗保健和罕见疾病研究的经验教训
在罕见疾病研究中,数据稀缺、敏感且受到严格监管;共享真实的患者记录往往不可行,而合成数据的隐私保护生成展示了生成模型如何创建逼真的患者画像,从而实现分析、模型训练和协作,而不泄露个人信息(Mendes, Barbar, Refaie, 2025)。
这些研究还强调了一个重要观点:合成数据反映了其生成所依据数据的质量。如果原始数据集存在偏见或不完整,合成数据也会继承这些缺陷。此经验直接适用于招聘系统——合成数据并非自动公平;必须有意设计才能实现公平。
为什么代表性比数量更重要
手写识别研究提供了另一个洞见。某些语言和书写风格在公共数据集中代表性不足,导致模型对部分人群表现良好,而对其他人群表现不佳。
在真实数据有限的情况下,通常需要大规模合成数据集来捕获足够的变化,以使模型能够正确泛化(Pham Thach Thanh Truc et al., 2025)。
要点: 如果数据中缺少某些群体,系统就会在处理这些群体时出现困难。这同样适用于简历、医疗记录以及任何与人类多样性互动的系统。
机器人教会我们的合成世界
机器人提供了一个有用的警示。在机器人学习中,仿真被广泛使用,因为收集真实世界数据既昂贵又慢。然而,对机器人装箱的研究表明,仅在理想化的合成环境中训练的系统往往 在真实条件下部署时会失败(Wang 等,2025)。
为什么会这样? 因为现实是混乱的:
- 物体的行为不可预测。
- 光照会变化。
- 约束会转移。
同样的原理也适用于用于公平性测试的合成数据。如果合成简历过于干净、过于线性或过于理想化,公平性评估就会产生误导。真实的职业生涯很少整齐——人们会转行、休息、搬迁到其他国家,并照顾他人。合成数据必须反映这种复杂性,才能揭示有意义的偏差。
合成数据并不能自动消除偏见
合成数据 并不会自行消除偏见。生成模型学习模式;它们并不理解伦理或社会背景。如果历史数据中编码了不平等,天真的合成生成器会复制它。
最近的研究强调在生成合成数据集时需要 约束、验证和领域知识,尤其是在医疗保健和就业等敏感领域(Mendes 等,2025)。
合成数据是一种工具。公平性取决于其使用方式。
为什么合成数据迫使诚实
合成数据消除了借口。当系统能够在受控条件下进行测试时,偏见不再能隐藏在噪声或复杂性之后。
- 如果在仅更改一个变量时招聘模型表现不公平,则问题是结构性的。
- 合成数据不指责;它 揭示。
正是因此它如此重要。
展望未来
合成数据常被描述为 人工的,但其影响是 真实的。它塑造了我们如何:
-
测试 AI 系统。
-
保护隐私。
-
检测偏见。
-
设想更公平的替代方案。
-
如果使用不当,它可能会强化历史上的不平等。
-
如果深思熟虑地使用,它可以帮助我们挑战这种不平等。
-
合成数据并不是要取代现实。
-
它是关于质疑我们基于它构建的系统。
References
- Saldivar, J., Gatzioura, A., & Castillo, C. (2025). 用于构建和测试公平感知招聘工具的合成简历. ACM Transactions on Intelligent Systems and Technology.
- Mendes, M., Barbar, F., & Refaie, A. (2025). 合成数据生成:一种保护隐私以加速罕见疾病研究的方法. Frontiers in Digital Health.
- Pham Thach Thanh Truc et al. (2025). HTR‑ConvText:利用卷积和文本信息进行手写文本识别. arXiv preprint.
- Wang, Z. et al. (2025). RoboBPP:基于物理仿真的机器人在线装箱基准测试. arXiv preprint.
- MIT Technology Review – 合成数据是什么以及它为何对人工智能重要
- Nature News and Comment – 人工数据如何帮助解决人工智能中的偏见问题
- OECD AI Policy Observatory – 人工智能中的公平、透明和问责