越过“数据不足”的壁垒:合成人格加速日本AI开发
Source: Hugging Face Blog
Contributors
AI 与日本经济
AI 有可能为日本的经济增长描绘新篇章,预计将创造 100 万亿日元(6500 亿美元) 以上的经济价值(OpenAI Japan Economic Blueprint)。然而,这一实现取决于几乎所有 AI 项目都缺失的一个要素——可在实际工作中使用的训练数据。
- 英文数据丰富,但基于日语和日本文化的数据长期短缺。
- 收集、清洗、标注新样本需要时间和成本,难以跟上开发周期。
- 结果是 数据壁垒 阻碍创新(SuperAnnotate – Data Wall)。
通往新进步的道路

大型 IT 企业 NTT DATA 证明,合成数据可以拆除这道壁垒。只需最少量的自有数据,就能在不牺牲隐私和性能的前提下,生成可用于实际运营的大规模训练数据集。
- 使用的数据集:NVIDIA Nemotron‑Personas‑Japan(通过 NeMo Data Designer 生成)
- 600 万个人设(基于人口统计、地理、文化)
- 日本首个开放合成数据集
借助该合成数据,模型精度从 15.3 % 提升至 79.3 %,提升幅度超过 60 个百分点。
关键要点
- 完全开源的基础设施,使得仅凭少量自有数据即可构建领域专用 AI。
- 利用开放的人设数据,实现模型质量与数据运营敏捷性的双重平衡。
实证实验
NTT DATA 在虚构的法律文档上进行对照评估,确认能够真正获取新知识。
- 人设:从 Nemotron‑Personas‑Japan 中抽取的 500 条
- 种子样本:240 条(未加工)
- 合成数据:超过 138,000 条(相当于种子的 300 倍)
实验结果
| 配置 | 种子数据 | 合成扩展 | 精度 |
|---|---|---|---|
| 基线(无训练) | — | — | 15.3 % |
| 使用合成数据的 SFT | 240 条 | 138,000 条 | 79.3 % |
- 合成数据不仅提升了精度,还消除了基线模型出现的幻觉(错误的法律分类)。
- 只要拥有足够的合成数据,持续预训练(CPT) 就变得不必要,从而大幅降低计算资源和成本。
“通过 Nemotron Personas 扩展少量自有数据集,即使数据有限,也能有效构建任务专用模型。”
— 樋口 晋也(NTT DATA AI 技术部 部长)

从设计阶段起的隐私保护
- 受日本 个人信息保护法 (PIPA) 与 AI 治理指南(2025 年 9 月发布) 约束,企业数据有超过 90 % 未被利用。
- 合成数据 不包含 PII,却能精准再现真实数据的模式,实现 数据最小化 与 性能提升 的双赢。
- 合成流水线具备 可复现性与可审计性,能够满足治理和监管机构的要求。
主权数据空间
- 数据主权 必不可少,但不能依赖于西方中心的语料库,需要本地区特有的知识。
- Nemotron‑Personas‑Japan 基于日本官方人口与劳动统计构建了 600 万个人设,覆盖 1500 多种职业分类和地区分布。
NTT DATA 等公司正致力于 数据空间 的开发,目标是构建政府和企业能够安全交换合成数据的协作环境。联邦学习和端到端加密为这种分布式方法提供支撑。
- 数据风险管理从“防御”转向“协作”。
- 展示了无需依赖全球大型模型,而是在开放且隐私保护的基础设施上构建地区主权 AI 的可能性。
开始构建
“数据壁垒”确实存在,但正如 NTT DATA 的研究所示,克服它的工具是 开放且人人可访问 的。合成数据不再是未来技术,而是 在不牺牲隐私和性能、保持数据主权的前提下,构建根植于日本文化的 AI 系统的现实解决方案。
- 试用 NeMo Data Designer 库(开源)
- 在 Hugging Face 查看 Nemotron‑Personas‑Japan 数据集
有关更详细的技术信息和实验设计,请参阅以下资料。
详细报告(中文)
- NeMo Data Designer
- Nemotron‑Personas‑Japan (Hugging Face)
- NTT 数据报告(中文)
备注
Nemotron‑Personas‑Japan 在 CC BY 4.0 许可证下提供,可用于商业和非商业用途。