越过“数据不足”的壁垒：合成人格加速日本AI开发

发布: 3天前 (2026年2月19日 GMT+8 23:32)

6 分钟阅读

Source: Hugging Face Blog

Contributors

AI 与日本经济

AI 有可能为日本的经济增长描绘新篇章，预计将创造 100 万亿日元（6500 亿美元） 以上的经济价值（OpenAI Japan Economic Blueprint）。然而，这一实现取决于几乎所有 AI 项目都缺失的一个要素——可在实际工作中使用的训练数据。

英文数据丰富，但基于日语和日本文化的数据长期短缺。
收集、清洗、标注新样本需要时间和成本，难以跟上开发周期。
结果是 数据壁垒 阻碍创新（SuperAnnotate – Data Wall）。

通往新进步的道路

NTT DATA 研究イメージ

大型 IT 企业 NTT DATA 证明，合成数据可以拆除这道壁垒。只需最少量的自有数据，就能在不牺牲隐私和性能的前提下，生成可用于实际运营的大规模训练数据集。

使用的数据集：NVIDIA Nemotron‑Personas‑Japan（通过 NeMo Data Designer 生成）
- 600 万个人设（基于人口统计、地理、文化）
- 日本首个开放合成数据集

借助该合成数据，模型精度从 15.3 % 提升至 79.3 %，提升幅度超过 60 个百分点。

关键要点

完全开源的基础设施，使得仅凭少量自有数据即可构建领域专用 AI。

利用开放的人设数据，实现模型质量与数据运营敏捷性的双重平衡。

实证实验

NTT DATA 在虚构的法律文档上进行对照评估，确认能够真正获取新知识。

人设：从 Nemotron‑Personas‑Japan 中抽取的 500 条
种子样本：240 条（未加工）
合成数据：超过 138,000 条（相当于种子的 300 倍）

实验结果

配置	种子数据	合成扩展	精度
基线（无训练）	—	—	15.3 %
使用合成数据的 SFT	240 条	138,000 条	79.3 %

合成数据不仅提升了精度，还消除了基线模型出现的幻觉（错误的法律分类）。
只要拥有足够的合成数据，持续预训练（CPT） 就变得不必要，从而大幅降低计算资源和成本。

“通过 Nemotron Personas 扩展少量自有数据集，即使数据有限，也能有效构建任务专用模型。”
— 樋口晋也（NTT DATA AI 技术部部长）

NTT DATA コメント画像

从设计阶段起的隐私保护

受日本 个人信息保护法 (PIPA) 与 AI 治理指南（2025 年 9 月发布） 约束，企业数据有超过 90 % 未被利用。
合成数据 不包含 PII，却能精准再现真实数据的模式，实现 数据最小化 与 性能提升 的双赢。
合成流水线具备 可复现性与可审计性，能够满足治理和监管机构的要求。

主权数据空间

数据主权 必不可少，但不能依赖于西方中心的语料库，需要本地区特有的知识。
Nemotron‑Personas‑Japan 基于日本官方人口与劳动统计构建了 600 万个人设，覆盖 1500 多种职业分类和地区分布。

NTT DATA 等公司正致力于 数据空间 的开发，目标是构建政府和企业能够安全交换合成数据的协作环境。联邦学习和端到端加密为这种分布式方法提供支撑。

数据风险管理从“防御”转向“协作”。
展示了无需依赖全球大型模型，而是在开放且隐私保护的基础设施上构建地区主权 AI 的可能性。

开始构建

“数据壁垒”确实存在，但正如 NTT DATA 的研究所示，克服它的工具是 开放且人人可访问 的。合成数据不再是未来技术，而是 在不牺牲隐私和性能、保持数据主权的前提下，构建根植于日本文化的 AI 系统的现实解决方案。

试用 NeMo Data Designer 库（开源）
在 Hugging Face 查看 Nemotron‑Personas‑Japan 数据集

有关更详细的技术信息和实验设计，请参阅以下资料。

详细报告（中文）

NeMo Data Designer
Nemotron‑Personas‑Japan (Hugging Face)
NTT 数据报告（中文）

备注
Nemotron‑Personas‑Japan 在 CC BY 4.0 许可证下提供，可用于商业和非商业用途。

越过“数据不足”的壁垒：合成人格加速日本AI开发

Contributors

AI 与日本经济

通往新进步的道路

实证实验

实验结果

从设计阶段起的隐私保护

主权数据空间

开始构建

详细报告（中文）

相关文章

美国花费1000亿美元试图阻止中国AI，未能成功。

为什么仅有LLMs并非智能体

Ggml.ai 加入 Hugging Face，确保本地 AI 的长期进展

免费使用 Unsloth 和 Hugging Face Jobs 训练 AI 模型