越过“数据不足”的壁垒:合成人格加速日本AI开发

发布: (2026年2月19日 GMT+8 23:32)
6 分钟阅读

Source: Hugging Face Blog

Contributors








AI 与日本经济

AI 有可能为日本的经济增长描绘新篇章,预计将创造 100 万亿日元(6500 亿美元) 以上的经济价值(OpenAI Japan Economic Blueprint)。然而,这一实现取决于几乎所有 AI 项目都缺失的一个要素——可在实际工作中使用的训练数据

  • 英文数据丰富,但基于日语和日本文化的数据长期短缺。
  • 收集、清洗、标注新样本需要时间和成本,难以跟上开发周期。
  • 结果是 数据壁垒 阻碍创新(SuperAnnotate – Data Wall)。

通往新进步的道路

NTT DATA 研究イメージ

大型 IT 企业 NTT DATA 证明,合成数据可以拆除这道壁垒。只需最少量的自有数据,就能在不牺牲隐私和性能的前提下,生成可用于实际运营的大规模训练数据集。

  • 使用的数据集:NVIDIA Nemotron‑Personas‑Japan(通过 NeMo Data Designer 生成)
    • 600 万个人设(基于人口统计、地理、文化)
    • 日本首个开放合成数据集

借助该合成数据,模型精度从 15.3 % 提升至 79.3 %,提升幅度超过 60 个百分点。

关键要点

  • 完全开源的基础设施,使得仅凭少量自有数据即可构建领域专用 AI。
  • 利用开放的人设数据,实现模型质量与数据运营敏捷性的双重平衡。

实证实验

NTT DATA 在虚构的法律文档上进行对照评估,确认能够真正获取新知识。

  • 人设:从 Nemotron‑Personas‑Japan 中抽取的 500 条
  • 种子样本:240 条(未加工)
  • 合成数据:超过 138,000 条(相当于种子的 300 倍)

实验结果

配置种子数据合成扩展精度
基线(无训练)15.3 %
使用合成数据的 SFT240 条138,000 条79.3 %
  • 合成数据不仅提升了精度,还消除了基线模型出现的幻觉(错误的法律分类)。
  • 只要拥有足够的合成数据,持续预训练(CPT) 就变得不必要,从而大幅降低计算资源和成本。

“通过 Nemotron Personas 扩展少量自有数据集,即使数据有限,也能有效构建任务专用模型。”
樋口 晋也(NTT DATA AI 技术部 部长)

NTT DATA コメント画像

从设计阶段起的隐私保护

  • 受日本 个人信息保护法 (PIPA)AI 治理指南(2025 年 9 月发布) 约束,企业数据有超过 90 % 未被利用。
  • 合成数据 不包含 PII,却能精准再现真实数据的模式,实现 数据最小化性能提升 的双赢。
  • 合成流水线具备 可复现性与可审计性,能够满足治理和监管机构的要求。

主权数据空间

  • 数据主权 必不可少,但不能依赖于西方中心的语料库,需要本地区特有的知识。
  • Nemotron‑Personas‑Japan 基于日本官方人口与劳动统计构建了 600 万个人设,覆盖 1500 多种职业分类和地区分布。

NTT DATA 等公司正致力于 数据空间 的开发,目标是构建政府和企业能够安全交换合成数据的协作环境。联邦学习和端到端加密为这种分布式方法提供支撑。

  • 数据风险管理从“防御”转向“协作”。
  • 展示了无需依赖全球大型模型,而是在开放且隐私保护的基础设施上构建地区主权 AI 的可能性。

开始构建

“数据壁垒”确实存在,但正如 NTT DATA 的研究所示,克服它的工具是 开放且人人可访问 的。合成数据不再是未来技术,而是 在不牺牲隐私和性能、保持数据主权的前提下,构建根植于日本文化的 AI 系统的现实解决方案

  • 试用 NeMo Data Designer 库(开源)
  • 在 Hugging Face 查看 Nemotron‑Personas‑Japan 数据集

有关更详细的技术信息和实验设计,请参阅以下资料。

详细报告(中文)

  • NeMo Data Designer
  • Nemotron‑Personas‑Japan (Hugging Face)
  • NTT 数据报告(中文)

备注
Nemotron‑Personas‑Japan 在 CC BY 4.0 许可证下提供,可用于商业和非商业用途。

0 浏览
Back to Blog

相关文章

阅读更多 »

为什么仅有LLMs并非智能体

引言 大型语言模型功能强大,但单独称它们为“agents”是一种类别错误。这种混淆在实际项目中经常出现……