「データ不足」の壁を越える:合成ペルソナが日本のAI開発を加速

Published: (February 19, 2026 at 10:32 AM EST)
6 min read

Source: Hugging Face Blog

Contributors








AI と日本経済

AI は日本の経済成長に新たな章を描く可能性を秘めており、100 兆円(6,500 億米ドル) 超の経済価値が創出されると予測されています(OpenAI Japan Economic Blueprint)。しかし、その実現は「実務で使える学習データ」という、ほとんどの AI プロジェクトが欠けている 1 つの要素にかかっています。

  • 英語データは豊富だが、日本語・日本文化に根ざしたデータは慢性的に不足。
  • 新しいサンプルの収集・クリーニング・ラベル付けには時間と費用がかかり、開発サイクルに追いつけない。
  • 結果として データの壁 がイノベーションを阻む(SuperAnnotate – Data Wall)。

新たな前進への道

NTT DATA 研究イメージ

大手 IT 企業 NTT DATA は、合成データがこの壁を取り払うことを実証しました。最小限の独自データから、プライバシーや性能を損なうことなく実運用レベルの大規模学習データセットを生成できます。

  • 使用データセット: NVIDIA Nemotron‑Personas‑Japan(NeMo Data Designer で生成)
    • 600 万のペルソナ(人口動態・地理・文化ベース)
    • 日本初のオープン合成データセット

この合成データにより、モデル精度が 15.3 % → 79.3 % と 60 ポイント以上向上しました。

重要ポイント

  • 完全オープンソースのインフラで、最小限の独自データからドメイン特化 AI を構築可能。
  • オープンペルソナデータ活用で、モデル品質とデータ運用の機敏さを両立。

実証実験

NTT DATA は架空の法律文書で対照評価を実施し、真に新しい知識が獲得できることを確認しました。

  • ペルソナ: Nemotron‑Personas‑Japan から抽出した 500 件
  • シードサンプル: 240 件(未加工)
  • 合成データ: 138,000 件以上(シードの 300 倍相当)

実験結果

構成シードデータ合成拡張精度
ベースライン(トレーニングなし)15.3 %
合成データを使用した SFT240 件138,000 件79.3 %
  • 合成データは精度向上だけでなく、ベースラインモデルが出していたハルシネーション(誤った法的分類)も排除。
  • 十分な合成データがあれば 継続事前学習(CPT) が不要となり、計算リソースとコストを大幅に削減できる。

「Nemotron Personas を用いて少量の独自データセットを拡張することで、データが限られていてもタスク特化モデルを効果的に構築できる」
樋口 晋也(NTT DATA AI 技術部 部長)

NTT DATA コメント画像

設計段階からのプライバシー保護

  • 日本の 個人情報保護法 (PIPA)AI ガバナンスガイドライン(2025年9月公表) により、企業データの 90 % 以上が未活用。
  • 合成データは PII を含まず、実データのパターンを正確に再現し、データ最小化性能向上 を同時に実現。
  • 合成パイプラインは 再現性・監査性 が備わっており、ガバナンスや規制当局の要件にも対応可能。

ソブリンデータ空間

  • データ主権 が必須だが、欧米中心のコーパスに偏らない、地域固有の知識が必要。
  • Nemotron‑Personas‑Japan は 600 万ペルソナを日本の公式人口・労働統計に基づき構築し、1,500 以上の職業分類と地域分布を網羅。

NTT DATA などは データスペース の開発に取り組んでおり、政府・企業が合成データを安全に交換できる協調的環境を目指す。フェデレーテッドラーニングやエンドツーエンド暗号化がこの分散型アプローチを支える。

  • データリスク管理は「守り」から「協調」へシフト。
  • グローバルな巨大モデルに依存せず、オープンかつプライバシー保護された基盤上で地域主権 AI を構築できる未来を示す。

構築を開始

「データの壁」は確かに存在しますが、NTT DATA の調査が示すように、克服するツールは オープンで誰でもアクセス可能 です。合成データはもはや未来技術ではなく、プライバシーや性能を犠牲にせず、データ主権を保ちつつ日本文化に根ざした AI システムを構築できる現実的ソリューション です。

  • NeMo Data Designer ライブラリ(オープンソース)を試す
  • Nemotron‑Personas‑Japan データセットを Hugging Face で確認

詳細な技術情報や実験設計は、以下の資料をご参照ください。

詳細レポート (日本語)

  • NeMo Data Designer
  • Nemotron‑Personas‑Japan (Hugging Face)
  • NTT データ レポート(日本語)

備考
Nemotron‑Personas‑Japan は CC BY 4.0 ライセンスの下で提供されており、商用・非商用を問わずご利用いただけます。

0 views
Back to Blog

Related posts

Read more »

Why LLMs Alone Are Not Agents

Introduction Large language models are powerful, but calling them “agents” on their own is a category mistake. This confusion shows up constantly in real proje...