「データ不足」の壁を越える:合成ペルソナが日本のAI開発を加速
Source: Hugging Face Blog
Contributors
AI と日本経済
AI は日本の経済成長に新たな章を描く可能性を秘めており、100 兆円(6,500 億米ドル) 超の経済価値が創出されると予測されています(OpenAI Japan Economic Blueprint)。しかし、その実現は「実務で使える学習データ」という、ほとんどの AI プロジェクトが欠けている 1 つの要素にかかっています。
- 英語データは豊富だが、日本語・日本文化に根ざしたデータは慢性的に不足。
- 新しいサンプルの収集・クリーニング・ラベル付けには時間と費用がかかり、開発サイクルに追いつけない。
- 結果として データの壁 がイノベーションを阻む(SuperAnnotate – Data Wall)。
新たな前進への道

大手 IT 企業 NTT DATA は、合成データがこの壁を取り払うことを実証しました。最小限の独自データから、プライバシーや性能を損なうことなく実運用レベルの大規模学習データセットを生成できます。
- 使用データセット: NVIDIA Nemotron‑Personas‑Japan(NeMo Data Designer で生成)
- 600 万のペルソナ(人口動態・地理・文化ベース)
- 日本初のオープン合成データセット
この合成データにより、モデル精度が 15.3 % → 79.3 % と 60 ポイント以上向上しました。
重要ポイント
- 完全オープンソースのインフラで、最小限の独自データからドメイン特化 AI を構築可能。
- オープンペルソナデータ活用で、モデル品質とデータ運用の機敏さを両立。
実証実験
NTT DATA は架空の法律文書で対照評価を実施し、真に新しい知識が獲得できることを確認しました。
- ペルソナ: Nemotron‑Personas‑Japan から抽出した 500 件
- シードサンプル: 240 件(未加工)
- 合成データ: 138,000 件以上(シードの 300 倍相当)
実験結果
| 構成 | シードデータ | 合成拡張 | 精度 |
|---|---|---|---|
| ベースライン(トレーニングなし) | — | — | 15.3 % |
| 合成データを使用した SFT | 240 件 | 138,000 件 | 79.3 % |
- 合成データは精度向上だけでなく、ベースラインモデルが出していたハルシネーション(誤った法的分類)も排除。
- 十分な合成データがあれば 継続事前学習(CPT) が不要となり、計算リソースとコストを大幅に削減できる。
「Nemotron Personas を用いて少量の独自データセットを拡張することで、データが限られていてもタスク特化モデルを効果的に構築できる」
— 樋口 晋也(NTT DATA AI 技術部 部長)

設計段階からのプライバシー保護
- 日本の 個人情報保護法 (PIPA) や AI ガバナンスガイドライン(2025年9月公表) により、企業データの 90 % 以上が未活用。
- 合成データは PII を含まず、実データのパターンを正確に再現し、データ最小化 と 性能向上 を同時に実現。
- 合成パイプラインは 再現性・監査性 が備わっており、ガバナンスや規制当局の要件にも対応可能。
ソブリンデータ空間
- データ主権 が必須だが、欧米中心のコーパスに偏らない、地域固有の知識が必要。
- Nemotron‑Personas‑Japan は 600 万ペルソナを日本の公式人口・労働統計に基づき構築し、1,500 以上の職業分類と地域分布を網羅。
NTT DATA などは データスペース の開発に取り組んでおり、政府・企業が合成データを安全に交換できる協調的環境を目指す。フェデレーテッドラーニングやエンドツーエンド暗号化がこの分散型アプローチを支える。
- データリスク管理は「守り」から「協調」へシフト。
- グローバルな巨大モデルに依存せず、オープンかつプライバシー保護された基盤上で地域主権 AI を構築できる未来を示す。
構築を開始
「データの壁」は確かに存在しますが、NTT DATA の調査が示すように、克服するツールは オープンで誰でもアクセス可能 です。合成データはもはや未来技術ではなく、プライバシーや性能を犠牲にせず、データ主権を保ちつつ日本文化に根ざした AI システムを構築できる現実的ソリューション です。
- NeMo Data Designer ライブラリ(オープンソース)を試す
- Nemotron‑Personas‑Japan データセットを Hugging Face で確認
詳細な技術情報や実験設計は、以下の資料をご参照ください。
詳細レポート (日本語)
- NeMo Data Designer
- Nemotron‑Personas‑Japan (Hugging Face)
- NTT データ レポート(日本語)
備考
Nemotron‑Personas‑Japan は CC BY 4.0 ライセンスの下で提供されており、商用・非商用を問わずご利用いただけます。