「データ不足」の壁を越える：合成ペルソナが日本のAI開発を加速

Published: 3 days ago (February 19, 2026 at 10:32 AM EST)

6 min read

Source: Hugging Face Blog

Contributors

AI と日本経済

AI は日本の経済成長に新たな章を描く可能性を秘めており、100 兆円（6,500 億米ドル） 超の経済価値が創出されると予測されています（OpenAI Japan Economic Blueprint）。しかし、その実現は「実務で使える学習データ」という、ほとんどの AI プロジェクトが欠けている 1 つの要素にかかっています。

英語データは豊富だが、日本語・日本文化に根ざしたデータは慢性的に不足。
新しいサンプルの収集・クリーニング・ラベル付けには時間と費用がかかり、開発サイクルに追いつけない。
結果として データの壁 がイノベーションを阻む（SuperAnnotate – Data Wall）。

新たな前進への道

NTT DATA 研究イメージ

大手 IT 企業 NTT DATA は、合成データがこの壁を取り払うことを実証しました。最小限の独自データから、プライバシーや性能を損なうことなく実運用レベルの大規模学習データセットを生成できます。

使用データセット: NVIDIA Nemotron‑Personas‑Japan（NeMo Data Designer で生成）
- 600 万のペルソナ（人口動態・地理・文化ベース）
- 日本初のオープン合成データセット

この合成データにより、モデル精度が 15.3 % → 79.3 % と 60 ポイント以上向上しました。

重要ポイント

完全オープンソースのインフラで、最小限の独自データからドメイン特化 AI を構築可能。

オープンペルソナデータ活用で、モデル品質とデータ運用の機敏さを両立。

実証実験

NTT DATA は架空の法律文書で対照評価を実施し、真に新しい知識が獲得できることを確認しました。

ペルソナ: Nemotron‑Personas‑Japan から抽出した 500 件
シードサンプル: 240 件（未加工）
合成データ: 138,000 件以上（シードの 300 倍相当）

実験結果

構成	シードデータ	合成拡張	精度
ベースライン（トレーニングなし）	—	—	15.3 %
合成データを使用した SFT	240 件	138,000 件	79.3 %

合成データは精度向上だけでなく、ベースラインモデルが出していたハルシネーション（誤った法的分類）も排除。
十分な合成データがあれば 継続事前学習（CPT） が不要となり、計算リソースとコストを大幅に削減できる。

「Nemotron Personas を用いて少量の独自データセットを拡張することで、データが限られていてもタスク特化モデルを効果的に構築できる」
— 樋口晋也（NTT DATA AI 技術部部長）

NTT DATA コメント画像

設計段階からのプライバシー保護

日本の 個人情報保護法 (PIPA) や AI ガバナンスガイドライン（2025年9月公表） により、企業データの 90 % 以上が未活用。
合成データは PII を含まず、実データのパターンを正確に再現し、データ最小化 と 性能向上 を同時に実現。
合成パイプラインは 再現性・監査性 が備わっており、ガバナンスや規制当局の要件にも対応可能。

ソブリンデータ空間

データ主権 が必須だが、欧米中心のコーパスに偏らない、地域固有の知識が必要。
Nemotron‑Personas‑Japan は 600 万ペルソナを日本の公式人口・労働統計に基づき構築し、1,500 以上の職業分類と地域分布を網羅。

NTT DATA などは データスペース の開発に取り組んでおり、政府・企業が合成データを安全に交換できる協調的環境を目指す。フェデレーテッドラーニングやエンドツーエンド暗号化がこの分散型アプローチを支える。

データリスク管理は「守り」から「協調」へシフト。
グローバルな巨大モデルに依存せず、オープンかつプライバシー保護された基盤上で地域主権 AI を構築できる未来を示す。

構築を開始

「データの壁」は確かに存在しますが、NTT DATA の調査が示すように、克服するツールは オープンで誰でもアクセス可能 です。合成データはもはや未来技術ではなく、プライバシーや性能を犠牲にせず、データ主権を保ちつつ日本文化に根ざした AI システムを構築できる現実的ソリューション です。

NeMo Data Designer ライブラリ（オープンソース）を試す
Nemotron‑Personas‑Japan データセットを Hugging Face で確認

詳細な技術情報や実験設計は、以下の資料をご参照ください。

詳細レポート (日本語)

NeMo Data Designer
Nemotron‑Personas‑Japan (Hugging Face)
NTT データレポート（日本語）

備考
Nemotron‑Personas‑Japan は CC BY 4.0 ライセンスの下で提供されており、商用・非商用を問わずご利用いただけます。

「データ不足」の壁を越える：合成ペルソナが日本のAI開発を加速

Contributors

AI と日本経済

新たな前進への道

実証実験

実験結果

設計段階からのプライバシー保護

ソブリンデータ空間

構築を開始

詳細レポート (日本語)

Related posts

America Spent $100 Billion Trying to Stop Chinese AI. It Didn't Work.

Why LLMs Alone Are Not Agents

Ggml.ai joins Hugging Face to ensure the long-term progress of Local AI

Fast KV Compaction via Attention Matching