[Paper] 高质量数据共享的层次化数据集选择
发布: (2025年12月12日 GMT+8 02:59)
7 min read
原文: arXiv
Source: arXiv - 2512.10952v1
概览
现代机器学习模型依赖大规模、高质量的训练数据,但在实际中,数据分散在许多独立的仓库——比如公共数据集、企业数据湖或跨机构合作。本文形式化了 数据集选择:从异构池中挑选完整的数据集(而非单个样本),在满足预算约束的前提下最大化下游性能。作者提出了 DaSH(基于层次结构的数据集选择),一种利用数据源自然层次(例如集合、机构)进行更智能、更快速选择的办法。
主要贡献
- 任务定义: 将“数据集选择”正式化为区别于传统样本级数据选择的问题,强调源级相关性的重要性。
- DaSH 算法: 提出层次化效用模型,同时评估单个数据集及其父级组,实现从少量观察中高效泛化。
- 实验提升: 在两个多域基准(Digit‑Five、DomainNet)上相较于最先进的数据选择基线提升最高 26.2 % 的准确率。
- 样本高效探索: 表明 DaSH 只需极少的探索步骤即可收敛到高效用子集,显著降低计算和标注成本。
- 鲁棒性分析: 通过消融实验确认即使相关数据集稀缺或资源极度受限,DaSH 仍能表现良好。
方法论
- 问题设定 – 假设有一个大型数据集池,每个数据集隶属于更高层级的组(例如某大学、某公共仓库)。目标是在固定预算(如样本总数、计算时间)下挑选子集。
- 层次效用模型 – DaSH 学习两类效用分数:
- 组效用 捕捉整个集合的潜在价值(例如“医学影像实验室”)。
- 数据集效用 在已选组内部进一步估计每个具体数据集的价值。
该模型在线训练:在抽取并在下游任务上评估一小批数据集后,DaSH 通过类似 bandit 的反馈循环更新效用估计。
- 选择策略 – 每次迭代 DaSH 先挑选最有前景的组(在探索与利用之间权衡),随后在这些组内部选取得分最高的数据集。这种两阶段方法相比平坦的样本级选择器大幅缩小搜索空间。
- 预算约束 – 当已选数据集的累计成本达到预设预算时算法停止,确保实际可行性。
结果与发现
| 基准 | 基线(最佳) | DaSH | 相对 ↑ 准确率 | 探索步数 ↓ |
|---|---|---|---|---|
| Digit‑Five | 71.3 % | 89.5 % | +26.2 % | ~30 % 的基线 |
| DomainNet | 62.1 % | 78.4 % | +16.3 % | ~35 % 的基线 |
- 更高的最终性能: DaSH 始终优于朴素随机选择和复杂的样本级选择器。
- 更快的收敛: 层次化方法在仅需平坦方法一小部分选择次数后即可达到接近最优的性能。
- 鲁棒性: 即使池中包含大量低质量或不相关的数据集,DaSH 也能提前规避它们,将预算留给高效用来源。
实际意义
- 跨机构合作: 组织可以自动识别哪些合作伙伴的数据集值得引入,省去数周的手工筛选工作。
- 数据市场集成: 销售或共享数据集的平台可嵌入 DaSH,为买家在成本上限下推荐能够最大化模型性能的捆绑包。
- 持续学习流水线: 在生产系统中定期接入新数据源时,DaSH 可充当门卫,确保仅添加有益的数据集,无需人工干预。
- 资源受限训练: 对于边缘 AI 或本地部署场景,计算和存储受限时,DaSH 有助于将稀缺资源分配给最具影响力的数据。
局限性与未来工作
- 层次假设前提: DaSH 依赖预先定义好的数据集分组;在真实世界的混乱目录中构建此类层次可能并不容易。
- 对数百万数据集的可扩展性: 虽然探索步数已被降低,但当前实验仅涉及数百个数据集;处理真正大规模池可能需要额外的索引或分布式实现。
- 静态效用估计: 模型在选择过程中将效用视为不变;未来工作可引入概念漂移,使数据集相关性随时间变化。
- 向多模态数据的扩展: 本文聚焦图像分类基准;将 DaSH 应用于文本、音频或多模态数据集需要针对不同模态的效用信号。
结论: DaSH 提供了一种务实的、感知层次结构的完整数据集挑选框架,在预算约束下实现显著的准确率提升,同时降低了当前数据选择流水线中繁重的试错成本。构建以数据为中心的 AI 系统的开发者可以利用该方法实现自动化、规模化的高质量训练数据策划。
作者
- Xiaona Zhou
- Yingyan Zeng
- Ran Jin
- Ismini Lourentzou
论文信息
- arXiv ID: 2512.10952v1
- 分类: cs.LG, cs.AI
- 发布日期: 2025 年 12 月 11 日
- PDF: Download PDF