[Paper] 利用 Model Soups 对湄公河三角洲的非物质文化遗产图像进行分类

发布: 1天前 (2026年3月3日 GMT+8 02:50)

7 分钟阅读

原文: arXiv

Source: arXiv - 2603.02181v1

概览

一项新研究解决了对越南湄公河三角洲非物质文化遗产（ICH）照片进行分类的极其困难的问题。通过将混合 CoAtNet 视觉模型与一种称为 model soups 的轻量级集成技巧相结合，作者在一个小且高度不平衡的数据集上实现了显著的准确率提升——且无需额外的推理成本。

Hybrid CoAtNet backbone 将卷积层和自注意力层融合，以捕获遗产图像中的局部纹理和全局上下文。
模型汤（贪婪和均匀检查点平均）在单次训练运行中使用，实现了与完整集成相当的方差降低，但运行时开销为零。
偏差‑方差分析 量化了汤在保持低偏差的同时稳定预测的效果，为实践者提供了理论视角。
几何多样性诊断 使用交叉熵距离和多维尺度分析（MDS）展示汤能够挑选真正多样的检查点，区别于朴素的软投票集成。
最先进的结果 在 ICH‑17 数据集（7,406 张图像，17 类）上取得 72.36 % top‑1 准确率 和 69.28 % macro F1，超越 ResNet‑50、DenseNet‑121 和 Vision Transformers。

数据与挑战 – ICH‑17 数据集规模小且视觉上同质（许多类别共享相似的颜色、图案和背景）。传统深度网络容易过拟合或依赖虚假的线索。
CoAtNet 主干 – 网络分阶段构建：早期层使用 depth‑wise convolutions 捕获细粒度纹理，后期阶段切换到 multi‑head self‑attention 进行全局场景理解。这种混合设计比纯 CNN 或纯 Transformer 更具数据效率。
训练轨迹与检查点 – 在一次完整的训练过程中，模型会在学习率调度趋于平稳后（例如第 30、35、40、45 轮）保存多个检查点。每个检查点代表略有不同的局部最优。
模型融合（Model Soups）
- Uniform Soup：对所有选定检查点的权重进行简单算术平均。
- Greedy Soup：迭代地加入在与当前 soup 平均后能够最大提升验证损失的检查点，直至再无进一步增益为止。
  生成的 “soup” 是一套可以一次性加载用于推理的权重。
评估 – 报告标准的 top‑1 accuracy 和 macro‑averaged F1，同时给出 bias‑variance decomposition（使用经典的期望误差分解为 bias² + variance + 不可约噪声）。

方差降低： soup 模型的误差分解中方差成分下降约 30 %，证明对多样化快照进行平均能够稳定预测。
偏差影响： 添加的偏差可以忽略不计（<1 % 的总体误差），说明集成并未“冲淡”已学习的特征。
多样性重要： 检查点嵌入的 MDS 图显示，greedy soup 选择的检查点在输出空间中分布更广，而软投票集成则聚集紧密，这解释了 soup 方法的更佳性能。

Zero‑cost ensembles（零成本集成）: 开发者可以在不增加内存或延迟开销的情况下获得集成级别的提升——这对于需要在设备上对文化遗产照片进行分类的边缘设备或移动应用尤为理想。
Low‑resource domains（低资源领域）: 该方法在标注数据稀缺的场景中表现突出（例如遗产保护、医学影像、细分工业检测）。只需额外保存几个检查点，团队即可从现有训练流水线中挤出额外的准确率。
Model‑agnostic recipe（模型无关的配方）: 虽然论文使用了 CoAtNet，但 soup 技术适用于任何架构（CNN、Transformer、混合模型）。团队可以在当前的 CI/CD 训练工作流中以最少的代码改动直接接入。
Interpretability boost（可解释性提升）: 偏差‑方差分析和检查点空间可视化为工程师提供了一种诊断工具，帮助理解模型为何出现过拟合，从而指导数据增强或正则化的决策。

数据集规模与多样性： 结果仅在单个 7k 图像数据集上验证；对其他文化遗产收藏的更广泛泛化仍需证明。
检查点选择启发式： 贪婪算法简单，但可能错过全局最优组合；更复杂的搜索（例如贝叶斯优化）可能带来进一步提升。
实时约束： 虽然推理成本未变，但训练阶段需要存储多个检查点，对非常大型模型可能导致内存密集。
作者提出的未来方向包括： 将模型汤扩展到多任务设置（例如同时进行分类和分割），探索检查点的自适应加权而非统一平均，以及在其他低资源视觉问题上测试流水线，如稀有物种识别。