[Paper] ColBERT-Zero:是否进行预训练 ColBERT 模型

发布: (2026年2月19日 GMT+8 01:03)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.16609v1

Overview

本文探讨了像 ColBERT 这样的多向量检索模型是否真的需要大规模的无监督预训练,或者它们是否能够通过更轻量的训练流程实现相近的性能。作者从头在公开可用的数据上对 ColBERT 模型进行预训练(称为 ColBERT‑Zero),并展示了完整规模的预训练能够超越依赖闭源数据的强基线,为该规模的模型设立了新的最新水平。

关键贡献

  • 全规模公共预训练 多向量模型(ColBERT‑Zero),其性能超过目前公开报告的最佳结果。
  • 实证表明,仅小规模知识蒸馏(KD)步骤不足以提升;在 KD 之前进行监督微调阶段可显著缩小差距。
  • 发现匹配预训练和微调配置(例如分词方式、最大序列长度)在复用已有检查点时至关重要。
  • 发布检查点、训练脚本和可复现性说明,以促进社区实验。

方法论

  1. 数据收集 – 作者们汇集了一个大型、完全公开的语料库(例如 Common Crawl、Wikipedia 和 OpenWebText),以避免使用任何专有数据。
  2. 预训练目标 – 他们采用原始的 ColBERT 无监督目标:每个 token 被编码为高维向量,使用对比损失鼓励查询‑文档对之间的 token 级表示匹配。
  3. 训练流水线
    • 阶段 1(监督预训练) – 使用标准的段落排序任务(例如 MS‑MARCO)为模型提供查询与文档之间的强初始对齐。
    • 阶段 2(知识蒸馏) – 通过轻量级的 KD 步骤,将强单向量教师模型(例如 GTE‑ModernBERT)的知识转移到多向量学生模型。
  4. 微调 – 在下游检索基准(MS‑MARCO、TREC Deep Learning)上进行微调,使用与预训练阶段相同的超参数,以保持数据分布的一致性。

该方法刻意保持模块化,允许研究者替换任意阶段(例如跳过 KD 或更换监督预训练数据集),并观察其影响。

结果与发现

模型预训练数据KD?有监督预训练?MS‑MARCO 开发集 MRR@10
GTE‑ModernBERT (teacher)闭源0.384
GTE‑ModernColBERT闭源✓ (small)0.393
ColBERT‑Zero (full public pre‑train)公共✓ (small)0.401
ColBERT‑Zero (no supervised pre‑train)公共✓ (small)0.368
  • 完整的公开预训练在仅使用公开文本的情况下,仍然超越了闭源基线
  • 在 KD 之前加入有监督预训练阶段可将性能提升约 3 % 的绝对 MRR,表明少量标注数据可以替代昂贵的无监督阶段。
  • 将分词方式和最大长度设置在预训练与微调之间保持一致,可获得约 2 % 的提升,进一步确认配置一致性的重要性。

实际意义

  • 成本效益检索系统 – 团队现在可以在不投入庞大的专有语料库或冗长的无监督预训练的情况下,训练高性能的多向量检索器。
  • 更快的迭代 – 通过加入监督预训练步骤(例如使用现有的相关性判断),开发者可以在极短的时间内获得接近最新水平的模型,从而快速原型化搜索、推荐或问答服务。
  • 开源生态系统 – 已发布的检查点使得将 ColBERT‑Zero 插入现有检索管道(例如 Pyserini、OpenSearch)变得轻松,并且能够在无需通常的工程开销的情况下受益于多向量索引。
  • 更好地与生产环境对齐 – 发现预训练和微调设置必须保持一致的结论,促使实践者在各阶段保持分词器、填充策略和最大长度的一致性,减少模型从研究转向生产时的隐藏性能下降。

限制与未来工作

  • 本研究聚焦于 中等规模模型(≈300 M 参数);扩展到更大架构可能会显现不同的权衡。
  • 实验仅限于 英语语料库;多语言扩展仍未探索。
  • 虽然监督式预训练步骤降低了成本,但仍需 高质量相关性标签,这些标签在细分领域可能稀缺。
  • 未来工作可以研究 自监督替代方案,在无需标签数据的情况下近似监督提升,并探索 高效索引技巧,进一步降低大规模集合的推理延迟。

作者

  • Antoine Chaffin
  • Luca Arnaboldi
  • Amélie Chatelain
  • Florent Krzakala

论文信息

  • arXiv ID: 2602.16609v1
  • 分类: cs.CL, cs.IR
  • 出版时间: 2026年2月18日
  • PDF: Download PDF
0 浏览
Back to Blog

相关文章

阅读更多 »