[Paper] 结构与多样性感知的上下文气泡构建用于企业检索增强系统

发布: (2026年1月16日 GMT+8 02:43)
7 min read
原文: arXiv

Source: arXiv - 2601.10681v1

概述

本文介绍了 Structure‑and‑Diversity‑Aware Context Bubbles(结构与多样性感知上下文气泡),这是一种为企业知识库服务的检索增强生成(Retrieval‑Augmented Generation,RAG)系统构建提示上下文的新方法。该方法通过尊重文档的固有层次结构(章节、表格、行),并显式强制多样性,生成紧凑、可直接引用的“气泡”,在保持 LLM token 限制的同时,提供比传统 top‑k 检索更丰富、冗余度更低的信息。

关键贡献

  • 结构感知检索:利用文档层次结构和任务条件先验,优先检索整段或逻辑跨度,而非孤立句子。
  • 多样性约束选择:构建约束优化,在相关性、边际覆盖率和冗余惩罚之间取得平衡,保证所选跨度多样。
  • 上下文气泡构建算法:一种确定性、预算感知的流水线,组装连贯的跨度集合,并同步生成完整检索轨迹以便审计。
  • 面向企业的评估:在真实企业文档上展示,气泡可将冗余降低约40%,提升次要维度覆盖,并在严格的 token 预算下提升答案质量和引用忠实度。
  • 消融实验洞察:表明结构先验和多样性约束均为关键,任意缺失都会降低覆盖率并增加重复。

方法论

  1. 锚点识别 – 系统首先运行标准的相关性排序器,挑选出几个高分的“锚点”跨度(例如,直接匹配查询的章节标题)。
  2. 结构先验 – 每篇文档会预处理成多粒度图(章节 → 段落 → 表格行)。先验编码了在特定层级的跨度对特定任务的有用性概率(例如,政策查询 vs. 数值提取)。
  3. 受约束选择 – 从锚点开始,算法迭代地添加跨度,同时遵守三条约束:
    • 相关性 – 与查询相似度的边际提升。
    • 覆盖度 – 提供尚未在气泡中出现的新信息。
    • 冗余惩罚 – 防止内容重叠(例如,两段重复同一事实)。
      当达到令牌预算(例如,GPT‑4 的 2 k 令牌)时,过程停止。
  4. 追踪生成 – 每一步选择都会记录评分组件,生成完整的检索追踪,可供检查或复现,从而实现确定性调优和合规审计。

结果与发现

指标Top‑k 检索上下文气泡(提议)
冗余标记 %~28 %~12 %
二级要素覆盖率(二阶事实召回率)0.610.78
回答 BLEU / ROUGE0.71 / 0.680.78 / 0.74
引用忠实度(精确来源匹配)0.640.84
每个查询的平均标记数1,9501,420

关键要点

  • 气泡方法显著减少 重复文本,为新信息释放标记。
  • 提取完整章节或行能够捕获 上下文线索,提升下游 LLM 推理,尤其是需要多个相关事实的查询。
  • 确定性追踪使企业更容易 审计 为何使用特定段落,这是关键的合规要求。

实际影响

  • 成本节约 – 每次请求使用的 token 更少,直接转化为 LLM 提供商的 API 费用降低,尤其在高容量企业环境中。
  • 提升用户体验 – 答案更完整且正确引用,减少手动事实核查的需求。
  • 合规与审计 – 完整的检索追踪满足内部治理政策(如 GDPR、SOX)对生成内容来源的要求。
  • 即插即用集成 – 气泡构建可以叠加在现有向量库(FAISS、Milvus)和排序模型之上,只需轻量级的预处理步骤即可暴露文档层次结构。
  • 更好的多模态支持 – 由于该方法适用于表格行和其他结构化片段,可扩展到需要在电子表格、日志或配置文件上进行推理的检索增强代理。

限制与未来工作

  • 对准确结构提取的依赖 – 该方法假设文档已被正确解析为层次化的 span;噪声 OCR 或格式不良的 PDF 会降低性能。
  • 优化的可扩展性 – 虽然贪婪选择对典型企业语料库速度很快,但扩展到数十亿个 span 可能需要更激进的剪枝或近似算法。
  • 超出企业范围的泛化 – 实验主要聚焦于内部企业文档;需要在公共网络语料或多语言数据集上进一步验证。
  • 动态查询 – 当前流水线对每个查询独立处理;未来工作可以探索缓存或增量气泡更新,以支持对话上下文。

作者

  • Amir Khurshid
  • Abhishek Sehgal

论文信息

  • arXiv ID: 2601.10681v1
  • 分类: cs.AI
  • 出版日期: 2026年1月15日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »