[Paper] 结构与多样性感知的上下文气泡构建用于企业检索增强系统

发布: 3个月前 (2026年1月16日 GMT+8 02:43)

7 分钟阅读

原文: arXiv

Source: arXiv - 2601.10681v1

概述

本文介绍了 Structure‑and‑Diversity‑Aware Context Bubbles（结构与多样性感知上下文气泡），这是一种为企业知识库服务的检索增强生成（Retrieval‑Augmented Generation，RAG）系统构建提示上下文的新方法。该方法通过尊重文档的固有层次结构（章节、表格、行），并显式强制多样性，生成紧凑、可直接引用的“气泡”，在保持 LLM token 限制的同时，提供比传统 top‑k 检索更丰富、冗余度更低的信息。

关键贡献

结构感知检索：利用文档层次结构和任务条件先验，优先检索整段或逻辑跨度，而非孤立句子。
多样性约束选择：构建约束优化，在相关性、边际覆盖率和冗余惩罚之间取得平衡，保证所选跨度多样。
上下文气泡构建算法：一种确定性、预算感知的流水线，组装连贯的跨度集合，并同步生成完整检索轨迹以便审计。
面向企业的评估：在真实企业文档上展示，气泡可将冗余降低约40%，提升次要维度覆盖，并在严格的 token 预算下提升答案质量和引用忠实度。
消融实验洞察：表明结构先验和多样性约束均为关键，任意缺失都会降低覆盖率并增加重复。

方法论

锚点识别 – 系统首先运行标准的相关性排序器，挑选出几个高分的“锚点”跨度（例如，直接匹配查询的章节标题）。
结构先验 – 每篇文档会预处理成多粒度图（章节 → 段落 → 表格行）。先验编码了在特定层级的跨度对特定任务的有用性概率（例如，政策查询 vs. 数值提取）。
受约束选择 – 从锚点开始，算法迭代地添加跨度，同时遵守三条约束：
- 相关性 – 与查询相似度的边际提升。
- 覆盖度 – 提供尚未在气泡中出现的新信息。
- 冗余惩罚 – 防止内容重叠（例如，两段重复同一事实）。
  当达到令牌预算（例如，GPT‑4 的 2 k 令牌）时，过程停止。
追踪生成 – 每一步选择都会记录评分组件，生成完整的检索追踪，可供检查或复现，从而实现确定性调优和合规审计。

结果与发现

指标	Top‑k 检索	上下文气泡（提议）
冗余标记 %	~28 %	~12 %
二级要素覆盖率（二阶事实召回率）	0.61	0.78
回答 BLEU / ROUGE	0.71 / 0.68	0.78 / 0.74
引用忠实度（精确来源匹配）	0.64	0.84
每个查询的平均标记数	1,950	1,420

关键要点

气泡方法显著减少 重复文本，为新信息释放标记。
提取完整章节或行能够捕获 上下文线索，提升下游 LLM 推理，尤其是需要多个相关事实的查询。
确定性追踪使企业更容易审计为何使用特定段落，这是关键的合规要求。

实际影响

成本节约 – 每次请求使用的 token 更少，直接转化为 LLM 提供商的 API 费用降低，尤其在高容量企业环境中。
提升用户体验 – 答案更完整且正确引用，减少手动事实核查的需求。
合规与审计 – 完整的检索追踪满足内部治理政策（如 GDPR、SOX）对生成内容来源的要求。
即插即用集成 – 气泡构建可以叠加在现有向量库（FAISS、Milvus）和排序模型之上，只需轻量级的预处理步骤即可暴露文档层次结构。
更好的多模态支持 – 由于该方法适用于表格行和其他结构化片段，可扩展到需要在电子表格、日志或配置文件上进行推理的检索增强代理。

限制与未来工作

对准确结构提取的依赖 – 该方法假设文档已被正确解析为层次化的 span；噪声 OCR 或格式不良的 PDF 会降低性能。
优化的可扩展性 – 虽然贪婪选择对典型企业语料库速度很快，但扩展到数十亿个 span 可能需要更激进的剪枝或近似算法。
超出企业范围的泛化 – 实验主要聚焦于内部企业文档；需要在公共网络语料或多语言数据集上进一步验证。
动态查询 – 当前流水线对每个查询独立处理；未来工作可以探索缓存或增量气泡更新，以支持对话上下文。

作者

Amir Khurshid
Abhishek Sehgal

论文信息

arXiv ID: 2601.10681v1
分类: cs.AI
出版日期: 2026年1月15日
PDF: 下载 PDF

[Paper] 结构与多样性感知的上下文气泡构建用于企业检索增强系统

概述

关键贡献

方法论

结果与发现

关键要点

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] 解释在大型推理模型中是否具有泛化性？

[论文] 为 Gemini 构建生产就绪探针

[Paper] ShapeR：从随意捕获中实现稳健的条件3D形状生成

[Paper] MetaboNet：最大公开可用的综合数据集，用于1型糖尿病管理