[Paper] MaxShapley：面向激励兼容的生成式搜索与公平上下文归因

发布: 2个月前 (2025年12月6日 GMT+8 02:54)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.05958v1

概览

论文 MaxShapley: Towards Incentive‑compatible Generative Search with Fair Context Attribution 解决了新一代由大语言模型（LLM）驱动的搜索引擎中的一个紧迫问题。当生成系统引用外部文档来构造答案时，应该如何对每个来源进行归功——并最终进行补偿？MaxShapley 提出了一种快速、近乎最优的方式来为每个检索到的文档分配“信用”，使生态系统对内容提供者更加可持续。

主要贡献

MaxShapley 算法 – 一种可处理检索增强生成（RAG）流水线中常见的 max‑sum 效用的可求解 Shapley 值变体。
线性时间归因 – 将计算成本从指数级（经典 Shapley）降低到 O(N)，其中 N 为检索到的文档数量。
实证验证 – 在 HotPotQA、MuSiQUE 和 MS MARCO 上展示，MaxShapley 在保持与精确 Shapley 相同质量的同时，使用的 token 数比现有最先进的归因方法少 8 倍。
激励相容设计 – 归因方案在理论上是公平的，能够抑制内容提供者对系统的操纵。

方法论

检索增强生成（RAG）设置 – 搜索引擎首先检索一组候选文档，然后将它们（或其摘要）输入 LLM，生成最终答案。
效用函数 – 作者将文档集合的“价值”建模为 max‑sum 函数：答案质量等于每个文档中最佳贡献的总和（即每篇文档中信息量最大的片段）。这种结构在多跳问答中很常见，因为每一跳都来自不同的来源。
Shapley 值背景 – Shapley 值在参与者之间公平分配总效用，但精确计算需要评估所有 2^N 子集——对实时搜索而言不可行。
MaxShapley 推导 – 通过利用 max‑sum 的分解性质，作者证明每个文档的边际贡献可以直接从答案槽的最优“分配”中计算得到。这产生了一个闭式表达式，只需对检索集合进行一次遍历。
实现细节 – MaxShapley 集成在标准 RAG 流水线中：在 LLM 生成答案后，一个轻量级后处理器使用推导公式提取每篇文档的贡献分数，无需重新运行 LLM。

结果与发现

数据集	归因准确度（相对于精确 Shapley）	相比先前 SOTA 的 Token 节省
HotPotQA	0.96（Pearson 相关系数）	7.8×
MuSiQUE	0.94	6.5×
MS MARCO	0.97	8.2×

质量 – MaxShapley 的归因在统计上与精确 Shapley 基线无显著差异（p > 0.1）。
效率 – 由于避免了指数级子集枚举，算法在典型的 10 篇文档检索集合上可在毫秒级运行，大幅降低 LLM 的 token 使用。
鲁棒性 – 该方法在不同检索文档数量（5–20）和不同 LLM 后端（GPT‑3.5、LLaMA‑2）下均保持稳定。

实际意义

内容创作者的变现 – 搜索平台现在可以在不产生高额计算成本的前提下，计算透明且公平的每篇文档付费。
开发者友好的 API – MaxShapley 可作为轻量级微服务暴露：接受检索到的段落列表和生成的答案，返回每个来源的分数——非常适合集成到现有 RAG 框架（如 LangChain、LlamaIndex）。
提升信任 – 通过向用户展示具体哪些来源对答案有贡献，平台可以增强可信度并符合新兴的 AI 生成内容归因监管要求。
优化循环 – 开发者可以将归因分数反馈给检索模型（例如强化高价值来源），从而随时间提升整体答案质量。

局限性与未来工作

max‑sum 效用的假设 – 线性时间保证依赖于答案质量能够分解为文档的 max‑sum；更复杂的交互（如跨来源的协同推理）可能违背此假设。
仅适用于单答案生成 – 当前形式处理每个查询的单一答案；将其扩展到多答案或对话场景仍是未解之题。
真实世界的付费实验 – 论文在数学上和基准数据集上验证了公平性，但仍需在实际内容提供者之间进行现场试验，以评估经济激励效果。
对抗鲁棒性 – 未来工作可以探讨当提供者故意构造“噪声”文档以提升归因时，MaxShapley 的表现如何。

对开发者的核心结论：MaxShapley 为在 LLM 驱动的搜索中为每段检索上下文分配公平信用提供了实用、近实时的方案。它弥合了学术公平理论与生产系统工程约束之间的鸿沟，为可持续、激励相容的生成式搜索服务打开了大门。

作者

Sara Patel
Mingxun Zhou
Giulia Fanti

论文信息

arXiv ID: 2512.05958v1
分类: cs.LG, cs.AI
发表时间: 2025 年 12 月 5 日
PDF: Download PDF

[Paper] MaxShapley：面向激励兼容的生成式搜索与公平上下文归因

概览

主要贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] 用 Entity Linking 提升教育平台的 Retrieval-Augmented Generation

[Paper] 训练时动作条件化实现高效实时分块

[Paper] 只要剩下的必须为真：过滤驱动LLMs的推理，塑造多样性

[Paper] AQUA-Net：自适应频率融合与光照感知网络用于水下图像增强