[Paper] AgenticPay:用于买卖交易的多代理 LLM 谈判系统

发布: (2026年2月6日 GMT+8 02:50)
8 分钟阅读
原文: arXiv

Source: arXiv - 2602.06008v1

Overview

论文 AgenticPay 引入了一个新的基准和仿真平台,使大型语言模型(LLM)代理能够使用自然语言而非简单的数值出价来协商买卖交易。通过建模真实的市场约束——私人预算、产品特定的估值以及多轮对话——它为研究人员提供了一种原则性的方式来评估基于 LLM 的代理在进行经济交易时的表现。

关键贡献

  • AgenticPay benchmark: 一个包含超过 >110 个谈判任务的综合套件,覆盖双边议价、多买家/多卖家市场以及多种产品类型。
  • Simulation framework: 开源环境,强制私有约束,跟踪可行性、效率和整体福利,并从自由形式对话中提取结构化动作。
  • Evaluation metrics: 明确的量化指标,用于 (i) 可行性(协议遵守所有私有约束),(ii) 效率(捕获的总剩余),以及 (iii) 福利(参与者之间的公平性)。
  • Empirical baseline: 对最先进的专有模型(例如 GPT‑4)和开源权重的大型语言模型(Llama‑2、Mistral)进行基准测试,揭示了在战略性、长期谈判中的显著性能差距。
  • Open resources: 在 MIT‑style 许可证下发布数据集、代码和评估脚本,支持可重复的研究和快速原型开发。

方法论

  1. 市场建模 – 每个代理(买方或卖方)都会获得一个私有的“类型”:预算、成本曲线以及一个取决于产品属性(例如质量、交付时间)的估值函数。
  2. 对话引擎 – 代理通过多轮自然语言消息进行交流。框架使用轻量级抽取模型将这些消息解析为结构化意图(报价、还价、接受、拒绝、提问)。
  3. 谈判协议 – 一个基于回合的循环持续运行,直到达成协议或达到最大回合数。每回合结束后,模拟器检查可行性(预算不超支,价格 ≥ 成本)并更新状态。
  4. 任务生成 – 通过改变参与者数量、产品维度和约束紧度,程序化生成超过 110 种情景,确保多样的策略挑战。
  5. 评估 – 对每次运行,系统记录最终价格、盈余分配和对话长度,然后计算三个核心指标(可行性、效率、福利)。

整个流水线被封装为一个 Python 库,提供简易 API(run_negotiation(agent_policy, task_id)),开发者可以接入任何 LLM 或自定义策略。

结果与发现

模型可行性效率(相对最优盈余的百分比)福利(公平性)
GPT‑4(专有)92 %68 %0.71
Llama‑2‑70B(开源)78 %45 %0.58
Mistral‑7B71 %38 %0.53
基线规则‑基于85 %30 %0.49
  • 战略深度很重要:即使是最强大的大型语言模型在长期规划上也会遇到困难,常常过早让步或未能发现隐藏的约束。
  • 提示工程有帮助,但不足以解决问题:添加明确的“预算提醒”提示可以适度提升可行性(≈+5 %),但对效率几乎没有影响。
  • 多对多市场加大难度:当三个或更多代理相互作用时,成功率会急剧下降,凸显协同挑战。

总体而言,研究表明当前的 LLM 代理在真实商业环境中仍远未达到可靠的自主谈判者水平。

实际影响

  • 电子商务机器人:希望部署 AI 销售助理的公司可以使用 AgenticPay 在上线前对其对话策略进行压力测试,确保机器人遵守定价约束,避免不利交易。
  • 供应链自动化:多代理谈判是自动化采购的核心组成部分;该基准提供了一个沙盒,用于原型化谈判策略,以在成本节约与供应商公平之间取得平衡。
  • 市场平台:点对点平台(例如自由职业者市场)可以集成 LLM 谈判者以促进价格发现,但当前的性能差距表明仍需要混合的人在回路(human‑in‑the‑loop)方法。
  • 监管合规:通过量化福利和可行性,企业可以审计 AI 驱动的谈判,以确保公平性和法律合规(例如防止价格哄抬)。
  • 开发者工具:开源框架可以封装进 CI 流水线,允许团队将新的 LLM 微调或基于人类反馈的强化学习(RLHF)策略与一套标准化的经济任务进行基准测试。

限制与未来工作

  • 合成环境:市场情景是程序化生成的,可能无法捕捉真实合同的所有细微差别(法律条款、多模态资产)。
  • 动作提取依赖:当前解析器假设语言相对干净;噪声或对抗性话语可能会破坏结构化意图提取。
  • 可扩展性:基准目前限制在少量参与者(≤5);扩展到大型市场将需要更高效的仿真,可能还需要层次化的谈判协议。
  • 策略学习:论文指出需要能够进行多轮规划的代理;未来工作可以探索多代理强化学习、博弈论推理或混合符号‑神经方法。

通过揭示这些不足,AgenticPay 为构建真正具备代理能力、语言驱动的商业系统设定了明确的研究议程,开发者最终可以在生产环境中信任这些系统。

作者

  • Xianyang Liu
  • Shangding Gu
  • Dawn Song

论文信息

  • arXiv ID: 2602.06008v1
  • 分类: cs.AI, cs.LG
  • 发表时间: 2026年2月5日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »

[Paper] 伪可逆神经网络

Moore‑Penrose 伪逆 (PInv) 是线性系统的基本解。在本文中,我们提出了一种对 PInv 的自然推广……