[Paper] AgenticPay：用于买卖交易的多代理 LLM 谈判系统

发布: 3天前 (2026年2月6日 GMT+8 02:50)

8 分钟阅读

原文: arXiv

Source: arXiv - 2602.06008v1

Overview

论文 AgenticPay 引入了一个新的基准和仿真平台，使大型语言模型（LLM）代理能够使用自然语言而非简单的数值出价来协商买卖交易。通过建模真实的市场约束——私人预算、产品特定的估值以及多轮对话——它为研究人员提供了一种原则性的方式来评估基于 LLM 的代理在进行经济交易时的表现。

AgenticPay benchmark: 一个包含超过 >110 个谈判任务的综合套件，覆盖双边议价、多买家/多卖家市场以及多种产品类型。
Simulation framework: 开源环境，强制私有约束，跟踪可行性、效率和整体福利，并从自由形式对话中提取结构化动作。
Evaluation metrics: 明确的量化指标，用于 (i) 可行性（协议遵守所有私有约束），(ii) 效率（捕获的总剩余），以及 (iii) 福利（参与者之间的公平性）。
Empirical baseline: 对最先进的专有模型（例如 GPT‑4）和开源权重的大型语言模型（Llama‑2、Mistral）进行基准测试，揭示了在战略性、长期谈判中的显著性能差距。
Open resources: 在 MIT‑style 许可证下发布数据集、代码和评估脚本，支持可重复的研究和快速原型开发。

整个流水线被封装为一个 Python 库，提供简易 API（run_negotiation(agent_policy, task_id)），开发者可以接入任何 LLM 或自定义策略。

模型	可行性	效率（相对最优盈余的百分比）	福利（公平性）
GPT‑4（专有）	92 %	68 %	0.71
Llama‑2‑70B（开源）	78 %	45 %	0.58
Mistral‑7B	71 %	38 %	0.53
基线规则‑基于	85 %	30 %	0.49

总体而言，研究表明当前的 LLM 代理在真实商业环境中仍远未达到可靠的自主谈判者水平。

电子商务机器人：希望部署 AI 销售助理的公司可以使用 AgenticPay 在上线前对其对话策略进行压力测试，确保机器人遵守定价约束，避免不利交易。
供应链自动化：多代理谈判是自动化采购的核心组成部分；该基准提供了一个沙盒，用于原型化谈判策略，以在成本节约与供应商公平之间取得平衡。
市场平台：点对点平台（例如自由职业者市场）可以集成 LLM 谈判者以促进价格发现，但当前的性能差距表明仍需要混合的人在回路（human‑in‑the‑loop）方法。
监管合规：通过量化福利和可行性，企业可以审计 AI 驱动的谈判，以确保公平性和法律合规（例如防止价格哄抬）。
开发者工具：开源框架可以封装进 CI 流水线，允许团队将新的 LLM 微调或基于人类反馈的强化学习（RLHF）策略与一套标准化的经济任务进行基准测试。

通过揭示这些不足，AgenticPay 为构建真正具备代理能力、语言驱动的商业系统设定了明确的研究议程，开发者最终可以在生产环境中信任这些系统。