[Paper] MT-PingEval：评估多轮协作中的私有信息游戏

发布: 3天前 (2026年2月28日 GMT+8 01:13)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.24188v1

概述

本文介绍了 MT‑PingEval，这是一种新框架，用于测试大型语言模型（LLMs）在每位参与者持有私人信息的情况下，多轮对话协作的效果。通过将评估转化为一系列“私人信息游戏”，作者能够衡量模型是否真的利用对话来规划、共享并比一次性摘要基线更高效地行动。

Game Design – 每个游戏为两个代理定义一个隐藏的“私有”状态（例如，地图位置、秘密数字或一组约束条件）。目标是让代理协作并给出正确的联合答案。
Turn‑Based Interaction – 代理在可配置的回合数内交换信息。对话结束后，会进行最后一次“行动”回合，由一个代理根据共享信息作出决策。
Token Budgeting – 将固定的令牌预算（例如 500 个令牌）分配到各对话回合中。这迫使模型在简洁性和完整性之间取得平衡。
Baseline Comparison – 非交互式基线让“信息持有者”将其私有数据压缩为单一摘要，供合作伙伴即时使用。
Metrics – 记录成功率（正确答案）、令牌效率（每个令牌的成功率）以及语言得分（连贯性、冗余性、阿谀奉承）。
Model Variants – 作者测试零样本提示、少样本示例以及链式思考风格的提示，以观察哪些提示技巧有效。

基于聊天的助手 – 当前的助手（客服机器人、协作编码伙伴）可能因未能高效提炼私有上下文而浪费带宽。MT‑PingEval 强调需要更好的规划模块，在决定 说什么 之前先决定如何说。
多代理系统 – 在机器人或分布式 AI 中，代理经常需要协商隐藏的约束。该基准表明，若没有明确的对话管理策略，朴素的 LLM 驱动协作将会脆弱。
Token 成本优化 – 对于按 token 付费的开发者（例如 OpenAI API），研究结果警示，冗长的来回对话可能比精心编写的单一摘要更昂贵。
提示工程 – 诊断工具（连贯性评分、阿谀检测）可以整合到自动化提示调优流水线中，以提升协作行为。
评估标准 – MT‑PingEval 提供了一种可复现、面向任务的替代方案，取代静态 QA 基准，鼓励社区衡量 交互式 智能，而不仅仅是单轮准确率。

MT‑PingEval 为实现真正协作而非仅回答的语言模型开辟了明确道路。随着开发者开始构建多代理应用，关注这些交互基准将是交付高效、可信 AI 合作伙伴的关键。