[Paper] ReqElicitGym:对话式需求获取面试能力的评估环境
发布: (2026年2月21日 GMT+8 00:02)
7 分钟阅读
原文: arXiv
Source: arXiv - 2602.18306v1
概述
本文介绍了 ReqElicitGym,一个沙盒式评估平台,使研究人员和工程师能够自动测试大型语言模型(LLM)在“访谈”用户以发掘软件需求方面的表现。通过提供丰富的模拟用户交互以及客观的评分体系,作者实现了对对话式需求获取代理的可复现、量化基准测试——这是当前实践中所缺乏的。
关键贡献
- ReqElicitGym 环境:一个交互式、全自动的测试平台,模拟真实用户(oracle 用户)并对需求获取性能进行评分(任务评估器)。
- 大规模、多样化数据集:101 个端到端的网站构建场景,覆盖 10 种不同的应用领域(例如电子商务、博客、仪表盘)。
- 高保真验证:oracle 用户和评估器均与真实人类用户及专家判断高度一致,验证了仿真的真实性。
- 全面的实证研究:系统比较了七种流行的大语言模型(包括 GPT‑4、Claude、Llama 2 等)在新基准上的表现,揭示了具体的优势与不足。
- 开源发布:代码、数据和评估脚本均公开,可让社区接入新模型并扩展基准。
方法论
- 情景构建 – 领域专家编写了 101 份需求采集脚本,描述目标网站、其功能目标以及一组隐含需求(例如,“UI 应该感觉现代”)。
- Oracle 用户模拟 – 一个基于规则的“oracle”模型读取情景,并像真实用户一样回答 LLM 代理提出的任何问题,提供一致、确定性的响应。
- 任务评估器 – 对话结束后,评估器将 LLM 声称已收集的需求集合与真实需求列表进行比较,计算精确率、召回率以及整体的“访谈能力”得分。
- 交互循环 – 被测试的 LLM 可以提出后续问题、请求澄清或提出设计思路,就像真实面试一样。循环持续进行,直至满足终止条件(例如,最大回合数)。
- 人工验证 – 还对一部分对话进行了真实用户和领域专家的实验,以验证模拟的 oracle 和评估器能够产生可比的判断。
结果与发现
- 整体能力一般 – 在所有模型中,隐含需求的平均召回率约为 45 %,这意味着超过一半的隐藏需求仍未被发现。
- 后期优势 – 有效的需求引导问题往往出现在第5轮之后,这表明大型语言模型需要更长的对话才能挖掘更深层的需求。
- 优势与劣势
- 优势:大型语言模型在提取交互(例如,“用户可以上传文件”)和内容需求(例如,“显示产品评论”)方面相当不错。
- 劣势:它们经常遗漏风格相关的需求(例如,“使用极简设计”)以及其他细微的非功能性方面。
- 模型排名 – GPT‑4 获得了最高的能力分数,但即使是它也只发现了不到一半的隐含需求,这表明这是一个系统性缺口,而非单一模型的问题。
Practical Implications
- Tooling for developers – ReqElicitGym 可以集成到 AI 助手产品的 CI 流水线中,自动标记新模型版本在面试能力上的退化。
- Prompt engineering – 研究结果凸显了更为复杂的提示策略的必要性(例如,“提前询问审美偏好”),以提升对非功能性需求的覆盖率。
- Product management – 构建基于大语言模型的需求收集机器人的团队现在可以使用标准基准进行评估,减少在早期原型阶段对昂贵用户研究的依赖。
- Education & training – 该数据集可作为软件工程课程的教学资源,用于展示从利益相关者处挖掘隐藏需求的挑战。
限制与未来工作
- 领域范围 – 该基准聚焦于网站开发;扩展到移动应用、企业系统或嵌入式软件可能会出现不同的挑战。
- Oracle 真实性 – 虽然已通过真实用户验证,但 Oracle 仍遵循确定性规则,可能无法捕捉真实利益相关者行为的全部变异性(例如模糊答案、目标变化)。
- 度量粒度 – 当前分数对所有隐式需求一视同仁;未来工作可以对功能性需求与非功能性需求进行加权,或加入用户满意度度量。
- 模型多样性 – 本研究覆盖了七种大型语言模型;评估新兴的多模态或检索增强模型可能会揭示新的模式。
结论:ReqElicitGym 填补了一个关键空白,为社区提供了一个可靠的实验平台,以衡量和提升对话式 AI 代理的访谈技能——这是实现真正自主软件开发流水线的必要一步。
作者
- Dongming Jin
- Zhi Jin
- Zheng Fang
- Linyu Li
- XiaoTian Yang
- Yuanpeng He
- Xiaohong Chen
论文信息
- arXiv ID: 2602.18306v1
- 分类: cs.SE
- 出版日期: 2026年2月20日
- PDF: 下载 PDF