[Paper] ReqElicitGym：对话式需求获取面试能力的评估环境

发布: 3天前 (2026年2月21日 GMT+8 00:02)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.18306v1

概述

本文介绍了 ReqElicitGym，一个沙盒式评估平台，使研究人员和工程师能够自动测试大型语言模型（LLM）在“访谈”用户以发掘软件需求方面的表现。通过提供丰富的模拟用户交互以及客观的评分体系，作者实现了对对话式需求获取代理的可复现、量化基准测试——这是当前实践中所缺乏的。

整体能力一般 – 在所有模型中，隐含需求的平均召回率约为 45 %，这意味着超过一半的隐藏需求仍未被发现。
后期优势 – 有效的需求引导问题往往出现在第5轮之后，这表明大型语言模型需要更长的对话才能挖掘更深层的需求。
优势与劣势
- 优势：大型语言模型在提取交互（例如，“用户可以上传文件”）和内容需求（例如，“显示产品评论”）方面相当不错。
- 劣势：它们经常遗漏风格相关的需求（例如，“使用极简设计”）以及其他细微的非功能性方面。
模型排名 – GPT‑4 获得了最高的能力分数，但即使是它也只发现了不到一半的隐含需求，这表明这是一个系统性缺口，而非单一模型的问题。

Tooling for developers – ReqElicitGym 可以集成到 AI 助手产品的 CI 流水线中，自动标记新模型版本在面试能力上的退化。
Prompt engineering – 研究结果凸显了更为复杂的提示策略的必要性（例如，“提前询问审美偏好”），以提升对非功能性需求的覆盖率。
Product management – 构建基于大语言模型的需求收集机器人的团队现在可以使用标准基准进行评估，减少在早期原型阶段对昂贵用户研究的依赖。
Education & training – 该数据集可作为软件工程课程的教学资源，用于展示从利益相关者处挖掘隐藏需求的挑战。

领域范围 – 该基准聚焦于网站开发；扩展到移动应用、企业系统或嵌入式软件可能会出现不同的挑战。
Oracle 真实性 – 虽然已通过真实用户验证，但 Oracle 仍遵循确定性规则，可能无法捕捉真实利益相关者行为的全部变异性（例如模糊答案、目标变化）。
度量粒度 – 当前分数对所有隐式需求一视同仁；未来工作可以对功能性需求与非功能性需求进行加权，或加入用户满意度度量。
模型多样性 – 本研究覆盖了七种大型语言模型；评估新兴的多模态或检索增强模型可能会揭示新的模式。

结论：ReqElicitGym 填补了一个关键空白，为社区提供了一个可靠的实验平台，以衡量和提升对话式 AI 代理的访谈技能——这是实现真正自主软件开发流水线的必要一步。