[论文] RITA：一种用于从在线用户反馈中自动化需求分类与规范的工具

发布: 3周前 (2026年1月16日 GMT+8 23:18)

7 分钟阅读

原文: arXiv

Source: arXiv - 2601.11362v1

概述

本文介绍了 RITA，一个开源工具，它将多个轻量级大型语言模型（LLMs）组合在一起，将嘈杂且大量的在线用户反馈转化为干净、可操作的软件需求。通过提供端到端的工作流——从反馈项的分类到正式需求规范的生成，再到直接导出到 Jira——RITA 旨在使需求工程（RE）对已经处于反馈丰富生态系统中的现代开发团队变得实用。

关键贡献

统一的 RE 流水线，将三项基于 LLM 的任务（请求分类、非功能性需求（NFR）检测以及自然语言规范生成）合并为一个易于使用的界面。
轻量级、开源的 LLM 集成（例如 GPT‑2/3 类模型的蒸馏版本），可在本地或普通云资源上运行，降低采纳门槛。
双向 Jira 集成，允许自动生成的需求工单直接推送到现有的敏捷工作流中。
可用性演示，通过简短视频演示和原型网页 UI，让产品经理和开发者在没有任何 RE 专业知识的情况下探索该工具。
实证基础：每个 LLM 组件都基于已验证的 RE 技术，表明研究级模型可以重新用于生产级工具。

方法论

数据摄取 – RITA 通过简单的连接器或 CSV 上传，从公共来源（例如应用商店评论、GitHub issue、社区论坛）获取原始反馈。
预处理 – 对文本进行清洗、语言检测和分词。随后使用轻量级 Transformer 模型生成句子级别的嵌入。
请求分类 – 通过微调的分类模型（二元 “功能请求” vs. “缺陷报告” vs. “其他”）为每条记录打标签。
非功能需求识别 – 第二个模型使用多标签方法扫描已分类的请求，识别质量属性（性能、安全性、可用性等）。
规格生成 – 利用提示工程的生成式大模型，RITA 将每个请求重写为结构化需求模板（例如 “作为<角色>，我希望<功能>以便<收益>”）。
导出至 Jira – 将生成的规格映射到 Jira 问题字段（摘要、描述、标签），并通过 Jira REST API 推送。

所有步骤均通过基于 Flask 的 Web UI 编排，可选的 Docker 部署用于保证可复现性。

结果与发现

分类准确率: 在手动标注的 1,200 条反馈项测试集上达到 92 % macro‑F1（≈ 5 % 超过基线关键词过滤）。
NFR 检测: 在六个 NFR 类别上实现 0.84 的多标签 F1‑score，证明轻量模型能够捕捉细微的质量关注点。
规格质量: 人类评估者认为 78 % 的生成需求为“可审查”（即仅需少量编辑），而通用 GPT‑3 基线仅为 45 %。
端到端吞吐量: 处理 10 k 条反馈在单个 GPU‑enabled 虚拟机上耗时不足 7 分钟，展示了对典型产品团队的可扩展性。

实际意义

加速待办事项梳理 – 团队可以自动筛选高价值的功能请求和缺陷，减少人工分拣时间。
一致的需求语言 – 通过强制使用模板，RITA 有助于在工单之间保持统一的风格，便于后续的设计和测试。
与现有工具链集成 – 直接导出至 Jira 不会中断敏捷流水线；开发者可以立即开始处理 AI 生成的工单。
成本效益高的需求工程 – 使用蒸馏后的大模型将计算成本保持在低水平（≈ $0.02 每 1 k token），使该方案对初创公司和中型企业都可行。
基于反馈的产品路线图 – 产品经理可以查询分类和非功能需求层，以发现趋势（例如安全关注度上升），并相应调整优先级。

Limitations & Future Work

Domain Generality – 这些模型是在通用应用商店数据上训练的；在高度专业化的领域（例如医疗设备）中，若不进行额外的微调，性能可能会下降。
Explainability – 虽然 UI 显示置信度分数，但底层的大语言模型决策仍是黑箱，这可能会阻碍对安全关键需求的信任。
Multilingual Support – 当前流水线仅处理英文反馈；要扩展到其他语言，需要多语言嵌入和提示。
User Study – 论文报告了小规模的人类评估；需要更大规模的长期研究来量化对开发速度和缺陷率的影响。
Continuous Learning – 未来版本可以加入主动学习循环，让开发者纠正误分类，并将这些更新反馈回模型，实现即时改进。

作者

Manjeshwar Aniruddh Mallya
Alessio Ferrari
Mohammad Amin Zadenoori
Jacek Dąbrowski

论文信息

arXiv ID: 2601.11362v1
分类: cs.SE
发表日期: 2026年1月16日
PDF: Download PDF

[论文] RITA：一种用于从在线用户反馈中自动化需求分类与规范的工具

概述

关键贡献

方法论

结果与发现

实际意义

Limitations & Future Work

作者

论文信息

相关文章

[Paper] 将形式化方法工具应用于电子战代码库（经验报告）

[Paper] 实用指南：建立技术债务管理

[Paper] GitHub Actions 工作流中的自动化与复用实践：实践者视角

[Paper] Bot 参与模式与情感影响在开源开发中