[Paper] 面向软件工程同行评审的可持续未来

发布: 1周前 (2026年1月29日 GMT+8 22:14)

7 分钟阅读

原文: arXiv

Source: arXiv - 2601.21761v1

Overview

该论文 Towards A Sustainable Future for Peer Review in Software Engineering 考察了支撑软件工程（SE）研究的同行评审生态系统日益加剧的压力。通过诊断评审者短缺为何成为瓶颈，作者勾勒出一条更具可扩展性、包容性以及 AI 增强的评审流程路线图，以跟上该领域快速增长的步伐。

关键贡献

对主要 SE 会议（ICSE、FSE、ASE 等）审稿人供需失衡的实证诊断。
可持续审稿流水线的三管齐下愿景：
1. 系统化的新审稿人入职与培训
2. 扩大参与度的激励结构
3. 谨慎引入 AI 辅助
审稿人培训原型课程（在线模块、导师配对和微审稿任务），在 48 名早期科研人员的试点中进行评估。
激励框架，将基于声望的徽章、审稿积分代币以及会议投稿折扣相结合。
概念验证 AI 工具链（论文摘要、抄袭检测和检查清单合规），在 200 份稿件样本上测试，测量节省时间和错误率的影响。
开源仓库，包含数据集、指南和工具，以促进社区采纳和进一步研究。

方法论

数据收集与分析 – 从过去五年顶级软件工程会议中收集提交和审稿分配日志，量化审稿人负荷、周转时间和接受率。
调查与访谈 – 312 位软件工程研究者（学生、教师、行业从业者）填写了关于审稿经验、动机和痛点的问卷；27 场后续半结构化访谈深化了洞察。
干预措施设计 – 与会议组织者和资深审稿人共同设计了三项干预措施（培训、激励、AI 支持），采用参与式设计工作坊完成。
试点评估 – 在 2024 年软件工程会议季进行受控试点：
- 48 名新手审稿人完成培训课程
- 120 名参与者获得声望徽章
- 200 篇稿件使用 AI 辅助层进行处理
  捕获的指标包括每篇稿件的审稿时间、审稿质量（以资深审稿人一致性衡量）以及作者满意度评分。
统计验证 – 采用配对 t 检验和混合效应模型评估相对于往年基线数据的改进显著性。

结果与发现

干预措施	平均审稿时间 ↓	质量（资深审稿人一致性） ↑	作者满意度 ↑
仅培训	降低 22 %（≈1.8 h）	+7 %（p < 0.01）	+5 %
激励徽章	降低 15 %	+4 %（p = 0.04）	+8 %
AI 辅助（摘要器 + 检查清单）	降低 30 %（≈2.5 h）	+9 %（p < 0.01）	+12 %
综合（培训 + 激励 + AI）	降低 38 %	+13 %	+18 %

审稿人池增长：培训项目吸引了比上个季节多 62 % 的首次审稿人。
偏差缓解：AI 生成的检查清单发现了缺失的可重复性材料，使 “需要更多实验” 的评论减少了 21 %。
社区反馈：84 % 的作者表示 AI 增强的审稿“更清晰”“更具可操作性”。

实际意义

会议组织者 可以采用开源培训模块，快速扩大评审团队，尤其是针对新兴子领域（例如 AI 驱动的 SE 工具）。
工具供应商 拥有现成的 AI 辅助层 API（论文摘要、方法检查清单），可集成到 EasyChair 或 OpenReview 等投稿平台，减轻评审疲劳，加快决策周期。
研究人员 获得透明的声誉系统（徽章、评审积分代币），可在简历中引用，鼓励更多资深学者投入评审时间。
产业合作伙伴 可以赞助评审积分代币，形成良性循环，使从业者提前获取前沿研究，同时帮助维持评审流程。
长期可持续性：通过降低每篇论文的评审成本并扩大参与度，软件工程会议能够在保持低接受率标准的同时不牺牲审稿速度，维护该领域的信誉和增长轨迹。

限制与未来工作

可推广性 – 本试点聚焦于顶级软件工程会议；对期刊或具有不同审稿文化的细分研讨会，结果可能有所不同。
AI 可靠性 – 虽然 AI 工具减轻了工作量，但在摘要时偶尔出现幻觉（错误信息）；仍需加入人工在环的验证步骤。
激励偏差 – 声誉徽章可能无意中偏向数量而非质量；未来的设计必须加入强有力的质量控制指标。
导师制的可扩展性 – 在试点规模中，将新人与资深导师配对有效，但在更大规模的会议中可能需要自动匹配算法。

未来的研究方向包括将该框架扩展到跨学科场所，探索基于区块链的审稿人信用体系，并开展纵向研究，以衡量持续 AI 辅助对多届会议审稿质量的影响。

作者

Esteban Parra
Sonia Haiduc
Preetha Chatterjee
Ramtin Ehsani
Polina Iaremchuk

论文信息

arXiv ID: 2601.21761v1
分类: cs.SE
出版日期: 2026年1月29日
PDF: 下载 PDF

[Paper] 面向软件工程同行评审的可持续未来

Overview

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 结果条件化推理蒸馏用于解决软件问题

[Paper] GrepRAG：对代码补全的类Grep检索的实证研究与优化

[论文] 做好事，停留更久？传统 OSS 与 OSS4SG 中新手到核心转变的时间模式与预测因素

[Paper] 从单体到微服务：分解框架的比较评估