[Paper] RepoMod-Bench：用于代码仓库现代化的实现无关测试基准

发布: 3天前 (2026年2月26日 GMT+8 09:25)

6 分钟阅读

原文: arXiv

Source: arXiv - 2602.22518v1

概述

本文介绍了 RepoMod‑Bench，这是一项新基准，用于衡量 AI 驱动的编码代理在现代化整个代码仓库方面的表现。通过使用对实现无关（黑盒）的隐藏测试，作者提供了一种确定性的、语言无关的方式来评估原始代码与现代化后代码之间的功能等价性——这是以往基准难以实现的目标。

仓库选择 – 选择真实世界的开源项目，以实现多样性（不同领域、语言和规模），并且拥有明确的“源”实现，可作为真实答案。
接口标准化 – 为每个仓库添加一个薄层封装，暴露一组函数（例如 parse()、serialize()），这些函数与语言无关。这样相同的测试框架即可调用任何语言的实现。
与实现无关的测试套件 – 测试被编译成特定语言的二进制文件，运行标准化接口并将输出与原始仓库的行为进行比较。测试二进制不向 AI 代理公开。
代理配置 – 四种主流代码生成代理（例如基于 Codex、基于 GPT‑4，以及两个开源模型）在未看到测试的情况下，被提示对每个仓库进行翻译或重构。
评分 – 对每个仓库计算通过率：隐藏测试中现代化代码通过的比例。结果按规模区间（<10 K 行代码，10–50 K 行代码，>50 K 行代码）进行汇总。

工具开发者：如果您正在构建 AI 辅助的重构或迁移工具，RepoMod‑Bench 提供了一个真实的衡量标准，模拟了生产环境的约束（不可见测试、多语言支持）。
CI/CD 集成：黑盒测试框架可以直接嵌入现有流水线，自动验证 AI 生成的补丁，确保在投入生产前通过。
企业迁移：希望现代化传统单体系统的公司应降低预期——当前模型仅在小型、独立的组件上表现良好。
模型训练：该基准强调需要包含架构模式（模块边界、API 合约）的训练数据，而不仅仅是代码片段级别的补全。