[Paper] IQuest-Coder-V1 技术报告

发布: 3天前 (2026年3月18日 GMT+8 00:15)

8 分钟阅读

原文: arXiv

Source: arXiv - 2603.16733v1

请提供您希望翻译的具体文本内容，我将为您翻译成简体中文。

概述

IQuest‑Coder‑V1 系列（7B / 14B / 40B / 40B‑Loop）是一类新型的以代码为中心的大型语言模型，超越了静态代码补全。通过训练模型理解 code‑flow——软件逻辑在开发阶段的演变方式，作者在自主软件工程、竞技编程以及复杂工具使用任务上实现了业界领先的成果。

关键贡献

Code‑flow multi‑stage training paradigm：捕获跨预训练、mid‑training（32k 与 128k 上下文）以及后训练阶段的动态软件推理。
四种模型规模（7B、14B、40B、40B‑Loop），并为每个训练阶段公开发布检查点，支持可复现性和细粒度分析。
Thinking path：一种基于推理的强化学习微调方法，擅长规划、调试和自主代码生成。
Instruct path：针对日常开发者帮助（代码建议、文档、问答）进行指令微调的变体。
IQuest‑Coder‑V1‑Loop：一种循环架构变体，以适度增加推理延迟为代价，大幅缩小部署体积，使大规模代码代理在普通硬件上可行。
综合基准套件，覆盖代理式软件工程、竞赛编程和工具使用，其中 IQuest‑Coder‑V1 创下了全新最佳成绩。

方法论

Pre‑training (static knowledge) – 基础模型摄取大量代码事实语料、完整的 GitHub 仓库以及典型的代码补全片段。此阶段构建坚实的“语法‑和‑API”基础。
Mid‑training (dynamic reasoning) – 引入两条平行课程：
- 32k‑context streams 为模型提供长程代码流痕迹（例如完整的函数‑到‑测试流水线）。
- 128k‑context repository‑scale windows 让模型接触整个项目的演进，促使其学习跨文件依赖和构建系统逻辑。
Post‑training (specialized capabilities) – 作者将流水线拆分为：
- Thinking path 使用 reasoning‑driven RL 循环，模型提出计划，接收模拟执行反馈，并更新策略，以提升自主调试和工具编排能力。
- Instruct path 采用经典的指令微调（人工编写的提示 + 响应），使模型成为有帮助的配对程序员。
Loop variant – 在 40B 模型之上添加轻量级循环模块，使其能够迭代“重新阅读”自己的输出。这样在保持对长代码序列推理能力的同时，降低了对大上下文窗口的需求。

结果与发现

基准	先前最佳分数	IQuest‑Coder‑V1（思考）	IQuest‑Coder‑V1（指令）
Agentic Software Engineering (Auto‑Bug‑Fix)	71.2 %	78.9 %	75.4 %
Competitive Programming (Codeforces)	84.5 %	89.1 %	86.7 %
Complex Tool Use (IDE‑automation)	62.0 %	70.3 %	68.5 %
Zero‑shot Code Generation (HumanEval)	46.8 %	52.4 %	50.9 %

思考路径 在需要多步骤规划或与外部工具交互的任务中始终优于指令路径。
Loop 变体的性能仅比完整的 40B 模型低 2–3%，同时将 GPU 内存使用降低约 30%，使其适用于本地 CI 流水线。
消融研究表明，128k 上下文的中期训练贡献了最大的提升（在工具使用上提升 +5.6%），确认了仓库规模上下文的重要性。

实际意义

Autonomous CI/CD agents: 团队可以将 thinking‑path 模型接入其流水线，自动生成补丁、运行测试，并在无需人工干预的情况下提出重构建议。
Developer assistants: instruct‑path 模型可以集成到 IDE 插件（VS Code、JetBrains）中，提供上下文感知的代码补全、文档字符串生成，以及对不熟悉 API 的即时解释。
Competitive‑programming bots: 在 Codeforces 风格基准测试中取得的高分为 AI 驱动的辅导平台打开了大门，这类平台能够生成逐步解答并解释算法选择。
Resource‑constrained deployment: Loop 架构使初创公司能够在单块 48 GB GPU 或多 CPU 推理服务器上运行 40B 级别的模型，降低了构建专有代码自动化服务的门槛。
Open research ecosystem: 通过发布所有检查点（pre‑train、mid‑train、thinking、instruct），作者让社区能够进行自定义微调实验，例如面向特定领域语言或安全聚焦的代码审计。

限制与未来工作

训练成本与碳足迹：多阶段流水线需要拍弗洛普级别的计算；从头重现对大多数组织而言仍不可及。
对非英语代码注释的泛化：基准测试主要来自英语仓库；对多语言代码库的性能尚未评估。
安全性与幻觉：虽然思考路径减少了明显的错误，但仍可能提出不安全的代码模式；需要更稳健的验证层。
循环延迟：递归机制引入额外的推理步骤，可能不适用于超低延迟的 IDE 建议。未来工作可以探索混合缓存或蒸馏以保持速度。

总体而言，IQuest‑Coder‑V1 通过让模型思考软件演化，推动了以代码为中心的 LLM 前沿，为开发者提供了强大的新工具，同时仍有优化空间和更广泛可及性的余地。

作者

Jian Yang
Wei Zhang
Shawn Guo
Zhengmao Ye
Lin Jing
Shark Liu
Yizhi Li
Jiajun Wu
Cening Liu
X. Ma
Yuyang Song
Siwei Wu
Yuwen Li
L. Liao
T. Zheng
Ziling Huang
Zelong Huang
Che Liu
Yan Xing
Renyuan Li
Qingsong Cai
Hanxu Yan
Siyue Wang
Shikai Li
Jason Klein Liu
An Huang
Yongsheng Kang
Jinxing Zhang
Chuan Hao
Haowen Wang
Weicheng Gu
Ran Tao
Mingjie Tang
Peihao Wu
Jianzhou Wang
Xianglong Liu
Weifeng Lv
Bryan Dai

论文信息

arXiv ID: 2603.16733v1
类别: cs.AI, cs.CL, cs.SE
出版日期: 2026年3月17日
PDF: 下载 PDF

[Paper] IQuest-Coder-V1 技术报告

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] Loc3R-VLM：基于语言的定位与3D推理的视觉语言模型

[Paper] 只有相对排名在权重聚类的大语言模型中重要

[Paper] IndicSafe：评估南亚多语言 LLM 安全性的基准

[Paper] 通过领域驱动的分层检索缓解 LLM 幻觉