[Paper] InCoder-32B：面向工业场景的代码基础模型

发布: 3天前 (2026年3月18日 GMT+8 01:01)

8 分钟阅读

原文: arXiv

Source: arXiv - 2603.16790v1

请提供您希望翻译的具体文本内容，我将按照要求保留源链接并进行简体中文翻译。

概述

本文介绍了 InCoder‑32B，这是一款拥有 320 亿参数的基础模型，专门针对超出典型“write‑a‑function”任务的真实软件工程挑战而设计。通过在开源代码与精心挑选的工业代码混合训练，作者展示了单一模型能够处理多种领域，包括芯片设计、GPU 内核调优、嵌入式系统编程、编译器优化，甚至 3‑D 建模流水线。

关键贡献

首个面向工业工作负载的 32B 参数代码模型 – 在五个高影响领域统一代码智能。
多阶段训练流水线：
1. 大规模通用代码预训练。
2. “工业代码退火” – 逐步接触特定领域代码库。
3. 使用合成推理数据将上下文长度从 8 K 扩展至 128 K 令牌。
4. 基于执行的后训练，使用真实运行时验证生成的代码。
可扩展的架构，即使在更长的上下文窗口下，推理成本仍与现有的 30B 级模型相当。
全面的基准套件：14 项通用编码基准 + 9 项工业基准，覆盖芯片 RTL、CUDA 内核、嵌入式 C、编译器 IR 和 3‑D 资产流水线。
开源基线：发布模型权重、数据流水线和评估脚本，供社区复现和扩展结果。

Methodology

1. Data Collection & Curation

从约 2 TB 的公开代码（GitHub、Stack Overflow、开源项目）开始。
在去标识化和许可检查后，加入约 300 GB 的专有工业代码（RTL、CUDA、嵌入式固件）。
生成合成推理示例（例如 “给定一个内存受限的 GPU kernel，改写以降低共享内存使用”），用于教授模型处理长程依赖。

2. Model Architecture

基于带有 rotary positional embeddings 的 transformer 解码器，实现上下文长度的无缝扩展。
引入 Sparse‑Attention Block，降低二次方注意力成本，使 128 K token 窗口在不耗尽 GPU 显存的情况下成为可能。

3. Training Stages

Stage 1 – General Pre‑training：1.2 T token，标准的下一个 token 预测。
Stage 2 – Industrial Annealing：逐步提升领域特定数据的比例（从 5 % 增至 30 %）。
Stage 3 – Context Extension：使用合成的长篇推理任务，将模型的有效上下文从 8 K → 128 K token 拉伸。
Stage 4 – Execution‑Grounded Verification：对每个生成的代码片段，在轻量级沙箱中运行代码；模型收到二元的 “pass/fail” 信号，并通过强化学习式微调更新参数。

4. Evaluation

General benchmarks：HumanEval、MBPP、CodeXGLUE 等。
Industrial benchmarks：RTL‑BugFix（芯片设计）、CUDA‑Opt（kernel 性能）、Embedded‑Safety（MISRA‑C 合规）、Compiler‑IR‑Gen（LLVM IR 合成）、3D‑Pipeline‑Script（Blender Python）。
Metrics：pass@k、执行加速、资源使用降低以及合规违规次数。

结果与发现

Benchmark Category	Baseline (e.g., CodeLlama‑34B)	InCoder‑32B
HumanEval (pass@1)	46 %	48 %
MBPP (pass@10)	71 %	73 %
RTL‑BugFix (bugs fixed)	38 %	61 %
CUDA‑Opt (runtime reduction)	–	28 % avg. speedup
Embedded‑Safety (MISRA violations)	12 % compliant	45 % compliant
Compiler‑IR‑Gen (correct IR)	34 %	57 %
3D‑Pipeline‑Script (successful render)	40 %	66 %

通用编码能力 与最强的开源模型持平。
工业领域 由于领域特定的退火和长上下文推理，取得了显著提升（绝对提升 10‑30 %）。
基于执行的微调 减少了静默错误：相较于仅使用下一个 token 损失进行训练的模型，失败率下降约 40 %。

实际意义

芯片设计师 可以使用 InCoder‑32B 自动建议 RTL 修复或生成可综合的模块，从而缩短验证周期。
GPU 内核开发者 可以获得遵循共享内存和占用约束的 AI 驱动性能提示，实现可测量的加速，而无需手动分析。
嵌入式系统团队 能够自动执行安全标准（MISRA、CERT），降低昂贵的合规审计成本。
编译器工程师 可以通过提示模型生成正确的 LLVM IR 来原型化新的优化通道，加速研究周期。
3D 艺术家和流水线工程师 能够编写脚本自动化重复的 Blender 或 Maya 任务，释放创作时间。
由于模型采用 稀疏注意力 实现，可在单台 8 GPU 服务器上运行（例如 8× A100 80 GB），使得在内部部署成为可能，而无需依赖昂贵的云 API。

局限性与未来工作

数据隐私：虽然工业代码已去标识化，但模型仍可能记住专有模式，导致商业使用的知识产权担忧。
资源需求：训练耗时约 2 M GPU‑小时；对新领域进行微调仍需大量计算资源。
长上下文开销：推理延迟随上下文长度线性增长；在 100 K‑token 文件上实现实时 IDE 辅助可能需要进一步优化。
评估广度：基准测试仅聚焦少数领域；更广泛的覆盖（例如网络固件、量子编程）仍未探索。
作者提出的未来方向包括：将静态分析反馈集成到训练循环中，探索参数高效的适配器以实现快速领域适配，以及将基于执行的阶段扩展到多模态输入（例如硬件原理图）。

作者

Jian Yang
Wei Zhang
Jiajun Wu
Junhang Cheng
Shawn Guo
Haowen Wang
Weicheng Gu
Yaxin Du
Joseph Li
Fanglin Xu
Yizhi Li
Lin Jing
Yuanbo Wang
Yuhan Gao
Ruihao Gong
Chuan Hao
Ran Tao
Aishan Liu
Tuney Zheng
Ganqu Cui
Zhoujun Li
Mingjie Tang
Chenghua Lin
Wayne Xin Zhao
Xianglong Liu
Ming Zhou
Bryan Dai
Weifeng Lv

论文信息

arXiv ID: 2603.16790v1
分类: cs.SE, cs.AI
出版日期: 2026年3月17日
PDF: 下载 PDF

[Paper] InCoder-32B：面向工业场景的代码基础模型

概述

关键贡献

Methodology

1. Data Collection & Curation

2. Model Architecture

3. Training Stages

4. Evaluation

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] 用于高效视频 VLMs 的统一时空令牌评分

[Paper] Loc3R-VLM：基于语言的定位与3D推理的视觉语言模型

[Paper] LoST：语义层级标记化用于3D形状

[Paper] 面向可扩展的自动化仓库级数据集用于软件漏洞检测