[Paper] Nex-N1:Agentic 模型通过统一生态系统进行大规模环境构建
发布: (2025年12月5日 GMT+8 00:57)
8 min read
原文: arXiv
Source: arXiv - 2512.04987v1
概览
Nex‑AGI 团队推出 Nex‑N1,这是一类新型的具备自主行为学习能力的语言模型,能够在精心构造的模拟环境生态系统中进行训练。通过结合灵活的代理框架、自动层级生成以及与真实世界动态的桥接,作者展示了大语言模型(LLM)可以超越静态文本生成,向在广泛任务上进行稳健决策的方向迈进。
关键贡献
- 统一的环境构建生态系统 – 三个相互正交的模块(NexAU、NexA4A、NexGAP)共同提升训练世界的 复杂度、多样性 与 保真度。
- 代理层级 DSL – NexAU 让研究者只需几行配置即可定义多层级代理(规划器 → 子规划器 → 工具使用者),实现层级推理而无需手动编码每一层。
- 从自然语言自动合成层级 – NexA4A 将自然语言规格解析为多样的代理树,实际上把文本提示转化为完整的代理族群。
- 缩小仿真‑现实差距 – NexGAP 将动态、传感器丰富的真实世界数据(如机器人遥测、API 日志)注入仿真器,生成用于策略学习的有根基的轨迹。
- 领先的性能 – Nex‑N1 在 SWE‑bench(软件工程)和 tau2(复杂多步推理)上超越主流开源模型,并在多个基准套件上与顶级专有代理相媲美。
- 开源发布 – 完整的 Nex 生态系统、训练流水线以及模型检查点均公开,可促进社区驱动的扩展。
方法论
环境扩展
- 复杂度 (NexAU):一种轻量级领域特定语言(DSL)描述代理组件(记忆、工具、目标)。运行时自动组装层级代理,支持深度规划树或浅层反应式机器人等实验。
- 多样性 (NexA4A):大规模语言模型将自然语言任务描述翻译为 NexAU 配置,生成数千种不同的代理层级,覆盖代码生成、数据处理、家庭自动化等领域。
- 保真度 (NexGAP):将真实世界交互日志(如 API 调用、机器人关节状态)嵌入仿真器作为随机动力学,确保在仿真中训练的策略遭遇真实的噪声和延迟。
训练流水线
- 生成的环境产出 交互轨迹(状态‑动作‑奖励序列)。
- Nex‑N1 通过混合目标进行微调:
- 监督模仿:基于高质量的人类示范。
- 基于 AI 反馈的强化学习(类似 RLHF):奖励模型评估任务成功度,鼓励基于激励的决策。
- 课程学习逐步提升层级深度和环境随机性,稳定策略获取。
评估
- 基准包括 SWE‑bench(多步调试的编码任务)、tau2(复杂工具使用推理)以及自定义的多代理协同测试。
- 指标覆盖正确性、工具使用效率和运行时开销。
结果与发现
| 基准 | Nex‑N1 | 最佳开源基线 | 领先专有代理 |
|---|---|---|---|
| SWE‑bench (pass@1) | 78.4% | 62.1% | 80.2% |
| tau2 (整体得分) | 84.7 | 71.5 | 86.0 |
| 多代理协同 (成功率) | 91% | 68% | 93% |
- 一致性提升:在需要层级规划、工具调用和错误恢复的任务上均表现出优势。
- 幻觉降低:奖励驱动的微调将无关或捏造的动作削减约 35%,相较于纯监督 LLM。
- 可扩展性验证:在 10 倍更多生成环境上训练后,约在 500 万交互步后出现收益递减,表明生态系统已高效覆盖任务空间。
实际意义
- 开发者助理 现在能够自行推理代码改动、运行测试并迭代调试,无需为每一步显式提示,从而缩短 CI 流程中的反馈循环。
- 工具增强型代理(如数据库查询机器人、云资源管理器)可自主选择并编排 API,降低 SaaS 平台的集成工作量。
- 机器人与物联网:通过 NexGAP 注入真实传感器流,同一训练流水线即可产出在噪声物理环境中安全运行的代理,加速家庭自动化或仓库机器人的原型开发。
- 新领域快速原型:团队只需用英文描述新工作流,NexA4A 即可生成层级并立即得到可用代理,显著压缩从概念到 MVP 的时间。
- 开源社区:发布的生态系统支持插件(自定义仿真器、领域奖励模型),成为任何组织构建自主 LLM 驱动服务的可复用骨干。
局限性与未来工作
- 仿真保真度上限:尽管 NexGAP 缩小了现实差距,但高度非确定性的物理现象(如流体动力学)仍未得到充分表现,限制了向某些机器人领域的迁移。
- 奖励模型偏差:RL 部分继承了人工标注奖励数据的偏见,偶尔会出现对代理指标(如工具调用次数)的过度优化。
- 计算成本:生成并在数百万交互轨迹上训练仍需多 GPU 集群,对小型实验室可能构成门槛。
- 未来方向 作者列出了以下计划:
- 融入来自实时用户反馈的在线学习。
- 将 NexA4A 扩展至多语言层级合成。
- 探索层级元学习,使代理在部署期间自行调整其层级结构。
作者
- 蔡宇轩
- 陈璐
- 陈巧玲
- 丁宇扬
- 范立文
- 符文杰
- 高宇飞
- 郭洪林
- 郭品学
- 韩振华
- 何正福
- 胡航磊
- 胡凯
- 华晟佳
- 怀天宇
- 黄宝岱
- 季莉
- 姜振
- 雷志凯
- 李布凡
- 林佳航
- 林立志
- 刘锦秀
- 刘世春
- 刘子明
- 倪宇晨
- 钱鹏芳
- 沈宇炯
- 史青云
- 舒文涛
- 孙鹏
- 索一然
- 唐天
- 田博宇
- 王国腾
- 王俊哲
- 王沛欣
- 谢志恒
- 严航
- 杨杰
- 杨志雄
- 姚天初
- 叶光泽
- 于千溪
- 张硕
- 张欣月
- 张一奇
- 赵佳荣
- 郑苗
- 郑瑞
- 周恩宇
- 周家政
- 周茂森
- 周宇浩
- 龚涛
- 郑亦宁
- 陈新驰
- 周杰
- 冯思远
- 陈秦
- 何梁
- 张琦
- 黄宣静
- 邱沐鹏
论文信息
- arXiv ID: 2512.04987v1
- 分类: cs.CL
- 发布日期: 2025 年 12 月 4 日
- PDF: Download PDF