[Paper] Nex-N1:Agentic 模型通过统一生态系统进行大规模环境构建

发布: (2025年12月5日 GMT+8 00:57)
8 min read
原文: arXiv

Source: arXiv - 2512.04987v1

概览

Nex‑AGI 团队推出 Nex‑N1,这是一类新型的具备自主行为学习能力的语言模型,能够在精心构造的模拟环境生态系统中进行训练。通过结合灵活的代理框架、自动层级生成以及与真实世界动态的桥接,作者展示了大语言模型(LLM)可以超越静态文本生成,向在广泛任务上进行稳健决策的方向迈进。

关键贡献

  • 统一的环境构建生态系统 – 三个相互正交的模块(NexAU、NexA4A、NexGAP)共同提升训练世界的 复杂度多样性保真度
  • 代理层级 DSL – NexAU 让研究者只需几行配置即可定义多层级代理(规划器 → 子规划器 → 工具使用者),实现层级推理而无需手动编码每一层。
  • 从自然语言自动合成层级 – NexA4A 将自然语言规格解析为多样的代理树,实际上把文本提示转化为完整的代理族群。
  • 缩小仿真‑现实差距 – NexGAP 将动态、传感器丰富的真实世界数据(如机器人遥测、API 日志)注入仿真器,生成用于策略学习的有根基的轨迹。
  • 领先的性能 – Nex‑N1 在 SWE‑bench(软件工程)和 tau2(复杂多步推理)上超越主流开源模型,并在多个基准套件上与顶级专有代理相媲美。
  • 开源发布 – 完整的 Nex 生态系统、训练流水线以及模型检查点均公开,可促进社区驱动的扩展。

方法论

环境扩展

  • 复杂度 (NexAU):一种轻量级领域特定语言(DSL)描述代理组件(记忆、工具、目标)。运行时自动组装层级代理,支持深度规划树或浅层反应式机器人等实验。
  • 多样性 (NexA4A):大规模语言模型将自然语言任务描述翻译为 NexAU 配置,生成数千种不同的代理层级,覆盖代码生成、数据处理、家庭自动化等领域。
  • 保真度 (NexGAP):将真实世界交互日志(如 API 调用、机器人关节状态)嵌入仿真器作为随机动力学,确保在仿真中训练的策略遭遇真实的噪声和延迟。

训练流水线

  1. 生成的环境产出 交互轨迹(状态‑动作‑奖励序列)。
  2. Nex‑N1 通过混合目标进行微调:
    • 监督模仿:基于高质量的人类示范。
    • 基于 AI 反馈的强化学习(类似 RLHF):奖励模型评估任务成功度,鼓励基于激励的决策。
  3. 课程学习逐步提升层级深度和环境随机性,稳定策略获取。

评估

  • 基准包括 SWE‑bench(多步调试的编码任务)、tau2(复杂工具使用推理)以及自定义的多代理协同测试。
  • 指标覆盖正确性、工具使用效率和运行时开销。

结果与发现

基准Nex‑N1最佳开源基线领先专有代理
SWE‑bench (pass@1)78.4%62.1%80.2%
tau2 (整体得分)84.771.586.0
多代理协同 (成功率)91%68%93%
  • 一致性提升:在需要层级规划、工具调用和错误恢复的任务上均表现出优势。
  • 幻觉降低:奖励驱动的微调将无关或捏造的动作削减约 35%,相较于纯监督 LLM。
  • 可扩展性验证:在 10 倍更多生成环境上训练后,约在 500 万交互步后出现收益递减,表明生态系统已高效覆盖任务空间。

实际意义

  • 开发者助理 现在能够自行推理代码改动、运行测试并迭代调试,无需为每一步显式提示,从而缩短 CI 流程中的反馈循环。
  • 工具增强型代理(如数据库查询机器人、云资源管理器)可自主选择并编排 API,降低 SaaS 平台的集成工作量。
  • 机器人与物联网:通过 NexGAP 注入真实传感器流,同一训练流水线即可产出在噪声物理环境中安全运行的代理,加速家庭自动化或仓库机器人的原型开发。
  • 新领域快速原型:团队只需用英文描述新工作流,NexA4A 即可生成层级并立即得到可用代理,显著压缩从概念到 MVP 的时间。
  • 开源社区:发布的生态系统支持插件(自定义仿真器、领域奖励模型),成为任何组织构建自主 LLM 驱动服务的可复用骨干。

局限性与未来工作

  • 仿真保真度上限:尽管 NexGAP 缩小了现实差距,但高度非确定性的物理现象(如流体动力学)仍未得到充分表现,限制了向某些机器人领域的迁移。
  • 奖励模型偏差:RL 部分继承了人工标注奖励数据的偏见,偶尔会出现对代理指标(如工具调用次数)的过度优化。
  • 计算成本:生成并在数百万交互轨迹上训练仍需多 GPU 集群,对小型实验室可能构成门槛。
  • 未来方向 作者列出了以下计划:
    1. 融入来自实时用户反馈的在线学习。
    2. 将 NexA4A 扩展至多语言层级合成。
    3. 探索层级元学习,使代理在部署期间自行调整其层级结构。

作者

  • 蔡宇轩
  • 陈璐
  • 陈巧玲
  • 丁宇扬
  • 范立文
  • 符文杰
  • 高宇飞
  • 郭洪林
  • 郭品学
  • 韩振华
  • 何正福
  • 胡航磊
  • 胡凯
  • 华晟佳
  • 怀天宇
  • 黄宝岱
  • 季莉
  • 姜振
  • 雷志凯
  • 李布凡
  • 林佳航
  • 林立志
  • 刘锦秀
  • 刘世春
  • 刘子明
  • 倪宇晨
  • 钱鹏芳
  • 沈宇炯
  • 史青云
  • 舒文涛
  • 孙鹏
  • 索一然
  • 唐天
  • 田博宇
  • 王国腾
  • 王俊哲
  • 王沛欣
  • 谢志恒
  • 严航
  • 杨杰
  • 杨志雄
  • 姚天初
  • 叶光泽
  • 于千溪
  • 张硕
  • 张欣月
  • 张一奇
  • 赵佳荣
  • 郑苗
  • 郑瑞
  • 周恩宇
  • 周家政
  • 周茂森
  • 周宇浩
  • 龚涛
  • 郑亦宁
  • 陈新驰
  • 周杰
  • 冯思远
  • 陈秦
  • 何梁
  • 张琦
  • 黄宣静
  • 邱沐鹏

论文信息

  • arXiv ID: 2512.04987v1
  • 分类: cs.CL
  • 发布日期: 2025 年 12 月 4 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »