[논문] Nex-N1: Agentic Models Trained via a Unified Ecosystem for Large-Scale Environment Construction

발행: 2개월 전 (2025년 12월 5일 오전 01:57 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2512.04987v1

Overview

Nex‑AGI 팀은 Nex‑N1을 소개합니다. 이는 시뮬레이션된 환경의 의도적으로 설계된 생태계 안에서 학습함으로써 자율적으로 행동하는 새로운 유형의 에이전트 언어 모델입니다. 유연한 에이전트 프레임워크, 자동 계층 생성, 그리고 현실 세계 역학과의 연결을 결합함으로써, 저자들은 LLM이 정적인 텍스트 생성에서 벗어나 다양한 작업에 걸쳐 견고한 의사결정을 수행할 수 있음을 보여줍니다.

Key Contributions

Unified ecosystem for environment construction – 세 개의 직교 모듈(NexAU, NexA4A, NexGAP)이 함께 훈련 세계의 복잡도, 다양성, 충실도를 확장합니다.
Agent hierarchy DSL – NexAU를 사용하면 연구자가 몇 줄의 설정만으로 다중 레벨 에이전트(플래너 → 서브‑플래너 → 툴‑사용자)를 정의할 수 있어, 각 레벨을 손으로 코딩하지 않아도 계층적 추론이 가능합니다.
Automatic hierarchy synthesis from natural language – NexA4A는 자연어 사양을 다양한 에이전트 트리로 파싱하여 텍스트 프롬프트를 전체 에이전트 군으로 변환합니다.
Simulation‑reality gap reduction – NexGAP은 로봇 텔레메트리, API 로그 등 동적이고 센서가 풍부한 현실 데이터를 시뮬레이터에 주입해 정책 학습을 위한 실제 궤적을 생성합니다.
State‑of‑the‑art performance – Nex‑N1은 SWE‑bench(소프트웨어 엔지니어링)와 tau2(복합 다단계 추론)에서 선도적인 오픈소스 모델을 능가하고, 여러 벤치마크에서 최고 수준의 상용 에이전트와 경쟁합니다.
Open‑source release – 전체 Nex 생태계, 학습 파이프라인, 모델 체크포인트가 공개되어 커뮤니티 기반 확장을 장려합니다.

Methodology

Environment Scaling

Complexity (NexAU): 경량 도메인‑특화 언어(DSL)가 에이전트 구성 요소(메모리, 툴, 목표)를 기술합니다. 런타임은 계층형 에이전트를 자동으로 조립해 깊은 플래닝 트리나 얕은 반응형 봇을 실험할 수 있게 합니다.
Diversity (NexA4A): 대규모 언어 모델이 자연어 작업 설명을 NexAU 설정으로 변환해 수천 개의 서로 다른 에이전트 계층을 생성합니다. 이들은 코드 생성, 데이터 정제, 홈 자동화 등 다양한 도메인을 포괄합니다.
Fidelity (NexGAP): 현실 세계 상호작용 로그(API 호출, 로봇 관절 상태 등)를 확률적 동역학으로 시뮬레이터에 삽입해, 시뮬레이션에서 학습된 정책이 현실적인 노이즈와 지연을 경험하도록 합니다.

Training Pipeline

생성된 환경은 상호작용 트레이스(상태‑행동‑보상 시퀀스)를 생산합니다.
Nex‑N1은 하이브리드 목표를 사용해 미세조정됩니다:
- Supervised imitation: 고품질 인간 시연을 모방합니다.
- Reinforcement learning from AI feedback (RLHF‑style): 보상 모델이 작업 성공을 평가해 인센티브 기반 의사결정을 촉진합니다.
커리큘럼 학습을 통해 계층 깊이와 환경 확률성을 점진적으로 증가시켜 정책 습득을 안정화합니다.

Evaluation

벤치마크에는 SWE‑bench(다단계 디버깅이 필요한 코딩 작업), tau2(툴 사용을 포함한 복합 추론), 그리고 맞춤형 다중‑에이전트 협업 테스트가 포함됩니다.
측정 지표는 정확도, 툴 사용 효율성, 실행 시간 오버헤드를 포괄합니다.

Results & Findings

Benchmark	Nex‑N1	Best Open‑Source Baseline	Leading Proprietary Agent
SWE‑bench (pass@1)	78.4%	62.1%	80.2%
tau2 (overall score)	84.7	71.5	86.0
Multi‑agent coordination (success rate)	91%	68%	93%

Consistent gains: 계층적 플래닝, 툴 호출, 오류 복구가 필요한 작업 전반에 걸쳐 일관된 향상이 나타났습니다.
Reduced hallucination: 보상 기반 미세조정으로 순수 감독 학습 LLM에 비해 무관하거나 허위인 행동을 약 35% 감소시켰습니다.
Scalability proof: 10배 더 많은 생성 환경에서 학습했을 때 약 5 M 상호작용 단계 이후 수익이 감소했으며, 이는 생태계가 작업 공간을 효율적으로 커버함을 의미합니다.

Practical Implications

Developer assistants: 이제 코드 변경을 추론하고, 테스트를 실행하며, 단계별 디버깅을 자동으로 수행할 수 있어 CI 파이프라인의 피드백 루프가 크게 단축됩니다.
Tool‑augmented agents(예: 데이터베이스 쿼리 봇, 클라우드 자원 관리자): API를 자율적으로 선택·조정해 SaaS 플랫폼의 통합 노력을 낮춥니다.
Robotics and IoT: NexGAP을 통해 실제 센서 스트림을 주입하면, 동일한 학습 파이프라인으로 노이즈가 많은 물리 환경에서도 안전하게 동작하는 에이전트를 만들 수 있어 홈 자동화·창고 로봇 프로토타이핑이 가속됩니다.
Rapid prototyping of new domains: 팀이 새로운 워크플로를 영어로 기술하면 NexA4A가 계층을 자동 생성하고 즉시 작동 가능한 에이전트를 제공하므로 아이디어에서 MVP까지 소요 시간이 크게 감소합니다.
Open‑source community: 공개된 생태계는 커스텀 시뮬레이터·도메인‑특화 보상 모델 등 플러그인을 환영하며, 자율 LLM 기반 서비스를 구축하는 모든 조직에 재사용 가능한 백본이 됩니다.

Limitations & Future Work

Simulation fidelity ceiling: NexGAP이 현실 격차를 줄이긴 하지만, 유체 역학과 같은 고도로 비결정론적인 물리 현상은 아직 충분히 표현되지 않아 일부 로봇 분야로의 전이 제한이 있습니다.
Reward model bias: RL 구성 요소가 인간이 라벨링한 보상 데이터의 편향을 물려받아, 때때로 툴 호출 횟수와 같은 프록시 메트릭에 과도하게 최적화되는 현상이 관찰되었습니다.
Compute cost: 수백만 개의 상호작용 트레이스를 생성·학습하려면 다중 GPU 클러스터가 필요해 소규모 연구실에는 부담이 될 수 있습니다.
Future directions:
1. 실시간 사용자 피드백을 활용한 온라인 학습 통합.
2. 다국어 계층 합성을 위한 NexA4A 확장.
3. 배포 중 에이전트가 스스로 계층을 조정하도록 하는 계층형 메타‑러닝 탐구.

Authors

Yuxuan Cai
Lu Chen
Qiaoling Chen
Yuyang Ding
Liwen Fan
Wenjie Fu
Yufei Gao
Honglin Guo
Pinxue Guo
Zhenhua Han
Zhengfu He
Hanglei Hu
Kai Hu
Shengjia Hua
Tianyu Huai
Baodai Huang
Li Ji
Zhen Jiang
Zhikai Lei
Bufan Li
Jiahang Lin
Lizhi Lin
Jinxiu Liu
Shichun Liu
Ziming Liu
Yuchen Ni
Pengfang Qian
Yujiong Shen
Qingyun Shi
Wentao Shu
Peng Sun
Yiran Suo
Tian Tang
Boyu Tian
Guoteng Wang
Junzhe Wang
Peixin Wang
Zhiheng Xi
Hang Yan
Jie Yang
Zhixiong Yang
Tianchu Yao
Guangze Ye
Qianxi Yu
Shuo Zhang
Xinyue Zhang
Yiqi Zhang
Jiarong Zhao
Miao Zheng
Rui Zheng
Enyu Zhou
Jiazheng Zhou
Maosen Zhou
Yuhao Zhou
Tao Gui
Yining Zheng
Xinchi Chen
Jie Zhou
Siyuan Feng
Qin Chen
Liang He
Qi Zhang
Xuanjing Huang
Xipeng Qiu

Paper Information

arXiv ID: 2512.04987v1
Categories: cs.CL
Published: December 4, 2025
PDF: Download PDF