[Paper] KLong：训练 LLM 代理用于极长时程任务

发布: 3天前 (2026年2月20日 GMT+8 01:01)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.17547v1

概述

本文介绍了 KLong，一个开源的大型语言模型（LLM）代理，旨在应对极其长期任务——比如可以跨越数千个标记的多步骤研究项目或复杂的软件开发流水线。通过将新颖的轨迹拆分监督微调（SFT）阶段与渐进式强化学习（RL）调度相结合，作者实现了与（甚至在某些情况下超越）更大商业模型相媲美的性能。

Cold‑start recipe: 一个全面的 SFT 流程，在任何长时程训练之前唤醒基础 LLM 的基本“代理”能力。
Research‑Factory pipeline: 一个自动化数据生成系统，抓取研究论文，构建评估量表，并从 Claude 4.5 Sonnet（Thinking）中提炼出高质量的长轨迹示例。
Trajectory‑splitting SFT: 一种在保留早期上下文的同时，逐步截断后期上下文并重叠子轨迹的方法，使得在超长序列上进行稳定的微调成为可能。
Progressive RL scheduler: 一个多阶段的 RL 机制，逐步延长允许的“超时”（即推理步数），使模型能够学习更远的计划而不崩溃。
Empirical dominance: KLong‑106B 在 PaperBench 上比 1 万亿参数的 Kimi K2 Thinking 高出 +11.28 %，并在 SWE‑bench Verified、MLE‑bench 等编码套件上表现出持续的提升。

Cold‑start SFT – 基础模型（≈106 B 参数）首先在多样的短至中等任务（问答、代码生成、规划）上进行微调，以为其提供工具使用、自我反思和指令遵循的坚实基础。
Data generation with Research‑Factory
- 爬取大量研究论文语料库。
- 自动提取任务评分标准（目标、成功标准、中间里程碑）。
- 使用 Claude 4.5 Sonnet 生成逐步的解题轨迹，长度可达数万 token。
Trajectory‑splitting SFT
- 将每条超长轨迹拆分为重叠窗口。
- 早期窗口保留完整的前置上下文；后期窗口逐步丢弃较旧的 token，保持相关历史的“滑动窗口”。
- 在所有窗口上同步训练模型，使其学会在不超出 GPU 显存限制的情况下保持长程连贯性。
Progressive RL
- Stage 1：使用短超时（例如 256 token）的强化学习，以强化基础规划。
- Stage 2‑N：逐步增加超时（512 → 1024 → 2048 …），使策略学会在更长的时间范围内分配资源。
- 奖励函数融合基于评分标准的任务完成度、工具使用效率和自我批评得分。

Benchmark	KLong‑106B	Kimi K2 Thinking (1T)	Relative Δ
PaperBench (research‑task suite)	+11.28 %	Baseline	+11.28 %
SWE‑bench Verified (software engineering)	+6.4 %	–	+6.4 %
MLE‑bench (machine‑learning engineering)	+5.9 %	–	+5.9 %

研究助理：开发者可以在文献综述流水线中嵌入 KLong，以自动生成结构化的研究计划、实验设计，甚至论文的草稿章节。
长期代码生成：在复杂的软件项目中（例如多模块系统、数据管道），KLong 能够在数百个文件之间保持上下文，减少手动提示工程或逐块拼接的需求。
工具增强型代理：由于 KLong 学会在长时间跨度内调用外部工具（搜索 API、代码解释器），它可以成为 DevOps、CI/CD 自动化或云资源供应等自主代理更可靠的支撑。
开源可及性：公开的代码和数据流水线让团队能够在自己的硬件上复现训练配方，从而在无需支付万亿参数 API 费用的情况下，构建特定领域的长时程代理。

数据偏差：训练轨迹是从 Claude 4.5 Sonnet 蒸馏而来，因此该模型中的任何系统性偏差或幻觉可能会传播到 KLong。
内存限制：虽然轨迹拆分缓解了 GPU 限制，但对 106 B 模型的训练仍然需要高端硬件（多块 A100/H100 GPU）。
评估范围：基准测试侧重于研究和编码任务；在法律推理或科学模拟等实际领域的部署仍未经过测试。
未来方向：作者提出的包括将 Research‑Factory 扩展到非论文领域（例如设计文档）、集成检索增强生成以处理更长的上下文，以及探索基于任务难度而非固定计划调整 RL 超时的课程学习策略。