[Paper] 元上下文工程通过能动技能演化
发布: (2026年1月29日 GMT+8 19:22)
8 分钟阅读
原文: arXiv
Source: arXiv - 2601.21557v1
概览
本文介绍了 Meta Context Engineering (MCE),一种新型双层框架,使大型语言模型(LLMs)能够在推理时自动改进提示方式。MCE 不再依赖手工编写的“上下文工程”配方,而是让元代理进化用于构造提示的 skills 和 prompt artifacts 本身,从而在各种任务上持续获得更好的性能。
关键贡献
- 双层架构:将一个 元层 代理(进化上下文工程技能)与一个 基础层 代理(将这些技能用于生成和完善提示)分离。
- 代理交叉算子:一种新颖的审议搜索,重新组合过去的技能、它们的执行以及评估信号,以创建更强的工程策略。
- 灵活的上下文表示:将提示视为可变文件和代码,而非刚性模式,实现更丰富、任务特定的修改。
- 广泛的实证验证:在五个异构领域(例如代码生成、推理、检索增强问答)中进行离线和在线测试。
- 显著的性能提升:相较于最强的现有代理式 CE 基线,实现 5.6 %–53.8 % 的相对提升(平均 +16.9 %)。
- 效率与可迁移性:展示了更低的上下文 token 使用量、更快的收敛速度,以及跨领域迁移学习技能的能力。
方法论
基础层代理
标准的 LLM 接收一个 上下文文件(提示、few‑shot 示例、工具定义等),并生成答案。每次 rollout 后记录:
- 它收到的上下文
- 生成的答案
- 标量评估(例如奖励模型分数、任务指标)
元层代理
在 CE 技能(用于操作上下文文件的小程序或模板)的种群上运行。每一次迭代:
- 选择 – 从前几代中挑选高分技能。
- 代理交叉 – 将两个或多个父技能的片段组合,依据对它们执行历史的审慎搜索(哪些有效,哪些无效)进行指导。
- 变异 – 可选地注入随机编辑(例如添加新示例、微调系统消息)。
共进化循环
元代理生成新技能,基础层代理在一批任务上运行该技能,得到的性能作为适应度反馈给下一代元代理。上下文本身以可编辑文件(JSON、Python 代码片段、markdown)存储,因而技能可以以编程方式添加、删除或重写章节。
训练方案
- 离线:使用固定任务数据集;循环运行直至收敛。
- 在线:任务持续到来;元代理即时更新技能,以适应分布漂移。
Source: …
结果与发现
| 领域 | 基线(最先进的 CE) | MCE(平均相对增益) |
|---|---|---|
| 代码合成 | 42.1 % pass@1 | +23.4 % |
| 多步推理 | 68.5 % accuracy | +12.7 % |
| 检索增强问答 | 71.2 % F1 | +16.9 % |
| 对话规划 | 55.3 % success | +9.8 % |
| 结构化数据抽取 | 61.0 % F1 | +5.6 % |
- 一致性:在所有五个领域均观察到提升,确认元层进化并非针对特定任务。
- 上下文效率:MCE 将每个提示的平均 token 数减少约 18 %,同时保持更高分数,这得益于更智能的剪枝和对有用示例的复用。
- 可迁移性:在代码合成上学到的技能在推理任务上只需少量微调即可转移,表明元代理捕获了共享的“工程直觉”。
- 训练速度:双层循环收敛速度比之前的代理 CE 方法快 2–3 倍,因为交叉利用了已验证的子技能。
实际意义
- 面向开发者的提示流水线: 团队可以将 MCE 插入现有的 LLM 推理服务,自动生成并维护高质量提示,无需手动反复试验。
- 降低成本: 更少的提示 token 意味着更低的 API 费用,尤其是对高吞吐量应用(例如代码助手、聊天机器人)而言。
- 快速适应: 当产品的使用场景发生变化(新 API、更新的 schema)时,MCE 能够即时演化新的上下文工程技能,缩短功能更新的上市时间。
- 可复用的技能库: 组织可以策划 CE 技能目录(例如“为算术添加 few‑shot 示例”“注入检索工具定义”),元代理可将其重新组合,促进团队间的知识共享。
- 更好的调试: 由于上下文以可编辑文件形式存储,开发者可以检查导致性能提升的具体提示修改,相比不透明的单体提示调优方法提升了透明度。
限制与未来工作
- Computation overhead: 元层搜索相较于静态提示工程会增加额外的计算(尤其在交叉阶段),在扩展到极大规模语料库时可能需要更高效的搜索启发式方法。
- Evaluation dependency: MCE 依赖可靠的标量奖励(例如下游指标或学习得到的奖励模型)。噪声或不对齐的奖励可能误导技能进化。
- Skill interpretability: 虽然生成的技能类似代码,但经过多代后可能变得复杂,导致人工检查更加困难。
未来方向
- 融入 neural architecture search 技术以裁剪技能搜索空间。
- 探索 multi‑objective optimization(例如在性能与 token 预算之间平衡)。
- 将 MCE 应用于 multimodal models,其上下文包含图像或音频。
- 研究 human‑in‑the‑loop 扩展,使开发者能够凭借领域专长种下或引导技能进化。
作者
- Haoran Ye
- Xuning He
- Vincent Arak
- Haonan Dong
- Guojie Song
论文信息
- arXiv ID: 2601.21557v1
- 分类: cs.AI, cs.NE
- 发布时间: 2026年1月29日
- PDF: Download PDF