[Paper] 元上下文工程通过能动技能演化

发布: (2026年1月29日 GMT+8 19:22)
8 分钟阅读
原文: arXiv

Source: arXiv - 2601.21557v1

概览

本文介绍了 Meta Context Engineering (MCE),一种新型双层框架,使大型语言模型(LLMs)能够在推理时自动改进提示方式。MCE 不再依赖手工编写的“上下文工程”配方,而是让元代理进化用于构造提示的 skillsprompt artifacts 本身,从而在各种任务上持续获得更好的性能。

关键贡献

  • 双层架构:将一个 元层 代理(进化上下文工程技能)与一个 基础层 代理(将这些技能用于生成和完善提示)分离。
  • 代理交叉算子:一种新颖的审议搜索,重新组合过去的技能、它们的执行以及评估信号,以创建更强的工程策略。
  • 灵活的上下文表示:将提示视为可变文件和代码,而非刚性模式,实现更丰富、任务特定的修改。
  • 广泛的实证验证:在五个异构领域(例如代码生成、推理、检索增强问答)中进行离线和在线测试。
  • 显著的性能提升:相较于最强的现有代理式 CE 基线,实现 5.6 %–53.8 % 的相对提升(平均 +16.9 %)。
  • 效率与可迁移性:展示了更低的上下文 token 使用量、更快的收敛速度,以及跨领域迁移学习技能的能力。

方法论

基础层代理

标准的 LLM 接收一个 上下文文件(提示、few‑shot 示例、工具定义等),并生成答案。每次 rollout 后记录:

  • 它收到的上下文
  • 生成的答案
  • 标量评估(例如奖励模型分数、任务指标)

元层代理

CE 技能(用于操作上下文文件的小程序或模板)的种群上运行。每一次迭代:

  1. 选择 – 从前几代中挑选高分技能。
  2. 代理交叉 – 将两个或多个父技能的片段组合,依据对它们执行历史的审慎搜索(哪些有效,哪些无效)进行指导。
  3. 变异 – 可选地注入随机编辑(例如添加新示例、微调系统消息)。

共进化循环

元代理生成新技能,基础层代理在一批任务上运行该技能,得到的性能作为适应度反馈给下一代元代理。上下文本身以可编辑文件(JSON、Python 代码片段、markdown)存储,因而技能可以以编程方式添加、删除或重写章节。

训练方案

  • 离线:使用固定任务数据集;循环运行直至收敛。
  • 在线:任务持续到来;元代理即时更新技能,以适应分布漂移。

Source:

结果与发现

领域基线(最先进的 CE)MCE(平均相对增益)
代码合成42.1 % pass@1+23.4 %
多步推理68.5 % accuracy+12.7 %
检索增强问答71.2 % F1+16.9 %
对话规划55.3 % success+9.8 %
结构化数据抽取61.0 % F1+5.6 %
  • 一致性:在所有五个领域均观察到提升,确认元层进化并非针对特定任务。
  • 上下文效率:MCE 将每个提示的平均 token 数减少约 18 %,同时保持更高分数,这得益于更智能的剪枝和对有用示例的复用。
  • 可迁移性:在代码合成上学到的技能在推理任务上只需少量微调即可转移,表明元代理捕获了共享的“工程直觉”。
  • 训练速度:双层循环收敛速度比之前的代理 CE 方法快 2–3 倍,因为交叉利用了已验证的子技能。

实际意义

  • 面向开发者的提示流水线: 团队可以将 MCE 插入现有的 LLM 推理服务,自动生成并维护高质量提示,无需手动反复试验。
  • 降低成本: 更少的提示 token 意味着更低的 API 费用,尤其是对高吞吐量应用(例如代码助手、聊天机器人)而言。
  • 快速适应: 当产品的使用场景发生变化(新 API、更新的 schema)时,MCE 能够即时演化新的上下文工程技能,缩短功能更新的上市时间。
  • 可复用的技能库: 组织可以策划 CE 技能目录(例如“为算术添加 few‑shot 示例”“注入检索工具定义”),元代理可将其重新组合,促进团队间的知识共享。
  • 更好的调试: 由于上下文以可编辑文件形式存储,开发者可以检查导致性能提升的具体提示修改,相比不透明的单体提示调优方法提升了透明度。

限制与未来工作

  • Computation overhead: 元层搜索相较于静态提示工程会增加额外的计算(尤其在交叉阶段),在扩展到极大规模语料库时可能需要更高效的搜索启发式方法。
  • Evaluation dependency: MCE 依赖可靠的标量奖励(例如下游指标或学习得到的奖励模型)。噪声或不对齐的奖励可能误导技能进化。
  • Skill interpretability: 虽然生成的技能类似代码,但经过多代后可能变得复杂,导致人工检查更加困难。

未来方向

  • 融入 neural architecture search 技术以裁剪技能搜索空间。
  • 探索 multi‑objective optimization(例如在性能与 token 预算之间平衡)。
  • 将 MCE 应用于 multimodal models,其上下文包含图像或音频。
  • 研究 human‑in‑the‑loop 扩展,使开发者能够凭借领域专长种下或引导技能进化。

作者

  • Haoran Ye
  • Xuning He
  • Vincent Arak
  • Haonan Dong
  • Guojie Song

论文信息

  • arXiv ID: 2601.21557v1
  • 分类: cs.AI, cs.NE
  • 发布时间: 2026年1月29日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »