[Paper] 元上下文工程通过能动技能演化

发布: 1周前 (2026年1月29日 GMT+8 19:22)

8 分钟阅读

原文: arXiv

Source: arXiv - 2601.21557v1

概览

本文介绍了 Meta Context Engineering (MCE)，一种新型双层框架，使大型语言模型（LLMs）能够在推理时自动改进提示方式。MCE 不再依赖手工编写的“上下文工程”配方，而是让元代理进化用于构造提示的 skills 和 prompt artifacts 本身，从而在各种任务上持续获得更好的性能。

关键贡献

双层架构：将一个元层代理（进化上下文工程技能）与一个 基础层 代理（将这些技能用于生成和完善提示）分离。
代理交叉算子：一种新颖的审议搜索，重新组合过去的技能、它们的执行以及评估信号，以创建更强的工程策略。
灵活的上下文表示：将提示视为可变文件和代码，而非刚性模式，实现更丰富、任务特定的修改。
广泛的实证验证：在五个异构领域（例如代码生成、推理、检索增强问答）中进行离线和在线测试。
显著的性能提升：相较于最强的现有代理式 CE 基线，实现 5.6 %–53.8 % 的相对提升（平均 +16.9 %）。
效率与可迁移性：展示了更低的上下文 token 使用量、更快的收敛速度，以及跨领域迁移学习技能的能力。

方法论

基础层代理

标准的 LLM 接收一个 上下文文件（提示、few‑shot 示例、工具定义等），并生成答案。每次 rollout 后记录：

它收到的上下文
生成的答案
标量评估（例如奖励模型分数、任务指标）

元层代理

在 CE 技能（用于操作上下文文件的小程序或模板）的种群上运行。每一次迭代：

选择 – 从前几代中挑选高分技能。
代理交叉 – 将两个或多个父技能的片段组合，依据对它们执行历史的审慎搜索（哪些有效，哪些无效）进行指导。
变异 – 可选地注入随机编辑（例如添加新示例、微调系统消息）。

共进化循环

元代理生成新技能，基础层代理在一批任务上运行该技能，得到的性能作为适应度反馈给下一代元代理。上下文本身以可编辑文件（JSON、Python 代码片段、markdown）存储，因而技能可以以编程方式添加、删除或重写章节。

训练方案

离线：使用固定任务数据集；循环运行直至收敛。
在线：任务持续到来；元代理即时更新技能，以适应分布漂移。

Source: …

结果与发现

领域	基线（最先进的 CE）	MCE（平均相对增益）
代码合成	42.1 % pass@1	+23.4 %
多步推理	68.5 % accuracy	+12.7 %
检索增强问答	71.2 % F1	+16.9 %
对话规划	55.3 % success	+9.8 %
结构化数据抽取	61.0 % F1	+5.6 %

一致性：在所有五个领域均观察到提升，确认元层进化并非针对特定任务。
上下文效率：MCE 将每个提示的平均 token 数减少约 18 %，同时保持更高分数，这得益于更智能的剪枝和对有用示例的复用。
可迁移性：在代码合成上学到的技能在推理任务上只需少量微调即可转移，表明元代理捕获了共享的“工程直觉”。
训练速度：双层循环收敛速度比之前的代理 CE 方法快 2–3 倍，因为交叉利用了已验证的子技能。

实际意义

面向开发者的提示流水线: 团队可以将 MCE 插入现有的 LLM 推理服务，自动生成并维护高质量提示，无需手动反复试验。
降低成本: 更少的提示 token 意味着更低的 API 费用，尤其是对高吞吐量应用（例如代码助手、聊天机器人）而言。
快速适应: 当产品的使用场景发生变化（新 API、更新的 schema）时，MCE 能够即时演化新的上下文工程技能，缩短功能更新的上市时间。
可复用的技能库: 组织可以策划 CE 技能目录（例如“为算术添加 few‑shot 示例”“注入检索工具定义”），元代理可将其重新组合，促进团队间的知识共享。
更好的调试: 由于上下文以可编辑文件形式存储，开发者可以检查导致性能提升的具体提示修改，相比不透明的单体提示调优方法提升了透明度。

限制与未来工作

Computation overhead: 元层搜索相较于静态提示工程会增加额外的计算（尤其在交叉阶段），在扩展到极大规模语料库时可能需要更高效的搜索启发式方法。
Evaluation dependency: MCE 依赖可靠的标量奖励（例如下游指标或学习得到的奖励模型）。噪声或不对齐的奖励可能误导技能进化。
Skill interpretability: 虽然生成的技能类似代码，但经过多代后可能变得复杂，导致人工检查更加困难。

未来方向

融入 neural architecture search 技术以裁剪技能搜索空间。
探索 multi‑objective optimization（例如在性能与 token 预算之间平衡）。
将 MCE 应用于 multimodal models，其上下文包含图像或音频。
研究 human‑in‑the‑loop 扩展，使开发者能够凭借领域专长种下或引导技能进化。

作者

Haoran Ye
Xuning He
Vincent Arak
Haonan Dong
Guojie Song

论文信息

arXiv ID: 2601.21557v1
分类: cs.AI, cs.NE
发布时间: 2026年1月29日
PDF: Download PDF

[Paper] 元上下文工程通过能动技能演化

概览

关键贡献

方法论

基础层代理

元层代理

共进化循环

训练方案

结果与发现

实际意义

限制与未来工作

未来方向

作者

论文信息

相关文章

[Paper] VideoGPA：蒸馏几何先验以实现3D一致的视频生成

[论文] 共享自治范式中信念与策略学习的端到端优化

[Paper] 解耦扩散采样用于函数空间的逆问题

[Paper] FOCUS：DLLMs 知道如何驯服它们的计算瓶颈