[Paper] 数字红皇后:Core War 中的对抗性程序进化与 LLMs
发布: (2026年1月7日 GMT+8 02:58)
7 min read
原文: arXiv
Source: arXiv - 2601.03335v1
概述
本文介绍了 Digital Red Queen (DRQ),一个轻量级的自我对弈框架,使大型语言模型(LLM)能够持续进化类似汇编的程序——称为 warriors——以在经典的 Core War 沙盒中超越所有先前生成的对手。通过将优化问题转化为一个开放式的“红皇后”军备竞赛,作者展示了 LLM 生成的代码可以变得越来越通用,并趋向于稳健的策略,为对抗性 AI 提供了新的视角,并为安全导向的应用提供潜在的经验教训。
关键贡献
- Red‑Queen 自我对弈循环: 一种简单的算法,其中每个新生成的 LLM 战士必须击败所有先前的战士,以此强制持续适应。
- LLM 驱动的程序合成: 使用最先进的语言模型,根据高层提示编写低层 Core War 汇编代码。
- 收敛的实证证据: 在众多代际中,战士变得更具通用性(在面对未见过的人类手工对手时表现更好),且行为多样性下降,呈现出收敛进化的特征。
- Core War 作为测试平台: 证明图灵完备的 Core War 虚拟机是一个可处理、可控的沙盒,适用于研究对抗性共进化并用于评估基于 LLM 的进化方法。
- 更广阔的愿景: 展示了最小化的自我对弈设置可以迁移到现实世界的对抗领域,如网络安全的红队/蓝队演练或药物抗性建模。
方法论
- 环境: Core War —— 一个虚拟机,两个程序(战士)争夺共享内存的控制权。该语言类似汇编,确定性且完全可观测。
- 初始种群: 一组基准战士(包括人工编写的)为竞争提供种子。
- 自我对弈循环 (DRQ):
- 在第 t 轮,LLM 收到描述目标的提示:“编写一个 Core War 战士,击败在 0 … t‑1 轮生成的所有战士。”
- 模型生成候选代码,编译后与之前所有战士的完整档案进行测试。
- 第一个在所有对局中获胜的候选者成为新的冠军,并被加入档案。
- 评估: 经过多轮后,作者将进化出的战士与一套保留的人类制作对手进行测试,并使用执行轨迹聚类来衡量行为多样性。
- 分析: 跟踪胜率、通用性(对未见对手的表现)以及独立运行中的多样性趋势。
结果与发现
- 提升通用性: 在约 200 代后,DRQ 战士在对抗多样化的人类战士时的胜率高于运行中任何早期单一代。
- 行为收敛: 独立的 DRQ 运行产生的战士表现出惊人相似的执行模式,表明适应度景观中存在强吸引子策略。
- 效率: 整个进化过程在普通硬件(单 GPU)上运行,并在数小时内完成,显示出复杂的对抗动态并不需要大规模计算。
- 与静态优化的比较: 当 LLM 针对 固定 对手进行优化的基线很快出现平台期,而红皇后循环则持续推动性能提升。
实际意义
- 对抗性代码生成用于安全测试: DRQ‑style 自我对弈可以自动创建新颖的漏洞或防御载荷,使它们相互持续适应,为红队/蓝队训练场景提供更丰富的情境。
- 稳健的 AI 代理: 向通用策略的收敛暗示了一条训练基于 LLM 的代理的方法,即使对手不断进化,仍能保持有效,适用于竞技游戏、自动化谈判或自主防御系统。
- LLM 程序合成基准: Core War 提供了一个低开销、可复现的基准,用于衡量 LLM 在对抗压力下生成正确、高性能低层代码的能力。
- 快速原型化共进化算法: 最小化的 DRQ 循环可以移植到其他沙盒领域(例如网络数据包过滤器、智能合约模糊测试),在无需构建大型仿真基础设施的情况下探索军备竞赛动态。
Limitations & Future Work
- Domain specificity: Core War,虽然表现力强,但是一个玩具环境;结果可能无法直接转移到高风险的真实系统,除非加入额外约束。
- LLM dependence: 演化战士的质量取决于底层模型的代码生成能力;较小或训练不足的模型可能会提前停滞。
- Diversity loss: 收敛行为虽然表明了强策略,但也会降低对可在异构威胁环境中有价值的替代战术的探索。
- Future directions: 将 DRQ 扩展到多目标设置(例如隐蔽性 + 速度),整合强化学习评估器以提供更细粒度的反馈,并将该框架应用于真实的网络安全沙盒或药物抗性模拟。
作者
- Akarsh Kumar
- Ryan Bahlous-Boldi
- Prafull Sharma
- Phillip Isola
- Sebastian Risi
- Yujin Tang
- David Ha
论文信息
- arXiv ID: 2601.03335v1
- 分类: cs.AI, cs.NE
- 发表时间: 2026年1月6日
- PDF: 下载 PDF