[Paper] MineNPC-Task:面向记忆感知的 Minecraft 代理任务套件

发布: (2026年1月9日 GMT+8 02:39)
8 min read
原文: arXiv

Source: arXiv - 2601.05215v1

Overview

本文介绍了 MineNPC-Task,一个基准套件,使研究人员和开发者能够评估需要在开放世界环境——Minecraft 中记忆并行动的大型语言模型(LLM)代理。通过将真实玩家驱动的任务转化为结构化、机器可检查的任务,作者提供了一种可复现的方法来衡量“记忆感知”代理在规划、执行以及从错误中恢复方面的表现。

关键贡献

  • 用户创作、真实世界任务 – 来源于与专业《我的世界》玩家的共同游戏会话,随后提炼为带有明确前置条件和依赖关系的参数化模板。
  • 混合主动评估框架 – 捕获丰富的事件日志(计划预览、澄清请求、记忆读取/写入、前置条件检查、修复尝试),并根据世界内的证据对代理进行评分,而非基于合成提示。
  • 有界知识策略 – 禁止代理使用“超出世界”的捷径;所有信息必须来自代理自身的记忆或环境。
  • 全面验证套件 – 可机器检查的验证器自动验证每个子任务的成功,使大规模、可复现的测试成为可能。
  • 经验基准 – 在 8 位经验玩家的 216 个子任务上评估 GPT‑4o,揭示系统性失效模式并展示混合主动澄清的优势。
  • 开源发布 – 完整的任务定义、验证器、日志以及评估框架均公开供社区使用。

方法论

  1. 任务收集 – 研究人员与专家玩家一起玩 Minecraft,记录自然任务(例如,“制作信标”,“前往隐藏的洞穴”)。
  2. 模板规范化 – 将每个任务抽象为参数化模板(包含物品、位置等变量),并配有明确的前置条件图,定义顺序和依赖关系。
  3. 代理接口 – 代理通过基于文本的控制台交互,支持:
    • 计划预览(代理意图的动作序列)
    • 澄清查询(代理向人类询问缺失信息)
    • 记忆操作(读取/写入轻量级情景存储)
  4. 有界知识强制 – 系统阻止任何通过外部数据“作弊”的尝试;代理必须依赖内部记忆或来自 Minecraft 世界的观察。
  5. 验证 – 对每个子任务,验证器检查游戏状态(库存、玩家位置、方块变化),决定成功或失败,并生成数值分数(成功子任务 / 尝试子任务)。
  6. 人工评分 – 玩家在李克特量表上对交互质量和 UI 可用性进行评分,并提供关于混合主动体验的定性反馈。

结果与发现

  • 整体表现 – GPT‑4o 成功完成了 216 个子任务中的 ≈ 62 %
  • 常见失败模式
    • 代码执行错误(例如,命令字符串格式错误)
    • 背包管理不当(掉落必需物品,忘记制作中间工具)
    • 引用错误(混淆名称相似的对象或位置)
    • 导航故障(在地形上卡住或走非最优路线)
  • 通过澄清进行恢复 – 当代理请求澄清时,这些子任务的成功率提升至 ≈ 78 %,凸显了混合主动对话的价值。
  • 记忆持久性缺口 – 参与者指出,代理经常“忘记”会话早期学到的事实,导致需要重复请求澄清。
  • 用户体验 – 交互质量得分 4.2/5,界面可用性 4.0/5,表明基于控制台的界面对有经验的《我的世界》玩家友好。

实际意义

  • Benchmark for Embodied AI – MineNPC-Task 为开发者提供了一个具体且可复现的基准,用于在将记忆增强代理部署到游戏、仿真或机器人系统之前进行测试。
  • Designing Better Agent Memory – 观察到的遗忘模式表明,未来的代理需要持久的层次化记忆结构(例如,长期世界模型加上短期任务缓冲区)。
  • Mixed‑Initiative Interfaces – 引入澄清对话可以显著提升可靠性,鼓励 UI 设计让代理实时询问“为什么?”或“具体的方块类型是什么?”等问题。
  • Safety via Bounded Knowledge – 强制执行不作弊策略确保代理学会依赖感知和记忆,这一原则对安全关键的具身系统(如仓库机器人)非常有用。
  • Rapid Prototyping – 由于任务套件是参数化的,开发者可以随时生成新任务,从而在沙盒环境中实现对 LLM‑driven bots 的持续集成测试。

局限性与未来工作

  • 单一 LLM 基线 – 本研究仅评估了 GPT‑4o;使用其他模型系列或更小参数规模时,结果可能会有所不同。
  • Minecraft‑特定领域 – 虽然基准测试内容丰富,但其发现未必能直接迁移到非体素或非沙盒领域,除非进行相应的适配。
  • 记忆模型的简易性 – 当前轻量级记忆存储缺乏层次结构或遗忘机制,作者将其视为关键的改进方向。
  • 人工验证的可扩展性 – 尽管验证器已实现自动化,但最初的任务编写仍依赖于专家玩家;要扩展到更广泛的任务库,需要众包或合成生成流水线。

作者邀请社区扩展该套件,接入替代记忆架构,并探索更丰富的混合主动协议——为更强大、具备记忆感知的具身代理奠定基础。

作者

  • Tamil Sudaravan Mohan Doss
  • Michael Xu
  • Sudha Rao
  • Andrew D. Wilson
  • Balasaravanan Thoravi Kumaravel

论文信息

  • arXiv ID: 2601.05215v1
  • 类别: cs.AI
  • 出版日期: 2026年1月8日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »