[Paper] MineNPC-Task：面向记忆感知的 Minecraft 代理任务套件

发布: 3个月前 (2026年1月9日 GMT+8 02:39)

8 分钟阅读

原文: arXiv

Source: arXiv - 2601.05215v1

Overview

本文介绍了 MineNPC-Task，一个基准套件，使研究人员和开发者能够评估需要在开放世界环境——Minecraft 中记忆并行动的大型语言模型（LLM）代理。通过将真实玩家驱动的任务转化为结构化、机器可检查的任务，作者提供了一种可复现的方法来衡量“记忆感知”代理在规划、执行以及从错误中恢复方面的表现。

关键贡献

用户创作、真实世界任务 – 来源于与专业《我的世界》玩家的共同游戏会话，随后提炼为带有明确前置条件和依赖关系的参数化模板。
混合主动评估框架 – 捕获丰富的事件日志（计划预览、澄清请求、记忆读取/写入、前置条件检查、修复尝试），并根据世界内的证据对代理进行评分，而非基于合成提示。
有界知识策略 – 禁止代理使用“超出世界”的捷径；所有信息必须来自代理自身的记忆或环境。
全面验证套件 – 可机器检查的验证器自动验证每个子任务的成功，使大规模、可复现的测试成为可能。
经验基准 – 在 8 位经验玩家的 216 个子任务上评估 GPT‑4o，揭示系统性失效模式并展示混合主动澄清的优势。
开源发布 – 完整的任务定义、验证器、日志以及评估框架均公开供社区使用。

方法论

任务收集 – 研究人员与专家玩家一起玩 Minecraft，记录自然任务（例如，“制作信标”，“前往隐藏的洞穴”）。
模板规范化 – 将每个任务抽象为参数化模板（包含物品、位置等变量），并配有明确的前置条件图，定义顺序和依赖关系。
代理接口 – 代理通过基于文本的控制台交互，支持：
- 计划预览（代理意图的动作序列）
- 澄清查询（代理向人类询问缺失信息）
- 记忆操作（读取/写入轻量级情景存储）
有界知识强制 – 系统阻止任何通过外部数据“作弊”的尝试；代理必须依赖内部记忆或来自 Minecraft 世界的观察。
验证 – 对每个子任务，验证器检查游戏状态（库存、玩家位置、方块变化），决定成功或失败，并生成数值分数（成功子任务 / 尝试子任务）。
人工评分 – 玩家在李克特量表上对交互质量和 UI 可用性进行评分，并提供关于混合主动体验的定性反馈。

结果与发现

整体表现 – GPT‑4o 成功完成了 216 个子任务中的 ≈ 62 %。
常见失败模式
- 代码执行错误（例如，命令字符串格式错误）
- 背包管理不当（掉落必需物品，忘记制作中间工具）
- 引用错误（混淆名称相似的对象或位置）
- 导航故障（在地形上卡住或走非最优路线）
通过澄清进行恢复 – 当代理请求澄清时，这些子任务的成功率提升至 ≈ 78 %，凸显了混合主动对话的价值。
记忆持久性缺口 – 参与者指出，代理经常“忘记”会话早期学到的事实，导致需要重复请求澄清。
用户体验 – 交互质量得分 4.2/5，界面可用性 4.0/5，表明基于控制台的界面对有经验的《我的世界》玩家友好。

实际意义

Benchmark for Embodied AI – MineNPC-Task 为开发者提供了一个具体且可复现的基准，用于在将记忆增强代理部署到游戏、仿真或机器人系统之前进行测试。
Designing Better Agent Memory – 观察到的遗忘模式表明，未来的代理需要持久的层次化记忆结构（例如，长期世界模型加上短期任务缓冲区）。
Mixed‑Initiative Interfaces – 引入澄清对话可以显著提升可靠性，鼓励 UI 设计让代理实时询问“为什么？”或“具体的方块类型是什么？”等问题。
Safety via Bounded Knowledge – 强制执行不作弊策略确保代理学会依赖感知和记忆，这一原则对安全关键的具身系统（如仓库机器人）非常有用。
Rapid Prototyping – 由于任务套件是参数化的，开发者可以随时生成新任务，从而在沙盒环境中实现对 LLM‑driven bots 的持续集成测试。

局限性与未来工作

单一 LLM 基线 – 本研究仅评估了 GPT‑4o；使用其他模型系列或更小参数规模时，结果可能会有所不同。
Minecraft‑特定领域 – 虽然基准测试内容丰富，但其发现未必能直接迁移到非体素或非沙盒领域，除非进行相应的适配。
记忆模型的简易性 – 当前轻量级记忆存储缺乏层次结构或遗忘机制，作者将其视为关键的改进方向。
人工验证的可扩展性 – 尽管验证器已实现自动化，但最初的任务编写仍依赖于专家玩家；要扩展到更广泛的任务库，需要众包或合成生成流水线。

作者邀请社区扩展该套件，接入替代记忆架构，并探索更丰富的混合主动协议——为更强大、具备记忆感知的具身代理奠定基础。

作者

Tamil Sudaravan Mohan Doss
Michael Xu
Sudha Rao
Andrew D. Wilson
Balasaravanan Thoravi Kumaravel

论文信息

arXiv ID: 2601.05215v1
类别: cs.AI
出版日期: 2026年1月8日
PDF: 下载 PDF

[Paper] MineNPC-Task：面向记忆感知的 Minecraft 代理任务套件

Overview

关键贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] 浅层图卷积神经网络训练的流形极限

[Paper] AdaFuse：自适应集成解码与测试时缩放用于LLMs

[Paper] LookAroundNet：使用 Transformers 扩展时间上下文以实现临床可行的 EEG 癫痫发作检测

[Paper] 通过非参数偏离定理检测离散信号中的随机性