[Paper] 基于强化学习的模型用于使用多尺度 place fields 的映射与目标导向导航

发布: (2026年1月7日 GMT+8 10:10)
7 min read
原文: arXiv

Source: arXiv - 2601.03520v1

概述

本文提出了一种强化学习(RL)框架,模拟大脑的 place‑cell system,使机器人能够一次性构建并使用多种空间分辨率的地图。通过结合粗粒度和细粒度的“place fields”以及基于回放的奖励信号,作者展示了在模拟的部分可观测环境中实现更快的学习和更短的导航路径。

关键贡献

  • Multiscale place‑field architecture – 平行的 place cells 层在不同空间尺度上运行,实现全局引导和局部精确。
  • Replay‑based reward propagation – 一种受生物启发的机制,通过重放高价值轨迹来更新价值估计,无需额外的环境交互。
  • Dynamic scale‑fusion module – 在线加权方案,根据当前不确定性和任务需求融合所有尺度的信息。
  • Empirical validation – 大量仿真显示,与单尺度基线相比,路径长度最多降低 30 %,收敛速度提升 2‑3×
  • Open‑source implementation – 作者公开了代码库(Python + PyTorch)以及一套基准迷宫,以确保可复现性。

方法论

  1. 环境与观测模型

    • 机器人在一个二维网格世界中运行,存在障碍物且传感器范围有限(模拟部分可观测性)。
    • 每一步它接收一个二进制占用向量和其当前(带噪声)的位姿。
  2. 多尺度位置场

    • 实例化三层位置细胞:细尺度(≈0.5 m)、中尺度(≈2 m)、粗尺度(≈5 m)
    • 每个细胞的激活遵循以其偏好位置为中心的高斯峰,宽度与层的尺度相匹配。
  3. 强化学习核心(Actor‑Critic)

    • Critic 使用所有层的激活拼接来估计状态价值函数。
    • Actor 输出离散运动原语(前进、左转/右转)的概率分布。
  4. 基于回放的奖励机制

    • 达到目标后,系统执行成功轨迹的离线“回放”,将获得的奖励向后传播到价值网络。
    • 回放按每个位置场层的置信度加权,学习早期更依赖可靠的(粗尺度)表征。
  5. 动态尺度融合

    • 学习的门控网络计算每步的加权向量 w = (w_fine, w_med, w_coarse)。
    • 最终价值估计 (V(s) = \sum_i w_i , V_i(s)),其中 (V_i) 来自第 i 层的 critic head。
    • 随着机器人探索,门控会自适应地将重点逐渐转向更细的尺度,以降低不确定性。
  6. 训练循环

    • 标准强化学习循环(收集经验 → 通过策略梯度更新 actor/critic),并在每个回合后交叉进行回放更新。

结果与发现

指标单尺度(细)多尺度(提议)
平均步数至目标(第1‑100集)4531
路径最优性(相对于最短路径的比率)1.281.09
收敛集数(≤最佳的5%)21078
计算开销(毫秒/步)1.22.1
  • 更快的学习:仅重放机制就将收敛时间缩短约30%,但最大的提升来自多尺度融合。
  • 对传感器噪声的鲁棒性:当观测噪声提升3倍时,多尺度模型的性能仅下降约5%,而仅细粒度基线下降约20%。
  • 消融研究:移除重放或动态融合都会削弱性能,证实两者都是必不可少的。

Practical Implications

  • 可扩展的 SLAM 替代方案:开发者可以用轻量级的基于强化学习的地图取代笨重的 SLAM 流程,该地图能够自动平衡全局规划和局部避障。
  • 在变化环境中的快速适应:由于回放能够在不重新探索的情况下更新价值估计,机器人可以在布局变化后(例如新出现的阻塞走廊)快速重新规划。
  • 适合边缘部署:模型可在单个 CPU 核心上运行(每次决策约 2 毫秒),内存占用不足 10 MB,适用于嵌入式平台(例如 TurtleBot、DJI RoboMaster)。
  • 向真实机器人迁移:多尺度表征类似哺乳动物的导航方式,结合域随机化后,可实现更平滑的仿真到真实的迁移。
  • 层次强化学习的潜力:尺度融合门控可重新用作高层策略选择器,为多房间配送或仓库拣选等更复杂任务打开可能性。

限制与未来工作

  • 仅仿真验证:实验局限于二维网格世界;真实世界的传感器噪声、动力学以及三维地形可能会暴露出新的挑战。
  • 固定尺度数量:当前架构使用三个预定义尺度;一种能够在运行时动态增删尺度的自适应机制可能提升记忆效率。
  • 回放成本:虽然回放加速了学习,但它会在每个回合后产生一次计算突发,这在实时连续操作中可能成为问题。
  • 作者提出的未来方向包括:
    1. 将模型扩展到连续动作空间。
    2. 将视觉地标作为额外的地点场线索进行集成。
    3. 在动态室内环境中对物理机器人进行测试。

作者

  • Bekarys Dukenbaev
  • Andrew Gerstenslager
  • Alexander Johnson
  • Ali A. Minai

论文信息

  • arXiv ID: 2601.03520v1
  • Categories: cs.NE, cs.AI, cs.RO
  • Published: 2026年1月7日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »