[论文] 噪声鲁棒量子电路优化的 Replay-buffer 工程

发布: (2026年4月24日 GMT+8 00:59)
9 分钟阅读
原文: arXiv

Source: arXiv - 2604.21863v1

概述

本文解决了使用深度强化学习(RL)来设计和优化量子电路时的一个实际痛点:经验(状态‑动作‑奖励元组)的存储和重用方式会极大影响学习效率,尤其是在涉及真实硬件噪声的情况下。通过重新思考回放缓冲区——大多数 RL 流程的核心组件——作者实现了显著的加速和更紧凑的量子程序,并展示了如何在无需昂贵再训练的情况下,将无噪声模拟中的知识转移到有噪声的硬件上。

关键贡献

  • ReaPER⁺(Reliability‑aware Prioritized Experience Replay) – 一种退火重放规则,最初使用经典的 TD‑error 优先级,随后逐渐转向基于价值估计可靠性的采样,实现了 4‑32 倍的样本效率提升。
  • OptCRLQAS(Optimized Curriculum RL for Quantum‑Architecture Search) – 一种课程学习方案,将昂贵的量子‑经典评估批量化处理,跨多个架构编辑进行,能够在 12‑量子比特基准上将每回合的实际运行时间缩短最多 67.5 %。
  • 轻量级 Replay‑Buffer 转移 – 一种在噪声硬件下通过直接复用无噪声轨迹(无需权重复制、无需 ε‑greedy 预训练)进行热启动学习的方法,将达到化学精度所需的步数削减 85‑90 %,并在分子任务上将最终能量误差降低约 90 %。
  • 领域无关的验证 – 相同的 replay‑buffer 思路在经典强化学习基准(LunarLander‑v3)上同样提升了性能,证实该技术并非仅限于量子问题。

方法论

  1. Replay‑buffer redesign – 传统的优先经验回放 (Prioritized Experience Replay, PER) 根据 TD 误差按比例抽样经验,假设误差越大学习价值越高。作者观察到,随着训练进行,TD 误差会变成噪声化的 真实 学习潜力指示,尤其在价值网络仍不成熟时。ReaPER⁺ 因此 退火:早期 epoch 使用 TD‑error 优先级;后期 epoch 切换到基于最近更新中价值预测方差得到的 可靠性得分
  2. Curriculum‑based architecture search – 与其在每一次编辑后都评估新电路(这需要完整的量子‑经典仿真),OptCRLQAS 将一批编辑合并,进行一次昂贵的评估,并将得到的奖励传播给该批次中产生的所有缓冲经验。这样摊销了成本。
  3. Transfer via buffer reuse – 当从无噪声模拟器转移到有噪声量子设备时,该方法仅将 轨迹 条目(状态、动作、奖励)从无噪声缓冲区复制到有噪声缓冲区。强化学习代理继续使用相同的网络权重学习,让噪声环境通过新的可靠性感知采样自然地重新加权这些经验。

所有三个组件被集成到标准的深度 Q‑learning 循环(或其策略梯度变体)中,对底层神经网络结构的改动极少。

结果与发现

BenchmarkMetricBaselineReaPER⁺OptCRLQASTransfer (Noisy)
Quantum compilation (12‑qubit)Sample efficiency (episodes to target depth)1.0×4–32× improvement (same RL core)
QAS (Quantum Architecture Search)Wall‑clock time per episode1.0‑67.5 % reduction
Molecular energy (6‑, 8‑, 12‑qubit)Steps to chemical accuracy1.0‑85‑90 %
LunarLander‑v3 (classical RL)Average reward after 500k steps200+12 %
  • 更紧凑的电路:在所有量子编译任务中,ReaPER⁺ 始终发现比统一或固定‑PER 重放更少门数和更低深度的电路。
  • 对噪声的鲁棒性:迁移方案将噪声硬件的性能提升至接近无噪声最优的约 10 % 范围内,这在硬件噪声通常会显著放大能量误差的情况下是巨大的收益。
  • 可扩展性:OptCRLQAS 的壁钟时间节省随着量子比特数量的增加而更加明显,表明该方法在近端设备(20‑30 量子比特)及更大规模上仍具优势。

实际影响

  • 更快的量子软件工程师原型开发 – 通过大幅减少模拟器调用次数,开发者可以在数小时而非数天内迭代电路优化,使基于强化学习的编译器在生产流水线中可行。
  • 成本效益高的硬件实验 – 缓冲区转移方法意味着你可以在廉价的无噪声模拟器上训练策略,然后“直接移植”到真实量子处理器,只需极少的额外训练,从而节省宝贵的量子硬件时间(通常按分钟计费)。
  • 跨领域强化学习改进 – 由于退火回放规则在 LunarLander 上取得了效果,任何面临 TD‑误差可靠性随时间变化的问题的强化学习系统(例如机器人、自动驾驶)都可以在不做量子特定修改的情况下采用 ReaPER⁺。
  • 工具集成 – 这些技术足够轻量,可作为插件添加到现有的强化学习库中(例如 Stable‑Baselines3、RLlib)。开发者只需为其价值网络提供一个可靠性估计器,并调整回放缓冲区的采样调度。

限制与未来工作

  • 可靠性估计器开销 – 计算基于方差的可靠性会增加每步的少量成本;在极高吞吐量的环境下,这可能成为瓶颈。
  • 课程批量大小调优 – OptCRLQAS 需要决定在评估前将多少架构编辑分组;不合适的批量大小可能导致计算浪费或学习信号退化。
  • 硬件特定噪声模型 – 转移实验使用了通用的去极化噪声模型。真实设备表现出相关性和非马尔可夫误差,因此需要在实际量子硬件上进一步验证。
  • 超越 Q‑学习的扩展 – 虽然论文使用深度 Q 网络展示了该方法,但将退火回放规则应用于 actor‑critic 或策略梯度方法仍是一个未解的研究方向。

总体而言,工作表明“我们如何存储和重用经验”与神经架构本身同样关键,以实现可扩展的基于强化学习的量子电路设计,为开发者将这些方法引入真实世界的量子软件栈提供了明确的路径。

作者

  • Akash Kundu
  • Sebastian Feld

论文信息

  • arXiv ID: 2604.21863v1
  • 分类: quant-ph, cs.AI, cs.ET, cs.LG
  • 出版日期: 2026年4月23日
  • PDF: Download PDF
0 浏览
Back to Blog

相关文章

阅读更多 »

[Paper] 多校准的样本复杂度

我们研究批量设置中 multicalibration 的 minimax 样本复杂度。学习者观察到来自未知分布的 n 个 i.i.d. 样本,并且必须输出……