[论文] 噪声鲁棒量子电路优化的 Replay-buffer 工程
发布: (2026年4月24日 GMT+8 00:59)
9 分钟阅读
原文: arXiv
Source: arXiv - 2604.21863v1
概述
本文解决了使用深度强化学习(RL)来设计和优化量子电路时的一个实际痛点:经验(状态‑动作‑奖励元组)的存储和重用方式会极大影响学习效率,尤其是在涉及真实硬件噪声的情况下。通过重新思考回放缓冲区——大多数 RL 流程的核心组件——作者实现了显著的加速和更紧凑的量子程序,并展示了如何在无需昂贵再训练的情况下,将无噪声模拟中的知识转移到有噪声的硬件上。
关键贡献
- ReaPER⁺(Reliability‑aware Prioritized Experience Replay) – 一种退火重放规则,最初使用经典的 TD‑error 优先级,随后逐渐转向基于价值估计可靠性的采样,实现了 4‑32 倍的样本效率提升。
- OptCRLQAS(Optimized Curriculum RL for Quantum‑Architecture Search) – 一种课程学习方案,将昂贵的量子‑经典评估批量化处理,跨多个架构编辑进行,能够在 12‑量子比特基准上将每回合的实际运行时间缩短最多 67.5 %。
- 轻量级 Replay‑Buffer 转移 – 一种在噪声硬件下通过直接复用无噪声轨迹(无需权重复制、无需 ε‑greedy 预训练)进行热启动学习的方法,将达到化学精度所需的步数削减 85‑90 %,并在分子任务上将最终能量误差降低约 90 %。
- 领域无关的验证 – 相同的 replay‑buffer 思路在经典强化学习基准(LunarLander‑v3)上同样提升了性能,证实该技术并非仅限于量子问题。
方法论
- Replay‑buffer redesign – 传统的优先经验回放 (Prioritized Experience Replay, PER) 根据 TD 误差按比例抽样经验,假设误差越大学习价值越高。作者观察到,随着训练进行,TD 误差会变成噪声化的 真实 学习潜力指示,尤其在价值网络仍不成熟时。ReaPER⁺ 因此 退火:早期 epoch 使用 TD‑error 优先级;后期 epoch 切换到基于最近更新中价值预测方差得到的 可靠性得分。
- Curriculum‑based architecture search – 与其在每一次编辑后都评估新电路(这需要完整的量子‑经典仿真),OptCRLQAS 将一批编辑合并,进行一次昂贵的评估,并将得到的奖励传播给该批次中产生的所有缓冲经验。这样摊销了成本。
- Transfer via buffer reuse – 当从无噪声模拟器转移到有噪声量子设备时,该方法仅将 轨迹 条目(状态、动作、奖励)从无噪声缓冲区复制到有噪声缓冲区。强化学习代理继续使用相同的网络权重学习,让噪声环境通过新的可靠性感知采样自然地重新加权这些经验。
所有三个组件被集成到标准的深度 Q‑learning 循环(或其策略梯度变体)中,对底层神经网络结构的改动极少。
结果与发现
| Benchmark | Metric | Baseline | ReaPER⁺ | OptCRLQAS | Transfer (Noisy) |
|---|---|---|---|---|---|
| Quantum compilation (12‑qubit) | Sample efficiency (episodes to target depth) | 1.0× | 4–32× improvement | – (same RL core) | – |
| QAS (Quantum Architecture Search) | Wall‑clock time per episode | 1.0 | – | ‑67.5 % reduction | – |
| Molecular energy (6‑, 8‑, 12‑qubit) | Steps to chemical accuracy | 1.0 | – | – | ‑85‑90 % |
| LunarLander‑v3 (classical RL) | Average reward after 500k steps | 200 | +12 % | – | – |
- 更紧凑的电路:在所有量子编译任务中,ReaPER⁺ 始终发现比统一或固定‑PER 重放更少门数和更低深度的电路。
- 对噪声的鲁棒性:迁移方案将噪声硬件的性能提升至接近无噪声最优的约 10 % 范围内,这在硬件噪声通常会显著放大能量误差的情况下是巨大的收益。
- 可扩展性:OptCRLQAS 的壁钟时间节省随着量子比特数量的增加而更加明显,表明该方法在近端设备(20‑30 量子比特)及更大规模上仍具优势。
实际影响
- 更快的量子软件工程师原型开发 – 通过大幅减少模拟器调用次数,开发者可以在数小时而非数天内迭代电路优化,使基于强化学习的编译器在生产流水线中可行。
- 成本效益高的硬件实验 – 缓冲区转移方法意味着你可以在廉价的无噪声模拟器上训练策略,然后“直接移植”到真实量子处理器,只需极少的额外训练,从而节省宝贵的量子硬件时间(通常按分钟计费)。
- 跨领域强化学习改进 – 由于退火回放规则在 LunarLander 上取得了效果,任何面临 TD‑误差可靠性随时间变化的问题的强化学习系统(例如机器人、自动驾驶)都可以在不做量子特定修改的情况下采用 ReaPER⁺。
- 工具集成 – 这些技术足够轻量,可作为插件添加到现有的强化学习库中(例如 Stable‑Baselines3、RLlib)。开发者只需为其价值网络提供一个可靠性估计器,并调整回放缓冲区的采样调度。
限制与未来工作
- 可靠性估计器开销 – 计算基于方差的可靠性会增加每步的少量成本;在极高吞吐量的环境下,这可能成为瓶颈。
- 课程批量大小调优 – OptCRLQAS 需要决定在评估前将多少架构编辑分组;不合适的批量大小可能导致计算浪费或学习信号退化。
- 硬件特定噪声模型 – 转移实验使用了通用的去极化噪声模型。真实设备表现出相关性和非马尔可夫误差,因此需要在实际量子硬件上进一步验证。
- 超越 Q‑学习的扩展 – 虽然论文使用深度 Q 网络展示了该方法,但将退火回放规则应用于 actor‑critic 或策略梯度方法仍是一个未解的研究方向。
总体而言,工作表明“我们如何存储和重用经验”与神经架构本身同样关键,以实现可扩展的基于强化学习的量子电路设计,为开发者将这些方法引入真实世界的量子软件栈提供了明确的路径。
作者
- Akash Kundu
- Sebastian Feld
论文信息
- arXiv ID: 2604.21863v1
- 分类: quant-ph, cs.AI, cs.ET, cs.LG
- 出版日期: 2026年4月23日
- PDF: Download PDF