[论文] 噪声鲁棒量子电路优化的 Replay-buffer 工程

发布: 23小时前 (2026年4月24日 GMT+8 00:59)

9 分钟阅读

原文: arXiv

Source: arXiv - 2604.21863v1

概述

本文解决了使用深度强化学习（RL）来设计和优化量子电路时的一个实际痛点：经验（状态‑动作‑奖励元组）的存储和重用方式会极大影响学习效率，尤其是在涉及真实硬件噪声的情况下。通过重新思考回放缓冲区——大多数 RL 流程的核心组件——作者实现了显著的加速和更紧凑的量子程序，并展示了如何在无需昂贵再训练的情况下，将无噪声模拟中的知识转移到有噪声的硬件上。

关键贡献

ReaPER⁺（Reliability‑aware Prioritized Experience Replay） – 一种退火重放规则，最初使用经典的 TD‑error 优先级，随后逐渐转向基于价值估计可靠性的采样，实现了 4‑32 倍的样本效率提升。
OptCRLQAS（Optimized Curriculum RL for Quantum‑Architecture Search） – 一种课程学习方案，将昂贵的量子‑经典评估批量化处理，跨多个架构编辑进行，能够在 12‑量子比特基准上将每回合的实际运行时间缩短最多 67.5 %。
轻量级 Replay‑Buffer 转移 – 一种在噪声硬件下通过直接复用无噪声轨迹（无需权重复制、无需 ε‑greedy 预训练）进行热启动学习的方法，将达到化学精度所需的步数削减 85‑90 %，并在分子任务上将最终能量误差降低约 90 %。
领域无关的验证 – 相同的 replay‑buffer 思路在经典强化学习基准（LunarLander‑v3）上同样提升了性能，证实该技术并非仅限于量子问题。

方法论

Replay‑buffer redesign – 传统的优先经验回放 (Prioritized Experience Replay, PER) 根据 TD 误差按比例抽样经验，假设误差越大学习价值越高。作者观察到，随着训练进行，TD 误差会变成噪声化的真实学习潜力指示，尤其在价值网络仍不成熟时。ReaPER⁺ 因此退火：早期 epoch 使用 TD‑error 优先级；后期 epoch 切换到基于最近更新中价值预测方差得到的 可靠性得分。
Curriculum‑based architecture search – 与其在每一次编辑后都评估新电路（这需要完整的量子‑经典仿真），OptCRLQAS 将一批编辑合并，进行一次昂贵的评估，并将得到的奖励传播给该批次中产生的所有缓冲经验。这样摊销了成本。
Transfer via buffer reuse – 当从无噪声模拟器转移到有噪声量子设备时，该方法仅将轨迹条目（状态、动作、奖励）从无噪声缓冲区复制到有噪声缓冲区。强化学习代理继续使用相同的网络权重学习，让噪声环境通过新的可靠性感知采样自然地重新加权这些经验。

所有三个组件被集成到标准的深度 Q‑learning 循环（或其策略梯度变体）中，对底层神经网络结构的改动极少。

结果与发现

Benchmark	Metric	Baseline	ReaPER⁺	OptCRLQAS	Transfer (Noisy)
Quantum compilation (12‑qubit)	Sample efficiency (episodes to target depth)	1.0×	4–32× improvement	– (same RL core)	–
QAS (Quantum Architecture Search)	Wall‑clock time per episode	1.0	–	‑67.5 % reduction	–
Molecular energy (6‑, 8‑, 12‑qubit)	Steps to chemical accuracy	1.0	–	–	‑85‑90 %
LunarLander‑v3 (classical RL)	Average reward after 500k steps	200	+12 %	–	–

更紧凑的电路：在所有量子编译任务中，ReaPER⁺ 始终发现比统一或固定‑PER 重放更少门数和更低深度的电路。
对噪声的鲁棒性：迁移方案将噪声硬件的性能提升至接近无噪声最优的约 10 % 范围内，这在硬件噪声通常会显著放大能量误差的情况下是巨大的收益。
可扩展性：OptCRLQAS 的壁钟时间节省随着量子比特数量的增加而更加明显，表明该方法在近端设备（20‑30 量子比特）及更大规模上仍具优势。

实际影响

更快的量子软件工程师原型开发 – 通过大幅减少模拟器调用次数，开发者可以在数小时而非数天内迭代电路优化，使基于强化学习的编译器在生产流水线中可行。
成本效益高的硬件实验 – 缓冲区转移方法意味着你可以在廉价的无噪声模拟器上训练策略，然后“直接移植”到真实量子处理器，只需极少的额外训练，从而节省宝贵的量子硬件时间（通常按分钟计费）。
跨领域强化学习改进 – 由于退火回放规则在 LunarLander 上取得了效果，任何面临 TD‑误差可靠性随时间变化的问题的强化学习系统（例如机器人、自动驾驶）都可以在不做量子特定修改的情况下采用 ReaPER⁺。
工具集成 – 这些技术足够轻量，可作为插件添加到现有的强化学习库中（例如 Stable‑Baselines3、RLlib）。开发者只需为其价值网络提供一个可靠性估计器，并调整回放缓冲区的采样调度。

限制与未来工作

可靠性估计器开销 – 计算基于方差的可靠性会增加每步的少量成本；在极高吞吐量的环境下，这可能成为瓶颈。
课程批量大小调优 – OptCRLQAS 需要决定在评估前将多少架构编辑分组；不合适的批量大小可能导致计算浪费或学习信号退化。
硬件特定噪声模型 – 转移实验使用了通用的去极化噪声模型。真实设备表现出相关性和非马尔可夫误差，因此需要在实际量子硬件上进一步验证。
超越 Q‑学习的扩展 – 虽然论文使用深度 Q 网络展示了该方法，但将退火回放规则应用于 actor‑critic 或策略梯度方法仍是一个未解的研究方向。

总体而言，工作表明“我们如何存储和重用经验”与神经架构本身同样关键，以实现可扩展的基于强化学习的量子电路设计，为开发者将这些方法引入真实世界的量子软件栈提供了明确的路径。

作者

Akash Kundu
Sebastian Feld

论文信息

arXiv ID: 2604.21863v1
分类: quant-ph, cs.AI, cs.ET, cs.LG
出版日期: 2026年4月23日
PDF: Download PDF

[论文] 噪声鲁棒量子电路优化的 Replay-buffer 工程

概述

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] 观察快与慢：学习视频中的时间流动

[Paper] Streaming Continual Learning 中的 Temporal Taskification：Evaluation Instability 的来源

[Paper] 微调方案定义了不同的持续学习问题

[Paper] 多校准的样本复杂度