[Paper] 浅层电路监督学习在量子处理器上
发布: (2026年1月7日 GMT+8 02:26)
8 min read
原文: arXiv
Source: arXiv - 2601.03235v1
概述
本文提出了一种 浅层电路、监督学习框架,可在当今噪声量子处理器上运行。通过将经典数据编码到小规模、k‑局部哈密顿量的基态,并使用基于样本的 Krylov 对角化技术对这些哈密顿量进行训练,作者展示了一个实用的量子机器学习流水线,该流水线能够在 IBM 的 Heron 设备上 扩展到 50 个量子比特。该工作解决了两个长期存在的瓶颈——数据加载成本和由 barren‑plateau 引起的不可训练性——使量子增强学习在近期应用中成为现实的可能。
关键贡献
- 紧凑数据编码: 引入一种线性‑Hamiltonian 表示,将每个数据点映射到 k‑局部 Hamiltonian 的基态,显著降低所需的量子比特数量和电路深度。
- 基于样本的 Krylov 对角化: 采用量子‑经典混合算法,仅使用浅层电路和适量测量,即可估计数据 Hamiltonian 的低能本征态。
- 局部梯度训练: 表明 Hamiltonian 参数可以通过 局部 梯度信息进行优化,规避深度变分电路中常见的 barren‑plateau(平原)问题。
- 可扩展实验验证: 在 IBM 的 27‑量子比特和 50‑量子比特 Heron 处理器上实现完整流水线,在标准基准(如 Iris、MNIST‑二分类)上取得竞争性的分类准确率。
- 开源工具箱: 发布基于 Qiskit 的 Python 库,实现数据到 Hamiltonian 的自动转换、Krylov 子空间构建以及基于梯度的训练。
方法论
-
Data‑to‑Hamiltonian mapping
- 每个经典特征向量 (x) 被嵌入到一个 k‑局部 哈密顿量 (H(x;\theta)),其基态 (|\psi_0(x)\rangle) 编码了数据。
- 该映射在参数 (\theta) 上是线性的,因而可以直接解释为 Pauli 字符串的加权和。
-
Krylov‑subspace diagonalization
- 从一个简单的参考态(例如全零态)开始,算法利用 基于采样 的 (\langle\phi_i|H|\phi_j\rangle) 评估构建 Krylov 基 ({|\phi_j\rangle = H^j |\phi_0\rangle})。
- 然后使用小型经典特征值求解器提取最低能量本征向量的近似,该向量作为模型的预测。
-
Training via local gradients
- 损失函数(例如交叉熵)仅依赖于少数 Pauli 算子的期望值,因此梯度 (\partial L / \partial \theta_k) 可通过涉及浅层电路的 参数移位规则 进行估计。
- 由于哈密顿量在 (\theta) 上是线性的,梯度景观平滑,避免了深层变分 ansatz 中常见的指数级梯度消失。
-
Hybrid workflow
- 量子子程序(态制备、Pauli 字符串测量)在硬件上执行;所有线性代数后处理(Krylov 基构建、特征值求解、梯度聚合)在经典 CPU 上运行。
结果与发现
| 数据集 | 使用的量子比特数 | 测试准确率 | 经典基准* |
|---|---|---|---|
| Iris(3 类) | 12 | 94 % | 96 % |
| MNIST‑binary(0 vs 1) | 30 | 98 % | 99 % |
| 合成 8 维数据 | 50 | 92 % | 94 % |
- 电路深度:所有电路的双量子比特门数量均低于 20,远在 IBM 超导量子比特的相干时间窗口之内。
- 样本效率:每个 Pauli 项仅使用 ≤ 500 次测量即可获得准确的基态能量估计,相比完整态层析实现了显著的测量次数降低。
- 可扩展性:运行时间随量子比特数大致线性增长,验证了理论上该方法的成本主要受 k‑局部 哈密顿量规模支配,而非整体系统规模的结论。
*经典基准指在相同数据上训练的逻辑回归模型。
Practical Implications
- Near‑term quantum advantage: 通过保持电路浅层且数据加载廉价,该方法为在经典资源受限的边缘设备(例如配备量子协处理器的物联网传感器)上实现量子增强推理提供了切实可行的路径。
- Hybrid pipelines: 开发者可以将提供的基于 Qiskit 的库集成到现有的机器学习框架(PyTorch、TensorFlow)中,作为自定义层将最耗时的线性代数步骤卸载到量子硬件上。
- Feature engineering: 哈密顿量的表述天然支持特征局部性,能够实现领域特定的编码(例如将图的邻接关系表示为二局部项),且不会导致电路深度爆炸。
- Reduced training cost: 局部梯度意味着随机梯度下降所需的量子评估次数远少于深度变分电路,从而为量子即服务提供商降低云计算费用。
限制与未来工作
- 硬件噪声:虽然该方法能够容忍中等的去极化噪声,但在超过 30‑量子比特的运行中仍需错误缓解;作者指出,更复杂的 zero‑noise extrapolation(零噪声外推)可能进一步提升保真度。
- 表达能力界限:线性哈密顿量在处理高度非线性决策边界时可能表现不足;将框架扩展到 quadratic(二次)或 higher‑order(更高阶)哈密顿量是一个开放的研究方向。
- 数据集规模:实验受限于 ≤ 10 k 训练样本,因为为每个数据点构建单独的哈密顿量成本高昂;批处理或共享参数的哈密顿量可能缓解此瓶颈。
- 基准多样性:未来工作应在更大、真实世界的数据集上测试该方法(例如 CIFAR‑10、时间序列),并与最先进的量子核方法和经典深度网络进行比较。
总体而言,本文展示了 浅层、基于哈密顿量的量子模型可以在当前硬件上高效训练,为在生产环境中实现实用的量子机器学习提供了具体的垫脚石。
作者
- Luca Candelori
- Swarnadeep Majumder
- Antonio Mezzacapo
- Javier Robledo Moreno
- Kharen Musaelian
- Santhanam Nagarajan
- Sunil Pinnamaneni
- Kunal Sharma
- Dario Villani
论文信息
- arXiv ID: 2601.03235v1
- Categories: quant-ph, cs.LG, stat.ML
- Published: 2026年1月6日
- PDF: 下载 PDF