[Paper] ToTMNet:FFT 加速的 Toeplitz 时序混合网络用于轻量化远程光电容积描记

发布: (2026年1月8日 GMT+8 02:15)
7 min read
原文: arXiv

Source: arXiv - 2601.04159v1

概述

远程光电容积描记(rPPG)从普通面部视频中提取脉搏波形,为智能手机、笔记本电脑和物联网摄像头上的无接触健康监测打开了大门。全新的 ToTMNet 架构表明,通过巧妙地将常规基于注意力的时间编码器替换为 FFT 加速的 Toeplitz 混合层,您可以在边缘设备上运行的模型中实现最先进的心率精度。

关键贡献

  • Toeplitz Temporal Mixing Layer – 引入一种线性参数、全序列的时间算子,可通过基于 FFT 的卷积在近线性时间内执行。
  • Gated Temporal Mixer – 将轻量级深度可分离时间卷积(局部上下文)与全局 Toeplitz Mixer 相结合,使网络能够自适应平衡短程和长程时间信息。
  • Ultra‑lightweight Design – 整个网络仅包含 63 k 参数,远少于典型的基于注意力的 rPPG 模型,同时仍实现低于 1.1 bpm 的平均绝对误差(MAE)。
  • Cross‑Domain Robustness – 展示了从合成训练数据(SCAMPS)到真实视频(UBFC‑rPPG)的强大泛化能力,凸显门控机制在处理域迁移中的作用。
  • Open‑source‑ready Implementation – 作者提供了可直接用于开源的 PyTorch 实现,可以最小的开销集成到现有视频处理流水线中。

方法论

  1. 输入预处理 – 从每帧视频中检测并裁剪出面部区域,然后转换为紧凑的时空张量(例如,随时间变化的 RGB 通道)。
  2. 特征提取主干 – 使用浅层 CNN 提取每帧的空间嵌入(与血容量变化相关的颜色和纹理线索)。
  3. 时间建模
    • 局部分支:使用小卷积核(例如 3‑5 帧)的深度可分离 1‑D 卷积捕获短程动态。
    • 全局分支:Toeplitz 混合层根据学习得到的核向量构建 Toeplitz 矩阵。由于 Toeplitz 矩阵仅由其首行/首列决定,可学习参数的数量随剪辑长度线性增长,而非二次增长。
    • FFT 加速:Toeplitz 矩阵的乘法通过循环嵌入实现卷积,可使用快速傅里叶变换(FFT)在 O(N log N) 时间内完成,而不是 O(N²)。
    • 门控:Sigmoid 门学习为每个通道加权局部和全局分支,使网络能够在给定视频片段中强调最具信息量的时间尺度。
  4. 回归头 – 将混合后的时间表征送入一个小型全连接头,输出血容量脉冲(BVP)波形,并通过标准峰值检测得到心率。

结果与发现

数据集训练测试MAE (bpm)Pearson r
UBFC‑rPPG (intra‑dataset)UBFC‑rPPGUBFC‑rPPG1.0550.996
SCAMPS → UBFC‑rPPG (cross‑domain)SCAMPS (synthetic)UBFC‑rPPG (real)1.5820.994
  • 参数效率:63 k 参数,相比许多基于注意力的 rPPG 网络 >1 M。
  • 速度:基于 FFT 的混合在中端移动 GPU(如 Snapdragon 8 Gen 2)上运行约 30 fps,完全满足实时要求。
  • 消融实验:移除门控机制会使跨域 MAE 增加约 0.4 bpm,证实其在适应域迁移中的重要性。
  • 鲁棒性:即使视频长度变化,模型仍保持高相关性,这归功于 Toeplitz 运算符的全序列感受野。

实际意义

  • Edge deployment – 由于参数量低于 100 k 且采用 FFT 友好的运算,ToTMNet 可在智能手机、可穿戴设备或嵌入式摄像头上运行,无需将数据上传至云端。
  • Real‑time health apps – 开发者可以将心率监测嵌入视频聊天、健身或远程医疗平台,实时提供生命体征,无需额外硬件。
  • Low‑power IoT – 线性时间复杂度意味着更低的 CPU/GPU 使用率,延长连续监测设备的电池续航。
  • Domain‑agnostic training – 通过门控增强的 Toeplitz 混合器能够容忍合成到真实的迁移,这意味着可以在大规模、廉价的合成数据集上预训练,并在真实用户视频上仍然获得高精度。
  • Plug‑and‑play component – Toeplitz 混合层可以替代其他视频序列模型中的注意力模块(例如动作识别、视频字幕),在长程时间依赖重要但资源受限的场景下使用。

限制与未来工作

  • 数据集范围 – 评估仅限于两个数据集(一个真实,一个合成)。需要在多种光照、运动和肤色条件下进行更广泛的测试,以确认模型的泛化能力。
  • 固定剪辑长度 – 当前实现假设 Toeplitz 核的序列长度预先确定;更优雅地处理可变长度流可以提升灵活性。
  • 硬件特定的 FFT 开销 – 虽然 FFT 在 GPU 上很快,但在某些微控制器上其开销可能超过收益;探索其他快速卷积方案可以扩大适用范围。
  • 扩展生命体征 – 未来工作可以将该架构扩展至从同一视频流中估计呼吸频率、血氧饱和度或压力指标等。

底线:ToTMNet 证明了基于 Toeplitz 的数学优雅的时间混合器在 FFT 加速下,可以取代重量级注意力机制,同时在资源受限的设备上提供高精度 rPPG——这对构建下一代无接触健康监测解决方案的开发者而言是令人振奋的进展。

作者

  • Vladimir Frants
  • Sos Agaian
  • Karen Panetta

论文信息

  • arXiv ID: 2601.04159v1
  • 类别: cs.CV
  • 发表时间: 2026年1月7日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »

[Paper] 编排动态对象的世界

我们物理的4D(3D + 时间)世界中的动态对象不断演化、变形并与其他对象相互作用,导致多样的4D场景动态……