[论文] TeCoNeRV:利用时间一致性实现可压缩的视频神经表示

发布: (2026年2月19日 GMT+8 02:59)
8 分钟阅读
原文: arXiv

Source: arXiv - 2602.16711v1

概览

论文 “TeCoNeRV: Leveraging Temporal Coherence for Compressible Neural Representations for Videos” 解决了基于神经网络的视频压缩的一个核心瓶颈:需要为每个视频训练一个独立的隐式神经表示(INR),这在处理高分辨率内容时很快变得不可行。通过重新设计超网络在空间和时间上预测 INR 权重的方式,作者实现了显著更低的内存占用、更快的编码速度以及更高的视觉质量——使神经视频编解码器成为现实世界流水线中的可行选项。

关键贡献

  • 时空权重分解: 将视频划分为短 patch‑tubelets(跨几帧的小空间块),并独立预测每个 tubelet 的 INR 权重,将预训练内存降低约 20 倍。
  • 基于残差的存储方案: 仅存储相邻段表示之间的差异,在不牺牲保真度的前提下压缩最终比特流。
  • 时间一致性正则化: 添加一个损失,使权重空间的变化与实际视频运动对齐,促进帧间权重更新更平滑、更可预测。
  • 领先的性能表现: 在前一超网络基线基础上实现 +2.47 dB(480p)和 +5.35 dB(720p)PSNR 提升,码率降低 36 %,编码速度提升 1.5‑3 倍。
  • 可扩展至 1080p: 首个基于超网络的方法在 480p、720p、1080p 基准(UVG、HEVC、MCL‑JCV)上展示竞争力结果,同时保持适度的 GPU 内存占用。

方法论

  1. Patch‑Tubelet Partitioning

    • 将输入视频切分为重叠的空间块(例如 32×32 像素)。
    • 对每个块,取一个短时间窗口(通常 4‑8 帧)形成 tubelet
    • 这降低了权重预测问题的维度,因为每个超网络只需建模一个极小的时空片段,而不是整段帧序列。
  2. Hypernetwork Design

    • 一个轻量级超网络接受 tubelet 的原始像素值,输出一个小型 INR(将 (x, y, t) → RGB 的多层感知机)的参数。
    • 由于 tubelet 很小,超网络可以在单个 GPU 上训练,所需显存远低于整体视频范围的单体超网络。
  3. Residual Weight Encoding

    • 超网络为 tubelet i 预测权重后,系统计算相对于 tubelet i‑1 的残差。
    • 仅对这些残差进行熵编码,利用相邻 tubelet(无论在空间上还是时间上)往往具有非常相似的权重模式这一事实。
  4. Temporal Coherence Regularizer

    • 辅助损失惩罚与底层运动场(通过简单的光流或块匹配步骤估计)不对齐的权重变化。
    • 这鼓励超网络产生“跟随”视频实际时间动态的权重轨迹,从而得到更平滑的重建并简化残差压缩。
  5. Training & Inference Pipeline

    • 超网络在大规模视频块语料库上进行预训练。
    • 测试时,对新视频,超网络在其自身的块上进行 微调(少量梯度步)以适应特定内容,然后对残差进行编码并流式传输。

结果与发现

分辨率数据集PSNR(基线)PSNR(TeCoNeRV)比特率降低编码加速
480pUVG31.2 dB33.7 dB36 %1.8×
720pUVG28.9 dB34.2 dB36 %2.2×
1080pHEVC≈34 dB1.5×
  • 质量提升主要来自时间一致性正则化器,它能够减少闪烁和环形伪影。
  • 内存使用从 >30 GB(全帧超网络)降至 <1.5 GB,能够在单块 RTX 3090 上进行训练。
  • 比特流大小缩小,因为残差高度可压缩;熵编码相较于原始权重存储实现了近乎最优的码率。

实际影响

  • 边缘设备视频流媒体: 低内存、快速编码的流水线使得在 VRAM 受限的设备(如智能手机、嵌入式 GPU)上实时生成神经压缩流成为可能。
  • 自适应码率(ABR)系统: 由于每个 tubelet 可以独立编码,服务器能够根据网络状况动态调整每段的残差码率,类似于现代的 DASH/HLS 分块。
  • 内容感知编辑: 由于 INR 参数明确关联到时空补丁,开发者可以对单个 tubelet 进行操作(例如,用更高质量的版本替换某个补丁),而无需重新编码整段视频。
  • 与现有编解码器的集成: TeCoNeRV 的残差可以与传统编解码器融合(例如,作为补充增强层),提供一种混合方案,既利用 HEVC 的鲁棒性,又获得神经表示的灵活性。
  • 从研究到产品的路径: 模块化设计(补丁‑tubelet 超网络 + 残差编码器)非常契合微服务架构,团队可以在不重新设计整个系统的情况下替换或升级组件(例如,换用不同的光流估计器)。

限制与未来工作

  • 微调开销: 虽然编码比之前的超网络方法更快,但每个视频仍需进行短暂的微调阶段,这在超低延迟场景下可能成为障碍。
  • 补丁边界伪影: 对 tubelet 的独立处理可能在补丁边界产生接缝;作者通过重叠取平均来缓解,但更复杂的混合方式可以提升视觉连续性。
  • 1080p 以上的可扩展性: 虽然 1080p 的结果令人鼓舞,但内存和计算需求仍随更高分辨率增长;层次化 tubelet 方案或混合精度训练是潜在的解决办法。
  • 对多样内容的泛化能力: 该方法在标准基准数据集上进行评估;在高度动态或程序生成内容(例如视频游戏、VR)上的表现仍是未解之谜。

未来的研究方向包括端到端联合优化超网络和残差编码器、学习式运动估计以实现更紧密的时间一致性,以及探索基于 Transformer 的超网络,以在不导致内存爆炸的情况下捕获更长距离的依赖关系。

作者

  • Namitha Padmanabhan
  • Matthew Gwilliam
  • Abhinav Shrivastava

论文信息

  • arXiv ID: 2602.16711v1
  • Categories: cs.CV
  • Published: 2026年2月18日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »