[论文] TeCoNeRV：利用时间一致性实现可压缩的视频神经表示

发布: 3天前 (2026年2月19日 GMT+8 02:59)

8 分钟阅读

原文: arXiv

Source: arXiv - 2602.16711v1

概览

论文 “TeCoNeRV: Leveraging Temporal Coherence for Compressible Neural Representations for Videos” 解决了基于神经网络的视频压缩的一个核心瓶颈：需要为每个视频训练一个独立的隐式神经表示（INR），这在处理高分辨率内容时很快变得不可行。通过重新设计超网络在空间和时间上预测 INR 权重的方式，作者实现了显著更低的内存占用、更快的编码速度以及更高的视觉质量——使神经视频编解码器成为现实世界流水线中的可行选项。

关键贡献

时空权重分解： 将视频划分为短 patch‑tubelets（跨几帧的小空间块），并独立预测每个 tubelet 的 INR 权重，将预训练内存降低约 20 倍。
基于残差的存储方案： 仅存储相邻段表示之间的差异，在不牺牲保真度的前提下压缩最终比特流。
时间一致性正则化： 添加一个损失，使权重空间的变化与实际视频运动对齐，促进帧间权重更新更平滑、更可预测。
领先的性能表现： 在前一超网络基线基础上实现 +2.47 dB（480p）和 +5.35 dB（720p）PSNR 提升，码率降低 36 %，编码速度提升 1.5‑3 倍。
可扩展至 1080p： 首个基于超网络的方法在 480p、720p、1080p 基准（UVG、HEVC、MCL‑JCV）上展示竞争力结果，同时保持适度的 GPU 内存占用。

方法论

Patch‑Tubelet Partitioning
- 将输入视频切分为重叠的空间块（例如 32×32 像素）。
- 对每个块，取一个短时间窗口（通常 4‑8 帧）形成 tubelet。
- 这降低了权重预测问题的维度，因为每个超网络只需建模一个极小的时空片段，而不是整段帧序列。
Hypernetwork Design
- 一个轻量级超网络接受 tubelet 的原始像素值，输出一个小型 INR（将 (x, y, t) → RGB 的多层感知机）的参数。
- 由于 tubelet 很小，超网络可以在单个 GPU 上训练，所需显存远低于整体视频范围的单体超网络。
Residual Weight Encoding
- 超网络为 tubelet i 预测权重后，系统计算相对于 tubelet i‑1 的残差。
- 仅对这些残差进行熵编码，利用相邻 tubelet（无论在空间上还是时间上）往往具有非常相似的权重模式这一事实。
Temporal Coherence Regularizer
- 辅助损失惩罚与底层运动场（通过简单的光流或块匹配步骤估计）不对齐的权重变化。
- 这鼓励超网络产生“跟随”视频实际时间动态的权重轨迹，从而得到更平滑的重建并简化残差压缩。
Training & Inference Pipeline
- 超网络在大规模视频块语料库上进行预训练。
- 测试时，对新视频，超网络在其自身的块上进行微调（少量梯度步）以适应特定内容，然后对残差进行编码并流式传输。

结果与发现

分辨率	数据集	PSNR（基线）	PSNR（TeCoNeRV）	比特率降低	编码加速
480p	UVG	31.2 dB	33.7 dB	36 %	1.8×
720p	UVG	28.9 dB	34.2 dB	36 %	2.2×
1080p	HEVC	—	≈34 dB	—	1.5×

质量提升主要来自时间一致性正则化器，它能够减少闪烁和环形伪影。
内存使用从 >30 GB（全帧超网络）降至 <1.5 GB，能够在单块 RTX 3090 上进行训练。
比特流大小缩小，因为残差高度可压缩；熵编码相较于原始权重存储实现了近乎最优的码率。

实际影响

边缘设备视频流媒体: 低内存、快速编码的流水线使得在 VRAM 受限的设备（如智能手机、嵌入式 GPU）上实时生成神经压缩流成为可能。
自适应码率（ABR）系统: 由于每个 tubelet 可以独立编码，服务器能够根据网络状况动态调整每段的残差码率，类似于现代的 DASH/HLS 分块。
内容感知编辑: 由于 INR 参数明确关联到时空补丁，开发者可以对单个 tubelet 进行操作（例如，用更高质量的版本替换某个补丁），而无需重新编码整段视频。
与现有编解码器的集成: TeCoNeRV 的残差可以与传统编解码器融合（例如，作为补充增强层），提供一种混合方案，既利用 HEVC 的鲁棒性，又获得神经表示的灵活性。
从研究到产品的路径: 模块化设计（补丁‑tubelet 超网络 + 残差编码器）非常契合微服务架构，团队可以在不重新设计整个系统的情况下替换或升级组件（例如，换用不同的光流估计器）。

限制与未来工作

微调开销: 虽然编码比之前的超网络方法更快，但每个视频仍需进行短暂的微调阶段，这在超低延迟场景下可能成为障碍。
补丁边界伪影: 对 tubelet 的独立处理可能在补丁边界产生接缝；作者通过重叠取平均来缓解，但更复杂的混合方式可以提升视觉连续性。
1080p 以上的可扩展性: 虽然 1080p 的结果令人鼓舞，但内存和计算需求仍随更高分辨率增长；层次化 tubelet 方案或混合精度训练是潜在的解决办法。
对多样内容的泛化能力: 该方法在标准基准数据集上进行评估；在高度动态或程序生成内容（例如视频游戏、VR）上的表现仍是未解之谜。

未来的研究方向包括端到端联合优化超网络和残差编码器、学习式运动估计以实现更紧密的时间一致性，以及探索基于 Transformer 的超网络，以在不导致内存爆炸的情况下捕获更长距离的依赖关系。

作者

Namitha Padmanabhan
Matthew Gwilliam
Abhinav Shrivastava

论文信息

arXiv ID: 2602.16711v1
Categories: cs.CV
Published: 2026年2月18日
PDF: 下载 PDF

[论文] TeCoNeRV：利用时间一致性实现可压缩的视频神经表示

概览

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] OpenEarthAgent：用于工具增强的地理空间代理的统一框架

[Paper] 当视觉压倒语言：评估与缓解 VLAs 中的反事实失效

人类水平的 3D 形状感知源于多视图学习

[Paper] 通过细粒度细节定位推动黑盒 LVLM 攻击的前沿