[论文] 多目标Pareto前沿优化用于高效自适应VVC流媒体

发布: (2026年1月16日 GMT+8 01:23)
7 min read
原文: arXiv

Source: arXiv - 2601.10607v1

概述

本文提出了一种 多目标帕累托前沿优化框架,用于在可变视频编码(VVC)流中构建自适应比特率梯度。通过同时考虑视频质量、比特率和解码时间(作为能耗的代理),作者展示了如何在降低带宽的同时提供更高质量的视频,并保持设备功耗在可接受范围内。

关键贡献

  • 基于 Pareto‑front 的码率层设计:两种新颖的公式——JRQT‑PF(joint rate‑quality‑time)和 JQT‑PF(joint quality‑time),能够生成内容感知、质量单调的码率层。
  • 质量单调性约束:保证更高分辨率或更高码率的表示永不产生更低的感知质量,保持平滑的体验质量(QoE)。
  • 全面评估:在大规模 4K UHD 数据集(Inter‑4K)上使用 PSNR、VMAF 和 XPSNR 进行质量评估,使用解码时间/能耗评估复杂度。
  • 显著节省:JQT‑PF 实现最高 27.9 % 的码率降低,且对解码时间影响极小;JRQT‑PF 提供约 6 % 码率和 6 % 解码时间的平衡提升。
  • 基准优势:优于固定层、基于 VMAF 的动态分辨率选择以及其他复杂度感知基线。

方法论

  1. 数据准备 – 作者对每个源视频在多种分辨率、比特率和 VVC 配置下进行编码,测量得到的质量分数(PSNR、VMAF、XPSNR)以及在参考设备上的解码时间。
  2. Pareto 前沿构建
    • JRQT‑PF 将比特率、质量和解码时间视为三个同步目标。
    • JQT‑PF 固定比特率(或将其视为次要约束),仅在质量与解码时间之间进行优化。
    • 对于每个内容项,非支配点(即不存在其他点在所有目标上都更优的点)构成 Pareto 前沿。
  3. 阶梯提取 – 从 Pareto 前沿中选取一条单调阶梯,要求在阶梯上升时质量永不下降。这样得到一组“配置文件”,供自适应流媒体客户端在不同层级之间切换。
  4. 评估流程 – 通过模拟自适应流媒体会话,将所提议的阶梯与传统固定阶梯及其他动态方案进行比较,测量在保持目标质量不变的前提下的平均比特率、解码时间和能耗。

结果与发现

指标固定层级(基线)JQT‑PFJRQT‑PF
平均比特率降低‑11.8 %(XPSNR 匹配)‑6.4 %
解码时间变化‑0.3 %(小幅提升)‑6.2 %
最佳情况比特率节省‑27.9 %(更高复杂度)
能耗影响轻微降低(与时间相关)约‑6 %
  • 质量保持:所有方法都保持与基线相同的 XPSNR(或 VMAF),证实比特率节省不会降低感知质量。
  • 权衡灵活性:JQT‑PF 在比特率上更具侵略性,但会导致解码时间略有增加,适用于带宽高且客户端强大的网络。JRQT‑PF 在比特率和处理负载上提供更平衡的降低,适合受限设备。
  • 跨内容的鲁棒性:Pareto 前沿方法会自动适应场景复杂度、运动和纹理,提供针对内容的特定层级,无需手动调节。

Practical Implications

  • Streaming services can integrate the Pareto‑front ladder generator into their encoding pipelines to produce dynamic, device‑aware playlists that reduce CDN bandwidth bills while keeping QoE stable.
  • Edge and mobile platforms benefit from the decoding‑time/energy reductions, extending battery life and lowering thermal throttling on smartphones, tablets, and set‑top boxes.
  • Adaptive bitrate (ABR) algorithms can be enhanced to query the Pareto‑front ladder for the “best‑fit” representation given current network bandwidth and device capability, rather than relying on static, one‑size‑fits‑all ladders.
  • VVC adoption becomes more attractive: the framework mitigates one of the main concerns—higher decoder complexity—by explicitly accounting for it during ladder construction.
  • Open‑source tooling: The authors’ methodology can be packaged as a command‑line utility or library (e.g., Python + FFmpeg bindings) that takes a set of encoded assets and outputs a JSON ladder ready for DASH/HLS manifests.

限制与未来工作

  • 解码器特定测量:解码时间和能耗仅在单一硬件配置上测量;在不同的 GPU、ARM CPU 或专用 ASIC 解码器上结果可能会有所差异。
  • 静态内容分析:Pareto 前沿是离线为每个视频构建的;实时内容变化(例如直播流)需要即时估计或预测模型。
  • 目标加权:当前的公式对各目标的权重相同或仅使用简单约束;更复杂的效用函数(例如以用户为中心的 QoE 模型)可以进一步细化权衡。
  • 大规模目录的可扩展性:为成千上万的标题生成 Pareto 前沿可能计算量大;未来工作可以探索机器学习代理,以快速近似前沿。

总体而言,本文提供了一条扎实的、面向工程的路径,实现更智能的 VVC 流媒体,在带宽、视觉保真度和设备功耗之间取得平衡——这些都是任何现代视频平台的关键关注点。

作者

  • Angeliki Katsenou
  • Vignesh V. Menon
  • Guoda Laurinaviciute
  • Benjamin Bross
  • Detlev Marpe

论文信息

  • arXiv ID: 2601.10607v1
  • 分类: eess.IV, cs.CV
  • 发表时间: 2026年1月15日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »