[论文] 多目标Pareto前沿优化用于高效自适应VVC流媒体

发布: 3周前 (2026年1月16日 GMT+8 01:23)

7 分钟阅读

原文: arXiv

Source: arXiv - 2601.10607v1

概述

本文提出了一种 多目标帕累托前沿优化框架，用于在可变视频编码（VVC）流中构建自适应比特率梯度。通过同时考虑视频质量、比特率和解码时间（作为能耗的代理），作者展示了如何在降低带宽的同时提供更高质量的视频，并保持设备功耗在可接受范围内。

基于 Pareto‑front 的码率层设计：两种新颖的公式——JRQT‑PF（joint rate‑quality‑time）和 JQT‑PF（joint quality‑time），能够生成内容感知、质量单调的码率层。
质量单调性约束：保证更高分辨率或更高码率的表示永不产生更低的感知质量，保持平滑的体验质量（QoE）。
全面评估：在大规模 4K UHD 数据集（Inter‑4K）上使用 PSNR、VMAF 和 XPSNR 进行质量评估，使用解码时间/能耗评估复杂度。
显著节省：JQT‑PF 实现最高 27.9 % 的码率降低，且对解码时间影响极小；JRQT‑PF 提供约 6 % 码率和 6 % 解码时间的平衡提升。
基准优势：优于固定层、基于 VMAF 的动态分辨率选择以及其他复杂度感知基线。

数据准备 – 作者对每个源视频在多种分辨率、比特率和 VVC 配置下进行编码，测量得到的质量分数（PSNR、VMAF、XPSNR）以及在参考设备上的解码时间。
Pareto 前沿构建 –
- JRQT‑PF 将比特率、质量和解码时间视为三个同步目标。
- JQT‑PF 固定比特率（或将其视为次要约束），仅在质量与解码时间之间进行优化。
- 对于每个内容项，非支配点（即不存在其他点在所有目标上都更优的点）构成 Pareto 前沿。
阶梯提取 – 从 Pareto 前沿中选取一条单调阶梯，要求在阶梯上升时质量永不下降。这样得到一组“配置文件”，供自适应流媒体客户端在不同层级之间切换。
评估流程 – 通过模拟自适应流媒体会话，将所提议的阶梯与传统固定阶梯及其他动态方案进行比较，测量在保持目标质量不变的前提下的平均比特率、解码时间和能耗。

指标	固定层级（基线）	JQT‑PF	JRQT‑PF
平均比特率降低	–	‑11.8 %（XPSNR 匹配）	‑6.4 %
解码时间变化	–	‑0.3 %（小幅提升）	‑6.2 %
最佳情况比特率节省	–	‑27.9 %（更高复杂度）	–
能耗影响	–	轻微降低（与时间相关）	约‑6 %

质量保持：所有方法都保持与基线相同的 XPSNR（或 VMAF），证实比特率节省不会降低感知质量。
权衡灵活性：JQT‑PF 在比特率上更具侵略性，但会导致解码时间略有增加，适用于带宽高且客户端强大的网络。JRQT‑PF 在比特率和处理负载上提供更平衡的降低，适合受限设备。
跨内容的鲁棒性：Pareto 前沿方法会自动适应场景复杂度、运动和纹理，提供针对内容的特定层级，无需手动调节。

Streaming services can integrate the Pareto‑front ladder generator into their encoding pipelines to produce dynamic, device‑aware playlists that reduce CDN bandwidth bills while keeping QoE stable.
Edge and mobile platforms benefit from the decoding‑time/energy reductions, extending battery life and lowering thermal throttling on smartphones, tablets, and set‑top boxes.
Adaptive bitrate (ABR) algorithms can be enhanced to query the Pareto‑front ladder for the “best‑fit” representation given current network bandwidth and device capability, rather than relying on static, one‑size‑fits‑all ladders.
VVC adoption becomes more attractive: the framework mitigates one of the main concerns—higher decoder complexity—by explicitly accounting for it during ladder construction.
Open‑source tooling: The authors’ methodology can be packaged as a command‑line utility or library (e.g., Python + FFmpeg bindings) that takes a set of encoded assets and outputs a JSON ladder ready for DASH/HLS manifests.

总体而言，本文提供了一条扎实的、面向工程的路径，实现更智能的 VVC 流媒体，在带宽、视觉保真度和设备功耗之间取得平衡——这些都是任何现代视频平台的关键关注点。