利用生成式 AI 技术将经典剧集画质提升至 4K 级别
I’m ready to translate the article for you, but I need the full text you’d like translated. Could you please paste the content (excluding the source line you already provided) here? Once I have the text, I’ll translate it into Simplified Chinese while preserving all formatting, markdown, and technical terms as requested.
引言
VD 事业部画质 Solution Lab 的李贤胜。我在本文中将介绍一种通过 AI 技术将早期制作的经典电视剧自动重新制作成 4K 级别画质的技术。我们将说明该技术的背景与发展趋势、在服务应用时遇到的问题以及实验结果。
画质重制概述
![그림 1. 대부 영상 리마스터링 전/후]
图 1. 《教父》影片重制前后
重制的目的是在保留原作魅力的同时提升画质,并按照现代感进行调校,为观众提供全新的观影体验。
- 先将过去的胶片以数字方式扫描,然后修复受损的画面并进行颜色校正。
- 也会对如广播公司内容等以模拟视频标准(NTSC)低画质保存的资料进行修复。
此类工作需要影像修复专家和色彩专家手工完成,因此耗时且成本高。图 1 是最近以重制版发行的电影 《教父》 的前后对比画面,重制后清晰度提升,噪点降低,色调也更符合现代审美。
基于信号处理的超分辨率图像恢复
画质提升是指在图像获取·存储过程中产生的退化,通过数字信号处理技术进行恢复的工作。退化主要表现为噪声、分辨率不足、抖动、颜色损失等。
传统上,以信号处理理论为基础的方法占主导,但随着近期深度学习技术的发展,基于学习的方法已成为主流。这里主要介绍超分辨率(Super‑Resolution)方法。
插值滤波
![그림 2. 보간 필터]
图 2. 插值滤波
在将低分辨率图像转换为高分辨率时,最常用的方法是插值(Interpolation)。它通过将周围像素用直线·曲线等方式连接,计算新的像素值。插值运算量小,适合实时处理,但由于信息量没有增加,放大的图像会显得模糊,这是其局限。
基于退化模型的分辨率恢复
![그림 3. 열화 모델 기반 해상도 복원]
图 3. 基于退化模型的分辨率恢复
将退化模型用公式定义,并优化逆过程以估计高分辨率。模型越准确,能够恢复的信息就越多,优于插值,但在实际环境中很难估计出精确的退化模型,导致性能受限。
基于 AI 的超分辨率视频恢复方法
![图 4. 基于 AI 的分辨率恢复]
图 4. 基于 AI 的分辨率恢复
AI 基于方法学习低分辨率与高分辨率图像之间的转换关系,并在推理时加以利用。
- RAISR (2016) – 通过学习多个滤波器,根据输入补丁的方向性和一致性选择最合适的滤波器。
- VDSR – 利用深度学习网络和 Skip Connection,在深层结构中实现有效的超分辨率学习。
根据训练数据、退化模型、目标函数的设计,可以获得多种恢复性能。
生成式 AI 模型介绍
![그림 5. 생성형 AI 모델]
图 5. 生成式 AI 模型
生成式模型通过学习数据的概率分布进行近似。主要类型包括 VAE、GAN、Diffusion、LLM 等。这里简要介绍 Denoising Diffusion Model。
- 在结构上是多个 VAE 连接的形式,逐步去除噪声信号以生成图像。
- Latent Diffusion Model 在潜在空间(Latent Space)中执行 Diffusion 过程,大幅降低采样复杂度。
Control Net
![그림 6. 생성형 AI 모델의 제어]
图 6. 生成式 AI 模型的控制
Control Net 在不重新训练原有生成模型的情况下,以 Add‑On 形式结合额外模块,使用户能够按期望的方向调节结果。通过提供图像的轮廓、姿态、深度信息等作为条件,引导 Denoising 过程。
基于生成式 AI 的超分辨率视频恢复技术及应用案例
![그림 7. 생성형 이미지 모델 기반 해상도 향상]
图 7. 基于生成式图像模型的分辨率提升
2024 年发表的 Stable SR 论文首次提出了利用生成式模型的超分辨率方法。
- 将低分辨率视频作为去噪的控制条件输入,模型参考结构信息生成高分辨率视频。
- 即使在画质严重退化的视频中,也展示出比现有方法更出色的细节恢复。
局限性与问题
![그림 8. 생성형 AI 모델 기반 이미지 화질 개선 알고리즘의 한계]
图 8. 基于生成式 AI 模型的图像画质改进算法的局限性
- 帧间一致性不足 – 在连续视频中,各帧生成不同的结果,导致抖动现象。
- 模拟噪声应对局限 – 由于原论文定义的视频退化模型与传统视频的噪声特性不同,导致性能下降。
为了解决这些问题,我们设计了专门针对模拟噪声去除的网络架构。
保持时空一致性的视频超分辨率模型
![그림 9. 시공간 일관성 유지 동영상 해상도 복원 모델]
图 9. 保持时空一致性的视频分辨率恢复模型
与浦项工科大学共同开发的基于 Video Diffusion Model 的算法在帧群组内部保证生成的一致性。
- 限制 – 受 GPU 内存限制,仅能处理时长不足 16 秒的低分辨率视频。
- 解决 – 应用了 时空 Tiling 技术,并通过传播 K、V Attention 来保持 Tile 之间的一致性。
左侧展示了将全局 Key‑Value 传递到 patch 以确保空间一致性的过程,右侧展示了相邻帧之间共享 Attention 信息的方式。
性能比较
![그림 10. 프레임별 생성형 모델의 일관성 유지 성능 비교]
图 10. 按帧的生成式模型一致性保持性能比较
实验表明,所提方法在恢复能力和时间一致性方面均优于现有方法。
并行处理流水线
![그림 11. 병렬 처리 비디오 파이프라인]
图 11. 并行处理视频流水线
要进行高质量 4K 重制,需要 算法轻量化 和 采样次数优化。
- 将 GPU 服务器按场景(Scene)划分并进行 并行处理,即可连续恢复数小时的视频。
重制前后对比
![그림 12. 리마스터링 전/후 결과]
图 12. 重制前/后对比
通过生成式 AI 的画质提升,已恢复了丢失的细节和颜色。尤其是面部的眼、鼻、口等微小要素得以重现。
应用现状
本技术目前已应用于 三星 TV Plus 重制频道,将20余年前的名作以 4K 级别进行流媒体播放。
谢谢。
出处
- Restoring The Godfather Trilogy in 4K Clip (EXCLUSIVE) (※ 图片·图表为正文中示例,实际文件路径未另行提供。)
[2] S. C. Park *et al.*, “Super‑Resolution Image Reconstruction,” *Signal Processing Magazine*, May 2003.
[3] Y. Romano *et al.*, “RAISR: Rapid and Accurate Image Super‑Resolution,” *IEEE Transactions on Computational Imaging*, 2016.
[4] J. Kim *et al.*, “Accurate Image Super‑Resolution Using Very Deep Convolutional Networks,” *CVPR*, 2016.
[5] Vahdat *et al.*, “Score‑based Generative Modeling in Latent Space,” *NeurIPS*, 2021.
[6] R. Rombach *et al.*, “High‑Resolution Image Synthesis with Latent Diffusion Models,” *CVPR*, 2022.
[7] L. Zhang *et al.*, “Adding Conditional Control to Text‑to‑Image Diffusion Models,” *ICCV*, 2023.
[8] J. Wang *et al.*, “Exploiting Diffusion Prior for Real‑World Image Super‑Resolution,” *IJCV*, 2024.
[9] Han *et al.*, “DC‑VSR: Spatially and Temporally Consistent Video Super‑Resolution,” *SIGGRAPH*, 2025.