[Paper] DiffBench 与 DiffAgent:端到端 LLM 驱动的 Diffusion 加速代码生成

发布: (2026年1月7日 GMT+8 00:55)
8 min read
原文: arXiv

Source: arXiv - 2601.03178v1

概述

扩散模型是当今高保真图像和视频生成器的核心,但它们的多步推理管线使得在生产环境中使用时速度极慢。论文 DiffBench Meets DiffAgent 通过结合两大趋势来解决这一瓶颈:

  1. 一个系统化基准(DiffBench),用于衡量不同加速技巧的协同效果;
  2. 一个由大语言模型驱动的“代理”(DiffAgent),能够自动编写、测试并优化代码,以加速任何扩散模型。

其结果是一个可复现的端到端流水线,能够将普通的扩散模型转化为生产就绪、低延迟的服务,且几乎不需要人工干预。

关键贡献

  • DiffBench: 一个统一的基准,覆盖广泛的扩散架构(例如 UNet、基于 Transformer 的)、硬件后端(GPU、CPU、边缘加速器)以及加速技术(剪枝、量化、知识蒸馏、调度器微调)。它提供了一个三阶段的自动评估流水线:

    1. 代码生成,
    2. 功能正确性测试,和
    3. 性能分析。
  • DiffAgent: 一个由 LLM 驱动的自主代理,迭代提出加速策略,生成相应的 Python/C++ 代码,运行并使用类似遗传算法的反馈回路来进化更好的解决方案。该代理包括:

    • Planner – 根据模型元数据选择有前景的技术组合。
    • Code Generator – 提示大型语言模型(例如 GPT‑4)生成实现片段。
    • Debugger – 解析运行时错误并将其反馈给 Planner。
    • Genetic Optimizer – 将每个生成的脚本视为个体,进行变异/重组,并挑选出吞吐量最高的候选者。
  • 闭环评估: 整个工作流无需人工干预即可运行,能够快速为新扩散模型原型化加速流水线。

  • 实证验证: 在 12 种扩散模型和 7 种硬件配置上,DiffAgent 始终优于基线 LLM 提示和手工编写的加速脚本,实现了最高 3.2× 的加速,同时质量下降不足 1%。

方法论

1. 基准构建 (DiffBench)

  • 整理了一个包含 12 种开源扩散模型的数据集,覆盖文本到图像、视频和超分辨率任务。
  • 为 9 种流行的加速原语实现了包装器(例如 TensorRT INT8、ONNX Runtime、权重剪枝)。
  • 定义了三个评估阶段:
    • 正确性:验证加速后的模型输出在预设的 PSNR/LPIPS 容差范围内。
    • 性能:在每个目标设备上测量延迟、吞吐量和内存占用。
    • 鲁棒性:使用不同的批量大小和随机种子进行压力测试。

2. 代理设计 (DiffAgent)

  • 规划:代理提取模型特征(层类型、参数数量),并查询技术兼容性的知识库。
  • 代码生成:它构造包含模型 API、期望加速目标和硬件约束的提示,然后将该提示发送给 LLM。LLM 返回一个自包含的脚本(通常是 PyTorch、TorchScript 与自定义 CUDA 核心的混合)。
  • 调试与反馈:解析执行日志以捕获错误(例如缺少算子、形状不匹配)。调试器会带着纠正提示重新编写提示。
  • 遗传优化:每个脚本被视为基因组;突变算子随机切换技术(例如从 FP16 切换到 INT8)。适应度函数综合考虑延迟提升和质量损失。经过多代演化,代理收敛到高性能的解决方案。

3. 评估循环

  • 自动编译、加载并通过 DiffBench 对生成的代码进行基准测试。
  • 将结果反馈给遗传优化器,决定保留、丢弃或突变该候选方案。

结果与发现

Model (Task)Baseline Latency (ms)DiffAgent Latency (ms)Speed‑upQuality Δ (LPIPS)
StableDiffusion‑v1.5 (text‑to‑image)12003803.2×+0.006
VideoDiffusion‑2 (16‑frame video)540017003.2×+0.009
Real‑ESRGAN (super‑resolution)8502803.0×+0.004
  • Higher‑order combos win: 最佳脚本结合了 operator fusion + mixed‑precision + kernel‑level pruning
  • Genetic feedback matters: 仅使用纯 LLM 提示且不进行进化循环的情况下,速度提升停滞在约 1.5×。
  • Hardware‑aware tuning: 在边缘 GPU(如 Jetson Nano)上,代理学会倾向使用 INT8 量化和激进的 kernel tiling,在保持设备内存预算的前提下实现了 2.4× 的提升。

实际影响

  • 快速部署: 团队可以将新的 diffusion 检查点输入 DiffAgent,并在一小时内获得可投入生产、已优化的推理脚本——大幅缩短“研究到产品”的周期。
  • 成本节约: 更快的推理直接转化为更低的云 GPU 费用。典型的 Stable Diffusion 服务提升 3 倍速度,可将月度计算支出削减约 30%。
  • 边缘 AI 赋能: 框架的硬件感知组件使得在边缘设备(移动端、AR/VR 头显)上运行 diffusion 模型成为可能,而这些设备此前只能运行轻量级分类器。
  • 标准化评估: DiffBench 可作为社区参考,用于在相同条件下比较新的加速库(例如 NVIDIA 的 FasterTransformer、Intel 的 OpenVINO)。

限制与未来工作

  • LLM 依赖性: 生成代码的质量取决于底层 LLM;较旧或规模较小的模型可能会产生无法编译的脚本,增加调试负担。
  • 搜索空间爆炸: 遗传算法在技术的组合空间中进行探索;虽然对评估的模型有效,但若扩展到数十种技术,可能需要更复杂的搜索启发式方法(例如强化学习)。
  • 质量度量范围: 论文聚焦于 LPIPS/PSNR;其他下游度量(例如文本到图像的 CLIP 相似度)未进行评估,这可能会影响某些应用中的感知质量。
  • 安全与可靠性: 自动生成的 CUDA 核函数可能无意中引入内存安全漏洞;未来版本应集成静态分析或沙箱执行。

总体而言,DiffBench 和 DiffAgent 展示了一个引人注目的方向:使用 LLM 不仅用于代码补全,而是用于端到端系统优化,将过去手工进行的扩散加速艺术转变为自动化、可复现的工作流。

作者

  • Jiajun jiao
  • Haowei Zhu
  • Puyuan Yang
  • Jianghui Wang
  • Ji Liu
  • Ziqiong Liu
  • Dong Li
  • Yuejian Fang
  • Junhai Yong
  • Bin Wang
  • Emad Barsoum

论文信息

  • arXiv ID: 2601.03178v1
  • 分类: cs.CV
  • 发表时间: 2026年1月6日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »