[Paper] DiffBench 与 DiffAgent：端到端 LLM 驱动的 Diffusion 加速代码生成

发布: 1个月前 (2026年1月7日 GMT+8 00:55)

8 分钟阅读

原文: arXiv

Source: arXiv - 2601.03178v1

概述

扩散模型是当今高保真图像和视频生成器的核心，但它们的多步推理管线使得在生产环境中使用时速度极慢。论文 DiffBench Meets DiffAgent 通过结合两大趋势来解决这一瓶颈：

其结果是一个可复现的端到端流水线，能够将普通的扩散模型转化为生产就绪、低延迟的服务，且几乎不需要人工干预。

DiffBench: 一个统一的基准，覆盖广泛的扩散架构（例如 UNet、基于 Transformer 的）、硬件后端（GPU、CPU、边缘加速器）以及加速技术（剪枝、量化、知识蒸馏、调度器微调）。它提供了一个三阶段的自动评估流水线：
1. 代码生成，
2. 功能正确性测试，和
3. 性能分析。
DiffAgent: 一个由 LLM 驱动的自主代理，迭代提出加速策略，生成相应的 Python/C++ 代码，运行并使用类似遗传算法的反馈回路来进化更好的解决方案。该代理包括：
- Planner – 根据模型元数据选择有前景的技术组合。
- Code Generator – 提示大型语言模型（例如 GPT‑4）生成实现片段。
- Debugger – 解析运行时错误并将其反馈给 Planner。
- Genetic Optimizer – 将每个生成的脚本视为个体，进行变异/重组，并挑选出吞吐量最高的候选者。
闭环评估: 整个工作流无需人工干预即可运行，能够快速为新扩散模型原型化加速流水线。
实证验证: 在 12 种扩散模型和 7 种硬件配置上，DiffAgent 始终优于基线 LLM 提示和手工编写的加速脚本，实现了最高 3.2× 的加速，同时质量下降不足 1%。

整理了一个包含 12 种开源扩散模型的数据集，覆盖文本到图像、视频和超分辨率任务。
为 9 种流行的加速原语实现了包装器（例如 TensorRT INT8、ONNX Runtime、权重剪枝）。
定义了三个评估阶段：
- 正确性：验证加速后的模型输出在预设的 PSNR/LPIPS 容差范围内。
- 性能：在每个目标设备上测量延迟、吞吐量和内存占用。
- 鲁棒性：使用不同的批量大小和随机种子进行压力测试。

规划：代理提取模型特征（层类型、参数数量），并查询技术兼容性的知识库。
代码生成：它构造包含模型 API、期望加速目标和硬件约束的提示，然后将该提示发送给 LLM。LLM 返回一个自包含的脚本（通常是 PyTorch、TorchScript 与自定义 CUDA 核心的混合）。
调试与反馈：解析执行日志以捕获错误（例如缺少算子、形状不匹配）。调试器会带着纠正提示重新编写提示。
遗传优化：每个脚本被视为基因组；突变算子随机切换技术（例如从 FP16 切换到 INT8）。适应度函数综合考虑延迟提升和质量损失。经过多代演化，代理收敛到高性能的解决方案。

Model (Task)	Baseline Latency (ms)	DiffAgent Latency (ms)	Speed‑up	Quality Δ (LPIPS)
StableDiffusion‑v1.5 (text‑to‑image)	1200	380	3.2×	+0.006
VideoDiffusion‑2 (16‑frame video)	5400	1700	3.2×	+0.009
Real‑ESRGAN (super‑resolution)	850	280	3.0×	+0.004

Higher‑order combos win: 最佳脚本结合了 operator fusion + mixed‑precision + kernel‑level pruning。
Genetic feedback matters: 仅使用纯 LLM 提示且不进行进化循环的情况下，速度提升停滞在约 1.5×。
Hardware‑aware tuning: 在边缘 GPU（如 Jetson Nano）上，代理学会倾向使用 INT8 量化和激进的 kernel tiling，在保持设备内存预算的前提下实现了 2.4× 的提升。

快速部署： 团队可以将新的 diffusion 检查点输入 DiffAgent，并在一小时内获得可投入生产、已优化的推理脚本——大幅缩短“研究到产品”的周期。
成本节约： 更快的推理直接转化为更低的云 GPU 费用。典型的 Stable Diffusion 服务提升 3 倍速度，可将月度计算支出削减约 30%。
边缘 AI 赋能： 框架的硬件感知组件使得在边缘设备（移动端、AR/VR 头显）上运行 diffusion 模型成为可能，而这些设备此前只能运行轻量级分类器。
标准化评估： DiffBench 可作为社区参考，用于在相同条件下比较新的加速库（例如 NVIDIA 的 FasterTransformer、Intel 的 OpenVINO）。

总体而言，DiffBench 和 DiffAgent 展示了一个引人注目的方向：使用 LLM 不仅用于代码补全，而是用于端到端系统优化，将过去手工进行的扩散加速艺术转变为自动化、可复现的工作流。