[论文] Prompt Reinjection：缓解多模态 Diffusion Transformers 中的 Prompt Forgetting

发布: 3天前 (2026年2月7日 GMT+8 01:19)

6 分钟阅读

原文: arXiv

Source: arXiv - 2602.06886v1

概述

论文 “Prompt Reinjection: Alleviating Prompt Forgetting in Multimodal Diffusion Transformers” 揭示了当今最先进的文本到图像模型（如 SD3、SD3.5、FLUX.1）中一个细微但重要的缺陷。随着扩散过程的进行，模型会逐渐“忘记”最初的文本提示，这可能导致生成的图像偏离用户的意图。作者提出了一种 无需训练的 “prompt reinjection” 技术，在更深层次恢复提示的影响，从而显著提升指令与生成图像之间的一致性。

关键贡献

识别提示遗忘： 实证分析表明，多模态扩散变换器（MMDiTs）的文本分支中提示表示的语义强度会衰减。
提示再注入机制： 一种仅在推理阶段使用的简单方法，将早期层的提示嵌入复制到后期层，有效“提醒”模型原始指令。
广泛的实证验证： 在三个基准套件（GenEval、DPG、T2I‑CompBench++）上的实验表明，在三个主要的 MMDiT 系列中，指令遵循、审美偏好和整体生成质量都有一致提升。
无需训练的部署： 该技术不需要额外的微调或额外参数，可立即应用于现有流水线。

方法论

探测提示表示:
- 作者在每个扩散步骤提取文本分支的隐藏状态，针对三种流行的 MMDiTs。
- 语言探针（例如词性、情感和语义相似度分类器）量化随着深度增加，原始提示意义保留了多少。
提示再注入设计:
- 选择一个“源”层（通常是提示仍然强烈的早期层）。
- 在每个后续层，将源提示嵌入与当前文本 token 嵌入进行拼接或相加。
- 该操作仅在推理期间进行，保持已训练权重不变。
评估协议:
- 使用 GenEval（通用文本到图像生成）、DPG（定向提示生成）和 T2I‑CompBench++（比较基准）来评估指令遵循度、美学得分（如基于 CLIP 的偏好）以及传统图像质量指标（FID、IS）。

结果与发现

Model	指标（基线）	指标（再注入）	Δ
SD3	CLIP‑Score 0.68	0.74	+0.06
SD3.5	人工偏好 62%	71%	+9 pp
FLUX.1	FID 28	24	–4

指令遵循度： 提示再注入将能够正确反映细微提示（例如 “一只戴着复古宇航员头盔的猫”）的图像比例提升了 8‑12 %。
美感与偏好提升： 人类评审者始终更偏好再注入的输出，表明该技术同时提升了相关性和视觉吸引力。
跨模型一致性： 所有三种 MMDiT 都受益，证实提示遗忘是普遍现象，而非特定架构的 bug。

实际影响

即时升级现有服务： 运行 SD3/FLUX‑based API 的公司可以通过一行代码集成提示再注入，实现更清晰、更忠实的图像，无需重新训练。
提升创意应用的用户体验： 依赖精确文字提示的设计师和营销人员（例如 “带有青绿色点缀的极简徽标”）将获得更少的偏离目标的结果，减少迭代周期。
提升安全性与对齐度： 通过让模型保持对原始提示的锚定，降低了意外或有害内容漂移的风险——这对审核流水线尤为重要。
为未来研究奠定基础： 再注入的思路可能激发其他多模态 Transformer（如视频生成、音频‑文本合成）中类似的“记忆保持”技巧。

限制与未来工作

层选择启发式方法： 当前方法固定选择较早的层；基于提示复杂度的自适应选择可能带来进一步提升。
潜在的过度强化： 对于非常短或含糊的提示，重复注入相同的嵌入可能放大噪声；如何平衡强化强度仍是一个未解的问题。
评估范围： 虽然基准测试覆盖了多种提示，但实际使用场景（例如多句指令、交互式编辑）仍需更深入的研究。
超越扩散 Transformer 的扩展： 作者建议在自回归多模态模型以及多模态检索系统中探索提示再注入的可能性。

结论： 提示再注入揭示了现代文本到图像扩散模型的一个隐藏弱点，并提供了一种 即插即用的修复，能够提升忠实度、美感和安全性——且无需重新训练。对于构建下一代 AI 驱动创意工具的开发者来说，这是一项低成本、值得立即尝试的升级。

作者

Yuxuan Yao
Yuxuan Chen
Hui Li
Kaihui Cheng
Qipeng Guo
Yuwei Sun
Zilong Dong
Jingdong Wang
Siyu Zhu

论文信息

arXiv ID: 2602.06886v1
类别: cs.CV
出版时间: 2026年2月6日
PDF: 下载 PDF

[论文] Prompt Reinjection：缓解多模态 Diffusion Transformers 中的 Prompt Forgetting

概述

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] MedMO：用于医学影像的多模态大型语言模型的定位与理解

[Paper] 可靠的误标检测用于视频胶囊内镜数据

[Paper] 超越冗余的视角：任务复杂性在 VLLMs 中 Vision Token 专化中的作用

【论文】PANC：先验感知 Normalized Cut 用于目标分割