[Paper] 透过文字:使用语言模型控制视觉检索质量
Source: arXiv - 2602.21175v1
概述
文本到图像检索系统已经取得了显著的进步,但当用户输入极短、模糊的查询,如 “dog” 或 “sunset” 时,它们仍会出现问题。这类一两个词的提示让模型只能猜测哪些视觉细节重要,也无法让用户请求更高质量的结果。论文 Seeing Through Words: Controlling Visual Retrieval Quality with Language Models 提出了一个简单而有力的解决方案:让大型语言模型(LLM)将简短查询扩展为更丰富的描述 and 让用户将描述引导至期望的质量水平。
关键贡献
- 质量可控的查询扩展 – 一个通用框架,在尊重用户指定的质量层级的同时,用细粒度的视觉属性(姿势、光照、构图等)扩展简短查询。
- 基于离散质量级别的 LLM 驱动补全 – 语言模型同时接收原始查询和“质量标记”(例如 high‑quality、medium‑quality),生成反映该层级的详细说明。
- 即插即用的兼容性 – 该方法可在任何预训练的视觉语言模型(CLIP、BLIP 等)之上使用,无需重新训练或更改架构。
- 透明、可解释的输出 – 丰富后的查询是人类可读的,用户可以准确看到系统要求图像编码器匹配的内容。
- 实证提升 – 在多个基准数据集上,该方法将 recall@k 提升最高可达 12 %,并通过用户研究和自动美学指标展示了可靠的质量引导能力。
方法论
-
质量离散化 – 作者首先在图像语料库上运行两个现成的评分器:一个相关性模型(图像与原始查询的匹配程度)和一个美学模型(照片质量)。图像被划分为少量质量层级(例如 低、中、高)。
-
为 LLM 构建提示 – 给定用户的简短查询 q 和目标质量层级 c,他们构建如下提示:
Complete the following image description for a high‑quality photo of "sunset":LLM(GPT‑2/3‑style)随后生成更长、属性丰富的句子(例如 “a vibrant orange‑red sunset over a calm lake, with silhouetted mountains and a golden‑hour glow”)。
-
使用冻结的 VLM 进行检索 – 扩展后的描述由现有的视觉语言模型编码,随后使用标准相似度搜索(如点积)检索前‑k 张图像。无需对 VLM 进行微调。
-
迭代控制 – 用户可以切换质量标记并重新运行相同的流水线,立即将检索结果向更高或更低的审美标准转移。
Results & Findings
| 数据集 | 基线 (CLIP) R@10 | QC‑QC(提出) R@10 | Δ |
|---|---|---|---|
| MS‑COCO(短查询) | 38.2 % | 45.9 % | +7.7 % |
| Flickr30k(单词查询) | 31.5 % | 38.1 % | +6.6 % |
- 质量引导有效:当质量标记设为高时,检索到的图像在美学预测器上的得分比基线高 0.42(在 0‑1 量表上);低质量标记则呈现相反趋势。
- 人工评估:在一次包含 200 张图像的用户研究中,参与者 68 % 的情况下更偏好 QC‑QC 的结果,理由是构图更清晰且与扩展描述的相关性更好。
- 零训练优势:由于视觉语言模型保持冻结,该方法仅增加 < 0.5 GB 的额外参数,并能实时运行(单 GPU 下每次查询 < 30 ms)。
实际意义
- 搜索引擎与电子商务 – 购物者输入 “dress” 时可以直接请求 “高质量、正面视角、丝绸连衣裙”,无需手动添加形容词,从而获得更令人满意的商品列表。
- 创意工具 – 使用文本到图像生成器的设计师可以按质量预先过滤结果,减少在低分辨率或构图不佳的输出中筛选的时间。
- 内容审核 – 平台可以对用户生成的图像强制执行最低美学阈值,帮助维持视觉标准。
- 快速原型 – 由于该方法与模型无关,团队只需几行代码即可将其接入现有基于 CLIP 的检索流水线,立即提升性能。
限制与未来工作
- 对 LLM 质量的依赖 – 扩展查询的丰富程度取决于语言模型的知识;罕见或领域特定的术语可能阐述不佳。
- 离散质量桶 – 当前的三级方案对于细微的应用可能过于粗糙;学习连续的质量嵌入可能提升粒度。
- 评分模型的可扩展性 – 相关性和美学评分器需要在整个图像语料库上运行以分配质量等级,这在超大数据集上成本高昂。
- 用户研究范围 – 人类评估仅覆盖了有限的类别;未来工作将开展跨语言和跨文化的更广泛用户测试。
作者已发布了他们的代码(https://github.com/Jianglin954/QCQC),使开发者能够在自己的项目中轻松实验质量可控检索。
作者
- Jianglin Lu
- Simon Jenni
- Kushal Kafle
- Jing Shi
- Handong Zhao
- Yun Fu
论文信息
- arXiv ID: 2602.21175v1
- 分类: cs.CV
- 出版日期: 2026年2月24日
- PDF: 下载 PDF