[Paper] 透过文字：使用语言模型控制视觉检索质量

发布: 3天前 (2026年2月25日 GMT+8 02:20)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.21175v1

概述

文本到图像检索系统已经取得了显著的进步，但当用户输入极短、模糊的查询，如 “dog” 或 “sunset” 时，它们仍会出现问题。这类一两个词的提示让模型只能猜测哪些视觉细节重要，也无法让用户请求更高质量的结果。论文 Seeing Through Words: Controlling Visual Retrieval Quality with Language Models 提出了一个简单而有力的解决方案：让大型语言模型（LLM）将简短查询扩展为更丰富的描述 and 让用户将描述引导至期望的质量水平。

关键贡献

质量可控的查询扩展 – 一个通用框架，在尊重用户指定的质量层级的同时，用细粒度的视觉属性（姿势、光照、构图等）扩展简短查询。
基于离散质量级别的 LLM 驱动补全 – 语言模型同时接收原始查询和“质量标记”（例如 high‑quality、medium‑quality），生成反映该层级的详细说明。
即插即用的兼容性 – 该方法可在任何预训练的视觉语言模型（CLIP、BLIP 等）之上使用，无需重新训练或更改架构。
透明、可解释的输出 – 丰富后的查询是人类可读的，用户可以准确看到系统要求图像编码器匹配的内容。
实证提升 – 在多个基准数据集上，该方法将 recall@k 提升最高可达 12 %，并通过用户研究和自动美学指标展示了可靠的质量引导能力。

方法论

质量离散化 – 作者首先在图像语料库上运行两个现成的评分器：一个相关性模型（图像与原始查询的匹配程度）和一个美学模型（照片质量）。图像被划分为少量质量层级（例如低、中、高）。
为 LLM 构建提示 – 给定用户的简短查询 q 和目标质量层级 c，他们构建如下提示：
```
Complete the following image description for a high‑quality photo of "sunset": 
```
LLM（GPT‑2/3‑style）随后生成更长、属性丰富的句子（例如 “a vibrant orange‑red sunset over a calm lake, with silhouetted mountains and a golden‑hour glow”）。
使用冻结的 VLM 进行检索 – 扩展后的描述由现有的视觉语言模型编码，随后使用标准相似度搜索（如点积）检索前‑k 张图像。无需对 VLM 进行微调。
迭代控制 – 用户可以切换质量标记并重新运行相同的流水线，立即将检索结果向更高或更低的审美标准转移。

Results & Findings

数据集	基线 (CLIP) R@10	QC‑QC（提出） R@10	Δ
MS‑COCO（短查询）	38.2 %	45.9 %	+7.7 %
Flickr30k（单词查询）	31.5 %	38.1 %	+6.6 %

质量引导有效：当质量标记设为高时，检索到的图像在美学预测器上的得分比基线高 0.42（在 0‑1 量表上）；低质量标记则呈现相反趋势。
人工评估：在一次包含 200 张图像的用户研究中，参与者 68 % 的情况下更偏好 QC‑QC 的结果，理由是构图更清晰且与扩展描述的相关性更好。
零训练优势：由于视觉语言模型保持冻结，该方法仅增加 < 0.5 GB 的额外参数，并能实时运行（单 GPU 下每次查询 < 30 ms）。

实际意义

搜索引擎与电子商务 – 购物者输入 “dress” 时可以直接请求 “高质量、正面视角、丝绸连衣裙”，无需手动添加形容词，从而获得更令人满意的商品列表。
创意工具 – 使用文本到图像生成器的设计师可以按质量预先过滤结果，减少在低分辨率或构图不佳的输出中筛选的时间。
内容审核 – 平台可以对用户生成的图像强制执行最低美学阈值，帮助维持视觉标准。
快速原型 – 由于该方法与模型无关，团队只需几行代码即可将其接入现有基于 CLIP 的检索流水线，立即提升性能。

限制与未来工作

对 LLM 质量的依赖 – 扩展查询的丰富程度取决于语言模型的知识；罕见或领域特定的术语可能阐述不佳。
离散质量桶 – 当前的三级方案对于细微的应用可能过于粗糙；学习连续的质量嵌入可能提升粒度。
评分模型的可扩展性 – 相关性和美学评分器需要在整个图像语料库上运行以分配质量等级，这在超大数据集上成本高昂。
用户研究范围 – 人类评估仅覆盖了有限的类别；未来工作将开展跨语言和跨文化的更广泛用户测试。

作者已发布了他们的代码（https://github.com/Jianglin954/QCQC），使开发者能够在自己的项目中轻松实验质量可控检索。

作者

Jianglin Lu
Simon Jenni
Kushal Kafle
Jing Shi
Handong Zhao
Yun Fu

论文信息

arXiv ID: 2602.21175v1
分类: cs.CV
出版日期: 2026年2月24日
PDF: 下载 PDF

[Paper] 透过文字：使用语言模型控制视觉检索质量

概述

关键贡献

方法论

Results & Findings

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] MediX-R1: 开放式医学强化学习

[Paper] VGG-T³：离线前馈式大规模3D重建

[Paper] SeeThrough3D：遮挡感知的3D控制在文本到图像生成中

[Paper] 传感器泛化用于自适应感知的事件驱动目标检测 via 联合分布训练