[Paper] 透过文字:使用语言模型控制视觉检索质量

发布: (2026年2月25日 GMT+8 02:20)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.21175v1

概述

文本到图像检索系统已经取得了显著的进步,但当用户输入极短、模糊的查询,如 “dog” 或 “sunset” 时,它们仍会出现问题。这类一两个词的提示让模型只能猜测哪些视觉细节重要,也无法让用户请求更高质量的结果。论文 Seeing Through Words: Controlling Visual Retrieval Quality with Language Models 提出了一个简单而有力的解决方案:让大型语言模型(LLM)将简短查询扩展为更丰富的描述 and 让用户将描述引导至期望的质量水平。

关键贡献

  • 质量可控的查询扩展 – 一个通用框架,在尊重用户指定的质量层级的同时,用细粒度的视觉属性(姿势、光照、构图等)扩展简短查询。
  • 基于离散质量级别的 LLM 驱动补全 – 语言模型同时接收原始查询和“质量标记”(例如 high‑qualitymedium‑quality),生成反映该层级的详细说明。
  • 即插即用的兼容性 – 该方法可在任何预训练的视觉语言模型(CLIP、BLIP 等)之上使用,无需重新训练或更改架构。
  • 透明、可解释的输出 – 丰富后的查询是人类可读的,用户可以准确看到系统要求图像编码器匹配的内容。
  • 实证提升 – 在多个基准数据集上,该方法将 recall@k 提升最高可达 12 %,并通过用户研究和自动美学指标展示了可靠的质量引导能力。

方法论

  1. 质量离散化 – 作者首先在图像语料库上运行两个现成的评分器:一个相关性模型(图像与原始查询的匹配程度)和一个美学模型(照片质量)。图像被划分为少量质量层级(例如 )。

  2. 为 LLM 构建提示 – 给定用户的简短查询 q 和目标质量层级 c,他们构建如下提示:

    Complete the following image description for a high‑quality photo of "sunset": 

    LLM(GPT‑2/3‑style)随后生成更长、属性丰富的句子(例如 “a vibrant orange‑red sunset over a calm lake, with silhouetted mountains and a golden‑hour glow”)。

  3. 使用冻结的 VLM 进行检索 – 扩展后的描述由现有的视觉语言模型编码,随后使用标准相似度搜索(如点积)检索前‑k 张图像。无需对 VLM 进行微调。

  4. 迭代控制 – 用户可以切换质量标记并重新运行相同的流水线,立即将检索结果向更高或更低的审美标准转移。

Results & Findings

数据集基线 (CLIP) R@10QC‑QC(提出) R@10Δ
MS‑COCO(短查询)38.2 %45.9 %+7.7 %
Flickr30k(单词查询)31.5 %38.1 %+6.6 %
  • 质量引导有效:当质量标记设为时,检索到的图像在美学预测器上的得分比基线高 0.42(在 0‑1 量表上);质量标记则呈现相反趋势。
  • 人工评估:在一次包含 200 张图像的用户研究中,参与者 68 % 的情况下更偏好 QC‑QC 的结果,理由是构图更清晰且与扩展描述的相关性更好。
  • 零训练优势:由于视觉语言模型保持冻结,该方法仅增加 < 0.5 GB 的额外参数,并能实时运行(单 GPU 下每次查询 < 30 ms)。

实际意义

  • 搜索引擎与电子商务 – 购物者输入 “dress” 时可以直接请求 “高质量、正面视角、丝绸连衣裙”,无需手动添加形容词,从而获得更令人满意的商品列表。
  • 创意工具 – 使用文本到图像生成器的设计师可以按质量预先过滤结果,减少在低分辨率或构图不佳的输出中筛选的时间。
  • 内容审核 – 平台可以对用户生成的图像强制执行最低美学阈值,帮助维持视觉标准。
  • 快速原型 – 由于该方法与模型无关,团队只需几行代码即可将其接入现有基于 CLIP 的检索流水线,立即提升性能。

限制与未来工作

  • 对 LLM 质量的依赖 – 扩展查询的丰富程度取决于语言模型的知识;罕见或领域特定的术语可能阐述不佳。
  • 离散质量桶 – 当前的三级方案对于细微的应用可能过于粗糙;学习连续的质量嵌入可能提升粒度。
  • 评分模型的可扩展性 – 相关性和美学评分器需要在整个图像语料库上运行以分配质量等级,这在超大数据集上成本高昂。
  • 用户研究范围 – 人类评估仅覆盖了有限的类别;未来工作将开展跨语言和跨文化的更广泛用户测试。

作者已发布了他们的代码(https://github.com/Jianglin954/QCQC),使开发者能够在自己的项目中轻松实验质量可控检索。

作者

  • Jianglin Lu
  • Simon Jenni
  • Kushal Kafle
  • Jing Shi
  • Handong Zhao
  • Yun Fu

论文信息

  • arXiv ID: 2602.21175v1
  • 分类: cs.CV
  • 出版日期: 2026年2月24日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »