[Paper] 关系视觉相似性

发布: (2025年12月9日 GMT+8 02:59)
7 min read
原文: arXiv

Source: arXiv - 2512.07833v1

概览

论文 “Relational Visual Similarity” 解决了当今计算机视觉工具箱中的一个盲点:现有的相似度度量(LPIPS、CLIP、DINO 等)仅比较图像的表面外观,忽略了人类轻松感知的 关系 结构(例如,“地球的地壳‑地幔‑核心映射到桃子的皮‑肉‑核”)。通过定义和测量关系相似度,作者为通过部件的逻辑而非颜色或纹理来连接图像开辟了新途径。

关键贡献

  • 关系视觉相似度的形式化定义 —— 当两幅图像的视觉元素之间的内部功能关系对应时,即使视觉属性不同,也视为关系相似。
  • 大规模关系描述数据集 —— 114 k 图像‑描述对,描述中聚焦 关系(如 “外层包围内核”),并有意匿名化具体对象。
  • 微调的视觉‑语言模型 (RelSim‑VL) —— 基于预训练的 CLIP 骨干网络,训练使得关系相似的图像在表征空间中靠近。
  • 全面评估 —— 在新建的关系相似度测试集上与 LPIPS、CLIP、DINO 以及人工判断对比,显示出与人类关系判断相关性提升 30‑40 %。
  • 下游实用性展示 —— 将 RelSim‑VL 应用于类比图像检索、场景图生成和零样本推理等任务,均取得相对于基线的可衡量提升。

方法论

  1. 数据集构建

    • 从多样化的图像集合(COCO、Open Images 等)出发。
    • 人工标注者撰写 关系描述,抽象掉具体名词(如 “一个圆形外壳包裹柔软内部”),聚焦每个视觉元素的 角色
    • 描述被 “匿名化” (不出现对象名称),迫使模型学习关系模式而非词汇捷径。
  2. 模型架构

    • 基础:CLIP 的 ViT‑B/32 图像编码器 + Transformer 文本编码器。
    • 增加 关系投影头,将图像嵌入映射到 关系子空间
    • 训练目标:对比损失,使得描述共享相同关系模板的图像对相互靠近,错误配对则相互远离。
  3. 评估协议

    • 关系相似度测试 (RST):5‑选1 多项选择,人类挑选与查询图像拥有相同关系逻辑的图像。
    • 与人工评分的相关性(Spearman ρ)以及 检索指标(Recall@K)。
    • 对描述匿名化、投影头尺寸、关系数据量等进行消融研究。

结果与发现

模型Spearman ρ (RST)Recall@10(类比检索)
LPIPS0.3112 %
CLIP (raw)0.3818 %
DINO0.3515 %
RelSim‑VL (proposed)0.5731 %
  • 与人类一致的关系相似度:RelSim‑VL 的嵌入与人类判断的相关性远高于任何已有度量。
  • 泛化能力:即使面对全新对象类别(如 “金属外壳包裹液体核心”),模型仍能按关系模式正确分组图像。
  • 消融实验:去除描述匿名化会使 ρ 下降约 0.08,证实模型真正学习了关系抽象,而非记忆对象名称。

实际应用

领域关系相似性如何帮助示例用例
基于内容的图像搜索检索共享 相同结构逻辑(如 “层状结构”)的图像,即使外观差异巨大。设计师寻找 “嵌套包装” 概念时,可同时得到洋葱、俄罗斯套娃和地质剖面的照片。
机器人与场景理解通过匹配关系模式而非精确对象来推理可操作性和操作步骤。机器人学习 “先抓住外壳再露出内部部件”,可以将该技能从水果迁移到机械装置。
创意 AI(分镜、游戏设计)生成或检索满足叙事关系约束的资产(如 “英雄的盾牌保护脆弱核心”)。为关卡设计师自动推荐符合 “保护核心” 谜题的素材。
教育与类比推理工具提供强化关系思维的视觉类比(如 地球‑桃子、太阳系‑原子)。交互式应用展示成对图像通过关系相似度相连,帮助学生建立更深层概念联系。
医学影像在不同模态下检测相似的病理结构(如 “中心病灶被水肿包围”),不受组织对比度影响。帮助放射科医生在 CT、MRI、超声之间寻找类似病例。

通过揭示关系相似度信号,开发者可以构建 像人类一样 思考图像的系统——关注部件的角色与功能,而非仅像素层面的相似。

局限性与未来工作

  • 数据集偏差:关系描述受限于源图像库中的视觉概念;罕见或高度抽象的关系可能表现不足。
  • 依赖语言监督:模型继承了 CLIP 对大规模文本数据的依赖;纯视觉的关系学习(如自监督图结构提取)仍未探索。
  • 微调可扩展性:训练关系投影头需要大量 GPU 资源;更轻量的适配器或许能降低门槛。
  • 评估范围:当前基准聚焦静态图像;将关系相似度扩展到视频(时序关系)或 3‑D 场景仍是开放方向。

未来研究可探索 自监督关系图学习跨模态关系推理(如 将文本叙事与视觉结构关联)以及 大规模图像库的实时关系检索 管线。

作者

  • Thao Nguyen
  • Sicheng Mo
  • Krishna Kumar Singh
  • Yilin Wang
  • Jing Shi
  • Nicholas Kolkin
  • Eli Shechtman
  • Yong Jae Lee
  • Yuheng Li

论文信息

  • arXiv ID: 2512.07833v1
  • 分类: cs.CV, cs.AI, cs.LG
  • 发表时间: 2025 年 12 月 8 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »