[Paper] 关系视觉相似性
发布: (2025年12月9日 GMT+8 02:59)
7 min read
原文: arXiv
Source: arXiv - 2512.07833v1
概览
论文 “Relational Visual Similarity” 解决了当今计算机视觉工具箱中的一个盲点:现有的相似度度量(LPIPS、CLIP、DINO 等)仅比较图像的表面外观,忽略了人类轻松感知的 关系 结构(例如,“地球的地壳‑地幔‑核心映射到桃子的皮‑肉‑核”)。通过定义和测量关系相似度,作者为通过部件的逻辑而非颜色或纹理来连接图像开辟了新途径。
关键贡献
- 关系视觉相似度的形式化定义 —— 当两幅图像的视觉元素之间的内部功能关系对应时,即使视觉属性不同,也视为关系相似。
- 大规模关系描述数据集 —— 114 k 图像‑描述对,描述中聚焦 关系(如 “外层包围内核”),并有意匿名化具体对象。
- 微调的视觉‑语言模型 (RelSim‑VL) —— 基于预训练的 CLIP 骨干网络,训练使得关系相似的图像在表征空间中靠近。
- 全面评估 —— 在新建的关系相似度测试集上与 LPIPS、CLIP、DINO 以及人工判断对比,显示出与人类关系判断相关性提升 30‑40 %。
- 下游实用性展示 —— 将 RelSim‑VL 应用于类比图像检索、场景图生成和零样本推理等任务,均取得相对于基线的可衡量提升。
方法论
-
数据集构建
- 从多样化的图像集合(COCO、Open Images 等)出发。
- 人工标注者撰写 关系描述,抽象掉具体名词(如 “一个圆形外壳包裹柔软内部”),聚焦每个视觉元素的 角色。
- 描述被 “匿名化” (不出现对象名称),迫使模型学习关系模式而非词汇捷径。
-
模型架构
- 基础:CLIP 的 ViT‑B/32 图像编码器 + Transformer 文本编码器。
- 增加 关系投影头,将图像嵌入映射到 关系子空间。
- 训练目标:对比损失,使得描述共享相同关系模板的图像对相互靠近,错误配对则相互远离。
-
评估协议
- 关系相似度测试 (RST):5‑选1 多项选择,人类挑选与查询图像拥有相同关系逻辑的图像。
- 与人工评分的相关性(Spearman ρ)以及 检索指标(Recall@K)。
- 对描述匿名化、投影头尺寸、关系数据量等进行消融研究。
结果与发现
| 模型 | Spearman ρ (RST) | Recall@10(类比检索) |
|---|---|---|
| LPIPS | 0.31 | 12 % |
| CLIP (raw) | 0.38 | 18 % |
| DINO | 0.35 | 15 % |
| RelSim‑VL (proposed) | 0.57 | 31 % |
- 与人类一致的关系相似度:RelSim‑VL 的嵌入与人类判断的相关性远高于任何已有度量。
- 泛化能力:即使面对全新对象类别(如 “金属外壳包裹液体核心”),模型仍能按关系模式正确分组图像。
- 消融实验:去除描述匿名化会使 ρ 下降约 0.08,证实模型真正学习了关系抽象,而非记忆对象名称。
实际应用
| 领域 | 关系相似性如何帮助 | 示例用例 |
|---|---|---|
| 基于内容的图像搜索 | 检索共享 相同结构逻辑(如 “层状结构”)的图像,即使外观差异巨大。 | 设计师寻找 “嵌套包装” 概念时,可同时得到洋葱、俄罗斯套娃和地质剖面的照片。 |
| 机器人与场景理解 | 通过匹配关系模式而非精确对象来推理可操作性和操作步骤。 | 机器人学习 “先抓住外壳再露出内部部件”,可以将该技能从水果迁移到机械装置。 |
| 创意 AI(分镜、游戏设计) | 生成或检索满足叙事关系约束的资产(如 “英雄的盾牌保护脆弱核心”)。 | 为关卡设计师自动推荐符合 “保护核心” 谜题的素材。 |
| 教育与类比推理工具 | 提供强化关系思维的视觉类比(如 地球‑桃子、太阳系‑原子)。 | 交互式应用展示成对图像通过关系相似度相连,帮助学生建立更深层概念联系。 |
| 医学影像 | 在不同模态下检测相似的病理结构(如 “中心病灶被水肿包围”),不受组织对比度影响。 | 帮助放射科医生在 CT、MRI、超声之间寻找类似病例。 |
通过揭示关系相似度信号,开发者可以构建 像人类一样 思考图像的系统——关注部件的角色与功能,而非仅像素层面的相似。
局限性与未来工作
- 数据集偏差:关系描述受限于源图像库中的视觉概念;罕见或高度抽象的关系可能表现不足。
- 依赖语言监督:模型继承了 CLIP 对大规模文本数据的依赖;纯视觉的关系学习(如自监督图结构提取)仍未探索。
- 微调可扩展性:训练关系投影头需要大量 GPU 资源;更轻量的适配器或许能降低门槛。
- 评估范围:当前基准聚焦静态图像;将关系相似度扩展到视频(时序关系)或 3‑D 场景仍是开放方向。
未来研究可探索 自监督关系图学习、跨模态关系推理(如 将文本叙事与视觉结构关联)以及 大规模图像库的实时关系检索 管线。
作者
- Thao Nguyen
- Sicheng Mo
- Krishna Kumar Singh
- Yilin Wang
- Jing Shi
- Nicholas Kolkin
- Eli Shechtman
- Yong Jae Lee
- Yuheng Li
论文信息
- arXiv ID: 2512.07833v1
- 分类: cs.CV, cs.AI, cs.LG
- 发表时间: 2025 年 12 月 8 日
- PDF: Download PDF