[Paper] GREx:通用指称表达分割、理解与生成
发布: (2026年1月9日 GMT+8 02:59)
7 min read
原文: arXiv
Source: arXiv - 2601.05244v1
概述
论文 GREx 将经典的“指称表达”(referring expression)问题——文本短语指向图像中的单个对象——扩展为单个表达式可以指代 任意数量的对象,包括零个。通过引入新的基准(GRES、GREC、GREG)和大规模数据集(gRefCOCO),其中包含多目标、无目标和单目标情况,作者揭示了当前模型的不足,并提出了新的基线 ReLA,在这些广义任务上实现了最新的性能。
关键贡献
- 通用任务定义(GREx),统一了对任意对象集合的分割、检测和生成的表达式。
- gRefCOCO 数据集:首个大规模集合,包含多目标、无目标和单目标指代表达式,同时向后兼容现有的 RES/REC/REG 基准。
- ReLA 基线:一种区域级注意力架构,(1) 将图像划分为自适应子实例区域,(2) 建模区域间关系,(3) 将这些关系与语言线索对齐。
- 全面评估:大量实验表明,现有 RES/REC/REG 模型在通用任务上的性能显著下降,而 ReLA 取得了更优的结果。
- 开放资源:代码、数据和预训练模型已公开发布,以保证可复现性并促进后续研究。
方法论
数据集构建
- 从流行的 RefCOCO/RefCOCO+ 图像开始。
- 众包收集新的表达式,这些表达式要么 (a) 指代同一类别的多个对象,要么 (b) 指代不存在的对象(例如,“图片中的独角兽”),要么 (c) 保持传统的单对象格式。
- 每个表达式都配有像素级掩码(用于分割)和边界框(用于检测)。
问题形式化
- GRES:给定图像和表达式,输出覆盖所有提到对象的二值掩码(如果没有则输出空掩码)。
- GREC:输入相同,但输出一组边界框。
- GREG:给定图像和目标集合(掩码/边界框),生成准确描述该集合的自然语言表达式。
ReLA 架构
区域提议层
使用轻量级 CNN + 自适应池化,将图像划分为灵活的子实例区域网格。
区域‑区域交互
图结构 Transformer 通过关注所有其他区域来更新每个区域的表示,捕获空间和语义关系(例如,“相邻的两只狗”)。
区域‑语言融合
文本嵌入(BERT 风格)对精炼后的区域特征进行注意,生成一个联合表示,突出表达式中提到的区域。
任务头
- 分割头 → 对每个区域进行上采样的掩码,合并为最终掩码。
- 检测头 → 对每个区域进行边界框回归,依据置信度过滤。
- 生成头 → 解码器,以选定的区域集合为条件,生成流畅的表达式。
训练与评估
- 多任务损失,结合分割 Dice、检测 IoU 和语言交叉熵。
- 标准指标(mIoU、AP@0.5、BLEU/ROUGE)分别针对单目标、多目标和无目标子集计算。
结果与发现
| 任务 | 基线(旧 RES/REC/REG) | ReLA(提出) |
|---|---|---|
| GRES (mIoU) | 38.2 %(单目标) → 21.5 %(多目标) | 48.7 %(单) → 35.9 %(多) |
| GREC (AP@0.5) | 44.1 %(单) → 26.3 %(多) | 57.4 %(单) → 41.2 %(多) |
| GREG (BLEU‑4) | 22.8 %(单) → 12.1 %(多) | 30.5 %(单) → 19.8 %(多) |
- 现有模型在从单目标转向多目标/无目标情形时会出现 30‑40 % 的相对下降。
- ReLA 显著缩小了这一差距,验证了 显式的区域‑区域推理 对于通用指代任务至关重要。
- 消融实验表明,去除区域‑区域 Transformer 会导致约 7 % 的绝对性能下降,凸显其重要性。
实际意义
- 人机交互:机器人现在可以理解诸如“捡起所有红色杯子”之类的指令,或在出现“这里没有螺丝刀”时优雅地处理,而不会失败。
- 图像编辑与标注工具:用户可以使用单个自然语言短语(例如“突出显示所有树木”)一次性选择多个对象,并即时获得准确的掩码。
- 内容审核:系统可以检测“没有禁用物品”的陈述并进行验证,从而减少误报。
- 辅助技术:为视障用户提供的屏幕阅读器可以为一组对象生成简洁描述(如“三个人坐在桌旁”),而不是逐个枚举。
- 数据增强:多目标/无目标范式能够为下游视觉语言模型生成更丰富的合成训练数据,提高鲁棒性。
限制与未来工作
- 数据集偏差:gRefCOCO 继承了 COCO 的对象分布;稀有类别仍然代表性不足,这可能限制其在小众领域的泛化能力。
- 区域提议的可扩展性:自适应区域分割器在中等分辨率图像上表现良好,但在超高分辨率输入时可能计算负担加重。
- 语言多样性:所有表达均为英文;扩展到多语言或代码混合环境是一个未解决的挑战。
- 超越视觉定位:当前框架聚焦于静态图像;将相同原理应用于视频(时序指称表达)是一个有前景的方向。
作者已发布数据集、代码和预训练的 ReLA 模型,邀请社区在此更真实的“通用”指称表达视角上进行构建。
作者
- Henghui Ding
- Chang Liu
- Shuting He
- Xudong Jiang
- Yu‑Gang Jiang
论文信息
- arXiv ID: 2601.05244v1
- 类别: cs.CV
- 发表时间: 2026年1月8日
- PDF: 下载 PDF