[Paper] GREx:通用指称表达分割、理解与生成

发布: (2026年1月9日 GMT+8 02:59)
7 min read
原文: arXiv

Source: arXiv - 2601.05244v1

概述

论文 GREx 将经典的“指称表达”(referring expression)问题——文本短语指向图像中的单个对象——扩展为单个表达式可以指代 任意数量的对象,包括零个。通过引入新的基准(GRES、GREC、GREG)和大规模数据集(gRefCOCO),其中包含多目标、无目标和单目标情况,作者揭示了当前模型的不足,并提出了新的基线 ReLA,在这些广义任务上实现了最新的性能。

关键贡献

  • 通用任务定义(GREx),统一了对任意对象集合的分割、检测和生成的表达式。
  • gRefCOCO 数据集:首个大规模集合,包含多目标、无目标和单目标指代表达式,同时向后兼容现有的 RES/REC/REG 基准。
  • ReLA 基线:一种区域级注意力架构,(1) 将图像划分为自适应子实例区域,(2) 建模区域间关系,(3) 将这些关系与语言线索对齐。
  • 全面评估:大量实验表明,现有 RES/REC/REG 模型在通用任务上的性能显著下降,而 ReLA 取得了更优的结果。
  • 开放资源:代码、数据和预训练模型已公开发布,以保证可复现性并促进后续研究。

方法论

数据集构建

  • 从流行的 RefCOCO/RefCOCO+ 图像开始。
  • 众包收集新的表达式,这些表达式要么 (a) 指代同一类别的多个对象,要么 (b) 指代不存在的对象(例如,“图片中的独角兽”),要么 (c) 保持传统的单对象格式。
  • 每个表达式都配有像素级掩码(用于分割)和边界框(用于检测)。

问题形式化

  • GRES:给定图像和表达式,输出覆盖所有提到对象的二值掩码(如果没有则输出空掩码)。
  • GREC:输入相同,但输出一组边界框。
  • GREG:给定图像和目标集合(掩码/边界框),生成准确描述该集合的自然语言表达式。

ReLA 架构

区域提议层

使用轻量级 CNN + 自适应池化,将图像划分为灵活的子实例区域网格。

区域‑区域交互

图结构 Transformer 通过关注所有其他区域来更新每个区域的表示,捕获空间和语义关系(例如,“相邻的两只狗”)。

区域‑语言融合

文本嵌入(BERT 风格)对精炼后的区域特征进行注意,生成一个联合表示,突出表达式中提到的区域。

任务头

  • 分割头 → 对每个区域进行上采样的掩码,合并为最终掩码。
  • 检测头 → 对每个区域进行边界框回归,依据置信度过滤。
  • 生成头 → 解码器,以选定的区域集合为条件,生成流畅的表达式。

训练与评估

  • 多任务损失,结合分割 Dice、检测 IoU 和语言交叉熵。
  • 标准指标(mIoU、AP@0.5、BLEU/ROUGE)分别针对单目标、多目标和无目标子集计算。

结果与发现

任务基线(旧 RES/REC/REG)ReLA(提出)
GRES (mIoU)38.2 %(单目标) → 21.5 %(多目标)48.7 %(单) → 35.9 %(多)
GREC (AP@0.5)44.1 %(单) → 26.3 %(多)57.4 %(单) → 41.2 %(多)
GREG (BLEU‑4)22.8 %(单) → 12.1 %(多)30.5 %(单) → 19.8 %(多)
  • 现有模型在从单目标转向多目标/无目标情形时会出现 30‑40 % 的相对下降
  • ReLA 显著缩小了这一差距,验证了 显式的区域‑区域推理 对于通用指代任务至关重要。
  • 消融实验表明,去除区域‑区域 Transformer 会导致约 7 % 的绝对性能下降,凸显其重要性。

实际意义

  • 人机交互:机器人现在可以理解诸如“捡起所有红色杯子”之类的指令,或在出现“这里没有螺丝刀”时优雅地处理,而不会失败。
  • 图像编辑与标注工具:用户可以使用单个自然语言短语(例如“突出显示所有树木”)一次性选择多个对象,并即时获得准确的掩码。
  • 内容审核:系统可以检测“没有禁用物品”的陈述并进行验证,从而减少误报。
  • 辅助技术:为视障用户提供的屏幕阅读器可以为一组对象生成简洁描述(如“三个人坐在桌旁”),而不是逐个枚举。
  • 数据增强:多目标/无目标范式能够为下游视觉语言模型生成更丰富的合成训练数据,提高鲁棒性。

限制与未来工作

  • 数据集偏差:gRefCOCO 继承了 COCO 的对象分布;稀有类别仍然代表性不足,这可能限制其在小众领域的泛化能力。
  • 区域提议的可扩展性:自适应区域分割器在中等分辨率图像上表现良好,但在超高分辨率输入时可能计算负担加重。
  • 语言多样性:所有表达均为英文;扩展到多语言或代码混合环境是一个未解决的挑战。
  • 超越视觉定位:当前框架聚焦于静态图像;将相同原理应用于视频(时序指称表达)是一个有前景的方向。

作者已发布数据集、代码和预训练的 ReLA 模型,邀请社区在此更真实的“通用”指称表达视角上进行构建。

作者

  • Henghui Ding
  • Chang Liu
  • Shuting He
  • Xudong Jiang
  • Yu‑Gang Jiang

论文信息

  • arXiv ID: 2601.05244v1
  • 类别: cs.CV
  • 发表时间: 2026年1月8日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »