[Paper] GREx: 일반화된 Referring Expression 분할, 이해 및 생성
Source: arXiv - 2601.05244v1
개요
논문 GREx는 텍스트 구절이 이미지 내 단일 객체를 가리키는 고전적인 “referring expression” 문제를 확장하여, 하나의 표현이 0개를 포함한任意의 개수의 객체를 가리킬 수 있도록 합니다. 다중‑target, no‑target, 그리고 single‑target 사례를 포함하는 새로운 벤치마크(GRES, GREC, GREG)와 대규모 데이터셋(gRefCOCO)을 도입함으로써, 저자들은 현재 모델들의 격차를 드러내고, 이러한 일반화된 작업에서 최첨단 성능을 달성하는 새로운 베이스라인 ReLA를 제안합니다.
주요 기여
- Generalized task definition (GREx) — 세분화, 탐지, 및 생성 작업을 통합하여 임의 객체 집합을 설명하는 표현을 다룹니다.
- gRefCOCO dataset: 다중 대상, 무대상, 단일 대상 지시 표현을 포함한 최초의 대규모 컬렉션이며, 기존 RES/REC/REG 벤치마크와 하위 호환성을 유지합니다.
- ReLA baseline: (1) 이미지를 적응형 서브 인스턴스 영역으로 분할하고, (2) 영역 간 관계를 모델링하며, (3) 이를 언어 단서와 정렬하는 영역 수준 주의 메커니즘 아키텍처입니다.
- Comprehensive evaluation: 일반화된 작업에서 기존 RES/REC/REG 모델들의 성능이 크게 감소함을 보여주는 광범위한 실험과 ReLA의 우수한 결과를 제시합니다.
- Open resources: 재현성과 추가 연구를 위해 코드, 데이터, 사전 학습된 모델을 공개했습니다.
방법론
데이터셋 구성
- 인기 있는 RefCOCO/RefCOCO+ 이미지에서 시작했습니다.
- (a) 동일 클래스의 다수 객체를 지칭하거나, (b) 객체가 없는 경우(예: “그 그림 속 유니콘”), 혹은 (c) 전통적인 단일 객체 형식을 유지하는 새로운 표현을 크라우드소싱했습니다.
- 각 표현은 픽셀 수준 마스크(세분화용)와 바운딩 박스(탐지용)와 짝을 이룹니다.
문제 공식화
- GRES: 이미지와 표현이 주어지면, 언급된 모든 객체를 포함하는 이진 마스크를 출력합니다(없을 경우 빈 마스크).
- GREC: 동일한 입력이지만, 바운딩 박스 집합을 출력합니다.
- GREG: 이미지와 목표 집합(마스크/박스)이 주어지면, 해당 집합을 정확히 설명하는 자연어 표현을 생성합니다.
ReLA 아키텍처
영역 제안 레이어
이미지는 경량 CNN + 어댑티브 풀링을 사용해 서브 인스턴스 영역의 유연한 그리드로 분할됩니다.
영역‑영역 상호작용
그래프 형태의 트랜스포머가 모든 다른 영역에 주의를 기울여 각 영역의 표현을 업데이트하며, 공간적·의미적 관계를 포착합니다(예: “서로 옆에 있는 두 마리 개”).
영역‑언어 융합
텍스트 임베딩(BERT 스타일)이 정제된 영역 특징에 주의를 기울여, 표현에 언급된 영역을 강조하는 공동 표현을 생성합니다.
작업 헤드
- 세분화 헤드 → 각 영역별 업샘플링된 마스크를 최종 마스크로 병합합니다.
- 탐지 헤드 → 각 영역별 바운딩 박스 회귀를 수행하고, 신뢰도에 따라 필터링합니다.
- 생성 헤드 → 선택된 영역 집합을 조건으로 하여 유창한 표현을 생성하는 디코더입니다.
학습 및 평가
- 세분화 Dice, 탐지 IoU, 언어 교차 엔트로피를 결합한 다중 작업 손실.
- 표준 지표(mIoU, AP@0.5, BLEU/ROUGE)를 단일, 다중, 무목표 하위 집합별로 별도 계산합니다.
결과 및 발견
| 작업 | 베이스라인 (old RES/REC/REG) | ReLA (제안) |
|---|---|---|
| GRES (mIoU) | 38.2 % (single‑target) → 21.5 % (multi) | 48.7 % (single) → 35.9 % (multi) |
| GREC (AP@0.5) | 44.1 % (single) → 26.3 % (multi) | 57.4 % (single) → 41.2 % (multi) |
| GREG (BLEU‑4) | 22.8 % (single) → 12.1 % (multi) | 30.5 % (single) → 19.8 % (multi) |
- 기존 모델은 단일 타깃에서 다중 타깃/무 타깃으로 이동할 때 30‑40 % 상대적 감소를 겪는다.
- ReLA는 격차를 크게 줄이며, 명시적인 영역‑영역 추론이 일반화된 레퍼링 작업에 필수적임을 확인한다.
- Ablation 연구에 따르면 영역‑영역 트랜스포머를 제거하면 성능이 약 7 % 절대적으로 감소하며, 그 중요성을 강조한다.
Practical Implications
- Human‑Robot Interaction: 로봇이 이제 “빨간 컵을 모두 집어줘”와 같은 명령을 이해하거나 “여기에 드라이버가 없습니다”와 같은 상황을 우아하게 처리할 수 있습니다.
- Image Editing & Annotation Tools: 사용자는 “모든 나무를 강조해”와 같은 하나의 자연어 구문으로 여러 객체를 선택하고 즉시 정확한 마스크를 얻을 수 있습니다.
- Content Moderation: 시스템이 “금지된 항목이 없음”이라는 문장을 감지하고 검증함으로써 오탐을 줄일 수 있습니다.
- Assistive Technologies: 시각 장애인을 위한 스크린리더가 “테이블에 앉아 있는 세 사람”과 같이 객체 그룹에 대한 간결한 설명을 생성할 수 있어 개별 객체를 일일이 열거할 필요가 없습니다.
- Data Augmentation: 다중 대상/무대상 패러다임을 통해 하위 비전‑언어 모델을 위한 보다 풍부한 합성 학습 데이터를 생성하여 견고성을 향상시킵니다.
제한 사항 및 향후 작업
- 데이터셋 편향: gRefCOCO는 COCO의 객체 분포를 그대로 물려받으며, 희귀 카테고리는 여전히 충분히 표현되지 않아 특수 분야에 대한 일반화가 제한될 수 있습니다.
- 영역 제안의 확장성: 적응형 영역 분할기는 중간 해상도 이미지에서는 잘 작동하지만, 초고해상도 입력에서는 계산 비용이 크게 증가할 수 있습니다.
- 언어 다양성: 모든 표현이 영어로만 제공되며, 다국어 또는 코드 혼합 환경으로 확장하는 것은 아직 해결되지 않은 과제입니다.
- 시각적 그라운딩을 넘어: 현재 프레임워크는 정적 이미지에 초점을 맞추고 있으며, 동일한 원리를 비디오(시간적 지시 표현)에 적용하는 것이 유망한 방향입니다.
저자들은 데이터셋, 코드, 사전 학습된 ReLA 모델을 공개하며, 커뮤니티가 보다 현실적이고 “일반화된” 지시 표현 관점을 기반으로 연구를 확장하길 초대합니다.
저자
- Henghui Ding
- Chang Liu
- Shuting He
- Xudong Jiang
- Yu‑Gang Jiang
논문 정보
- arXiv ID: 2601.05244v1
- 분류: cs.CV
- 출판일: 2026년 1월 8일
- PDF: PDF 다운로드