[Paper] Relay Tokens를 사용한 Ultra-High Resolution Semantic Segmentation을 위한 Vision Transformers 적응

발행: (2026년 1월 10일 오전 01:41 GMT+9)
9 min read
원문: arXiv

Source: arXiv - 2601.05927v1

개요

이 논문은 Relay Tokens이라는 경량 애드온을 소개한다. 이는 Vision Transformers(ViTs)가 초고해상도(UHR) 이미지를 전역 컨텍스트와 세밀한 디테일을 모두 손상시키지 않으면서 의미론적 분할에 활용할 수 있게 한다. 동일한 이미지를 두 스케일로 병렬 처리하고 소수의 학습 가능한 토큰을 통해 정보를 교환함으로써, 저자들은 2 % 미만의 추가 파라미터만으로 여러 까다로운 UHR 벤치마크에서 최첨단 결과를 달성한다.

주요 기여

  • Dual‑scale transformer architecture – 고해상도 로컬 브랜치와 저해상도 글로벌 브랜치를 나란히 실행합니다.
  • Relay tokens – 두 브랜치 사이에 특징 정보를 전달하는 소수의 학습 가능한 벡터로, 명시적인 다중 스케일 추론을 가능하게 합니다.
  • Backbone‑agnostic design – 기존 ViT, Swin‑Transformer 및 기타 표준 트랜스포머 인코더와 아키텍처 전면 개편 없이 작동합니다.
  • Parameter‑efficient – 베이스라인 트랜스포머에 비해 모델 크기가 < 2 %만 증가합니다.
  • Strong empirical gains – 초고해상도 데이터셋(Archaeoscape, URUR, Gleason)에서 15 % 상대 mIoU 향상을 달성했으며, 클래식 Cityscapes 벤치마크에서도 일관된 성능 향상을 보였습니다.
  • Open‑source release – 코드, 사전 학습 가중치 및 데모가 공개되어 빠른 도입을 촉진합니다.

방법론

  1. 두 개의 병렬 처리 스트림

    • 로컬 스트림: 입력 이미지를 많은 작은 고해상도 크롭(예: 256 × 256)으로 분할합니다. 각 크롭은 픽셀 수준의 디테일을 보존하는 트랜스포머에 입력됩니다.
    • 글로벌 스트림: 동일한 이미지를 훨씬 낮은 해상도(예: 원본 크기의 1/8)로 다운샘플링하고 하나의 큰 크롭으로 처리하여 모델이 장면을 전체적으로 파악할 수 있게 합니다.
  2. 릴레이 토큰을 브리지로 사용

    • 고정된 수(보통 4–8)의 학습 가능한 토큰 벡터가 스트림의 토큰 시퀀스에 추가됩니다.
    • 각 트랜스포머 블록 후에 로컬 스트림과 글로벌 스트림이 현재 토큰 값을 교환합니다. 이를 통해 로컬 브랜치가 미세한 단서를 글로벌 표현에 주입하고, 반대로 글로벌 브랜치가 로컬에 정보를 전달하여 트랜스포머의 자체 어텐션 메커니즘 안에서 다중 스케일 특징 융합을 효과적으로 수행합니다.
  3. 집계 및 예측

    • 글로벌 브랜치의 출력은 업샘플링된 뒤 로컬에서 처리된 패치와 병합됩니다.
    • 경량 디코더(예: 1×1 컨볼루션)가 최종 픽셀별 클래스 로짓을 생성합니다.

릴레이 토큰은 몇 개의 추가 벡터에 불과하므로 계산 오버헤드가 최소이며, 기존 ViT 기반 세그멘테이션 파이프라인에 한 줄의 코드만으로 쉽게 적용할 수 있습니다.

Results & Findings

DatasetBaseline (ViT/Swin) mIoURelay‑Token mIoURelative Gain
Archaeoscape (UHR)61.2 %70.1 %+14.5 %
URUR (UHR)68.4 %73.9 %+8.0 %
Gleason (UHR pathology)72.0 %78.5 %+9.0 %
Cityscapes (standard)78.3 %81.2 %+3.7 %
  • 개선 효과는 매우 다른 분야(고고학 항공 이미지, 원격 탐사, 조직병리학, 거리 장면) 전반에 걸쳐 일관됩니다.
  • Ablation 연구 결과 브랜치 모두 필요함을 보여줍니다: 글로벌 스트림을 제거하면 큰 객체의 일관성이 떨어지고, 로컬 스트림을 제거하면 경계 정밀도가 감소합니다.
  • Relay 토큰 수를 변화시킨 결과, 약 6개의 토큰 이후에는 수익이 감소하는 것을 확인했으며, 이는 아주 작은 통신 채널만으로도 충분함을 입증합니다.

실용적 함의

  • 지리공간 및 원격‑감지 파이프라인은 이제 위성 또는 드론 이미지(대개 > 10 k × 10 k 픽셀)에서 비용이 많이 드는 슬라이딩‑윈도우 후처리 없이도 엔드‑투‑엔드 분할을 실행할 수 있습니다.
  • 의료 영상(예: 전체 슬라이드 병리학)은 세포 수준의 세부 정보를 보존하면서 조직 수준 구조를 파악할 수 있어, 컴퓨터 지원 진단을 향상시킬 가능성이 있습니다.
  • AR/VR 콘텐츠 제작문화유산 디지털화는 이 방법을 활용해 대규모 고고학 유적지를 자동으로 라벨링함으로써 매핑 및 보존 작업을 가속화할 수 있습니다.
  • 개발자에게 이 접근 방식은 메모리 오버헤드가 거의 없으며 기존 PyTorch 또는 TensorFlow 트랜스포머 라이브러리에 통합할 수 있어, 고해상도 분할 작업에 바로 적용할 수 있는 업그레이드가 됩니다.

Source:

제한 사항 및 향후 연구

  • 현재 설계는 전역 브랜치에 고정된 다운샘플링 계수를 가정합니다; 매우 이방성(anisotropic)인 이미지의 경우 적응형 스케일링 전략이 필요할 수 있습니다.
  • 릴레이 토큰은 모든 공간 위치에서 공유되므로, 매우 이질적인 장면에 대한 표현력이 제한될 수 있습니다. 향후 연구에서는 공간적으로 변하는 릴레이 토큰이나 계층적 토큰 그룹을 탐색할 수 있습니다.
  • 매우 큰 이미지에 대한 실시간 추론은 여전히 로컬 브랜치를 타일링해야 합니다; 타일링 스케줄을 최적화하거나 희소 어텐션(sparse attention)을 활용하면 지연 시간을 추가로 줄일 수 있습니다.

전반적으로, Relay Tokens는 Vision Transformer의 전역 추론 능력을 초고해상도 세계에 적용하기 위한 실용적이고 높은 영향력을 가진 솔루션을 제공하며, 차세대 시각 AI 시스템을 구축하는 개발자들에게 새로운 가능성을 열어줍니다.

저자

  • Yohann Perron
  • Vladyslav Sydorov
  • Christophe Pottier
  • Loic Landrieu

논문 정보

  • arXiv ID: 2601.05927v1
  • 카테고리: cs.CV
  • 출판일: 2026년 1월 9일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »