[Paper] 관계형 시각 유사성

발행: (2025년 12월 9일 오전 03:59 GMT+9)
9 min read
원문: arXiv

Source: arXiv - 2512.07833v1

개요

논문 **“Relational Visual Similarity”**는 오늘날 컴퓨터 비전 도구 상자에서 간과되고 있는 부분을 다룹니다. 기존의 유사도 지표(LPIPS, CLIP, DINO 등)는 이미지의 표면적인 외관만을 비교하고, 인간이 쉽게 인식하는 관계적 구조는 무시합니다(예: “지구의 지각‑맨틀‑핵이 복숭아의 껍질‑과육‑씨와 대응한다”). 관계적 유사성을 정의하고 측정함으로써, 저자들은 색상이나 질감이 아니라 부분들의 논리를 통해 이미지를 연결하는 새로운 길을 열었습니다.

주요 기여

  • 관계적 시각 유사성의 형식적 정의 – 두 이미지가 내부 시각 요소들 간의 기능적 관계가 서로 대응할 때 관계적으로 유사하다고 정의합니다.
  • 대규모 관계 캡션 데이터셋 – 114 k개의 이미지‑캡션 쌍으로, 캡션은 관계를 기술합니다(예: “외부 층이 내부 핵을 둘러싼다”). 구체적인 객체명은 의도적으로 익명화했습니다.
  • Fine‑tuned Vision‑Language 모델 (RelSim‑VL) – 사전 학습된 CLIP 백본을 기반으로, 관계적으로 유사한 이미지 쌍이 표현 공간에서 가깝게 임베딩되도록 학습했습니다.
  • 포괄적 평가 – 새로운 관계 유사성 테스트 세트에서 LPIPS, CLIP, DINO, 인간 판단과 비교했을 때 인간 관계 판단과의 상관관계가 30‑40 % 향상되었습니다.
  • 다운스트림 활용 시연 – RelSim‑VL을 유추 이미지 검색, 씬‑그래프 생성, 제로샷 추론 등에 적용해 기존 베이스라인보다 측정 가능한 성능 향상을 달성했습니다.

방법론

  1. 데이터셋 구축

    • 다양한 이미지 컬렉션(COCO, Open Images 등)에서 시작했습니다.
    • 인간 주석자는 구체적인 명사 없이 관계 캡션을 작성했습니다(예: “부드러운 내부를 감싸는 둥근 외부 껍질”).
    • 캡션은 “익명화”되어 객체 이름이 없으며, 모델이 관계 패턴을 학습하도록 유도합니다.
  2. 모델 아키텍처

    • 베이스: CLIP의 ViT‑B/32 이미지 인코더 + 트랜스포머 텍스트 인코더.
    • Relation Projection Head를 추가해 이미지 임베딩을 관계 서브스페이스로 매핑합니다.
    • 학습 목표: 캡션이 동일한 관계 템플릿을 공유하는 이미지 쌍을 가깝게, 일치하지 않는 쌍을 멀리 끌어당기는 대비 손실(contrastive loss).
  3. 평가 프로토콜

    • 관계 유사성 테스트 (RST): 5‑way 다중 선택 문제로, 인간이 질의와 동일한 관계 논리를 공유하는 이미지를 선택합니다.
    • 인간 점수와의 상관관계(Spearman’s ρ)와 검색 메트릭(Recall@K).
    • 캡션 익명화, 프로젝션 헤드 크기, 관계 데이터 양에 대한 Ablation 연구.

결과 및 발견

ModelSpearman ρ (RST)Recall@10 (analogical retrieval)
LPIPS0.3112 %
CLIP (raw)0.3818 %
DINO0.3515 %
RelSim‑VL (proposed)0.5731 %
  • 인간 정렬 관계 유사성: RelSim‑VL의 임베딩은 기존 어떤 지표보다 인간 판단과 훨씬 높은 상관관계를 보입니다.
  • 일반화: 완전히 새로운 객체 카테고리(예: “금속 껍질이 액체 핵을 둘러싼다”)에도 모델은 관계 패턴에 따라 이미지를 올바르게 그룹화합니다.
  • Ablation: 캡션 익명화를 제거하면 ρ가 약 0.08 감소하여, 모델이 객체 이름을 외우는 것이 아니라 관계 추상화를 학습한다는 점을 확인합니다.

실용적 함의

분야관계 유사성이 도움이 되는 방식예시 사용 사례
콘텐츠 기반 이미지 검색외관이 다르더라도 동일한 구조 논리를 공유하는 이미지를 검색“계층형 포장” 개념을 찾는 디자이너가 양파, 러시아 인형, 지질 단면 사진을 발견
로봇공학 및 씬 이해정확한 객체가 아니라 관계 패턴을 매칭해 어포던스와 조작 단계 추론“외부 껍질을 잡아 내부 구성 요소를 노출한다”는 기술을 과일에서 기계 부품으로 전이
창의 AI (스토리보드, 게임 디자인)서사적 관계 제약을 만족하는 자산을 생성·검색“영웅의 방패가 취약한 핵심을 보호한다”는 퍼즐을 위한 자동 자산 추천
교육 및 유추 추론 도구관계적 사고를 강화하는 시각적 유추 제공지구‑복숭아, 태양계‑원자 등 관계 유사성으로 연결된 이미지 쌍을 보여주는 인터랙티브 앱
의료 영상조직 대비 차이가 있더라도 동일한 병리 구조를 탐지“중심 병변이 주변 부종으로 둘러싸인” 경우 CT, MRI, 초음파 간 유사 사례 찾기

관계 유사성 신호를 드러냄으로써, 개발자는 이미지에 대해 부분의 역할과 기능을 기반으로 사고하는 시스템을 구축할 수 있습니다—픽셀 수준 유사도가 아니라 인간이 인식하는 관계에 기반합니다.

제한점 및 향후 연구

  • 데이터셋 편향: 관계 캡션은 원본 이미지 풀에 존재하는 시각 개념에 제한됩니다. 희귀하거나 고도로 추상적인 관계는 충분히 대표되지 않을 수 있습니다.
  • 언어 감독 의존: 모델은 CLIP의 대규모 텍스트 데이터 의존성을 물려받습니다. 순수 시각적 관계 학습(예: 자체 감독 그래프 추출)은 아직 탐구되지 않았습니다.
  • Fine‑tuning 확장성: Relation Projection Head를 학습하려면 상당한 GPU 비용이 필요합니다. 경량 어댑터가 접근성을 높일 수 있습니다.
  • 평가 범위: 현재 벤치마크는 정적 이미지에 국한됩니다. 영상(시간적 관계)이나 3‑D 씬으로 관계 유사성을 확장하는 것이 앞으로의 과제입니다.

향후 연구는 자체 감독 관계 그래프 학습, 크로스 모달 관계 추론(예: 텍스트 서사를 시각 구조와 연결), 대규모 이미지 데이터베이스를 위한 실시간 관계 검색 파이프라인 등을 탐색할 수 있습니다.

저자

  • Thao Nguyen
  • Sicheng Mo
  • Krishna Kumar Singh
  • Yilin Wang
  • Jing Shi
  • Nicholas Kolkin
  • Eli Shechtman
  • Yong Jae Lee
  • Yuheng Li

논문 정보

  • arXiv ID: 2512.07833v1
  • 분류: cs.CV, cs.AI, cs.LG
  • 발표일: 2025년 12월 8일
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »