[Paper] 키포인트 카운팅 분류기: Vision Transformers를 훈련 없이 Self‑Explainable Models로 전환

발행: (2025년 12월 20일 오전 03:47 GMT+9)
8 min read
원문: arXiv

Source: arXiv - 2512.17891v1

Overview

이 논문은 Keypoint Counting Classifiers (KCCs) 라는 기법을 소개합니다. 이 기법은 사전 학습된 Vision Transformer (ViT)를 추가 학습 없이 자체 설명 가능한 모델로 전환할 수 있습니다. ViT가 이미지 간에 일치하는 키포인트를 찾는 고유한 능력을 활용함으로써, KCCs는 입력 이미지 위에 직접 시각화할 수 있는 결정을 생성합니다. 이를 통해 강력한 기반 모델과 개발자 및 최종 사용자가 요구하는 투명성 사이의 격차를 메우게 됩니다.

주요 기여

  • Training‑free self‑explainability: 고정된 ViT를 재학습이나 구조 변경 없이 해석 가능한 분류기로 변환합니다.
  • Keypoint‑based decision rule: 테스트 이미지와 클래스별 프로토타입 패치 간 매칭된 키포인트 수를 사용해 예측을 수행합니다.
  • Human‑readable explanations: 최종 클래스 투표에 기여한 이미지 영역을 정확히 보여주는 시각적 오버레이를 생성합니다.
  • Comprehensive evaluation: 표준 비전 벤치마크에서 최신 자체 설명 가능 베이스라인보다 우수한 인간‑기계 커뮤니케이션 지표를 입증합니다.
  • Broad applicability: ViT‑B/16, DeiT, CLIP 비전 인코더 등 잘 훈련된 모든 ViT와 함께 작동하여 기존 기반 모델에 투명성 레이어를 바로 적용할 수 있습니다.

방법론

  1. 패치 임베딩 추출: 고정된 ViT가 입력 이미지를 처리하여 이미지 패치당 하나씩 토큰 임베딩 세트를 생성합니다.
  2. 키포인트 식별: 각 토큰에 대해, 이 방법은 클래스 프로토타입이라 불리는 소규모 집합(훈련 세트에서 수집한 대표 패치)과의 유사도 점수를 계산합니다. 높은 유사도는 해당 클래스의 알려진 시각 패턴과 일치하는 “키포인트”를 의미합니다.
  3. 클래스별 매치 수 세기: 유사도 임계값을 초과하는 키포인트의 수를 각 클래스별로 집계합니다.
  4. 결정 규칙: 키포인트 수가 가장 많은 클래스가 선택됩니다. 카운트가 명시적인 패치 매치에서 도출되므로 추론 과정이 투명합니다.
  5. 시각화: 매치된 패치를 원본 이미지에 강조 표시하여, 모델이 특정 라벨을 선택한 이유를 개발자에게 픽셀 수준에서 명확히 설명합니다.

전체 파이프라인은 추론 전용으로 실행되며, 필요한 추가 데이터는 프로토타입 패치뿐입니다. 이 패치는 원본 훈련 세트에서 한 번 추출하면 됩니다.

결과 및 발견

  • Accuracy trade‑off: KCC는 원래 ViT의 ImageNet‑1k에서 top‑1 정확도의 **≈95 %**를 유지하면서 설명을 제공합니다.
  • Explanation quality: 인간 연구에서 기존 자체 설명 방법(예: ProtoPNet, Attention Rollout)과 비교해 신뢰도가 30 % 증가하고 의사결정 검증이 더 빨라짐을 보여줍니다.
  • Speed: 카운팅 단계를 추가해도 단일 RTX‑3090에서 이미지당 < 5 ms만 추가되며, 실시간 애플리케이션에 적합합니다.
  • Robustness: 키포인트 카운트는 일반적인 손상(노이즈, 블러)에서도 안정적이며, 설명이 작은 교란에 과도하게 민감하지 않음을 나타냅니다.

실용적 함의

  • 배포 가능한 투명성: 기업은 기존 ViT‑기반 서비스(이미지 분류, 콘텐츠 검토, 의료 영상)를 KCC와 결합하여 비용이 많이 드는 모델 재학습 없이도 규제 또는 내부 감사 요구를 충족할 수 있다.
  • 디버깅 및 데이터 품질: 시각적 키포인트 맵은 엔지니어가 잘못 라벨링된 데이터나 체계적인 편향(예: 배경 텍스처에 의존하는 모델)을 발견하는 데 도움을 준다.
  • 인터랙티브 도구: 프런트엔드 UI는 키포인트 설명을 오버레이하여 최종 사용자가 전자상거래(제품이 분류된 이유)나 자율 주행(어떤 시각적 단서가 탐지를 유발했는지) 등 분야에서 예측을 이해하도록 돕는다.
  • 기초 모델 통합: KCC가 CLIP의 비전 인코더와 함께 작동하므로, 멀티모달 시스템은 언어 부분은 그대로 두면서 시각적 분기에 대한 설명 가능성을 물려받을 수 있다.

제한 사항 및 향후 연구

  • 프로토타입 선택: 설명의 품질은 저장된 프로토타입 패치의 대표성에 달려 있으며, 최적이 아닌 프로토타입은 노이즈가 섞인 키포인트 카운트로 이어질 수 있습니다.
  • 다수 클래스에 대한 확장성: 수천 개 클래스에 대해 키포인트를 카운트하면 메모리 오버헤드가 증가할 수 있으며, 저자들은 이를 완화하기 위해 계층적 프로토타입 클러스터링을 제안합니다.
  • 분류를 넘어: 현재 공식은 이미지 수준 레이블만 다루며, KCC를 탐지, 세그멘테이션 또는 비디오 작업으로 확장하는 것은 아직 해결되지 않은 과제입니다.
  • 적대적 강인성: 일부 베이스라인보다 더 안정적이지만, 유사도 임계값에 의존하는 점이 악용될 수 있으며, 향후 연구에서는 키포인트 카운팅에 대한 인증된 경계를 탐구할 수 있습니다.

전반적으로 KCC는 오늘날 강력한 ViT 기반 모델을 고성능이면서 자체 설명 가능하게 만드는 실용적인 경로를 제공하며, 안전‑중요 및 규제‑중심 산업에서의 보다 넓은 채택을 가능하게 합니다.

저자

  • Kristoffer Wickstrøm
  • Teresa Dorszewski
  • Siyan Chen
  • Michael Kampffmeyer
  • Elisabeth Wetzer
  • Robert Jenssen

논문 정보

  • arXiv ID: 2512.17891v1
  • 분류: cs.CV
  • 출판일: 2025년 12월 19일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »