[Paper] SIEVES: 선택적 예측은 시각적 증거 스코어링을 통해 일반화된다

발행: (2026년 4월 29일 AM 01:57 GMT+9)
8 분 소요
원문: arXiv

Source: arXiv - 2604.25855v1

개요

이 논문은 SIEVES를 소개합니다 – 시각‑언어 모델이 질문에 답할 시점과 “패스”할 시점을, 생성한 시각적 증거의 품질을 점수화하여 결정할 수 있게 하는 프레임워크입니다. 모델이 관련 이미지 영역을 얼마나 정확히 국소화할 수 있는지에 초점을 맞춤으로써, SIEVES는 시스템이 안전하게 처리할 수 있는 입력의 비율(coverage)을 크게 향상시키면서, 심지어 분포 외(OOD) 데이터에서도 오류율을 사용자 정의 엄격한 한도 내에 유지합니다.

주요 기여

  • 시각적 그라운딩을 통한 선택적 예측 – 원시 로짓에 의존하는 대신 모델의 시각적 증거의 위치 지정 품질을 판단하는 신뢰도 추정기를 제안합니다.
  • 모델에 독립적인 선택기 – SIEVES 선택기는 내부 가중치나 로짓이 필요 없이 모든 블랙박스 추론기(프로프라이어터리 LLM 포함)에 연결할 수 있습니다.
  • 우수한 OOD 성능 – 표준 신뢰도 기반 베이스라인에 비해 다섯 개의 도전적인 OOD 벤치마크(V* Bench, HR‑Bench‑8k, MME‑RealWorld‑Lite, VizWiz, AdVQA)에서 최대 3배 높은 커버리지를 달성합니다.
  • 추론기 간 제로샷 전이 – 벤치마크별 미세 조정 없이 다양한 시각 추론기(Pixel‑Reasoner, o3, Gemini‑3‑Pro)와 작동합니다.
  • 실용적인 위험 제어 – 개발자가 목표 위험 수준(예: ≤ 5 % 오류)을 설정하면 이를 만족하는 입력의 최대 집합을 자동으로 얻을 수 있습니다.

Methodology

  1. Reasoner produces visual evidence – any multimodal model that can output a heatmap or bounding‑box highlighting image regions used for its answer.
  2. Evidence Scoring Network (Selector) – a lightweight CNN‑based module trained to predict a quality score for the evidence. The training objective aligns the score with whether the answer is correct, using a small labeled validation set.
  3. Threshold‑based abstention – at inference time, the selector’s score is compared against a user‑defined threshold that corresponds to the acceptable risk. If the score is below the threshold, the system abstains; otherwise it returns the answer.
  4. Black‑box compatibility – because the selector only consumes the visual evidence (e.g., heatmaps) and the final answer, it can be plugged into any existing reasoner, even closed‑source APIs.

결과 및 발견

벤치마크기준 커버리지 (5 % 위험 시)SIEVES 커버리지상대 이득
V* Bench12 %35 %+3×
HR‑Bench‑8k18 %48 %+2.7×
MME‑RealWorld‑Lite22 %61 %+2.8×
VizWiz15 %44 %+2.9×
AdVQA20 %55 %+2.8×
  • 정확도는 안정적으로 유지됩니다 – 포기된 예측은 가장 틀릴 가능성이 높은 경우이므로 전체 오류율이 목표 위험 범위 내에 머무릅니다.
  • 크로스‑리저너 이득 – o3와 Gemini‑3‑Pro에 SIEVES를 연결하면 이미 높은 원시 정확도를 가진 모델이라도 30‑40 % 정도 커버리지가 향상됩니다.
  • 벤치마크별 파인‑튜닝 없음 – 적당한 검증 세트로 학습된 단일 셀렉터가 다섯 개의 OOD 데이터셋 모두에 일반화됩니다.

실용적 함의

  • 생산 환경에서의 보다 안전한 배포 – 개발자는 신뢰도(증거 품질)가 낮을 경우 자동으로 답변을 거부하는 시각‑질문‑답변 API를 제공할 수 있어, 의료 영상, 자율 검사와 같은 안전‑중요 분야에서 비용이 많이 드는 오분류를 줄일 수 있습니다.
  • 비용 효율적인 확장 – 불확실한 경우에 답변을 보류함으로써 시스템은 해당 입력을 인간 검토자나 더 비용이 많이 드는 전문 모델로 전달할 수 있어, 컴퓨팅 예산을 최적화합니다.
  • 폐쇄형 LLM과의 호환성 – SIEVES는 내부 모델 접근 없이도 상용 비전‑언어 서비스(예: Gemini, GPT‑4V)에 레트로핏할 수 있어, 플러그‑앤‑플레이 신뢰성 레이어가 됩니다.
  • 향상된 사용자 경험 – 최종 사용자는 잘못된 답변 대신 명확한 “모르겠습니다” 응답을 받아 AI 어시스턴트와 고객 지원 봇에 대한 신뢰를 확보할 수 있습니다.

제한 사항 및 향후 연구

  • 명시적인 시각적 증거에 대한 의존성 – 근거 맵을 출력하지 않는 모델은 SIEVES의 직접적인 혜택을 받지 못합니다; 선택자를 확장하여 암묵적인 증거를 추론하도록 하는 것은 아직 해결되지 않은 과제입니다.
  • 선택자를 위한 학습 데이터 – 규모는 작지만, 선택자는 정답/오답이 알려진 라벨링된 데이터셋을 필요로 합니다; 특수 분야에 대한 이러한 데이터를 수집하는 것은 쉬운 일이 아닐 수 있습니다.
  • 임계값 보정 – 위험 임계값 선택은 데이터셋마다 다를 수 있습니다; 향후 연구에서는 스트리밍 성능 지표에 기반해 자동으로 조정되는 적응형 임계값을 탐색할 수 있습니다.
  • 다양한 모달리티 적용 범위 확대 – 현재 연구는 이미지 기반 VQA에 초점을 맞추고 있습니다; 비디오, 3‑D 데이터 또는 오디오를 포함한 멀티모달 추론으로 접근 방식을 확장하는 연구가 필요합니다.

저자

  • Hector G. Rodriguez
  • Marcus Rohrbach

논문 정보

  • arXiv ID: 2604.25855v1
  • 분류: cs.CV, cs.AI
  • 출판일: 2026년 4월 28일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »