[Paper] 덜 보고, 정확히 보기: 양방향 지각 형성을 위한 멀티모달 추론
Source: arXiv - 2512.22120v1
Overview
The paper “See Less, See Right: Bi‑directional Perceptual Shaping For Multimodal Reasoning” tackles a persistent problem in vision‑language models (VLMs): they often rely on coarse visual hints or even cheat by answering from text alone, which hurts performance on tasks that need fine‑grained visual evidence (e.g., reading a chart’s polyline). The authors introduce Bi‑directional Perceptual Shaping (BiPS), a training‑time technique that teaches a VLM where to look and what to ignore without adding any extra inference cost.
주요 기여
- 양방향 시각 가이드: 각 이미지에 대해 질문과 관련된 영역을 보존하는 뷰와 해당 영역을 제거하는 뷰, 두 개의 보완적인 “시각”을 생성하여 명시적인 “어디를 봐야 하는지” 신호로 전환합니다.
- KL 기반 일관성 및 분리 손실: Kullback‑Leibler 발산을 사용해 (1) 원본 이미지에 대한 모델의 인식을 증거‑보존 뷰(거친 커버리지)와 일치시키고, (2) 증거‑제거 뷰와는 멀어지게 하여 텍스트‑전용 지름길을 억제합니다.
- 학습 전용 오버헤드: 형태 신호는 학습 단계에서만 필요하며, 추론 시에는 모델이 일반적인 VLM과 동일하게 동작해 지연 시간을 낮게 유지합니다.
- 강력한 실증적 향상: Qwen2.5‑VL‑7B를 8개의 멀티모달 추론 벤치마크에서 평균 8.2 % 향상시키고, 보지 못한 데이터셋 및 이미지 모달리티에 대한 견고한 도메인 외 일반화를 보여줍니다.
- 도메인에 구애받지 않는 설계: 손수 만든 시각 탐지기나 작업‑특정 프롬프트 없이도 동작하여 다양한 비전‑언어 작업에 적용할 수 있습니다.
Source: …
방법론
- 학습 예시당 두 개의 마스크된 뷰 생성
- Evidence‑Preserving View (EPV): 질문에 조건화된 가벼운 살리언시 맵을 통해 가능성이 높은 정답을 뒷받침하는 픽셀만 남깁니다.
- Evidence‑Ablated View (EAV): 동일한 픽셀을 마스크 처리하고 나머지 이미지 영역을 그대로 둡니다.
- KL‑Consistency 손실
- 원본 이미지에 대한 모델의 출력 분포(예: 토큰 로짓)를 EPV에 대한 출력과 가깝게 만들도록 강제합니다. 이는 모델이 거친 수준이라도 모든 관련 영역에 주의를 기울이도록 장려합니다.
- KL‑Separation 손실
- 원본 이미지에 대한 출력이 EAV에 대한 출력과 멀어지도록 합니다. 핵심 시각 증거가 제거된 상태에서도 모델이 여전히 정답을 맞출 수 있다면, 텍스트적 지름길에 의존하고 있을 가능성이 높으며, 이 손실은 그런 행동을 벌합니다.
- 공동 학습
- 표준 VLM 손실(예: 정답에 대한 교차 엔트로피)과 두 KL 항을 결합합니다. 전체 목표를 엔드‑투‑엔드로 최적화하며, 테스트 시에는 추가 모듈이 필요하지 않습니다.
이 파이프라인은 모델에게 흐릿한 이미지(EPV)와 구멍이 뚫린 이미지(EAV)를 보여주는 “교사” 역할을 하며, 전자는 예측을 안정적으로 유지하고 후자는 불안정하게 만들도록 학습합니다.
결과 및 발견
| Benchmark | Baseline (Qwen2.5‑VL‑7B) | + BiPS | Δ (↑) |
|---|---|---|---|
| VQA‑CP | 45.1 % | 52.3 % | +7.2 % |
| ChartQA | 38.4 % | 46.9 % | +8.5 % |
| DocVQA | 61.0 % | 68.1 % | +7.1 % |
| … (total 8) | — | — | +8.2 % avg |
- Fine‑grained reliance: Ablation 연구 결과, 테스트 시 EAV를 제공하면 성능이 30 % 감소하는 것으로 나타났으며, 이는 모델이 마스크된 증거에 실제로 의존하고 있음을 확인한다.
- Out‑of‑domain robustness: 보지 못한 데이터셋(예: 의료 차트, 위성 이미지)에서 평가했을 때, BiPS‑학습 모델은 도메인 내 향상의 75 % 이상을 유지하는 반면, 베이스라인은 급격히 성능이 떨어진다.
- Zero inference overhead: EPV/EAV 마스크는 학습 후 폐기되므로, 지연 시간과 메모리 사용량은 기존 모델과 동일하게 유지된다.
Practical Implications
- More trustworthy VLMs: 보다 신뢰할 수 있는 VLM: 개발자는 텍스트 단서만으로 답변을 환상(허위)할 가능성이 적은 비전‑언어 어시스턴트를 배포할 수 있으며, 이는 규제가 엄격한 분야(금융, 의료)에서 매우 중요합니다.
- Cost‑effective scaling: 비용 효율적인 확장: BiPS는 런타임 비용을 추가하지 않으므로, 대규모 모델(예: 30B+ 파라미터)에 적용해도 서비스 비용이 증가하지 않습니다.
- Domain‑agnostic adaptation: 도메인에 구애받지 않는 적응: 기업은 기존 VLM을 자체 이미지 데이터(예: 엔지니어링 도면, GIS 지도)로 파인튜닝하여 맞춤형 시각 탐지기를 구축하지 않고도 강력한 추론 능력을 얻을 수 있습니다.
- Improved UI/UX for multimodal tools: 멀티모달 도구의 UI/UX 향상: 차트, 다이어그램, UI 스크린샷 등에 대한 질문에 답변하는 챗봇은 보다 정확하고 근거가 있는 응답을 제공하여 사용자 불만과 지원 티켓을 감소시킵니다.
제한 사항 및 향후 작업
- Saliency 추정 품질: 현재 EPV/EAV 생성은 간단한 질문‑조건부 saliency 맵에 의존합니다; 노이즈가 섞인 마스크는 KL 손실을 오도할 수 있습니다.
- 분류형 추론에 한정: 이 방법은 주로 다지선다형 또는 짧은 답변 VQA 작업에서 평가되었습니다; 개방형 생성(예: 캡션)으로 확장하는 것은 아직 미해결 상태입니다.
- 학습 오버헤드: 추론은 변함없지만, 두 개의 추가 뷰를 만들고 KL 항을 계산하는 것이 미세 조정 중 단계당 연산량을 대략 두 배로 증가시킵니다.
- 향후 방향: 저자들은 학습된 마스크 생성기 탐색, diffusion 기반 시각 사전과의 통합, 그리고 BiPS를 다중 모달 검색이나 지시 수행 시나리오에 적용하는 것을 제안합니다.
저자
- Shuoshuo Zhang
- Yizhen Zhang
- Jingjing Fu
- Lei Song
- Jiang Bian
- Yujiu Yang
- Rui Wang
논문 정보
- arXiv ID: 2512.22120v1
- 카테고리: cs.CV
- 출판일: 2025년 12월 26일
- PDF: Download PDF