[Paper] Seeing Before Reasoning: Decoupling Perception and Reasoning for Shortcut-Resilient Multimodal On-Policy Self-Distillation
개요
온정책 자기蒸illation(OPSD)은 모델이 자체 롤아웃을 기반으로 학습하고, 고정된 사본을 사용해 참조 목표를 조건으로 삼은 토큰 수준의 밀도 목표를 제공합니다. 이 방법은 LLM 추론에 잘 맞지만, MLLM(다중 모달 대형 언어 모델)에 직접 적용하면 단축cutter가 생길 수 있습니다. 특권 목표는 텍스트 참조 목표에 주로 기반을 두어 이미지 대신 토큰을 안내할 수 있습니다. ViGOS(Visually Grounded OPSD) 프레임을 제안합니다. 이는 MLLM 사후 훈련용입니다. 학생은 먼저 시각적 설명을 작성하고, 최종 답변을 향한 추론을 진행합니다. 유효 롤아웃에서는 이미지 전용 인식 교사가 설명을 감독하고, 특권 추론 교사는 학생 프리픽스와 동일한 맥락에서 추론 및 최종 답변을 감독합니다. 참조 교사는 무효 롤아웃에만 사용되어 출력 형식을 복구합니다. 일반 비전-언어, 전문 추론, 시각 수학, 공간 고정, 비전-언어 사전 벤치마크에서 ViGOS는 OPSD의 주요 장점을 유지하면서 단축이 가능한 환경에서 이미지 기반 행동을 향상시킵니다.
주요 공헌
본 논문은 다음과 같은 연구 분야를 제시합니다:
- cs.LG
- cs.CV
방법론
자세한 방법은 전체 논문을 참고하십시오.
실용적 함의
이 연구는 cs.LG 분야의 발전을 기여합니다.
저자
- Sihan Wang
- Xiyao Liu
- Lianqing Liu
- Zhi Han
논문 정보
- arXiv ID: 2606.19120v1
- 분야: cs.LG, cs.CV
- 게시일: June 17, 2026
- PDF: PDF 다운로드