[Paper] Seeing Before Reasoning: Decoupling Perception and Reasoning for Shortcut-Resilient Multimodal On-Policy Self-Distillation

발행: 1일 전 (2026년 6월 17일 PM 11:33 GMT+9)

3 분 소요

원문: arXiv

출처: arXiv - 2606.19120v1

개요

온정책 자기蒸illation(OPSD)은 모델이 자체 롤아웃을 기반으로 학습하고, 고정된 사본을 사용해 참조 목표를 조건으로 삼은 토큰 수준의 밀도 목표를 제공합니다. 이 방법은 LLM 추론에 잘 맞지만, MLLM(다중 모달 대형 언어 모델)에 직접 적용하면 단축cutter가 생길 수 있습니다. 특권 목표는 텍스트 참조 목표에 주로 기반을 두어 이미지 대신 토큰을 안내할 수 있습니다. ViGOS(Visually Grounded OPSD) 프레임을 제안합니다. 이는 MLLM 사후 훈련용입니다. 학생은 먼저 시각적 설명을 작성하고, 최종 답변을 향한 추론을 진행합니다. 유효 롤아웃에서는 이미지 전용 인식 교사가 설명을 감독하고, 특권 추론 교사는 학생 프리픽스와 동일한 맥락에서 추론 및 최종 답변을 감독합니다. 참조 교사는 무효 롤아웃에만 사용되어 출력 형식을 복구합니다. 일반 비전-언어, 전문 추론, 시각 수학, 공간 고정, 비전-언어 사전 벤치마크에서 ViGOS는 OPSD의 주요 장점을 유지하면서 단축이 가능한 환경에서 이미지 기반 행동을 향상시킵니다.

주요 공헌

본 논문은 다음과 같은 연구 분야를 제시합니다:

cs.LG
cs.CV

방법론

자세한 방법은 전체 논문을 참고하십시오.

실용적 함의

이 연구는 cs.LG 분야의 발전을 기여합니다.

저자

Sihan Wang
Xiyao Liu
Lianqing Liu
Zhi Han

논문 정보

arXiv ID: 2606.19120v1
분야: cs.LG, cs.CV
게시일: June 17, 2026
PDF: PDF 다운로드

[Paper] Seeing Before Reasoning: Decoupling Perception and Reasoning for Shortcut-Resilient Multimodal On-Policy Self-Distillation

개요

주요 공헌

방법론

실용적 함의

저자

논문 정보

관련 글

[논문] 참조 기반 다중 스피커 오디오 씬 생성

신뢰는 신뢰가 아니다: 뇌 종양 분할에서 MC 드롭아웃 재고찰

[논문] GPT‑Image‑2가 만든 텍스트가 풍부한 AI 이미지를 감지하는 다중 도메인 벤치마크

OneCanvas: 광역 재투영으로 3D 장면 이해