[Paper] ThinkOmni: 텍스트 추론을 Guidance Decoding을 통해 Omni-modal 시나리오로 확장

발행: 3일 전 (2026년 2월 27일 오전 03:10 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2602.23306v1

개요

이 논문은 ThinkOmni라는 플러그‑인‑플레이 프레임워크를 소개합니다. 이 프레임워크는 기존의 옴니모달 대형 언어 모델(OLLM)들이 최첨단 대형 추론 모델(LRM)의 정교한 추론 능력을 추가적인 학습이나 데이터 수집 없이 물려받을 수 있게 합니다. 강력한 LRM을 추론 과정에서 “추론 가이드”로 활용함으로써, ThinkOmni는 인식 중심의 멀티모달 모델과 수학, 상식, 시각적 질문 응답과 같은 작업에 필요한 깊은 논리적 사슬 사이의 격차를 메워줍니다.

주요 기여

훈련 없이 추론 보강: OLLM이 멀티모달 환경에서 복잡한 텍스트 추론을 파인튜닝 없이 수행하도록 합니다.
LRM‑as‑a‑Guide: 기존 LRM을 활용해 OLLM의 토큰 생성을 안내하는 새로운 추론 시 디코딩 전략입니다.
Stepwise Contrastive Scaling (SCS): 시각‑지각 신호와 텍스트‑추론 단서를 자동으로 균형 맞추는 적응형 메커니즘으로, 수동 하이퍼파라미터 탐색을 없앱니다.
광범위한 실증 검증: 여섯 가지 다양한 멀티모달 추론 벤치마크(예: MathVista, MMAU)에서 일관된 향상을 보이며, 새로운 최첨단 점수(MathVista 70.2, MMAU 75.5)를 달성했습니다.
범용 레시피: 호환 가능한 모든 OLLM/LRM 쌍에서 작동하여 기존 AI 서비스에 재사용 가능한 “추가 기능”이 됩니다.

방법론

듀얼‑모델 설정
- Perceiver: 이미지, 비디오 프레임 또는 기타 모달리티를 입력받아 텍스트 컨텍스트를 생성하는 옴니‑모달 LLM (예: CLIP‑기반 또는 Flamingo‑스타일).
- Reasoner: 체인‑오브‑생각 추론에 특화된 대형 언어 모델 (예: GPT‑4, Claude).
가이드 디코딩
- 각 생성 단계에서 OLLM은 다음 토큰에 대한 분포를 제안한다.
- LRM은 동일한 멀티모달 프롬프트(텍스트로 변환)를 받아 순수 추론을 반영한 자체 토큰 분포를 만든다.
- 두 분포는 융합된다: OLLM의 인식‑주도 로짓은 LRM 로짓에서 파생된 대비 계수에 의해 스케일링되어 최종 출력이 추론과 일관된 토큰으로 유도된다.
단계별 대비 스케일링 (SCS)
- 고정 가중치(예: 0.5 × perception + 0.5 × reasoning) 대신, SCS는 두 로짓 간 유사성을 기반으로 디코딩 단계마다 동적 스케일링 계수를 계산한다.
- LRM의 신뢰도가 높을 때는 스케일링이 추론에 더 크게 기울어지고, OLLM의 시각 신호가 우세할 때는 인식을 더 많이 반영한다.
- 이러한 적응형 균형은 작업 전반에 걸친 광범위한 하이퍼파라미터 튜닝 필요성을 없앤다.
제로‑트레이닝 파이프라인
- 이 프레임워크는 사전 학습된 OLLM과 LRM만 필요하며, 추가 데이터셋, 파인‑튜닝 루프, 혹은 그래디언트 업데이트가 전혀 수행되지 않는다.
- 구현은 표준 생성 API 주변에 가벼운 래퍼를 두는 형태로, 기존 추론 서비스에 손쉽게 삽입할 수 있다.

결과 및 발견

벤치마크	기본 OLLM	ThinkOmni (OLLM + LRM)	Δ 개선
MathVista	63.1	70.2	+7.1
MMAU	68.4	75.5	+7.1
VQA‑Reason	71.3	77.0	+5.7
ScienceQA‑MM	66.8	73.2	+6.4
DocVQA‑Multi	72.5	78.1	+5.6
Visual‑Commonsense	69.0	74.8	+5.8

도메인 전반에 걸친 일관된 향상 (수학, 과학, 상식, 문서 이해).
소거 실험 결과 SCS 또는 LRM 가이드를 제거하면 성능이 기본값으로 돌아가며, 두 구성 요소가 모두 필수적임을 확인함.
지연 시간 영향은 미미함: 추가 LRM 단계로 인해 추론 시간이 약 1.3배 증가하지만, 정확도 향상을 고려할 때 많은 실시간 애플리케이션에 충분히 허용 가능함.

실용적인 시사점

빠른 역량 향상: 기업은 비용이 많이 드는 재학습 파이프라인 없이도 멀티모달 제품(예: 시각 어시스턴트, 교육용 봇)을 즉시 강화할 수 있습니다.
모듈형 AI 스택: ThinkOmni는 인식 모듈과 추론 모듈을 독립적으로 개발하고 추론 시에 결합하는 “양쪽 장점 모두” 아키텍처를 장려합니다.
비용 효율적인 확장: 기존 LLM API(예: OpenAI, Anthropic)를 추론 가이드로 재사용함으로써 개발자는 일반적으로 멀티모달 파인튜닝에 필요한 대규모 GPU 예산을 피할 수 있습니다.
향상된 안전성 및 해석 가능성: LRM의 사고 사슬(chain‑of‑thought) 출력은 최종 답변과 함께 기록될 수 있어, 감사하거나 디버깅에 활용할 수 있는 투명한 추론 추적을 제공합니다.
엣지‑투‑클라우드 하이브리드 배포: 인식이 무거운 OLLM은 엣지 디바이스에서 실행될 수 있고, 복잡한 추론 단계가 감지될 때만 LRM 가이드를 클라우드에서 호출함으로써 대역폭과 지연 시간을 최적화합니다.

제한 사항 및 향후 작업

LRM 품질에 대한 의존성: 프레임워크의 한계는 추론 모델의 능력에 의해 제한되며, 약한 LRM은 향상을 제한합니다.
추론 오버헤드: 두 개의 대형 모델을 병렬로 실행하면 메모리 사용량이 두 배가 되고 지연 시간이 증가하여, 자원이 제한된 환경에서는 어려울 수 있습니다.
모달 변환 병목 현상: 현재 구현은 비텍스트 모달리티를 LRM을 위한 텍스트 설명으로 변환하므로, 세밀한 시각적 단서를 잃을 가능성이 있습니다.
미래 방향 suggested by the authors include:
1. 경량 추론 가이드를 탐색하여(예: 증류된 LRM) 계산량을 줄이는 방안.
2. SCS를 확장하여 두 개 이상의 모달리티를 동시에 처리하도록 하는 방안.
3. OLLM이 모호한 시각 입력에 대해 LRM에 명확화를 요청할 수 있는 피드백 루프를 통합하는 방안.

저자

Yiran Guan
Sifan Tu
Dingkang Liang
Linghao Zhu
Jianzhong Ju
Zhenbo Luo
Jian Luan
Yuliang Liu
Xiang Bai

논문 정보

arXiv ID: 2602.23306v1
분류: cs.CV
출판일: 2026년 2월 26일
PDF: PDF 다운로드

[Paper] ThinkOmni: 텍스트 추론을 Guidance Decoding을 통해 Omni-modal 시나리오로 확장

개요

주요 기여

방법론

결과 및 발견

실용적인 시사점

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] MediX‑R1: 개방형 의료 강화 학습

[Paper] VGG‑T³: 대규모 오프라인 피드포워드 3D 재구성

[Paper] SeeThrough3D: 폐색 인식 3D 제어를 이용한 텍스트-이미지 생성

[Paper] 센서 일반화를 위한 적응형 센싱 및 이벤트 기반 객체 감지의 공동 분포 학습