[Paper] ThinkOmni: 텍스트 추론을 Guidance Decoding을 통해 Omni-modal 시나리오로 확장
발행: (2026년 2월 27일 오전 03:10 GMT+9)
9 분 소요
원문: arXiv
Source: arXiv - 2602.23306v1
개요
이 논문은 ThinkOmni라는 플러그‑인‑플레이 프레임워크를 소개합니다. 이 프레임워크는 기존의 옴니모달 대형 언어 모델(OLLM)들이 최첨단 대형 추론 모델(LRM)의 정교한 추론 능력을 추가적인 학습이나 데이터 수집 없이 물려받을 수 있게 합니다. 강력한 LRM을 추론 과정에서 “추론 가이드”로 활용함으로써, ThinkOmni는 인식 중심의 멀티모달 모델과 수학, 상식, 시각적 질문 응답과 같은 작업에 필요한 깊은 논리적 사슬 사이의 격차를 메워줍니다.
주요 기여
- 훈련 없이 추론 보강: OLLM이 멀티모달 환경에서 복잡한 텍스트 추론을 파인튜닝 없이 수행하도록 합니다.
- LRM‑as‑a‑Guide: 기존 LRM을 활용해 OLLM의 토큰 생성을 안내하는 새로운 추론 시 디코딩 전략입니다.
- Stepwise Contrastive Scaling (SCS): 시각‑지각 신호와 텍스트‑추론 단서를 자동으로 균형 맞추는 적응형 메커니즘으로, 수동 하이퍼파라미터 탐색을 없앱니다.
- 광범위한 실증 검증: 여섯 가지 다양한 멀티모달 추론 벤치마크(예: MathVista, MMAU)에서 일관된 향상을 보이며, 새로운 최첨단 점수(MathVista 70.2, MMAU 75.5)를 달성했습니다.
- 범용 레시피: 호환 가능한 모든 OLLM/LRM 쌍에서 작동하여 기존 AI 서비스에 재사용 가능한 “추가 기능”이 됩니다.
방법론
-
듀얼‑모델 설정
- Perceiver: 이미지, 비디오 프레임 또는 기타 모달리티를 입력받아 텍스트 컨텍스트를 생성하는 옴니‑모달 LLM (예: CLIP‑기반 또는 Flamingo‑스타일).
- Reasoner: 체인‑오브‑생각 추론에 특화된 대형 언어 모델 (예: GPT‑4, Claude).
-
가이드 디코딩
- 각 생성 단계에서 OLLM은 다음 토큰에 대한 분포를 제안한다.
- LRM은 동일한 멀티모달 프롬프트(텍스트로 변환)를 받아 순수 추론을 반영한 자체 토큰 분포를 만든다.
- 두 분포는 융합된다: OLLM의 인식‑주도 로짓은 LRM 로짓에서 파생된 대비 계수에 의해 스케일링되어 최종 출력이 추론과 일관된 토큰으로 유도된다.
-
단계별 대비 스케일링 (SCS)
- 고정 가중치(예: 0.5 × perception + 0.5 × reasoning) 대신, SCS는 두 로짓 간 유사성을 기반으로 디코딩 단계마다 동적 스케일링 계수를 계산한다.
- LRM의 신뢰도가 높을 때는 스케일링이 추론에 더 크게 기울어지고, OLLM의 시각 신호가 우세할 때는 인식을 더 많이 반영한다.
- 이러한 적응형 균형은 작업 전반에 걸친 광범위한 하이퍼파라미터 튜닝 필요성을 없앤다.
-
제로‑트레이닝 파이프라인
- 이 프레임워크는 사전 학습된 OLLM과 LRM만 필요하며, 추가 데이터셋, 파인‑튜닝 루프, 혹은 그래디언트 업데이트가 전혀 수행되지 않는다.
- 구현은 표준 생성 API 주변에 가벼운 래퍼를 두는 형태로, 기존 추론 서비스에 손쉽게 삽입할 수 있다.
결과 및 발견
| 벤치마크 | 기본 OLLM | ThinkOmni (OLLM + LRM) | Δ 개선 |
|---|---|---|---|
| MathVista | 63.1 | 70.2 | +7.1 |
| MMAU | 68.4 | 75.5 | +7.1 |
| VQA‑Reason | 71.3 | 77.0 | +5.7 |
| ScienceQA‑MM | 66.8 | 73.2 | +6.4 |
| DocVQA‑Multi | 72.5 | 78.1 | +5.6 |
| Visual‑Commonsense | 69.0 | 74.8 | +5.8 |
- 도메인 전반에 걸친 일관된 향상 (수학, 과학, 상식, 문서 이해).
- 소거 실험 결과 SCS 또는 LRM 가이드를 제거하면 성능이 기본값으로 돌아가며, 두 구성 요소가 모두 필수적임을 확인함.
- 지연 시간 영향은 미미함: 추가 LRM 단계로 인해 추론 시간이 약 1.3배 증가하지만, 정확도 향상을 고려할 때 많은 실시간 애플리케이션에 충분히 허용 가능함.
실용적인 시사점
- 빠른 역량 향상: 기업은 비용이 많이 드는 재학습 파이프라인 없이도 멀티모달 제품(예: 시각 어시스턴트, 교육용 봇)을 즉시 강화할 수 있습니다.
- 모듈형 AI 스택: ThinkOmni는 인식 모듈과 추론 모듈을 독립적으로 개발하고 추론 시에 결합하는 “양쪽 장점 모두” 아키텍처를 장려합니다.
- 비용 효율적인 확장: 기존 LLM API(예: OpenAI, Anthropic)를 추론 가이드로 재사용함으로써 개발자는 일반적으로 멀티모달 파인튜닝에 필요한 대규모 GPU 예산을 피할 수 있습니다.
- 향상된 안전성 및 해석 가능성: LRM의 사고 사슬(chain‑of‑thought) 출력은 최종 답변과 함께 기록될 수 있어, 감사하거나 디버깅에 활용할 수 있는 투명한 추론 추적을 제공합니다.
- 엣지‑투‑클라우드 하이브리드 배포: 인식이 무거운 OLLM은 엣지 디바이스에서 실행될 수 있고, 복잡한 추론 단계가 감지될 때만 LRM 가이드를 클라우드에서 호출함으로써 대역폭과 지연 시간을 최적화합니다.
제한 사항 및 향후 작업
- LRM 품질에 대한 의존성: 프레임워크의 한계는 추론 모델의 능력에 의해 제한되며, 약한 LRM은 향상을 제한합니다.
- 추론 오버헤드: 두 개의 대형 모델을 병렬로 실행하면 메모리 사용량이 두 배가 되고 지연 시간이 증가하여, 자원이 제한된 환경에서는 어려울 수 있습니다.
- 모달 변환 병목 현상: 현재 구현은 비텍스트 모달리티를 LRM을 위한 텍스트 설명으로 변환하므로, 세밀한 시각적 단서를 잃을 가능성이 있습니다.
- 미래 방향 suggested by the authors include:
- 경량 추론 가이드를 탐색하여(예: 증류된 LRM) 계산량을 줄이는 방안.
- SCS를 확장하여 두 개 이상의 모달리티를 동시에 처리하도록 하는 방안.
- OLLM이 모호한 시각 입력에 대해 LRM에 명확화를 요청할 수 있는 피드백 루프를 통합하는 방안.
저자
- Yiran Guan
- Sifan Tu
- Dingkang Liang
- Linghao Zhu
- Jianzhong Ju
- Zhenbo Luo
- Jian Luan
- Yuliang Liu
- Xiang Bai
논문 정보
- arXiv ID: 2602.23306v1
- 분류: cs.CV
- 출판일: 2026년 2월 26일
- PDF: PDF 다운로드