[Paper] ThinkOmni: 텍스트 추론을 Guidance Decoding을 통해 Omni-modal 시나리오로 확장

발행: (2026년 2월 27일 오전 03:10 GMT+9)
9 분 소요
원문: arXiv

Source: arXiv - 2602.23306v1

개요

이 논문은 ThinkOmni라는 플러그‑인‑플레이 프레임워크를 소개합니다. 이 프레임워크는 기존의 옴니모달 대형 언어 모델(OLLM)들이 최첨단 대형 추론 모델(LRM)의 정교한 추론 능력을 추가적인 학습이나 데이터 수집 없이 물려받을 수 있게 합니다. 강력한 LRM을 추론 과정에서 “추론 가이드”로 활용함으로써, ThinkOmni는 인식 중심의 멀티모달 모델과 수학, 상식, 시각적 질문 응답과 같은 작업에 필요한 깊은 논리적 사슬 사이의 격차를 메워줍니다.

주요 기여

  • 훈련 없이 추론 보강: OLLM이 멀티모달 환경에서 복잡한 텍스트 추론을 파인튜닝 없이 수행하도록 합니다.
  • LRM‑as‑a‑Guide: 기존 LRM을 활용해 OLLM의 토큰 생성을 안내하는 새로운 추론 시 디코딩 전략입니다.
  • Stepwise Contrastive Scaling (SCS): 시각‑지각 신호와 텍스트‑추론 단서를 자동으로 균형 맞추는 적응형 메커니즘으로, 수동 하이퍼파라미터 탐색을 없앱니다.
  • 광범위한 실증 검증: 여섯 가지 다양한 멀티모달 추론 벤치마크(예: MathVista, MMAU)에서 일관된 향상을 보이며, 새로운 최첨단 점수(MathVista 70.2, MMAU 75.5)를 달성했습니다.
  • 범용 레시피: 호환 가능한 모든 OLLM/LRM 쌍에서 작동하여 기존 AI 서비스에 재사용 가능한 “추가 기능”이 됩니다.

방법론

  1. 듀얼‑모델 설정

    • Perceiver: 이미지, 비디오 프레임 또는 기타 모달리티를 입력받아 텍스트 컨텍스트를 생성하는 옴니‑모달 LLM (예: CLIP‑기반 또는 Flamingo‑스타일).
    • Reasoner: 체인‑오브‑생각 추론에 특화된 대형 언어 모델 (예: GPT‑4, Claude).
  2. 가이드 디코딩

    • 각 생성 단계에서 OLLM은 다음 토큰에 대한 분포를 제안한다.
    • LRM은 동일한 멀티모달 프롬프트(텍스트로 변환)를 받아 순수 추론을 반영한 자체 토큰 분포를 만든다.
    • 두 분포는 융합된다: OLLM의 인식‑주도 로짓은 LRM 로짓에서 파생된 대비 계수에 의해 스케일링되어 최종 출력이 추론과 일관된 토큰으로 유도된다.
  3. 단계별 대비 스케일링 (SCS)

    • 고정 가중치(예: 0.5 × perception + 0.5 × reasoning) 대신, SCS는 두 로짓 간 유사성을 기반으로 디코딩 단계마다 동적 스케일링 계수를 계산한다.
    • LRM의 신뢰도가 높을 때는 스케일링이 추론에 더 크게 기울어지고, OLLM의 시각 신호가 우세할 때는 인식을 더 많이 반영한다.
    • 이러한 적응형 균형은 작업 전반에 걸친 광범위한 하이퍼파라미터 튜닝 필요성을 없앤다.
  4. 제로‑트레이닝 파이프라인

    • 이 프레임워크는 사전 학습된 OLLM과 LRM만 필요하며, 추가 데이터셋, 파인‑튜닝 루프, 혹은 그래디언트 업데이트가 전혀 수행되지 않는다.
    • 구현은 표준 생성 API 주변에 가벼운 래퍼를 두는 형태로, 기존 추론 서비스에 손쉽게 삽입할 수 있다.

결과 및 발견

벤치마크기본 OLLMThinkOmni (OLLM + LRM)Δ 개선
MathVista63.170.2+7.1
MMAU68.475.5+7.1
VQA‑Reason71.377.0+5.7
ScienceQA‑MM66.873.2+6.4
DocVQA‑Multi72.578.1+5.6
Visual‑Commonsense69.074.8+5.8
  • 도메인 전반에 걸친 일관된 향상 (수학, 과학, 상식, 문서 이해).
  • 소거 실험 결과 SCS 또는 LRM 가이드를 제거하면 성능이 기본값으로 돌아가며, 두 구성 요소가 모두 필수적임을 확인함.
  • 지연 시간 영향은 미미함: 추가 LRM 단계로 인해 추론 시간이 약 1.3배 증가하지만, 정확도 향상을 고려할 때 많은 실시간 애플리케이션에 충분히 허용 가능함.

실용적인 시사점

  • 빠른 역량 향상: 기업은 비용이 많이 드는 재학습 파이프라인 없이도 멀티모달 제품(예: 시각 어시스턴트, 교육용 봇)을 즉시 강화할 수 있습니다.
  • 모듈형 AI 스택: ThinkOmni는 인식 모듈과 추론 모듈을 독립적으로 개발하고 추론 시에 결합하는 “양쪽 장점 모두” 아키텍처를 장려합니다.
  • 비용 효율적인 확장: 기존 LLM API(예: OpenAI, Anthropic)를 추론 가이드로 재사용함으로써 개발자는 일반적으로 멀티모달 파인튜닝에 필요한 대규모 GPU 예산을 피할 수 있습니다.
  • 향상된 안전성 및 해석 가능성: LRM의 사고 사슬(chain‑of‑thought) 출력은 최종 답변과 함께 기록될 수 있어, 감사하거나 디버깅에 활용할 수 있는 투명한 추론 추적을 제공합니다.
  • 엣지‑투‑클라우드 하이브리드 배포: 인식이 무거운 OLLM은 엣지 디바이스에서 실행될 수 있고, 복잡한 추론 단계가 감지될 때만 LRM 가이드를 클라우드에서 호출함으로써 대역폭과 지연 시간을 최적화합니다.

제한 사항 및 향후 작업

  • LRM 품질에 대한 의존성: 프레임워크의 한계는 추론 모델의 능력에 의해 제한되며, 약한 LRM은 향상을 제한합니다.
  • 추론 오버헤드: 두 개의 대형 모델을 병렬로 실행하면 메모리 사용량이 두 배가 되고 지연 시간이 증가하여, 자원이 제한된 환경에서는 어려울 수 있습니다.
  • 모달 변환 병목 현상: 현재 구현은 비텍스트 모달리티를 LRM을 위한 텍스트 설명으로 변환하므로, 세밀한 시각적 단서를 잃을 가능성이 있습니다.
  • 미래 방향 suggested by the authors include:
    1. 경량 추론 가이드를 탐색하여(예: 증류된 LRM) 계산량을 줄이는 방안.
    2. SCS를 확장하여 두 개 이상의 모달리티를 동시에 처리하도록 하는 방안.
    3. OLLM이 모호한 시각 입력에 대해 LRM에 명확화를 요청할 수 있는 피드백 루프를 통합하는 방안.

저자

  • Yiran Guan
  • Sifan Tu
  • Dingkang Liang
  • Linghao Zhu
  • Jianzhong Ju
  • Zhenbo Luo
  • Jian Luan
  • Yuliang Liu
  • Xiang Bai

논문 정보

  • arXiv ID: 2602.23306v1
  • 분류: cs.CV
  • 출판일: 2026년 2월 26일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »