[Paper] OneThinker: 이미지와 비디오를 위한 올인원 추론 모델

발행: (2025년 12월 3일 오전 03:59 GMT+9)
9 min read
원문: arXiv

Source: arXiv - 2512.03043v1

Overview

이 논문은 OneThinker라는 단일 멀티모달 추론 모델을 소개한다. 이 모델은 이미지와 비디오 모두를 다루며, 질문 응답, 캡션 생성부터 객체 추적 및 분할에 이르는 다양한 시각 작업을 수행한다. 작업‑별 모델을 따로 구축하는 대신 하나의 통합 모델을 학습함으로써, 저자들은 작업 및 모달리티 간에 지식을 공유할 수 있는 보다 확장 가능하고 다재다능한 “제너럴리스트”를 만들고자 한다.

Key Contributions

  • All‑in‑one architecture: 이미지와 비디오에 대해 10가지 기본 시각 작업을 동시에 학습한다.
  • OneThinker‑600k dataset: 다양한 작업을 포괄하는 정제된 코퍼스로, 상업용 LLM이 생성한 chain‑of‑thought (CoT) 주석이 포함되어 있다.
  • OneThinker‑SFT‑340k: 고품질 추론 트레이스를 제공하는 감독‑미세조정(SFT) 시작 세트로, 모델을 빠르게 초기화한다.
  • EMA‑GRPO algorithm: 작업별 보상 표준편차의 이동 평균을 추적하여 이질적인 보상을 균형 있게 조정하는 새로운 다중 작업 강화학습 옵티마이저.
  • Extensive evaluation: 31개 벤치마크에 대한 광범위한 평가를 통해 모든 작업에서 강력한 성능과 유망한 zero‑shot 전이 능력을 입증한다.
  • Open‑source release: 코드, 모델 가중치, 데이터를 공개하여 재현성 및 커뮤니티 확장을 촉진한다.

Methodology

  1. Unified Data Collection – 저자들은 기존 이미지·비디오 중심 데이터셋(VQA, MS‑COCO, YouCook2, DAVIS 등)을 수집해 600 k 예제로 구성된 단일 학습 코퍼스로 통합하였다. 각 예제는 원시 시각 입력, 작업 라벨, 그리고 단계별 추론을 기술한 CoT 주석을 포함한다.
  2. Supervised Fine‑Tuning (SFT) – 고품질 CoT 트레이스가 포함된 340 k 예제를 사용해 모델을 워밍업한다. 이 단계에서는 모델이 자연어로 추론 과정을 표현하는 방법을 학습한다.
  3. Multi‑Task Reinforcement Learning – SFT 이후 모델을 RL로 추가 정제하여 작업‑특정 메트릭(예: QA 정확도, 분할 IoU)을 최대화한다. 각 작업마다 보상 규모가 다르기 때문에 EMA‑GRPO 옵티마이저는 각 작업의 보상 표준편차에 대한 지수 이동 평균을 계산하고 이를 정규화하여 업데이트한다. 이를 통해 특정 작업이 학습을 독점하는 현상을 방지한다.
  4. Model Backbone – OneThinker는 대형 멀티모달 트랜스포머(비전 인코더 + 언어 디코더)를 기반으로 하며, 정적 프레임과 비디오 클립을 모두 처리한다(비디오는 시간 위치 임베딩을 가진 프레임 시퀀스로 취급). 모든 작업에 동일한 파라미터를 공유함으로써 지식 전이가 가능하도록 설계되었다.

Results & Findings

  • Across‑task performance: OneThinker는 QA, 캡션, 공간·시간 그라운딩, 추적, 분할 등을 포함한 31개 벤치마크에서 최첨단 특화 모델과 동등하거나 더 높은 성능을 보인다.
  • Knowledge transfer: 캡션 학습이 비디오 QA를 향상시키고, 분할 데이터가 객체 추적 정확도를 높이는 등 작업 간 시너지 효과가 확인되었다.
  • Zero‑shot generalization: 추가 미세조정 없이도 모델은 새로운 작업(예: 비디오 기반 시각 상식 추론)을 합리적인 수준으로 수행할 수 있어, 일반화 능력이 나타난다.
  • Efficiency: 단일 모델이 최대 12개의 별도 작업‑특화 모델을 대체하여, 배포 시 footprint와 추론 지연 시간을 크게 감소시킨다.

Practical Implications

  • Unified AI services – 기업은 “이 비디오를 설명해줘”, “프레임 42에서 사람 찾기”, “공을 추적해줘”와 같은 다양한 시각 기능을 하나의 API로 제공할 수 있어 제품 아키텍처와 유지보수가 간소화된다.
  • Cost‑effective scaling – 여러 개의 특화 모델을 유지하는 것보다 하나의 대형 모델을 학습·호스팅하는 것이 비용 효율적이며, 특히 엣지나 클라우드 제한 환경에서 유리하다.
  • Rapid prototyping – 개발자는 대규모 라벨링 없이도 zero‑shot 능력을 활용해 새로운 시각 작업(예: 맞춤형 비디오 QA)을 빠르게 프로토타이핑할 수 있다.
  • Cross‑modal knowledge reuse – 한 모달리티에서의 개선(예: 비디오 분할) 이 자동으로 관련 작업(예: 비디오 캡션)에도 이득을 주어 반복 주기가 가속화된다.
  • Open resources – 공개된 데이터셋과 코드는 의료 영상, 자율 주행 등 도메인‑특화 확장을 최소한의 추가 데이터로 수행할 수 있는 기반을 제공한다.

Limitations & Future Work

  • Reward heterogeneity handling – EMA‑GRPO가 작업 보상을 균형 있게 조정하지만, 여전히 수동으로 선택한 하이퍼파라미터(예: 감쇠율)에 의존하며 새로운 작업에 대해 재조정이 필요할 수 있다.
  • Temporal resolution – 모델은 고정 길이 프레임 시퀀스로 비디오를 처리하므로, 매우 길거나 고프레임 비디오는 메모리 부담이 커지고 계층적 시간 모델링이 요구될 수 있다.
  • Domain bias – 학습 코퍼스가 공개 데이터셋 중심이기 때문에 위성 이미지와 같은 특수 도메인에 대한 성능은 아직 검증되지 않았다.
  • Explainability – CoT 주석이 해석 가능성을 높이지만, 트랜스포머 내부 추론은 여전히 블랙박스이며, 보다 명시적인 추론 모듈 통합이 향후 과제로 남는다.
  • Continual learning – 새로운 작업을 지속적으로 흡수하면서도 망각을 방지하는 OneThinker의 확장은 아직 미해결 연구 과제이다.

OneThinker는 이미지와 비디오 모두에 대해 단일, 재사용 가능한 모델로 추론할 수 있는 진정한 멀티모달·멀티태스크 AI 어시스턴트에 한 걸음 다가선다. 오픈소스 공개를 통해 커뮤니티가 통합 시각 추론의 경계를 더욱 넓히길 기대한다.

Authors

  • Kaituo Feng
  • Manyuan Zhang
  • Hongyu Li
  • Kaixuan Fan
  • Shuang Chen
  • Yilei Jiang
  • Dian Zheng
  • Peiwen Sun
  • Yiyuan Zhang
  • Haoze Sun
  • Yan Feng
  • Peng Pei
  • Xunliang Cai
  • Xiangyu Yue

Paper Information

  • arXiv ID: 2512.03043v1
  • Categories: cs.CV
  • Published: December 2, 2025
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »

[Paper] 보편적 가중치 부분공간 가설

우리는 다양한 작업에 대해 학습된 딥 뉴럴 네트워크가 놀라울 정도로 유사한 저차원 파라메트릭 서브스페이스를 나타낸다는 것을 보여준다. 우리는 최초의 대규모…