[Paper] AdaTooler-V: 이미지와 비디오를 위한 적응형 툴 사용

발행: (2025년 12월 19일 오전 03:59 GMT+9)
9 min read
원문: arXiv

Source: arXiv - 2512.16918v1

Overview

AdaTooler‑V는 시각 분석 도구(예: OCR, 객체 탐지기)를 무차별적으로 호출하는 대신 언제 호출할지를 학습하는 새로운 멀티모달 대형 언어 모델(MLLM)입니다. 강화 학습 기반 보상 스케줄러와 대규모 큐레이션 데이터셋을 결합함으로써, 모델은 시각적 질문이 실제로 추가 처리가 필요한지를 실시간으로 판단할 수 있어 추론 비용을 절감하고 이미지 및 비디오 기반 추론 작업에서 정확성을 향상시킵니다.

주요 기여

  • Adaptive tool‑use policy: Tool Benefit Score에 따라 보상을 조정하는 강화학습 알고리즘 AT‑GRPO를 도입하여, 모델이 실질적인 가치를 추가할 때만 비전 도구를 호출하도록 장려합니다.
  • 두 단계 학습 데이터 파이프라인:
    • AdaTooler‑V‑CoT‑100k: 기본 시각 추론 패턴을 모델에 주입하기 위한 100 k 예시 체인‑오브‑생각(Chain‑of‑Thought, CoT) 데이터셋으로, 감독 미세조정(SFT)에 사용됩니다.
    • AdaTooler‑V‑300k: 단일 이미지, 다중 이미지, 비디오 시나리오 전반에 걸쳐 검증된 도구 사용 결과를 포함하는 300 k 예시 강화학습(RL) 데이터셋입니다.
  • 광범위한 벤치마크 커버리지: 12개의 다양한 시각 추론 벤치마크(고해상도 V* 및 비디오 QA 포함)에서 평가했으며, 오픈소스 및 상용 베이스라인을 지속적으로 능가합니다.
  • 오픈소스 공개: 모델 가중치(7B), 학습 코드 및 데이터셋을 모두 공개하여 재현성 및 하위 작업 확장을 가능하게 합니다.

방법론

  1. Base MLLM – 표준 언어‑전용 LLM(7 B 파라미터)에서 시작하여 외부 비전 모듈(OCR, 객체 탐지, 프레임‑레벨 특징 추출기)을 호출할 수 있는 tool‑calling interface를 추가한다.
  2. Tool Benefit Score (TBS) – 각 학습 샘플에 대해, 도구를 사용했을 때 답변 신뢰도 향상과 같은 가벼운 휴리스틱을 사용해 도구가 얼마나 도움이 되는지를 정량화한다.
  3. AT‑GRPO (Adaptive‑Scale Gradient‑Reward Policy Optimization) – 다음과 같은 강화학습 루프:
    • 보상 = 기본 정확도 + α·TBS, 여기서 α는 샘플마다 동적으로 조정된다.
    • 정책을 업데이트하여 TBS가 높은 샘플은 도구 호출에 더 큰 인센티브를 부여하고, TBS가 낮은 샘플은 불필요한 호출에 대해 페널티를 부여한다.
  4. Two‑phase training
    • Supervised fine‑tuning을 CoT‑100k 세트에 적용해 모델이 단계별 추론을 생성하고 “use‑tool?” 토큰을 출력하도록 학습한다.
    • RL fine‑tuning을 AdaTooler‑V‑300k 세트에 적용해 AT‑GRPO 보상을 이용해 결정 정책을 정제한다.
  5. Inference – 실행 시 모델은 무거운 비전 처리를 수행하기 전에 이진 “tool‑needed?” 플래그를 예측한다. 플래그가 false이면 순수 언어 추론만 수행해 GPU 사용량과 지연 시간을 절감한다.

결과 및 발견

벤치마크AdaTooler‑V‑7BGPT‑4oGemini 1.5 Pro평균 오픈‑소스
V* (고해상도)89.8 %86.4 %87.1 %78.3 %
멀티‑이미지 QA84.2 %80.1 %81.5 %72.9 %
비디오 QA (AVQA)81.7 %78.0 %79.3 %70.4 %
12개 작업 평균86.5 %82.3 %83.0 %73.1 %
  • 추론 효율성: 평균적으로 AdaTooler‑V는 약 38 %의 질의에 대해 도구 호출을 건너뛰어, 나이브 “항상‑도구‑호출” 기준에 비해 GPU 메모리 사용량을 약 1.2 ×, 지연 시간을 약 30 % 감소시킵니다.
  • 견고성: 적응형 정책은 정적 이미지와 비디오 프레임 등 다양한 모달리티에서 안정적으로 유지되며, 해상도가 높아져도 성능 저하가 없습니다.

Practical Implications

  • Cost‑effective AI services – 시각 QA(예: 문서 처리, 시각 검색)를 제공하는 SaaS 플랫폼은 불필요한 OCR 또는 탐지 호출을 피함으로써 클라우드 컴퓨팅 비용을 절감할 수 있습니다.
  • Edge deployment – 컴퓨팅 자원이 제한된 장치(모바일, IoT)에서 모델은 무거운 비전 모듈을 클라우드로 오프로드할지 로컬에서 결정할 수 있어 대역폭과 배터리 수명을 최적화합니다.
  • Developer ergonomics – 오픈소스 툴‑콜링 API는 인기 프레임워크(LangChain, LlamaIndex)를 그대로 반영하여 맞춤형 비전 모듈을 쉽게 연결하거나 기본 모듈을 도메인 특화 탐지기로 교체할 수 있습니다.
  • Rapid prototyping – 공개된 CoT‑100k 및 RL‑300k 데이터셋은 적응형 멀티모달 추론에 대한 다른 LLM을 미세 조정하기 위한 즉시 사용 가능한 커리큘럼을 제공해 연구 주기를 가속화합니다.

제한 사항 및 향후 연구

  • 도구 레퍼토리가 사전 정의된 비전 모듈에 제한됨 – 현재 구현은 고정된 OCR, 객체 탐지 및 프레임‑레벨 특징 추출기 집합만 지원합니다. 보다 전문화된 도구(예: 의료 영상 분석)로 확장하려면 추가적인 보상‑보정 작업이 필요합니다.
  • 보상 추정이 휴리스틱에 의존 – 도구 이점 점수는 신뢰도 증가를 이용해 근사합니다; 잡음이 많거나 편향된 휴리스틱은 극단 상황에서 RL 신호를 오도할 수 있습니다.
  • 대형 LLM 백본으로의 확장성 – 실험은 7 B 모델에 한정되었으며, 적응 정책이 30 B+ 모델에 그대로 적용될 수 있는지는 아직 확인되지 않았습니다.
  • 실시간 비디오 스트림 – 모델이 짧은 비디오 클립을 처리할 수는 있지만, 연속 스트리밍 상황(예: 실시간 감시)에서는 보다 정교한 시간 예산 전략이 필요합니다.

AdaTooler‑V는 더 똑똑하고 상황 인식적인 도구 사용이 독점 대기업과의 성능 격차를 줄이면서 추론을 가볍게 유지할 수 있음을 보여줍니다—다음 세대 멀티모달 AI 시스템을 위한 유망한 방향입니다.

저자

  • Chaoyang Wang
  • Kaituo Feng
  • Dongyang Chen
  • Zhongyu Wang
  • Zhixun Li
  • Sicheng Gao
  • Meng Meng
  • Xu Zhou
  • Manyuan Zhang
  • Yuzhang Shang
  • Xiangyu Yue

논문 정보

  • arXiv ID: 2512.16918v1
  • 분류: cs.CV
  • 출판일: 2025년 12월 18일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »

[Paper] 정교한 World Models

최근 3D 재구성 분야의 진보로 일상적인 환경에서 현실적인 디지털 트윈을 쉽게 만들 수 있게 되었습니다. 그러나 현재 디지털 트윈은 여전히 크게…