[Paper] Vero: 일반 시각 추론을 위한 Open RL 레시피

발행: (2026년 4월 7일 AM 02:56 GMT+9)
10 분 소요
원문: arXiv

Source: arXiv - 2604.04917v1

Overview

이 논문은 Vero를 소개한다. Vero는 오픈‑소스 비전‑언어 모델(VLM) 패밀리로, 차트와 과학 도표 해석부터 공간 퍼즐 및 개방형 질문에 이르기까지 매우 다양한 작업에 대해 이미지에 대한 추론을 학습한다. 강화학습(RL) 파이프라인, 데이터 및 모델을 공개함으로써, 저자들은 커뮤니티에 기존 오픈‑웨이트 베이스라인과 경쟁하거나 이를 능가하는 “범용” 시각 추론기를 구축할 수 있는 재현 가능한 레시피를 제공한다.

주요 기여

  • Vero‑600K dataset – 59개의 공개 시각 추론 데이터셋에서 추출한 600 K 샘플로 구성된 정제된 RL 훈련 세트이며, 차트, 과학, 공간, 개방형 등 여섯 가지 광범위한 작업 군을 포괄합니다.
  • Task‑routed reward design – 이질적인 답변 형식(다중 선택, 자유 형식 텍스트, 숫자 등)을 개별 작업별 손실 함수를 직접 설계하지 않고도 처리할 수 있는 통합 보상 프레임워크입니다.
  • Open RL pipeline – 모든 기본 VLM에 적용 가능한 완전 재현 가능한 강화 학습 미세조정 워크플로(코드, 스크립트, 하이퍼파라미터)입니다.
  • State‑of‑the‑art performance – Vero는 새롭게 도입된 VeroEval 벤치마크 스위트(30개의 도전적인 시각 추론 작업)에서 네 가지 강력한 베이스라인 모델을 지속적으로 능가하며 평균 3.7–5.5 %의 절대적 향상을 제공합니다.
  • Empirical insight on data breadth – 체계적인 절제 실험을 통해 다양한 작업 카테고리를 혼합하는 것이 중요함이 밝혀졌으며, 단일 카테고리만으로 훈련된 모델은 다른 작업에 추론 패턴을 전이하지 못합니다. 이는 RL 확장을 위해 폭넓은 데이터 커버리지가 필요함을 강조합니다.

방법론

  1. Base Model Selection – 저자들은 공개된 80억 파라미터 비전‑언어 모델인 Qwen3‑VL‑8B‑Instruct를 시작점으로 삼는다.
  2. Dataset Assembly – 59개의 기존 시각‑추론 데이터셋(예: 차트 QA, 과학 도표 QA, 공간 추론, VQA 등)을 수집하여 하나의 RL 학습 코퍼스로 통합한다. 각 항목은 이미지, 프롬프트, 그리고 정답을 포함한다.
  3. Reward Engineering – 각 답변 유형마다 별도의 손실 함수를 설계하는 대신, Vero는 task‑routed 보상 함수를 사용한다: 모델이 생성한 답변을 적절한 메트릭(정확히 일치, BLEU, 수치 허용 오차 등)으로 레퍼런스와 비교하고, 얻어진 스칼라 보상이 정책 그래디언트 업데이트를 이끈다.
  4. Reinforcement Learning Loop – 파이프라인은 고전적인 PPO(Proximal Policy Optimization) 스타일의 RL 미세조정을 따른다: 모델이 답변을 샘플링하고, 보상을 받으며, 원래의 지도 학습 가중치와 크게 벗어나지 않도록 하여 재앙적 망각을 방지하면서 정책을 업데이트한다.
  5. Evaluation Suite (VeroEval) – 일반성을 측정하기 위해 저자들은 6개의 작업 군을 아우르는 30개의 벤치마크를 구성하고, 각 테스트 세트가 RL 학습 중에 보지 못한 데이터임을 보장한다.

전체 스택(데이터 전처리, 보상 래퍼, PPO 트레이너, 평가 스크립트)은 오픈 라이선스로 공개되어 누구나 작업을 재현하거나 확장할 수 있다.

Results & Findings

Model (base)Avg. Δ on VeroEval*Notable Wins
Qwen3‑VL‑8B‑Instruct (no RL)
Qwen3‑VL‑8B‑Thinking (proprietary RL)+2.1 %23/30 benchmarks
Vero‑600K (open RL)+3.7 % to +5.5 % over four baselinesOutperforms all baselines on 23 of 30 tasks
Vero‑600K (trained on single‑category data)–1.8 % (average)Poor transfer to other categories

*Average improvement over four strong open‑weight VLM baselines (e.g., LLaVA, MiniGPT‑4, etc.)

Key takeaways

  • Broad coverage matters – 다양한 시각‑추론 도메인을 혼합하면 전문 분야에 특화된 RL 모델보다 보이지 않는 작업에 훨씬 잘 일반화되는 모델을 얻을 수 있다.
  • Reward routing works – 단일하고 유연한 보상 인터페이스가 다양한 답변 유형을 처리하면서도 성능을 희생하지 않는다.
  • Open RL can match proprietary pipelines – Vero는 공개 데이터만 사용함에도 불구하고 폐쇄형 RL 파인튜닝(예: Qwen3‑VL‑8B‑Thinking)의 성능에 도달하거나 이를 능가한다.

Practical Implications

  1. Rapid Prototyping of Visual Assistants시각 어시스턴트의 빠른 프로토타이핑 – 개발자는 이제 동일한 오픈 RL 레시피를 사용해 자체 도메인 특화 시각 QA 데이터에 VLM을 미세 조정할 수 있어, 맞춤형 시각 어시스턴트(예: 의료 영상, 엔지니어링 도면, 비즈니스 대시보드)의 제작을 가속화한다.
  2. Unified Multimodal APIs통합 멀티모달 API – Vero가 이질적인 답변 형식을 바로 지원하기 때문에, 단일 API만으로 차트 해석, 과학적 도표 설명, 공간 추론을 모델을 전환하지 않고 제공할 수 있다.
  3. Cost‑Effective Scaling비용 효율적인 확장 – 논문은 RL 데이터의 다양성을 확장하는 것이 양만 늘리는 것보다 높은 효과를 가져온다는 것을 보여준다. 팀은 방대한 단일 작업 코퍼스보다 다양하고 적당한 규모의 데이터셋을 우선 수집할 수 있다.
  4. Benchmarking Standardization벤치마킹 표준화 – VeroEval은 새로운 VLM을 일반 시각 추론에 대해 평가할 수 있는 즉시 사용 가능한 도전적인 스위트를 제공하여, 제품 팀이 출시 전 벤치마크를 수행하도록 돕는다.
  5. Open‑source Community Growth오픈소스 커뮤니티 성장 – 모든 코드, 데이터, 체크포인트가 공개됨에 따라 커뮤니티는 보상 설계에 대해 반복 실험하고, 대안 RL 알고리즘(예: 오프라인 RL)을 탐색하거나 Vero를 LangChain, LlamaIndex와 같은 기존 프레임워크에 통합할 수 있다.

제한 사항 및 향후 작업

  • Compute‑Intensive RL – PPO를 사용해 600 K 샘플로 Vero를 학습시키는 데에도 고성능 하드웨어에서 여러 GPU 일수가 필요하며, 이는 소규모 팀에게는 큰 부담이 될 수 있습니다.
  • Answer Fidelity on Complex Generation – Vero는 사실 기반 QA에서는 뛰어나지만, 이미지 기반 스토리텔링과 같은 장문의 창의적 생성에서는 특화된 모델에 비해 성능이 뒤처집니다.
  • Dataset Bias – 59개의 원천 데이터셋은 대부분 영어이며 학술적이거나 합성된 시각 자료에 초점을 맞추고 있어, 위성 이미지나 의료 영상 등 실제 산업 현장의 이미지가 충분히 반영되지 못하고 있습니다.
  • Future Directions – 저자들은 (1) 전이 성능을 더욱 향상시키기 위한 멀티모달 커리큘럼 학습, (2) 툴 사용 프롬프트를 통한 외부 도구(예: OCR, 기하학 솔버) 통합, (3) 인간‑인‑루프 평가와 같은 멀티모달 피드백을 처리할 수 있는 보상 프레임워크 확장을 탐구할 것을 제안합니다.

저자

  • Gabriel Sarch
  • Linrong Cai
  • Qunzhong Wang
  • Haoyang Wu
  • Danqi Chen
  • Zhuang Liu

논문 정보

  • arXiv ID: 2604.04917v1
  • Categories: cs.CV, cs.AI, cs.CL
  • 발행일: 2026년 4월 6일
  • PDF: Download PDF
0 조회
Back to Blog

관련 글

더 보기 »

[Paper] 인플레이스 테스트 시점 학습

정적인 “train then deploy” 패러다임은 대규모 언어 모델(LLM)이 지속적인 스트…에 대응하여 가중치를 동적으로 조정하는 것을 근본적으로 제한한다.