[Paper] OpenSearch-VL: 최첨단 멀티모달 검색 에이전트를 위한 오픈 레시피

발행: 4일 전 (2026년 5월 7일 AM 02:50 GMT+9)

11 분 소요

원문: arXiv

Source: arXiv - 2605.05185v1

개요

OpenSearch‑VL는 최첨단 멀티모달 검색 에이전트를 구축하기 위한 완전 오픈‑소스 레시피입니다. 이 에이전트는 텍스트와 이미지를 조회하고, 증거를 검증하며, 여러 단계에 걸쳐 추론할 수 있습니다. 데이터 파이프라인, 도구 환경, 학습 알고리즘을 공개함으로써, 저자들은 이전에 독점 시스템 뒤에 가두어졌던 기능을 누구나 재현하고 확장할 수 있도록 만들었습니다.

주요 기여

오픈 트레이닝 파이프라인은 경로 샘플링, 퍼지 엔터티 재작성, 시각적 그라운딩을 사용해 위키피디아에서 고품질 멀티모달 데이터를 생성합니다.
두 개의 선별된 데이터셋:
- SearchVL‑SFT‑36k는 감독된 미세조정(SFT)을 위해 사용됩니다.
- SearchVL‑RL‑8k는 에이전시 행동의 강화학습(RL)을 위해 사용됩니다.
통합 멀티모달 툴 스위트(텍스트 검색, 이미지 검색, OCR, 크롭, 샤프닝, 초해상도, 원근 보정)로 에이전트가 외부 리소스와 플러그‑앤‑플레이 방식으로 상호작용할 수 있습니다.
Fatal‑aware GRPO 알고리즘, 도구 실패 후 토큰을 마스킹하면서도 유용한 사전 실패 추론에 대한 보상을 제공하여 도구 실패를 우아하게 처리하는 강화학습 방법입니다.
강력한 실증 결과: 7개의 멀티모달 벤치마크에서 절대 10 % 이상의 향상을 달성했으며, 여러 작업에서 상용 블랙‑박스 모델과 동등한 성능을 보였습니다.
데이터, 코드, 사전학습 모델의 완전 오픈‑소스 공개를 통해 재현 가능한 연구를 촉진합니다.

Source: …

Methodology

Data Construction – 저자들은 위키피디아 기사에서 시작해 개념을 연결하는 경로를 샘플링합니다(예: “Mars → Olympus Mons → volcanic activity”). 그런 다음 모호한 엔티티 재작성(fuzzy entity rewriting)을 적용해 사소한 바로 가기(예: 동의어 교체)를 피하고, 텍스트 구간을 해당 이미지와 연결시켜 시각적 증거를 고정합니다. 이를 통해 검색과 추론을 모두 필요로 하는 다양하고 다단계 쿼리를 생성합니다.
Tool Environment – 샌드박스는 일련의 인식 및 검색 도구에 대한 공통 API를 제공합니다. 에이전트는 search_text("quantum tunneling") 혹은 ocr(image_id)와 같은 명령을 발행하고, 결과를 받아 자신의 추론 루프에 다시 투입할 수 있습니다.
Training Regime –
- Supervised Fine‑Tuning (SFT): 36k 예시를 사용해 “질문 → 도구 호출 → 답변”이라는 기본 패턴을 모델에 학습시킵니다.
- Reinforcement Learning (RL): fatal‑aware GRPO 목표를 적용해 정책을 장기 보상(정답) 최대화와 도구 충돌을 초래하는 시퀀스에 대한 페널티 부여로 정제합니다. 알고리즘은 실패 후 토큰을 마스킹해 손상된 출력으로부터 학습하는 것을 방지하면서, 실패에 이르게 한 추론 단계는 단일 측면 이점 클램프(one‑sided advantage clamp)를 통해 여전히 보상합니다.
Evaluation – 훈련된 에이전트들은 일곱 가지 멀티모달 검색 작업(예: 외부 지식을 활용한 시각 질문 응답, 이미지 기반 사실 검증, OCR 기반 추론)에서 벤치마크됩니다.

결과 및 발견

성능 향상: 전체 7개 벤치마크에서 OpenSearch‑VL은 기존 오픈 베이스라인보다 정확도 또는 F1 점수에서 평균 10.3 % 절대 향상됩니다.
폐쇄형 시스템과 동등함: 3개의 벤치마크(예: Web‑Image QA, Multi‑Modal Fact Checking)에서 오픈 모델은 GPT‑4V 또는 Claude‑Vision과 같은 상용 API에서 보고된 결과와 일치하거나 이를 능가합니다.
도구 오류에 대한 견고성: fatal‑aware GRPO 훈련은 치명적인 오류 전파를 감소시킵니다; 에이전트는 OCR 또는 검색 호출 실패 후 보다 부드럽게 복구하여 전체 실패율을 ≈15 % 감소시킵니다.
소거 실험 인사이트: 퍼지 엔터티 재작성 제거 시 성능이 약 4 % 감소하고, 시각적 그라운딩을 제외하면 이미지 중심 작업에서 최대 **7 %**까지 성능이 저하됩니다. 도구 모음의 다양성(특히 초고해상도)은 고해상도 시각적 디테일이 필요한 작업에 눈에 띄게 기여합니다.

실용적 함의

멀티모달 어시스턴트의 빠른 프로토타이핑 – 개발자는 공개된 툴 모음을 자체 LLM 백엔드(예: Llama‑3, Claude)에 연결하고 제공된 데이터셋으로 파인튜닝하여, 처음부터 데이터 파이프라인을 구축하지 않고도 검색 강화 기능을 얻을 수 있습니다.
기업 지식 검색 – 내부 문서 및 이미지 저장소를 보유한 기업은 위키피디아 기반 파이프라인을 자체 코퍼스로 맞춤화하여, 텍스트와 시각 자산 전반에 걸친 정보를 가져오고, 검증하고, 종합하는 에이전트를 구현할 수 있습니다.
AI 기반 제품의 UI/UX 향상 – OCR, 크롭, 초고해상도 변환을 실시간으로 호출할 수 있는 기능을 통해 제품은 스캔된 문서를 자동으로 정리하고, 표를 추출하며, 저해상도 스크린샷을 개선한 뒤 사용자 질문에 답변할 수 있습니다.
비용 효율적인 독점 API 대안 – OpenSearch‑VL이 비슷한 성능을 제공하므로 스타트업은 높은 비용의 호출당 요금을 피하면서도 고품질 멀티모달 검색 기능을 제공할 수 있습니다.
연구 가속화 – 전체 레시피가 공개됨에 따라 커뮤니티는 새로운 도구(예: 비디오 검색)나 대체 RL 목표를 실험할 수 있어, 멀티모달 에이전트 연구에서 더 빠른 반복 주기를 촉진합니다.

제한 사항 및 향후 작업

학습 데이터 규모 – 정제된 데이터셋(36k SFT, 8k RL)은 상업 모델이 사용하는 수십억 개의 예시와 비교하면 규모가 작습니다; 규모를 확대하면 추가적인 성능 향상이 기대됩니다.
도메인 특수성 – 파이프라인은 위키피디아 스타일의 지식에 맞게 튜닝되어 있습니다; 의료 영상, 법률 문서와 같은 고도로 전문화된 도메인에 적용하려면 추가적인 정제 단계가 필요할 수 있습니다.
도구 신뢰성 – 치명적 오류를 인식하는 GRPO가 실패를 완화하지만, 기본 도구(검색 API, OCR 엔진) 자체가 지연을 발생시키고 가끔 부정확성을 초래해 실시간 애플리케이션에 영향을 줄 수 있습니다.
평가 범위 – 벤치마크는 정적 이미지 및 텍스트 검색에 초점을 맞추고 있으며, 비디오, 3‑D 데이터 또는 인터랙티브 환경에 대한 평가 확대는 아직 열려 있는 과제입니다.
향후 방향 – 저자들은 도구 세트 확대(예: 다중모달 번역, 음성‑텍스트 변환), 더 큰 LLM 백본 통합, 그리고 커리큘럼 기반 RL을 탐색하여 다단계 추론 견고성을 더욱 향상시키는 방안을 제안하고 있습니다.

저자

Shuang Chen
Kaituo Feng
Hangting Chen
Wenxuan Huang
Dasen Dai
Quanxin Shou
Yunlong Lin
Xiangyu Yue
Shenghua Gao
Tianyu Pang

논문 정보

arXiv ID: 2605.05185v1
카테고리: cs.CV
출판일: 2026년 5월 6일
PDF: PDF 다운로드

[Paper] OpenSearch-VL: 최첨단 멀티모달 검색 에이전트를 위한 오픈 레시피

개요

주요 기여

Methodology

결과 및 발견

실용적 함의

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] 트래젝터리 모델 정규화

[Paper] Proxy3D: Vision‑Language 모델을 위한 효율적인 3D 표현, 시맨틱 클러스터링 및 정렬을 통해

[Paper] Flow-OPD: Flow Matching 모델을 위한 온-폴리시 증류

[Paper] 고제약 인간 모션 생성에 대한 Retrieval-Guided Diffusion Noise Optimization