[Paper] Qwen3-VL 기술 보고서
Source: arXiv - 2511.21631v1
개요
Qwen3‑VL은 Qwen 시리즈의 최신 비전‑언어 모델로, 대규모 혼합 텍스트, 이미지, 비디오 입력(최대 256 K 토큰 윈도우)을 처리하도록 설계되었습니다. 다양한 멀티모달 벤치마크에서 최첨단 성능을 보여주며, 경량 2 B 밀집 모델부터 대규모 235 B Mixture‑of‑Experts(MoE) 변형까지 다양한 모델군을 제공해 개발자가 제품에 맞는 지연‑품질 트레이드오프를 선택할 수 있습니다.
주요 기여
- 통합된 장기 컨텍스트 멀티모달 윈도우 – 외부 청킹 없이 텍스트, 이미지, 비디오를 혼합할 수 있는 256 K 토큰을 네이티브 지원합니다.
- 강력한 순수 텍스트 백본 – 표준 언어 벤치마크에서 많은 전용 텍스트‑전용 LLM을 능가하여 비전‑언어 융합이 텍스트 능력을 희생하지 않음을 입증합니다.
- 고급 시공간 모델링 – interleaved‑MRoPE와 텍스트 기반 타임스탬프 정렬 메커니즘을 도입해 이미지와 비디오 스트림 모두에서 모델에 정확한 grounding을 제공합니다.
- DeepStack 비전‑언어 정렬 – 다중 레벨 ViT 특징(초기, 중간, 후기 레이어)을 활용해 시각 및 텍스트 표현 간 결합을 강화합니다.
- 확장 가능한 아키텍처 패밀리 – 밀집 모델(2 B, 4 B, 8 B, 32 B)과 MoE 모델(30 B‑A3 B, 235 B‑A22 B)을 제공해 엣지 디바이스부터 클라우드 규모 서비스까지 유연하게 배포할 수 있습니다.
- 벤치마크 리더십 – MMMU, MathVista, MathVision 및 다양한 시각‑질문‑응답, 캡션, 비디오‑추론 스위트에서 최고 순위를 기록했습니다.
방법론
Qwen3‑VL은 모든 모달리티를 토큰 시퀀스로 취급하는 트랜스포머 백본을 기반으로 합니다:
- Interleaved‑MRoPE – 이미지의 공간 좌표와 비디오의 시간 오프셋을 동시에 인코딩하면서 주변 텍스트 토큰의 순서를 유지하는 로터리 포지셔널 인코딩입니다.
- DeepStack Vision Encoder – Vision Transformer(ViT)가 여러 깊이에서 특징을 추출하고, 이를 언어 트랜스포머의 해당 레이어에 투사·주입해 저수준 텍스처와 고수준 의미 모두에 주의를 기울일 수 있게 합니다.
- Text‑Based Time Alignment – 위치 인코딩에만 의존하지 않고 “at 00:12”와 같은 명시적 텍스트 타임스탬프를 비디오 프레임에 정렬시켜 시간 추론을 향상시킵니다.
- Mixture‑of‑Experts Scaling – MoE 레이어가 토큰을 일부 전문가 피드‑포워드 네트워크에 라우팅해 용량을 크게 확장(최대 235 B 파라미터)하면서도 추론 지연을 작은 밀집 모델 수준으로 유지합니다.
- Training Regimen – 이미지‑캡션 쌍, 비디오‑설명 데이터셋, OCR‑풍부 문서 등 대규모 멀티모달 코퍼스와 순수 텍스트 코퍼스를 혼합하고, 컨텍스트 길이를 256 K 한계까지 점진적으로 늘리는 커리큘럼 학습을 적용합니다.
이 모든 것이 하나의 엔드‑투‑엔드 모델에 통합돼, 개발자는 스크린샷이 섞인 긴 PDF나 자막이 포함된 다분 길이 비디오를 입력하고 일관되고 grounding된 응답을 받을 수 있습니다.
결과 및 발견
| 벤치마크 | 모델 (크기) | 점수 ↑ | 이전 SOTA 대비 상대 향상 |
|---|---|---|---|
| MMMU (멀티모달 이해) | 32 B 밀집 | 78.4% | +4.2 pts |
| MathVista (시각 수학) | 235 B‑A22 B MoE | 85.1% | +5.6 pts |
| VideoQA (시간 추론) | 30 B‑A3 B MoE | 71.9% | +3.8 pts |
| Long‑document QA (256 K 토큰) | 8 B 밀집 | 82.0% | +2.5 pts |
| Pure‑text (MMLU) | 4 B 밀집 | 71.3% | 전용 LLM과 동등 |
주요 시사점
- 장기 컨텍스트 윈도우 덕분에 슬라이딩‑윈도우 기법이 필요 없어 수백 페이지 혹은 수분 비디오에 걸친 교차‑모달 참조를 그대로 유지합니다.
- MoE 변형은 동일하거나 더 나은 정확도를 유지하면서도 일반적인 배치 크기에서 수백 밀리초 수준의 추론 지연을 보입니다.
- DeepStack과 interleaved‑MRoPE 업그레이드가 시각‑추론 작업에서 약 1.5–2 % 절대 향상을 가져와, 다중 레벨 시각 특징과 통합 포지셔널 인코딩의 중요성을 확인했습니다.
실용적 함의
- 기업 지식 베이스 – 기업은 방대한 정책 매뉴얼, 설계 문서, 도면을 그대로 ingest하고, 사전 처리나 청킹 없이 자연어로 질의할 수 있습니다.
- AI‑기반 어시스턴트 – 가상 에이전트가 튜토리얼 비디오를 시청하고 전사본을 읽어, 특정 단계에 대한 후속 질문에 타임스탬프 정렬 덕분에 답변할 수 있습니다.
- 멀티모달 코드 인텔리전스 – 개발자는 UI 목업 스크린샷과 코드 스니펫을 함께 붙여넣으면, 모델이 구현 세부 사항을 제안하거나 불일치를 찾아냅니다.
- 콘텐츠 모더레이션 및 접근성 – 긴 기사에 삽입된 그래픽이나 비디오 캡션에 대한 상세한 대체 텍스트를 대규모로 자동 생성할 수 있습니다.
- 엣지‑투‑클라우드 유연성 – 2 B/4 B 밀집 모델은 고성능 노트북이나 저지연 서버에서 실행 가능하고, 235 B MoE는 무거운 분석 작업을 위한 분산 클라우드에 배포할 수 있습니다.
제한 사항 및 향후 연구
- 자원 요구량 – 가장 작은 밀집 변형조차 전체 256 K 컨텍스트를 사용할 경우 추론에 >8 GB VRAM이 필요해 저전력 디바이스에서의 배포가 제한됩니다.
- 시간 세분성 – 타임스탬프 정렬이 비디오 grounding을 개선했지만, 초단위 이하의 초미세 행동은 여전히 어려운 과제입니다.
- 데이터 편향 – 학습 데이터가 공개 웹 코퍼스에 크게 의존하므로, 의료 영상 등 특정 도메인에서는 정확도가 낮아질 수 있습니다.
- 향후 방향 – 저자들은 메모리 사용량을 더 줄이기 위한 sparse‑attention 커널 탐색, 도메인 적응을 위한 모달리티‑특화 어댑터(예: 위성 이미지) 도입, 그리고 온‑디바이스 추론을 위한 경량 “Qwen‑VL‑Lite” 버전 오픈소스화를 계획하고 있습니다.
저자
Shuai Bai, Yuxuan Cai, Ruizhe Chen, Keqin Chen, Xionghui Chen, Zesen Cheng, Lianghao Deng, Wei Ding, Chang Gao, Chunjiang Ge, Wenbin Ge, Zhifang Guo, Qidong Huang, Jie Huang, Fei Huang, Binyuan Hui, Shutong Jiang, Zhaohai Li, Mingsheng Li, Mei Li, Kaixin Li, Zicheng Lin, Junyang Lin, Xuejing Liu, Jiawei Liu, Chenglong Liu, Yang Liu, Dayiheng Liu, Shixuan Liu, Dunjie Lu, Ruilin Luo, Chenxu Lv, Rui Men, Lingchen Meng, Xuancheng Ren, Xingzhang Ren, Sibo Song, Yuchong Sun, Jun Tang, Jianhong Tu, Jianqiang Wan, Peng Wang, Pengfei Wang, Qiuyue Wang, Yuxuan Wang, Tianbao Xie, Yiheng Xu, Haiyang Xu, Jin Xu, Zhibo Yang, Mingkun Yang, Jianxin Yang, An Yang, Bowen Yu, Fei Zhang, Hang Zhang, Xi Zhang, Bo Zheng, Humen Zhong, Jingren Zhou, Fan Zhou, Jing Zhou, Yuanzhi Zhu, Ke Zhu
논문 정보
- arXiv ID: 2511.21631v1
- Categories: cs.CV, cs.AI
- Published: November 26, 2025
- PDF: Download PDF