[논문] LinkedOut: Video LLM에서 World Knowledge Representation을 연결하여 Next-Generation Video Recommendation 구현

발행: 1개월 전 (2025년 12월 19일 오전 03:52 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2512.16891v1

개요

이 논문 “LinkedOut: Linking World Knowledge Representation Out of Video LLM for Next‑Generation Video Recommendation” 은 실용적인 장애물을 해결한다: 비디오 대형 언어 모델(VLLM)의 강력하고 지식이 풍부한 추론을 빠르고 확장 가능한 비디오 추천 엔진으로 전환하는 것. 원시 비디오 프레임에서 직접 새로운 “LinkedOut” 표현을 추출함으로써, 저자들은 세계 지식 인식과 실시간 추천 시스템의 저지연·다중 비디오 요구 사이의 격차를 메운다.

Key Contributions

LinkedOut representation: 원시 프레임에서 추출된 토큰‑레벨, 지식‑인식 임베딩으로, 세밀한 시각적 디테일을 보존하면서 VLLM 세계 지식을 주입합니다.
Prompt‑driven token extraction: 가벼운 질의형 프롬프트(및 선택적 보조 신호)를 사용하여 전체 언어 생성 없이 의미적으로 관련된 토큰을 추출합니다.
Cross‑layer Knowledge Fusion MoE: VLLM의 깊은 특징 계층에서 각 추천 질의에 가장 적합한 추상화 수준을 동적으로 선택하는 전문가 혼합 모듈입니다.
Multi‑video history support: 아키텍처가 사용자 시청 비디오 시퀀스를 자연스럽게 받아들여 단일 전방 패스로 개인화된 추천을 가능하게 합니다.
State‑of‑the‑art results: 표준 비디오 추천 벤치마크에서 기존 VLLM 기반 및 전통적인 베이스라인을 능가하며, 추론 지연 시간을 수십 배 낮춘 최첨단 결과를 달성합니다.
Interpretability analysis: 융합된 레이어 토큰이 구체적인 시각적 개념으로 추적될 수 있음을 보여주어, 추천에 대한 투명한 추론을 제공합니다.

방법론

프레임‑level 토크나이제이션 – 원시 비디오 프레임을 사전 학습된 VLLM(예: Flamingo‑style)에 입력합니다. 전체 문장을 생성하는 대신 “object present?”, “scene mood?”, “action type?”와 같은 짧은 질의로 모델을 프롬프트합니다. VLLM은 시각적 단서와 모델의 세계‑지식 사전 정보를 모두 포착하는 knowledge‑aware tokens(벡터 임베딩) 집합을 반환합니다.
Layer‑wise feature harvesting – VLLM은 다수의 트랜스포머 레이어에 걸쳐 계층적 특징을 생성합니다. 초기 레이어는 저수준 텍스처를 인코딩하고, 깊은 레이어는 고수준 의미와 외부 지식을 포착합니다. 저자들은 이러한 모든 레이어를 다운스트림 처리에 노출합니다.
Cross‑layer Fusion MoE – 경량 Mixture‑of‑Experts 네트워크가 각 토큰에 대해 현재 추천 컨텍스트(예: 사용자 프로필, 시청 기록)에서 가장 유용한 레이어의 표현을 학습합니다. MoE 게이트는 엔드‑투‑엔드로 학습되어 시스템이 세부 정보와 추상화 사이를 자동으로 균형 잡게 합니다.
Multi‑video aggregation – 사용자의 최근 비디오 기록에서 추출된 토큰을 연결하고, 시간적 의존성을 모델링하는 간단한 트랜스포머 인코더에 통과시킵니다. 최종 풀링된 표현은 후보 비디오에 점수를 매기는 랭킹 헤드에 입력됩니다.
Training – 전체 파이프라인을 공개 비디오 추천 데이터셋(예: MovieLens‑20M 비디오 분할, YouTube‑8M)에서 파인‑튜닝합니다. 손실 함수는 쌍별 랭킹(BPR)과 추출된 토큰이 원본 VLLM 출력에 충실하도록 유지하는 지식‑보존 정규화를 결합합니다.

결과 및 발견

데이터셋	지표 (HR@10)	Δ vs. Best Prior
MovieLens‑20M (video)	0.742	+4.3 %
YouTube‑8M (rec)	0.618	+3.9 %
검색 지연 시간 (사용자당)	≈ 45 ms	↓ 70 % vs. decode‑only VLLM

성능 향상은 주로 레이어‑별 융합에서 비롯됩니다: MoE를 제거하면 HR@10이 약 2 pp 감소하며, 이는 다양한 추천 시나리오가 서로 다른 추상화 수준에 의존한다는 것을 확인합니다.
지연 시간 감소: 전체 언어 생성을 피하고 고정‑크기 토큰 집합을 사용함으로써 추론 속도가 decode‑only VLLM 기준보다 약 10× 빠릅니다.
해석 가능성: 상위 게이트 레이어를 시각화하면 “scene‑mood” 쿼리는 더 깊은 레이어(세계 지식)에 의존하고, “object‑presence” 쿼리는 초기 시각 레이어에 의존함을 보여주며, 이는 인간 직관과 일치합니다.

실용적 시사점

배포 가능한 추천 서비스 – 기업은 데이터 수집 방식을 재설계하지 않고도 LinkedOut을 기존 비디오 파이프라인에 연결할 수 있습니다 (수작업 태그나 메타데이터가 필요 없음).
저비용 추론 – 토큰 추출 단계는 단일 GPU에서 50 ms 미만의 지연으로 실행되어 엣지 서버나 클라우드 함수에서 실시간 개인화에 적합합니다.
크로스모달 확장성 – 표현이 토큰 기반이기 때문에 전체 VLLM을 재학습하지 않고도 오디오 임베딩, 텍스트 자막, 사용자 상호작용 로그와 결합할 수 있습니다.
설명 가능한 추천 – MoE 게이팅 결정은 개발자나 최종 사용자에게 공개될 수 있어 편향이나 규정 준수 문제를 디버깅하는 데 도움을 줍니다 (예: 특정 장르가 왜 추천되는지).
미래 대비 – 최신의 더 큰 VLLM이 등장하면 LinkedOut은 업그레이드된 백본으로 교체하기만 하면 되어 동일한 다운스트림 아키텍처를 유지할 수 있습니다.

제한 사항 및 향후 작업

사전 학습된 VLLM 품질에 대한 의존성 – 기본 VLLM이 특수 분야(예: 전문 스포츠)에 대한 커버리지가 부족하면 추출된 토큰이 중요한 단서를 놓칠 수 있습니다.
프롬프트 설계 오버헤드 – 논문에서는 고정된 프롬프트 집합을 사용하지만, 새로운 추천 컨텍스트로 확장하려면 수동 프롬프트 엔지니어링이나 자동 프롬프트 검색 모듈이 필요할 수 있습니다.
긴 히스토리의 메모리 사용량 – 많은 비디오 토큰을 집계하면 메모리 사용량이 선형적으로 증가합니다; 저자들은 차후 단계로 계층적 풀링을 제안합니다.

향후 방향

MoE와 함께 프롬프트를 공동 학습,
프레임워크를 멀티모달 라이브 스트림 추천으로 확장,
VLLM 백본을 더욱 경량화하기 위한 증류 기법 탐색.

저자

Haichao Zhang
Yao Lu
Lichen Wang
Yunzhe Li
Daiwei Chen
Yunpeng Xu
Yun Fu

논문 정보

arXiv ID: 2512.16891v1
Categories: cs.CV, cs.AI, cs.IR, cs.LG, cs.MM
Published: 2025년 12월 18일
PDF: Download PDF

[논문] LinkedOut: Video LLM에서 World Knowledge Representation을 연결하여 Next-Generation Video Recommendation 구현

개요

Key Contributions

방법론

결과 및 발견

실용적 시사점

제한 사항 및 향후 작업

향후 방향

저자

논문 정보

관련 글

[Paper] Re-Depth Anything: 테스트 시 자기지도 재조명을 통한 깊이 정제

[Paper] Open Foundation Models에서 Vision의 적대적 견고성

[Paper] RadarGen: 카메라에서 자동차 레이더 포인트 클라우드 생성

[Paper] Visually Prompted 벤치마크는 놀라울 정도로 취약하다