[Paper] 추론 및 증류를 통한 사용자 관심사 학습 for Cross-Domain News Recommendation

발행: (2026년 2월 17일 오전 03:45 GMT+9)
9 분 소요
원문: arXiv

Source: arXiv - 2602.15005v1

Overview

이 논문은 클릭, 좋아요, 그리고 다른 플랫폼에서의 활동과 같은 다양한 사용자 신호를 관심 기반 검색 쿼리로 전환함으로써 독자들이 실제로 무엇에 관심을 갖는지를 새롭게 이해하는 방식을 제안한다. 강화 학습을 이용해 대형 언어 모델(LLMs)을 훈련시켜 고품질의 쿼리 리스트를 생성하고, 이를 직접 크로스‑도메인 뉴스 추천 시스템에 투입함으로써 개인화 성능을 향상시키면서도 생산 환경에서 확장 가능한 시스템을 유지한다.

주요 기여

  • Reinforcement‑learning‑driven query generation: 관심 중심 쿼리 목록 생성을 정책 최적화 문제로 정의하고, Generalized Reward‑Weighted Policy Optimization (GRPO)으로 해결합니다.
  • Multi‑reward design: 관련성, 다양성, 사용자 참여 신호를 하나의 보상 함수로 결합하여 LLM이 유용한 쿼리를 생성하도록 안내합니다.
  • Compute scaling study: 추론 시 샘플링(생성 후보 수 증가)과 모델 용량 확대가 모두 일관되게 성능을 향상시키며, 예측 가능한 스케일링 법칙을 나타냅니다.
  • On‑policy distillation pipeline: 무거운 교사 LLM의 정책을 경량 학생 모델로 전달하여 대부분의 성능 향상을 유지하면서 실시간 추천의 지연 시간 및 자원 제약을 충족합니다.
  • Extensive validation: 오프라인 실험, 소거 분석, 그리고 실제 뉴스 플랫폼에서의 대규모 온라인 A/B 테스트를 제공하여 관심 모델링 지표와 하위 클릭률 모두에서 측정 가능한 향상을 입증합니다.

방법론

  1. Signal aggregation – 시스템은 뉴스 사이트와 기타 도메인(예: 검색, 소셜 미디어)에서 이질적인 사용자 행동을 수집합니다.
  2. Prompt‑based LLM generation – 대형 언어 모델은 사용자의 최근 활동을 설명하는 프롬프트를 받고, 사용자의 잠재적 관심사를 포착하는 짧은 검색형 쿼리 목록을 출력하도록 요청받습니다.
  3. Reinforcement learning loop – 모델의 정책은 GRPO로 최적화됩니다. 보상 함수는 다음을 결합합니다:
    • Relevance: 생성된 쿼리가 알려진 사용자 관심사(클릭 로그를 통해)와 얼마나 잘 일치하는지.
    • Diversity: 에코 챔버를 피하기 위해 주제의 폭을 장려합니다.
    • Engagement: 하위 추천 지표에서 예상되는 향상.
  4. Scaling experiments – 저자들은 두 축을 변형합니다: (a) 추론 단계당 샘플링된 쿼리 수, (b) 기본 LLM의 크기(350 M에서 6 B 파라미터까지).
  5. Distillation – 대형 교사를 학습한 후, 온‑정책 증류 단계에서 교사의 쿼리 분포를 모방하도록 압축된 학생 모델을 훈련합니다. 이때 KL‑다이버전스 손실과 동일한 보상 신호를 사용합니다.
  6. Integration – 증류된 쿼리 목록은 기존 뉴스 랭킹 파이프라인에 추가 특징 집합으로 투입되어 사용자에게 표시되는 기사에 영향을 줍니다.

Results & Findings

MetricLarge Teacher (6 B)Distilled Student (350 M)Baseline (no query generation)
Query relevance (nDCG@10)0.6420.6180.511
Diversity (ILD)0.730.710.58
Downstream CTR lift+12.4 %+10.1 %
Latency (ms)782319
  • 스케일링 동작: 모델 크기 또는 샘플 수가 두 배가 될 때마다 약 3–4 %의 추가 향상이 발생하며, 이는 부드러운 멱법칙 추세를 따릅니다.
  • 증류 효율성: 학생 모델은 교사 모델 성능의 약 85 %를 회복하면서 추론 지연 시간을 약 70 % 줄여 실시간 서비스에 적합합니다.
  • 온라인 영향: 수백만 일일 활성 사용자를 대상으로 한 실시간 A/B 테스트에서, 증류 모델은 전체 클릭률을 10.1 % 증가시키고 평균 세션 길이를 5.3 % 늘렸으며, 시스템 지연 시간에는 악화가 없었습니다.

Source:

Practical Implications

  • Richer user profiling: Developers can augment existing recommendation pipelines with a lightweight query‑generation module that captures interests beyond explicit clicks, improving cold‑start handling.
  • Scalable personalization: The distillation recipe lets teams deploy near‑state‑of‑the‑art LLM reasoning without sacrificing latency, fitting into micro‑service architectures.
  • Cross‑domain leverage: By ingesting signals from search, social, or e‑commerce platforms, news apps can surface articles that align with a user’s broader information needs, potentially increasing user stickiness.
  • Modular integration: The generated query list can be treated as an additional feature vector for any downstream ranking model (e.g., gradient‑boosted trees, deep CTR models), making adoption straightforward.
  • Open‑source potential: The authors’ code for GRPO‑based policy training and on‑policy distillation could be repurposed for other recommendation domains such as video or product suggestions.

제한 사항 및 향후 연구

  • 보상 설계 복잡성: 관련성, 다양성, 참여도를 균형 있게 맞추려면 세심한 조정이 필요합니다; 최적이 아닌 가중치는 과도한 개인화 또는 주제 이탈을 초래할 수 있습니다.
  • 데이터 프라이버시: 교차 도메인 신호를 집계하면 프라이버시 문제가 발생합니다; 논문은 규정에 맞는 데이터 파이프라인을 전제로 하지만 프라이버시 보호 대안을 탐구하지는 않습니다.
  • 모델 최신성: LLM은 오프라인으로 학습됩니다; 트렌드 주제가 급변하면 빈번한 재학습이나 온라인 미세조정이 필요할 수 있는데, 현재 파이프라인은 이를 다루지 않습니다.
  • 다른 언어에 대한 일반화: 실험은 영어 뉴스에만 국한되었습니다; 다국어 환경으로 확장하려면 더 큰 다국어 LLM과 언어별 보상 보정이 필요할 수 있습니다.

향후 연구 방향으로는 교차 도메인 신호를 위한 프라이버시 보호 연합 학습 탐색, 지속 학습 메커니즘을 통한 쿼리 생성기 최신화 유지, 그리고 전 세계 뉴스 청중을 위한 다국어 확장 등이 있습니다.

저자

  • Mengdan Zhu
  • Yufan Zhao
  • Tao Di
  • Yulan Yan
  • Liang Zhao

논문 정보

  • arXiv ID: 2602.15005v1
  • 카테고리: cs.CL, cs.IR
  • 출판일: 2026년 2월 16일
  • PDF: Download PDF
0 조회
Back to Blog

관련 글

더 보기 »