[Paper] ReaSeq: 추론을 통한 세계 지식 활용으로 시퀀셜 모델링

발행: (2025년 12월 25일 오전 01:06 GMT+9)
8 min read
원문: arXiv

Source: arXiv - 2512.21257v1

개요

ReaSeq는 대형 언어 모델(LLMs)에 저장된 세계 지식을 산업용 추천 시스템에 주입하는 새로운 프레임워크입니다. 명시적인 chain‑of‑thought 추론과 latent diffusion‑based inference를 결합함으로써, 두 가지 오랜 문제점인 희소하고 ID‑only인 아이템 임베딩과 플랫폼의 과거 로그에 존재하지 않는 관심사를 표출하지 못하는 문제를 해결합니다.

Key Contributions

  • Hybrid reasoning pipeline – 명시적 multi‑agent Chain‑of‑Thought (CoT) 추론을 섞어 구조화된 제품 의미를 생성하고, 암시적 diffusion‑based LLM 추론으로 기록된 클릭을 넘어선 가능한 사용자 행동을 상상합니다.
  • Semantic enrichment of item IDs – 원시 아이템 식별자를 속성, 사용 맥락, 그리고 도메인 간 관계를 포착하는 조밀하고 지식 기반 벡터로 변환합니다.
  • Beyond‑log behavior generation – 사전 상호작용이 없더라도 diffusion LLM이 “사용자가 다음에 할 수 있는 일”을 예측하여 추천 범위를 효과적으로 확대합니다.
  • Large‑scale production validation – 타오바오 실시간 랭킹 파이프라인에 배포되어 수억 명의 사용자를 대상으로 CTR 및 IPV 6 % 이상 향상, 주문량 2.9 % 증가, GMV 2.5 % 성장 등을 달성했습니다.
  • Multi‑agent collaboration design – 여러 전문 에이전트(knowledge extractor, semantic mapper, behavior generator)가 무거운 모델 재학습 없이 중간 추론 단계를 공유할 수 있는 경량 조정 프로토콜을 도입합니다.

방법론

  1. Data Ingestion – Existing interaction logs (user‑item clicks, purchases) are fed to a knowledge extraction agent.
  2. Explicit CoT Reasoning
    • A set of prompts guides the LLM to break down each item into a hierarchy of attributes (category, material, style, usage scenario, etc.).
    • The multi‑agent system iteratively refines these attributes, producing a structured knowledge graph per item.
    • The graph is then embedded (e.g., via Graph Neural Networks) to create a semantic item vector that augments the traditional ID embedding.
  3. Implicit Diffusion Reasoning
    • A diffusion‑based LLM (e.g., Diffusion‑GPT) is conditioned on the user’s short‑term session and the enriched item vectors.
    • It samples plausible future interactions that are not present in the log, effectively hallucinating “beyond‑log” interests while staying grounded by the semantic knowledge.
  4. Fusion & Ranking
    • The original collaborative‑filtering scores, the semantic vectors, and the diffusion‑generated candidate items are merged in a lightweight ranking model (often a feed‑forward network).
    • Real‑time inference runs within the latency budget of Taobao’s ranking service.

The whole pipeline is modular: any LLM can be swapped in, and the reasoning steps are logged for interpretability and debugging.

결과 및 발견

지표로그‑전용 베이스라인ReaSeq (배포)상대 상승
IPV (Impression per View)1.001.06+6.0 %
CTR0.120.127+6.0 %
Orders1,200 k1,235 k+2.9 %
GMV¥1.00 B¥1.025 B+2.5 %
  • 희소 아이템 (≤5개의 과거 상호작용)에서 가장 큰 CTR 상승(~9 %)을 보였으며, 이는 의미적 강화가 ID‑빈곤을 완화한다는 것을 확인합니다.
  • 콜드‑스타트 사용자 (새 계정)들은 diffusion‑생성 후보 덕분에 첫날 참여도가 12 % 증가하는 혜택을 받았습니다.
  • Ablation 연구에서는 명시적 CoT 또는 diffusion 구성 요소 중 하나를 제거하면 전체 상승 효과가 각각 약 3 %씩 감소함을 보여, 두 추론 방식이 상호 보완적임을 나타냅니다.

Practical Implications

  • Improved cold‑start handling – 개발자는 ReaSeq의 의미 인코더를 기존 추천 스택에 연결하여 새로운 아이템에 상호작용 데이터를 기다리지 않고 “지식 부스트”를 제공할 수 있습니다.
  • Cross‑domain recommendation – 아이템 지식 그래프가 보편적인 속성(예: “야외 스포츠”)을 포착하기 때문에 동일한 임베딩을 다양한 제품 카테고리 또는 다른 플랫폼에서도 재사용할 수 있습니다.
  • Reduced reliance on massive logging – 엄격한 프라이버시 제약이 있는 기업도 LLM이 제공하는 세계 지식의 혜택을 받을 수 있어 고품질 순위를 위해 필요한 사용자 수준 데이터 양을 줄일 수 있습니다.
  • Interpretability for product teams – 명시적인 CoT 단계가 인간이 읽을 수 있는 속성 목록을 생성하므로 추천이 왜 표시되었는지 감사하기가 쉬워집니다(컴플라이언스와 신뢰에 유용).
  • Scalable architecture – 멀티 에이전트 설계가 추론을 병렬로 수행하고 일반적인 지연 시간 SLA(일반 GPU에서 약 30 ms)를 만족하므로 트래픽이 많은 모든 전자상거래 사이트에 적용할 수 있습니다.

Limitations & Future Work

  • LLM 환각 위험 – 확산 추론이 의미 벡터에 의해 제한되지만, 가끔 비현실적인 항목이 생성되는 것이 관찰되었습니다; 보다 강력한 기반 메커니즘이 필요합니다.
  • 도메인 특화 용어 – 현재 프롬프트는 소비재에 맞게 조정되어 있습니다; B2B 소프트웨어와 같은 고도로 기술적인 도메인에 적용하려면 맞춤형 지식 추출 파이프라인이 필요할 수 있습니다.
  • 컴퓨팅 비용 – 두 개의 LLM 추론 단계를 추가하면 GPU 사용량이 증가합니다; 향후 작업에서는 운영 비용을 낮추기 위해 증류 또는 양자화를 탐구할 예정입니다.
  • 사용자 프라이버시 – ReaSeq가 원시 로그 의존성을 줄였지만 여전히 세션 데이터를 사용합니다; 차등 프라이버시 보장을 통합하는 것이 열린 연구 과제입니다.

Overall, ReaSeq demonstrates that marrying world knowledge with reasoning can break the “log‑only” ceiling that many recommender systems face today, opening a path toward more intelligent, context‑aware, and universally applicable recommendation engines.

저자

  • Chuan Wang
  • Gaoming Yang
  • Han Wu
  • Jiakai Tang
  • Jiahao Yu
  • Jian Wu
  • Jianwu Hu
  • Junjun Zheng
  • Shuwen Xiao
  • Yeqiu Yang
  • Yuning Jiang
  • Ahjol Nurlanbek
  • Binbin Cao
  • Bo Zheng
  • Fangmei Zhu
  • Gaoming Zhou
  • Huimin Yi
  • Huiping Chu
  • Jin Huang
  • Jinzhe Shan
  • Kenan Cui
  • Longbin Li
  • Silu Zhou
  • Wen Chen
  • Xia Ming
  • Xiang Gao
  • Xin Yao
  • Xingyu Wen
  • Yan Zhang
  • Yiwen Hu
  • Yulin Wang
  • Ziheng Bao
  • Zongyuan Wu

논문 정보

  • arXiv ID: 2512.21257v1
  • 분류: cs.IR, cs.CL
  • 출판일: 2025년 12월 24일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »

[Paper] 사고의 연속으로서의 모델링 언어

Transformer 언어 모델은 언어를 토큰의 시퀀스로 모델링함으로써 놀라울 정도로 자연스러운 텍스트를 생성할 수 있습니다. 그러나 주로 표면 수준의 동시 발생 통계에 의존함으로써…