[Paper] LORE: 대규모 생성 모델을 이용한 검색 관련성
Source: arXiv - 2512.03025v1
개요
이 논문은 LORE라는 프로덕션‑그레이드 프레임워크를 소개한다. LORE는 대형 생성 모델(LLM)을 활용해 전자상거래 검색의 관련성 랭킹을 향상시킨다. 3년간 실서비스에서 반복 개선한 결과, LORE는 “GoodRate” 지표에서 27 % 상승을 달성했으며, 이는 정교하게 설계된 LLM 파이프라인이 대규모 환경에서 기존 관련성 모델을 능가할 수 있음을 보여준다.
주요 기여
- 분해‑우선 설계 – 관련성을 하나의 단일 작업이 아니라 세 개의 직교 능력(지식 + 추론, 멀티‑모달 매칭, 규칙 준수)으로 분할한다.
- 2단계 학습 파이프라인 –
- 지도 미세조정(Supervised Fine‑Tuning, SFT) 과 점진적 사고 사슬(Chain‑of‑Thought, CoT) 합성을 통해 모델에게 단계별 사고 방식을 학습시킨다.
- 인간 선호 기반 강화학습(RLHF) 으로 모델 출력이 비즈니스 핵심 관련성 신호와 일치하도록 정렬한다.
- RAIR 벤치마크 – 각 능력을 별도로 평가하도록 설계된 평가 스위트로, 체계적인 진단 및 지속적인 개선을 가능하게 한다.
- 쿼리‑빈도 인식 배포 – 고빈도 쿼리는 경량 추론 경로로 라우팅하고, 롱테일 검색에서는 전체 LLM을 활용하는 계층형 서빙 아키텍처.
- 프로덕션 영향 보고서 – 데이터 수집, 피처 엔지니어링, 오프라인‑온라인 평가 루프, 운영 모니터링에 대한 상세 교훈을 제공한다.
방법론
- 데이터 및 피처 준비 – 클릭 로그, 제품 카탈로그, 사용자 생성 콘텐츠(이미지, 제목, 리뷰)를 집계하고, 외부 지식(예: 브랜드 계층)과 규칙 기반 제약(예: 금지어)으로 보강한다.
- 점진적 CoT SFT – 모델에 원시 쿼리‑제품 쌍을 그대로 입력하는 대신, “제품 카테고리 식별 → 시각적 속성 매칭 → 프로모션 규칙 적용”과 같은 중간 추론 단계를 생성하고, 최종 관련성 점수를 내기 전에 이러한 단계를 출력하도록 LLM을 미세조정한다.
- 인간 선호 정렬(RLHF) – 평가자가 동일 쿼리에 대해 여러 모델 출력을 순위 매긴다. 이 순위 데이터를 보상 모델 학습에 사용하고, 보상 모델은 PPO(Proximal Policy Optimization)를 통해 정책 최적화를 안내한다.
- 능력‑별 벤치마크(RAIR) – 테스트 세트를 다음과 같이 구분한다:
- 지식/추론: 사실 기반 추론이 필요한 쿼리(예: “방수 등산 부츠”).
- 멀티‑모달 매칭: 시각‑텍스트 정렬이 필요한 쿼리(예: “빨간 꽃무늬 원피스”).
- 규칙 준수: 비즈니스 정책이 우선인 쿼리(예: “할인 전자제품”).
- 계층형 서빙 – 쿼리를 과거 빈도에 따라 버킷화한다. 가장 빈번한 상위 k 버킷은 증류된 저지연 모델을 사용하고, 나머지 버킷은 전체 LORE 모델을 호출해 롱테일 품질을 유지하면서도 지연 시간을 제한한다.
결과 및 인사이트
| 지표 | 베이스라인 (전통 랭커) | LORE (전체 파이프라인) | Δ |
|---|---|---|---|
| GoodRate (online) | 1.00 × | 1.27 × | +27 % |
| NDCG@10 (RAIR) – Knowledge | 0.71 | 0.84 | +13 % |
| NDCG@10 – Multi‑modal | 0.68 | 0.80 | +18 % |
| NDCG@10 – Rule adherence | 0.75 | 0.88 | +17 % |
| Latency (99‑pct) – high‑freq bucket | 45 ms | 48 ms | +3 ms (acceptable) |
해석: 관련성을 분해함으로써 모델이 각 능력에 특화될 수 있었고, 모든 능력 차원에서 일관된 향상이 나타났다. 2단계 학습(SFT → RLHF)이 핵심적인데, SFT는 모델에 탄탄한 “사고” 기반을 제공하고, RLHF는 비즈니스가 정의한 “좋은” 결과와 정렬한다. 계층형 서빙 전략은 지연 시간을 프로덕션 허용 범위 내에 유지한다.
실무적 함의
- 검색 엔지니어에게: LORE는 빈도‑인식 서빙 레이어를 도입한다면 기존 랭킹 스택에 LLM을 레트로핏해도 지연 시간을 희생하지 않을 수 있음을 보여준다.
- 프로덕트 팀에게: 모듈식 능력 관점은 엔지니어링 우선순위를 쉽게 정할 수 있게 한다(예: 새로운 의류 라인 출시 시 시각 매칭에 집중).
- ML Ops에게: 데이터 파이프라인, 점진적 CoT 생성, RLHF 루프, 지속적인 A/B 테스트 등 논문의 라이프사이클 문서는 여행, 부동산, 구인 검색 등 다른 도메인에도 재현 가능한 템플릿을 제공한다.
- 비즈니스 영향: GoodRate 27 % 상승은 전환율 증가, 이탈률 감소, 사용자 만족도 향상으로 직결되며, 롱테일에 대한 LLM 추론 비용을 정당화한다.
- 오픈소스 잠재력: RAIR 벤치마크는 실제 검색 제약을 목표로 하는 연구를 장려하는 커뮤니티 표준으로 채택될 수 있다.
제한점 및 향후 과제
- 컴퓨팅 비용 – 계층형 서빙을 적용하더라도 트래픽 급증 시 전체 LLM 사용은 여전히 비용이 많이 든다. 모델 증류나 희소성 기법을 추가로 적용해 비용을 낮출 필요가 있다.
- 도메인 전이 – LORE는 특정 전자상거래 카탈로그에 맞춰 튜닝되었으며, 의료 문헌과 같이 전혀 다른 분야에 적용하려면 능력 분해 자체를 크게 재설계해야 할 수 있다.
- 규칙 진화 – 비즈니스 정책은 빠르게 변하지만 현재 파이프라인은 주기적인 재학습에 의존한다. 실시간 규칙 주입이 가능한 동적 규칙 어댑터 연구가 필요하다.
- 설명 가능성 – CoT가 중간 추론을 제공하지만 최종 관련성 점수는 여전히 블랙박스이다. 보다 투명한 스코어링 메커니즘을 통합하면 감사 가능성을 높일 수 있다.
핵심 요약: LORE는 최첨단 LLM 연구와 프로덕션 전자상거래 검색의 현실적인 요구를 연결한 설득력 있는 사례 연구이며, 생성 AI를 활용해 관련성 최적화를 추구하는 팀에게 로드맵을 제공한다.
저자
- Chenji Lu
- Zhuo Chen
- Hui Zhao
- Zhiyuan Zeng
- Gang Zhao
- Junjie Ren
- Ruicong Xu
- Haoran Li
- Songyan Liu
- Pengjie Wang
- Jian Xu
- Bo Zheng
논문 정보
- arXiv ID: 2512.03025v1
- 분류: cs.IR, cs.AI, cs.CL, cs.LG
- 발표일: 2025년 12월 2일
- PDF: Download PDF