[Paper] 挖掘与细化:优化电子商务搜索检索中的分级相关性
发布: (2026年2月20日 GMT+8 02:56)
8 分钟阅读
原文: arXiv
Source: arXiv - 2602.17654v1
概述
本文介绍了 “Mine and Refine”,一种两阶段对比训练流水线,用于为电子商务搜索构建更好的语义嵌入。通过显式建模分级相关性(精确匹配、替代、补充),作者实现了更可靠的排序分数,在实时市场中转化为更高的点击率和转化率。
关键贡献
- 两阶段“挖掘与精炼”框架 – 首先学习全局多语言嵌入空间,然后通过硬样本挖掘和相关性感知损失进行细化。
- 标签感知的监督对比损失,尊重三种相关性等级,生成自然区分这些层次的嵌入。
- 策略一致的监督,通过在人工标注上微调的轻量级 LLM,确保模型遵守商品列表规则和安全约束。
- 多类圆形损失(经典圆形损失的扩展),显式将不同相关性等级的嵌入相互推开。
- 鲁棒性技巧 – 拼写增强、合成查询生成以及基于互动的审计,以清理噪声标签。
- 广泛验证 – 离线指标、大规模 A/B 测试以及可衡量的业务影响(更高的互动率、收入提升)。
方法论
-
阶段 1 – 全局检索骨干
- 采用多语言 Siamese 双塔架构(查询塔 ↔ 商品塔),在数百万查询‑商品对上进行训练。
- 标签感知的监督对比目标 将每个相关性等级视为独立的“标签”。正样本对具有相同等级,负样本则来自其他等级,从而促使模型为精确匹配、替代品和补充品划分出不同的区域。
-
阶段 2 – 硬样本挖掘与精炼
- 在阶段 1 的嵌入上使用近似最近邻(ANN)搜索,系统挖掘位于决策边界附近的硬样本对。
- 这些硬样本对由策略对齐的 LLM(在一套精心策划的人类相关性判断上微调的小型语言模型)重新标注。此步骤注入一致的、规则感知的标签,同时过滤掉噪声众包信号。
- 精炼后的嵌入使用**多类圆形损失(multi‑class circle loss)**进行训练,直接最大化三个相关性簇之间的角度间距,使相似度得分在后续排序/融合时更易区分。
-
鲁棒性增强
- 拼写增强(随机字符交换、删除)扩展查询分布,以覆盖拼写错误频繁的用户输入。
- 合成查询生成创建同义改写和领域特定变体,进一步丰富训练数据。
- 基于互动的审计监控实时点击率和转化信号,发现系统性标注错误并触发额外的 LLM 重新标注循环。
结果与发现
| 指标 | 基线(单阶段) | Mine & Refine |
|---|---|---|
| 离线召回率@100(多语言) | 0.71 | 0.78 (+9.9%) |
| NDCG@10(分级相关性) | 0.62 | 0.70 (+12.9%) |
| 实时点击率(CTR)提升 | – | +4.3 % |
| 转化率提升 | – | +3.1 % |
| 每次搜索会话收入 | – | +2.6 % |
- 精炼后的嵌入产生了 更清晰的分数差距,在相关性层级之间的阈值调优更加简便,适用于混合(BM25 + 神经)系统。
- A/B 测试显示核心互动 KPI 均有统计显著的提升,验证了离线收益能够转化为真实用户行为。
Practical Implications
- 更稳定的混合排序 – 通过对精确、替代和互补匹配使用不同的相似度区间,工程师可以在词汇和神经得分之间进行融合,而无需频繁重新校准。
- 内置政策合规 – 使用遵守商品列表规则的 LLM,可降低展示被禁止或不安全商品的风险,这在受监管的市场中是常见担忧。
- 可扩展至长尾查询 – 多语言骨干网和对错别字鲁棒的增强,使系统在处理罕见或拼写错误的查询时表现良好,无需为每个查询手工制作。
- 降低工程开销 – 硬样本挖掘自动挑选出最具信息量的训练对,减少手动数据标注的周期。
- 即插即用组件 – 双塔架构和损失函数可以直接嵌入现有检索管道(如 Faiss、Milvus),几乎不需要改动基础设施。
限制与未来工作
- 对 LLM 质量的依赖 – 精炼阶段依赖于政策对齐的 LLM 模拟人类相关性判断的能力;LLM 的任何漂移都可能导致错误传播。
- 三层相关性粒度 – 虽然对多数电商平台已足够,但某些领域可能需要更细的粒度(例如 “高度相关” 与 “中度相关”)。将损失函数扩展到更多类别是一个待探索的方向。
- 硬样本挖掘的计算成本 – 对数十亿向量进行 ANN 检索并非易事;未来工作可以探索更高效的即时挖掘或基于课程的采样方式。
- 跨模态扩展 – 当前工作聚焦于仅文本的嵌入;结合商品图片或视频可能进一步提升对视觉密集型目录的相关性。
底线: “Mine and Refine” 提供了一套务实、可直接投入生产的方案,用于构建遵循分级相关性、符合政策要求并能带来可衡量业务提升的电商搜索嵌入——使其成为任何现代搜索体系的有力补充。
作者
- Jiaqi Xi
- Raghav Saboo
- Luming Chen
- Martin Wang
- Sudeep Das
论文信息
- arXiv ID: 2602.17654v1
- Categories: cs.IR, cs.LG
- Published: 2026年2月19日
- PDF: 下载 PDF