[Paper] 挖掘与细化：优化电子商务搜索检索中的分级相关性

发布: 3天前 (2026年2月20日 GMT+8 02:56)

8 分钟阅读

原文: arXiv

Source: arXiv - 2602.17654v1

概述

本文介绍了 “Mine and Refine”，一种两阶段对比训练流水线，用于为电子商务搜索构建更好的语义嵌入。通过显式建模分级相关性（精确匹配、替代、补充），作者实现了更可靠的排序分数，在实时市场中转化为更高的点击率和转化率。

阶段 1 – 全局检索骨干
- 采用多语言 Siamese 双塔架构（查询塔 ↔ 商品塔），在数百万查询‑商品对上进行训练。
- 标签感知的监督对比目标 将每个相关性等级视为独立的“标签”。正样本对具有相同等级，负样本则来自其他等级，从而促使模型为精确匹配、替代品和补充品划分出不同的区域。
阶段 2 – 硬样本挖掘与精炼
- 在阶段 1 的嵌入上使用近似最近邻（ANN）搜索，系统挖掘位于决策边界附近的硬样本对。
- 这些硬样本对由策略对齐的 LLM（在一套精心策划的人类相关性判断上微调的小型语言模型）重新标注。此步骤注入一致的、规则感知的标签，同时过滤掉噪声众包信号。
- 精炼后的嵌入使用**多类圆形损失（multi‑class circle loss）**进行训练，直接最大化三个相关性簇之间的角度间距，使相似度得分在后续排序/融合时更易区分。
鲁棒性增强
- 拼写增强（随机字符交换、删除）扩展查询分布，以覆盖拼写错误频繁的用户输入。
- 合成查询生成创建同义改写和领域特定变体，进一步丰富训练数据。
- 基于互动的审计监控实时点击率和转化信号，发现系统性标注错误并触发额外的 LLM 重新标注循环。

对 LLM 质量的依赖 – 精炼阶段依赖于政策对齐的 LLM 模拟人类相关性判断的能力；LLM 的任何漂移都可能导致错误传播。
三层相关性粒度 – 虽然对多数电商平台已足够，但某些领域可能需要更细的粒度（例如 “高度相关” 与 “中度相关”）。将损失函数扩展到更多类别是一个待探索的方向。
硬样本挖掘的计算成本 – 对数十亿向量进行 ANN 检索并非易事；未来工作可以探索更高效的即时挖掘或基于课程的采样方式。
跨模态扩展 – 当前工作聚焦于仅文本的嵌入；结合商品图片或视频可能进一步提升对视觉密集型目录的相关性。

底线： “Mine and Refine” 提供了一套务实、可直接投入生产的方案，用于构建遵循分级相关性、符合政策要求并能带来可衡量业务提升的电商搜索嵌入——使其成为任何现代搜索体系的有力补充。