并非所有 RecSys 问题都相同

发布: 3天前 (2026年2月11日 GMT+8 21:00)

15 分钟阅读

Source: Towards Data Science

请提供您希望翻译的具体文本内容，我将为您把它翻译成简体中文。

Key insight: Candidate generation isn’t always the uphill battle it’s made out to be, and it doesn’t necessarily require machine learning.

候选生成

大多数推荐系统首先会进行 候选生成 阶段，将数百万的可能项目缩减到后续重新排序时可管理的集合。

硬过滤驱动的场景 – 当范围明确时，简单的过滤器可以大幅裁剪目录。
- 示例: Booking.com – 类似 “巴塞罗那 9 月 12‑15 日的 4 星酒店” 的查询已经根据地理位置和可用性将数百万房源缩小到几百个。真正的机器学习挑战在于随后 对这些酒店进行精准排序。
软过滤或开放式场景 – 没有硬性约束，系统必须依赖语义意图或过去行为，在进行任何重新排序之前，从海量目录中挑选出相关的候选项。
- 示例: Amazon 商品搜索、YouTube 首页。

Source: …

重新排序复杂性

重新排序可以从两个正交维度来理解（如下图所示）：

可观测结果 & 目录稳定性 – 决定你能够建立多强的基线。
偏好主观性 & 可学习性 – 决定你的个性化解决方案必须有多复杂。

维度	对你的模型意味着什么
可观测结果	如果你拥有明确且频繁的信号（例如点击、购买），可以使用更简单的模型构建稳健的基线。
目录稳定性	稳定的目录（例如酒店、电影）允许你预先计算大量特征；而快速变化的目录（例如新闻文章）通常需要动态方法。
偏好主观性	高度主观的领域（例如音乐品味）需要更丰富的用户表示，可能还要使用深度学习架构。
可学习性	当偏好可以从过去行为中轻易推断时，浅层模型可能足够；否则，你可能需要更具表达能力的模型。

可视化摘要

用于推理候选生成和重新排序复杂性的框架。该图将可观测结果 & 目录稳定性映射到一个轴上，将偏好主观性 & 可学习性映射到另一个轴上。

Takeaways

大多数 RecSys 工作 涉及表格数据、梯度提升树，并且在候选生成（通常基于规则）和重新排序之间有明确的分离。
行业巨头 通过混合深度学习管道推动技术前沿，但它们所处的领域硬过滤器稀缺，且目录庞大且动态。
使用二维框架评估你的问题在该光谱上的位置，并选择合适的模型复杂度层级。

建模愉快！

可观察的结果与目录稳定性

直接可观察的结果

能够 直接观察 最重要结果的企业拥有强大、可靠的基线。

示例： IKEA 知道哪款沙发卖得更好，因为每一次购买都是明确的信号（例如 ESKILSTUNA 与 KIVIK）。
当用户 “用钱包投票” 时，公司可以汇总这些信号并自信地对产品进行排序。

“当你能够直接观察用户用钱包投票时，你就拥有一个难以超越的强大基线。”

间接或上层漏斗信号

无法看到最终转化的平台只能依赖较弱的上层漏斗信号，这会导致 位置偏差：

平台	可观察信号	限制
Tinder / Bumble	匹配	无法了解配对双方是否真的 “合拍”。
Yelp / Google Maps	点击率	不能保证用户真的去过餐厅；点击受位置展示影响
其他引擎	展示 / 点击	高曝光项目会获得更多交互，无论其真实质量如何

用户可能仅因为某家餐厅在 Yelp 上排在最前面而点击它，而不是因为它是最佳选择。
没有硬性的转化事件，你会失去可靠的排行榜，只能 从嘈杂、弱信号中提取信息。

常见的变通办法（例如评论）往往太稀疏，无法作为主要信号，迫使团队不断进行排名启发式的实验，并持续调优质量代理指标。

高流失率目录

即使结果可观察，高 流失率目录 也会阻碍积累足够的数据来构建稳健的排行榜。

Zillow（房地产）和 Vinted（二手）的列表通常只有 1 件库存，卖出后立即消失。
快速的周转使这些平台倾向于使用诸如 “最新上架” 或 “每平方米最低价” 等简易排序，这远不如基于转化的排名有效。

需要什么？

预测性机器学习模型，能够即时估计转化概率。
将 内在商品属性（尺寸、位置、价格等）与 去偏的短期表现 指标相结合。
在商品消失之前将 最高潜力库存 展示出来，将波动的目录转化为可预测的收入来源。

基于特征的模型的普遍性

无论目录的稳定性或信号强度如何，核心挑战始终相同：提升现有基线的表现。这通常通过训练机器学习（ML）模型来实现，模型预测在特定情境下的参与或转化概率。

梯度提升树（GBDT）是务实的选择——它们的训练和调参速度远快于深度学习替代方案。

GBDT 的工作原理

GBDT 从 工程化的商品特征（描述产品的类别和数值属性）预测结果。即使在个人偏好尚未明确之前，GBDT 也可以利用基本的用户特征来调整推荐，例如：

国家
设备类型

仅凭这些商品和用户特征，ML 模型已经能够超越基线——无论是去偏流行度排行榜，还是对高流失率的内容进行排序。

示例：在时尚电商中，模型通常使用地点和季节来展示符合季节的商品，同时使用国家和设备来校准价格区间。

对抗位置偏差

这些特征使模型能够将真实质量与单纯的曝光度区分开来。通过学习哪些内在属性驱动转化，模型可以纠正流行度基线中固有的位置偏差。它学会提升基于实力表现的商品，而不是仅仅因为排在顶部而获得曝光。

注意：过度纠正可能会过于激进地降级已验证的热门商品，进而削弱用户体验。

基于特征的模型实现个性化

与流行观点相反，基于特征的模型同样可以实现个性化——前提是商品本身包含足够的语义信息。像 Booking.com 和 Yelp 这类平台积累了丰富的描述、多个图片以及用户评论。这些信息可以编码为 语义嵌入 并作为特征使用：

为每个商品计算嵌入向量。
计算用户近期互动与候选商品之间的相似度分数。
将这些相似度分数作为额外特征输入 GBDT。

局限性

基于特征的模型可以根据与近期互动的相似性进行推荐，但 它们并未直接学习相似用户喜欢哪些商品（协同过滤能够做到）。
若要捕获这种协同信号，必须将 商品相似度分数 作为输入特征提供。

这一局限是否重要取决于更根本的问题：用户之间的分歧有多大？ 如果偏好高度分散，缺乏显式的协同信号可能成为瓶颈；否则，一个精心设计的基于特征的 GBDT 既快速又有效。

主观性

并非所有领域的个人化或争议程度都相同。在某些领域，只要满足基本约束，用户对什么是好产品基本上达成一致。我们将这些称为 收敛偏好，它们位于图表的下半部分。

收敛偏好

Booking.com – 旅行者可能有不同的预算和地点偏好，但一旦通过筛选器和地图交互揭示这些信息，排名标准就会收敛：
- 价格更高 → 差
- 设施更多 → 好
- 评论更好 → 更好
Staples – 当用户需要打印纸或 AA 电池时，品牌和价格占主导，使得偏好异常一致。

碎片化（主观）偏好

在图表的相反极端——上半部分——是由高度碎片化口味定义的领域。

Spotify – 一个用户的最爱曲目可能是另一个用户的立即跳过。
- 数据中总有一个与你完全同频的用户。
- 机器学习弥合了这一差距，将他们昨天的发现转化为你今天的推荐。

在这些情况下，个性化的价值巨大，所需的技术投入也同样庞大。

正确的数据

只有拥有足够的数据来观察，主观口味才具有可操作性。

许多领域存在不同的偏好，但缺乏捕捉这些偏好的反馈回路。例如：

领域	挑战	典型代理指标
细分内容平台 / 新市场 / B2B	口味多样但交互数据稀疏	信号有限或噪声大
Yelp (restaurant recommendations)	偏好是主观的，但只能看到点击	点击率（CTR）——可能产生误导
YouTube (dense behavioral data)	每日数十亿次交互提供丰富信号	观看时长、点赞、分享——支持深度学习驱动的个性化

当存在密集的行为数据时，未进行个性化会让收益流失。你会看到大型团队在 Jira 上协同工作，云费用需要副总裁批准，深度学习流水线变得不可避免。是否值得引入这种复杂性，完全取决于你拥有的数据的质量和数量。

知道你所处的位置

了解你的问题在这个光谱上的位置，比盲目追逐最新架构更有价值。 行业的“最前沿”往往由极端案例定义——那些拥有庞大、主观性强的库存和密集用户数据的科技巨头。他们的解决方案之所以出名，是因为他们面临的挑战极端，而不是因为这些方案在所有情况下都是正确的。

然而，在你自己的工作中，你可能会面临不同的约束。如果你的领域由一个稳定的目录和可观测的结果构成，你就位于左下象限，和 IKEA、Booking.com 等公司处在同一位置。在这里，流行度基准如此强大，挑战仅在于基于这些基准构建能够带来可衡量 A/B 测试收益的机器学习模型。

如果相反，你面临高流失率（例如 Vinted）或信号弱（例如 Yelp），机器学习就成为了仅仅跟上步伐的必要手段。

但这并不意味着你必须使用 深度学习。只有在偏好高度主观且数据足够丰富以进行建模的领域，这种额外的复杂性才真正有价值。我们常把 Netflix 或 Spotify 当作黄金标准，但它们实际上是针对罕见条件的专门化解决方案。

对我们大多数人而言，卓越并不在于部署最复杂的架构，而在于认识到所处环境的约束，并有信心选择能够解决实际问题的方案。

作者提供的图片。