并非所有 RecSys 问题都相同

发布: (2026年2月11日 GMT+8 21:00)
15 分钟阅读

Source: Towards Data Science

请提供您希望翻译的具体文本内容,我将为您把它翻译成简体中文。

Key insight: Candidate generation isn’t always the uphill battle it’s made out to be, and it doesn’t necessarily require machine learning.

候选生成

大多数推荐系统首先会进行 候选生成 阶段,将数百万的可能项目缩减到后续重新排序时可管理的集合。

  • 硬过滤驱动的场景 – 当范围明确时,简单的过滤器可以大幅裁剪目录。

    • 示例: Booking.com – 类似 “巴塞罗那 9 月 12‑15 日的 4 星酒店” 的查询已经根据地理位置和可用性将数百万房源缩小到几百个。真正的机器学习挑战在于随后 对这些酒店进行精准排序
  • 软过滤或开放式场景 – 没有硬性约束,系统必须依赖语义意图或过去行为,在进行任何重新排序之前,从海量目录中挑选出相关的候选项。

    • 示例: Amazon 商品搜索YouTube 首页

Source:

重新排序复杂性

重新排序可以从两个正交维度来理解(如下图所示):

  1. 可观测结果 & 目录稳定性 – 决定你能够建立多强的基线。
  2. 偏好主观性 & 可学习性 – 决定你的个性化解决方案必须有多复杂。
维度对你的模型意味着什么
可观测结果如果你拥有明确且频繁的信号(例如点击、购买),可以使用更简单的模型构建稳健的基线。
目录稳定性稳定的目录(例如酒店、电影)允许你预先计算大量特征;而快速变化的目录(例如新闻文章)通常需要动态方法。
偏好主观性高度主观的领域(例如音乐品味)需要更丰富的用户表示,可能还要使用深度学习架构。
可学习性当偏好可以从过去行为中轻易推断时,浅层模型可能足够;否则,你可能需要更具表达能力的模型。

可视化摘要

用于推理候选生成和重新排序复杂性的框架。该图将可观测结果 & 目录稳定性映射到一个轴上,将偏好主观性 & 可学习性映射到另一个轴上。

Takeaways

  • 大多数 RecSys 工作 涉及表格数据、梯度提升树,并且在候选生成(通常基于规则)和重新排序之间有明确的分离。
  • 行业巨头 通过混合深度学习管道推动技术前沿,但它们所处的领域硬过滤器稀缺,且目录庞大且动态。
  • 使用二维框架评估你的问题在该光谱上的位置,并选择合适的模型复杂度层级。

建模愉快!

可观察的结果与目录稳定性

直接可观察的结果

能够 直接观察 最重要结果的企业拥有强大、可靠的基线。

  • 示例: IKEA 知道哪款沙发卖得更好,因为每一次购买都是明确的信号(例如 ESKILSTUNAKIVIK)。
  • 当用户 “用钱包投票” 时,公司可以汇总这些信号并自信地对产品进行排序。

“当你能够直接观察用户用钱包投票时,你就拥有一个难以超越的强大基线。”

间接或上层漏斗信号

无法看到最终转化的平台只能依赖较弱的上层漏斗信号,这会导致 位置偏差

平台可观察信号限制
Tinder / Bumble匹配无法了解配对双方是否真的 “合拍”。
Yelp / Google Maps点击率不能保证用户真的去过餐厅;点击受位置展示影响
其他引擎展示 / 点击高曝光项目会获得更多交互,无论其真实质量如何
  • 用户可能仅因为某家餐厅在 Yelp 上排在最前面而点击它,而 不是 因为它是最佳选择。
  • 没有硬性的转化事件,你会失去可靠的排行榜,只能 从嘈杂、弱信号中提取信息

常见的变通办法(例如评论)往往太稀疏,无法作为主要信号,迫使团队不断进行排名启发式的实验,并持续调优质量代理指标。

高流失率目录

即使结果可观察,高 流失率目录 也会阻碍积累足够的数据来构建稳健的排行榜。

  • Zillow(房地产)和 Vinted(二手) 的列表通常只有 1 件库存,卖出后立即消失。
  • 快速的周转使这些平台倾向于使用诸如 “最新上架” 或 “每平方米最低价” 等简易排序,这远不如基于转化的排名有效。

需要什么?

  1. 预测性机器学习模型,能够 即时 估计转化概率。
  2. 内在商品属性(尺寸、位置、价格等)与 去偏的短期表现 指标相结合。
  3. 在商品消失之前将 最高潜力库存 展示出来,将波动的目录转化为可预测的收入来源。

基于特征的模型的普遍性

无论目录的稳定性或信号强度如何,核心挑战始终相同:提升现有基线的表现。这通常通过训练机器学习(ML)模型来实现,模型预测在特定情境下的参与或转化概率。

梯度提升树(GBDT)是务实的选择——它们的训练和调参速度远快于深度学习替代方案。

GBDT 的工作原理

GBDT 从 工程化的商品特征(描述产品的类别和数值属性)预测结果。即使在个人偏好尚未明确之前,GBDT 也可以利用基本的用户特征来调整推荐,例如:

  • 国家
  • 设备类型

仅凭这些商品和用户特征,ML 模型已经能够超越基线——无论是去偏流行度排行榜,还是对高流失率的内容进行排序。

示例:在时尚电商中,模型通常使用 地点季节 来展示符合季节的商品,同时使用 国家设备 来校准价格区间。

对抗位置偏差

这些特征使模型能够将真实质量与单纯的曝光度区分开来。通过学习哪些内在属性驱动转化,模型可以纠正流行度基线中固有的位置偏差。它学会提升基于实力表现的商品,而不是仅仅因为排在顶部而获得曝光。

注意:过度纠正可能会过于激进地降级已验证的热门商品,进而削弱用户体验。

基于特征的模型实现个性化

与流行观点相反,基于特征的模型同样可以实现个性化——前提是商品本身包含足够的语义信息。像 Booking.comYelp 这类平台积累了丰富的描述、多个图片以及用户评论。这些信息可以编码为 语义嵌入 并作为特征使用:

  1. 为每个商品计算嵌入向量。
  2. 计算用户近期互动与候选商品之间的相似度分数。
  3. 将这些相似度分数作为额外特征输入 GBDT。

局限性

  • 基于特征的模型可以根据与近期互动的相似性进行推荐,但 它们并未直接学习相似用户喜欢哪些商品(协同过滤能够做到)。
  • 若要捕获这种协同信号,必须将 商品相似度分数 作为输入特征提供。

这一局限是否重要取决于更根本的问题:用户之间的分歧有多大? 如果偏好高度分散,缺乏显式的协同信号可能成为瓶颈;否则,一个精心设计的基于特征的 GBDT 既快速又有效。

主观性

并非所有领域的个人化或争议程度都相同。在某些领域,只要满足基本约束,用户对什么是好产品基本上达成一致。我们将这些称为 收敛偏好,它们位于图表的下半部分。

收敛偏好

  • Booking.com – 旅行者可能有不同的预算和地点偏好,但一旦通过筛选器和地图交互揭示这些信息,排名标准就会收敛:

    • 价格更高 → 差
    • 设施更多 → 好
    • 评论更好 → 更好
  • Staples – 当用户需要打印纸或 AA 电池时,品牌和价格占主导,使得偏好异常一致。

碎片化(主观)偏好

在图表的相反极端——上半部分——是由高度碎片化口味定义的领域。

  • Spotify – 一个用户的最爱曲目可能是另一个用户的立即跳过。
    • 数据中总有一个与你完全同频的用户。
    • 机器学习弥合了这一差距,将他们昨天的发现转化为你今天的推荐

在这些情况下,个性化的价值巨大,所需的技术投入也同样庞大。

正确的数据

只有拥有足够的数据来观察,主观口味才具有可操作性。

许多领域存在不同的偏好,但缺乏捕捉这些偏好的反馈回路。例如:

领域挑战典型代理指标
细分内容平台 / 新市场 / B2B口味多样但交互数据稀疏信号有限或噪声大
Yelp (restaurant recommendations)偏好是主观的,但只能看到点击点击率(CTR)——可能产生误导
YouTube (dense behavioral data)每日数十亿次交互提供丰富信号观看时长、点赞、分享——支持深度学习驱动的个性化

当存在密集的行为数据时,未进行个性化会让收益流失。你会看到大型团队在 Jira 上协同工作,云费用需要副总裁批准,深度学习流水线变得不可避免。是否值得引入这种复杂性,完全取决于你拥有的数据的质量和数量。

知道你所处的位置

了解你的问题在这个光谱上的位置,比盲目追逐最新架构更有价值。 行业的“最前沿”往往由极端案例定义——那些拥有庞大、主观性强的库存和密集用户数据的科技巨头。他们的解决方案之所以出名,是因为他们面临的挑战极端,而不是因为这些方案在所有情况下都是正确的。

然而,在你自己的工作中,你可能会面临不同的约束。如果你的领域由一个稳定的目录和可观测的结果构成,你就位于左下象限,和 IKEABooking.com 等公司处在同一位置。在这里,流行度基准如此强大,挑战仅在于基于这些基准构建能够带来可衡量 A/B 测试收益的机器学习模型。

如果相反,你面临高流失率(例如 Vinted)或信号弱(例如 Yelp),机器学习就成为了仅仅跟上步伐的必要手段。

但这并不意味着你必须使用 深度学习。只有在偏好高度主观且数据足够丰富以进行建模的领域,这种额外的复杂性才真正有价值。我们常把 NetflixSpotify 当作黄金标准,但它们实际上是针对罕见条件的专门化解决方案。

对我们大多数人而言,卓越并不在于部署最复杂的架构,而在于认识到所处环境的约束,并有信心选择能够解决实际问题的方案。

作者提供的图片。

0 浏览
Back to Blog

相关文章

阅读更多 »