并非所有 RecSys 问题都相同
Source: Towards Data Science
请提供您希望翻译的具体文本内容,我将为您把它翻译成简体中文。
Key insight: Candidate generation isn’t always the uphill battle it’s made out to be, and it doesn’t necessarily require machine learning.
候选生成
大多数推荐系统首先会进行 候选生成 阶段,将数百万的可能项目缩减到后续重新排序时可管理的集合。
-
硬过滤驱动的场景 – 当范围明确时,简单的过滤器可以大幅裁剪目录。
- 示例: Booking.com – 类似 “巴塞罗那 9 月 12‑15 日的 4 星酒店” 的查询已经根据地理位置和可用性将数百万房源缩小到几百个。真正的机器学习挑战在于随后 对这些酒店进行精准排序。
-
软过滤或开放式场景 – 没有硬性约束,系统必须依赖语义意图或过去行为,在进行任何重新排序之前,从海量目录中挑选出相关的候选项。
- 示例: Amazon 商品搜索、YouTube 首页。
Source: …
重新排序复杂性
重新排序可以从两个正交维度来理解(如下图所示):
- 可观测结果 & 目录稳定性 – 决定你能够建立多强的基线。
- 偏好主观性 & 可学习性 – 决定你的个性化解决方案必须有多复杂。
| 维度 | 对你的模型意味着什么 |
|---|---|
| 可观测结果 | 如果你拥有明确且频繁的信号(例如点击、购买),可以使用更简单的模型构建稳健的基线。 |
| 目录稳定性 | 稳定的目录(例如酒店、电影)允许你预先计算大量特征;而快速变化的目录(例如新闻文章)通常需要动态方法。 |
| 偏好主观性 | 高度主观的领域(例如音乐品味)需要更丰富的用户表示,可能还要使用深度学习架构。 |
| 可学习性 | 当偏好可以从过去行为中轻易推断时,浅层模型可能足够;否则,你可能需要更具表达能力的模型。 |
可视化摘要

Takeaways
- 大多数 RecSys 工作 涉及表格数据、梯度提升树,并且在候选生成(通常基于规则)和重新排序之间有明确的分离。
- 行业巨头 通过混合深度学习管道推动技术前沿,但它们所处的领域硬过滤器稀缺,且目录庞大且动态。
- 使用二维框架评估你的问题在该光谱上的位置,并选择合适的模型复杂度层级。
建模愉快!
可观察的结果与目录稳定性
直接可观察的结果
能够 直接观察 最重要结果的企业拥有强大、可靠的基线。
- 示例: IKEA 知道哪款沙发卖得更好,因为每一次购买都是明确的信号(例如 ESKILSTUNA 与 KIVIK)。
- 当用户 “用钱包投票” 时,公司可以汇总这些信号并自信地对产品进行排序。
“当你能够直接观察用户用钱包投票时,你就拥有一个难以超越的强大基线。”
间接或上层漏斗信号
无法看到最终转化的平台只能依赖较弱的上层漏斗信号,这会导致 位置偏差:
| 平台 | 可观察信号 | 限制 |
|---|---|---|
| Tinder / Bumble | 匹配 | 无法了解配对双方是否真的 “合拍”。 |
| Yelp / Google Maps | 点击率 | 不能保证用户真的去过餐厅;点击受位置展示影响 |
| 其他引擎 | 展示 / 点击 | 高曝光项目会获得更多交互,无论其真实质量如何 |
- 用户可能仅因为某家餐厅在 Yelp 上排在最前面而点击它,而 不是 因为它是最佳选择。
- 没有硬性的转化事件,你会失去可靠的排行榜,只能 从嘈杂、弱信号中提取信息。
常见的变通办法(例如评论)往往太稀疏,无法作为主要信号,迫使团队不断进行排名启发式的实验,并持续调优质量代理指标。
高流失率目录
即使结果可观察,高 流失率目录 也会阻碍积累足够的数据来构建稳健的排行榜。
- Zillow(房地产)和 Vinted(二手) 的列表通常只有 1 件库存,卖出后立即消失。
- 快速的周转使这些平台倾向于使用诸如 “最新上架” 或 “每平方米最低价” 等简易排序,这远不如基于转化的排名有效。
需要什么?
- 预测性机器学习模型,能够 即时 估计转化概率。
- 将 内在商品属性(尺寸、位置、价格等)与 去偏的短期表现 指标相结合。
- 在商品消失之前将 最高潜力库存 展示出来,将波动的目录转化为可预测的收入来源。
基于特征的模型的普遍性
无论目录的稳定性或信号强度如何,核心挑战始终相同:提升现有基线的表现。这通常通过训练机器学习(ML)模型来实现,模型预测在特定情境下的参与或转化概率。
梯度提升树(GBDT)是务实的选择——它们的训练和调参速度远快于深度学习替代方案。
GBDT 的工作原理
GBDT 从 工程化的商品特征(描述产品的类别和数值属性)预测结果。即使在个人偏好尚未明确之前,GBDT 也可以利用基本的用户特征来调整推荐,例如:
- 国家
- 设备类型
仅凭这些商品和用户特征,ML 模型已经能够超越基线——无论是去偏流行度排行榜,还是对高流失率的内容进行排序。
示例:在时尚电商中,模型通常使用 地点 和 季节 来展示符合季节的商品,同时使用 国家 和 设备 来校准价格区间。
对抗位置偏差
这些特征使模型能够将真实质量与单纯的曝光度区分开来。通过学习哪些内在属性驱动转化,模型可以纠正流行度基线中固有的位置偏差。它学会提升基于实力表现的商品,而不是仅仅因为排在顶部而获得曝光。
注意:过度纠正可能会过于激进地降级已验证的热门商品,进而削弱用户体验。
基于特征的模型实现个性化
与流行观点相反,基于特征的模型同样可以实现个性化——前提是商品本身包含足够的语义信息。像 Booking.com 和 Yelp 这类平台积累了丰富的描述、多个图片以及用户评论。这些信息可以编码为 语义嵌入 并作为特征使用:
- 为每个商品计算嵌入向量。
- 计算用户近期互动与候选商品之间的相似度分数。
- 将这些相似度分数作为额外特征输入 GBDT。
局限性
- 基于特征的模型可以根据与近期互动的相似性进行推荐,但 它们并未直接学习相似用户喜欢哪些商品(协同过滤能够做到)。
- 若要捕获这种协同信号,必须将 商品相似度分数 作为输入特征提供。
这一局限是否重要取决于更根本的问题:用户之间的分歧有多大? 如果偏好高度分散,缺乏显式的协同信号可能成为瓶颈;否则,一个精心设计的基于特征的 GBDT 既快速又有效。
主观性
并非所有领域的个人化或争议程度都相同。在某些领域,只要满足基本约束,用户对什么是好产品基本上达成一致。我们将这些称为 收敛偏好,它们位于图表的下半部分。
收敛偏好
-
Booking.com – 旅行者可能有不同的预算和地点偏好,但一旦通过筛选器和地图交互揭示这些信息,排名标准就会收敛:
- 价格更高 → 差
- 设施更多 → 好
- 评论更好 → 更好
-
Staples – 当用户需要打印纸或 AA 电池时,品牌和价格占主导,使得偏好异常一致。
碎片化(主观)偏好
在图表的相反极端——上半部分——是由高度碎片化口味定义的领域。
- Spotify – 一个用户的最爱曲目可能是另一个用户的立即跳过。
- 数据中总有一个与你完全同频的用户。
- 机器学习弥合了这一差距,将他们昨天的发现转化为你今天的推荐。
在这些情况下,个性化的价值巨大,所需的技术投入也同样庞大。
正确的数据
只有拥有足够的数据来观察,主观口味才具有可操作性。
许多领域存在不同的偏好,但缺乏捕捉这些偏好的反馈回路。例如:
| 领域 | 挑战 | 典型代理指标 |
|---|---|---|
| 细分内容平台 / 新市场 / B2B | 口味多样但交互数据稀疏 | 信号有限或噪声大 |
| Yelp (restaurant recommendations) | 偏好是主观的,但只能看到点击 | 点击率(CTR)——可能产生误导 |
| YouTube (dense behavioral data) | 每日数十亿次交互提供丰富信号 | 观看时长、点赞、分享——支持深度学习驱动的个性化 |
当存在密集的行为数据时,未进行个性化会让收益流失。你会看到大型团队在 Jira 上协同工作,云费用需要副总裁批准,深度学习流水线变得不可避免。是否值得引入这种复杂性,完全取决于你拥有的数据的质量和数量。
知道你所处的位置
了解你的问题在这个光谱上的位置,比盲目追逐最新架构更有价值。 行业的“最前沿”往往由极端案例定义——那些拥有庞大、主观性强的库存和密集用户数据的科技巨头。他们的解决方案之所以出名,是因为他们面临的挑战极端,而不是因为这些方案在所有情况下都是正确的。
然而,在你自己的工作中,你可能会面临不同的约束。如果你的领域由一个稳定的目录和可观测的结果构成,你就位于左下象限,和 IKEA、Booking.com 等公司处在同一位置。在这里,流行度基准如此强大,挑战仅在于基于这些基准构建能够带来可衡量 A/B 测试收益的机器学习模型。
如果相反,你面临高流失率(例如 Vinted)或信号弱(例如 Yelp),机器学习就成为了仅仅跟上步伐的必要手段。
但这并不意味着你必须使用 深度学习。只有在偏好高度主观且数据足够丰富以进行建模的领域,这种额外的复杂性才真正有价值。我们常把 Netflix 或 Spotify 当作黄金标准,但它们实际上是针对罕见条件的专门化解决方案。
对我们大多数人而言,卓越并不在于部署最复杂的架构,而在于认识到所处环境的约束,并有信心选择能够解决实际问题的方案。
作者提供的图片。