我在2025年尝试爬取Reddit……当你对抗API时会发生什么

发布: 1个月前 (2025年12月13日 GMT+8 11:14)

4 min read

原文: Dev.to

Source: Dev.to

让我们先说实话。

理想情况下，我们都只需要 pip install praw，拿到一个 API 密钥，就可以为我们的 NLP 项目或市场调研无限制地获取 JSON 数据。过去这确实可行，但 2023 年之后的 API 改动把它变成了一场噩梦。

我上个周末尝试为情感分析项目归档 r/wallstreetbets 的一些帖子，却一次又一次碰壁：

下面是对 2025 年仍然可以获取 Reddit 数据的三种方式的诚实拆解，按“头疼程度”排名。

方法 1： “传统”方式（Python + PRAW） 🐍

这就是所有 2020 年教程教你的做法。

import praw

# 看看这段干净的代码，肯定会被限速
reddit = praw.Reddit(
    client_id="...",
    client_secret="...",
    user_agent="my_user_agent"
)

结论： 适合构建回复评论的机器人，但不适合数据抓取。抓取 10 000 条评论会迫使你的脚本睡上数小时，以遵守速率限制。

“好吧，”我想，“我就假装自己是浏览器。”我启动了 Selenium，写了一些选择器，爬了大约 50 页后我的 IP 被标记。解析 Reddit 新的 HTML 结构简直是 div‑soup 的噩梦。

结论： 能用，但慢——非常慢。仅仅为了获取一些文本数据而维护无头 Chrome 实例感觉是大材小用。

Reddit 对“真实用户”的对待方式与 API 调用截然不同。用桌面浏览可以无限滚动，毫无阻拦或限制。解决方案不是更好的脚本，而是更好的模拟。

我开始使用 Reddit Toolbox（声明：我出于沮丧自己做的，但技术可靠）。它不再用 Python requests 与 WAF 对抗，而是使用混合本地浏览器引擎，像用户一样渲染页面，然后在后台将数据抓取为结构化的 JSON/CSV。

如果你是学习 Python 的学生，坚持使用 PRAW——它是学习 API 的好方式。但如果你真的需要数据——比如昨天就要的，而且不想维护抓取基础设施，就停止与反机器人措施搏斗，把抓取工作搬到客户端。

祝抓取愉快！ 🚀