从混乱的HTML到AI就绪的新闻应用，使用Firecrawl + Lovable

发布: 1个月前 (2026年1月6日 GMT+8 16:57)

4 分钟阅读

原文: Dev.to

Source: Dev.to

引言

在“Agentic”工作流的时代，最大的瓶颈不是大语言模型（LLM），而是数据。大多数网站都是混乱的 HTML、广告和弹窗，导致标准爬虫难以工作。

Firecrawl 为 Lovable 引入了原生集成。思路简单却强大：Firecrawl 负责将网页转化为干净、可供 LLM 使用的数据，而 Lovable 负责其余所有工作——UI、应用逻辑和部署。

通过此集成，Lovable 用户可以直接连接 Firecrawl 的 API，构建基于网页数据的应用，而无需编写传统的爬取代码。

我通过构建 Pulse Reader——一个现代 AI 新闻聚合器，将任何混乱的新闻链接转换为干净、结构化、AI‑ready 的摘要——来实际探索了这种方式的潜力。

数据获取层从 Firecrawl 开始。API 密钥提供对受管提取管道的访问，完全取代自定义爬虫。

Firecrawl API 仪表板的截图

Firecrawl 的强大之处在于它的简洁。无需编写复杂的选择器，只需告诉 API 你想要 Markdown 格式的输出。这确保了无论源站多么混乱，应用都能收到干净、标准化的字符串。

在网页数据标准化后，Lovable 负责生成应用。通过自然语言指令，Lovable 能生成：

Lovable UI 生成的截图

当用户在 Pulse Reader 中粘贴一个 URL（例如 TechCrunch）时，会发生以下步骤：

Pulse Reader UI

为了支持下游 AI 工作流，Pulse Reader 提供 复制 Markdown 和 下载 Feed 操作。这使得提取的内容可以直接在 ChatGPT、Claude 等工具中使用，无需额外清洗或转换。

构建 Pulse Reader 证明了构建复杂数据工具的门槛已经消失。

仍在持续完善 → 点击此处查看实时演示