你从未见过 90% 的互联网，谷歌也没有。

发布: 1个月前 (2026年4月5日 GMT+8 05:56)

13 分钟阅读

原文: Dev.to

Source: Dev.to

（请提供您希望翻译的正文内容，我将为您将其翻译成简体中文，并保留原有的格式、Markdown 语法以及技术术语。）

网络的隐形多数

Google 索引了数十亿网页。听起来很多——直到你意识到这可能 不到整个网络的 10 %。其余的，压倒性的大多数在线内容，对任何现存的搜索引擎来说都是不可见的。

并非有意隐藏。
并非暗网加密。
只是……对以搜索引擎方式爬取网络的任何爬虫而言不可访问。

我以前听说过 “深网” 的统计数据——大多数人都听说过。我一直以为它主要是垃圾：过期页面、重复数据库、内部服务器日志。直到我开始在数十个行业站点上进行真正的市场调研，才意识到我最需要的数据几乎总是隐藏在那不可见的 90 % 中。而一旦看到它，我就再也无法忽视它。

常见误解

每当有人说“90 % 的互联网是隐藏的”，现场一半的人立刻会想到暗网——Tor、匿名市场、被盗凭证。这并不是我们要讨论的内容。

网络实际上有三层，而人们经常把它们混为一谈：

层级	含义	大致比例
表层网络	Google 能索引的所有内容：公开页面、博客文章、维基百科条目、新闻站点。这是你大多数浏览时间所在的地方。	4‑10 %（取决于统计方法）
深网	所有被屏障阻止搜索引擎爬虫访问的内容：航班价格计算器、需要登录的供应商门户等。	90‑96 %
暗网	深网中的一个极小子集，需要使用 Tor 等专用软件才能访问。	深网的约 0.01 %（据 Britannica）

深网是乏味的——这正是它的价值所在。它庞大且充满了企业迫切需要的数据。

为什么不可见的网络有价值

它并非被遗忘页面的荒原。它是互联网上最 有价值、最新、最可操作 数据的所在。

深网数据的典型来源

动态定价与库存 – 航空公司、酒店和电子商务平台会根据日期、地点、用户画像等实时生成价格。你看到的价格并不是 Google 能抓取的静态页面。
受限访问门户 – 政府数据库、保险理赔门户、企业 SaaS 仪表盘、供应商目录。需要在 200 个供应商门户中比较价格的采购团队无法通过 Google 获得答案。
交互式搜索结果 – LinkedIn 人员搜索、Zillow 筛选房源、专利数据库、学术资源库。结果只有在输入查询并应用过滤器后才会出现。
表单门槛内容 – 需要填写下载表单的报告、根据用户输入生成输出的工具（计算器、配置器、报价生成器）。
单页应用（SPA） – 使用 React、Vue 或 Angular 构建的现代网页应用会先加载壳页面，然后动态获取内容。未执行 JavaScript 的爬虫只能看到空白骨架。

这并非晦涩的东西；它是当今大多数 业务关键数据 所在之处。

为什么谷歌不能仅仅“做得更好”

答案在于架构。搜索引擎是基于一种特定模型构建的：

向一个 URL 发送爬虫
下载其内容
建立索引
进行排序

该模型假设内容是 静态的、公开的且位于固定地址。它在表层网络上表现出色，但 无法处理需要交互才能存在的内容。

爬虫做不到的事情

登录竞争对手的供应商门户。
使用你的特定参数填写表单以生成自定义报价。
滚动无限加载的信息流，点击“下一页”数十次，并按日期范围过滤结果。
提供凭证、处理双因素认证，或在多步骤结账流程中导航。

这不是通过更好的爬取技术就能解决的限制；它是 爬取范式本身的局限。爬取的本质是 读取页面。而隐形网络则需要 在页面上执行操作。

谷歌也意识到了这一点。例如，Google Hotels 使用第三方网络代理，从数千个日本预订网站聚合酒店库存，因为其自有爬虫根本无法触及。当构建网络搜索的公司也无法通过搜索技术获取网页数据时，这就说明了结构性的边界。

Source: …

进入深网的前沿方法

“主动搜索”工具

Perplexity
Google’s AI Overviews

这些工具试图通过合成多个来源的信息来弥合差距。它们在获取摘要答案方面比普通搜索更好，但仍然受限于已被索引的内容。可以把它们看作 更聪明的图书管理员——只是图书馆规模还没有扩大。

内容提取工具

Firecrawl

这些工具可以访问 URL，渲染 JavaScript，并返回干净的内容，解决了 SPA（单页应用）的问题。然而，它们仍然无法 与页面交互（填写表单、点击筛选等）。如果数据需要交互，你就无计可施。

浏览器代理平台

Browser Use
OpenAI Operator

这些才是改变开始的地方。它们是能够 实际浏览页面 的 AI 系统——点击、输入、滚动——就像人类一样。通过自动化真实的浏览器交互，它们可以揭示传统爬虫以前看不见的数据。

（原文在此处截断，后续讨论将继续探讨这些代理的工作原理、局限性以及实际使用案例。）

隐形网络与 Web‑Agent 平台

问题：

传统的网页自动化（点击、填写表单、处理弹窗）只能触及需要交互的内容。
真正的瓶颈在于编排：在数十甚至数百个站点上并行运行相同任务，很快就会变成一个独立的基础设施项目。

解决方案：

远程 Web‑Agent 平台（如 TinyFish 和 Browserbase）为你处理编排工作：

云托管的浏览器
并行执行
结构化输出

我已经写过几篇关于我测试这些平台的经验——从“自动点击”转向“描述你想要的内容”这一转变，确实已经到来。

搜索 vs. 操作

“搜索是寻找页面。操作是与页面交互——登录、导航工作流、从动态界面提取数据。”

这些是根本不同的活动，需要不同的工具。如果想深入了解，TinyFish 的博客对此主题有有趣的文章。

为什么不可见的网络是一个经济问题

示例场景

采购 – 一个团队需要在 200 个供应商门户 上获取竞争性报价。
- 每个门户都有独特的登录方式、界面和导航流程。
- 手动检查全部 200 个门户的成本高得不可接受。
- 团队只能检查 5–10 个门户，基于不完整的数据做出决策。
药物临床试验匹配 – 资格标准分散在 成千上万的碎片化研究站点，每个站点都有自己的搜索界面和数据结构。
- 没有搜索引擎对这些信息进行索引。
- 没有 API 能将其聚合。
保险事前授权监控 – 保险公司必须在 50 多个健康计划门户 上跟踪状态，每个门户都有不同的网站、登录方式和工作流。

在每一种情况下，数据 是存在的 并且并非机密，但手动大规模访问的成本如此之高，以至于组织只能接受部分信息，从而导致低效。

经济解锁

Web‑agent 技术不仅是一个炫酷的演示；它 使先前负担不起的数据变得可获取。在大规模上自动化交互式网页任务，开启了以前不可能的决策能力。

新兴标准：WebMCP

WebMCP（Web 机器可读控制协议）是一个 W3C 草案，可能会缩小不可见网络的规模。
网站将发布结构化工具，AI 代理可以直接调用，避免需要浏览可视化界面。

现实检查： 采用情况取决于网站所有者自愿实现该标准。最有价值的隐藏数据——传统门户、政府系统、企业 SaaS——是最慢采用新标准的。不可见网络将在很长时间内保持不可见，真正的问题是 谁会搭建这座桥梁。

实际收获

如果你正在构建任何依赖网络数据的项目——竞争情报、市场调研、线索丰富、定价优化——请自问：

我需要的数据有多少实际上出现在搜索结果中？

我的猜测：比你想象的要少。

表层网络只是冰山一角。真正的深度在 登录后、交互式界面内部以及动态生成的表单和过滤器背后。它并不是被大幅隐藏；只是在等待能够与之交互的工具。

这正是网络代理要填补的空白——不是通过索引更多页面，而是对已经存在的页面进行操作。

进一步阅读

W3C WebMCP Specification – 新兴标准，用于让网页可被代理读取。
Firecrawl’s Guide to Browser Agents – 从内容提取角度的生态概览。
Browser Use Documentation – 开源浏览器代理框架。
Why We Launched With a Story About a Tiny Japanese Hotel – TinyFish 的案例研究，展示如何通过网页代理使隐藏的酒店数据可访问。