你从未见过 90% 的互联网,谷歌也没有。

发布: (2026年4月5日 GMT+8 05:56)
13 分钟阅读
原文: Dev.to

Source: Dev.to

(请提供您希望翻译的正文内容,我将为您将其翻译成简体中文,并保留原有的格式、Markdown 语法以及技术术语。)

网络的隐形多数

Google 索引了数十亿网页。听起来很多——直到你意识到这可能 不到整个网络的 10 %。其余的,压倒性的大多数在线内容,对任何现存的搜索引擎来说都是不可见的。

  • 并非有意隐藏。
  • 并非暗网加密。
  • 只是……对以搜索引擎方式爬取网络的任何爬虫而言不可访问。

我以前听说过 “深网” 的统计数据——大多数人都听说过。我一直以为它主要是垃圾:过期页面、重复数据库、内部服务器日志。直到我开始在数十个行业站点上进行真正的市场调研,才意识到我最需要的数据几乎总是隐藏在那不可见的 90 % 中。而一旦看到它,我就再也无法忽视它。

常见误解

每当有人说“90 % 的互联网是隐藏的”,现场一半的人立刻会想到 暗网——Tor、匿名市场、被盗凭证。这并不是我们要讨论的内容。

网络实际上有 三层,而人们经常把它们混为一谈:

层级含义大致比例
表层网络Google 能索引的所有内容:公开页面、博客文章、维基百科条目、新闻站点。这是你大多数浏览时间所在的地方。4‑10 %(取决于统计方法)
深网所有被屏障阻止搜索引擎爬虫访问的内容:航班价格计算器、需要登录的供应商门户等。90‑96 %
暗网深网中的一个极小子集,需要使用 Tor 等专用软件才能访问。深网的约 0.01 %(据 Britannica)

深网是 乏味 的——这正是它的价值所在。它庞大且充满了企业迫切需要的数据。

为什么不可见的网络有价值

它并非被遗忘页面的荒原。它是互联网上最 有价值、最新、最可操作 数据的所在。

深网数据的典型来源

  • 动态定价与库存 – 航空公司、酒店和电子商务平台会根据日期、地点、用户画像等实时生成价格。你看到的价格并不是 Google 能抓取的静态页面。
  • 受限访问门户 – 政府数据库、保险理赔门户、企业 SaaS 仪表盘、供应商目录。需要在 200 个供应商门户中比较价格的采购团队无法通过 Google 获得答案。
  • 交互式搜索结果 – LinkedIn 人员搜索、Zillow 筛选房源、专利数据库、学术资源库。结果只有在输入查询并应用过滤器后才会出现。
  • 表单门槛内容 – 需要填写下载表单的报告、根据用户输入生成输出的工具(计算器、配置器、报价生成器)。
  • 单页应用(SPA) – 使用 React、Vue 或 Angular 构建的现代网页应用会先加载壳页面,然后动态获取内容。未执行 JavaScript 的爬虫只能看到空白骨架。

这并非晦涩的东西;它是当今大多数 业务关键数据 所在之处。


为什么谷歌不能仅仅“做得更好”

答案在于 架构。搜索引擎是基于一种特定模型构建的:

  1. 向一个 URL 发送爬虫
  2. 下载其内容
  3. 建立索引
  4. 进行排序

该模型假设内容是 静态的、公开的且位于固定地址。它在表层网络上表现出色,但 无法处理需要交互才能存在的内容

爬虫做不到的事情

  • 登录竞争对手的供应商门户。
  • 使用你的特定参数填写表单以生成自定义报价。
  • 滚动无限加载的信息流,点击“下一页”数十次,并按日期范围过滤结果。
  • 提供凭证、处理双因素认证,或在多步骤结账流程中导航。

这不是通过更好的爬取技术就能解决的限制;它是 爬取范式本身的局限。爬取的本质是 读取页面。而隐形网络则需要 在页面上执行操作

谷歌也意识到了这一点。例如,Google Hotels 使用第三方网络代理,从数千个日本预订网站聚合酒店库存,因为其自有爬虫根本无法触及。当构建网络搜索的公司也无法通过搜索技术获取网页数据时,这就说明了结构性的边界。

Source:

进入深网的前沿方法

“主动搜索”工具

  • Perplexity
  • Google’s AI Overviews

这些工具试图通过合成多个来源的信息来弥合差距。它们在获取摘要答案方面比普通搜索更好,但仍然受限于已被索引的内容。可以把它们看作 更聪明的图书管理员——只是图书馆规模还没有扩大。

内容提取工具

  • Firecrawl

这些工具可以访问 URL,渲染 JavaScript,并返回干净的内容,解决了 SPA(单页应用)的问题。然而,它们仍然无法 与页面交互(填写表单、点击筛选等)。如果数据需要交互,你就无计可施。

浏览器代理平台

  • Browser Use
  • OpenAI Operator

这些才是改变开始的地方。它们是能够 实际浏览页面 的 AI 系统——点击、输入、滚动——就像人类一样。通过自动化真实的浏览器交互,它们可以揭示传统爬虫以前看不见的数据。

(原文在此处截断,后续讨论将继续探讨这些代理的工作原理、局限性以及实际使用案例。)

隐形网络与 Web‑Agent 平台

问题:

  • 传统的网页自动化(点击、填写表单、处理弹窗)只能触及需要交互的内容。
  • 真正的瓶颈在于 编排:在数十甚至数百个站点上并行运行相同任务,很快就会变成一个独立的基础设施项目。

解决方案:

远程 Web‑Agent 平台(如 TinyFishBrowserbase)为你处理编排工作:

  • 云托管的浏览器
  • 并行执行
  • 结构化输出

我已经写过几篇关于我测试这些平台的经验——从“自动点击”转向“描述你想要的内容”这一转变,确实已经到来。

搜索 vs. 操作

“搜索是寻找页面。操作是与页面交互——登录、导航工作流、从动态界面提取数据。”

这些是根本不同的活动,需要不同的工具。如果想深入了解,TinyFish 的博客对此主题有有趣的文章。

为什么不可见的网络是一个经济问题

示例场景

  1. 采购 – 一个团队需要在 200 个供应商门户 上获取竞争性报价。

    • 每个门户都有独特的登录方式、界面和导航流程。
    • 手动检查全部 200 个门户的成本高得不可接受。
    • 团队只能检查 5–10 个门户,基于不完整的数据做出决策。
  2. 药物临床试验匹配 – 资格标准分散在 成千上万的碎片化研究站点,每个站点都有自己的搜索界面和数据结构。

    • 没有搜索引擎对这些信息进行索引。
    • 没有 API 能将其聚合。
  3. 保险事前授权监控 – 保险公司必须在 50 多个健康计划门户 上跟踪状态,每个门户都有不同的网站、登录方式和工作流。

在每一种情况下,数据 是存在的 并且并非机密,但手动大规模访问的成本如此之高,以至于组织只能接受部分信息,从而导致低效。

经济解锁

Web‑agent 技术不仅是一个炫酷的演示;它 使先前负担不起的数据变得可获取。在大规模上自动化交互式网页任务,开启了以前不可能的决策能力。

新兴标准:WebMCP

  • WebMCP(Web 机器可读控制协议)是一个 W3C 草案,可能会缩小不可见网络的规模。
  • 网站将发布结构化工具,AI 代理可以直接调用,避免需要浏览可视化界面。

现实检查: 采用情况取决于网站所有者自愿实现该标准。最有价值的隐藏数据——传统门户、政府系统、企业 SaaS——是最慢采用新标准的。不可见网络将在很长时间内保持不可见,真正的问题是 谁会搭建这座桥梁

实际收获

如果你正在构建任何依赖网络数据的项目——竞争情报、市场调研、线索丰富、定价优化——请自问:

我需要的数据有多少实际上出现在搜索结果中?

我的猜测:比你想象的要少。

表层网络只是冰山一角。真正的深度在 登录后、交互式界面内部以及动态生成的表单和过滤器背后。它并不是被大幅隐藏;只是在等待能够与之交互的工具。

这正是网络代理要填补的空白——不是通过索引更多页面,而是对已经存在的页面进行操作

进一步阅读

0 浏览
Back to Blog

相关文章

阅读更多 »