没有 API?没问题!

发布: (2025年12月10日 GMT+8 07:59)
5 min read
原文: Dev.to

Source: Dev.to

为什么计算机使用代理(CUAs)会失败

当我们着手为医疗保健构建 AI 工具时,必须与一堆遗留系统集成,这些系统要么没有公开的 API,要么收取荒唐的费用才能访问其内部接口。多个客户愿意付费,只要我们的 AI 能够与他们的 EHR、CRM 和内部门户配合使用。出于迫不得已,我们转向了计算机使用代理——大家都承诺可以“解决浏览器自动化”的技术。

我们实际发现的情况

  • 太慢 — 为了提取单个字段,它们会重新加载整个页面。
  • 太贵 — 只为点击一个按钮就消耗大量 token。
  • 经常崩溃 — 特别是面对日期选择器 📅🤦(我曾查看推理日志,LLM 短暂地思考了自己的存在)。

CUAs 承诺通用性,但现代 Web 应用并不是为截取离散截图并在每次点击前花费数秒推理的系统而设计的。它们是为人类的连续感知、注意力和反应时间而构建的。当 CUA 决定要做什么时,DOM 已经变动,元素已重新渲染,原本计划点击的按钮已经消失。

突破点

每个现代 Web 应用都必须与后端服务通信——而这种通信本质上是结构化的。浏览器已经知道如何进行身份验证、获取数据、提交表单、分页结果以及触发工作流。如果浏览器知道,我们也可以知道。

通过观察完整的浏览器状态,我们可以解码前端与后端之间的隐藏契约:

  • HTML 结构和 DOM 变更
  • JavaScript 包及其执行的逻辑
  • Cookie 和身份验证令牌
  • 本地存储和会话存储
  • 所有网络流量:XHR、fetch、GraphQL、REST、流式传输
  • 来自 JS 进程本身的运行时信号

一旦看到这些,应用通信的结构就会显现,你可以在不抓取像素或驱动合成用户的情况下复制它。

Vectorly 的工作原理

Vectorly 并不尝试“在浏览器中充当人类”。它对浏览器进行仪表化,并将所见转化为可重用的自动化配方。

  1. 捕获 – 你自然地浏览站点——点击、搜索、滚动、探索。交互过程中,Vectorly 捕获浏览器看到的一切:网络流量、Cookie、存储、HTML 与 JS。
  2. 描述 – 完成后,只需描述你的需求:
    • 你想提取的数据(例如,“该账户的所有即将到来的预订”)
    • 你想复现的 API 行为(例如,“使用这些参数搜索航班”)
  3. 分析 – 我们的 AI 代理审查捕获的资产,推断应用内部 API 与流程的底层结构。
  4. 生成 – Vectorly 的 AI 代理创建一个例程:一个结构化的自动化配方,包含:
    • 具体的浏览器步骤(导航、点击、输入、等待、滚动…)
    • 使用正确参数、头部、Cookie 与身份验证的直接内部 API 调用

该例程以以下形式公开:

  • 一个 REST API 端点,可从代码中调用
  • 一个 MCP 工具,供你的 LLM 代理作为一等能力使用

一次定义,随处复用。你获得的是 Web 应用的真实行为——无需驱动假用户或抓取像素。

关键链接

  • 开发者控制台:
  • 网站:
  • 文档:
  • Discord 社区:

开源

  • Web Hacker(逆向工程框架):

视频与发布

  • 演示视频:
  • YouTube 频道:

如果你尝试了 Vectorly,欢迎告诉我们你想解锁的工作流、网站或集成!

Back to Blog

相关文章

阅读更多 »

🎰 停止用 Vibe Coding 赌博:认识 Quint

说实话吧。使用 Claude、Cursor 或 ChatGPT 提示的感觉很棒……但这种感觉不会一直持续。你知道这种循环:‑ 你输入一个模糊的提示,比如“帮我做一个……”

模型上下文协议服务器的生产化

“‘It Works on My Machine’时刻是一个具有欺骗性的峰值。使用 Model Context Protocol(MCP)时,这种时刻通常发生在你成功 pipe 一个本地 Python …