PageAgent:居住在您网页中的 GUI 代理

发布: (2026年2月28日 GMT+8 03:23)
7 分钟阅读
原文: Dev.to

Source: Dev.to

英雄横幅

大多数 AI 代理框架都需要服务器、无头浏览器以及完整的自动化栈,仅仅是为了在网页上点击一个按钮。页面本身在这个过程中没有发言权。

PageAgent 采用了不同的思路。它是一个直接在页面中运行的 JavaScript 库。把它加入页面后,用户就可以使用自然语言指令——AI 读取实时的 DOM,理解 UI 并执行操作。无需服务器、无需外部进程、也不需要自动化栈。

这意味着你的 Web 应用不是被自动化,而是 自己 完成自动化。你可以控制 AI 能看到的内容、它的行为方式以及使用的 LLM。智能体驻留在你的页面中,而不是别人的服务器上。

在 GitHub 上为 PageAgent 加星 — MIT 许可证,开源,拥有 600+ ⭐。

零基础设施

零基础设施

对于 npm 项目,编程式 API 同样简洁:

import { PageAgent } from 'page-agent'

const agent = new PageAgent({
  model: 'gpt-5.1',
  baseURL: 'https://api.openai.com/v1',
  apiKey: YOUR_KEY,
})

await agent.execute('Fill the expense report for last Friday')

无需截图、OCR 或视觉模型。PageAgent 使用基于文本的 DOM —— 快速且轻量。请参阅集成文档了解所有设置选项。

人在回路中

大多数 AI 代理都是一次性执行,后不管。PageAgent 则是协作式的。

内置面板实时显示代理的思考过程。它会在步骤含糊时向用户请求澄清。用户可以随时停止、纠正或重新指引。这正是演示与真正可交付产品的区别所在。

Human in the Loop

已经有聊天机器人了吗?把 PageAgent 接在它后面。你的机器人不再只是告诉用户 “点击右上角的提交按钮”,而是直接帮他们点击——就在他们面前。你的助手不再仅仅提供建议,而是开始实际行动。

自带 LLM

OpenAI、Claude、DeepSeek、Qwen、Gemini、Grok — 或者通过 Ollama 完全离线。PageAgent 没有后端,也不调用任何外部服务。数据直接从页面流向您配置的 LLM。该库采用 MIT 许可证,完全可审计。 (GitHub)

跨页面

PageAgent 运行在你的网页内部——非常适合 SPA(单页应用),因为代理能够完整获取应用状态。

有些任务跨越多个页面。一个 可选的浏览器扩展https://chromewebstore.google.com/detail/page-agent-ext/akldabonmimlicnjlflnapfeklbfemhj)为这些情况提供多标签页感知。它是一个增强功能,而非依赖。

扩展桥梁

这里的区别在于: 你的页面驱动浏览器,而不是相反。

const result = await window.PAGE_AGENT_EXT.execute(
  'Compare the top 3 results for "wireless keyboard" on Amazon',
  {
    baseURL: 'https://api.openai.com/v1',
    apiKey: YOUR_KEY,
    model: 'gpt-5.1',
    onStatusChange: (status) => updateUI(status),
  }
)

你的页面发起任务,控制 LLM,并接收实时回调。访问需要通过令牌进行显式用户授权。

因为 PageAgent 在用户的真实浏览器中运行,它在用户已认证的会话内工作。没有凭证共享、没有 Cookie 管理、没有服务器端登录流程。用户已经登录——代理仅仅执行操作。

这解锁了服务器端代理无法触及的场景:

  • 采购工具:在公司供应商门户上重新订购物料——用户已登录,代理直接在订购流程中导航。
  • 差旅预订:通过用户的企业预订系统进行预订——直接操作实际的预订流程,而不是爬取公开票价。
  • 项目跟踪器:在团队的看板上创建任务——无需 API 集成;代理使用用户相同的 UI。

谁适合?

  • SaaS 开发者 — 在不重写后端的情况下交付 AI 副驾驶。
  • 企业团队 — 让用户用自然语言描述需求,而不是在 ERP、CRM 和管理系统中进行 20 步点击的工作流。
  • AI 构建者 — 将 @page-agent/core 作为现有代理中的工具,或将其嵌入客服机器人,使其直接操作 UI,而不仅仅是给出指令。

准备好将 AI 直接带入您的网页 UI 吗?今天就试试 PageAgent!

模块化与可扩展性

架构

使用完整套件即可获得即插即用的解决方案,导入无头核心以实现自定义 UI,或按需使用单独的包(DOM 控制器、LLM 客户端、UI 面板)进行点餐式组合。自定义工具、生命周期钩子、提示词定制以及数据脱敏均已内置。

开始使用


⭐ 在 GitHub 上加星 — 并帮助我们成长。

尝试在线演示 — 无需注册。或将书签小程序拖到任意网站尝试。

阅读文档 — CDN、npm 与编程化设置指南。

安装扩展程序 — 用于多页面任务。

PageAgent 在 MIT 许可证下开源。演示站点上的免费测试 API 仅供评估——生产环境请自行提供 LLM API 密钥。使用条款

0 浏览
Back to Blog

相关文章

阅读更多 »