PageAgent:居住在您网页中的 GUI 代理
Source: Dev.to
大多数 AI 代理框架都需要服务器、无头浏览器以及完整的自动化栈,仅仅是为了在网页上点击一个按钮。页面本身在这个过程中没有发言权。
PageAgent 采用了不同的思路。它是一个直接在页面中运行的 JavaScript 库。把它加入页面后,用户就可以使用自然语言指令——AI 读取实时的 DOM,理解 UI 并执行操作。无需服务器、无需外部进程、也不需要自动化栈。
这意味着你的 Web 应用不是被自动化,而是 自己 完成自动化。你可以控制 AI 能看到的内容、它的行为方式以及使用的 LLM。智能体驻留在你的页面中,而不是别人的服务器上。
⭐ 在 GitHub 上为 PageAgent 加星 — MIT 许可证,开源,拥有 600+ ⭐。
零基础设施
对于 npm 项目,编程式 API 同样简洁:
import { PageAgent } from 'page-agent'
const agent = new PageAgent({
model: 'gpt-5.1',
baseURL: 'https://api.openai.com/v1',
apiKey: YOUR_KEY,
})
await agent.execute('Fill the expense report for last Friday')
无需截图、OCR 或视觉模型。PageAgent 使用基于文本的 DOM —— 快速且轻量。请参阅集成文档了解所有设置选项。
人在回路中
大多数 AI 代理都是一次性执行,后不管。PageAgent 则是协作式的。
内置面板实时显示代理的思考过程。它会在步骤含糊时向用户请求澄清。用户可以随时停止、纠正或重新指引。这正是演示与真正可交付产品的区别所在。
已经有聊天机器人了吗?把 PageAgent 接在它后面。你的机器人不再只是告诉用户 “点击右上角的提交按钮”,而是直接帮他们点击——就在他们面前。你的助手不再仅仅提供建议,而是开始实际行动。
自带 LLM
OpenAI、Claude、DeepSeek、Qwen、Gemini、Grok — 或者通过 Ollama 完全离线。PageAgent 没有后端,也不调用任何外部服务。数据直接从页面流向您配置的 LLM。该库采用 MIT 许可证,完全可审计。 (GitHub)
跨页面
PageAgent 运行在你的网页内部——非常适合 SPA(单页应用),因为代理能够完整获取应用状态。
有些任务跨越多个页面。一个 可选的浏览器扩展(https://chromewebstore.google.com/detail/page-agent-ext/akldabonmimlicnjlflnapfeklbfemhj)为这些情况提供多标签页感知。它是一个增强功能,而非依赖。
这里的区别在于: 你的页面驱动浏览器,而不是相反。
const result = await window.PAGE_AGENT_EXT.execute(
'Compare the top 3 results for "wireless keyboard" on Amazon',
{
baseURL: 'https://api.openai.com/v1',
apiKey: YOUR_KEY,
model: 'gpt-5.1',
onStatusChange: (status) => updateUI(status),
}
)
你的页面发起任务,控制 LLM,并接收实时回调。访问需要通过令牌进行显式用户授权。
因为 PageAgent 在用户的真实浏览器中运行,它在用户已认证的会话内工作。没有凭证共享、没有 Cookie 管理、没有服务器端登录流程。用户已经登录——代理仅仅执行操作。
这解锁了服务器端代理无法触及的场景:
- 采购工具:在公司供应商门户上重新订购物料——用户已登录,代理直接在订购流程中导航。
- 差旅预订:通过用户的企业预订系统进行预订——直接操作实际的预订流程,而不是爬取公开票价。
- 项目跟踪器:在团队的看板上创建任务——无需 API 集成;代理使用用户相同的 UI。
谁适合?
- SaaS 开发者 — 在不重写后端的情况下交付 AI 副驾驶。
- 企业团队 — 让用户用自然语言描述需求,而不是在 ERP、CRM 和管理系统中进行 20 步点击的工作流。
- AI 构建者 — 将
@page-agent/core作为现有代理中的工具,或将其嵌入客服机器人,使其直接操作 UI,而不仅仅是给出指令。
准备好将 AI 直接带入您的网页 UI 吗?今天就试试 PageAgent!
模块化与可扩展性
使用完整套件即可获得即插即用的解决方案,导入无头核心以实现自定义 UI,或按需使用单独的包(DOM 控制器、LLM 客户端、UI 面板)进行点餐式组合。自定义工具、生命周期钩子、提示词定制以及数据脱敏均已内置。
⭐ 在 GitHub 上加星 — 并帮助我们成长。
尝试在线演示 — 无需注册。或将书签小程序拖到任意网站尝试。
阅读文档 — CDN、npm 与编程化设置指南。
安装扩展程序 — 用于多页面任务。
PageAgent 在 MIT 许可证下开源。演示站点上的免费测试 API 仅供评估——生产环境请自行提供 LLM API 密钥。使用条款




