AI 浏览器更新:我们走了多远?

发布: (2025年12月7日 GMT+8 12:29)
6 min read
原文: Dev.to

Source: Dev.to

📊 当前状态

  • ✅ 收到有价值的反馈和建议
  • ✅ 开发者开始关注并探索该项目
  • ✅ 跨平台支持(Mac、Windows)运行稳定

🎉 最近构建的功能

1. 历史回放 + 继续对话

之前的痛点:历史记录只读,无法继续。

现在

  • ✅ 点击任意历史任务即可 完整回放执行过程(带打字机效果)
  • ✅ 播放/暂停/速度控制
  • 从中断处继续对话
  • ✅ 直接预览附件文件

技术实现

我们实现了 PlaybackEngine,将消息流拆分为原子片段 (AtomicFragment)——最小的可回放单元。这样可以精确控制回放进度和速度。任务数据通过 IndexedDB 持久化,以便离线查看。恢复时,我们会重建完整的执行上下文(工作流、步骤、附件等),确保无缝继续。

2. 人机交互能力

场景:AI 在执行过程中遇到需要人工决策的情况。

解决方案

  • ✅ AI 可以 在执行期间提问
  • ✅ 你回复后,AI 继续执行
  • ✅ 适用于登录确认、选项选择等场景

示例

Task: Help me collect data from a login‑required website

AI: Login required. Are you logged in?
You: Yes, already logged in
AI: Got it, continuing data collection...

技术实现

基于 eko 框架的 HumanInteraction 消息类型,AI 能在执行期间发起交互请求。我们通过 Electron IPC 在主进程和渲染进程之间建立了双向通信通道。AI 需要提问时,工作流会暂停并等待用户响应。用户通过 IPC 回答后,代理继续执行。整个过程包含完整的状态管理和错误处理。

3. 语音输入支持

特性

  • ✅ 任务可使用语音输入(无需键入)
  • ✅ 使用 Vosk 实现离线语音识别
  • ✅ 根据语言自动切换识别模型

技术实现

默认使用 Vosk 本地离线引擎——无需网络,保护用户隐私。系统会自动加载对应的模型(中文/英文)。后续计划支持 Microsoft Azure 与科大讯飞的云服务。

4. 多语言国际化

支持

  • ✅ 中英文界面切换
  • ✅ 完整的翻译覆盖
  • ✅ 日期/时间本地化

技术实现

基于 i18next + react-i18next。翻译资源按模块组织(main.jsonhistory.jsonagent-config.json 等),使用命名空间隔离。语言切换通过 Zustand 全局状态实现——无需刷新页面。日期时间格式化使用 date-fns 的 locale 功能。新增语言只需添加对应的 JSON 翻译文件。

5. 代理配置系统

特性

  • ✅ 自定义代理提示词
  • ✅ 管理 MCP 工具(增删改查)
  • ✅ 配置不同的代理能力

这让 AI Browser 具备高度的灵活性和可定制性。

6. 工具箱页面

改进

  • ✅ 集中访问所有系统功能
  • ✅ 导航更清晰
  • ✅ 一键跳转到配置、定时任务、历史记录等

🗺️ 接下来的计划

第 1 阶段(近期,1‑2 周)

  • 任务工作目录隔离 – 为每个任务分配独立工作目录,避免文件相互干扰。
  • Windows 后台运行优化 – 降低资源占用,提高稳定性。
  • 生成文件下载支持 – 支持 AI 生成文件的直接下载和批量下载。
  • 回放速度控制 – 为历史回放提供快进/慢放功能。

第 2 阶段(中期,2‑4 周)

  • 性能优化 – 长对话的虚拟滚动、内存改进、启动加速。
  • 多语言增强 – 自动检测系统语言、动态下载离线语言包、可配置的在线语音识别(Microsoft、科大讯飞)。
  • 主题自定义 – 暗色模式、多套配色方案、用户自定义颜色。

第 3 阶段(长期,1‑2 个月)

  • 可视化工作流编辑器 – 调整工作流步骤,保存/导入特定工作流用于定时任务。
  • 插件市场 – 官方 MCP 工具库(HTTP、stdio、SSE),社区插件共享,一键安装/更新。
  • 更多代理支持 – ShellAgent(命令执行)、EmailAgent(邮件收发)、NotionAgent(Notion 操作)。

🤔 我们需要

  1. ⭐️ 星标 – 帮助项目提升曝光度,吸引贡献者,并激励持续开发。
  2. 💬 反馈与建议 – 通过 GitHub Issues 或评论分享你的使用场景、问题和功能想法。
  3. 🤝 代码贡献 – 提交 PR 修复 bug、新增功能或改进文档。

📌 快速链接

  • GitHub:
  • Download:
  • Configuration Guide:
  • Issue Tracker:
Back to Blog

相关文章

阅读更多 »

LLMs + 工具调用:聪明却被诅咒

引言:一个真实案例,展示 LLM 创造性地使用工具——以及为何沙箱安全比大多数人意识到的更重要。LLM 在生成代码方面表现出色……