AI 浏览器更新:我们走了多远?
Source: Dev.to
📊 当前状态
- ✅ 收到有价值的反馈和建议
- ✅ 开发者开始关注并探索该项目
- ✅ 跨平台支持(Mac、Windows)运行稳定
🎉 最近构建的功能
1. 历史回放 + 继续对话
之前的痛点:历史记录只读,无法继续。
现在:
- ✅ 点击任意历史任务即可 完整回放执行过程(带打字机效果)
- ✅ 播放/暂停/速度控制
- ✅ 从中断处继续对话
- ✅ 直接预览附件文件
技术实现
我们实现了 PlaybackEngine,将消息流拆分为原子片段 (AtomicFragment)——最小的可回放单元。这样可以精确控制回放进度和速度。任务数据通过 IndexedDB 持久化,以便离线查看。恢复时,我们会重建完整的执行上下文(工作流、步骤、附件等),确保无缝继续。
2. 人机交互能力
场景:AI 在执行过程中遇到需要人工决策的情况。
解决方案:
- ✅ AI 可以 在执行期间提问
- ✅ 你回复后,AI 继续执行
- ✅ 适用于登录确认、选项选择等场景
示例:
Task: Help me collect data from a login‑required website
AI: Login required. Are you logged in?
You: Yes, already logged in
AI: Got it, continuing data collection...
技术实现
基于 eko 框架的 HumanInteraction 消息类型,AI 能在执行期间发起交互请求。我们通过 Electron IPC 在主进程和渲染进程之间建立了双向通信通道。AI 需要提问时,工作流会暂停并等待用户响应。用户通过 IPC 回答后,代理继续执行。整个过程包含完整的状态管理和错误处理。
3. 语音输入支持
特性:
- ✅ 任务可使用语音输入(无需键入)
- ✅ 使用 Vosk 实现离线语音识别
- ✅ 根据语言自动切换识别模型
技术实现
默认使用 Vosk 本地离线引擎——无需网络,保护用户隐私。系统会自动加载对应的模型(中文/英文)。后续计划支持 Microsoft Azure 与科大讯飞的云服务。
4. 多语言国际化
支持:
- ✅ 中英文界面切换
- ✅ 完整的翻译覆盖
- ✅ 日期/时间本地化
技术实现
基于 i18next + react-i18next。翻译资源按模块组织(main.json、history.json、agent-config.json 等),使用命名空间隔离。语言切换通过 Zustand 全局状态实现——无需刷新页面。日期时间格式化使用 date-fns 的 locale 功能。新增语言只需添加对应的 JSON 翻译文件。
5. 代理配置系统
特性:
- ✅ 自定义代理提示词
- ✅ 管理 MCP 工具(增删改查)
- ✅ 配置不同的代理能力
这让 AI Browser 具备高度的灵活性和可定制性。
6. 工具箱页面
改进:
- ✅ 集中访问所有系统功能
- ✅ 导航更清晰
- ✅ 一键跳转到配置、定时任务、历史记录等
🗺️ 接下来的计划
第 1 阶段(近期,1‑2 周)
- 任务工作目录隔离 – 为每个任务分配独立工作目录,避免文件相互干扰。
- Windows 后台运行优化 – 降低资源占用,提高稳定性。
- 生成文件下载支持 – 支持 AI 生成文件的直接下载和批量下载。
- 回放速度控制 – 为历史回放提供快进/慢放功能。
第 2 阶段(中期,2‑4 周)
- 性能优化 – 长对话的虚拟滚动、内存改进、启动加速。
- 多语言增强 – 自动检测系统语言、动态下载离线语言包、可配置的在线语音识别(Microsoft、科大讯飞)。
- 主题自定义 – 暗色模式、多套配色方案、用户自定义颜色。
第 3 阶段(长期,1‑2 个月)
- 可视化工作流编辑器 – 调整工作流步骤,保存/导入特定工作流用于定时任务。
- 插件市场 – 官方 MCP 工具库(HTTP、stdio、SSE),社区插件共享,一键安装/更新。
- 更多代理支持 – ShellAgent(命令执行)、EmailAgent(邮件收发)、NotionAgent(Notion 操作)。
🤔 我们需要
- ⭐️ 星标 – 帮助项目提升曝光度,吸引贡献者,并激励持续开发。
- 💬 反馈与建议 – 通过 GitHub Issues 或评论分享你的使用场景、问题和功能想法。
- 🤝 代码贡献 – 提交 PR 修复 bug、新增功能或改进文档。
📌 快速链接
- GitHub:
- Download:
- Configuration Guide:
- Issue Tracker: