视觉模仿学习:Guidde 在人类“专家视频”上训练 AI 代理,而非文档
Source: VentureBeat
Source: …
数字化转型的“最后一公里”
多年来,数字化转型的最后一公里一直被遗忘的 PDF 和被忽视的培训手册所困扰。
组织在 SAP 或 Salesforce 等复杂软件上投入数百万,却仍让员工在基本导航上苦苦挣扎。
如今,随着 agentic AI 时代的到来,公司面临一把双刃剑:
- 教会人类员工 与 AI 合作。
- 教会 AI 代理 在现代企业的错综复杂界面中导航。
在 AI 前沿企业中,一个正在获得关注的想法是 使用屏幕录制和教程,展示某人执行企业任务(例如创建工单或处理发票)的过程,并训练 AI 根据捕获的内容复制该流程。
“就在本周,一家名为 Standard Intelligence 的初创公司在 X 上走红,展示了一个面向物理和数字世界的开放式早期演示。”
但事实是,已经有玩家在正面解决这个问题。
Guidde – 真实案例
- 公司: Guidde(以色列初创公司,诞生于以视频为中心的 COVID‑19 时代)
- 融资: 由 PSG Equity 主导的 5,000 万美元 B 轮 超额认购
- 使命: 通过将 真实人类视频 转化为用于自主代理的高保真训练数据,解决知识基础设施危机。
“与其向代理提供静态 PDF 手册,Guidde 提供高保真的‘视频真实标签’——从真实人类专家在操作复杂软件时捕获的丰富数据流。”
这笔投资标志着一次转变:文档不再是静态的副产品;它是为训练下一代自主数字代理提供的关键遥测数据。
Source: …
技术:从视频捕获到世界模型
在核心上,Guidde 是一个 AI 数字采纳平台(ADAP)。其突破之处在于 录制过程中幕后 所发生的事情。
Guidde 捕获的内容
- 每一次点击、滚动以及对 HTML 页面潜在的交互
- 细微的停顿、特定的滚动深度,以及系统延迟时的纠正
- 元数据和 DOM 变化 与视频帧同步
这些信号被转化为 视觉‑语言‑动作(VLA)训练集。
隐私与脱敏
- 魔法脱敏 自动遮蔽敏感数据(密码、信用卡号等)
- 确保录制内容 安全且符合 HIPAA 标准
“每当你点击按钮、拖拽、滚动、输入时,我们都会收集交互……所有这些,我们都会进行清洗——没有私人信息,” — Yoav Einav,联合创始人兼 CEO(VentureBeat 访谈)
生成的 “数字世界模型”
- 企业软件界面的 高保真地图
- 使代理能够像人类一样,对 传统 UI 进行空间感知推理
- 将教程转化为 机器可读的蓝图,解决了自动化先前失败的“最后一公里”问题
“从某种意义上说,Guidde 正在为计算机使用构建一个类似 Waymo 的 ‘自动驾驶汽车’。”
产品:Three Pillars of Guidd‑ance
Guidde 的平台已经发展为三个独立的产品,每个产品都能随组织成熟度而扩展。
| Pillar | Description |
|---|---|
| Guidde Create | 为主题专家提供的引擎,可在 几分钟 内将工作流转化为文档。 |
| Guidde Broadcast | 个性化推荐引擎(常被比作 Netflix),在 用户实际使用的工具内 提供答案。了解用户身份和部门,在 恰当时机 呈现相关内容。 |
| Guidde Discover | 新推出的 “主动” 支柱。类似 Waze 通过观察司机绘制道路,Discover 通过追踪员工的工作方式 绘制软件路径,理解工作流,生成内容,并在 UI 变化时 自动更新。 |
Training Humans 以及 AI
“我们是唯一一个同时培训人类和代理的平台。” — Yoav Einav
The Human Side
- 推出 AI 工具的公司(例如 Microsoft 365 Copilot、ServiceNow agents)面临 熟练度差距。
- 一家大型客户为一款高级 AI 工具支付了 > $1 M/年,但“没有人会使用它,因为他们只进行了一次 30 分钟的培训,然后就结束了”。
- Guidde 通过 小块式视频教程,在 工作流中 提供,弥补了这一差距。
The AI Side
- 基础模型(例如 Gemini、GPT‑4)经常在特定企业工作流上 产生幻觉,因为它们缺乏对 私有的“原始”工作流 的了解。
- Guidde 提供 起始点、元数据,甚至 按钮的 x、y 坐标,使代理能够顺利完成操作,不会卡住。
多模态优势
为了保持高准确性,Guidde 采用了 多模态基础设施——一 套模型群 互相评估。
| Model | Primary Role |
|---|---|
| Google Gemini | 视觉任务(分析 PDF、PowerPoint、UI 截图)。 |
| Anthropic Claude | 为教程编写情节和叙事脚本。 |
| Feedback Loops | 用户编辑反馈回模型,防止在后续捕获中重复错误。 |
这种方法使 Guidde 能够 用动态、AI 就绪的知识 替代传统的静态文档,随着 UI 的演进而不断进化。
关键结论
Guidde 表明,高保真视频真实数据 与丰富的交互遥测以及多模态 AI 堆栈相结合,能够将数字化转型的“最后一公里”转化为 可扩展、安全且持续改进的知识基础设施——这既惠及 人类用户,也惠及 自主代理。
Source: …
视频‑优先的起源故事
Guidde 的诞生源于每位产品负责人都熟悉的挫败感。在创立公司之前,Einav 与联合创始人 Dan Sahar 在 Qwilt(他们于 2010 年创办的公司,专注于分析人们如何观看 Netflix 和 Disney+)花了多年时间精通视频流量。
COVID‑19 爆发时,他们看到了将这份视频专长应用于职场的巨大机会。他们观察到,短视频解释器可以将免费转付费账户的转化率提升 30 %,但制作这些视频的摩擦成本不可持续。
在一次采访中,Einav 回忆起旧模式的 “繁琐工作”:
“我在以色列的团队负责创建内容,美国的同事用美式口音进行配音,市场团队的成员会撰写脚本……而赋能团队的人则负责剪辑。”
这种碎片化的工作流程导致一段视频的制作需要 两到三周。Einav 补充道:“两周后,产品就会有变动,你必须从头重新制作。”
Guidde 的目标是把这个周期压缩到秒级。通过自动化 “Magic Capture” 工作流,平台能够即时生成结构化的叙事脚本和专业的 AI 配音。这消除了编辑瓶颈,使主题专家转变为 “培训强者”。
许可与市场影响
Guidde 的定价结构反映了其从工具型产品向企业基础设施核心转变的过程:
| 计划 | 价格(每位创作者) | 关键特性 |
|---|---|---|
| Free | $0 | 最多 25 条视频,Web‑app 支持 |
| Pro | $18/mo | 视频无限制,品牌套件 |
| Business | $39/mo | 文本转语音无限制,分析功能 |
| Enterprise | Custom | 多语言翻译,SSO,Magic Redaction |
平台的影响已经在数据中显现:
- 41 % 的视频制作时间缩短
- 34 % 的入站支持工单减少
对于像 Emerson 这样的客户而言,这意味着 40–60 % 的指南创建速度提升。尤其是支持团队发现,他们可以卸载 80 % 的工单量——前提是这些客服拥有可用的内容。
“没有内容的客服是无用的,”Einav 警告道,指出大多数企业文档要么已经多年未更新,要么根本没有文档记录。
社区和行业的早期反馈
Guidde 已经声称拥有 4,500 家企业客户,并希望通过新一轮融资进一步扩大这一数字。支持和运营负责人对平台的易用性赞誉有加。
-
Christopher Cummings,DocNetwork 客户体验副总裁:
“提供快速、个性化的视频回复,以解答客户问题。”
-
Wren Cotrone,客户支持总监:
“一旦你按自己的需求设置好品牌,就可以真正快速完成这些工作。”
-
Ronen Nir,PSG 常务董事:
“Guidde 正在解决成功 AI 采纳的最大障碍之一:知识基础设施。”
为什么现在重要
从仅文本的大型语言模型转向 代理视频智能 的范式转变是2026年的决定性趋势。Guidde的Series B融资表明,企业代理的“真实数据”将来源于原始视频观察,而非静态文档。
通过捕捉遍布 数千万工作流 的工作执行方式,Guidde正在构建一个鲜有其他人拥有的数据集。
“它始于人类在环,随着时间推移逐步走向完全自主。” – Einav
对于现代企业而言,地图不再是静态文档——它是一层 活生生、呼吸般的 视频智能层,为员工和支持他们的代理提供指引。