视觉模仿学习:Guidde 在人类“专家视频”上训练 AI 代理,而非文档

发布: (2026年2月25日 GMT+8 23:26)
12 分钟阅读

Source: VentureBeat

Source:

数字化转型的“最后一公里”

多年来,数字化转型的最后一公里一直被遗忘的 PDF 和被忽视的培训手册所困扰。
组织在 SAPSalesforce 等复杂软件上投入数百万,却仍让员工在基本导航上苦苦挣扎。

如今,随着 agentic AI 时代的到来,公司面临一把双刃剑:

  1. 教会人类员工 与 AI 合作。
  2. 教会 AI 代理 在现代企业的错综复杂界面中导航。

在 AI 前沿企业中,一个正在获得关注的想法是 使用屏幕录制和教程,展示某人执行企业任务(例如创建工单或处理发票)的过程,并训练 AI 根据捕获的内容复制该流程。

“就在本周,一家名为 Standard Intelligence 的初创公司在 X 上走红,展示了一个面向物理和数字世界的开放式早期演示。”

但事实是,已经有玩家在正面解决这个问题。

Guidde – 真实案例

  • 公司: Guidde(以色列初创公司,诞生于以视频为中心的 COVID‑19 时代)
  • 融资: 由 PSG Equity 主导的 5,000 万美元 B 轮 超额认购
  • 使命: 通过将 真实人类视频 转化为用于自主代理的高保真训练数据,解决知识基础设施危机。

“与其向代理提供静态 PDF 手册,Guidde 提供高保真的‘视频真实标签’——从真实人类专家在操作复杂软件时捕获的丰富数据流。”

这笔投资标志着一次转变:文档不再是静态的副产品;它是为训练下一代自主数字代理提供的关键遥测数据

Source:

技术:从视频捕获到世界模型

在核心上,Guidde 是一个 AI 数字采纳平台(ADAP)。其突破之处在于 录制过程中幕后 所发生的事情。

Guidde 捕获的内容

  • 每一次点击、滚动以及对 HTML 页面潜在的交互
  • 细微的停顿、特定的滚动深度,以及系统延迟时的纠正
  • 元数据和 DOM 变化 与视频帧同步

这些信号被转化为 视觉‑语言‑动作(VLA)训练集

隐私与脱敏

  • 魔法脱敏 自动遮蔽敏感数据(密码、信用卡号等)
  • 确保录制内容 安全且符合 HIPAA 标准

“每当你点击按钮、拖拽、滚动、输入时,我们都会收集交互……所有这些,我们都会进行清洗——没有私人信息,” — Yoav Einav,联合创始人兼 CEO(VentureBeat 访谈)

生成的 “数字世界模型”

  • 企业软件界面的 高保真地图
  • 使代理能够像人类一样,对 传统 UI 进行空间感知推理
  • 将教程转化为 机器可读的蓝图,解决了自动化先前失败的“最后一公里”问题

“从某种意义上说,Guidde 正在为计算机使用构建一个类似 Waymo 的 ‘自动驾驶汽车’。”

产品:Three Pillars of Guidd‑ance

Guidde 的平台已经发展为三个独立的产品,每个产品都能随组织成熟度而扩展。

PillarDescription
Guidde Create为主题专家提供的引擎,可在 几分钟 内将工作流转化为文档。
Guidde Broadcast个性化推荐引擎(常被比作 Netflix),在 用户实际使用的工具内 提供答案。了解用户身份和部门,在 恰当时机 呈现相关内容。
Guidde Discover新推出的 “主动” 支柱。类似 Waze 通过观察司机绘制道路,Discover 通过追踪员工的工作方式 绘制软件路径理解工作流,生成内容,并在 UI 变化时 自动更新

Training Humans 以及 AI

“我们是唯一一个同时培训人类和代理的平台。” — Yoav Einav

The Human Side

  • 推出 AI 工具的公司(例如 Microsoft 365 CopilotServiceNow agents)面临 熟练度差距
  • 一家大型客户为一款高级 AI 工具支付了 > $1 M/年,但“没有人会使用它,因为他们只进行了一次 30 分钟的培训,然后就结束了”。
  • Guidde 通过 小块式视频教程,在 工作流中 提供,弥补了这一差距。

The AI Side

  • 基础模型(例如 GeminiGPT‑4)经常在特定企业工作流上 产生幻觉,因为它们缺乏对 私有的“原始”工作流 的了解。
  • Guidde 提供 起始点元数据,甚至 按钮的 x、y 坐标,使代理能够顺利完成操作,不会卡住。

多模态优势

为了保持高准确性,Guidde 采用了 多模态基础设施——一 套模型群 互相评估。

ModelPrimary Role
Google Gemini视觉任务(分析 PDF、PowerPoint、UI 截图)。
Anthropic Claude为教程编写情节和叙事脚本。
Feedback Loops用户编辑反馈回模型,防止在后续捕获中重复错误。

这种方法使 Guidde 能够 用动态、AI 就绪的知识 替代传统的静态文档,随着 UI 的演进而不断进化。

关键结论

Guidde 表明,高保真视频真实数据 与丰富的交互遥测以及多模态 AI 堆栈相结合,能够将数字化转型的“最后一公里”转化为 可扩展、安全且持续改进的知识基础设施——这既惠及 人类用户,也惠及 自主代理

Source:

视频‑优先的起源故事

Guidde 的诞生源于每位产品负责人都熟悉的挫败感。在创立公司之前,Einav 与联合创始人 Dan Sahar 在 Qwilt(他们于 2010 年创办的公司,专注于分析人们如何观看 Netflix 和 Disney+)花了多年时间精通视频流量。

COVID‑19 爆发时,他们看到了将这份视频专长应用于职场的巨大机会。他们观察到,短视频解释器可以将免费转付费账户的转化率提升 30 %,但制作这些视频的摩擦成本不可持续。

在一次采访中,Einav 回忆起旧模式的 “繁琐工作”:

“我在以色列的团队负责创建内容,美国的同事用美式口音进行配音,市场团队的成员会撰写脚本……而赋能团队的人则负责剪辑。”

这种碎片化的工作流程导致一段视频的制作需要 两到三周。Einav 补充道:“两周后,产品就会有变动,你必须从头重新制作。”

Guidde 的目标是把这个周期压缩到秒级。通过自动化 “Magic Capture” 工作流,平台能够即时生成结构化的叙事脚本和专业的 AI 配音。这消除了编辑瓶颈,使主题专家转变为 “培训强者”。

许可与市场影响

Guidde 的定价结构反映了其从工具型产品向企业基础设施核心转变的过程:

计划价格(每位创作者)关键特性
Free$0最多 25 条视频,Web‑app 支持
Pro$18/mo视频无限制,品牌套件
Business$39/mo文本转语音无限制,分析功能
EnterpriseCustom多语言翻译,SSO,Magic Redaction

平台的影响已经在数据中显现:

  • 41 % 的视频制作时间缩短
  • 34 % 的入站支持工单减少

对于像 Emerson 这样的客户而言,这意味着 40–60 % 的指南创建速度提升。尤其是支持团队发现,他们可以卸载 80 % 的工单量——前提是这些客服拥有可用的内容

“没有内容的客服是无用的,”Einav 警告道,指出大多数企业文档要么已经多年未更新,要么根本没有文档记录。

社区和行业的早期反馈

Guidde 已经声称拥有 4,500 家企业客户,并希望通过新一轮融资进一步扩大这一数字。支持和运营负责人对平台的易用性赞誉有加。

  • Christopher Cummings,DocNetwork 客户体验副总裁:

    “提供快速、个性化的视频回复,以解答客户问题。”

  • Wren Cotrone,客户支持总监:

    “一旦你按自己的需求设置好品牌,就可以真正快速完成这些工作。”

  • Ronen Nir,PSG 常务董事:

    “Guidde 正在解决成功 AI 采纳的最大障碍之一:知识基础设施。”

为什么现在重要

从仅文本的大型语言模型转向 代理视频智能 的范式转变是2026年的决定性趋势。Guidde的Series B融资表明,企业代理的“真实数据”将来源于原始视频观察,而非静态文档。

通过捕捉遍布 数千万工作流 的工作执行方式,Guidde正在构建一个鲜有其他人拥有的数据集。

“它始于人类在环,随着时间推移逐步走向完全自主。” – Einav

对于现代企业而言,地图不再是静态文档——它是一层 活生生、呼吸般的 视频智能层,为员工和支持他们的代理提供指引。

0 浏览
Back to Blog

相关文章

阅读更多 »