Visual imitation learning: Guidde가 문서 대신 인간 ‘전문가 비디오’로 AI 에이전트를 훈련
Source: VentureBeat
번역하려는 전체 텍스트를 제공해 주시면, 요청하신 대로 한국어로 번역해 드리겠습니다. (코드 블록이나 URL은 그대로 유지하고, 마크다운 형식과 기술 용어는 원본 그대로 유지합니다.)
디지털 트랜스포메이션의 “라스트 마일”
수년간, 디지털 트랜스포메이션의 라스트 마일은 잊혀진 PDF와 무시된 교육 매뉴얼로 가득했습니다.
조직은 SAP나 Salesforce와 같은 정교한 소프트웨어에 수백만 달러를 투자하지만, 직원들은 기본적인 탐색조차 힘들어합니다.
이제 에이전시 AI 시대가 도래하면서, 기업은 양날의 검에 직면합니다:
- 인간 직원에게 AI와 협업하는 방법을 가르친다.
- AI 에이전트에게 현대 기업의 복잡한 인터페이스를 탐색하는 방법을 가르친다.
AI‑중심 기업들 사이에서 점점 주목받고 있는 아이디어는 스크린 녹화와 튜토리얼을 활용해 누군가가 기업 업무(예: 티켓 생성 또는 송장 처리)를 수행하는 모습을 캡처하고, 이를 기반으로 AI가 흐름을 재현하도록 학습시키는 것입니다.
“이번 주에 Standard Intelligence라는 스타트업이 X에 물리적·디지털 세계를 위한 오픈‑엔드 버전의 초기 데모를 공개하며 화제가 되었습니다.”
하지만 실제로 이 문제를 정확히 해결하고 있는 플레이어들이 이미 존재합니다.
Guidde – 실제 사례
- 회사: Guidde (이스라엘 스타트업, 비디오 중심의 COVID‑19 시대에 탄생)
- 펀딩: PSG Equity가 주도한 5천만 달러 규모 Series B 초과 청약
- 미션: 실제 인간 비디오를 자율 에이전트를 위한 고충실도 학습 데이터로 전환하여 지식‑인프라 위기를 해결한다.
“정적인 PDF 매뉴얼을 에이전트에 제공하는 대신, Guidde는 고충실도 ‘비디오 그라운드 트루스’를 제공합니다—복잡한 소프트웨어를 탐색하는 실제 인간 전문가들의 풍부한 데이터 스트림.”
이 투자는 전환점을 나타냅니다: 문서화는 이제 정적인 부산물이 아니라, 차세대 자율 디지털 에이전트를 훈련시키기 위한 핵심 텔레메트리가 된 것입니다.
Technology: From Video Capture to World Models
At its core, Guidde is an AI Digital Adoption Platform (ADAP). Its breakthrough lies in what happens behind the scenes during a recording.
What Guidde Captures
- Every click, scroll, and latent interaction with the HTML page
- Subtle pauses, specific scroll depths, and corrections when a system lags
- Metadata & DOM changes synchronized with video frames
These signals are transformed into a Vision‑Language‑Action (VLA) training set.
Privacy & Redaction
- Magic Redaction automatically obscures sensitive data (passwords, credit‑card numbers, etc.)
- Ensures recordings remain secure and HIPAA‑aligned
“Every time you click a button, you drag‑and‑drop, you scroll, you type, we gather the interaction… all of it, we do cleanse it—there’s no private information,” — Yoav Einav, Co‑founder & CEO (VentureBeat interview)
The Resulting “Digital World Model”
- A high‑fidelity map of enterprise software interfaces
- Enables agents to reason through legacy UIs with the same spatial awareness as a human
- Turns tutorials into machine‑readable blueprints, solving the “last mile” where automation previously failed
“In a sense, Guidde is building a ‘self‑driving car’ like Waymo for computer usage.”
Product: Three Pillars of Guidd‑ance
Guidde의 플랫폼은 조직의 성숙도에 맞춰 확장될 수 있도록 세 가지 별도 제품으로 진화했습니다.
| 기둥 | 설명 |
|---|---|
| Guidde Create | 주제 전문가가 워크플로를 몇 분 안에 문서화할 수 있게 하는 엔진. |
| Guidde Broadcast | 개인화된 추천 엔진(종종 Netflix에 비유됨)으로, 사람들이 실제로 사용하는 도구 안에서 답변을 제공합니다. 사용자의 신원과 부서를 파악해 필요한 순간에 적절한 콘텐츠를 보여줍니다. |
| Guidde Discover | 새롭게 출시된 “에이전시”형 기둥. 운전자를 관찰해 도로를 매핑하는 Waze처럼, Discover는 소프트웨어 경로를 직원들의 작업 방식을 추적해 매핑하고, 워크플로를 이해하며, 콘텐츠를 생성하고 UI가 변경될 때 자동으로 업데이트합니다. |
인간 및 AI 교육
Guidde 성장에서 가장 눈에 띄지 않는 측면은 이중 목적 사명입니다.
“우리는 인간과 에이전트를 모두 교육하는 유일한 플랫폼입니다.” — Yoav Einav
인간 측면
- AI 도구(예: Microsoft 365 Copilot, ServiceNow agents)를 도입하는 기업들은 숙련도 격차에 직면합니다.
- 한 대형 고객이 정교한 AI 도구에 연간 $1 M 이상을 지불했지만, “30분 교육 세션만 진행하고는 아무도 사용 방법을 모른다”고 말했습니다.
- Guidde는 작은 규모의 비디오 튜토리얼을 업무 흐름 속에서 제공함으로써 이 격차를 해소합니다.
AI 측면
- 기초 모델(예: Gemini, GPT‑4)은 종종 특정 기업 워크플로우에서 환각을 일으키는데, 이는 비공개 “베이직” 워크플로우에 대한 노출이 부족하기 때문입니다.
- Guidde는 시작점, 메타데이터, 그리고 버튼의 x, y 좌표까지 제공하여 에이전트가 작업을 막히지 않고 완료할 수 있도록 합니다.
멀티모달 장점
높은 정확성을 유지하기 위해 Guidde는 멀티모달 인프라—서로를 평가하는 다수의 모델을 사용합니다.
| Model | Primary Role |
|---|---|
| Google Gemini | 시각 작업 (PDF, PowerPoint, UI 스크린샷 분석). |
| Anthropic Claude | 튜토리얼을 위한 스토리라인 및 내러티브 스크립트 작성. |
| Feedback Loops | 사용자 편집을 모델에 다시 피드백하여 향후 캡처 시 동일한 실수를 방지. |
이 접근 방식은 Guidde가 레거시 정적 문서를 UI가 변화함에 따라 진화하는 동적 AI‑준비 지식으로 교체할 수 있게 합니다.
핵심 요약
Guidde는 고충실도 비디오 그라운드 트루스와 풍부한 상호작용 텔레메트리, 멀티모달 AI 스택을 결합하면 디지털 전환의 “마지막 단계”를 확장 가능하고, 안전하며, 지속적으로 개선되는 지식 인프라로 전환할 수 있음을 보여줍니다—이는 인간 사용자와 자율 에이전트 모두에게 이익이 됩니다.
비디오‑우선 기원 스토리
Guidde의 탄생은 모든 제품 리더가 겪는 좌절감에서 시작되었습니다. 회사를 설립하기 전에, 에이나브와 공동 설립자 댄 사하르는 2010년에 시작한 Qwilt에서 비디오 트래픽을 마스터하며 사람들의 Netflix와 Disney+ 시청 방식을 분석하는 데 수년을 보냈습니다.
COVID‑19가 발생했을 때, 그들은 이 비디오 전문성을 직장에 적용할 수 있는 거대한 기회를 포착했습니다. 짧은 비디오 설명이 무료‑유료 계정 전환율을 30 % 증가시킬 수 있다는 것을 관찰했지만, 이를 제작하는 데 드는 마찰은 지속 가능하지 않았습니다.
인터뷰에서 에이나브는 옛 방식의 “지루한 작업”을 회상했습니다:
“이스라엘에 있는 우리 팀이 콘텐츠를 만들고, 미국 억양을 가진 사람이 내레이션을 담당하고, 마케팅 팀의 누군가가 스크립트를 작성하고… 그리고 Enablement 팀의 누군가가 편집을 했습니다.”
이렇게 파편화된 워크플로우 때문에 하나의 비디오를 제작하는 데 2~3주가 걸렸습니다. “그리고 2주가 지난 뒤 제품이 바뀌면, 처음부터 다시 만들어야 합니다,” 라고 에이나브는 덧붙였습니다.
Guidde는 이 사이클을 몇 초 안에 압축하도록 설계되었습니다. 워크플로우의 “Magic Capture” 를 자동화함으로써 플랫폼은 구조화된 내러티브 스크립트와 전문 AI 보이스오버를 즉시 생성합니다. 이는 편집 병목 현상을 제거하고, 주제 전문가들을 “training powerhouses” 로 변모시킵니다.
라이선스 및 시장 영향
Guidde의 가격 구조는 유틸리티에서 기업 인프라의 핵심 요소로 전환된 모습을 반영합니다:
| Plan | Price (per creator) | Key Features |
|---|---|---|
| Free | $0 | 최대 25개 비디오, 웹‑앱 지원 |
| Pro | $18/mo | 무제한 비디오, 브랜드 키트 |
| Business | $39/mo | 무제한 텍스트‑투‑보이스, 분석 |
| Enterprise | Custom | 다국어 번역, SSO, Magic Redaction |
플랫폼의 영향은 이미 수치로 나타나고 있습니다:
- 41 % 비디오 제작 시간 감소
- 34 % 인바운드 지원 티켓 감소
Emerson과 같은 고객에게는 40–60 % 빠른 가이드 제작으로 이어집니다. 특히 지원 팀은 티켓 양의 **80 %**를 처리할 수 있게 되지만—그 에이전트가 유용한 콘텐츠를 가지고 있을 때만—가능합니다.
“콘텐츠가 없는 에이전트는 쓸모가 없습니다,” 라고 Einav는 경고합니다. 대부분의 기업 문서는 수년이 지나 업데이트되지 않았거나 전혀 문서화되지 않았기 때문입니다.
커뮤니티 및 산업 초기 반응
Guidde는 이미 4,500개의 기업 고객을 보유하고 있으며, 새로운 투자 라운드로 이 수치를 확대하려 하고 있습니다. 지원 및 운영 리더들은 플랫폼의 사용 편의성에 대해 적극적으로 의견을 표하고 있습니다.
-
Christopher Cummings, DocNetwork 고객 경험 부사장:
“고객 질문에 대한 빠르고 개인화된 비디오 응답을 제공합니다.”
-
Wren Cotrone, 고객 지원 이사:
“브랜딩을 원하는 대로 설정하면 이 작업을 정말 빠르게 진행할 수 있습니다.”
-
Ronen Nir, PSG 매니징 디렉터:
“Guidde는 성공적인 AI 도입을 가로막는 가장 큰 장애물 중 하나인 지식 인프라 문제를 해결하고 있습니다.”
왜 지금 중요한가
텍스트‑전용 LLM에서 에이전트형 비디오 인텔리전스로의 패러다임 전환은 2026년을 정의하는 트렌드입니다. Guidde의 Series B는 기업 에이전트의 “실제 데이터”가 정적인 문서가 아니라 원시 비디오 관찰에서 나올 것임을 시사합니다.
수천만 개의 워크플로우 전반에 걸쳐 작업이 수행되는 방식을 포착함으로써, Guidde는 다른 기업이 거의 보유하지 못한 데이터셋을 구축하고 있습니다.
“처음에는 인간이 루프에 참여하지만, 시간이 지나면서 완전한 자율성으로 나아갑니다.” – Einav
현대 기업에게 지도는 더 이상 정적인 문서가 아니라, 생동감 넘치는 비디오 인텔리전스 레이어이며, 이는 인력과 이를 지원하는 에이전트 모두를 안내합니다.