AI 에이전트가 스크린 녹화에서 학습하는 방법
Source: Dev.to
Introduction
우리는 AI 에이전트가 능력을 습득하는 방식에 근본적인 변화를 목격하고 있습니다. 에이전트가 할 수 있는 일을 코드로 정의하는 대신, 이제는 간단한 화면 녹화를 통해 보여주고 있습니다. 이는 자동화 전반을 뒤바꾸는 변화입니다.
Traditional Automation
수십 년 동안 자동화는 스크립트를 작성하는 것이었습니다:
- 웹 스크래핑은 HTML 파싱이 필요했습니다
- 폼 입력은 필드 셀렉터를 식별해야 했습니다
- 데이터 추출은 깨지기 쉬운 XPath 표현식이 필요했습니다
UI가 조금만 바뀌면 자동화가 깨져 유지보수 악몽이 되었습니다. 어제 작동하던 스크립트가 오늘은 버튼이 이동했거나 CSS 클래스가 바뀌어서 실패합니다.
Example of a recorded script
// Click at coordinates (120, 340)
// Type "username" into field #user-input
// Click button with class .submit-btn
SkillForge Approach
인간이 보는 것과 흉내 내는 방식으로 AI 에이전트가 학습할 수 있다면 어떨까요? SkillForge가 그 가능성을 제공합니다.
- Record 자신이 수행하는 모든 웹 기반 작업을 녹화합니다.
- AI extracts 워크플로를 추출해 목표와 컨텍스트를 이해합니다.
- Generate
SKILL.md파일을 생성해 기능을 기술합니다. - Deploy 호환되는 에이전트 프레임워크에 배포합니다.
AI는 단순히 클릭을 기록하는 것이 아니라 의도를 파악합니다.
SkillForge captures understanding
## Authenticate User
- Locate the login form
- Enter credentials in username/password fields
- Click the primary submit button
- Wait for dashboard to load
UI가 바뀌면 첫 번째 접근 방식은 깨집니다. 두 번째는 적응합니다.
Converging Trends
이 시점이 적절한 이유가 되는 세 가지 트렌드:
- AI Vision Models – UI 요소에 대한 강력한 시각 인식.
- Semantic Understanding – 행동 뒤에 숨은 의도 파악.
- Framework Maturity – 표준화된 에이전트 런타임과 스킬 포맷.
이 세 가지가 결합돼 에이전트가 사양이 아니라 시연을 통해 학습하는 새로운 접근 방식을 가능하게 합니다.
Use Cases
Customer Support
- 환불 처리 녹화 → 에이전트가 자동으로 환불을 처리합니다.
Sales Operations
- 리드 자격 검증 녹화 → 에이전트가 24시간 리드를 검증합니다.
Finance
- 비용 보고서 제출 녹화 → 에이전트가 보고서를 제출합니다.
Marketing
- 캠페인 분석 녹화 → 에이전트가 주간 보고서를 생성합니다.
각 경우 모두 하나의 녹화만 필요합니다. 코딩도, 유지보수도 필요 없습니다. 오직 의도만 있으면 됩니다.
Getting Started
스크린 녹화를 업로드하고, SKILL.md 파일을 받아 에이전트에 배포하세요.
Conclusion
우리는 다음과 같은 전환을 겪고 있습니다:
“상세 사양을 작성한다”
→
“하고 싶은 일을 보여준다”
이는 AI 에이전트 개발의 민주화입니다. 도메인 전문가가 엔지니어링 지원 없이도 기능을 만들 수 있게 됩니다. 무엇을 해야 할지 아는 것과 AI에게 그것을 시키는 것 사이의 격차가 사라지고 있습니다.
당신은 에이전트에게 무엇을 가르칠 건가요?