모바일 테스트가 계속 실패합니다. Vision AI가 해결합니다
Source: Dev.to
68%의 엔지니어링 팀이 테스트 유지보수가 가장 큰 QA 병목이라고 말합니다. 테스트를 작성하지 않아서가 아니라, 버그를 찾지 않아서가 아니라, 기존 테스트가 깨지는 것을 방지하는 것이 문제입니다.
문제는 무엇일까요? 기존의 테스트 자동화는 앱을 인간의 눈을 위해 설계된 시각적 인터페이스가 아니라 XML 노드들의 집합처럼 취급합니다. 개발자가 화면을 리팩터링할 때마다, 앱이 완벽히 동작하더라도 테스트가 깨집니다.
더 나은 방법이 있습니다
Vision Language Models (VLMs) — ChatGPT 뒤에 있는 동일한 AI 혁신이지만 눈을 가지고 있습니다 — 게임의 판도를 바꾸고 있습니다. 불안정한 로케이터 대신, VLM 기반 테스트 에이전트는 인간 테스터가 보는 방식대로 앱을 시각적으로 인식합니다.
- 95% 이상의 테스트 안정성 (전통적인 자동화의 70‑80% 대비)
- 몇 분 안에 테스트 생성, 몇 시간이 아니라
- 유지 보수 노력 50% 이상 감소
- 시각적 버그 포착 — 로케이터 기반 테스트가 일관되게 놓치는 버그를 잡아냅니다
실제로는 어떻게 보이나요?
Instead of writing this:
driver.findElement(By.id("login_button")).click();
you simply write:
Tap on the Login button.
The AI handles the rest—visually identifying elements, adapting to UI changes, and executing actions without a single locator.
하지만, 모든 도구가 이제 “AI‑Powered”라고 주장하는 건 아니죠?
NLP‑기반 도구
로케이터 기반 스크립트를 생성합니다. DOM 구조가 크게 변경되면 깨집니다.
셀프‑힐링 로케이터
ID가 변경되는 등 작은 문제를 수정하지만 여전히 요소 트리에 의존합니다.
Vision AI
로케이터 의존성을 완전히 없앱니다. 테스트는 요소가 어떻게 구현되었는지가 아니라 눈에 보이는 것에 기반합니다.
다른 플랫폼은 60–85%의 유지보수 감소를 보고합니다. Vision AI는 처음부터 테스트가 깨지기 쉬운 셀렉터에 의존하지 않았기 때문에 거의 제로에 가까운 유지보수를 달성합니다.
VLM이 실제로 작동하는 방식
Modern VLMs follow three primary architectural approaches:
- Fully integrated models (예: GPT‑4o, Gemini) – 이미지와 텍스트를 통합된 트랜스포머 레이어를 통해 처리하며, 가장 높은 연산 비용으로 가장 강력한 추론을 제공합니다.
- Visual adapter models (예: LLaVA, BLIP‑2) – 사전 학습된 비전 인코더를 LLM에 연결하여 성능과 효율성 사이의 실용적인 균형을 맞춥니다.
- Parameter‑efficient models (예: Phi‑4 Multimodal) – 대형 VLM의 정확도 약 85–90%를 달성하면서 100 ms 미만의 추론 속도를 가능하게 하여 엣지 및 실시간 사용 사례에 이상적입니다.
These models learn via contrastive learning (aligning images and text into a shared space), image captioning, and instruction tuning. CLIP’s training on over 400 million image‑text pairs laid the foundation for how most VLMs generalise across tasks today.
VLM 전반적인 현황 한눈에
- GPT‑4o – 복잡한 추론에서 선두.
- Gemini 2.5 Pro – 최대 1 M 토큰의 긴 콘텐츠를 처리.
- Claude 3.5 Sonnet – 문서 분석 및 레이아웃에 뛰어남.
- Queen 2.5‑VL‑72B (오픈소스) – 저비용으로 강력한 OCR 제공.
- DeepSeek VL2 (오픈소스) – 저지연 애플리케이션을 목표로 함.
오픈소스 모델은 이제 독점 모델 대비 5–10 % 수준의 성능을 보이며, 완전한 파인튜닝 유연성과 호출당 API 비용이 없음을 제공합니다.
VLM‑기반 테스트 시작하기
- 가장 자주 깨지고 CI 노이즈를 가장 많이 발생시키는 20–30개의 핵심 테스트 케이스를 식별합니다.
- 로케이터‑기반 스크립트 대신 평문 영어로 작성합니다.
- VLM 테스터를 기존 CI/CD 파이프라인(GitHub Actions, Jenkins, CircleCI 등)에 연결합니다.
- APK를 업로드하고, 테스트를 구성한 뒤, 매 빌드마다 트리거합니다.
테스트가 시각적 이해에 의존하기 때문에 실패가 더 의미 있고 진단이 훨씬 쉽습니다.
더 깊이 알고 싶다면, VLM이 내부적으로 어떻게 작동하는지, Vision AI가 대부분의 “AI 테스트” 방법보다 왜 뛰어난지, 벤치마크 비교 및 실용적인 도입 가이드를 상세히 다룬 블로그를 작성했습니다. 전체 블로그 읽기.
실제로 확인해 보세요
Drizz는 신뢰성을 빠르게 제공해야 하는 팀을 위해 Vision AI 테스트를 제공합니다. APK를 업로드하고, 평범한 영어로 테스트를 작성하고, 하루 안에 CI/CD에서 가장 중요한 20개의 테스트 케이스를 실행하세요.
- 로케이터가 없습니다.
- 불안정한 테스트가 없습니다.
- 유지보수 부담이 없습니다.