Microsoft와 Replicate의 Omniparser‑V2 모델 초보자 가이드
Source: Dev.to
Overview
Omniparser‑V2는 그래픽 사용자 인터페이스를 구조화된 데이터로 변환하는 Microsoft의 화면 파싱 도구인 OmniParser를 확장한 버전입니다. Microsoft가 만든 이 버전은 향상된 성능과 AI 기반 인터페이스 상호작용을 위한 기능 확장을 제공합니다.
How It Works
이 모델은 스크린샷을 입력으로 받아 인터페이스 요소들의 구조화된 표현을 생성합니다. 클릭 가능한 영역을 식별하고 해당 기능을 설명합니다. 객체 탐지와 시각 이해 모델을 결합하여 이미지를 처리합니다.
Parameters
- Image – 분석할 스크린샷 또는 인터페이스 이미지.
- Box threshold – UI 요소를 감지하기 위한 신뢰도 임계값 (0.01 – 1.0).
- IOU threshold – 감지된 요소를 병합하기 위한 겹침 임계값 (0.01 – 1.0).
- Image size – 아이콘 감지를 위한 해상도 (640 – 1920 픽셀).
- Elements – 감지된 UI 구성 요소를 설명하는 구조화된 텍스트.
Visualization
시스템은 원본 스크린샷 위에 감지된 요소를 강조 표시하는 시각적 오버레이를 생성할 수 있어, 어떤 UI 구성 요소가 식별되었고 어떻게 분류되었는지 쉽게 확인할 수 있습니다.