[Paper] Chain-of-Ground: 반복적 추론 및 레퍼런스 피드백을 통한 GUI 그라운딩 개선
Source: arXiv - 2512.01979v1
Overview
논문 **“Chain-of-Ground: Improving GUI Grounding via Iterative Reasoning and Reference Feedback”**는 그래픽 사용자 인터페이스(GUI)를 이해하고 상호작용할 수 있는 AI 어시스턴트를 개발하는 개발자들이 겪는 실질적인 어려움을 해결합니다. 멀티모달 대형 언어 모델(LLM)이 화면상의 텍스트 명령이 가리키는 위치를 단계별로 추론하도록 함으로써, 별도의 모델 학습 없이도 그라운딩 정확도를 크게 향상시켜 실제 제품에 즉시 적용할 수 있게 합니다.
Key Contributions
- 학습 없이 가능한 반복 그라운딩 프레임워크 (Chain‑of‑Ground, CoG). 단일 샷 시각 그라운딩 모델을 다단계 추론기로 전환해 예측을 실시간으로 정제합니다.
- Reference‑feedback 루프. 각 추론 단계마다 모델이 시각적 “참조”(예: 강조된 영역)를 받고, 최종 답을 내기 전에 오류를 수정할 수 있습니다.
- 새로운 실세계 벤치마크 (TPanel‑UI). 흐림, 가림, 마스킹 등 현실적인 왜곡이 적용된 420개의 산업용 제어판 스크린샷을 제공해 합성 UI 데이터셋을 넘어선 견고성을 평가합니다.
- 최첨단 성능 향상. ScreenSpot‑Pro에서 68.4 % 정확도(+4.8 pt), TPanel‑UI에서는 강력한 Qwen‑3‑VL‑235B 베이스라인 대비 +6.9 pt를 달성했으며, 모두 파인튜닝 없이 이루어졌습니다.
- 해석 가능성. 단계별 추론 과정을 시각화할 수 있어, 개발자가 모델이 특정 UI 요소를 선택한 이유를 디버깅할 수 있습니다.
Methodology
- 기본 멀티모달 LLM. 저자들은 이미지와 자연어 명령을 입력으로 받는 기존 비전‑언어 모델(예: Qwen‑3‑VL‑235B)을 사용합니다.
- Chain‑of‑Ground 루프.
- Step 1 – 초기 가설: 모델이 후보 영역(예: 버튼)을 제시하고 텍스트로 근거를 설명합니다.
- Step 2 – 시각적 피드백: 시스템이 제안된 영역을 강조 오버레이로 렌더링하고, 이를 다음 프롬프트에 포함시켜 모델에 다시 전달합니다.
- Step 3 – 재추론: 오버레이를 참조로 삼아 모델이 불일치(예: “버튼 라벨이 명령과 맞지 않는다”)를 확인하고, 추측을 확정하거나 새로운 영역을 제안합니다.
- Repeat – 일반적으로 2‑3회 정도의 고정된 횟수만큼 반복해 모델이 자신감을 표시할 때까지 진행합니다.
- 프롬프트 엔지니어링. 저자들은 모델에게 “생각을 크게 말해라”, 대안을 나열하라, 자신감 점수를 명시적으로 요청하라 등 간결하고 구조화된 프롬프트를 설계해 체인‑오브‑쓰루(Chain‑of‑Thought) 추론을 유도합니다. 이는 다른 분야에서도 정확도 향상에 기여한 바 있습니다.
- 그라디언트 업데이트 없음. 전 과정이 프롬프트와 시각적 피드백만으로 이루어지므로, 기존 비전‑언어 모델을 사용하는 파이프라인에 바로 삽입할 수 있습니다.
Results & Findings
| 데이터셋 | 베이스라인 (단일‑샷) | Chain‑of‑Ground (CoG) | 정확도 Δ |
|---|---|---|---|
| ScreenSpot‑Pro | 63.6 % | 68.4 % | +4.8 pt |
| TPanel‑UI (산업용 패널) | 71.2 % (Qwen‑3‑VL‑235B) | 78.1 % | +6.9 pt |
- 반복 정제가 단일‑샷 예측보다 일관되게 우수하며, 특히 작은 UI 요소(아이콘, 토글)와 시각적으로 잡음이 많은 화면에서 큰 차이를 보입니다.
- 해석 가능성 향상: 중간 추론 단계가 유사 아이콘을 혼동한 지점을 드러내어 프롬프트를 세밀하게 조정할 수 있게 합니다.
- 범용성: 동일한 CoG 루프가 디지털 목업(ScreenSpot)과 사진으로 촬영된 제어판(TPanel‑UI) 모두에서 작동해 조명, 흐림, 부분 가림 등에 강인함을 보여줍니다.
Practical Implications
- 플러그‑인형 AI 어시스턴트. 개발자는 몇 줄의 코드만 추가해 기존 음성·챗봇 기반 어시스턴트에 신뢰성 높은 UI 상호작용 기능을 부여할 수 있습니다(예: “대시보드의 ‘시작’ 버튼을 클릭해”).
- 자동 UI 테스트. 테스트 프레임워크가 CoG를 활용해 테스트 스크립트에 기술된 요소를 자동으로 찾음으로써, 깨지기 쉬운 셀렉터 유지보수를 크게 감소시킵니다.
- 접근성 도구. 스크린 리더나 음성 제어 레이어가 말로 명령한 UI 컴포넌트를 보다 정확히 매핑해, 운동 장애가 있는 사용자의 경험을 향상시킵니다.
- 저코드 플랫폼의 빠른 프로토타이핑. 비전문가가 자연어로 UI 동작을 서술하면, 시스템이 개발자 없이도 대상 요소를 정확히 찾아줍니다.
- 비용 효율적 확장. 추가 모델 학습이 필요 없으므로, 기업은 이미 라이선스 보유 중인 비전‑언어 모델에 CoG만 적용해 고비용 파인튜닝 파이프라인을 피할 수 있습니다.
Limitations & Future Work
- 반복 예산. 현재 루프는 최대 3단계로 제한돼 있어, 더 복잡한 화면에서는 더 깊은 추론이 필요할 수 있으며 이는 지연 시간을 늘릴 수 있습니다.
- 프롬프트 민감도. 성능이 프롬프트 표현에 따라 달라지므로, 체계적인 프롬프트 탐색이나 자동 최적화 기법이 필요합니다.
- 하드웨어 제약. 대형 멀티모달 LLM은 여전히 높은 GPU 메모리를 요구해, 엣지 디바이스에 배포하는 데 어려움이 있습니다.
- 다양한 UI 형태. 본 연구는 정적 스크린샷에 초점을 맞췄으며, 동적·애니메이션·3D 인터페이스(예: AR/VR)로 확장하는 것이 향후 과제입니다.
전반적으로 “Chain‑of‑Ground”는 구조화된 반복 프롬프트가 기존 멀티모달 모델에 숨겨진 그라운딩 능력을 끌어낼 수 있음을 보여주며, 개발자들이 보다 똑똑하고 신뢰성 있는 UI‑인식 AI 시스템을 구축할 실용적인 경로를 제시합니다.
Authors
- Aiden Yiliu Li
- Bizhi Yu
- Daoan Lei
- Tianhe Ren
- Shilong Liu
Paper Information
- arXiv ID: 2512.01979v1
- Categories: cs.AI, cs.CL, cs.CV
- Published: December 1, 2025
- PDF: Download PDF