[Paper] VisualActBench: VLMs가 인간처럼 보고 행동할 수 있을까?
Source: arXiv - 2512.09907v1
개요
이 논문은 VisualActBench라는 새로운 벤치마크를 소개합니다. 이 벤치마크는 비전‑언어 모델(VLMs)이 단순히 보는 것을 설명하는 것이 아니라 시각적 장면에서 무엇을 해야 할지 결정하도록 요구합니다. 1,074개의 실제 영상에 3,733개의 인간 주석 행동을 매칭함으로써, 저자들은 “시각적 행동 추론”을 위한 테스트베드를 만들었습니다—텍스트 프롬프트 없이도 AI가 사전‑우선순위가 반영된 합리적인 행동을 능동적으로 생성하는 능력입니다.
주요 기여
- 새로운 과제 정의 – 순수 시각 입력만으로 능동적인 의사결정을 평가하는 “시각적 행동 추론”.
- 대규모 벤치마크 – 주방, 사무실, 야외, 가정 지원 등 네 가지 일상 시나리오를 포괄하는 1,074개의 영상으로 구성된 VisualActBench.
- 풍부한 주석 스키마 – 각 행동에 Action Prioritization Level (APL) 과 능동 vs. 수동 태그를 부여하여 인간 정렬 추론을 세밀하게 평가할 수 있음.
- 포괄적 평가 – 29개의 최신 VLMs(GPT‑4o, LLaVA, Gemini‑Vision 등 포함)를 벤치마크하여 능동적이고 고우선순위 행동 생성에서 체계적인 격차를 밝혀냄.
- 오픈 리소스 – 데이터셋, 평가 스크립트, 리더보드를 공개하여 비전 중심 에이전트 연구를 촉진.
방법론
- 시나리오 선정 – 요리, 사무 작업, 가정 유지보수, 야외 네비게이션 등 네 가지 현실적인 도메인을 선택하여 다양한 맥락 단서를 포착.
- 영상 수집 및 전처리 – 공개 데이터셋에서 5–15 초 길이의 짧은 클립을 가져와 단일 의사결정 지점에 집중하도록 수동으로 트리밍.
- 인간 주석 – 크라우드워커가 각 클립을 시청하고 가장 적절한 다음 행동을 작성. 이후 다음을 할당:
- APL (1 = 낮은 긴급도, 5 = 중요) 및
- Type (Proactive – 선제적, Reactive – 사건에 대한 반응).
- 모델 프롬프트 – VLMs는 원시 비디오 프레임(또는 짧은 프레임 시퀀스)만을 입력받고 행동 문장을 출력하도록 요청받음. 텍스트 프롬프트나 과제 설명은 제공되지 않아 “보고‑행동” 시나리오를 모방.
- 점수 매기기 – 생성된 행동을 인간 레퍼런스와 하이브리드 메트릭으로 비교:
- Semantic similarity (BERTScore)로 언어 정확도 평가, 그리고
- APL 정렬(우선순위 불일치에 패널티)와 type 매치(능동 vs. 수동) 평가.
최종 점수는 이 구성 요소들을 종합해 정확성뿐 아니라 인간과 유사한 의사결정 품질을 반영.
결과 및 발견
| Model | Overall Score (0‑100) | Proactive‑High‑APL Accuracy |
|---|---|---|
| GPT‑4o (vision) | 71.4 | 58 % |
| Gemini‑Vision | 64.2 | 45 % |
| LLaVA‑13B | 48.7 | 22 % |
| Other open‑source VLMs (average) | 39.1 | 15 % |
| Human baseline | 94.3 | 92 % |
- 최전선 모델(GPT‑4o, Gemini‑Vision)은 구형 오픈소스 VLM보다 성능이 높지만, 특히 고우선순위 능동 행동에서는 인간보다 크게 뒤처짐.
- 대부분의 모델이 reactive 설명(예: “그 사람이 컵을 집는다”)에 머무르고, anticipatory 행동(예: “다음 음료를 위해 깨끗한 머그를 준비한다”)을 제시하지 못함.
- 오류는 주로 맥락적 사각지대(시간적 단서 누락)와 가치 민감도 부족(APL에 표시된 긴급도 무시)에서 발생.
실용적 함의
- 로봇 및 보조 기기 – 다음에 무엇을 해야 할지 결정할 수 있는 VLM을 배치하려면(예: 주방 로봇이 사용자의 도구 필요를 예측) VisualActBench가 강조한 능동‑추론 격차를 해소해야 함.
- 기업 자동화 – 작업 공간 모니터링(예: 안전 규정 준수)용 비전 중심 에이전트는 알림을 우선순위화하기 위해 APL‑인식 추론을 활용할 수 있음.
- 인간‑AI 협업 도구 – 실시간 비디오 피드 기반으로 다음 단계를 제안하는 UI 어시스턴트(예: 원격 지원)는 “무엇이 일어나고 있는가”뿐 아니라 “다음에 무엇을 해야 하는가”를 이해하는 모델이 필요함.
- 벤치마크 기반 개발 – VisualActBench는 우선순위와 능동성 신호를 포함한 인간 피드백 강화 학습(RLHF)으로 VLM을 미세조정하기 위한 구체적인 목표를 제공함.
제한점 및 향후 연구
- 데이터셋 범위 – 네 가지 시나리오는 다양하지만, 의료 절차와 같은 희귀하거나 안전‑중요 도메인은 포함되지 않음.
- 주석 주관성 – APL 및 능동/수동 라벨은 주석자마다 차이가 있을 수 있으며, 저자들은 약 0.78의 상호주석자 일치를 보고, 노이즈 가능성을 남김.
- 모델 입력 제약 – 현재 평가는 짧은 프레임 시퀀스만 사용; 보다 풍부한 추론을 위해 다초·긴 영상 스트림이 필요할 수 있음.
- 미래 방향 – 저자들은 멀티모달 피드백(음성, 촉각) 확대, 명시적 가치 학습 목표 통합, 고우선순위 행동을 점진적으로 도입하는 커리큘럼식 훈련 탐색을 제안함.
VisualActBench는 비전 중심 AI의 다음 경계를 비추며, 수동적 설명에서 능동적이고 인간 정렬된 의사결정으로의 전환을 촉구합니다. 차세대 지능형 에이전트를 구축하는 개발자에게 이 벤치마크는 진단 도구이자 아직 구축되지 않은 기능에 대한 로드맵을 제공합니다.
저자
- Daohan Zhang
- Pai Liu
- Xiaofei Zhou
- Yuan Ge
- Guangchen Lan
- Jing Bi
- Christopher Brinton
- Ehsan Hoque
- Jiebo Luo
논문 정보
- arXiv ID: 2512.09907v1
- Categories: cs.CV
- Published: December 10, 2025
- PDF: Download PDF