[논문] Skill-3D: 에이전트형 3D 공간 추론을 위한 장면 인식 스킬 진화

발행: (2026년 6월 6일 AM 01:33 GMT+9)
4 분 소요
원문: arXiv

Source: arXiv - 2606.07436v1

개요

본 논문은 에이전트 기반 3D 공간 이해, 즉 MLLM 에이전트가 도구 사용을 통해 3D 추론을 수행하는 방식을 탐구한다. 기존 방법들은 도구를 잘못 사용하거나 3D 상황에서 편향된 도구 선호도를 보이며, 에이전트 기반 패러다임이 비에이전트 전략에 비해 미미한 향상만을 보여준다. 우리는 3D 공간 추론 과제가 장면마다 이질적임을 밝혀냈으며, 이러한 에이전트들이 특정 장면과 과제에 맞는 도구를 선택하기보다는 모든 장면에 동일한 도구 사용 전략을 적용한다는 점을 지적한다. 이를 해결하기 위해 우리는 Skill-3D라는 프레임워크를 제안한다. Skill-3D는 스스로 진화하는 장면 인식 스킬을 학습한다. 구체적으로 Skill-3D는 작업 장면을 식별하고 에이전트의 도구 사용 궤적을 Scene Memory에 기록한다. 여기서 유사한 장면에서 성공한 궤적들을 모아 재사용 가능한 장면 인식 스킬로 정제하고, 실패한 궤적은 스킬에 교훈으로 첨부한다. 학습 중에 유사한 장면이 다시 등장하면 해당 스킬을 주입해 에이전트를 안내하고, 새로운 궤적을 생성한다. 이 궤적의 성공·실패는 스킬을 추가로 정제하며, 메모리와 스킬 라이브러리가 공동으로 진화하는 루프를 형성한다. 실험 결과 Skill-3D는 3D 공간 추론에서 도구 활용도를 크게 향상시켰으며(VSI‑Bench에서 39% → 78%), 에이전트를 올바르고 충분한 도구 사용으로 이끌었다. 예를 들어 MMSI‑Bench에서 Gemini‑3‑Flash를 67% 개선하였다. 또한 스킬 기반 궤적에 대한 에이전트 사후 학습을 수행해 Qwen3‑VL‑8B를 VSI‑Bench에서 43% 향상시켰다.

주요 기여

  • cs.CV

방법론

자세한 방법론은 전체 논문을 참고하시기 바랍니다.

실용적 함의

본 연구는 cs.CV 분야의 발전에 기여한다.

저자

  • Haoyuan Li
  • Zhengdong Hu
  • Jun Wang
  • Hehe Fan
  • Yi Yang

논문 정보

  • arXiv ID: 2606.07436v1
  • 분류: cs.CV
  • 발표일: 2026년 6월 5일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »