[논문] HDSL: 구조화된 3D 실내 장면 생성 및 LLM 에이전트를 활용한 국부 편집을 위한 계층형 도메인 전용 언어

발행: (2026년 6월 9일 AM 02:02 GMT+9)
4 분 소요
원문: arXiv

출처: arXiv - 2606.09738v1

개요

텍스트 기반 실내 장면 생성 및 편집에는 언어 모델이 생성하고 수정할 수 있는 중간 표현이 필요합니다. 기존 LLM 기반 시스템은 종종 장면 그래프나 전역 제약 목록에 의존하는데, 이는 압축적이지만 지역 기하학을 충분히 명시하지 못하고 명령 기반 편집을 지역화하기 어렵게 합니다. 우리는 이 문제를 구조화된 프로그램 생성 및 지역 프로그램 수리로 정의하고, 계층적 서술 장면 언어(HDSL)를 제안합니다. HDSL은 XML/CSS 스타일의 도메인 특화 언어로, 구조화된 3D 실내 장면을 표현합니다. HDSL은 방, 구역, 객체, 지지면을 로컬 좌표를 가진 트리 구조로 나타내어 복잡한 장면을 재귀적으로 계획하기 쉽고, 편집을 위한 검색도 용이하게 합니다. 우리의 파이프라인은 LLM 에이전트를 사용해 검증이 제한된 HDSL 서브트리를 생성하고, 다중모달 자산 검색을 통해 비가상 노드를 구체화하며, 힘-지향 레이아웃 최적화를 적용해 경계 및 충돌 오류를 수정합니다. 편집을 위해서는 계층적 검색-증강 생성(HRAG)이 관련 서브트리를 검색하고, LLM에게 해당 로컬 컨텍스트만 다시 쓰도록 요청한 뒤, 결정적인 삼방향 병합을 통해 결과를 다시 통합합니다. 재현된 벤치마크에서 HDSL은 전체 텍스트‑투‑장면 기반 대비 평균 객체 커버리지, 텍스트‑장면 정렬, 생성 시간을 개선하면서 기하학 지표에서는 최신 레이아웃‑전용 재현과 경쟁력을 유지합니다; 편집 측면에서는 HRAG가 토큰 사용량을 $5.22\times$, 실행 시간을 $6.19\times$ 감소시키고, 8개의 쌍편집 모두에 대해 유효한 DSL을 생성하며, 관련 없는 장면 객체를 더 잘 보존합니다.

주요 기여

이 논문은 다음 분야의 연구를 제시합니다.

  • cs.CV

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

이 연구는 cs.CV 분야의 발전에 기여합니다.

저자

  • Letian Li
  • Chao Shen
  • Shuzhao Xie
  • Chenghao Gu
  • ZhengXiao He
  • Yu Meng
  • Xin Yang
  • Wenyuan Jiang
  • Zhi Wang

논문 정보

  • arXiv ID: 2606.09738v1
  • 분류: cs.CV
  • 발표일: 2026년 6월 8일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »