[Paper] Layout Anything: 범용 방 레이아웃 추정을 위한 하나의 트랜스포머

발행: (2025년 12월 3일 오전 02:28 GMT+9)
8 min read
원문: arXiv

Source: arXiv - 2512.02952v1

Overview

Layout Anything은 단일 트랜스포머 모델을 도입하여 단일 RGB 이미지만으로 실내 장면의 3‑D 방 레이아웃을 직접 예측합니다. 다재다능한 OneFormer 세그멘테이션 아키텍처를 적용함으로써, 저자들은 전통적으로 이 작업을 방해해 온 번거로운 후처리 단계를 없애고 고품질 레이아웃 추정을 달성했으며, 이 접근법은 빠른 속도(≈114 ms per image)와 실시간 AR/VR 파이프라인에 바로 적용 가능함을 보여줍니다.

Key Contributions

  • Unified Transformer Architecture – OneFormer의 작업‑조건부 쿼리 메커니즘을 기하학적 레이아웃 예측에 재활용하여 별도의 세그멘테이션 및 기하학 모듈이 필요 없게 만들었습니다.
  • Layout Degeneration Augmentation – 맨해튼 월드 제약을 유지하면서 방 레이아웃을 인위적으로 “퇴화”시키는 토폴로지‑인식 데이터 증강 기법으로, 학습 다양성을 크게 확장했습니다.
  • Differentiable Geometric Losses – 완전히 미분 가능한 평면‑일관성 및 선명한 경계 손실을 도입해, 네트워크가 휴리스틱 후처리 대신 직접 기하학을 학습하도록 했습니다.
  • Real‑Time Inference – 최적화된 엔드‑투‑엔드 파이프라인이 단일 GPU에서 이미지당 ~114 ms에 실행되어 기존 최첨단 방법보다 눈에 띄게 빠릅니다.
  • State‑of‑the‑Art Benchmarks – LSUN, Hedau, Matterport3D‑Layout 데이터셋에서 새로운 최고 성능을 기록했습니다(예: LSUN에서 5.43 % 픽셀 오류).

Methodology

  1. Backbone & Query Design – 모델은 OneFormer의 트랜스포머 인코더‑디코더를 기반으로 합니다. 각기 다른 기하학적 기본 요소(벽, 바닥, 천장)를 예측하도록 특화된 작업‑조건부 쿼리 집합을 삽입합니다.
  2. Layout Degeneration – 학습 중에 정답 레이아웃을 (예: 벽 제거, 코너 변형) 맨해튼 월드 직교성을 유지하는 방식으로 변형합니다. 이를 통해 기본 기하학을 깨뜨리지 않으면서 더 많은 “어려운” 예제를 생성합니다.
  3. Geometric Losses
    • Planar Consistency Loss: 동일한 평면(벽/바닥/천장)에 속하는 점들이 유사한 법선 벡터를 갖도록 장려합니다.
    • Sharp Boundary Loss: 인접 평면 사이의 흐릿한 전이를 벌점으로 부과해, 네트워크가 선명한 경계 예측을 하도록 유도합니다.
  4. End‑to‑End Training – 모든 구성 요소가 미분 가능하므로, 별도의 라인 검출이나 클러스터링 단계 없이 이미지에서 직접 전체 레이아웃 맵을 출력하도록 모델을 학습시킵니다.

Results & Findings

데이터셋픽셀 오류 (PE)코너 오류 (CE)
LSUN5.43 %4.02 %
Hedau7.04 %5.17 %
Matterport3D‑Layout4.03 %3.15 %
  • 모델은 기존 방법에 비해 절대 오류를 0.5–2 % 정도 지속적으로 낮춥니다.
  • 정성적 시각화에서는 더 깔끔하고 직교적인 벽 경계와 적은 잡음이 확인됩니다.
  • 추론 속도(≈114 ms)는 이전 최고의 실시간 접근법보다 약 2–3배 빠르며, 온‑디바이스 AR 시나리오에 적합합니다.

Practical Implications

  • 증강 현실 및 실내 내비게이션 – 개발자는 모델을 모바일 AR 앱에 통합해 물체 배치, 오클루전 처리, 경로 계획을 위한 방 기하 정보를 즉시 생성할 수 있습니다.
  • 3‑D 재구성 파이프라인 – 빠르고 정확한 레이아웃 맵은 다중 뷰 또는 LiDAR‑보강 재구성을 위한 강력한 사전 정보로 작용해, 조밀한 포인트 클라우드 처리 필요성을 감소시킵니다.
  • 로봇공학 및 장면 이해 – 서비스 로봇은 레이아웃 예측을 활용해 비싼 SLAM 백엔드 없이도 이동 가능한 공간과 장애물 위치를 추론할 수 있습니다.
  • 콘텐츠 제작 – 인테리어 디자인 툴은 사진 한 장만으로 자동으로 평면도를 생성해 건축가와 부동산 플랫폼의 워크플로를 가속화합니다.

단일 트랜스포머 모델이므로 ONNX 또는 TensorRT로 내보내어 엣지 GPU에서 실행할 수 있어, 저지연 온‑디바이스 배포가 가능합니다.

Limitations & Future Work

  • 맨해튼 월드 가정 – 현재 설계는 직교 벽을 전제로 하므로, 매우 불규칙하거나 곡선형 실내에서는 성능이 저하될 수 있습니다.
  • 단일 이미지 입력 – 효율적이지만 하나의 RGB 프레임만 사용하면 깊이 인식이 제한됩니다; 깊이 센서나 다중 뷰 정보를 결합하면 복잡한 장면에서 정확도가 향상될 수 있습니다.
  • 실외/하이브리드 공간 일반화 – 모델은 실내 데이터셋에만 학습되었으므로, 실내‑실외 혼합 환경으로 확장하려면 추가 데이터와 아키텍처 조정이 필요합니다.

향후 연구 방향으로는 학습된 사전 정보를 통해 맨해튼 제약을 완화하고, 깊이 센서를 통합해 풍부한 기하 정보를 제공하며, 초저전력 디바이스용 경량 트랜스포머 변형을 탐색하는 것이 포함됩니다.

Authors

  • Md Sohag Mia
  • Muhammad Abdullah Adnan

Paper Information

  • arXiv ID: 2512.02952v1
  • Categories: cs.CV
  • Published: December 2, 2025
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »

[Paper] 보편적 가중치 부분공간 가설

우리는 다양한 작업에 대해 학습된 딥 뉴럴 네트워크가 놀라울 정도로 유사한 저차원 파라메트릭 서브스페이스를 나타낸다는 것을 보여준다. 우리는 최초의 대규모…