[Paper] Raster2Seq: 평면도 재구성을 위한 다각형 시퀀스 생성

발행: (2026년 2월 10일 오전 03:58 GMT+9)
9 분 소요
원문: arXiv

Source: arXiv - 2602.09016v1

번역할 텍스트가 제공되지 않았습니다. 번역을 원하는 본문을 알려주시면 도와드리겠습니다.

개요

Raster2Seq는 건물 레이아웃 작업을 하는 사람이라면 누구나 겪는 놀라울 정도로 흔한 문제에 도전합니다: 평면도의 래스터 이미지를 깔끔하고 편집 가능한 벡터 표현으로 변환하는 것. 각 방, 문, 창문을 라벨이 붙은 폴리곤 시퀀스로 취급함으로써, 저자들은 재구성 작업을 현대적인 자동회귀 모델로 해결할 수 있는 시퀀스‑투‑시퀀스 문제로 전환합니다. 그 결과, 가장 복잡하고 다중 방 플랜에서도 기하학적 형태와 의미를 안정적으로 추출하는 시스템이 탄생했으며, 이는 하위 CAD 자동화, 실내 내비게이션 AI, 부동산 분석 등으로 이어지는 문을 열어줍니다(말장난이지만).

주요 기여

  • 시퀀스 기반 표현: 모든 평면도 요소를 (x, y) 정점들의 순서가 있는 리스트와 의미 라벨로 인코딩하여 기하학과 의미를 하나의 스트림으로 통합합니다.
  • 학습 가능한 공간 앵커: 훈련 가능한 좌표 “앵커” 집합을 도입하여, 다음 정점을 예측할 때 디코더의 어텐션을 가장 정보가 풍부한 이미지 영역으로 유도합니다.
  • 자동회귀 디코더: 이미지 특징 이전에 생성된 정점에 조건화하여 각 코너를 예측함으로써, 정점 수가 임의인 다각형을 유연하게 처리할 수 있습니다.
  • 최첨단 성능: Structure3D, CubiCasa5K, 그리고 Raster2Graph에서 새로운 벤치마크를 설정하고, 도전적인 WAFFLE 데이터셋에 대한 강력한 일반화 능력을 보여줍니다.
  • 복잡한 레이아웃에 확장 가능: 수십 개의 방과 매우 불규칙한 형태를 가진 평면도에도 방법이 우아하게 확장됨을 입증했으며, 수작업 후처리 없이도 적용할 수 있습니다.

방법론

  1. Feature Extraction – CNN 백본이 입력 라스터 평면도를 처리하고 조밀한 특징 맵을 생성합니다.
  2. Anchor Initialization – 학습 가능한 앵커 포인트 소량(예: 64개)을 이미지 좌표에 배치합니다. 학습 중에 이들은 코너를 찾는 데 가장 유용한 위치로 이동합니다.
  3. Autoregressive Decoding – 디코더는 트랜스포머 스타일 시퀀스 모델입니다. 각 단계에서 다음을 입력받습니다:
    • 현재 은닉 상태,
    • 앵커 위치에서 샘플링된 특징 맵, 그리고
    • 이전에 출력된 정점들.
      그런 다음 다음 (x, y) 좌표와 해당 의미 레이블(방, 문, 창문 등)을 예측합니다.
  4. Polygon Termination – 특수 “END” 토큰이 폴리곤의 완료를 알리고, 별도의 “NEXT‑OBJECT” 토큰이 새로운 요소를 시작합니다.
  5. Training Objective – 결합 손실이 좌표 회귀 오류(L1)와 분류 오류(교차 엔트로피)를 벌점으로 적용하여 모델이 정확한 기하학과 올바른 의미를 동시에 학습하도록 유도합니다.

디코더가 단계별로 작동하기 때문에 폴리곤 크기에 관계없이 자연스럽게 적용됩니다—고정 길이 출력이나 복잡한 그래프 매칭 후처리가 필요하지 않습니다.

Results & Findings

데이터셋지표 (IoU / F‑score)이전 연구 대비 개선
Structure3D0.92 IoU+4.3 %
CubiCasa5K0.88 F‑score+5.1 %
Raster2Graph0.90 IoU+3.8 %
WAFFLE (out‑of‑domain)0.84 IoU+6.7 %
  • 코너 정확도 향상: 앵커‑가이드 어텐션 덕분에 평균 정점 오류가 이전 방법의 약 3 px에서 <1 px로 감소했습니다.
  • 강인한 의미론: 문/창문에 대한 오분류 비율이 2 % 이하로 떨어져, 신뢰할 수 있는 다운스트림 CAD 파이프라인을 가능하게 합니다.
  • 속도: 1024×1024 평면도에 대해 단일 RTX 3080에서 약 15 fps로 추론이 수행되어 실시간 응용에 실용적입니다.

Practical Implications

  • Automated CAD import – 개발자는 스캔한 청사진을 Raster2Seq에 입력하여 수동 트레이싱 없이 깨끗한 DXF/DWG 파일을 얻을 수 있어 엔지니어링 시간을 크게 단축합니다.
  • Indoor‑navigation AI – 로봇 플랫폼은 평면도 이미지를 즉시 그래프 준비가 된 지도 형태로 변환하여 경로 계획 및 SLAM에 활용할 수 있습니다.
  • Real‑estate tech – 부동산 포털은 인터랙티브한 평면도 뷰어를 자동으로 생성하여 사용자가 방을 클릭해 상세 정보나 가상 투어를 볼 수 있게 합니다.
  • Facility management – 유지보수 소프트웨어는 기존 종이 도면을 받아들여 센서 데이터를 벡터 형태의 방, 문, 창문 위에 직접 오버레이할 수 있습니다.
  • Extensible pipeline – 출력이 단순한 시퀀스이기 때문에 개발자는 최소한의 연결 코드만으로 모델을 기존 GIS 또는 BIM 도구에 연결할 수 있습니다.

Limitations & Future Work

  • Anchor count sensitivity – 앵커가 너무 적으면 초고해상도 평면도에서 성능이 저하됩니다; 논문에서는 메모리와 정확도 사이의 트레이드‑오프를 언급하고 있습니다.
  • Complex line styles – 강하게 스타일링되었거나 대비가 낮은 도면은 여전히 가끔 정점이 잘못 배치되는 문제가 발생합니다.
  • 3‑D extension – 현재 공식은 2‑D에만 적용되며, 다층 건물 모델로 확장하는 것은 아직 해결되지 않은 과제입니다.
  • Training data bias – 벤치마크가 주거형 레이아웃에 편중되어 있어, 저자들은 일반화 능력 향상을 위해 상업용 및 산업용 평면도를 더 많이 수집할 것을 제안합니다.

Overall, Raster2Seq demonstrates that a well‑designed sequence model can bridge the gap between raster images and structured vector graphics, offering a practical toolset for developers across CAD, robotics, and real‑estate tech.

저자

  • Hao Phung
  • Hadar Averbuch-Elor

논문 정보

  • arXiv ID: 2602.09016v1
  • 카테고리: cs.CV
  • 출판일: 2026년 2월 9일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »