[Paper] PAR3D: 장면 이해를 위한 파트 인식 표현을 갖춘 통합 3D-MLLM
Source: arXiv - 2606.06485v1
개요
최근 3D 멀티모달 대형 언어 모델(3D‑MLLM)의 발전으로 시각 질문 응답, 캡션 생성, 참조 분할 등 3D 장면 이해 작업을 위한 통합 솔루션이 가능해졌습니다. 그러나 기존 3D‑MLLM은 대부분 객체 중심이며, 3D 환경과의 구현 상호작용에 필수적인 세밀한 부품 구조를 모델링하는 데 한계가 있습니다. 본 연구에서는 PAR3D라는 통합 파트 인식 3D‑MLLM 프레임워크를 제시하여 모델이 3D 장면에서 객체와 그 부품을 모두 이해하고, 추론하며, 위치를 지정할 수 있게 합니다.
파트 인식 3D 장면 이해를 위한 학습 및 평가를 가능하게 하기 위해, 우리는 파트 수준 주석과 언어 지시가 포함된 합성 3D 장면 데이터셋 ScenePart를 소개합니다. 또한 파트 인식 3D 표현 학습을 개발하여 3D 시각 표현에 세밀한 파트 수준 의미를 풍부하게 하고, 계층적 분할 질의 생성을 제안하여 계층적 객체‑부품 질의를 통해 부품 목표를 정밀하게 지정합니다. 광범위한 실험 결과, 우리의 방법이 파트 수준 질문 응답 및 참조 분할에서 크게 향상된 성능을 보이며, 객체 수준 비전‑언어 작업에서도 강력한 성능을 달성함을 확인했습니다.
주요 기여
- 파트 인식 3D‑MLLM 프레임워크(PAR3D)를 소개합니다.
- 파트 수준 주석과 언어 지시가 포함된 ScenePart 데이터셋을 제공합니다.
- 파트 인식 표현 학습 및 계층적 분할 질의 생성 방식을 개발합니다.
- 파트 수준 QA와 참조 분할에서 상당한 개선을 보여주며, 객체 수준에서도 강력한 성능을 입증합니다.
- cs.CV 분야에 해당합니다.
방법론
자세한 방법론은 전체 논문을 참고하십시오.
실용적 함의
이 연구는 3D 환경과의 보다 세밀한 상호작용을 가능하게 함으로써 컴퓨터 비전(cs.CV) 분야의 발전에 기여합니다.
저자
- Shaohui Dai
- Yansong Qu
- You Shen
- Shengchuan Zhang
- Liujuan Cao
논문 정보
- arXiv ID: 2606.06485v1
- Categories: cs.CV
- Published: 2026년 6월 4일
- PDF: Download PDF