[Paper] LEXIS: 이미지에서 3D HOI를 위한 잠재 근접 상호작용 서명

발행: (2026년 4월 23일 AM 02:27 GMT+9)
10 분 소요
원문: arXiv

Source: arXiv - 2604.20800v1

개요

단일 RGB 이미지로부터 3‑D 인간‑물체 상호작용(HOI)을 재구성하는 것은 로봇, AR/VR 및 사람의 물체 조작 방식을 “이해”해야 하는 모든 시스템에 핵심적인 기능입니다. 새로운 LEXIS 프레임워크는 오랫동안 존재해 온 격차를 해소합니다: 기존 대부분의 방법은 이진 접촉(접촉 / 비접촉)만을 예측하고, 실제 현실적인 상호작용을 좌우하는 풍부하고 연속적인 근접성을 무시했습니다. 이산적인 “상호작용 서명” 공간을 학습하고 이를 확산 기반 메쉬 생성기와 결합함으로써, LEXIS는 단일 사진만으로도 조밀한 근접 필드와 물리적으로 타당한 인간 및 물체 메쉬를 직접 생성합니다.

주요 기여

  • InterFields 표현 – 인간 몸의 모든 점과 물체 표면 사이의 정확한 거리를 인코딩하는 조밀하고 연속적인 필드로, 미세한 근접 접촉 신호를 포착합니다.
  • LEXIS 매니폴드 – Vector‑Quantized VAE (VQ‑VAE)를 사용한 학습된 이산 잠재 공간으로, 행동 및 물체 기하학에 조건화된 전형적인 HOI 패턴을 압축적으로 인코딩합니다.
  • LEXIS‑Flow 확산 모델 – 이미지와 샘플링된 LEXIS 코드를 입력으로 받아 인간 및 물체 메쉬와 그들의 InterFields를 공동으로 예측하는 조건부 확산 파이프라인으로, 별도의 사후 최적화가 필요 없습니다.
  • InterFields를 통한 가이드 정제 – 예측된 근접 필드는 물리적 정규화 역할을 하여 생성 과정에서 메쉬 정점을 자연스러운 접촉 영역으로 자동으로 끌어당깁니다.
  • 최첨단 결과 – Open3DHOI 및 BEHAVE 벤치마크에서 LEXIS‑Flow는 메쉬 정확도, 접촉 정밀도, 인지된 사실감 측면에서 기존 방법들을 능가하며, 보지 못한 행동/물체에 대한 일반화 능력도 향상되었습니다.

Source:

Methodology

  1. 데이터 준비 – 주석이 달린 3‑D HOI 데이터셋에서 저자들은 모든 인간 정점과 모든 객체 정점 사이의 조밀한 거리 맵(InterFields)을 계산하여 희소한 접촉 라벨을 연속적인 필드로 변환합니다.
  2. 상호작용 서명 학습 – VQ‑VAE가 각 InterField를 짧은 이산 코드(LEXIS 토큰)로 압축합니다. 코드북은 “전형적인” 상호작용 패턴의 매니폴드를 학습하며, 이는 포즈와 객체 형태의 어휘와 유사합니다.
  3. Diffusion‑기반 생성
    • 입력: 단일 RGB 이미지.
    • 이미지 인코더가 시각적 특징(포즈, 객체 형태, 컨텍스트)을 추출합니다.
    • Diffusion 모델이 무작위 잠재 변수를 점진적으로 디노이즈하면서 이미지 특징과 샘플링된 LEXIS 토큰 모두에 조건화합니다.
    • 디코더는 동시에 세 가지 출력을 생성합니다: (i) 인간 메시, (ii) 객체 메시, (iii) InterField.
  4. 근접성 인식 정제 – 예측된 InterField는 거리 차이가 작아야 하는 영역에서 메시 정점들을 서로 끌어당기는 그래디언트 필드로 사용되어, 별도의 최적화 단계 없이 물리적으로 타당한 접촉을 보장합니다.

전체 파이프라인은 엔드‑투‑엔드로 동작하며, 추론 시에는 단일 RGB 이미지만 필요합니다.

Results & Findings

Metric (higher = better)Prior SOTALEXIS‑Flow
Mesh Chamfer Distance (human)0.012 m0.008 m
Mesh Chamfer Distance (object)0.015 m0.010 m
Contact Precision71 %84 %
Proximity F1‑score0.620.78
Human perception rating (MTurk)3.4 / 54.1 / 5
  • 정확도: 인간 메시와 객체 메시 모두 실제 지오메트리와 눈에 띄게 가깝습니다.
  • 접촉 품질: 조밀한 InterFields가 실제 접촉 영역을 크게 개선하여 false positive/negative 를 감소시킵니다.
  • 일반화: 훈련에 포함되지 않은 새로운 객체 카테고리(예: 주방용품)에서도 LEXIS‑Flow는 성능의 80 % 이상을 유지합니다. 이는 추상적인 상호작용 시그니처 덕분입니다.
  • 속도: 확산 과정이 약 30 스텝에서 수렴하여 RTX 3090 하나에서 추론 시간이 약 0.6 초에 이르며, 기존 메쉬 예측 네트워크와 비슷한 수준입니다.

실용적 함의

  • Robotics & manipulation – 로봇은 인간이 물체를 잡고 있는 위치뿐 아니라 손이 물체 표면에 얼마나 가까운지도 추론할 수 있어, 보다 안전한 넘겨주기나 협업 작업이 가능해진다.
  • AR/VR avatars – 웹캠 피드에서 실시간으로 전체 몸과 물체 메쉬를 생성하면, 가상 소품을 올바르게 잡는 보다 몰입감 있는 아바타를 만들 수 있다.
  • Content creation – 게임 스튜디오나 VFX 파이프라인은 컨셉 아트나 레퍼런스 사진으로부터 상호작용을 인식하는 3‑D 씬을 자동 생성해 수작업 리깅 시간을 절감한다.
  • Safety monitoring – 산업 현장에서 접촉 없이 근접한 상황(near‑miss)을 감지할 수 있어, 사전 위험 알림을 지원한다.
  • Data efficiency – LEXIS가 압축된 시그니처 공간을 학습하기 때문에, 소량의 새로운 물체나 동작 데이터만으로도 모델을 미세조정할 수 있어 라벨링 비용을 줄인다.

제한 사항 및 향후 연구

  • 단일 뷰 모호성 – 손이 완전히 가려지는 등 매우 가려진 상호작용은 여전히 불확실한 InterFields를 생성합니다; 다중 뷰 또는 깊이 단서를 활용하면 견고성을 향상시킬 수 있습니다.
  • 이산 시그니처 병목 – VQ‑VAE 이산화가 일반화에 도움이 되지만, 코드북에 포함되지 않은 매우 미묘하거나 새로운 상호작용에 대한 표현력을 제한할 수 있습니다.
  • 다중 객체에 대한 확장성 – 현재 실험은 장면당 하나의 객체에 초점을 맞추고 있으며, 여러 상호작용 객체가 있는 복잡한 환경으로 확장하는 것은 아직 해결되지 않은 과제입니다.
  • 실시간 배포 – 고성능 GPU에서 추론이 1초 미만이지만, 모바일이나 엣지 디바이스를 위해서는 추가 최적화(예: 증류된 diffusion 또는 경량 인코더)가 필요합니다.

저자들은 다중 객체 확장을 탐구하고, 비디오 스트림에 대한 시간적 일관성을 통합하며, 온‑디바이스 애플리케이션을 위한 경량 버전의 LEXIS‑Flow를 공개할 계획입니다.

저자

  • Dimitrije Antić
  • Alvaro Budria
  • George Paschalidis
  • Sai Kumar Dwivedi
  • Dimitrios Tzionas

논문 정보

  • arXiv ID: 2604.20800v1
  • 카테고리: cs.CV, cs.LG
  • 출판일: 2026년 4월 22일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »