[Paper] UniT: 통합 멀티모달 Chain-of-Thought Test-time Scaling
통합 모델은 단일 아키텍처 내에서 멀티모달 이해와 생성을 모두 처리할 수 있지만, 일반적으로 반복 없이 단일 패스로 작동합니다…
통합 모델은 단일 아키텍처 내에서 멀티모달 이해와 생성을 모두 처리할 수 있지만, 일반적으로 반복 없이 단일 패스로 작동합니다…
Diffusion Transformers를 이용한 실시간 비디오 생성은 3D self-attention의 2차 비용 때문에 병목 현상이 발생하며, 특히 실시간 환경에서…
Supervised fine-tuning (SFT)은 계산 효율성이 높지만 강화 학습(RL)에 비해 일반화 성능이 종종 떨어집니다. 이 차이는 주로…
고품질 3D 텍스처 생성은 현재 주류 멀티‑뷰 디퓨전 파이프라인에 내재된 뷰‑불일치(view‑inconsistency) 때문에 근본적인 과제로 남아 있습니다. ...
두 상 흐름에서의 계면 역학은 운동량, 열, 그리고 물질 전달을 지배하지만, 실험적으로 측정하기는 여전히 어렵습니다. 고전적인 기법들은 침입성…
Unified Multimodal Models (UMMs)는 시각 생성에서 눈에 띄는 진전을 보여주었습니다. 그러나 기존 벤치마크는 주로 Crystallized Intelligence를 평가하며, w...
대규모 멀티모달 모델의 급속한 발전과 함께, 신뢰할 수 있는 judge 및 critic 모델은 개방형 평가와 preference alignment에 필수적이 되었습니다.
Biometric footstep recognition은 걷는 동안 발 아래에 나타나는 사람 고유의 압력 패턴을 기반으로 하는 생체인식 기술로, 응용 분야가 확대되고 있는 신흥 분야입니다.
우리는 경량이면서 효율적인 프레임워크인 PuriLight를 제안한다. 이는 self-supervised monocular depth estimation을 위한 것으로, 계산 효율성의 이중 과제에 대응한다.
실제 세계에서 embodied agents를 위한 데이터 수집은 비용이 많이 들고 위험하기 때문에 확장 가능하고 현실적이며 simulator-ready 3D environments가 필요합니다. 그러나 기존…
Multiple rotation averaging (MRA)는 3D 비전 및 로보틱스 분야에서 전역적으로 일관된 절대 회전을 복구하는 것을 목표로 하는 기본적인 최적화 문제입니다.
액션 라벨의 부족으로 인해 action-controllable world models의 확장이 제한됩니다. latent action learning은 제어 인터페이스를 u...