[Paper] Visual Sync: 다중 카메라 동기화 via 교차 시점 객체 움직임
오늘날 사람들은 콘서트, 스포츠 이벤트, 강연, 가족 모임, 생일 파티 등 다양한 기억에 남는 순간들을 쉽게 기록할 수 있습니다, 여러...
오늘날 사람들은 콘서트, 스포츠 이벤트, 강연, 가족 모임, 생일 파티 등 다양한 기억에 남는 순간들을 쉽게 기록할 수 있습니다, 여러...
Video generators는 잠재적인 world models로서 점점 더 평가되고 있으며, 이는 physical laws를 인코딩하고 이해하도록 요구합니다. 우리는 그들의 표현을 조사합니다.
카메라와 객체 움직임은 비디오 내러티브의 핵심입니다. 그러나 캡처된 이러한 움직임을 정밀하게 편집하는 것은 특히 …
Unified multimodal models (UMMs)는 단일 프레임워크 내에서 멀티모달 이해와 생성을 동시에 수행하는 것을 목표로 합니다. 우리는 TUNA, 네이티브 UMM을 제시합니다, that bu...
MeanFlow (MF)는 최근에 일단계 생성 모델링을 위한 프레임워크로 확립되었습니다. 그러나 그 “fastforward” 특성은 핵심적인 도전을 야기합니다.
대형 언어 모델이 점점 커짐에 따라, NVFP4와 같은 저정밀 수치 형식이 속도와 메모리 이점 때문에 점점 더 인기를 얻고 있습니다 ...
360-degree omnidirectional understanding 분야는 공간 지능을 향상시키기 위해 점점 더 많은 관심을 받고 있습니다. 그러나 대규모 ...
Test-time scaling (TTS) — 추론 중에 컴퓨팅을 동적으로 할당하는 것 — 은 대형 언어 모델(LLMs)에서 추론 능력을 향상시키는 유망한 방향이다.
Multi-view camera systems는 복잡한 real-world 장면에 대한 풍부한 관측을 가능하게 하며, 멀티뷰 환경에서 dynamic objects를 이해하는 것이 중심이 되었다.
우리는 Audio-Visual Affordance Grounding (AV-AG)이라는 새로운 작업을 소개한다. 이 작업은 행동 소리에서 객체 상호작용 영역을 분할한다. 기존 접근 방식과 달리 ...
대형 언어 모델(LLM)은 숨겨진 파라메트릭 공간에 사실적 지식을 인코딩하는데, 이는 검사하거나 제어하기 어렵다. Sparse Autoencoders(SAE)…
대규모 병렬 시뮬레이션은 로봇의 강화 학습(RL) 훈련 시간을 며칠에서 몇 분으로 단축시켰습니다. 그러나 빠르고 신뢰할 수 있는 sim-to…