[Paper] TUNA: 네이티브 통합 멀티모달 모델을 위한 Unified Visual Representations 다루기
Unified multimodal models (UMMs)는 단일 프레임워크 내에서 멀티모달 이해와 생성을 동시에 수행하는 것을 목표로 합니다. 우리는 TUNA, 네이티브 UMM을 제시합니다, that bu...
470 posts from this source
Unified multimodal models (UMMs)는 단일 프레임워크 내에서 멀티모달 이해와 생성을 동시에 수행하는 것을 목표로 합니다. 우리는 TUNA, 네이티브 UMM을 제시합니다, that bu...
MeanFlow (MF)는 최근에 일단계 생성 모델링을 위한 프레임워크로 확립되었습니다. 그러나 그 “fastforward” 특성은 핵심적인 도전을 야기합니다.
대형 언어 모델이 점점 커짐에 따라, NVFP4와 같은 저정밀 수치 형식이 속도와 메모리 이점 때문에 점점 더 인기를 얻고 있습니다 ...
360-degree omnidirectional understanding 분야는 공간 지능을 향상시키기 위해 점점 더 많은 관심을 받고 있습니다. 그러나 대규모 ...
Test-time scaling (TTS) — 추론 중에 컴퓨팅을 동적으로 할당하는 것 — 은 대형 언어 모델(LLMs)에서 추론 능력을 향상시키는 유망한 방향이다.
Multi-view camera systems는 복잡한 real-world 장면에 대한 풍부한 관측을 가능하게 하며, 멀티뷰 환경에서 dynamic objects를 이해하는 것이 중심이 되었다.
우리는 Audio-Visual Affordance Grounding (AV-AG)이라는 새로운 작업을 소개한다. 이 작업은 행동 소리에서 객체 상호작용 영역을 분할한다. 기존 접근 방식과 달리 ...
대형 언어 모델(LLM)은 숨겨진 파라메트릭 공간에 사실적 지식을 인코딩하는데, 이는 검사하거나 제어하기 어렵다. Sparse Autoencoders(SAE)…
대규모 병렬 시뮬레이션은 로봇의 강화 학습(RL) 훈련 시간을 며칠에서 몇 분으로 단축시켰습니다. 그러나 빠르고 신뢰할 수 있는 sim-to…
자율 주행 정책은 일반적으로 인간 시연을 통한 open-loop behavior cloning으로 학습됩니다. 그러나 이러한 정책은 covariate shift 때문에 ...
우리는 LLM CHESS를 소개합니다, 이는 large language models에서 추론 및 지시 수행 능력의 일반화를 탐색하도록 설계된 평가 프레임워크입니다 (...
Offline Reinforcement Learning (RL)은 추가적인 상호작용 데이터를 수집하기 어려운 경우, 사전에 수집된 데이터셋으로부터 정책을 학습할 수 있는 유망한 방법을 제공합니다.