[Paper] WorldLens: 실제 세계에서 Driving World Models의 전 스펙트럼 평가
Generative world models는 embodied AI를 재구성하고, 에이전트가 설득력 있게 보이지만 종종 물리적으로는 실패하는 현실적인 4D 주행 환경을 합성하도록 합니다.
Generative world models는 embodied AI를 재구성하고, 에이전트가 설득력 있게 보이지만 종종 물리적으로는 실패하는 현실적인 4D 주행 환경을 합성하도록 합니다.
언어와 비전 분야에서 파운데이션 모델의 성공은 완전한 엔드‑투‑엔드 로봇 내비게이션 파운데이션 모델(NFMs)에 대한 연구를 촉진했다. NFMs는 모노…
Visual concept personalization은 정체성, 표정, 조명, 스타일과 같은 특정 이미지 속성만을 보이지 않는 컨텍스트로 전달하는 것을 목표로 합니다. 그러나...
본 연구에서는 SceneMaker라는 분리형 3D 씬 생성 프레임워크를 제안한다. 충분한 오픈셋 디오클루전 및 포즈 추정 프리…
Normalizing Flows (NFs)는 생성 모델링을 위한 원칙적인 프레임워크로 확립되었습니다. 표준 NFs는 forward process와 reverse process로 구성됩니다.
본 연구에서는 diffusion model 추론에서 아직 활용되지 않은 신호를 탐구합니다. 기존의 모든 방법이 추론 시 이미지를 독립적으로 생성하는 반면, 우리는 대신 …
현대 머신러닝의 성공은 고품질 훈련 데이터에 대한 접근에 달려 있습니다. 많은 실제 상황에서, 예를 들어 공개 저장소에서 데이터를 확보하는 경우…
Self-supervised pre-training은 언어, 개별 2D 이미지 및 비디오에 대한 foundation models에 혁신을 가져왔지만, 3D 학습에 대해서는 아직 크게 탐구되지 않았다...
강화 학습(RL)은 대규모 언어 모델 및 멀티모달 모델에서 효과가 입증된 바 있으며, 2D 이미지 생성 향상을 위해 성공적으로 확장되었습니다.
All-in-One Image Restoration (AiOIR)은 다양한 손상으로부터 고품질 이미지를 복구하는 것을 통합된 프레임워크 내에서 목표로 합니다. 그러나 기존 방법들은 종종 f...
인간 수준의 접촉이 풍부한 조작은 두 가지 핵심 모달리티의 뚜렷한 역할에 의존합니다: vision은 공간적으로 풍부하지만 시간적으로 느린 global context를 제공하고, ...
대규모 diffusion 모델을 활용한 subject‑driven 비디오 생성의 최근 발전으로, 사용자 제공 주제에 조건화된 개인화된 콘텐츠 합성이 가능해졌습니다.
추론은 언어를 넘어선다; 현실 세계에서는 공간, 시간, 어포던스 등 단어만으로는 전달할 수 없는 많은 것들에 대한 추론이 필요하다. 기존의 멀티모…
카메라 제어를 diffusion 모델에 주입하는 기존 접근 방식은 4D 일관성 작업의 특정 하위 집합에 초점을 맞추었습니다: novel view synthesis, text-to-video …
정규화 레이어는 오랫동안 딥러닝 아키텍처의 필수 구성 요소로 여겨져 왔지만, 최근 도입된 Dynamic Tanh (DyT) ha...
우리는 부분 관측 마코프 의사결정 프로세스(POMDPs)의 decision-making agents와 one-input process functions 사이에 정확한 대응 관계를 설정한다.
신경망에 대한 적대적 공격을 구성하는 것은 다양한 서비스에 배치할 때 중요한 과제로 보인다. 적대적 …
우리는 Any4D를 소개한다. Any4D는 메트릭 스케일의 밀집 피드포워드 4D 재구성을 위한 확장 가능한 멀티뷰 트랜스포머이다. Any4D는 픽셀당 모션과 지오메트리를 직접 생성한다.
Autonomous drone navigation in confined tubular environments는 관의 제약적인 geometry와 벽과의 근접성 때문에 여전히 큰 도전 과제로 남아 있습니다.
많은 최첨단 LLM은 답변을 제공하기 전에 생각하도록 훈련됩니다. 추론은 언어 모델의 능력과 안전성을 크게 향상시킬 수 있지만, 또한 …
우리는 noisy quantum experiments로부터 학습하기 위한 framework을 개발하고, noisy couplings을 통해 uncharacterized systems에 접근하는 fault-tolerant devices에 초점을 맞춘다.
Temporal-difference (TD) 방법은 자체 미래 가치 예측으로부터 부트스트래핑함으로써 상태와 행동 값을 효율적으로 학습하지만, 이러한 self-bootstrappi...
Social presence는 함께 콘텐츠를 시청하는 즐거움의 핵심이며, 현대의 미디어 소비는 점점 더 개인화되고 있습니다. 우리는 multi‑agent…
감정은 정치의 중심에 있으며, 정치 커뮤니케이션에서 감정의 역할을 분석하는 것은 오랜 전통을 가지고 있습니다. 연구가 점점 더 audio‑visual material을 활용함에 따라...