[Paper] Vega: 자연어 지시를 사용한 운전 학습
Vision-language-action 모델은 자율 주행을 재구성하여 언어를 의사결정 과정에 통합했습니다. 그러나 대부분 기존 파이프라인은 …
Vision-language-action 모델은 자율 주행을 재구성하여 언어를 의사결정 과정에 통합했습니다. 그러나 대부분 기존 파이프라인은 …
인간의 운전 행동은 본질적으로 개인적이며, 이는 장기적인 습관에 의해 형성되고 단기적인 의도에 의해 영향을 받습니다. 개인마다 가속(accel) 방식이 다릅니다.
대규모 변위 optical flow의 정확한 추정은 여전히 중요한 과제이다. 기존 방법들은 일반적으로 iterative local search 및/또는 domain-specific 방식을 활용한다.
Graphic design은 창의적이고 혁신적인 과정으로, e‑commerce와 advertising과 같은 애플리케이션에서 중요한 역할을 합니다. 그러나 자동화…
개인의 기술 수준을 평가하는 것은 매우 중요합니다. 이는 본질적으로 그들의 행동을 형성하기 때문입니다. 그러나 기술을 정량화하는 것은 어려운데, 이는 기술이 잠재적으로 …에 있기 때문입니다.
현실적인 인간-객체 상호작용(HOI) 애니메이션을 생성하는 것은 여전히 어려운 과제입니다. 이는 동적인 인간 행동과 다양한 객체를 동시에 모델링해야 하기 때문입니다.
Autoregressive video diffusion 모델은 눈에 띄는 진전을 보여왔지만, 여전히 다루기 어려운 선형 KV-cache 성장과 시간적 반복…
Fine-grained 얼굴 표정 편집은 본질적인 의미 중복으로 오랫동안 제한되어 왔습니다. 이를 해결하기 위해 우리는 Flex Facial Expression (FFE) 데이터를 구축합니다.
Contrastive vision-language (V&L) 모델은 다양한 응용 분야에서 여전히 인기가 있습니다. 그러나 여러 제한 사항이 나타났으며, 특히 제한…
견고한 지각과 추론은 감각 양식 간의 일관성을 필요로 합니다. 그러나 현재의 멀티모달 모델은 종종 이 원칙을 위반하여 모순되는 결과를 초래합니다.
Video world models는 물리적 세계를 시뮬레이션하는 데 엄청난 잠재력을 보여왔지만, 기존 memory mechanisms는 주로 환경을 static canvases로 취급합니다.
Vision--Language--Action (VLA) 정책은 언어 지시와 시각 관찰을 로봇 행동에 매핑하는 데 있어 뛰어난 진전을 보여왔지만, 그들의 신뢰성은…
우리는 Latent‑WAM을 소개합니다. 이는 공간 인식(spatially‑aware) 및 동역학 정보(dynamics‑info)를 활용하여 강력한 궤적 계획을 달성하는 효율적인 엔드‑투‑엔드(end‑to‑end) 자율 주행 프레임워크입니다.
Psychophysical experiments는 perceptual image quality assessment (IQA)를 위한 가장 신뢰할 수 있는 접근 방식으로 남아 있지만, 그 비용과 제한된 확장성은 자동…
변형 가능한 연부 조직의 정확한 3D 재구성은 수술 로봇 인식에 필수적입니다. 그러나 텍스처가 낮은 표면, specular highlights 및 ...
Scalable Vector Graphics (SVG)는 기술 일러스트레이션 및 디지털 디자인에 필수적인 포맷으로, 정밀한 해상도 독립성과 유연한 sema...
Scene text editing은 자연 이미지에서 텍스트 내용을 수정하면서 시각적 realism과 semantic consistency를 유지하는 것을 목표로 합니다. 기존 방법들은 종종 t...
멀티모달 스피커 식별 시스템은 일반적으로 훈련 및 테스트 단계 모두에서 완전하고 동질적인 오디오-비주얼 모달리티의 가용성을 전제로 합니다.
비디오의 밀도 높고 시간적인 특성은 자동 분석에 큰 도전을 제시한다. 강력한 Vision-Language Models를 사용함에도 불구하고, 기존 방법들은…
Autonomous mobile GUI agents는 Multimodal Large Language Models (MLLMs)의 발전과 함께 점점 더 많은 관심을 받고 있습니다. 그러나 기존 방법…
도메인 내 주석과 정밀한 센서‑리그 사전 지식에 의존하는 기존 3D occupancy prediction 방법은 확장성과 도메인 외 일반화 모두에서 제한적이다.
Vision Language Models (VLMs)는 의료 보고서 생성 및 visual question answering과 같은 작업에 점점 더 많이 사용되고 있습니다. 그러나 fluent diagnostic text는 …
인터리브된 생성이 가능한 Unified models가 유망한 패러다임으로 떠오였으며, 커뮤니티는 점점 더 autoregressive modeling에 집중하고 있다...
동적 시스템 이론과 강화 학습은 세계의 진화를 행동에 의해 구동되는 latent-state dynamics로 보고, visual observations는 부분적인 ...
Large Vision-Language Models (LVLMs)의 효율성을 향상시키기 위한 기존 접근 방식은 주로 visual token reduction 개념에 기반하고 있습니다. This approa...
Diffusion 및 flow matching 모델은 인터랙티브 이미지와 스트리밍 비디오 생성과 같은 창의적인 콘텐츠 제작을 위한 전례 없는 능력을 열어주었습니다.
Monocular novel-view synthesis는 오랫동안 감독을 위해 multi-view image pairs를 필요로 했으며, 이는 training data scale와 diversity를 제한합니다. 우리는 이것이 반드시 필요하지 않다고 주장합니다.
Event cameras는 마이크로초 해상도로 픽셀당 밝기 변화를 포착하여 RGB 프레임 사이에서 손실되는 연속적인 움직임 정보를 제공합니다. 그러나 기존…
Agentic multimodal large language models (MLLMs) (예: OpenAI o3 및 Gemini Agentic Vision)은 반복적인 시각 ...
Video-Action Models (VAMs)는 구현된 지능을 위한 유망한 프레임워크로 부상했으며, 원시 비디오 스트림으로부터 암시적인 세계 역학을 학습하여 t…을 생성합니다.
최근 diffusion-based models는 image inpainting에서 photorealism을 달성하지만 많은 sampling steps가 필요해 practical use가 제한됩니다. Few-step text-to-image models는...
기존 멀티모달 대형 언어 모델(MLLMs)은 3D 공간 추론에 어려움을 겪으며, 3D 환경에 대한 구조화된 추상화를 구축하지 못합니다.
Diffusion Transformers (DiTs)는 고충실도 비디오 월드 모델을 구동하지만, 순차적 디노이징과 비용이 많이 드는 시공간 처리 때문에 계산 비용이 많이 듭니다.
긴 비디오 이해는 제한된 컨텍스트 윈도우 때문에 멀티모달 대형 언어 모델(MLLMs)에게 여전히 도전 과제이며, 이는 희소한 q...
Latent diffusion models (LDMs)는 학습된 잠재 공간에서 작동함으로써 고품질 합성을 가능하게 합니다. 그러나 최첨단 LDM을 훈련하려면 복잡한 st...
우리는 UniMotion을 제시합니다. 우리가 알기로는 인간 동작, 자연어, 그리고 RGB 이미지의 동시 이해와 생성을 위한 최초의 통합 프레임워크입니다.
최근 잠재 세계 모델(예: V-JEPA2)의 발전은 비디오 관찰을 통해 미래 세계 상태를 예측하는 데 유망한 능력을 보여주었습니다. 그럼에도 불구하고, ...
Vision-Language-Action (VLA) 모델은 시각 관찰과 언어 지시를 직접 로봇 행동으로 매핑합니다. 간단한 작업에 효과적이지만, 표준 VL…
많은 멀티모달 작업, 예를 들어 image captioning과 visual question answering은 vision-language models (VLMs)가 객체와 그 속성을 연관시키도록 요구한다.
최근 생성 잠재 공간(generative latent spaces)의 발전이 단일 이미지 생성(single-image generation)에서 상당한 진전을 이끌었지만, 새로운 시점 합성(novel view synthesis)을 위한 최적의 잠재 공간은…
Diffusion 기반 비디오 초해상도(VSR)는 최근 눈에 띄는 높은 충실도를 달성했지만 여전히 금지할 정도의 샘플링 비용이 문제입니다. While distribution mat...
텍스트-이미지(T2I) 생성에 대한 강화 학습(RL) 기반의 최근 진전은 의미적 정렬과 시각적 qu...을 평가하는 보상 모델의 혜택을 받았다.
인간 시각 처리 vs. 머신 비전 인간은 이미지에서 고양이, 개, 그리고 여성(여자)을 즉시 인식할 수 있습니다. 우리의 뇌는 주의(attention), 기억(memory), 그리고 …
Video generative models는 새로운 추론 행동을 보여줍니다. 신뢰할 수 있는 …을 위해 생성된 이벤트가 프레임 간에 인과적으로 일관되도록 보장하는 것이 필수적입니다.
최근 diffusion models의 진보는 text-to-video 생성 능력을 크게 향상시켰으며, 세밀한 제어를 통해 개인화된 콘텐츠 제작을 가능하게 합니다.
불확실한 환경, 예를 들어 산불 확산, 의료 진단, 혹은 자율 주행과 같은 상황에서 미래 상태를 예측하려면, 다중…
Video-driven human reaction generation은 관찰된 비디오 시퀀스에 직접 반응하는 3D 인간 동작을 합성하는 것을 목표로 하며, 이는 인간‑…
본 연구에서는 Image-to-Image Rectified Flow Reformulation (I2I‑RFR)을 제안한다. 이는 표준 I2I 회귀 네트워크를 재구성하는 실용적인 플러그인 재정의이다.