[Paper] 이 뷰들이 하나의 장면이 될 수 있을까? 3D Foundation Models가 환각할 때 Multiview 3D Consistency 평가
Multiview 3D evaluation은 평가되는 이미지들이 하나의 정적인 3D 장면을 관찰한 것이라고 가정합니다. 이 가정은 NVS 및 sparse-view reconstruction에서 실패할 수 있습니다.
Multiview 3D evaluation은 평가되는 이미지들이 하나의 정적인 3D 장면을 관찰한 것이라고 가정합니다. 이 가정은 NVS 및 sparse-view reconstruction에서 실패할 수 있습니다.
현대 오디오 생성은 주로 latent-space compression에 의존하며, 이는 추가적인 복잡성과 잠재적인 정보 손실을 초래합니다. 이 연구에서 우리는 cha...
최근 비디오 편집 모델들은 통합된 컨디셔닝 디자인으로 수렴했다: 단일 diffusion transformer가 텍스트, 원본 비디오, 그리고 레퍼런스 i...
Spatial intelligence unfolds through a perception-action loop: agents act to acquire observations, and reason about how observations vary as a function of actio...
Multimodal Large Language Models (MLLMs)은 여전히 세밀한 시각적 이해에 어려움을 겪고 있으며, 답변은 종종 작지만 결정적인 증거에 의존한다…
우리는 LongLive-2.0을 소개한다. 이는 NVFP4 기반의 병렬 인프라스트럭처로, 긴 비디오 생성의 전체 학습 및 추론 워크플로우 전반에 걸쳐 속도를 개선한다.
Diffusion models는 시각 콘텐츠를 frequency domain에서 autoregressively하게 암묵적으로 생성하는 것으로 나타났으며, low-frequency components가 각각 생성됩니다.
우리는 물리적으로 제어 가능한 단일 이미지 리라이트를 위한 피드포워드 접근법인 PIXLRelight를 제시합니다. 기존 방법들은 제한된 조명 제어만 제공하거나(e...
Egocentric memory is widely used in embodied intelligence, but it may be insufficient for comprehensive spatial-temporal reasoning. Inspired by human recall fro...
Autoregressive video generation has improved rapidly in visual fidelity and interactivity, but it still suffers from long-term inconsistency and memory degradat...
Unified multimodal models (UMMs)는 시각적 이해와 시각적 생성을 하나의 아키텍처 안에서 통합하려고 노력합니다. 그러나 기존의 훈련 패러다임은…
← 기사 목록으로 돌아가기 https://huggingface.co/blog 작성자 ! https://cdn-avatars.huggingface.co/v1/production/uploads/652b2e9166313ebb6197e706/0qAVPmsc_fRp8OmlaC2S2....
실시간 자기공명영상(rtMRI)을 이용한 언어 생성은 비침습적으로 동적인 성도 움직임을 시각화할 수 있게 하며, 언어 sc...
Collecting large-scale egocentric video datasets with dense spatial and temporal annotations is costly, slow, and often constrained by environmental biases, pri...
자기 시점 비디오에 대한 공간 질문 응답은 Vision-Language Models (VLMs)가 3D 객체 위치와 장면 …을(를) 추론해야 하는 도전적인 과제이다.
3D 씬 그래프 생성에 대한 현재 접근 방식은 LiDAR 또는 RGB‑D 카메라와 같은 전용 깊이 센서를 사용하여 메트릭 3D 재구성을 수행합니다. 이는 배포를 제한합니다.
While Multi-Modal Large Language Models (MLLMs) demonstrate impressive capabilities in general reasoning, their embodied spatial intelligence remains hampered b...
포즈가 지정되지 않은 다중 뷰 이미지에서 일관된 3D 기하학 및 외관을 재구성하는 것은 컴퓨터 비전에서 기본적이면서도 도전적인 문제입니다. 대부분의 기존 vis...
수십억 파라미터 Vision-Language-Action (VLA) 정책은 최근 로봇 조작에서 인상적인 성능을 보여주었지만, 그 크기와 추론 비용은 …
Generative video models are increasingly used in design animation tasks, yet no standardized evaluation framework exists for this domain. Unlike natural video g...
글로벌 사우스의 농업 경관 세분화는 파편화된 구획, 높은 클래스 내 변동성, 그리고 ...의 부족으로 인해 어려운 과제입니다.
Few-shot Generalist Anomaly Detection은 모델이 재학습 없이 새로운 카테고리로 일반화하도록 요구하며, 실제 상황에서 상당한 도전을 제기합니다.
Autoregressive next-token training은 이미지 생성과 텍스트 이해를 위한 통합된 공식화를 제공하지만, 강력한 모달리티 경쟁을 초래하기도 합니다.
Vision Transformers (ViTs)는 특징 맵 품질을 저하시키는 고노름 패치‑토큰 이상치를 나타내는 것으로 알려져 있으며, 이 문제는 register token을 사용하여 효과적으로 완화됩니다.
작업 지시문으로부터 시뮬레이션 준비가 된 테이블탑 씬을 생성하는 것은 Embodied AI 분야에서 흥미롭고 유망한 연구 방향이다. 그러나, ...
멀티모달 3D 시맨틱 점유 예측은 일반적으로 카메라와 LiDAR 입력을 융합하여 견고성을 향상시키지만, 그 효과는 근본적으로 제한됩니다.
확산 기반 이미지 합성은 AI 생성 이미지(AIGI)를 점점 더 사진처럼 사실적으로 만들었으며, 이는 다양한 응용 분야에서 진위성에 대한 긴급한 우려를 불러일으키고 있습니다.
인간은 경험을 구조화된 표현으로 추상화하여 패턴 추론과 지식 전이를 용이하게 합니다. 해마-내후각 피질 (hippocampal-entorhinal, HPC-MEC) c...