[논문] Lumos‑Nexus: 비디오 통합 모델을 위한 동질 잠재 공간 기반 효율적 주파수 연결
Connector-based video unified models have demonstrated strong capability in instruction-grounded video synthesis, but integrating a large high-fidelity generato...
Connector-based video unified models have demonstrated strong capability in instruction-grounded video synthesis, but integrating a large high-fidelity generato...
Diffusion models have shown promising performance as data-driven priors for computational imaging, as well as some capacity to detect out-of-distribution (OOD) ...
Text-to-video (T2V) generation faces challenging questions when generating videos with long horizons containing multiple events. Inspired by the intrinsics of t...
Alignment teaches vision-language models (VLMs) to avoid expressing demographic biases, and when gender is clearly visible they largely succeed. Far less is kno...
Postoperative pancreatic fistula (POPF) is a serious complication after pancreatic resection, increasing morbidity, hospital stay, and healthcare costs. We pres...
Self-supervised novel view synthesis (NVS) remains challenging to scale, despite the abundance of video data, largely due to the brittleness of training on real...
!https://9to5mac.com/wp-content/uploads/sites/6/2025/07/machine-learning-research.jpg?quality=82&strip=all&w=1600 Apple has shared details of its participation...
Moving Object Segmentation (MOS) aims to discover, segment, and track objects that move independently of the camera. Current MOS methods, however, exhibit two f...
Long-rollout causal video diffusion은 고정 크기의 슬라이딩 윈도우 KV 캐시로 수렴했으며, 최근의 진전은 이 레이아웃 내에서 어떤 것을 변경함으로써 혁신을 이루고 있다.
Autoregressive video diffusion models generate streaming video by producing frames sequentially, conditioning each chunk on previously generated content. These ...
데이터 기반 접근 방식은 3D 비전을 혁신시켜, 트랜스포머가 정적 3D 객체를 효과적으로 재구성하고 생성할 수 있게 했습니다. 그러나, 시뮬...
비디오 확산 모델(VDMs)이 세계 모델로 발전함에 따라, 핵심적인 질문이 제기됩니다: 이 모델들이 인과 관계를 진정으로 이해하고 있는가, 아니면 단지 통계적 시간적 패턴에 과적합하고 있는가?
우리는 Gaussian Splatting Anisotropic Visibility Field (GAVIS)를 제시한다, 이는 3DGS에서 불확실성 정량화와 능동 매핑을 위한 새로운 프레임워크이다. 우리의 핵심 통찰은…
시각 생성 모델링을 위한 확장 가능한 방법을 연구하려면 크고 접근 가능하며 안정적인 데이터셋이 필요합니다. 우리는 GPIC, 즉 Giant Permissive Image Corpus를 소개합니다.
Generative video-to-audio (V2A) models produce highly plausible soundtracks, but it remains unclear whether they capture the underlying physical processes. Exis...
단일 RGB 이미지에서 물리적으로 안정적인 3D 장면을 재구성하면 일상적인 이미지를 시뮬레이션에 바로 사용할 수 있는 디지털 자산으로 변환할 수 있어, 응용 프로그램을 위해 …
Diffusion models achieve state-of-the-art image synthesis, with their generative trajectories fundamentally exhibiting a spectral bias, resolving low-frequency ...
Centralised biometric identity systems expose users to single points of failure, opaque verification processes, and irreversible biometric compromise. Decentral...
Current vision-language models (VLMs) typically stitch together separate image encoders and language decoders via multi-stage alignment, a modular framework tha...
World models for interactive video generation은 주로 single-agent 설정에 초점을 맞추어 왔으며, 여기서 future observations는 단일 control signal로부터 생성됩니다.
우리는 foreground video의 조명을 target background scene에 맞추어 shadows, color tone, illumination intensity를 조정하는 방법을 제시합니다.
Class-Incremental Learning (CIL) is important in building real-world learning systems. In CLIP-based CIL, the model performs classification by comparing similar...
Long-term memory는 개인화된 AI agents에게 점점 더 중요해지고 있지만, 기존 benchmarks와 methods는 여전히 주로 text‑centric합니다. 이미지가 포함될 때조차도...
시각적 결과는 멀티모달 대형 언어 모델에서 점점 더 중심적인 역할을 차지하고 있으며, 신뢰할 수 있고 세밀한 검증이 범용 기반 모델을 확장하는 데 필수적입니다.
Vision-Language-Action (VLA) models unify perception, reasoning, and control within a single policy, yet their multi-billion-parameter backbones and diffusion-b...
Vision classifiers는 spurious correlations를 활용하여 in-distribution 정확도가 높지만 distribution shift 상황에서는 실패한다. 기존의 bias에 대한 접근 방식은 …
Vision-language models (VLMs)은 유창한 인과 설명을 생성하지만, 현재 평가 방법은 언어적 타당성과 충실한 인과 추론을 구별하지 못한다.
대형 비전-언어 모델(LVLMs)은 진정한 멀티모달 추론을 향해 빠르게 진화하고 있으며, 시각 검색은 구체적인 구현 사례를 나타냅니다.
Generating a game is not the same as making one that can be played. Despite advances in code generation, existing approaches treat game generation as one-shot t...
Modern feed-forward 3D reconstruction methods like VGGT predict pixel-aligned pointmaps in camera-centric coordinate frames. However, this choice of coordinate ...
공간 파운데이션 모델이 표준 데이터셋에서 인상적인 성능을 보여주었지만, 중요한 질문이 남아 있다: 과연 이들이 진정한 전천후 플레이어인지…
Vision-language models (VLMs)는 일반적으로 시각적 grounding과 detection을 좌표 토큰 생성 문제로 공식화하여, 각 2D 박스를 여러 …
3D 편집은 확장 가능한 3D 콘텐츠 제작을 위한 기본적인 역량입니다. 이미지 편집은 대규모 피드포워드 생성 패러다임으로 빠르게 진화해 왔으며…
최근 생성 모델들은 저수준 아티팩트—pixel fingerprints, frequency anomalies, upsampling traces—에 대한 격차를 크게 좁혔으며, 특히 ...
Diffusion 모델은 고품질 이미지 생성 및 편집을 위한 강력한 도구로 부상했지만, 이러한 모델을 특정 출력으로 유도하는 것은 여전히 도전 과제입니다.
Video Diffusion Transformers (DiTs)는 고품질 비디오를 생성하지만, 넓은 블록, 깊은 아키텍처, 그리고 반복 샘플링 때문에 상당한 연산량을 요구합니다.
Flowcharts are widely used in industrial requirements, but usually remain embedded as static images. Vision Language Models (VLMs) show promise in the conversio...
비디오 공간 추론은 질문에 유용한 정보를 유지하면서 시간에 따라 시점 의존적인 증거를 축적해야 합니다. 기존 sp...
Chart question-answering (QA) benchmarks aim to pose questions that require visual reasoning to correctly answer, but models can often reach solutions through s...
Sparse-view 3D 재구성은 이미지로부터 직접 explicit primitives를 예측하는 feed-forward splatting networks를 사용하여 점점 더 많이 다루어지고 있다. 그러나 대부분의 기존…
Generating high-fidelity and controllable synthetic data is critical for advancing end-to-end autonomous driving, particularly for addressing the long tail of r...
주제 기반 이미지 생성은 주어진 대상의 정체성을 유지하면서 텍스트 지침을 따르는 새로운 이미지를 합성하는 것을 목표로 합니다. 기존 앱...
Multimodal Large Language Models (MLLMs)은 다양한 작업을 통합된 instruction‑following 프레임워크로 재구성하고 instruction tuning을 통해 다재다능성을 달성합니다.
현재 video-to-4D 방법들은 복잡한 topology 변화, transparent materials, thin structures, 그리고 inner surfaces를 처리하는 데 어려움을 겪습니다. 우리는 Helix4D, a dynamic me...
최근 few-step diffusion distillation의 발전으로 효율적인 image generation이 가능해졌지만, 이러한 모델을 인간 선호와 일치시키는 것은 여전히 어려운 과제입니다.
Autoregressive video generators는 스트리밍, 장기 시계열, 인터랙티브 애플리케이션에 매력적이지만, 강력한 블랙박스 교사를 인과적 s...
Fine-tuning MLLMs for Video Temporal Grounding (VTG) often improves in-domain performance but degrades sharply under domain shift. In this work, we find that th...
Structure-from-Motion -- the process of simultaneously estimating camera poses and 3D scene structure from a collection of images -- remains a central challenge...