[Paper] InstructSAM: 어떤 지시든 모든 인스턴스를 분할
본 논문에서는 임의의 지시 하에 다중 인스턴스 분할을 위해 설계된 통합되고 간소화된 프레임워크인 InstructSAM을 소개합니다. 우리는 공식화합니다…
본 논문에서는 임의의 지시 하에 다중 인스턴스 분할을 위해 설계된 통합되고 간소화된 프레임워크인 InstructSAM을 소개합니다. 우리는 공식화합니다…
We present Channel-wise Vector Quantization (CVQ), a novel image tokenization paradigm that replaces patch-wise tokens with channel-wise tokens. Unlike conventi...
Camera-controlled video generation은 최근 몇 년간 눈에 띄는 진전을 이루었습니다. 그러나 기존의 video-to-video re-rendering 방법은 주로 Sup...
대부분의 실용적인 고해상도 텍스트‑투‑이미지 시스템은 latent diffusion 및 autoregressive 모델을 포함하여, 컴팩트한 latent space에서 생성을 수행하며, 그리고 ...
Multimodal Large Language Models는 visual reasoning을 발전시켰지만, 순수 텍스트 기반 chain of thought는 fine‑grained 정보를 필요로 하는 질문에 여전히 병목 현상으로 남아 있다.
시각적 개념을 인간 뇌에서 어떤 brain regions가 나타내는지를 식별하는 것은 neuroscience의 핵심 과제이다. 기존 접근법들은 coarse …
Visual geometry transformers는 다중 뷰 3D 재구성을 위한 강력한 아키텍처가 되었으며, 피드-...에서 여러 3D 속성을 공동으로 예측할 수 있게 합니다.
Mask-free video object insertion은 도전적인 과제로 부상했으며, 레퍼런스 객체를 소스 비디오에 조화롭게 통합해야 합니다. 그러나 기존 …
온라인 3D 재구성은 엄격한 인과성 및 제한된 메모리 제약 하에서 카메라 포즈와 씬 기하학을 추정해야 합니다. 기존 방법들은 종종 fr...
우리는 다중 시점 RGB 이미지에서 고충실도 3D 씬 재구성을 수행하는 새로운 접근법을 소개합니다. 이 접근법은 재구성을 강력한 generative 3D와 긴밀히 결합합니다.
Multimodal Large Language Models (MLLMs)의 눈부신 진전에도 불구하고, 이러한 모델들은 여전히 세밀한 이해 작업에서 어려움을 겪는다. 본 연구에서 우리는 ...
Modern video generators는 시각적으로 매력적인 클립을 생성하지만, physical 및 motion consistency에서 여전히 어려움을 겪어, reliable world simulator로서의 활용이 제한됩니다.
인과 생성 모델링은 반사실적 추론이 가능한 신뢰할 수 있고 투명한 AI 시스템을 개발하는 데 필수적입니다. 기존 접근 방식은 …
Keyframe selection은 긴 동영상 질문 응답(QA)을 위해 검증 가능한 시각적 증거를 제공하는 직접적인 방법입니다. 질의는 요구하는 바가 다르며, findin...
비디오 대형 언어 모델(Video-LLMs)은 시간적 비디오 이해에서 빠른 진전을 이루었지만, 많은 모델이 기본적인 지각 원시인 서명된 이미지-p에서 실패한다.
Camera pose matters. The position and orientation of each viewpoint define a shared spatial coordinate frame that relates observations across video frames. Yet ...
Current motion-controlled image-to-video generation models rigidly follow user-provided trajectories that are often sparse, imprecise, and causally incomplete. ...
Vision-and-Language Navigation (VLN) requires an agent to ground language instructions to its own movement within a visual environment. While state-of-the-art m...
Vision-Language-Action (VLA) models have shown strong potential for general-purpose robot manipulation by unifying perception and action. However, existing VLA ...
Robust training and validation of Autonomous Driving Systems (ADS) require massive, diverse datasets. Proprietary data collected by Autonomous Vehicle (AV) flee...
Representation Autoencoders (RAEs) leverage frozen vision foundation models (VFMs) as tokenizer encoders, providing robust high-level representations that facil...
Children with rare genetic diseases often exhibit distinctive facial phenotypes, yet developing computer vision systems for early diagnosis remains challenging ...
As generative image models evolve rapidly, the perceptual gap between generated and real images continues to narrow, making AI-generated image detection increas...
Autoregressive video diffusion models have enabled real-time, action-conditioned world generation. However, sustaining a persistent world, where revisiting a pr...
As wearable and mobile devices become increasingly embedded in daily life, they offer a practical way to continuously sense human motion in the wild. But inerti...
We observe that existing model interpretation methods generally ignore the baseline, and such neglect often results in imprecise or even incorrect interpretatio...
Pretrained diffusion models는 frozen teachers 역할을 하여 텍스트-투-3D, single-step distillation, data attribution과 같은 downstream pipelines에 공급됩니다. The teache...
현재, Unified Multimodal Models (UMMs)에 이미지 이해, 생성 및 편집 기능을 강화하는 것은 주로 mixed multi-task training에 의존하고 있다....
Discrete diffusion models는 시각 합성에서 뛰어나지만 느리고 반복적인 디코딩에 의존합니다. 기존의 single-step distillation 방법은 이 병목을 우회하려고 시도합니다.
Visual Question Answering (VQA) 벤치마크는 주로 시각적 내용만으로 해결할 수 있는 인지 기반 과제에 중점을 두어 왔습니다. 반면, 많은 실제…
포즈 기반 전체 몸 아바타는 신경 렌더링을 기반으로 캡처된 피사체의 고품질 새로운 시점을 생성합니다. 그러나 헐렁한 옷과 기타 동적 요소는 …
시점 조건부 3D 생성기인 SAM 3D, TRELLIS 및 Hunyuan3D는 단일 시점에서 고품질 객체 재구성을 생성하지만, 실제 세계 시각 관측…
기존의 비디오 편집 방법은 일반적으로 실현 가능하지만, 많은 비용이 드는 반복 작업이 필요하고 여전히 고품질을 제공하면서도 만족스럽게 만드는 데 어려움을 겪습니다…
우리는 ProtoPathway를 소개합니다, 이는 암 생존 예측을 위한 설계 단계에서 해석 가능하도록 만든 멀티모달 프레임워크로, whole slide imaging과 transcriptomics를 통합합니다.
Vision-language models (VLMs)는 특히 gameplay glitch detection을 위해 video game quality assurance 분야에서 점점 더 많이 탐구되고 있습니다. 대부분의 기존 평가, ...
대기 난류는 geometric warping, blur, temporal flickering과 같은 왜곡을 도입하여 비디오 품질을 심각하게 저하시키며, ...
이 작업은 E-ReCON을 제시한다, 16 Kb 에너지 및 자원 효율적인 디지털 컴퓨트‑인‑메모리(DCIM) 매크로로, 컴팩트한 3T1R ReRAM 비트셀을 기반으로 하여 엣지‑AI 추론에 사용된다.
기존 Gaussian avatar 방법은 일반적으로 body-template surface에 기하학을 매개변수화하며, 이는 아바타의 representation space를 템플릿과 얽히게 만든다.
비디오 생성은 단일 샷 합성에서 실제 요구를 충족하기 위한 복잡한 다중 샷 오디오-비디오(MSAV) 내러티브로 빠르게 진화하고 있습니다. 그러나 평가...
최근 vision-language models (VLMs)의 발전은 긴 chain-of-thought 추론을 강조하지만, 우리는 이들의 시각 작업 성능이 주로 제한적임을 발견한다.
고급 이미지 편집 소프트웨어는 매우 설득력 있는 이미지 조작을 쉽게 만들 수 있게 해 주며, 최근 몇 년간 ... 때문에 더욱 접근성이 높아졌습니다.
Vision-Language Models (VLMs)는 공간 질문 응답 벤치마크에서 강력한 성능을 달성하지만, 이러한 향상이 실제로 진정한 공간 추론을 반영하는지는 여전히 불분명합니다.
항공우주용 SiC/SiC 복합재의 비파괴 검사인 X-ray computed tomography (XCT)는 전문가의 시각적 평가에 의존하며, 현재 워크플로는 …
Large Vision Language Models (LVLMs)는 의료 분야에서 가능성을 보이지만, 시각적 증거에 응답을 충실히 근거를 두지 못하는 점이 심각한 …을 야기한다.
수십억 개 원시 규모에서 3D Gaussian Splatting (3DGS)을 학습하는 것은 근본적으로 메모리 제한(memory‑bound)이다: 각 Gaussian primitive은 큰 속성 벡터(attribute vector)를 가지고 있으며, …
Text-to-Image (T2I) 모델은 최근 1K 및 2K 해상도에서 눈에 띄는 진전을 보였습니다. 더 나은 시각 경험에 대한 극도의 욕구와 급속한 d...
Referring segmentation은 natural-language queries를 pixel-level masks에 매핑하지만, 다중 인스턴스와 교차 카테고리 그룹이 포함된 복잡한 시나리오로 확장한다…
AI가 생성한 시각 매체의 급속한 확산은 효율적이고 신뢰할 수 있는 딥페이크 탐지 시스템에 대한 긴급한 필요성을 만들었습니다. 그러나 기존 딥…