[Paper] diffractive decoder를 이용한 Snapshot 3D 이미지 투영
3D image display는 차세대 volumetric imaging에 필수적이지만, 3D image projection을 위한 dense depth multiplexing은 ... 때문에 여전히 어려운 과제입니다.
3D image display는 차세대 volumetric imaging에 필수적이지만, 3D image projection을 위한 dense depth multiplexing은 ... 때문에 여전히 어려운 과제입니다.
우리는 시각 및 언어 이해를 통합하여 레이아웃 스케치와 …로부터 실행 가능한 FlexScript를 합성하는 Vision-Language Simulation Model (VLSM)을 제안한다.
Deep representations across modalities는 본질적으로 얽혀 있다. 본 논문에서는 다양한 semantic과 …의 spectral characteristics를 체계적으로 분석한다.
현실적인 human-human interactions을 생성하는 것은 고품질의 개별 body와 hand motion뿐만 아니라 일관된 coor...
우리는 Perception Encoder Audiovisual, PE-AV를 소개합니다. 이는 오디오와 비디오 이해를 위해 스케일된 대조 학습으로 훈련된 새로운 인코더 계열입니다. Built o…
최근에 Chain-of-Thought (CoT)의 도입으로 통합 모델의 생성 능력이 크게 향상되었습니다. 하지만 현재 ...
우리는 단일 monocular RGB video에서 장면 내 객체 조작을 재구성하는 문제를 해결하기 위한 최초의 시스템을 구축했습니다. 이는 ill-posed 문제이기 때문에 도전적입니다.
멀티모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)은 의미론적 과제에서 인상적인 성능을 달성했지만, 그들의 공간 지능—견고하고 기반이 되는 …
장거리이며 기하학적으로 일관된 비디오를 생성하는 것은 근본적인 딜레마를 제시한다: 일관성은 픽셀 공간에서 3D geometry에 대한 엄격한 준수를 요구하지만, ...
배경: 고해상도 MRI는 진단에 필수적이지만, 긴 촬영 시간 때문에 임상에서의 활용이 제한됩니다. 슈퍼해상도(SR)는 스캔 후 해상도를 향상시킬 수 있습니다.
우리는 멀티모달 대형 언어 모델(LLMs)을 활용하여 9,562개의 아카이브 이미지 스캔을 통해 306,070개의 독일 특허(1877‑1918) 데이터셋을 우리 LLM‑b를 사용해 구축합니다.
당뇨병성 망막증(DR)은 전 세계적으로 예방 가능한 실명의 주요 원인 중 하나이며, 정확한 자동 진단 시스템이 요구됩니다. 일반 도메인 비전‑la…
멀티모달 대형 언어 모델은 많은 시각 및 텍스트 추론 작업에서 인간과 같은 성능을 달성했지만, 세밀한 공간…
최근 self-supervised Joint-Embedding Predictive Architectures (JEPAs) 분야의 획기적인 연구는 Euclidean 표현을 iso... 방향으로 정규화하는 것이 중요함을 입증했습니다.
개요 YOLOv6는 공장, 매장 및 모든 카메라를 위해 설계된 object detection의 새로운 단계입니다. 속도와 신뢰성을 중시하는 팀에 의해 구축되었습니다.
Vision-Language-Action (VLA) 모델은 시각과 언어를 구현된 제어와 정렬하지만, 텍스트에만 의존할 경우 객체 지시 능력이 제한됩니다.
생성 모델에서의 artistic style transfer는 여전히 중요한 도전 과제이며, 기존 방법들은 종종 모델 파인튜닝이나 추가적인 …
멀티모달 대형 언어 모델(MLLMs)은 시각적 및 텍스트 표현을 결합하여 풍부한 추론 능력을 가능하게 합니다. 그러나 높은 계산 비용…
Vocabulary-free fine-grained image recognition은 고정된 인간 정의 레이블 세트 없이 메타 클래스 내에서 시각적으로 유사한 카테고리를 구별하는 것을 목표로 합니다. Exi...
Deep neural networks는 종종 shortcuts을 이용한다. 이러한 shortcuts은 training data에서 output labels와 연관되어 있지만 task semantics와는 무관한 spurious cues이다.
신화: Computer Vision은 이미지에만 효과적이고 비디오에는 적용되지 않는다. 현실: Computer Vision은 이미지와 비디오 모두를 처리할 수 있다, 기술 발전 덕분에...
손글씨 텍스트 인식 및 광학 문자 인식 솔루션은 현대 데이터 처리에서 뛰어난 결과를 보여주지만, 효율성은 La...
소개 Person re-identification(re-ID)은 서로 다른 카메라 뷰에서 동일한 개인을 찾는 작업입니다. 이는 보안 분야에서 중요한 응용을 가지고 있습니다.
개요: 레이블이 없는 데이터로 패턴을 인식하도록 컴퓨터를 가르치는, 즉 unsupervised learning이라고 알려진 방법이 간단한 조정 덕분에 더 접근하기 쉬워졌습니다...
현대 잠재 확산 모델(LDM)은 일반적으로 픽셀 수준 재구성을 위해 주로 최적화된 저수준 변분 오토인코더(VAE) 잠재 공간에서 작동합니다.
단일 카메라 깊이 추정은 여전히 어려운 과제로, Depth Anything V2 (DA-V2)와 같은 최신 기반 모델들은 실제 세계 이미지에서 멀리 떨어진…
최근 3D 재구성 분야의 진보로 일상적인 환경에서 현실적인 디지털 트윈을 쉽게 만들 수 있게 되었습니다. 그러나 현재 디지털 트윈은 여전히 크게…
딥러닝이 증가함에 따라 AI 시스템이 객체를 식별할 수 있는 모델을 이해하기가 점점 어려워집니다. 따라서, 적대자는…
다중 인물 상호작용을 이해하고 생성하는 것은 robotics와 social computing에 광범위한 영향을 미치는 근본적인 도전 과제입니다. 인간은 자연스럽게…
우리는 RadarGen을 소개합니다. RadarGen은 다중 뷰 카메라 이미지로부터 현실적인 자동차 레이더 포인트 클라우드를 합성하기 위한 diffusion model입니다. RadarGen은 효율적인 이미지‑...
현재 self-explainable models (SEMs)를 설계하기 위한 접근 방식은 복잡한 training procedures와 특정 architectures를 필요로 하여 실용적이지 않다....
VLM을 평가할 때 주요 과제는 모델이 텍스트 사전 지식과는 독립적으로 시각적 콘텐츠를 분석할 수 있는 능력을 테스트하는 것입니다. BLINK와 같은 최신 벤치마크는…
현대 확산 모델(DMs)은 최첨단 이미지 생성 성능을 달성했습니다. 그러나 데이터를 완전히 백색 잡음까지 확산시키는 근본적인 설계 선택은…
식물 질병은 전 세계 식량 안보에 중대한 위협이 되며, 정확하고 해석 가능한 질병 탐지 방법이 필요합니다. 이 연구는 i...
Text-to-image (T2I) diffusion models는 고품질 이미지를 생성하지만 텍스트 프롬프트에 지정된 공간 관계를 포착하지 못하는 경우가 많습니다. 이 제한은…
우리는 병리학에서 다중 인스턴스 학습(MIL)을 위한 오픈 소스 AutoML 및 벤치마킹 프레임워크인 PathBench-MIL을 소개합니다. 이 시스템은 end-to‑end…
Depth-of-field 제어는 사진 촬영에서 필수적이지만, 완벽한 초점을 맞추려면 여러 번 시도하거나 특수 장비가 필요합니다. Single-image refocusing은 아직…
우리는 WorldCanvas를 소개합니다. 이는 promptable world events를 위한 프레임워크로, 텍스트, trajectories, reference image를 결합하여 풍부하고 사용자 주도적인 시뮬레이션을 가능하게 합니다.
자연어에서 생성적 사전학습(generative pretraining)의 성공에 영감을 받아, 우리는 동일한 원칙이 강력한 자체 지도(self-supervised) 시각 학습자(visual learners)를 만들 수 있는지 묻는다. Inst...
멀티모달 LLM(MLLM)용 기존 평가 방법은 해석 가능성이 부족하고, 종종 중요한 능력 격차를 완전히 드러내기에 충분하지 않다.
시각 입력으로부터 3D 장면 기하학을 인식하고 재구성하는 것은 자율 주행에 매우 중요합니다. 그러나 아직도 운전 목표에 특화된 밀집 기하학이 부족합니다.
이미지 편집은 급속히 발전했지만, 비디오 편집은 덜 탐구된 상태이며 일관성, 제어 및 일반화에 대한 도전에 직면하고 있습니다. 우리는 디자인을…
최근 연구에 따르면 멀티모달 대형 언어 모델(MLLMs)은 비전 도구와의 상호작용을 포함한 멀티모달 인터리브 체인오브쓸(Chain-of-Thought, CoT)에서 이점을 얻는 것으로 나타났습니다.
VR 헤드셋과 3D 시네마를 포함한 스테레오스코픽 디스플레이의 급속한 성장으로 고품질 스테레오 비디오 콘텐츠에 대한 수요가 증가하고 있습니다. 그러나, pr...
본 연구에서는 다양한 장면 거리 전반에 일반화되는 파노라마 메트릭 깊이 파운데이션 모델을 제시합니다. 우리는 데이터‑인‑루프 패러다임을 …에서 탐구합니다.
최근 멀티모달 모델의 발전은 고해상도 이미지 생성에서 이미지 토큰화의 핵심적인 역할을 강조합니다. 이미지를 압축하여 컴팩트한 la...
3D hand trajectory prediction에 관한 기존 연구들은 움직임을 의미론적 감독과 분리하는 데이터셋과 추론을 약하게 연결하는 모델에 의해 제한됩니다.
보상 모델(RMs)은 대형 언어 모델(LLMs) 훈련에 필수적이지만, 이미지와 텍스트가 교차하는 시퀀스를 처리하는 옴니 모델에 대해서는 아직 충분히 탐구되지 않았다.