[Paper] 정교한 World Models
최근 3D 재구성 분야의 진보로 일상적인 환경에서 현실적인 디지털 트윈을 쉽게 만들 수 있게 되었습니다. 그러나 현재 디지털 트윈은 여전히 크게…
최근 3D 재구성 분야의 진보로 일상적인 환경에서 현실적인 디지털 트윈을 쉽게 만들 수 있게 되었습니다. 그러나 현재 디지털 트윈은 여전히 크게…
딥러닝이 증가함에 따라 AI 시스템이 객체를 식별할 수 있는 모델을 이해하기가 점점 어려워집니다. 따라서, 적대자는…
다중 인물 상호작용을 이해하고 생성하는 것은 robotics와 social computing에 광범위한 영향을 미치는 근본적인 도전 과제입니다. 인간은 자연스럽게…
우리는 RadarGen을 소개합니다. RadarGen은 다중 뷰 카메라 이미지로부터 현실적인 자동차 레이더 포인트 클라우드를 합성하기 위한 diffusion model입니다. RadarGen은 효율적인 이미지‑...
현재 self-explainable models (SEMs)를 설계하기 위한 접근 방식은 복잡한 training procedures와 특정 architectures를 필요로 하여 실용적이지 않다....
VLM을 평가할 때 주요 과제는 모델이 텍스트 사전 지식과는 독립적으로 시각적 콘텐츠를 분석할 수 있는 능력을 테스트하는 것입니다. BLINK와 같은 최신 벤치마크는…
현대 확산 모델(DMs)은 최첨단 이미지 생성 성능을 달성했습니다. 그러나 데이터를 완전히 백색 잡음까지 확산시키는 근본적인 설계 선택은…
식물 질병은 전 세계 식량 안보에 중대한 위협이 되며, 정확하고 해석 가능한 질병 탐지 방법이 필요합니다. 이 연구는 i...
Text-to-image (T2I) diffusion models는 고품질 이미지를 생성하지만 텍스트 프롬프트에 지정된 공간 관계를 포착하지 못하는 경우가 많습니다. 이 제한은…
우리는 병리학에서 다중 인스턴스 학습(MIL)을 위한 오픈 소스 AutoML 및 벤치마킹 프레임워크인 PathBench-MIL을 소개합니다. 이 시스템은 end-to‑end…
Depth-of-field 제어는 사진 촬영에서 필수적이지만, 완벽한 초점을 맞추려면 여러 번 시도하거나 특수 장비가 필요합니다. Single-image refocusing은 아직…
우리는 WorldCanvas를 소개합니다. 이는 promptable world events를 위한 프레임워크로, 텍스트, trajectories, reference image를 결합하여 풍부하고 사용자 주도적인 시뮬레이션을 가능하게 합니다.
자연어에서 생성적 사전학습(generative pretraining)의 성공에 영감을 받아, 우리는 동일한 원칙이 강력한 자체 지도(self-supervised) 시각 학습자(visual learners)를 만들 수 있는지 묻는다. Inst...
멀티모달 LLM(MLLM)용 기존 평가 방법은 해석 가능성이 부족하고, 종종 중요한 능력 격차를 완전히 드러내기에 충분하지 않다.
시각 입력으로부터 3D 장면 기하학을 인식하고 재구성하는 것은 자율 주행에 매우 중요합니다. 그러나 아직도 운전 목표에 특화된 밀집 기하학이 부족합니다.
이미지 편집은 급속히 발전했지만, 비디오 편집은 덜 탐구된 상태이며 일관성, 제어 및 일반화에 대한 도전에 직면하고 있습니다. 우리는 디자인을…
최근 연구에 따르면 멀티모달 대형 언어 모델(MLLMs)은 비전 도구와의 상호작용을 포함한 멀티모달 인터리브 체인오브쓸(Chain-of-Thought, CoT)에서 이점을 얻는 것으로 나타났습니다.
VR 헤드셋과 3D 시네마를 포함한 스테레오스코픽 디스플레이의 급속한 성장으로 고품질 스테레오 비디오 콘텐츠에 대한 수요가 증가하고 있습니다. 그러나, pr...
본 연구에서는 다양한 장면 거리 전반에 일반화되는 파노라마 메트릭 깊이 파운데이션 모델을 제시합니다. 우리는 데이터‑인‑루프 패러다임을 …에서 탐구합니다.
최근 멀티모달 모델의 발전은 고해상도 이미지 생성에서 이미지 토큰화의 핵심적인 역할을 강조합니다. 이미지를 압축하여 컴팩트한 la...
3D hand trajectory prediction에 관한 기존 연구들은 움직임을 의미론적 감독과 분리하는 데이터셋과 추론을 약하게 연결하는 모델에 의해 제한됩니다.
보상 모델(RMs)은 대형 언어 모델(LLMs) 훈련에 필수적이지만, 이미지와 텍스트가 교차하는 시퀀스를 처리하는 옴니 모델에 대해서는 아직 충분히 탐구되지 않았다.
Video Large Language Models (VLLMs)는 인터넷 규모 데이터에 대한 사전 학습을 통해 세계 지식을 활용한 비디오 이해를 가능하게 하며, 이미 가능성을 보여주고 있습니다.
Machine Learning (ML)을 희귀 질환, 예를 들어 collagen VI‑related dystrophies (COL6‑RD)의 진단에 적용하는 것은 근본적으로 s…에 의해 제한됩니다.