[Paper] 선형화된 어텐션에서 영향 가변성: 비수렴 NTK 동역학의 이중 함의
주의 메커니즘의 이론적 기반을 이해하는 것은 그 복잡하고 비선형적인 역학 때문에 여전히 어려운 과제이다. 이 연구는 근본적인…
주의 메커니즘의 이론적 기반을 이해하는 것은 그 복잡하고 비선형적인 역학 때문에 여전히 어려운 과제이다. 이 연구는 근본적인…
확산 모델이 노이즈를 사진으로 바꿀 때 실제로 무엇을 하고 있는 걸까요? 우리는 결정론적 DDIM 역체인이 Partitioned Iter… 로 작동한다는 것을 보여줍니다.
강화 학습(RL)은 보상 신호로부터 학습을 가능하게 하여, 사후 훈련 diffusion 기반 이미지 synthesis 모델에 대한 표준 기법이 되었다.
Autoregressive (AR) video generative models는 픽셀을 이산 토큰 시퀀스로 압축하는 video tokenizers에 의존합니다. 이러한 토큰 시퀀스의 길이는 …
멀티모달 대형 언어 모델(MLLMs)은 GUI 탐색과 같은 시각 워크플로를 수행하는 데 점점 더 많이 사용되고 있으며, 다음 단계는 검증된 시각에 따라 달라집니다.
현대의 visual agents는 실시간 스트리밍 환경에서 작동하기 위해 일반적이고 인과적이며 물리적으로 구조화된 표현을 필요로 합니다. 그러나 현재...
Unified multimodal models는 공동 이해, 추론 및 생성에 초점을 맞추지만, 현재의 image editing benchmarks는 대부분 자연 이미지에 국한되어 있다.
온라인 비디오 대형 언어 모델(VideoLLMs)은 반응성 있는 실시간 상호작용을 지원하는 데 중요한 역할을 합니다. 기존 방법들은 streaming percept…
텍스트-이미지 생성 모델은 빠르게 발전했지만, 생성된 이미지에 대한 세밀한 제어를 달성하는 것은 여전히 어려우며, 이는 주로 제한된 …
인간은 시각적 관찰의 스트림을 통해 현실 세계의 공간을 인지하고 이해한다. 따라서, 공간 증거를 스트리밍 방식으로 유지하고 업데이트하는 능력이 필요하다.
기존 비디오 깊이 추정은 근본적인 트레이드오프에 직면합니다: 생성 모델은 확률적 기하학적 환각과 스케일 드리프트에 시달리는 반면, discrimi...
과학적 멀티모달 문서 추론 데이터셋을 구축하는 것은 foundation model 훈련을 위해 규모(scale), 충실도(faithfulness), 현실성(realism) 사이의 내재된 트레이드오프를 포함한다.
원격 감지 이미지에서의 Salient object detection (SOD)은 객체 크기의 큰 변동과 self-att의 계산 비용 등으로 인해 상당한 도전에 직면하고 있다.
비디오 이벤트와 시간적으로 일치하는 음악을 생성하는 것은 기존 텍스트-투-뮤직 모델들에 있어 어려운 과제이며, 이 모델들은 세밀한 temporal control이 부족합니다. 우리는 ...
최근 텍스트‑투‑이미지 (T2I) 생성 분야의 발전으로 시각적 품질이 크게 향상되었지만, 실제 사진처럼 시각적으로 진짜 같은 이미지를 생성하는 것은 여전히 어려운 문제입니다.
기계론적 해석성(mechanistic interpretability)의 핵심 아이디어는 신경망(neural networks)이 차원보다 더 많은 특징(features)을 표현하고, 이를 중첩(superposition) 형태로 배열한다는 것이다…
온라인 새로운 뷰 합성은 여전히 어려운 과제로, 순차적이고 종종 포즈가 지정되지 않은 관측으로부터 강인한 장면 재구성이 필요합니다. 우리는 ReCoSplat을 제시합니다.
다중 인스턴스 학습(MIL)은 슬라이드 수준 진단으로 전체 슬라이드 이미지(WSI)를 분류하는 조직병리학에 널리 적용되어 왔습니다. 실제 정답이…
전통적인 임상 CMR 파이프라인은 순차적인 ‘reconstruct-then-analyze’ 패러다임에 의존하여, 회피 가능한 불안정한 중간 단계를 강요한다.
중재 방사선학에서, Cone‑Beam Computed Tomography (CBCT)는 최소 침습 ... 동안 실무자에게 안내를 제공하는 유용한 영상 모달리티입니다.
Text-motion retrieval은 자연어 설명과 3D human motion skeleton sequences 사이에 의미적으로 정렬된 latent space를 학습하는 것을 목표로 하며, 이를 통해 b...
Chamfer distance는 point cloud reconstruction, completion, generation에 대한 표준 훈련 손실이지만, 이를 직접 최적화하면 더 나쁜 Chamfer …
Diffusion models는 이미지를 노이즈를 통해 손상시키고, 이 과정을 역전하면 타임스텝 전반에 걸친 정보 계층 구조가 드러납니다. Scale-space theory는 유사한…
Autoregressive (AR) diffusion은 이론적으로 무한한 길이의 비디오를 생성하기 위한 유망한 프레임워크를 제공합니다. 그러나 주요 과제는 템...
우리는 혼합 오디오 스트림으로부터 두 명의 상호작용하는, 같은 위치에 있는 참가자들의 완전한 3D facial animations을 생성하는 어려운 과제에 도전합니다. 기존에 …
최근 3D Gaussian Splatting (3DGS)의 발전은 reconstruction fidelity와 computational efficiency의 균형에 초점을 맞추게 되었다. 본 연구에서는...
템플릿이 없는 애니메이션 가능한 헤드 아바타는 피사체의 캡처에서 직접 표현 의존적인 얼굴 변형을 학습함으로써 높은 시각적 충실도를 달성할 수 있습니다, av...
open-world visual recognition에서 신뢰성을 보장하려면 모델이 interpretable하고, fair하며, distribution shifts에 robust해야 합니다. 그러나 현대 vision sys...
Streaming video understanding은 종종 시간에 민감한 시나리오를 포함하고, 모델은 지원 시각 증거가 나타나는 정확한 시점을 답해야 합니다: 답변…
고위험 의료 진단에서의 설명 가능성 의료 진단과 같은 고위험 상황에서는 사용자가 컴퓨터 비전 모델이 …
Multimodal Large Language Models (MLLM) 분류 성능은 평가 프로토콜과 ground truth 품질에 크게 의존합니다. MLLM을 비교하는 연구는 w...
최근 멀티모달 대형 언어 모델(MLLMs)은 인상적인 발전을 이루었지만, 이들은 주로 기존의 자동회귀(autoregressive) 아키텍처를 기반으로 사용하고 있다.
Incremental Few-Shot (IFS) segmentation은 소수의 주석만으로 시간에 따라 새로운 카테고리를 학습하는 것을 목표로 합니다. 2D에서 널리 연구되었지만, 아직 충분히 활용되지…
외과 의사는 단순히 보는 것이 아니라 해석한다. 전문가가 수술 현장을 관찰할 때, 그들은 사용되는 instrument가 무엇인지뿐만 아니라 왜 선택되었는지도 이해한다.
Vision Language Model (VLM) 개발은 주로 모델 크기 확대에 의존해 왔으며, 이는 컴퓨팅 자원이 제한된 모바일 및 엣지 디바이스에 배포하는 것을 방해합니다. such a...
차세대 자율주행 차량(AV)은 실시간 의사결정을 지원하기 위해 대량의 다중소스 및 다중모달(M^2) 데이터를 활용한다. 실제로, 데이터...
우리는 볼륨 메쉬 상에서 데이터 기반 연부 조직 시뮬레이션을 위한 다중해상도 게이트 트랜스포머인 SurgFormer를 소개한다. 고충실도 생체역학 솔버는 …
부정은 기본적인 언어 연산자이지만, diffusion-based generative systems에서는 충분히 모델링되지 못하고 있다. 본 연구에서는 형식적인 접근을 제시한다.
고품질 3D 스트리밍은 다중 카메라에서 제공되며, 많은 AR/VR 애플리케이션에서 몰입형 경험을 위해 필수적입니다. 제한된 뷰 수는 종종 실제…
비디오 이해를 위한 데이터셋이 시간 단위의 길이까지 확장되었지만, 이들은 일반적으로 자연스럽고 즉흥적인(unscripted) 상황과는 다른, 촘촘히 연결된 클립들로 구성됩니다.
하이퍼스펙트럴 이미지(HSI)는 환경 모니터링부터 국가 안보에 이르기까지 다양한 분야에 활용되며, 물질 탐지 및 식별에 사용할 수 있습니다.
현재 video generation models는 forces와 robotic manipulations와 같은 3D 행동의 물리적 결과를 시뮬레이션할 수 없으며, 구조적 이해가 부족하기 때문입니다.
인간 동작 예측은 trajectory forecasting와 human pose prediction 작업을 결합합니다. 두 작업 각각에 대해, 특화된 models가 개발되었습니다.
피드포워드 트랜스포머 모델은 3D 비전에서 급속한 발전을 이끌었지만, VGGT 및 π³와 같은 최첨단 방법은 계산 비용이 규모에 따라 증가합니다.
전통적인 vision-language 모델은 대비적인 세밀한 분류학적 추론에 어려움을 겪으며, 특히 시각적으로 유사한 종을 구별할 때 그렇다.
병리 보고서 생성은 주로 gigapixel 규모와 복잡한 형태학적 이질성 때문에 비교적 탐구가 부족한 downstream task로 남아 있습니다.
대규모 Vision‑Language Foundation Models(VLFMs), 예를 들어 CLIP은 이제 다양한 컴퓨터 비전 연구 및 응용 분야의 기반이 되고 있습니다. VLFMs는 종종 ada...
컴퓨터 지원 설계(CAD) 모델을 구축하는 것은 노동 집약적이지만 엔지니어링 및 제조에 필수적입니다. 최근 대규모 언어 모델(Large Language Models, LL…)