[Paper] ImLoc: 이미지 기반 표현을 통한 시각적 로컬라이제이션 재검토
기존 시각 위치추정 방법은 일반적으로 2D 이미지 기반 방식으로, 구축 및 유지가 쉽지만 효과적인 기하학적 추론에 제한이 있거나 …
기존 시각 위치추정 방법은 일반적으로 2D 이미지 기반 방식으로, 구축 및 유지가 쉽지만 효과적인 기하학적 추론에 제한이 있거나 …
Pathology foundation models (PFMs)은 computational pathology의 중심이 되었으며, whole-slide images에서 feature extraction을 위한 general encoders를 제공하는 것을 목표로 합니다.
Remote photoplethysmography (rPPG)는 상용 카메라로 촬영한 얼굴 비디오에서 혈액량 펄스 (BVP) 파형을 추정합니다. 최근의 딥 모델들은 …
Direct Preference Optimization (DPO)는 최근 텍스트‑투‑비디오 (T2V) 생성에서 시각적 충실도와 텍스트 정렬을 향상시켜 성능을 개선했습니다. 그러나 현재 방법…
Audio-video joint generation은 빠르게 진행되었지만, 여전히 상당한 도전 과제가 남아 있습니다. 비상업적 접근 방식은 여전히 audio‑visual asynchrony, …
세계 모델이 Embodied AI에서 가속화를 얻음에 따라, 점점 더 많은 연구가 비디오 foundation models를 예측적 세계 모델로 활용하여 downstream 작업에 적용하는 방안을 탐구하고 있다.
위성은 특히 지구 관측을 위해 위성 이미지 시계열(SITS)을 포함한 방대한 양의 데이터를 지속적으로 생성합니다. 그러나 대부분의 딥 러닝...
사용자를 대신해 그래픽 인터페이스와 상호작용하는 GUI agents는 실용적인 AI assistants를 위한 유망한 방향을 나타냅니다. 그러나 이러한 agents를 훈련하는 것은…
Automated blood morphology analysis는 저소득 및 중간소득 국가(LMICs)에서 혈액학 진단을 지원할 수 있지만, dataset shifts에 민감합니다.
대형 멀티모달 모델(LMMs)은 체인‑오브‑소트(Chain‑of‑Thought, CoT)를 통해 비디오 추론에서 인상적인 능력을 보여주었습니다. 그러나 그들의 추론의 견고성은…
정적 이미지로 학습된 피드포워드 인공 신경망(ANN)은 영장류 복측 시각 흐름의 지배적인 모델로 남아 있지만, 이들은 본질적으로…
우리는 Muses를 소개한다. 이는 피드포워드 패러다임에서 환상적인 3D 크리처 생성을 위한 최초의 training-free 방법이다. 이전 방법들은 part-aware opt...