[Paper] NeRFscopy: Neural Radiance Fields를 이용한 in‑vivo 시간 변동 조직의 내시경 영상
Endoscopy는 의료 영상에서 필수적이며, 진단, 예후 및 치료에 사용됩니다. 견고한 dynamic 3D reconstruction pipeline을 개발하는 것은 endoscopic vi...
Endoscopy는 의료 영상에서 필수적이며, 진단, 예후 및 치료에 사용됩니다. 견고한 dynamic 3D reconstruction pipeline을 개발하는 것은 endoscopic vi...
멀티모달 모델에 대한 현재 연구는 generative capabilities를 향상시키면 understanding이 희생되는 경우가 많고, 그 반대도 마찬가지인 핵심적인 과제에 직면해 있습니다.
이 논문은 RaCo라는 경량 신경망을 소개한다. 이 신경망은 다양한 3D 컴퓨터 비전 작업에 적합한 견고하고 다목적 키포인트를 학습하도록 설계되었다. Th...
기존 3D 오픈-보카뷸러리 씬 언더스탠딩 방법들은 주로 2D 파운데이션 모델에서 언어 특징을 추출해 3D 특징 필드에 증류하는 데 중점을 두지만, 대규모...
Visual analogy learning은 텍스트 설명이 아니라 시연을 통해 이미지 조작을 가능하게 하며, 사용자가 복잡한 변환을 지정할 수 있도록 합니다.
우리는 Sphere Encoder를 소개한다. 이는 단일 forward pass로 이미지를 생성할 수 있는 효율적인 generative framework이며, 다단계 diffusion 모델과 경쟁한다.
Neurosim은 dynamic vision sensors, RGB cameras, depth sensors, inertial sensors와 같은 센서를 시뮬레이션하기 위한 빠르고 실시간이며 고성능 라이브러리입니다....
Vision language models (VLMs)은 RGB 이미지에서 강력한 성능을 달성하지만, 열 이미지에는 일반화되지 않는다. Thermal sensing은 중요한 역할을 한다 ...
Articulated objects는 인터랙티브 3D 애플리케이션의 핵심이며, 여기에는 embodied AI, robotics, VR/AR이 포함되고, 기능적 파트 분해와 kinematic …
ground-level imagery와 geo-registered satellite maps를 정렬하는 것은 지도 작성, 내비게이션 및 상황 인식에 필수적이지만, 여전히 도전 과제로 남아 있다.
Task-specialized models는 agentic healthcare systems의 핵심을 이루며, agents가 disease diagnosis와 같은 작업 전반에 걸쳐 clinical queries에 답할 수 있게 합니다, ...
우리는 Web-Scale Multimodal Summarization을 소개합니다, 웹 소스에서 검색된 텍스트와 이미지 데이터를 결합하여 요약을 생성하는 경량 프레임워크입니다. G...