[Paper] 검색 및 분할: 몇 개의 예시만으로 Open-Vocabulary Segmentation의 감독 격차를 메울 수 있을까?
Open-vocabulary segmentation (OVS)은 vision-language models (VLMs)의 zero-shot 인식 능력을 pixel-level prediction으로 확장하여 segmentation을 가능하게 합니다.
Open-vocabulary segmentation (OVS)은 vision-language models (VLMs)의 zero-shot 인식 능력을 pixel-level prediction으로 확장하여 segmentation을 가능하게 합니다.
Omni-modal reasoning은 지능형 시스템이 다양한 데이터 소스로부터 이해하고 추론을 도출하는 데 필수적입니다. While existing omni-modal large language …
의료 진단은 시각적 표현과 임상 메타데이터를 효과적으로 통합해야 합니다. 그러나 기존 방법들은 종종 메타데이터를 고립된 …
최근에는 large datasets가 효율적인 model training을 방해하고 중복된 개념을 포함하고 있습니다. Dataset distillation은 compact datasets를 합성하는 것을 목표로 합니다.
비구조화된 포인트 클라우드 데이터에서 동적 3D 객체의 temporally consistent surface reconstruction은 특히 매우 긴 시퀀스의 경우 여전히 어려운 과제이다. E...
Egocentric manipulation videos는 상호작용 중 심각한 가림 현상과 카메라 시야에서 물체가 자주 들어오고 나가는 등으로 인해 매우 도전적입니다.
기존의 action‑conditioned video generation models (video world models)는 단일 에이전트 관점에 제한되어 있어, 다중 에이전트 상호작용을 포착하지 못한다.
생성 AI(GenAI)의 발전으로 이미지의 무단 사용을 방지하기 위한 다양한 보호 전략이 개발되었습니다. 이러한 방법들은 ...
최근 몇 년간, 전체 슬라이드 이미지를 타일로 자르고, 이러한 타일을 foundation model을 사용해 처리하는 표준 컴퓨테이셔널 병리학 워크플로우가 등장했습니다.
객체 환각은 대형 비전-언어 모델(LVLMs)에서 중요한 문제로, 출력에 입력 이미지에 존재하지 않는 객체가 포함되는 경우를 말합니다. 자연스러운…
Medical vision-language pretraining은 대규모 supervisory signals로서 의료 보고서에 점점 더 의존하고 있습니다; 그러나 원시 보고서는 종종 상당한 st...
최근의 Multimodal Large Language Models의 발전은 시각적 이해와 추론을 크게 향상시켰지만, 그들의 quadratic attention과 offline training…