[Paper] Utonia: 모든 포인트 클라우드를 위한 하나의 Encoder
우리는 모든 분야의 point clouds가 모여 모두에게 이익이 되는 단일 모델을 형성하는 미래를 꿈꿉니다. 이 목표를 향해 우리는 Utonia를 제시합니다, ...
우리는 모든 분야의 point clouds가 모여 모두에게 이익이 되는 단일 모델을 형성하는 미래를 꿈꿉니다. 이 목표를 향해 우리는 Utonia를 제시합니다, ...
Embodied Conversational Agents (ECAs)는 음성, 제스처, 그리고 얼굴 표정을 통해 인간의 대면 상호작용을 모방하는 것을 목표로 합니다. 현재 large language model…
많은 필수적인 조작 작업—예를 들어 음식 준비, 수술, 그리고 장인 기술—은 자율 로봇에게는 여전히 해결하기 어렵다. 이러한 작업들은 ...
자율적이고 다목적 전체 몸체 whole-body loco-manipulation을 달성하는 것은 인간형 로봇을 실용적으로 유용하게 만드는 데 핵심적인 장벽으로 남아 있습니다. 그러나 기존 접근 방식은 fu...
상호작용과 경험으로부터 수행하고 학습하는 능력은 로봇공학에서 핵심적인 과제로, 노동 집약적인 인간 ...에 대한 확장 가능한 대안을 제공합니다.
Feedforward geometric foundation models는 짧은 윈도우 재구성에서 강력한 성능을 달성하지만, 이를 분 단위 길이의 비디오로 확장하는 데는 quadratic attention에 의해 병목 현상이 발생합니다.
통합 멀티모달 모델은 최근 강력한 생성 능력을 보여주었지만, 생성이 이해를 향상시키는지, 그리고 언제 향상시키는지는 아직 명확하지 않습니다. Exi...
Omni-modal large language models (omni LLMs)는 최근 시청각 이해 작업 전반에 걸쳐 강력한 성능을 달성했지만, 여전히 높은 취약성을 보인다.
인간과 제품이 결합된 모습을 보여주는 인간‑제품 이미지(Human‑product images)는 광고, 전자상거래(e‑commerce), 디지털 마케팅에서 중요한 역할을 합니다. 필수적인 …
우리는 Sketch2Colab을 소개한다. 이는 스토리보드 스타일 2D 스케치를 일관된 객체 인식이 가능한 3D 다중 인간 모션으로 변환하며, 에이전트와 관절에 대한 세밀한 제어를 제공한다.
Instruction-based video editing은 급속한 발전을 이루었지만, 현재 방법들은 자연어가 본질적으로 … 때문에 정밀한 시각적 제어에 어려움을 겪는다.
스케일링 법칙은 더 많은 데이터로 훈련된 대형 모델이 일관되게 소형 모델보다 성능이 우수하다고 가정합니다—이는 컴퓨터 비전에서 모델 선택을 주도하는 가정이지만 …
멀티모달 검색은 이질적인 모달리티에 걸친 쿼리에서 정보를 집계하여 원하는 타깃을 검색하는 작업이다. 최첨단 멀티모달…
포즈가 지정되지 않은 이미지에서의 고밀도 4D 재구성은 여전히 중요한 과제이며, 현재 방법들은 느린 테스트‑타임 최적화에 의존하거나 단편적이고 작업‑특화된…
초에서 분 단위로 비디오 생성 규모를 확장하는 것은 중요한 병목 현상에 직면합니다: short‑video 데이터는 풍부하고 high‑fidelity하지만, coherent long‑form data는 …
Diffusion 기반 Real-World Image Super-Resolution (Real-ISR)은 인상적인 지각 품질을 달성하지만, 반복적인 과정으로 인한 높은 계산 비용이 문제입니다.
현대 microscopy는 일상적으로 gigapixel 이미지를 생성하며, 이는 미세한 세포 형태에서부터 더 넓은 조직까지 다양한 spatial scales에 걸친 구조를 포함합니다.
Diffusion models는 state-of-the-art 비디오 생성 품질을 달성하지만, 순차적인 denoising 단계가 많이 필요하기 때문에 inference가 여전히 비용이 많이 듭니다....
그들의 능력에도 불구하고, Multimodal Large Language Models (MLLMs)는 그럴듯하지만 오류가 있는 출력을 생성할 수 있어 신뢰할 수 있는 배포를 방해합니다. 정확한 불확…
우리는 MediX‑R1을 소개합니다. 이는 의료 멀티모달 대형 언어 모델(MLLMs)을 위한 개방형 강화 학습(RL) 프레임워크로, 임상적으로 기반된…
우리는 오프라인 피드포워드 방식의 중요한 한계인 계산 및 메모리 요구사항을 해결하는 확장 가능한 3D 재구성 모델을 제시합니다.
우리는 occlusion reasoning을 3D layout‑conditioned generation에 있어 근본적이면서도 간과된 측면으로 규정한다. 이는 부분적으로 가려진…
바이오 영감을 받은 이벤트 카메라는 비동기식 및 저지연 특성 때문에 최근 큰 연구 관심을 끌고 있습니다. 이러한 특징은 높은 dy...
Vision‑Language Models (VLMs)에서 추론 능력의 부족은 연구 논의의 최전선에 남아 있습니다. 우리는 이 현상이 …에서 비롯된다고 가정합니다.
Open-vocabulary segmentation (OVS)은 vision-language models (VLMs)의 zero-shot 인식 능력을 pixel-level prediction으로 확장하여 segmentation을 가능하게 합니다.
Omni-modal reasoning은 지능형 시스템이 다양한 데이터 소스로부터 이해하고 추론을 도출하는 데 필수적입니다. While existing omni-modal large language …
의료 진단은 시각적 표현과 임상 메타데이터를 효과적으로 통합해야 합니다. 그러나 기존 방법들은 종종 메타데이터를 고립된 …
최근에는 large datasets가 효율적인 model training을 방해하고 중복된 개념을 포함하고 있습니다. Dataset distillation은 compact datasets를 합성하는 것을 목표로 합니다.
비구조화된 포인트 클라우드 데이터에서 동적 3D 객체의 temporally consistent surface reconstruction은 특히 매우 긴 시퀀스의 경우 여전히 어려운 과제이다. E...
Egocentric manipulation videos는 상호작용 중 심각한 가림 현상과 카메라 시야에서 물체가 자주 들어오고 나가는 등으로 인해 매우 도전적입니다.
기존의 action‑conditioned video generation models (video world models)는 단일 에이전트 관점에 제한되어 있어, 다중 에이전트 상호작용을 포착하지 못한다.
생성 AI(GenAI)의 발전으로 이미지의 무단 사용을 방지하기 위한 다양한 보호 전략이 개발되었습니다. 이러한 방법들은 ...
최근 몇 년간, 전체 슬라이드 이미지를 타일로 자르고, 이러한 타일을 foundation model을 사용해 처리하는 표준 컴퓨테이셔널 병리학 워크플로우가 등장했습니다.
Arbitrary-Scale SR (ASISR)은 근본적으로 cross-scale distribution shift에 의해 제한됩니다: 추론 스케일이 학습 범위를 벗어나면 노이즈, 블러 및…
객체 환각은 대형 비전-언어 모델(LVLMs)에서 중요한 문제로, 출력에 입력 이미지에 존재하지 않는 객체가 포함되는 경우를 말합니다. 자연스러운…
Medical vision-language pretraining은 대규모 supervisory signals로서 의료 보고서에 점점 더 의존하고 있습니다; 그러나 원시 보고서는 종종 상당한 st...
최근의 Multimodal Large Language Models의 발전은 시각적 이해와 추론을 크게 향상시켰지만, 그들의 quadratic attention과 offline training…
정리된 Markdown 버전
Test-time training (TTT)와 KV binding을 시퀀스 모델링 레이어로 사용하는 것은 일반적으로 키-값 매핑을 기억하는 온라인 메타러닝의 한 형태로 해석됩니다.
시각 강화 학습은 로봇공학에 매력적이지만 비용이 많이 듭니다 — 오프-폴리시 방법은 샘플 효율적이지만 느리고, 온-폴리시 방법은 병렬화가 잘 되지만…
우리는 모든 모달리티에서 late interaction을 위한 효율적인 multi-vector retrieval을 연구한다. late interaction은 정보 검색에서 지배적인 패러다임으로 부상했다.
Embodied LLMs는 로봇에 고수준 작업 추론 능력을 부여하지만, 무엇이 잘못됐는지 혹은 그 이유를 반성할 수 없으며, 이로 인해 배포가 일련의 독립적인 …
Cryo-electron tomography (cryo-ET)는 막과 membrane proteins를 포함한 생물학적 구조의 고해상도 three-dimensional reconstruction을 가능하게 한다.
Vision-Language Models (VLMs)는 뛰어난 2D 시각 이해를 보여주지만, 3D 공간을 이해하고 추론하는 능력—공간 인식의 핵심—은 아직 제한적이다.
그래프 기반 의료 영상 분할은 경계 그래프를 사용하여 해부학적 구조를 나타내며, 고정 토폴로지 랜드마크와 고유한 인구 수준…
Deep learning은 자동 뇌종양 진단을 크게 향상시켰지만, 임상 적용은 interpretability와 computational constraint 때문에 여전히 제한적이다.
텍스트-이미지 검색은 비전-언어 학습에서 기본적인 작업이지만, 실제 상황에서는 짧고 불명확한 사용자 질의 때문에 종종 어려움을 겪는다.
Vision-Language-Action (VLA) 모델은 모듈식 파이프라인을 통합된 엔드투엔드 아키텍처로 대체함으로써 자율 주행을 발전시키고 있다. 그러나 현재 VLAs…