[Paper] Astra: 일반적인 인터랙티브 월드 모델과 자동회귀 디노이징
최근 확산 트랜스포머의 발전으로 비디오 생성 모델이 텍스트나 이미지로부터 고품질 비디오 클립을 생성할 수 있게 되었습니다. 그러나 world model...
최근 확산 트랜스포머의 발전으로 비디오 생성 모델이 텍스트나 이미지로부터 고품질 비디오 클립을 생성할 수 있게 되었습니다. 그러나 world model...
Novel View Synthesis (NVS)는 전통적으로 Structure‑from‑Motion에서 얻은 알려진 카메라 파라미터와 결합된 명시적인 3D inductive biases를 가진 모델에 의존해 왔습니다.
비디오에서 동적 장면의 복잡한 기하학 및 움직임을 이해하고 재구성하는 것은 컴퓨터 비전 분야에서 여전히 큰 도전 과제이다. 이 논문은 intr...
텍스트 인식 이미지 복원 (TAIR)은 손상된 텍스트 내용이 포함된 저품질 입력으로부터 고품질 이미지를 복원하는 것을 목표로 합니다. While diffusion models pro...
야간 환경은 카메라 기반 인식에 상당한 도전을 제기합니다. 기존 방법들은 장면 조명에 수동적으로 의존하기 때문입니다. 우리는 Lighting-...
단일 이미지에서 고품질의 텍스처가 적용된 3D 장면을 생성하는 것은 비전 및 그래픽 분야에서 근본적인 과제로 남아 있습니다. 최근의 image-to-3D generators는 ...
Content-aware layout generation은 그래픽 디자인 자동화에서 중요한 작업으로, 시각적으로 매력적인 요소들의 배치를 원활하게 만드는 데 초점을 둡니다.
시각적 추론은 어려운 작업으로, 정확한 객체 그라운딩과 복잡한 공간 관계에 대한 이해가 모두 필요합니다. 기존 방법들은 두 가지 진영으로 나뉩니다: ...
회전 불변성은 UAV 항공 이미지에서 정밀한 객체 수준 분할에 필수적이며, 대상은 임의의 방향을 가질 수 있고 미세한 …
Vision-language models (VLMs)은 원격 탐사를 위한 강력한 범용 도구로 부상하고 있으며, 다양한 작업에 걸쳐 정보를 통합하고 ...
Image captioning은 시각 장애인을 돕고, 콘텐츠 관리 시스템을 개선하며, 인간‑컴퓨터 상호작용을 향상시키는 등 많은 분야에서 필수적입니다.
문서 그림자 제거는 디지털화된 문서의 선명도를 향상시키는 데 필수적입니다. 고주파 디테일(예: 텍스트 가장자리 및 선)을 보존하는 것은 중요합니다.