[Paper] Astra: 일반적인 인터랙티브 월드 모델과 자동회귀 디노이징
최근 확산 트랜스포머의 발전으로 비디오 생성 모델이 텍스트나 이미지로부터 고품질 비디오 클립을 생성할 수 있게 되었습니다. 그러나 world model...
최근 확산 트랜스포머의 발전으로 비디오 생성 모델이 텍스트나 이미지로부터 고품질 비디오 클립을 생성할 수 있게 되었습니다. 그러나 world model...
Novel View Synthesis (NVS)는 전통적으로 Structure‑from‑Motion에서 얻은 알려진 카메라 파라미터와 결합된 명시적인 3D inductive biases를 가진 모델에 의존해 왔습니다.
비디오에서 동적 장면의 복잡한 기하학 및 움직임을 이해하고 재구성하는 것은 컴퓨터 비전 분야에서 여전히 큰 도전 과제이다. 이 논문은 intr...
텍스트 인식 이미지 복원 (TAIR)은 손상된 텍스트 내용이 포함된 저품질 입력으로부터 고품질 이미지를 복원하는 것을 목표로 합니다. While diffusion models pro...
야간 환경은 카메라 기반 인식에 상당한 도전을 제기합니다. 기존 방법들은 장면 조명에 수동적으로 의존하기 때문입니다. 우리는 Lighting-...
단일 이미지에서 고품질의 텍스처가 적용된 3D 장면을 생성하는 것은 비전 및 그래픽 분야에서 근본적인 과제로 남아 있습니다. 최근의 image-to-3D generators는 ...
Content-aware layout generation은 그래픽 디자인 자동화에서 중요한 작업으로, 시각적으로 매력적인 요소들의 배치를 원활하게 만드는 데 초점을 둡니다.
시각적 추론은 어려운 작업으로, 정확한 객체 그라운딩과 복잡한 공간 관계에 대한 이해가 모두 필요합니다. 기존 방법들은 두 가지 진영으로 나뉩니다: ...
회전 불변성은 UAV 항공 이미지에서 정밀한 객체 수준 분할에 필수적이며, 대상은 임의의 방향을 가질 수 있고 미세한 …
Vision-language models (VLMs)은 원격 탐사를 위한 강력한 범용 도구로 부상하고 있으며, 다양한 작업에 걸쳐 정보를 통합하고 ...
Image captioning은 시각 장애인을 돕고, 콘텐츠 관리 시스템을 개선하며, 인간‑컴퓨터 상호작용을 향상시키는 등 많은 분야에서 필수적입니다.
문서 그림자 제거는 디지털화된 문서의 선명도를 향상시키는 데 필수적입니다. 고주파 디테일(예: 텍스트 가장자리 및 선)을 보존하는 것은 중요합니다.
최근 몇 년간 고성능 computer vision 모델이 medical imaging에서 눈부신 성공을 거두었으며, 일부 skin lesion classification 시스템은 ...
Automatic Sign Language Recognition (ASLR)은 청각 장애인과 청인 커뮤니티 간의 격차를 메우는 중요한 분야로 부상했습니다. 그러나, 수화‑...
생물학적 시스템은 놀라운 형태형성 가소성을 보여주며, 단일 유전체가 지역 화학 신호에 의해 유도되는 다양한 특수화된 세포 구조를 인코딩할 수 있다.
Voxel art는 게임 및 디지털 미디어에서 널리 사용되는 독특한 스타일링이지만, 3D meshes로부터 자동 생성하는 것은 상충하는 …
인간은 단순히 attribute similarity만 보는 것이 아니라 relational similarity도 본다. 사과는 둘 다 붉은 과일이기 때문에 peach와 비슷하지만, Earth도…
최근 비디오 생성 모델은 인상적인 합성 능력을 보여주지만, 단일 모달리티 조건에 의해 제한되어 전체적인 작업을 제약합니다.
시각 생성 모델(예: diffusion models)은 일반적으로 압축된 latent spaces에서 작동하여 학습 효율성과 샘플 품질의 균형을 맞춥니다. 동시에, ...
명령 기반 이미지 편집 데이터셋의 품질과 다양성은 지속적으로 증가하고 있지만, 대규모 고품질 데이터셋은 아직 부족합니다.
최근 비디오 생성기들은 놀라운 photorealism을 달성하지만, 3D에서는 근본적으로 일관성이 부족합니다. 우리는 WorldReel을 소개합니다, 이는 natively 4D 비디오 생성기입니다.
언어 필드를 3D 표현에 삽입하면 기하학을 서술적 의미와 연결시켜 공간 환경에 대한 보다 풍부한 의미 이해를 가능하게 합니다. Th...
우리는 Multi-view Pyramid Transformer (MVP)라는 확장 가능한 멀티뷰 트랜스포머 아키텍처를 제안한다. 이 아키텍처는 수십에서 수백 개에 이르는 대규모 3D 씬을 직접 재구성한다.
실제 영상에서 스토리텔링은 종종 여러 샷을 통해 전개됩니다—불연속적이지만 의미적으로 연결된 클립들이 함께 일관된 내러티브를 전달합니다.
대부분의 시각 생성 모델은 이미지를 잠재 공간(latent space)으로 압축한 뒤 diffusion이나 autoregressive 모델링을 적용합니다. 그러나 VAEs와 같은 기존 접근법은 …
멀티모달 대형 언어 모델(MLLMs)은 시각‑언어 이해 작업에서 놀라운 능력을 보여주었습니다. 이러한 모델은 종종 ling...
DreamerV3는 놀라운 샘플 효율성으로 알려진 최첨단 온라인 모델 기반 강화 학습(MBRL) 알고리즘입니다. 동시에, Kolmogorov-Arno…
Lottery Ticket Hypothesis은 조밀하고 무작위 초기화된 신경망 내에 매우 희소하고 학습 가능한 서브네트워크('winning tickets')가 존재한다는 것을 주장한다.
이 논문은 ArcGD 옵티마이저의 공식화, 구현 및 평가를 제시한다. 평가는 처음에 비볼록 벤치마크 함수에 대해 수행된다.
Instruction-based image editing은 눈에 띄는 연구 분야로 부상했으며, image generation foundation models의 혜택을 받아 높은 미학적…
수중 이미지는 파장에 따라 달라지는 빛의 흡수와 산란 때문에 색 왜곡이 심하고, 대비가 낮으며, 흐릿한 외관을 자주 보입니다. Si...
비전-언어 모델(VLM)은 시각 질문 응답(VQA)에서 강력한 성능을 달성했지만, 여전히 정적인 학습 데이터에 제한을 받고 있습니다. Retrieva...
Vision-Language Models (VLMs)는 놀라운 상식 및 의미론적 추론 능력을 보여줍니다. 그러나 이들은 물리적 역학에 대한 근거 있는 이해가 부족합니다…
Grounding은 그래픽 사용자 인터페이스(GUI) 에이전트를 구축하기 위한 기본적인 능력입니다. 기존 접근 방식들은 대규모 바운딩 박스 감독에 의존하지만…
딥러닝을 위한 설명 가능한 AI(XAI)의 일반적인 접근 방식은 주어진 모델에서 분류 작업에 대한 입력 특징의 중요성을 분석하는 데 초점을 맞춥니다: sal...
본 논문에서는 traffic sign recognition 작업에서 d...의 장점을 결합한 synthesis pipeline 및 dataset을 제시하여 training / testing 데이터를 제공합니다.
우리는 blooming, echo pulse width, ambient light를 포함한 자동차용 time-of-flight (ToF) LiDAR 시뮬레이션을 위한 분석 모델을 제시하며, 단계와 함께 ...
Facial recognition은 인증 및 식별을 위한 널리 사용되는 방법이 되었으며, 보안 접근 및 실종자 찾기에 활용됩니다. Its ...
최근 생성 비디오 모델의 발전으로 고품질 비디오 합성에서 큰 돌파구가 마련되었으며, 특히 제어 가능한 비디오 생성 분야에서 눈에 띄는 진전이 이루어졌습니다.
Orthognathic surgery는 dentofacial skeletal 변형을 교정하여 occlusal 기능과 facial aesthetics를 향상시키는 중요한 중재입니다. 정확한…
Long video understanding (LVU)은 실제 세계의 질의에 답변하기 위해서는 대부분 …에 묻혀 있는 희소하고 시간적으로 분산된 단서에 의존해야 하기 때문에 어려운 과제입니다.
YOLOv1 아키텍처와 처음부터 구현한 PyTorch 구현에 대한 자세한 walkthrough. 게시물: YOLOv1 Paper Walkthrough: YOLO가 처음 세상을 본 날.
우리는 다양한 작업에 대해 학습된 딥 뉴럴 네트워크가 놀라울 정도로 유사한 저차원 파라메트릭 서브스페이스를 나타낸다는 것을 보여준다. 우리는 최초의 대규모…
최근 조명 제어 분야의 발전은 이미지 기반 방법을 비디오로 확장했지만, 여전히 조명 충실도와 시간적 일관성 사이의 트레이드오프에 직면하고 있다. Mo...
흐름 매칭 모델—인기 있고 효과적인 생성 모델 클래스—을 인간 선호와 정렬하기 위한 방법이 존재하지만, 기존 접근 방식은 …
자기공명영상(MRI)의 분할은 해부학적 구조를 구분함으로써 인간 뇌 발달 분석을 용이하게 합니다. 그러나 영아와 ...
최근 통합된 멀티모달 대형 언어 모델(MLLMs)은 인상적인 능력을 보여주었으며, 향상된 텍스트-투-…
단일 카메라 Mannequin-Challenge (MC) 비디오에서 high-fidelity frozen 3D scenes를 합성하는 것은 standard dynamic scene reconstruction과는 구별되는 고유한 문제이다.