[Paper] 분포 매칭 Variational AutoEncoder
대부분의 시각 생성 모델은 이미지를 잠재 공간(latent space)으로 압축한 뒤 diffusion이나 autoregressive 모델링을 적용합니다. 그러나 VAEs와 같은 기존 접근법은 …
대부분의 시각 생성 모델은 이미지를 잠재 공간(latent space)으로 압축한 뒤 diffusion이나 autoregressive 모델링을 적용합니다. 그러나 VAEs와 같은 기존 접근법은 …
멀티모달 대형 언어 모델(MLLMs)은 시각‑언어 이해 작업에서 놀라운 능력을 보여주었습니다. 이러한 모델은 종종 ling...
DreamerV3는 놀라운 샘플 효율성으로 알려진 최첨단 온라인 모델 기반 강화 학습(MBRL) 알고리즘입니다. 동시에, Kolmogorov-Arno…
Lottery Ticket Hypothesis은 조밀하고 무작위 초기화된 신경망 내에 매우 희소하고 학습 가능한 서브네트워크('winning tickets')가 존재한다는 것을 주장한다.
이 논문은 ArcGD 옵티마이저의 공식화, 구현 및 평가를 제시한다. 평가는 처음에 비볼록 벤치마크 함수에 대해 수행된다.
Instruction-based image editing은 눈에 띄는 연구 분야로 부상했으며, image generation foundation models의 혜택을 받아 높은 미학적…
수중 이미지는 파장에 따라 달라지는 빛의 흡수와 산란 때문에 색 왜곡이 심하고, 대비가 낮으며, 흐릿한 외관을 자주 보입니다. Si...
비전-언어 모델(VLM)은 시각 질문 응답(VQA)에서 강력한 성능을 달성했지만, 여전히 정적인 학습 데이터에 제한을 받고 있습니다. Retrieva...
Vision-Language Models (VLMs)는 놀라운 상식 및 의미론적 추론 능력을 보여줍니다. 그러나 이들은 물리적 역학에 대한 근거 있는 이해가 부족합니다…
Grounding은 그래픽 사용자 인터페이스(GUI) 에이전트를 구축하기 위한 기본적인 능력입니다. 기존 접근 방식들은 대규모 바운딩 박스 감독에 의존하지만…
딥러닝을 위한 설명 가능한 AI(XAI)의 일반적인 접근 방식은 주어진 모델에서 분류 작업에 대한 입력 특징의 중요성을 분석하는 데 초점을 맞춥니다: sal...
본 논문에서는 traffic sign recognition 작업에서 d...의 장점을 결합한 synthesis pipeline 및 dataset을 제시하여 training / testing 데이터를 제공합니다.