[Paper] DraCo: Draft as CoT for Text-to-Image 미리보기 및 희귀 개념 생성
최근 통합된 멀티모달 대형 언어 모델(MLLMs)은 인상적인 능력을 보여주었으며, 향상된 텍스트-투-…
최근 통합된 멀티모달 대형 언어 모델(MLLMs)은 인상적인 능력을 보여주었으며, 향상된 텍스트-투-…
단일 카메라 Mannequin-Challenge (MC) 비디오에서 high-fidelity frozen 3D scenes를 합성하는 것은 standard dynamic scene reconstruction과는 구별되는 고유한 문제이다.
Reward models는 인간 선호와 vision-language 시스템을 정렬하는 데 핵심적이지만, 현재 접근 방식은 hallucination, 약한 visual grounding 등으로 고통받고 있다...
우리는 ShadowDraw를 소개합니다. 이 프레임워크는 일반적인 3D 객체를 그림자 드로잉 구성 예술로 변환합니다. 3D 객체가 주어지면, 우리 시스템은 장면 …
표준 확산은 푸리에 계수의 무작위 크기와 무작위 위상을 가진 가우시안 노이즈를 사용해 데이터를 손상시킵니다. 무조건적이거나 …에 효과적이지만
All-in-One Image Restoration (AiOIR) 작업은 종종 다양한 열화를 포함하며, 이는 강인하고 다재다능한 전략을 필요로 합니다. 그러나 대부분의 기존 접근 방식은 …
Video generation models는 빠르게 발전하고 있지만, 여전히 의미적 분기나 반복적인 고수준 작업을 요구하는 복잡한 비디오 출력에서 어려움을 겪을 수 있습니다.
최근 몇 년간 AI 생성 이미지(AIGI)를 위한 이미지 품질 평가(IQA)가 급속히 발전했지만, 기존 방법들은 주로 초상화와 ar...
손이 서로 얽히거나 물체 뒤에 가려지거나, 심지어 약간 보이지 않을 때 정확한 모션 캡처를 얻기 위해 고생한 적이 있나요? 표준 컴퓨터 비전 시스템은…
Normalizing Flows (NFs)는 데이터와 Gaussian distribution 사이의 가역 매핑을 학습합니다. 기존 연구들은 보통 두 가지 제한점을 가지고 있습니다. 첫 번째로, 그들은 추가합니다...
우리는 ‘single-life’ 학습 패러다임을 소개합니다. 이 패러다임에서는 한 개인이 촬영한 egocentric 비디오에만 전용 vision model을 학습시킵니다. 우리는 …
Graphic design는 현대 시각 커뮤니케이션의 초석을 이루며, 문화 및 상업 행사 홍보를 위한 중요한 매체 역할을 합니다. 최근의 진보는…
우리는 radiance meshes를 소개한다. 이는 Delaunay tetrahedralization으로 생성된 constant density tetrahedral cells를 사용하여 radiance fields를 표현하는 기술이다.
Vision Language Models (VLMs)은 강력한 정성적 시각 이해를 보여주지만, 구현된 …에 필요한 계량적으로 정확한 공간 추론에 어려움을 겪는다.
Sign Language Production (SLP)은 복잡한 입력 텍스트를 실제 비디오로 변환하는 과정이다. 대부분의 이전 연구들은 Text2Gloss, Gloss2Pose 등에 초점을 맞추었다.
진정으로 인터랙티브한 세계 모델은 세 가지 핵심 요소가 필요합니다: real-time long-horizon streaming, consistent spatial memory, 그리고 precise user control. 그러나, ...
이 논문은 두 가지 주요 영역에서 새로운 기여를 제시합니다: 생성 모델, 특히 normalizing flows의 효율성을 향상시키고, gener...
우리는 Jina-VLM을 소개합니다. 2.4B 파라미터를 가진 비전-언어 모델로, 오픈 2B 규모 VLM 중에서 최첨단 다국어 시각 질문 응답을 달성합니다. The ...
최첨단(state‑of‑the‑art) 모델을 사용한 고품질 시각 자료 생성이 점점 더 접근하기 쉬워지고 있습니다. 오픈소스(Open‑source) 모델은 노트북에서 실행되고, 클라우드 서비스는 tex...
Attention mechanisms는 foundation models의 핵심이지만, 그들의 quadratic complexity는 스케일링을 위한 중요한 bottleneck으로 남아 있습니다. 이 도전 과제는 …
우리는 MagicQuill V2를 제안한다. 이는 생성 이미지 편집에 레이어드 컴포지션 패러다임을 도입하는 새로운 시스템으로, 의미론적…
Multi-view diffusion models는 최근 새로운 시점 합성을 위한 강력한 패러다임으로 부상했지만, 그들의 view-consistency를 가능하게 하는 근본 메커니즘은 아직 충분히 밝혀지지 않았다.
강화 학습(RL)은 최근 멀티모달 대형 언어 모델(MLLMs) 내에서 시각적 추론을 이끌어내는 데 눈에 띄는 성공을 거두었습니다. 그러나, exi...
우리는 PPTArena를 소개합니다. 이는 실제 슬라이드에 대한 신뢰할 수 있는 수정 작업을 자연어 지시 하에 측정하는 PowerPoint 편집 벤치마크입니다. 대조적으로 t...