[Paper] 네이티브 및 콤팩트 구조화된 Latents for 3D Generation
최근 3D 생성 모델링의 발전으로 생성 현실감이 크게 향상되었지만, 이 분야는 여전히 기존 표현 방식에 의해 제약을 받고 있습니다, w...
최근 3D 생성 모델링의 발전으로 생성 현실감이 크게 향상되었지만, 이 분야는 여전히 기존 표현 방식에 의해 제약을 받고 있습니다, w...
비디오 파운데이션 모델은 시각적으로 현실적이고 시간적으로 일관된 콘텐츠를 생성하지만, world simulators로서의 신뢰성은 그것들이 p를 포착하는지 여부에 달려 있습니다.
우리는 VASA-3D, audio‑driven, single‑shot 3D head avatar generator를 제안한다. 이 연구는 두 가지 주요 과제에 도전한다: 미묘한 표정 디테일을 포착하는 것.
우리는 ART, Articulated Reconstruction Transformer를 소개한다 — category-agnostic, feed-forward 모델로, 단지 …만으로 완전한 3D 관절형 객체를 복원한다.
진정으로 적응적인 embodied intelligence를 달성하려면, 정적인 static demonstrations만을 모방하는 것이 아니라 environment를 통해 지속적으로 개선하는 agents가 필요합니다.
Visual Sentiment Analysis (VSA)는 감정적으로 두드러지는 이미지들의 방대한 다양성과 충분한 데이터를 확보하는 데 내재된 어려움 때문에 도전적인 작업입니다.
시기적절하고 정확한 림프종 진단은 암 치료를 안내하는 데 필수적입니다. 표준 진단 관행은 hematoxylin and eosin (HE) 염색된 전체...
이 논문은 이미지 기반 일본어 다학문 다중모달 이해 벤치마크인 JMMMU‑Pro와 확장 가능한 Vibe Benchmark Construction을 소개한다, ...
번역하려는 텍스트를 제공해 주시겠어요? 해당 기사나 댓글의 내용을 직접 복사해서 알려주시면 한국어로 번역해 드리겠습니다.
최근 Olmo 기반 모델 최신 버전을 출시한 직후, Allen Institute for AI(Ai2)는 화요일에 오픈소스 비디오 모델인 Molmo 2를 출시했습니다, …
AlphaFlow는 MeanFlow 이미지 모델에 대해 보다 부드러운 학습 스케줄을 제공하여 두 목표 간의 충돌을 줄이고 학습을 가속화합니다. 개요...
비디오 디퓨전 모델은 생성 비디오 합성에 혁신을 가져왔지만, 정확도가 떨어지고 느리며 생성 과정에서 불투명할 수 있어 사용자를 …
3D 포인트 클라우드 처리를 위한 최신 신경 아키텍처는 convolutional layers와 attention blocks를 모두 포함하지만, 이를 조합하는 최적의 방법은 아직 명확하지 않다.
시각 토크나이저(예: VAEs)의 latent space 품질은 현대 generative models에 매우 중요합니다. 그러나 표준 reconstruction-based training은 …
우리는 Recurrent Video Masked‑Autoencoders (RVM)을 제시한다: 트랜스포머 기반 순환 신경망을 활용한 새로운 비디오 표현 학습 접근법이다.
Generalization은 인터랙티브 3D scene 생성에서 여전히 핵심 과제입니다. 기존 학습 기반 접근 방식은 제한된 sce...
최근 feed-forward reconstruction 모델인 VGGT와 π^3는 인상적인 재구성 품질을 달성하지만, quadratic memory 때문에 스트리밍 비디오를 처리할 수 없습니다.
최근 이미지‑투‑3D 분야의 진전은 디자인, AR/VR, 로보틱스에 엄청난 가능성을 열어주었습니다. 그러나 실제 애플리케이션에서 AI가 생성한 3D 자산을 사용하려면,…
본 논문에서는 JoVA라는 통합 프레임워크를 제시하여 비디오‑오디오 공동 생성을 수행합니다. 최근의 고무적인 진전에도 불구하고, 기존 방법들은 두 가지 중요한 제한에 직면합니다…
우리는 인터랙티브 인텔리전스(Interactive Intelligence)를 소개한다. 이는 성격에 맞춘 표현, 적응형 상호작용, 그리고 자기 진화가 가능한 새로운 디지털 휴먼 패러다임이다.
Textual Inversion (TI)은 텍스트-이미지 개인화에 효율적인 접근 방식이지만 복잡한 프롬프트에서는 종종 실패합니다. 우리는 이러한 실패를 임베딩 노름 i...
Dexterous manipulation은 섬세한 hand motion이 물체와의 contact을 통해 environment에 미치는 영향을 이해해야 하기 때문에 어려운 과제입니다. We intro…
인공지능(AI) 모델의 검증 및 확인을 견고성 평가를 통해 수행하는 것은 통합 시스템의 신뢰할 수 있는 성능을 보장하는 데 필수적입니다.
우리는 vision-language 모델에서 중요한 격차인 물리적으로 타당한 장면 변환을 이해하고 생성하는 문제를 해결하기 위해 Do-Undo 작업과 벤치마크를 소개합니다.