[Paper] 확장 가능한 Visual Tokenizers 사전 학습을 향해
시각 토크나이저(예: VAEs)의 latent space 품질은 현대 generative models에 매우 중요합니다. 그러나 표준 reconstruction-based training은 …
시각 토크나이저(예: VAEs)의 latent space 품질은 현대 generative models에 매우 중요합니다. 그러나 표준 reconstruction-based training은 …
알츠하이머병(AD)은 인지 능력에 부정적인 영향을 미치는 진행성 신경퇴행성 질환이다. 언어와 관련된 변화는 자동으로 ...
우리는 Recurrent Video Masked‑Autoencoders (RVM)을 제시한다: 트랜스포머 기반 순환 신경망을 활용한 새로운 비디오 표현 학습 접근법이다.
2025년이 되면 Fitbit이 아직도 의미가 있는지 궁금할 수 있습니다. Google에 인수된 이후에도 Fitbit은 업계에서 가장 인지도가 높은 이름 중 하나로 남아 있습니다. Fitb...
Generalization은 인터랙티브 3D scene 생성에서 여전히 핵심 과제입니다. 기존 학습 기반 접근 방식은 제한된 sce...
최근 feed-forward reconstruction 모델인 VGGT와 π^3는 인상적인 재구성 품질을 달성하지만, quadratic memory 때문에 스트리밍 비디오를 처리할 수 없습니다.
최근 이미지‑투‑3D 분야의 진전은 디자인, AR/VR, 로보틱스에 엄청난 가능성을 열어주었습니다. 그러나 실제 애플리케이션에서 AI가 생성한 3D 자산을 사용하려면,…
본 논문에서는 JoVA라는 통합 프레임워크를 제시하여 비디오‑오디오 공동 생성을 수행합니다. 최근의 고무적인 진전에도 불구하고, 기존 방법들은 두 가지 중요한 제한에 직면합니다…
개인화는 LLM이 개별 사용자 선호와 요구에 맞추는 데 필수적이 되고 있습니다. 그러나 현재 접근 방식은 종종 계산 비용이 많이 듭니다.
우리는 인터랙티브 인텔리전스(Interactive Intelligence)를 소개한다. 이는 성격에 맞춘 표현, 적응형 상호작용, 그리고 자기 진화가 가능한 새로운 디지털 휴먼 패러다임이다.
Textual Inversion (TI)은 텍스트-이미지 개인화에 효율적인 접근 방식이지만 복잡한 프롬프트에서는 종종 실패합니다. 우리는 이러한 실패를 임베딩 노름 i...
컴퓨터 지원 합성 계획(computer-aided synthesis planning)을 해결하는 것은 완전 자동화된(fully automated) 로봇 지원 합성 워크플로(robot-assisted synthesis workflows)를 가능하게 하고 약물 발견(drug discovery)의 효율성을 향상시키는 데 필수적입니다.