[Paper] GriDiT: 효율적인 긴 이미지 시퀀스 생성을 위한 Factorized Grid-Based Diffusion
현대 딥러닝 방법은 일반적으로 이미지 시퀀스를 순차적으로 쌓인 프레임들의 대형 텐서로 취급합니다. 그러나 이 직관적인 표현이 …
현대 딥러닝 방법은 일반적으로 이미지 시퀀스를 순차적으로 쌓인 프레임들의 대형 텐서로 취급합니다. 그러나 이 직관적인 표현이 …
hard-label black-box 적대적 공격에서는 top‑1 예측 라벨만 접근 가능하기 때문에, 과도한 query 복잡성이 실용적인 적용에 큰 장애물이 된다.
최첨단 비디오 생성 모델은 일반적으로 VAE 공간에서 비디오 잠재 변수의 분포를 학습하고 이를 VAE 디코더를 사용해 픽셀로 매핑합니다. While th...
최근 멀티모달 LLM과 도구를 활용한 장시간 비디오 QA 시스템의 발전은 시간 단위 에피소드를 추론할 수 있는 가능성을 보여줍니다. 그러나 많은 방법...
인지 과학은 공간 능력이 인식에서 추론 및 상호작용으로 점진적으로 발달한다고 제안합니다. 그러나 멀티모달 LLMs(MLLMs)에서는 이 계층…
현재 video avatar generation 방법은 identity preservation과 motion alignment에서 뛰어나지만, genuine agency가 부족하고 장기적인 목표를 자율적으로 추구할 수 없습니다.
본 논문은 연합 학습에서 학습 효율성과 통신 비용을 최적화하기 위해 FedPOD (Proportionally Orchestrated Derivative)를 제안한다.
포인트 트래킹은 비디오 프레임 간에 대응되는 포인트를 위치 지정하는 것을 목표로 하며, 4D 재구성, 로보틱스 및 비디오 편집을 위한 기본 작업이다. Exis...
우리는 Cube Bench를 소개합니다. 이는 Rubik's-cube 벤치마크로, 멀티모달 대형 언어 모델(MLLMs)의 공간 및 순차적 추론을 평가하기 위해 설계되었습니다. 이 벤치마크는 ...
시뮬레이터는 사실상 무제한에 가까운 주행 데이터를 생성할 수 있지만, 시뮬레이션에서의 imitation learning 정책은 여전히 견고한 closed-loop performance를 달성하는 데 어려움을 겪는다.
대규모 비전-언어 모델(VLM)은 일반적으로 이미지 또는 비디오 프레임당 수백에서 수천 개의 visual tokens를 처리하며, 이로 인해 제곱 규모의 attention 비용이 발생하고 ...
Vision-language models (VLM)은 일반적인 이해에 뛰어나지만 동적 공간 추론(DSR), 즉 객체의 변화를 추론하는 데는 약합니다.