[Paper] LoGeR: 긴 컨텍스트 기하학적 재구성과 하이브리드 메모리
Feedforward geometric foundation models는 짧은 윈도우 재구성에서 강력한 성능을 달성하지만, 이를 분 단위 길이의 비디오로 확장하는 데는 quadratic attention에 의해 병목 현상이 발생합니다.
Feedforward geometric foundation models는 짧은 윈도우 재구성에서 강력한 성능을 달성하지만, 이를 분 단위 길이의 비디오로 확장하는 데는 quadratic attention에 의해 병목 현상이 발생합니다.
통합 멀티모달 모델은 최근 강력한 생성 능력을 보여주었지만, 생성이 이해를 향상시키는지, 그리고 언제 향상시키는지는 아직 명확하지 않습니다. Exi...
Omni-modal large language models (omni LLMs)는 최근 시청각 이해 작업 전반에 걸쳐 강력한 성능을 달성했지만, 여전히 높은 취약성을 보인다.
인간과 제품이 결합된 모습을 보여주는 인간‑제품 이미지(Human‑product images)는 광고, 전자상거래(e‑commerce), 디지털 마케팅에서 중요한 역할을 합니다. 필수적인 …
우리는 Sketch2Colab을 소개한다. 이는 스토리보드 스타일 2D 스케치를 일관된 객체 인식이 가능한 3D 다중 인간 모션으로 변환하며, 에이전트와 관절에 대한 세밀한 제어를 제공한다.
Instruction-based video editing은 급속한 발전을 이루었지만, 현재 방법들은 자연어가 본질적으로 … 때문에 정밀한 시각적 제어에 어려움을 겪는다.
스케일링 법칙은 더 많은 데이터로 훈련된 대형 모델이 일관되게 소형 모델보다 성능이 우수하다고 가정합니다—이는 컴퓨터 비전에서 모델 선택을 주도하는 가정이지만 …
멀티모달 검색은 이질적인 모달리티에 걸친 쿼리에서 정보를 집계하여 원하는 타깃을 검색하는 작업이다. 최첨단 멀티모달…
포즈가 지정되지 않은 이미지에서의 고밀도 4D 재구성은 여전히 중요한 과제이며, 현재 방법들은 느린 테스트‑타임 최적화에 의존하거나 단편적이고 작업‑특화된…
초에서 분 단위로 비디오 생성 규모를 확장하는 것은 중요한 병목 현상에 직면합니다: short‑video 데이터는 풍부하고 high‑fidelity하지만, coherent long‑form data는 …
Diffusion 기반 Real-World Image Super-Resolution (Real-ISR)은 인상적인 지각 품질을 달성하지만, 반복적인 과정으로 인한 높은 계산 비용이 문제입니다.
현대 microscopy는 일상적으로 gigapixel 이미지를 생성하며, 이는 미세한 세포 형태에서부터 더 넓은 조직까지 다양한 spatial scales에 걸친 구조를 포함합니다.