[Paper] Visual Pre-training을 위한 Pixel Supervision 추구
가장 기본적인 수준에서, 픽셀은 우리가 세계를 인식하는 시각 정보의 원천입니다. 픽셀은 모든 수준에서 정보를 담고 있으며, …
가장 기본적인 수준에서, 픽셀은 우리가 세계를 인식하는 시각 정보의 원천입니다. 픽셀은 모든 수준에서 정보를 담고 있으며, …
최근 멀티모달 연구에서, diffusion paradigm은 고유한 디코딩 방식 때문에 autoregressive paradigm(AR)에 대한 유망한 대안으로 부상했습니다.
신경망의 internal activations을 해석하는 것은 그들의 행동에 대한 보다 충실한 설명을 제공할 수 있지만, 복잡한 구조 때문에 어렵다.
우리는 Gaussian Pixel Codec Avatars (GPiCA)를 소개합니다. 이는 다중 뷰 이미지로부터 생성될 수 있는 포토리얼리스틱 헤드 아바타이며, 모바일 디바이스에서 효율적으로 렌더링됩니다.
이 논문은 예술 진화에서 잠재적 궤적을 탐색하는 복잡한 문제를 해결하기 위해 설계된 dual-engine AI 아키텍처 방법을 제안한다. W...
Foundation 모델은 다양한 Computer Vision 애플리케이션에서 중요한 도구입니다. 이 모델은 단일 RGB 이미지를 입력으로 받아 깊은 feature representation을 출력합니다…
Active Speaker Detection (ASD)은 비디오의 각 프레임에서 현재 누가 말하고 있는지를 식별하는 것을 목표로 합니다. 대부분의 최신 접근 방식은 late fusion에 의존하여 comb...
상호작용하는 생물 유기체의 수학적 모델에서 외부 개입이 시간에 따라 행동을 변화시킬 수 있는 경우, 고정된 파라미터를 가정하는 전통적인 모델은…
Early-Exit (EE)는 Large Language Model (LLM) 아키텍처로, 더 쉬운 토큰을 모델의 일부 서브셋만 사용해 생성함으로써 추론 속도를 가속화합니다.
Autoregressive video diffusion models는 세계 시뮬레이션에 대한 가능성을 가지고 있지만, train‑test 불일치에서 발생하는 exposure bias에 취약합니다. 최근 w…
인간 선호도를 포함한 이미지 압축 성능 평가에서는 일반적으로 MSE와 같은 단순 왜곡 함수가 충분히 …
우리는 FrontierCS를 소개합니다. 이는 컴퓨터 과학의 다양한 분야에 걸친 156개의 open-ended problems로 구성된 benchmark이며, CS PhDs 등 전문가들이 설계하고 검토했습니다.