[Paper] Sketch2Colab: 스케치 기반 다중 인간 애니메이션 via 제어 가능한 Flow Distillation
우리는 Sketch2Colab을 소개한다. 이는 스토리보드 스타일 2D 스케치를 일관된 객체 인식이 가능한 3D 다중 인간 모션으로 변환하며, 에이전트와 관절에 대한 세밀한 제어를 제공한다.
우리는 Sketch2Colab을 소개한다. 이는 스토리보드 스타일 2D 스케치를 일관된 객체 인식이 가능한 3D 다중 인간 모션으로 변환하며, 에이전트와 관절에 대한 세밀한 제어를 제공한다.
대규모 언어 모델에서 장기 컨텍스트 추론은 디코딩 단계에서 Key--Value (KV) 캐시 로딩에 의해 병목 현상이 발생합니다. 여기서 순차적인 특성 때문에 …
멀티 어트리뷰션 러닝(MAL)은 여러 attribution 메커니즘에서 생성된 conversion 라벨을 학습함으로써 모델 성능을 향상시키며, …으로 부상하고 있다.
Reservoir expansion은 비선형 혼합 하에서 온라인 독립 성분 분석(ICA)을 개선할 수 있지만, top‑n whitening은 주입된 특징을 버릴 수 있습니다. We formal…
Instruction-based video editing은 급속한 발전을 이루었지만, 현재 방법들은 자연어가 본질적으로 … 때문에 정밀한 시각적 제어에 어려움을 겪는다.
SageAttention와 같은 Low-bit attention은 모델 추론을 가속화하는 효과적인 접근법으로 부상했지만, 학습에 대한 적용 가능성은 여전히 낮다.
Retrieval-Augmented Generation (RAG) 시스템은 일반적으로 multi‑query retrieval와 reciprocal rank fusion (RRF)과 같은 retrieval fusion 기술을 채택하여 …
범죄 관련 문서에서 중요한 정보를 추출하는 것은 법 집행 기관에게 매우 중요한 과제입니다. Named-Entity Recognition (NER)은 ...
스케일링 법칙은 더 많은 데이터로 훈련된 대형 모델이 일관되게 소형 모델보다 성능이 우수하다고 가정합니다—이는 컴퓨터 비전에서 모델 선택을 주도하는 가정이지만 …
현대 언어 모델은 제한된 컨텍스트 내에서 추론하며, 이는 장기 추론에 대한 근본적인 장벽이 되는 고유한 제약입니다. 우리는 재귀를 ...
최첨단 대형 언어 모델(LLM)인 GPT-5와 Gemini-2.5에 대한 접근은 종종 높은 가격, 결제 장벽 및 지역 제한으로 인해 방해받습니다. T...
도구 사용 에이전트를 훈련하는 것은 일반적으로 결과 기반 필터링에 의존한다: 성공적인 궤적에 대한 Supervised Fine-Tuning (SFT)과 Reinforcement Learning (RL) …