[Paper] 효율적인 카메라 제어 비디오 생성: 정적 장면을 위한 Sparse Diffusion 및 3D Rendering
현대의 비디오 생성 모델은 diffusion models에 기반하여 매우 현실적인 클립을 만들 수 있지만, 계산 효율성이 낮아 종종 몇 분이 걸린다.
현대의 비디오 생성 모델은 diffusion models에 기반하여 매우 현실적인 클립을 만들 수 있지만, 계산 효율성이 낮아 종종 몇 분이 걸린다.
LLM은 임상 워크플로에 점점 더 통합되고 있지만, 효과적인 의사-환자 커뮤니케이션의 필수적인 측면인 clinical empathy가 부족한 경우가 많다.
Large Language Models (LLMs)의 급속한 진화는 software engineering에 강력한 영향을 미쳤으며, 자동화된 unit test 생성에 관한 연구가 증가하고 있습니다.
대규모 언어 모델(LLM)이 계속 확장됨에 따라, 사후 훈련 프루닝은 계산 비용을 줄이면서 성능을 유지하는 유망한 접근법으로 떠올랐습니다.
Structure-based와 ligand-based 계산 약물 설계는 전통적으로 별개의 데이터 소스와 모델링 가정에 의존해 왔으며, 이는 두 접근법의 공동 활용을 제한해 왔습니다.
대규모 언어 모델(LLM) 라우터는 주어진 입력에 대해 최적의 모델을 동적으로 선택합니다. 기존 접근 방식은 일반적으로 실제 라벨이 달린 데이터(ground‑truth labeled data)에 접근할 수 있다고 가정합니다.
딥 리서치 시스템은 다단계 웹 리서치, 분석 및 교차 소스 합성에 널리 사용되지만, 그 평가에는 여전히 어려움이 있습니다. 기존 벤치마크...
멀티태스크 학습(MTL)과 로우-랭크 어댑테이션(LoRA)의 결합은 대규모 언어 모델의 파라미터 효율적인 배포를 위한 유망한 방향으로 부상하고 있습니다.
현대 공급망은 지정학적 사건, 수요 충격, 무역 제한, 자연 재해 등으로 인한 중단에 점점 더 많이 노출되고 있습니다. 많은 경우…
우리는 STEP3-VL-10B를 소개합니다. 이는 경량의 오픈소스 파운데이션 모델로, 컴팩트 효율성과 최첨단 멀티모달 사이의 트레이드오프를 재정의하도록 설계되었습니다…
멀티에이전트 시스템은 다양한 응용 분야에서 실용적인 LLM 기반 협업자로 진화했으며, 다양성과 교차 검증을 통해 견고성을 확보했습니다. 그러나, m...
모노큘러 비주얼 SLAM은 인터넷 비디오에서 3D 재구성을 가능하게 하고 자원 제한 플랫폼에서 자율 내비게이션을 지원하지만, 스케일 드리프트, i...
장시간 비디오에서 개별 동물을 식별하는 것은 행동 생태학, 야생동물 모니터링 및 가축 관리에 필수적입니다. 전통적인 방법은...
CLIP과 같은 대규모 비전‑언어 모델은 강력한 제로샷 인식을 달성하지만, 사전 학습 중에 거의 보이지 않는 클래스에 대해서는 어려움을 겪습니다, 포함…
단일 이미지에서 물리적으로 정확하고 simulation-ready 의상을 추정하는 것은 image-to-physics 데이터셋이 부족하고 ill-posed 문제이기 때문에 도전적이다.
Tabular Foundation Models (TFMs)는 최근 구조화된 데이터에 대한 인‑컨텍스트 학습 능력이 강력함을 보여주었으며, 제로샷 성능이 t...와 비교할 만한 수준에 도달했습니다.
Word Sense Disambiguation (WSD)은 WordNet, BabelNet, Oxford Dictionary of English와 같은 의미 체계를 사용하여 널리 평가되어 왔습니다. 그러나, ...
텍스트-투-이미지 (T2I) 모델은 점점 인기를 얻고 있으며, 온라인에서 AI 생성 이미지의 큰 비중을 차지하고 있습니다. 모델 품질을 비교하기 위해, 투표 기반 리더보드...
GUI 에이전트는 명시적이고 완료 지시 하에 강력한 성능을 보여왔지만, 실제 배포에서는 사용자의 보다 복잡한 구현에 맞추는 것이 필요합니다.
Large-scale optimization은 현대 비즈니스 의사결정의 핵심 기반이다. 그러나 이러한 모델을 구축하는 데는 종종 많은 노동과 시간이 소요된다. We ad...
Taxonomies는 다양한 분야에서 구조화된 지식 표현의 기반을 형성하며, e-commerce catalogs, semantic search 등과 같은 응용 프로그램을 가능하게 합니다.
배터리 충전 프로토콜을 효율적으로 최적화하는 것은 각 evaluation이 느리고 비용이 많이 들며 non-differentiable이기 때문에 도전적입니다. 많은 기존 접근 방식은 …
Neural networks는 일반적으로 highly overparameterized regimes에서 학습되지만, empirical evidence는 일관되게 많은 parameters가 학습 중에 redundant해진다는 것을 보여준다.
system-level concurrency bugs를 재현하려면 입력 데이터와 system calls의 정확한 interleaving order가 모두 필요합니다. 이 과정은 ...