[Paper] 향상된 Transformers를 위한 Cross-layer Fusion을 이용한 KV Caches 재구성
Transformer 디코더는 다양한 작업에서 강력한 결과를 달성했지만, KV 캐시가 필요로 하는 메모리는 긴 시퀀스 길이에서 금방 한계에 다다릅니다. 비록 ...
Transformer 디코더는 다양한 작업에서 강력한 결과를 달성했지만, KV 캐시가 필요로 하는 메모리는 긴 시퀀스 길이에서 금방 한계에 다다릅니다. 비록 ...
의학에서 조기 예측을 위한 Machine learning은 최근 돌파적인 성과를 보여주었지만, 예측 정확도 향상에 초점을 맞추는 것이 …을 초래했다.
현대 소프트웨어 시스템은 전통적인 코드베이스 조직 전략에 점점 더 큰 부담을 주고 있습니다. Monorepos는 일관성을 제공하지만 종종 확장성 문제를 겪습니다.
최근 분산 양자 컴퓨팅에 관한 많은 연구는 얽힌 쌍(entangled pairs)과 분산 두 큐비트 게이트(distributed two qubit gates)의 사용에 초점을 맞추어 왔습니다. 하지만 ef...
최근 대형 언어 모델(LLMs)의 발전은 효율적이고 견고한 학습에 대한 새로운 요구사항을 제시했습니다. LLM 클러스터가 확장됨에 따라, 노드 실패, le...
본 논문은 sigmoid 함수에 대한 형식화된 분석과 Isabelle/HOL에서의 Universal Approximation Theorem (UAT)에 대한 완전 자동화된 증명을 제시한다, a h...
Molecular Dynamics 시뮬레이션은 과학자들이 원자 규모의 물리적 과정에 대한 귀중한 통찰을 얻는 데 도움을 줄 수 있습니다. 본 연구는 다양한 기법을 탐구합니다 ...
본 논문에서는 space‑air‑marine integrated networks (SAMINs)를 위해 맞춤 설계된 double‑edge‑assisted computation offloading 및 resource allocation 스킴을 제안한다.
초보 프로그래머는 제한된 경험과 프로그래밍 구문 및 논리에 대한 이해 부족으로 인해 fault localization에서 종종 어려움을 겪습니다. Traditional me...
대규모 언어 모델(LLM) 기반 기술은 프로그램 퍼징을 위한 하니스 생성에서 눈에 띄는 진전을 이루었습니다. 그러나 이를 임의의 함수에 적용하는 것은…
LLM 서빙에서 프리필/디코드(PD) 디스어그리게이션으로의 아키텍처 전환은 자원 활용도를 향상시키지만 현대 워크로드의 버스티한 특성 때문에 어려움을 겪는다.
그래프 분류는 분자 특성 예측에서 재료 설계에 이르는 다양한 분야에서 기본적인 작업이다. 하지만 graph neural networks (GNNs)는 …
Vibe 코딩은 인간 엔지니어가 대형 언어 모델(LLM) 에이전트에게 복잡한 코딩 작업을 최소한의 감독으로 수행하도록 지시하는 새로운 프로그래밍 패러다임입니다.
우리는 MagicQuill V2를 제안한다. 이는 생성 이미지 편집에 레이어드 컴포지션 패러다임을 도입하는 새로운 시스템으로, 의미론적…
Multi-view diffusion models는 최근 새로운 시점 합성을 위한 강력한 패러다임으로 부상했지만, 그들의 view-consistency를 가능하게 하는 근본 메커니즘은 아직 충분히 밝혀지지 않았다.
강화 학습(RL)은 최근 멀티모달 대형 언어 모델(MLLMs) 내에서 시각적 추론을 이끌어내는 데 눈에 띄는 성공을 거두었습니다. 그러나, exi...
우리는 PPTArena를 소개합니다. 이는 실제 슬라이드에 대한 신뢰할 수 있는 수정 작업을 자연어 지시 하에 측정하는 PowerPoint 편집 벤치마크입니다. 대조적으로 t...
현재 video generation techniques는 single-shot 클립에서는 뛰어나지만, 유연한 샷 배열과 일관된 narrative를 필요로 하는 multi-shot 비디오를 제작하는 데 어려움을 겪는다.
우리는 video generative models가 인간 인지의 핵심 능력인 visuospatial intelligence를 시각 데이터만을 사용하여 나타낼 수 있는지를 조사한다.
비디오-투-오디오 생성 분야가 진전을 이루었음에도 불구하고, 이 분야는 주로 모노 출력에 초점을 맞추고 있어 공간적 몰입감이 부족합니다. 기존의 바이노럴 접근 방식은 여전히 co...
이 기사에서는 비보존 힘을 포함하는 Lagrangian 시스템의 모델링 및 제어를 가속도를 필요로 하지 않는 하이브리드 방법을 사용하여 조사한다.
우리는 MAViD, 새로운 멀티모달 프레임워크를 제안한다. 이는 오디오-비주얼 대화 이해 및 생성을 위한 것이다. 기존 접근 방식은 주로 비상호작용적인 sy...
데이터 기반 모션 프라이어는 에이전트가 자연스러운 행동을 생성하도록 안내하며, 생동감 있는 가상 캐릭터를 만드는 데 핵심적인 역할을 합니다. Adversaria...
대규모 언어 모델(LLM)의 급속한 발전과 적응력은 도덕적 일관성, 즉 윤리적으로 일관된 추론을 유지하는 능력의 필요성을 강조한다.