[논문] T3D: Trajectory Self-Distillation과 Direct Discriminative Optimization을 이용한 Few-Step Diffusion Language Models
Diffusion large language models (DLLMs)은 여러 토큰을 병렬로 디코딩함으로써 빠른 텍스트 생성을 가능하게 할 잠재력을 가지고 있습니다. 그러나 실제로는, 그들의 i...
Diffusion large language models (DLLMs)은 여러 토큰을 병렬로 디코딩함으로써 빠른 텍스트 생성을 가능하게 할 잠재력을 가지고 있습니다. 그러나 실제로는, 그들의 i...
관찰된 현상을 상징적이고 해석 가능한 공식으로 설명하는 것은 과학의 근본적인 목표이다. 최근 대형 언어 모델(LLMs)이 등장했다.
우리는 등거리 군 작용에 수직인 방향으로 투사된 잡음이 포함된 Langevin dynamics를 연구한다. 이 수학적 모델은 새로운 통찰을 제공하기 위해 도입되었다.
표준 벤치마크에서 낮은 word error rates를 달성한 speech recognition systems라도, 실제 배포 환경에서 짧고 high-stakes utterances에 대해서는 종종 실패한다.
데이터 믹싱 — 서로 다른 도메인의 데이터를 어떤 비율로 섞을지 결정하는 것 — 은 언어 모델(LMs) 훈련에서 일차적인 관심사이다. 기존의 믹싱 방법...
Supervised fine-tuning (SFT)은 계산 효율성이 높지만 강화 학습(RL)에 비해 일반화 성능이 종종 떨어집니다. 이 차이는 주로…
AI 모델은 textual reasoning에서 state-of-the-art 결과를 달성했지만, spatial 및 relational structures에 대한 추론 능력은 여전히 중요한 문제로 남아 있다.
사이버 공격의 급속한 진화는 알려지지 않은 (zero-day) 위협의 등장을 지속적으로 촉진하고 있으며, 이는 네트워크 침입 탐지에 상당한 도전을 제기합니다.
고품질 3D 텍스처 생성은 현재 주류 멀티‑뷰 디퓨전 파이프라인에 내재된 뷰‑불일치(view‑inconsistency) 때문에 근본적인 과제로 남아 있습니다. ...
Large Language Models (LLMs)를 서비스하는 것은 모델과 입력 요청을 여러 장치에 걸쳐 병렬 처리함으로써 엄청난 이점을 얻을 수 있지만, 들어오는 워크로드는 …
AI coding agents는 소프트웨어 개발에 점점 더 기여하고 있지만, 모바일 개발에 대한 그들의 영향은 실증적인 주목을 거의 받지 못했습니다. 이 ...
현대의 컨테이너 기반 마이크로서비스는 빠른 배포 사이클을 통해 진화하지만, CI/CD 파이프라인은 여전히 에너지 소비를 측정하는 경우가 거의 없습니다, 비록 이전 연구가…