[논문] Sink-Aware Pruning for Diffusion Language Models
Diffusion Language Models (DLMs)는 반복적인 디노이징으로 인해 높은 추론 비용이 발생하여 효율적인 프루닝을 필요로 합니다. 기존 프루닝 휴리스틱은 주로 …
Diffusion Language Models (DLMs)는 반복적인 디노이징으로 인해 높은 추론 비용이 발생하여 효율적인 프루닝을 필요로 합니다. 기존 프루닝 휴리스틱은 주로 …
언어 식별(LID)은 다국어 자연어 처리 파이프라인에서 중요한 구성 요소이며, 코퍼스 큐레이션 및 훈련을 용이하게 합니다…
대규모 비전-언어 모델(LVLMs)에 대한 블랙박스 적대적 공격은 그래디언트가 없고 복잡한 멀티모달 경계 때문에 어려운 과제입니다. 기존 연구는…
신흥 페르시아어 NLP 벤치마크가 화용론과 공손함으로 확장되고 있지만, 이들은 기억된 문화적 사실과 능력을 구분하는 경우는 드물다.
현재 speech LLM은 대체로 암시적 ASR을 수행한다: 전사본으로 해결 가능한 작업에서는 행동적으로 그리고 메커니즘적으로 단순 WhispertoL과 동등하다.
자율 웹 에이전트가 급속히 발전하고 있음에도 불구하고, 인간의 개입은 작업이 진행됨에 따라 선호도를 형성하고 에이전트 행동을 교정하는 데 여전히 필수적이다. Howe...
이 논문은 극히 긴 시간 범위 작업을 해결하도록 훈련된 오픈소스 LLM 에이전트인 KLong을 소개한다. 원리는 먼저 트래젝토리를 통해 모델을 콜드스타트하는 것이다.
Instruction‑following language models는 도움이 되고 안전하도록 훈련되지만, 그들의 안전 행동은 온건한 fine‑tuning 하에서는 악화될 수 있고, ad… 아래에서 더욱 악화될 수 있다.
Fast weight architectures는 장기 컨텍스트 모델링을 위해 일정한 메모리 오버헤드를 유지하면서 attention‑based transformers에 대한 유망한 대안을 제공합니다.
현재 audio language models는 대부분 text-first이며, 사전 학습된 pre-trained text LLM backbones를 확장하거나 semantic-only audio tokens에 의존하여, g...를 제한한다.
대규모 언어 모델(LLMs)의 급속한 확산은 자연어 처리(NLP)를 혁신했지만 동시에 ‘자원 격차’를 초래했습니다…
Large language models (LLMs)은 자연어 생성 평가를 위한 자동 평가자로 점점 더 많이 적용되고 있으며, 종종 쌍별 비교 판단을 사용합니다.