[Paper] 안정적인 비동기성: 분산 제어 Off-Policy RL for LLMs
강화 학습(RL)은 추론 작업에서 대형 언어 모델을 개선하는 데 널리 사용되며, 비동기 RL 훈련은 ...
강화 학습(RL)은 추론 작업에서 대형 언어 모델을 개선하는 데 널리 사용되며, 비동기 RL 훈련은 ...
대규모 언어 모델(LLMs)의 확산은 기계가 생성한 콘텐츠와 인간이 작성한 텍스트를 구별할 효율적인 메커니즘을 필요로 합니다. 통계적 ...
현재 speech LLM은 대체로 암시적 ASR을 수행한다: 전사본으로 해결 가능한 작업에서는 행동적으로 그리고 메커니즘적으로 단순 WhispertoL과 동등하다.
자율 웹 에이전트가 급속히 발전하고 있음에도 불구하고, 인간의 개입은 작업이 진행됨에 따라 선호도를 형성하고 에이전트 행동을 교정하는 데 여전히 필수적이다. Howe...
최근 멀티모달 대형 언어 모델(MLLMs)의 발전은 전문 도구 기반 이미지에 대한 비전‑언어 추론을 확장할 큰 잠재력을 보여주고 있습니다.
Error-bounded lossy compression은 대규모 HPC 시뮬레이션에서 생성되는 방대한 데이터 양을 관리하는 데 필수적입니다. 최신 압축기들은 …
이 논문은 극히 긴 시간 범위 작업을 해결하도록 훈련된 오픈소스 LLM 에이전트인 KLong을 소개한다. 원리는 먼저 트래젝토리를 통해 모델을 콜드스타트하는 것이다.
Instruction‑following language models는 도움이 되고 안전하도록 훈련되지만, 그들의 안전 행동은 온건한 fine‑tuning 하에서는 악화될 수 있고, ad… 아래에서 더욱 악화될 수 있다.
우리는 익명 n-노드 네트워크에서 self-stabilizing leader election 문제를 연구한다. 낮은 공간 메모리 복잡도로 self-stabilization을 달성하는 것은 특히…
Natural Language Processing (NLP) 도구는 요구사항 공학(RE) 작업인 요구사항 도출, 분류 및 검증을 지원합니다. 그러나, 그들은…
Self-adaptive systems는 인간과 점점 더 긴밀하게 상호작용하며, 종종 동일한 physical 또는 virtual 환경을 공유하고 의사결정을 e...
Quantum computing은 고전 컴퓨터의 능력을 뛰어넘는 계산 문제를 해결할 잠재력 때문에 큰 관심을 받고 있습니다. With maj...