[Paper] SPARKLING: 신호 보존과 대칭 파괴의 균형을 위한 Width-Progressive Learning
Progressive Learning (PL)은 모델 규모를 점진적으로 늘림으로써 사전 학습(pre‑training) 계산 오버헤드를 감소시킵니다. 기존 연구에서는 깊이 확장(depth expansion)을 광범위하게 탐구했지만…
Progressive Learning (PL)은 모델 규모를 점진적으로 늘림으로써 사전 학습(pre‑training) 계산 오버헤드를 감소시킵니다. 기존 연구에서는 깊이 확장(depth expansion)을 광범위하게 탐구했지만…
대규모 언어 모델(LLMs)의 급속한 발전은 이러한 모델이 어떤 형태의 의식을 가지고 있는지에 대한 질문을 제기했습니다. 이 문제에 접근하기 위해, ...
Activation decomposition methods in language models는 개념이 activation space에서 구현되는 방식에 대한 geometric assumptions와 밀접하게 결합되어 있습니다. Existing appr...
대형 언어 모델이 자율 에이전트로 전환함에 따라, 사용자 입력은 종종 협력적 가정을 위반합니다(예: 암시적 의도, 누락된 매개변수, fal...).
최근 LLM의 발전은 다양한 AI 응용 분야에서 중요한 돌파구를 가져왔습니다. 그러나 그들의 정교한 능력은 심각한 사...
LLM 기반 코딩 에이전트는 실제 소프트웨어 개발 방식을 재정의하고 있습니다. 더 나은 코딩 에이전트를 위한 연구를 촉진하기 위해서는 도전적인 벤치마크가 필요합니다.
Graph-based Retrieval-Augmented Generation (GraphRAG)은 외부 지식을 계층적 그래프로 조직하여 효율적인 검색 및 집계를 가능하게 합니다, scat...
Agentic Large Language Models에 기대되는 주체성은 단순히 올바르게 답하는 것을 넘어, 목표를 설정하고 탐색할 대상을 결정하는 자율성을 요구합니다. 우리는 이를 i...
최근 유전체 기반 모델들은 DNA를 일차원 토큰 시퀀스로 취급하는 대형 언어 모델(Large Language Model) 아키텍처를 주로 채택합니다. 그러나, 포괄적인 …
대형 추론 모델(LRMs)은 종종 과잉사고(overthinking) 현상을 겪는다. 이는 올바른 해결책이 이미 도출된 후에도 중복된 추론 단계가 생성되는 현상이다.
Diffusion Large Language Models (DLLMs)은 Auto‑Regressive 모델에 대한 매력적인 대안을 제공하지만, 높은 디코딩 비용으로 인해 배포가 제한됩니다. In ...
Prompt agents는 최근 자동 프롬프트 최적화를 위한 유망한 패러다임으로 등장했으며, 정제를 순차적 의사결정 문제로 프레이밍합니다.