[Paper] Parallel-Probe: 효율적인 병렬 사고를 위한 2D 프로빙
Parallel thinking은 추론을 위한 유망한 패러다임으로 부상했지만, 상당한 계산 부담을 초래합니다. 기존 효율성 방법들은 주로 …
Parallel thinking은 추론을 위한 유망한 패러다임으로 부상했지만, 상당한 계산 부담을 초래합니다. 기존 효율성 방법들은 주로 …
고품질 scientific illustrations는 복잡한 과학 및 기술 개념을 효과적으로 전달하는 데 필수적이지만, 그 수동 제작은 여전히 …
밈 기반 사회적 학대 탐지는 해로운 의도가 종종 암묵적인 문화 상징성과 미묘한 교차 모달 불일치에 의존하기 때문에 어려운 과제이다. 이전에 …
최근에는 실제 과제에 강화 학습(RL)을 적용해 대형 언어 모델(LLMs)을 훈련시키는 연구에 큰 관심이 집중되고 있습니다, 예를 들어 …
비전문가 사용자가 복잡한 인터랙티브 웹사이트를 개발하도록 돕는 것은 LLM‑powered code agents에게 인기 있는 작업이 되었습니다. 그러나 기존 code agents는 …
Prompt injection attacks는 웹 페이지 콘텐츠를 조작하여 web agents가 사용자가 의도한 작업이 아니라 공격자가 지정한 작업을 수행하도록 합니다. Existing method...
Long-context inference with Large Language Models (LLMs)는 quadratic attention과 증가하는 key-value caches 때문에 비용이 많이 들며, 이는 context compression을 필요하게 합니다. In t...
직접 정렬 방법은 대형 언어 모델(LLMs)을 인간 선호와 맞추는 데 점점 더 많이 사용되고 있습니다. 그러나 많은 실제 정렬 문제는…
우리는 RLAnything이라는 강화학습 프레임워크를 제안한다. 이 프레임워크는 폐쇄‑루프 최적화를 통해 환경, 정책 및 보상 모델을 동적으로 형성하고 이를 증폭한다.
LLM 기반 딥 리서치 에이전트는 대부분 ReAct 프레임워크를 기반으로 구축됩니다. 이러한 선형 설계는 이전 상태로 다시 돌아가거나 대안적인…
대형 언어 모델(Large language models, LLMs)은 단계별 사고 흐름(chain-of-thought, CoT) 추론을 통해 강력한 추론 능력을 입증했습니다. 그럼에도 불구하고, 한계에서는 …
대부분의 Large Language Model (LLM) 에이전트 메모리 시스템은 메모리를 추출하기 위해 소수의 정적이고 hand-designed operations에 의존합니다. 이러한 고정된 절차는 hard‑…