[Paper] ABC-Bench: 실제 개발 환경에서 에이전트형 백엔드 코딩 벤치마킹
Large Language Models (LLMs)이 자율 에이전트로 진화하면서 AI 코딩의 범위가 국지적인 코드 생성에서 복잡한, 저장소 기반 …
Large Language Models (LLMs)이 자율 에이전트로 진화하면서 AI 코딩의 범위가 국지적인 코드 생성에서 복잡한, 저장소 기반 …
Tool-Integrated Reasoning (TIR)은 대형 언어 모델(LLMs)이 추론 단계와 외부 도구 상호작용을 교차시켜 복잡한 작업을 수행하도록 지원합니다.
대규모 언어 모델을 long-horizon, goal-oriented interactions에 배치하는 것은 여전히 어려운 과제이다. 이는 유사한 엔터티와 사실이 서로 다른 latent …
Concept-based explanations는 고수준 개념(예: gender 또는 experience)이 모델 행동에 미치는 영향을 정량화하며, 이는 decision-makers에게 매우 중요합니다.
주장적인 텍스트에서 설득을 감지하는 것은 인간 커뮤니케이션을 이해하는 데 중요한 함의를 가진 도전적인 과제입니다. 이 연구는 r...
대형 언어 모델(LLMs)은 출력에 대한 자신감을 언어화함으로써 사용자가 느끼는 신뢰를 높일 수 있습니다. 그러나 기존 연구에 따르면 LLM은 종종 o...
대형 언어 모델(LLMs)은 놀라운 능력을 달성했지만, 안전 가드레일을 우회하도록 설계된 적대적 “jailbreak” 공격에 여전히 취약합니다.
조건부 언어 모델에 대한 내재적 평가 지표인 perplexity나 bits-per-character와 같은 지표는 단일 언어 및 다국어 설정 모두에서 널리 사용됩니다....
LLM에서 선택적인 지식 삭제는 GDPR 준수와 모델 안전성에 필수적이지만, 현재의 unlearning 방법은 행동 억제를 실제...
Multi-agent systems (MAS)는 여러 에이전트를 조정함으로써 복잡한 추론을 가능하게 하지만, 다단계 실행 및 반복적인 … 때문에 높은 inference latency가 발생하는 경우가 많다.
대규모 언어 모델(LLMs)은 자연어 작업 전반에 걸쳐 인상적인 성능을 달성했으며 실제 응용 프로그램에 점점 더 많이 배치되고 있습니다. Despit...
AI agent frameworks의 부상은 agent skills를 도입했으며, 이는 instructions와 executable code를 포함하는 modular packages로, agent capabilities를 dynamically extend합니다.