[논문] SkillJuror: 에이전트 스킬 구조가 런타임 행동에 미치는 영향 측정

발행: (2026년 6월 10일 AM 10:11 GMT+9)
4 분 소요
원문: arXiv

Source: arXiv - 2606.11543v1

개요

Agent Skills는 추론 시점에 대형 언어 모델(LLM) 에이전트에 절차적 지식을 추가하지만, 현재 벤치마크는 Skill이 무엇을 말하는지와 그것이 어떻게 조직되어 있는지를 거의 구분하지 못합니다. 우리는 Progressive Disclosure 방식을 통해 이 차이를 연구합니다. 이 방식에서는 간결한 루트 파일이 에이전트를 필요에 따라 지원 리소스로 안내하고, 이를 정규화된 평면(baseline) 방식과 비교합니다. 우리는 SkillJuror라는 프레임워크를 제시하는데, 이는 의미적으로 제어된 변형, 매칭된 다중 실험 평가, 그리고 궤적 증거를 활용해 Skill 작성 패러다임을 평가하면서 과제 지식은 고정합니다. 82개의 과제로 구성된 SkillsBench 연구에서 Progressive Disclosure는 집계 결과 이전에 실행 시 행동을 변화시켰습니다: 궤적당 접촉된 서로 다른 Skill 리소스가 1.18에서 3.85로 증가했으며, 효과적인 수용 이벤트는 1.33에서 3.92로 상승했습니다. 또한 정규화된 평면 기준에 비해 410개의 매칭 실험 중 17개의 검증 통과 실험이 추가로 발생했으며(+4.1%) 효용이 향상되었습니다. 이 이점은 과제에 따라 달라집니다. 지원 리소스가 구현, 검증 또는 수정을 안내할 때 Progressive Disclosure가 도움이 되지만, 성공이 정확한 출력 규칙, 수치 임계값, 혹은 긴 아티팩트 생성 파이프라인에 의존할 경우 효과가 약합니다. 이러한 결과는 Skill 조직이 단순한 표현이 아니라 에이전트가 절차적 지식을 탐색하고 적용하는 방식을 바꿀 수 있음을 보여주며, 결과 향상은 노출된 리소스가 과제에 실질적으로 활용 가능한가에 달려 있음을 시사합니다. 코드는 https://github.com/zhiyuchen-ai/skill-juror에서 확인할 수 있습니다.

핵심 기여

이 논문은 다음 분야의 연구를 제시합니다:

  • cs.AI
  • cs.SE

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

이 연구는 cs.AI 분야의 발전에 기여합니다.

저자

  • Zhiyu Chen
  • Zihan Guo
  • Bo Huang
  • Bingwei Lu
  • Jianghao Lin
  • Yuanjian Zhou
  • Weinan Zhang

논문 정보

  • arXiv ID: 2606.11543v1
  • Categories: cs.AI, cs.SE
  • Published: 2026년 6월 10일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »