당신은 아마도 Agent Skills를 잘못 사용하고 있는 것 같습니다

발행: (2026년 2월 23일 오전 06:36 GMT+9)
9 분 소요
원문: Dev.to

I’m happy to translate the article for you, but I’ll need the full text of the post (excluding the source link you already provided). Could you please paste the article’s content here? Once I have it, I’ll translate it into Korean while preserving the original formatting, markdown, and any code blocks or URLs.

Source: https://arxiv.org/abs/2602.12670

배경

Claude Code 생태계는 빠르게 진화하고 있으며, 그 명명 규칙은 혼란스러울 수 있습니다. 많은 구성 요소 중에서 Agent Skills는 가장 많이 오용되는 경우가 많습니다. Hacker News에 떠오른 최근 논문이 이 문제를 강조합니다:

SkillsBench: 다양한 작업에서 Agent Skills가 얼마나 잘 작동하는지 벤치마킹
Agent Skills는 추론 시점에 LLM 에이전트를 보강하는 절차적 지식의 구조화된 패키지입니다. 빠른 채택에도 불구하고 실제로 도움이 되는지를 측정하는 표준 방법이 없습니다. 이 벤치마크는 11개 도메인에 걸쳐 86개의 작업을 큐레이션된 스킬과 자체 생성 스킬로 평가합니다. 큐레이션된 스킬은 평균 통과율을 16.2 pp 상승시키지만, 효과는 크게 달라집니다(예: 소프트웨어 엔지니어링 +4.5 pp, 헬스케어 +51.9 pp). 자체 생성 스킬은 평균적으로 아무런 이점을 제공하지 않습니다.
Xiangyi Li et al., arXiv [link]

Hacker News 헤드라인(“Study: Self‑generated Agent Skills are useless”)은 다소 편집적이지만, 핵심 발견은 다음과 같습니다: 많은 실무자들이 작업을 해결하기 전에 스킬을 작성하도록 에이전트에 요청하는데, 이는 종종 “thinking blocks”을 재구현하는 것과 같으며 결과가 더 좋지 않은 경우가 많습니다.

핵심 실수: 자체 생성 스킬

벤치마크는 Self‑Generated Skills를 다음과 같이 정의합니다:

“스킬이 제공되지 않지만, 에이전트에게 작업을 해결하기 전에 관련 절차적 지식을 생성하도록 프롬프트합니다. 이는 LLM의 잠재 도메인 지식의 영향을 분리합니다.”

실제로는 모델이 어려워하는 문제를 선택하고, 해당 문제에 대해 스킬을 작성하도록 요청한 뒤, 해결을 시도하게 하는 것을 의미합니다. 이 접근 방식은:

  • “thinking block” 패턴을 다시 만들지만 불필요한 오버헤드를 추가합니다.
  • 자주 음수 델타를 초래합니다—스킬이 실제로 성능을 저하시킵니다.
  • 모델에게 질문에 대해 그대로 답하도록 요청하고 그 답을 원본 작업으로 제시하는 고전적인 실수를 반영합니다.

진정으로 유용한 스킬을 만들기 위해서는 에이전트가 먼저 자신의 지식이나 능력에서 갭을 인식해야 합니다. 그래야만 잠재 지식 이상의 가치를 추가하는 스킬을 생성할 수 있습니다.

스킬이란 정확히 무엇인가?

근본적으로 스킬은 markdown 파일이며, 선택적인 메타데이터를 포함해 에이전트와 도구에게 언제 호출해야 하는지를 알려줍니다. 스킬은 일반적으로 자체 폴더에 정리되며, 보조 스크립트, 참고 문서 또는 기타 자산을 함께 묶을 수 있습니다.

.claude/skills/
└── monitor-gitlab-ci/
    ├── SKILL.md          # Main skill description
    ├── monitor_ci.sh    # Helper script
    └── references/
        ├── api_commands.md
        ├── log_analysis.md
        └── troubleshooting.md

위 예시에서, 이 스킬은 오래된 Claude 버전이 GitLab CI 파이프라인을 모니터링하도록 합니다. 폴더에는 다음이 포함됩니다:

  • SKILL.md – 인간이 읽을 수 있는 설명과 메타데이터.
  • monitor_ci.sh – 에이전트가 호출할 수 있는 구체적인 명령줄 도구.
  • references/ – 엣지 케이스를 위한 보조 문서.

Source:

올바른 사용 패턴

1. 실제 격차 식별

에이전트에게 스킬을 생성하도록 요청하기 전에 기본 지식만으로 작업을 해결할 수 없는지 확인하세요. 일반적인 징후는 다음과 같습니다:

  • 반복적인 실패 또는 “환각”(hallucination) 현상.
  • 모델이 한 번도 본 적 없는 도메인‑특정 명령어나 API 요청.

2. 격차를 스킬로 캡처

에이전트가 (보통 인간 개입 후) 결국 장애물을 극복했을 때, 다음과 같이 물어보세요:

“이전에 성공하지 못하게 만든 지식이나 절차 중 어떤 부분이 부족했나요?”

그 통찰을 스킬로 문서화하고, 향후 실행에 필요한 스크립트나 참조 파일도 함께 포함합니다.

3. 스킬을 집중화

실증 결과에 따르면 작고 집중된 스킬(2–3개의 모듈) 이 큰 단일 문서 번들보다 성능이 뛰어납니다. 다음을 목표로 하세요:

  • 스킬당 하나의 명확한 목적.
  • 최소한의, 이름이 잘 지정된 보조 파일.

4. 스킬을 영구 저장

에이전트는 무상태(stateless) 이므로—각 대화가 새로 시작됩니다—.claude/skills/ 디렉터리와 같은 저장소에 스킬을 영구 보관하면 세션 간에 사용할 수 있습니다.

5. 프로젝트 간 재사용

한 프로젝트에서 유용한 스킬은 보다 넓은 적용성을 위해 추상화하는 것을 고려하세요. 이렇게 하면 중복을 줄이고 새로운 에이전트의 온보딩 속도를 높일 수 있습니다.

피해야 할 일반적인 함정

함정실패 이유
문제를 알기 전에 에이전트에게 스킬을 작성하도록 요청하기스킬이 새로운 정보를 추가하지 않는 일반적인 “생각 블록”이 된다.
너무 광범위한 스킬 사용이점이 희석되고, 에이전트가 스킬을 무시하거나 오용할 수 있다.
스킬을 일회성 스크립트로 취급하기메타데이터가 없으면 에이전트가 언제 적용해야 하는지 알 수 없다.
자체 생성 스킬에만 의존하기벤치마크에서 평균 개선이 없음을 보여; 큐레이션되거나 인간 검증된 스킬이 훨씬 효과적이다.

요약

  • 선별된, 집중된 스킬은 에이전트 성능을 크게 향상시킬 수 있습니다(일부 도메인에서는 최대 +51.9 pp).
  • 자체 생성된 스킬은 명확한 지식 격차 없이 즉석에서 만들어지면 일반적으로 도움이 되지 않으며 오히려 해를 끼칠 수 있습니다.
  • 효과적인 스킬 생성을 위한 핵심은 진정한 부족을 인식하고, 간결하게 문서화하며, 향후 재사용을 위해 지속하는 것입니다.

즐거운 해킹 되세요!

0 조회
Back to Blog

관련 글

더 보기 »