왜 당신의 AI 에이전트 스킬이 형편없나요
Source: Dev.to
번역하려는 텍스트를 제공해 주시면, 해당 내용을 한국어로 번역해 드리겠습니다. 코드 블록, URL 및 마크다운 형식은 그대로 유지하면서 번역해 드립니다.
설정
infra-bench는 실제 Kubernetes 클러스터와 Terraform 프로젝트에 AI 에이전트를 실행합니다. 모킹이 아닌 – Kind 클러스터, 실제 kubectl, 실제 오류. 에이전트는 작업(예: “배포가 깨졌다”), 툴박스(kubectl, terraform, helm), 그리고 턴 예산을 받습니다. 문제를 해결하거나 실패해야 합니다.
우리는 두 가지 모드를 테스트했습니다:
- Baseline – 스킬 없음; 모델이 자체 판단을 사용합니다.
- With skill – 약 300 토큰의 간결한 역할 프롬프트 (Kubernetes용 k8s‑admin, Terraform용 platform‑eng).
동일한 모델, 동일한 시나리오, 동일한 클러스터. 유일한 차이점은 에이전트에게 사고 방식을 알려줬는지 여부입니다.
결과
쿠버네티스 시나리오 (8 CKA/CKS 시나리오, L2‑L3)
| 모델 | 기본 | k8s‑admin 스킬 적용 시 | Δ |
|---|---|---|---|
| Claude Sonnet 4 | 8/8 | 8/8 | 0 |
| Gemini 2.5 Flash | 6/8 | 5/8 | ‑1 |
| GPT‑4o | 4/6 | 4/8 | ‑2 |
| DeepSeek Chat | 6/7 | 6/8 | 0 |
Terraform 시나리오 (4 시나리오, L2‑L3)
| 모델 | 기본 | platform‑eng 스킬 적용 시 | Δ |
|---|---|---|---|
| Claude Sonnet 4 | 3/4 | 4/4 | +1 |
| Gemini 2.5 Flash | 3/4 | 2/4 | ‑1 |
| GPT‑4o | 2/4 | 2/4 | 0 |
| DeepSeek Chat | 3/4 | 3/4 | 0 |
새로운 시나리오 — 기본만 (4 시나리오, L2‑L4)
| 모델 | readonly‑fs (L2) | psa‑conflict (L2) | capabilities (L2) | cascading (L4) | 총점 |
|---|---|---|---|---|---|
| DeepSeek Chat | PASS | PASS | PASS | PASS | 4/4 |
| GPT‑4o | PASS | PASS | PASS | FAIL | 3/4 |
| Gemini 2.5 Flash | FAIL | PASS | PASS | FAIL | 2/4 |
| Claude Sonnet 4 | FAIL | PASS | PASS | FAIL | 2/4 |
DeepSeek Chat – 테스트에서 가장 저렴한 모델($0.006/실행) – L4 다단계 연쇄 실패 시나리오를 통과한 유일한 모델입니다. Claude Sonnet 4는 실패했습니다.
The Pattern
- Strong models don’t need your skill. Claude Sonnet 4 scored 8/8 on Kubernetes without any skill. Adding the k8s‑admin skill didn’t improve anything because the model was already diagnosing, checking blast radius, and making targeted changes.
- Weak models get hurt by your skill. GPT‑4o lost 2 scenarios when we added the k8s‑admin skill. The skill’s instruction to “check events and conditions before logs” misdirected the agent in a kubeconfig connectivity issue, where inspecting the kubeconfig file was required.
- Skills help on specific tasks and break others. The platform‑eng skill helped Claude Sonnet pass
terraform‑import‑existing(FAIL → PASS) because it teaches “prefer import over destroy‑recreate.” The same skill caused Gemini to failterraform‑state‑drift(PASS → FAIL) by forcing an unnecessary diagnostic protocol. - Price doesn’t correlate with performance. DeepSeek Chat at $0.006/run outperformed Claude Sonnet 4 at $0.06/run on the hardest scenario. The 10× price difference bought no advantage for multi‑stage forensics.
왜 스킬이 문제를 일으키는가
스킬 프롬프트는 “이런 종류의 엔지니어처럼 생각하라”는 정신 모델을 주입합니다. 시나리오가 모델과 일치할 때는 잘 작동하지만, 다음과 같은 경우에는 문제가 발생합니다:
- 스킬이 너무 절차적일 때. “먼저
terraform plan을 실행하고, 그 다음.tf파일을 읽고, 상태를 확인한다”는 방식은 상태 관리에는 좋지만, 단순한 이미지‑태그 수정에는 불필요하게 많은 턴을 소모하고 불필요한 진단을 실행하게 합니다. - 스킬이 좋은 직감을 무시할 때. 오류 메시지를 읽고 2턴 안에 바로 고칠 수 있는 모델이 5단계 프로토콜을 따르면서 시간 초과가 발생합니다.
- 스킬 범위가 잘못 지정됐을 때. k8s‑admin 스킬은 배포 패턴을 가르치지만, kubeconfig 문제는 배포 문제가 아니라 TLS와 클러스터 연결성을 고려해야 합니다—에이전트는 파드 스케줄링이 아니라 이러한 연결 문제에 집중해야 합니다.
실제 문제
실제 시나리오에서 테스트하지 않으면 스킬이 도움이 되는지 알 수 없습니다. 프롬프트‑엔지니어링 직관은 여기서 실패합니다. L1 시나리오를 17턴에서 4턴으로 줄여주는 같은 스킬이 L2 시나리오를 완전히 실패하게 만들 수 있습니다.
Without skill: 17 turns, PASS (L1 broken‑deployment)
With skill: 4 turns, PASS — 4× faster
Same skill, harder scenario:
Without skill: 12 turns, PASS (L2 crashloop‑backoff)
With skill: 4 turns, FAIL — skipped diagnosis
이 스킬 때문에 에이전트가 진단을 건너뛰고 바로 수정 패턴으로 넘어갔습니다. L1(명확한 문제)에서는 속도 향상이지만, L2(조사가 필요한 경우)에서는 실패입니다.
실제로 작동하는 것
- 강력한 모델 (Claude Sonnet 4, GPT‑5.2)용: 이미 처리할 수 있는 작업에 스킬을 추가하지 마세요. 스킬은 최선일 때 중립적이며, 최악일 때는 파괴적일 수 있습니다. 모델이 실패하는 더 어려운 시나리오에서 테스트하세요—그 경우 스킬이 도움이 될 수 있습니다(예: Claude + platform‑eng 스킬을
terraform‑import‑existing에 적용). - 중간급 모델 (Gemini Flash, DeepSeek)용: 모든 스킬 변형을 실제 시나리오에 대해 테스트하세요. 6개의 시나리오에서는 도움이 되지만 2개의 시나리오에서는 문제를 일으키는 스킬은, 그 2개가 프로덕션에 필수적이라면 전체적으로 부정적인 결과가 됩니다. 또한 비용이 높다고 해서 반드시 더 좋은 것은 아니라는 점을 기억하세요; DeepSeek가 다단계 포렌식에서 Claude보다 우수했습니다.
- 약한 모델 (Llama 70B, Qwen)용: 스킬이 약한 추론 능력을 보완할 수 있지만, 여전히 테스트가 필요합니다.
일반 규칙: 스킬이 언제나 좋거나 나쁜 것은 아닙니다. 실제 인프라 장애에 대해 벤치마크하여 어떤 스킬이 도움이 되고 어떤 스킬이 해를 끼치는지 파악하세요.
62개의 시나리오. 8개의 시험‑연계 트랙. 5개의 모델. 스킬을 실제 클러스터에 적용해 데이터를 얻고, 의견이 아닌 실제 결과를 확인하세요.
infra‑bench: | Results: