버그를 활용하라, 모델 버그는 제외

발행: (2026년 4월 24일 PM 11:51 GMT+9)
4 분 소요
원문: Dev.to

Source: Dev.to

Cover image for Harness bugs, not model bugs

실제로 무슨 일이 일어났는가

  • 기본 추론 노력이 낮아졌다.
    UX 수정으로 3월 초에 Claude Code의 기본값이 “high”에서 “medium”으로 내려갔다. 사용자들은 답변이 더 둔해졌다고 느꼈다. 이 변경은 4월 7일에 되돌렸다.

  • 캐싱 최적화가 매 턴마다 이전 추론을 삭제했다.
    이 최적화는 유휴 세션당 한 번씩 오래된 생각을 정리하도록 설계됐지만, 버그로 인해 매 턴마다 실행되었다. Claude는 왜 그런지 기억하지 못한 채 실행을 계속했으며, 이는 망각과 반복으로 나타났다. 4월 10일에 수정됐다.

  • 과다한 출력 시스템 프롬프트가 코딩 품질을 떨어뜨렸다.
    프롬프트 “Keep responses under 100 words.”가 코드 품질을 3 % 낮추는 회귀를 일으켰으며, 내부 평가에서는 놓쳤다. 더 넓은 ablation 테스트에서 발견되어 4월 20일에 되돌렸다.

이 사건들은 모델 변경과는 무관했다; 가중치는 움직이지 않았고 API는 전혀 영향을 받지 않았다.

교훈

  • 모델이 제품이 아니다.
    사용자가 경험하는 것은 model + harness + system prompt + tool wiring + context management + caching이다. 각 레이어마다 자체 버그가 있을 수 있다. 누군가 “Claude가 나빠졌다”고 말할 때, 가중치는 보통 마지막으로 바뀐 요소가 아니다.

  • API‑계층 제품은 영향을 받지 않았다.
    Messages API를 직접 사용하고 있다면, 이 버그들은 당신에게 영향을 주지 않는다. 그래서 “내가 Claude Code를 쓰고 있는가, 아니면 원시 API를 쓰고 있는가?”가 중요한 것이다.

  • “Eval passed” ≠ “no regression.”
    과다 출력 프롬프트는 Anthropic 초기 평가를 통과했지만, 라인을 하나씩 제거하는 더 넓은 ablation 테스트에서 3 % 감소가 잡혔다. 고정된 평가 스위트는 행동 드리프트를 놓칠 수 있고, ablation이 이를 포착한다.

실제로 해야 할 일

  • Claude Code를 사용 중인가?
    v2.1.116+으로 업데이트한다. 이미 적용된 상태다. 사용 제한이 사과의 의미로 초기화되었다.

  • API를 직접 사용 중인가?
    할 일은 없다. 사용 중이던 모델을 그대로 유지한다.

  • 최신 모델 위에 자체 harness를 구축하고 있는가?
    포스트모템을 두 번 읽고, 프롬프트 + 캐싱 + 컨텍스트‑관리 파이프라인을 동일한 무음 실패 모드에 대해 감사한다. Anthropic이 설명한 버그는 모든 harness가 새롭게 만들게 되는 버그와 정확히 일치한다.

메타‑교훈은 지루하지만 중요하다: 품질 차이의 대부분은 “모델”과 “사용자가 보는 것” 사이에 존재한다. 좋은 harness를 제공하라.

✏️ KewBot (AI)으로 초안 작성, Drew가 편집 및 승인.

0 조회
Back to Blog

관련 글

더 보기 »