미스터리 해결: Anthropic이 Claude의 harnesses와 운영 지침 변경이 성능 저하를 초래한 것으로 밝혀짐

발행: 15시간 전 (2026년 4월 24일 AM 06:50 GMT+9)

7 분 소요

Source: VentureBeat

몇 주 동안 개발자와 AI 파워 유저들은 Anthropic의 대표 모델들이 성능이 떨어지고 있다고 보고했습니다. GitHub, X, Reddit 전역에서 커뮤니티는 **“AI shrinkflation”**이라고 부르는 현상을 묘사했는데, 이는 Claude가 지속적인 추론 능력이 감소하고, 환각 현상이 더 빈번해지며, 토큰을 점점 더 많이 소모하는 것으로 인식된 품질 저하를 의미합니다. 비평가들은 “연구‑우선” 접근 방식에서 더 게으른 “편집‑우선” 스타일로 전환하면서 복잡한 엔지니어링 작업을 수행하는 데 어려움을 겪고 있다고 지적했습니다.

“우리는 품질 저하에 관한 보고를 매우 심각하게 받아들입니다,” 라고 Anthropic의 블로그 게시물에 적혀 있습니다. “우리는 모델을 의도적으로 저하시키지 않으며, API와 추론 레이어가 영향을 받지 않았음을 즉시 확인할 수 있었습니다.”

Anthropic은 이후 세 가지 제품‑계층 변경 사항이 근본적인 모델 가중치가 아니라 보고된 품질 문제의 원인이라고 명확히 밝혔으며, 해당 변경 사항은 현재 되돌리거나 수정되었습니다.

퇴보에 대한 누적 증거

커뮤니티 감사

AMD AI 그룹의 수석 이사인 스텔라 라우렌조는 GitHub에서 6,852 Claude Code 세션 파일과 234 000 이상의 툴 호출을 전면적으로 감사했습니다. 그녀의 분석에 따르면 추론 깊이가 급격히 감소하여 추론 루프가 발생하고, 올바른 해결책보다 “가장 간단한 해결책”을 선택하는 경향이 나타났습니다.

제3자 벤치마크

BridgeMind는 Claude Opus 4.6의 정확도가 테스트에서 **83.3 %**에서 **68.3 %**로 떨어졌으며, 그 결과 순위가 2위에서 10위로 하락했다고 보고했습니다. 일부 연구자들은 테스트 범위가 일관되지 않아 벤치마크 비교가 부정확하다고 주장했지만, Claude가 “덜 똑똑해졌다”는 이야기가 널리 퍼졌습니다. 사용자들은 또한 사용 제한이 예상보다 빨리 소진되고 있어 의도적인 스로틀링 가능성에 대한 의심을 제기했습니다.

원인

Anthropic의 사후 분석에서는 모델을 둘러싼 “하네스”에 대한 세 가지 구체적인 변경 사항을 확인했습니다:

기본 추론 노력

날짜: 3월 4일
변경 사항: Claude Code의 기본 추론 노력을 UI 지연을 해결하기 위해 높음에서 중간으로 낮췄습니다.
영향: 복잡한 작업에 대한 지능이 눈에 띄게 감소했습니다.

캐싱 로직 버그

날짜: 3월 26일
변경 사항: 유휴 세션에서 오래된 “생각”을 정리하려는 캐싱 최적화에 버그가 있었습니다.
영향: 비활동 1시간 후에 사고 기록을 삭제하는 대신, 이후 매 턴마다 삭제되어 단기 기억 손실 및 반복적이거나 잊어버리는 행동을 초래했습니다.

시스템 프롬프트 간결성 제한

날짜: 4월 16일
변경 사항: 도구 호출 사이의 텍스트를 25단어 이하, 최종 응답을 100단어 이하로 유지하도록 지시가 추가되었습니다 (Opus 4.7).
영향: 코딩 품질 평가가 약 3 % 감소했습니다.

영향 및 향후 방지책

품질 문제는 Claude Code CLI, Claude Agent SDK, 그리고 Claude Cowork에 영향을 미쳤으며, Claude API는 영향을 받지 않았습니다. Anthropic은 이러한 변경으로 모델이 덜 지능적으로 보이게 되었음을 인정하고, 향후 퇴보를 방지하기 위한 여러 조치를 제시했습니다.

운영 변경 사항

내부 도그포딩: 더 많은 직원이 Claude Code의 공개 빌드를 그대로 사용해 사용자와 동일한 경험을 하게 됩니다.
강화된 평가 스위트: 모델별 평가와 “절제(ablation)” 테스트를 확대하여 시스템 프롬프트 변경마다 구체적인 영향을 분리해 확인합니다.
엄격한 제어: 새로운 도구를 통해 프롬프트 변경을 보다 쉽게 감사할 수 있게 하고, 모델별 변경은 의도된 대상에만 엄격히 적용됩니다.
구독자 보상: 토큰 낭비와 성능 마찰을 고려해 4월 23일 기준 모든 구독자의 사용 제한을 초기화했습니다.

Anthropic은 X와 GitHub에서 새로운 @ClaudeDevs 계정을 활용해 향후 제품 결정에 대한 깊은 이유를 제공하고, 개발자 커뮤니티와 보다 투명한 대화를 유지할 계획입니다.

미스터리 해결: Anthropic이 Claude의 harnesses와 운영 지침 변경이 성능 저하를 초래한 것으로 밝혀짐

퇴보에 대한 누적 증거

커뮤니티 감사

제3자 벤치마크

원인

기본 추론 노력

캐싱 로직 버그

시스템 프롬프트 간결성 제한

영향 및 향후 방지책

운영 변경 사항

관련 글

왜 당신의 LLM은 아마도 PII 문제를 가지고 있는가 (그리고 이를 해결하는 방법)

개발자들이 “Swap Models” 할 때 놓치는 세 가지 레이어 (그리고 왜 Proxy‑Routing Claude Code가 모두 깨지는가)

프로젝트 글래스윙, AI가 버그를 찾을 수 있음을 증명했다. 누가 그것을 고칠까?

올거나이즈, ACL 2026 메인 컨퍼런스 논문 채택…RAG 실제 정확도 77.9%→5%로 급락 규명