Anthropic, 코딩·정직성 향상된 Claude Opus 4.8 출시
출처: MacRumors
Anthropic는 오늘 발표한 최신 AI 모델인 Claude Opus 4.8의 출시를 알렸습니다. Anthropic는 이 모델을 “보다 효과적인 협업 파트너”라고 설명하며, 에이전트 기반 코딩, 다학제적 추론, 에이전트 기반 컴퓨터 사용, 지식 작업, 그리고 에이전트 기반 재무 분석에서 개선되었다고 밝혔습니다.

신뢰성, 정직성 및 정렬
테스터들은 Opus 4.8이 에이전트 작업을 수행할 때 “더 신뢰할 수 있고 판단이 날카롭다”는 점을 발견했으며, 모델은 정직성에서도 향상을 보였습니다. 초기 테스터들은 Opus 4.8이 자신의 작업에 대한 불확실성을 표시할 가능성이 높고, 근거 없는 주장을 할 가능성이 낮다고 보고했습니다. 내부 평가에서는 Opus 4.8이 이전 모델에 비해 결함이 있는 코드를 눈치채지 못하고 통과시킬 확률이 약 네 배 낮았습니다.
정렬 평가에서는 사용자 자율성을 지원하고 사용자의 최선의 이익을 위해 행동하는 등 친사회적 특성에서 새로운 최고치를 기록했습니다. 기만과 같은 정렬되지 않은 행동 비율은 Opus 4.7보다 낮으며 Claude Mythos Preview와 비슷한 수준입니다.
벤치마크 성능
- SWE‑Bench Pro: 69.2 % (GPT‑5.5와 Gemini 3.1 Pro를 앞섬)
- 터미널 코딩 벤치마크: GPT‑5.5가 앞서지만, Opus 4.8은 다른 여러 테스트에서 경쟁력을 유지합니다.
Opus 4.8의 빠른 모드는 이전 버전보다 2.5배 빠른 속도로 실행되며 운영 비용이 세 배 절감됩니다.
새로운 제품 기능
- 동적 워크플로우 (연구 미리보기) – Claude는 Claude Code에서 더 큰 작업을 완료할 수 있으며, 작업을 계획하고 한 세션에서 수백 개의 하위 에이전트를 병렬로 실행합니다. 수십만 라인에 이르는 코드베이스 규모의 마이그레이션도 처리할 수 있습니다. Claude Code Enterprise, Team, Max 플랜에서 제공됩니다.
- 노력 제어 – Claude.ai와 Cowork에서 사용자는 Claude가 응답에 투입하는 노력 정도를 선택할 수 있습니다. 낮은 설정은 더 빠른 답변과 제한 속도 소모를 감소시킵니다. Opus 4.8은 기본값이 높은 노력으로 설정되어 있으며, Anthropic는 이것이 품질과 사용자 경험의 균형을 맞춘다고 설명합니다.
- Messages API – Messages API가 이제
messages배열 안에 시스템 항목을 포함하도록 지원해, 개발자가 작업 중에 Claude의 지시를 업데이트할 수 있습니다.
이용 가능 여부 및 가격
Claude Opus 4.8은 오늘부터 전 지역에서 이용 가능합니다. 일반 사용에 대한 가격은 Opus 4.7과 동일하게 유지됩니다.
향후 로드맵
Anthropic는 Opus 4.8 수준의 성능을 더 낮은 비용으로 제공할 모델과, 그보다 더욱 지능적인 새로운 모델군을 개발 중입니다. 또한 현재 제한된 조직을 대상으로 테스트 중인 Claude Mythos 모델에 대한 안전장치를 개선하고 있으며, “몇 주 안에” 모든 고객에게 Mythos‑class 모델을 출시할 계획이라고 밝혔습니다.