Claude Opus 4.7 방금 출시: 87.6% SWE-bench, 호환성을 깨는 API 변경, 그리고 숨겨진 비용 증가
I’m happy to translate the article for you, but I need the full text you’d like translated. Could you please paste the content (excluding the source line you already provided) here? Once I have the text, I’ll translate it into Korean while preserving the original formatting, markdown, and technical terms.
개요
Anthropic는 2026년 4월 16일에 Claude Opus 4.7을 출시했습니다. 이 모델은 코딩 벤치마크에서 강력한 향상을 보이며, 주요 비전 업그레이드와 여러 파괴적인 API 변경을 포함합니다. Anthropic는 “가격은 동일하게 유지된다”고 주장하지만, 새로운 토크나이저가 토큰 수를 1.0–1.35× 증가시켜 대규모 사용 시 비용을 10‑35 % 정도 상승시킵니다.
벤치마크 비교
| Metric | Opus 4.6 | Opus 4.7 | Δ |
|---|---|---|---|
| SWE‑bench Verified | 80.8 % | 87.6 % | +6.8 pts |
| SWE‑bench Pro | 53.4 % | 64.3 % | +10.9 pts |
| CursorBench | 58 % | 70 % | +12 pts |
| GPQA Diamond | 91.3 % | 94.2 % | +2.9 pts |
| Visual Acuity | 54.5 % | 98.5 % | +44 pts |
Opus 4.7은 4.6에 비해 생산 코딩 작업을 대략 세 배 더 많이 해결하며, (3.75 MP 지원으로 98.5 % 정확도, 해상도 3배 증가) 거의 완벽에 가까운 시각을 제공합니다.
경쟁 구도
| Model | SWE‑bench Verified | SWE‑bench Pro | GPQA Diamond | Prompt price (in / out per MTok) |
|---|---|---|---|---|
| Opus 4.7 | 87.6 % | 64.3 % | 94.2 % | $5 / $25 |
| GPT‑5.4 | ~83 % | 57.7 % | 94.4 % | $2.50 / $15 |
| Gemini 3.1 Pro | 80.6 % | 54.2 % | 94.3 % | $2 / $12 |
Opus 4.7은 코딩 분야에서 앞서며, GPQA 성능은 세 모델 모두 거의 동등합니다. Gemini 3.1 Pro는 Opus 4.7보다 약 60 % 저렴합니다.
API 변경 사항
샘플링 파라미터 제거
# THIS WILL FAIL ON OPUS 4.7
response = client.messages.create(
model="claude-opus-4-7",
temperature=0.7, # 400 error
top_p=0.9, # 400 error
)
Anthropic은 temperature, top_p 및 기타 샘플링 조절 옵션을 없앴습니다. 이제 가이드라인은 다음과 같이 명시합니다: “프롬프트를 사용해 동작을 유도하세요.” 다른 프론티어 모델들은 여전히 이 파라미터들을 지원합니다.
Adaptive Thinking
# BEFORE (will crash)
thinking = {"type": "enabled", "budget_tokens": 32000}
# AFTER (works)
thinking = {"type": "adaptive"}
Adaptive만이 지원되는 사고 모드입니다. 눈에 보이는 진행 표시기를 다시 사용하려면 display: "summarized"를 추가하세요:
thinking = {"type": "adaptive", "display": "summarized"}
토크나이저 변경 및 실질 가격 상승
- Opus 4.7은 새로운 토크나이저를 사용해 동일한 텍스트에 대해 토큰 수가 1.0–1.35배 증가합니다.
- Opus 4.6에서 $1.00이 들던 프롬프트가 이제 Opus 4.7에서는 $1.00–$1.35가 됩니다.
- 실제 운영 규모에서는 헤드라인인 “동일 가격”에도 불구하고 10‑35 % 숨겨진 가격 인상으로 이어집니다.
비용‑제어 전략
- Effort Parameter –
high를xhigh또는max보다 선호합니다. Opus 4.7에서high는max인 Opus 4.6보다 여전히 성능이 뛰어납니다. - Prompt Caching – 캐시된 읽기 비용은 $0.50 / MTok이며, 표준 입력보다 약 10배 저렴합니다.
- Task‑Based Routing – 복잡한 코딩/에이전시 작업에는 Opus 4.7을 사용하고, 간단한 작업은 더 저렴한 모델(예: Gemini 3.1 Pro 또는 GPT‑5.4 Mini)으로 라우팅합니다.
- Multi‑Model Gateway – 요청마다 최적 모델을 동적으로 선택하는 단일 API 엔드포인트로, 하드코딩된 모델 ID를 피합니다.
알아두면 좋은 새로운 기능들
| Feature | Description |
|---|---|
| Task Budgets (Beta) | 전체 에이전트 루프 전반에 걸친 권고 토큰 한도. 모델이 카운트다운을 보고 스스로 조절합니다. Example: output_config={"effort":"high","task_budget":{"type":"tokens","total":128000}} |
| xhigh Effort Level | high와 max 사이의 새로운 등급으로, 품질‑비용 트레이드‑오프를 더 세밀하게 조정합니다. |
| High‑Res Vision | 최대 2,576 px(이전 1,568 px)까지 지원하며 1:1 픽셀 좌표를 제공—스케일링 수식이 필요 없습니다. |
| Better Memory | 에이전트가 턴 간에 스크래치패드를 더 효과적으로 유지합니다. |
| Mythos (Unreleased) | Anthropic은 아직 공개되지 않은 Mythos 모델(≈10 조 파라미터)이 Opus 4.7보다 성능이 뛰어나다고 인정하지만, 아직 일반에 제공되지 않았습니다. Opus 4.7은 프로덕션 사용을 위한 “안전한 경계”입니다. |
권장 사항
- Opus 4.6을 사용 중이라면: 업그레이드하되, 파괴적인 변경을 처리하기 위해 전용 테스트 일자를 할당하세요.
- Sonnet 4.6 ($3 / $15)을 사용 중이라면: 코딩 품질 향상이 필요하지 않은 한 그대로 유지하세요; Sonnet은 약 90 %의 작업을 약 40 % 낮은 비용으로 처리합니다.
- 비용 최적화자: 어려운 문제에 대해서만 Opus 4.7을 선택적으로 배포하고, 나머지는 통합 게이트웨이를 통해 더 저렴한 대안으로 라우팅하세요.
- 새 프로젝트: 단일 공급자에 고정되지 않도록 하세요. 모델을 교체할 수 있는 추상화 레이어를 구축하여 기술 흐름이 변화함에 따라 (보통 2–3개월마다) 교체할 수 있게 합니다.
커뮤니티 피드백 요청
Opus 4.7을 사용해 본 경험은 어떠신가요? 실제 벤치마크와 공식 수치와의 차이가 있다면 댓글로 공유해 주세요.