Claude Opus 4.7 방금 출시: 87.6% SWE-bench, 호환성을 깨는 API 변경, 그리고 숨겨진 비용 증가

발행: 3일 전 (2026년 4월 17일 PM 02:27 GMT+9)

7 분 소요

I’m happy to translate the article for you, but I need the full text you’d like translated. Could you please paste the content (excluding the source line you already provided) here? Once I have the text, I’ll translate it into Korean while preserving the original formatting, markdown, and technical terms.

개요

Anthropic는 2026년 4월 16일에 Claude Opus 4.7을 출시했습니다. 이 모델은 코딩 벤치마크에서 강력한 향상을 보이며, 주요 비전 업그레이드와 여러 파괴적인 API 변경을 포함합니다. Anthropic는 “가격은 동일하게 유지된다”고 주장하지만, 새로운 토크나이저가 토큰 수를 1.0–1.35× 증가시켜 대규모 사용 시 비용을 10‑35 % 정도 상승시킵니다.

벤치마크 비교

Metric	Opus 4.6	Opus 4.7	Δ
SWE‑bench Verified	80.8 %	87.6 %	+6.8 pts
SWE‑bench Pro	53.4 %	64.3 %	+10.9 pts
CursorBench	58 %	70 %	+12 pts
GPQA Diamond	91.3 %	94.2 %	+2.9 pts
Visual Acuity	54.5 %	98.5 %	+44 pts

Opus 4.7은 4.6에 비해 생산 코딩 작업을 대략 세 배 더 많이 해결하며, (3.75 MP 지원으로 98.5 % 정확도, 해상도 3배 증가) 거의 완벽에 가까운 시각을 제공합니다.

경쟁 구도

Model	SWE‑bench Verified	SWE‑bench Pro	GPQA Diamond	Prompt price (in / out per MTok)
Opus 4.7	87.6 %	64.3 %	94.2 %	$5 / $25
GPT‑5.4	~83 %	57.7 %	94.4 %	$2.50 / $15
Gemini 3.1 Pro	80.6 %	54.2 %	94.3 %	$2 / $12

Opus 4.7은 코딩 분야에서 앞서며, GPQA 성능은 세 모델 모두 거의 동등합니다. Gemini 3.1 Pro는 Opus 4.7보다 약 60 % 저렴합니다.

API 변경 사항

샘플링 파라미터 제거

# THIS WILL FAIL ON OPUS 4.7
response = client.messages.create(
    model="claude-opus-4-7",
    temperature=0.7,   # 400 error
    top_p=0.9,         # 400 error
)

Anthropic은 temperature, top_p 및 기타 샘플링 조절 옵션을 없앴습니다. 이제 가이드라인은 다음과 같이 명시합니다: “프롬프트를 사용해 동작을 유도하세요.” 다른 프론티어 모델들은 여전히 이 파라미터들을 지원합니다.

Adaptive Thinking

# BEFORE (will crash)
thinking = {"type": "enabled", "budget_tokens": 32000}

# AFTER (works)
thinking = {"type": "adaptive"}

Adaptive만이 지원되는 사고 모드입니다. 눈에 보이는 진행 표시기를 다시 사용하려면 display: "summarized"를 추가하세요:

thinking = {"type": "adaptive", "display": "summarized"}

토크나이저 변경 및 실질 가격 상승

Opus 4.7은 새로운 토크나이저를 사용해 동일한 텍스트에 대해 토큰 수가 1.0–1.35배 증가합니다.
Opus 4.6에서 $1.00이 들던 프롬프트가 이제 Opus 4.7에서는 $1.00–$1.35가 됩니다.
실제 운영 규모에서는 헤드라인인 “동일 가격”에도 불구하고 10‑35 % 숨겨진 가격 인상으로 이어집니다.

비용‑제어 전략

Effort Parameter – high를 xhigh 또는 max보다 선호합니다. Opus 4.7에서 high는 max인 Opus 4.6보다 여전히 성능이 뛰어납니다.
Prompt Caching – 캐시된 읽기 비용은 $0.50 / MTok이며, 표준 입력보다 약 10배 저렴합니다.
Task‑Based Routing – 복잡한 코딩/에이전시 작업에는 Opus 4.7을 사용하고, 간단한 작업은 더 저렴한 모델(예: Gemini 3.1 Pro 또는 GPT‑5.4 Mini)으로 라우팅합니다.
Multi‑Model Gateway – 요청마다 최적 모델을 동적으로 선택하는 단일 API 엔드포인트로, 하드코딩된 모델 ID를 피합니다.

알아두면 좋은 새로운 기능들

Feature	Description
Task Budgets (Beta)	전체 에이전트 루프 전반에 걸친 권고 토큰 한도. 모델이 카운트다운을 보고 스스로 조절합니다. Example: `output_config={"effort":"high","task_budget":{"type":"tokens","total":128000}}`
xhigh Effort Level	`high`와 `max` 사이의 새로운 등급으로, 품질‑비용 트레이드‑오프를 더 세밀하게 조정합니다.
High‑Res Vision	최대 2,576 px(이전 1,568 px)까지 지원하며 1:1 픽셀 좌표를 제공—스케일링 수식이 필요 없습니다.
Better Memory	에이전트가 턴 간에 스크래치패드를 더 효과적으로 유지합니다.
Mythos (Unreleased)	Anthropic은 아직 공개되지 않은 Mythos 모델(≈10 조 파라미터)이 Opus 4.7보다 성능이 뛰어나다고 인정하지만, 아직 일반에 제공되지 않았습니다. Opus 4.7은 프로덕션 사용을 위한 “안전한 경계”입니다.

권장 사항

Opus 4.6을 사용 중이라면: 업그레이드하되, 파괴적인 변경을 처리하기 위해 전용 테스트 일자를 할당하세요.
Sonnet 4.6 ($3 / $15)을 사용 중이라면: 코딩 품질 향상이 필요하지 않은 한 그대로 유지하세요; Sonnet은 약 90 %의 작업을 약 40 % 낮은 비용으로 처리합니다.
비용 최적화자: 어려운 문제에 대해서만 Opus 4.7을 선택적으로 배포하고, 나머지는 통합 게이트웨이를 통해 더 저렴한 대안으로 라우팅하세요.
새 프로젝트: 단일 공급자에 고정되지 않도록 하세요. 모델을 교체할 수 있는 추상화 레이어를 구축하여 기술 흐름이 변화함에 따라 (보통 2–3개월마다) 교체할 수 있게 합니다.

커뮤니티 피드백 요청

Opus 4.7을 사용해 본 경험은 어떠신가요? 실제 벤치마크와 공식 수치와의 차이가 있다면 댓글로 공유해 주세요.

Claude Opus 4.7 방금 출시: 87.6% SWE-bench, 호환성을 깨는 API 변경, 그리고 숨겨진 비용 증가

개요

벤치마크 비교

경쟁 구도

API 변경 사항

샘플링 파라미터 제거

Adaptive Thinking

토크나이저 변경 및 실질 가격 상승

비용‑제어 전략

알아두면 좋은 새로운 기능들

권장 사항

커뮤니티 피드백 요청

관련 글

AI는 개발자 번아웃을 줄여줄 것으로 기대됐지만, 데이터는 반대다.

지구의 날을 위한 활력

AI는 코드를 빠르게 작성할 수 있다. 하지만 실제로 올바른지 누가 확인하나요?

EcoLens 🌍 — 모든 물체 스캔, 탄소 영향을 확인하세요 (Haiti 및 자원 제한 환경용)