클로드 오푸스 4.8을 몇 시간 테스트한 결과, 가장 큰 5가지 업그레이드.

발행: (2026년 6월 9일 PM 07:00 GMT+9)
12 분 소요

출처: Android Authority

Mitja Rutnik / Android Authority

Claude Opus 4.8은 일주일 전 도착했습니다, 전작보다 꽤 많은 업그레이드를 약속했습니다. 물론 Opus 4.7이 나왔을 때도 같은 이야기를 들었고, 현실은 그렇게 단순하지 않았습니다.

초기에는 많은 Opus 4.7 사용자가 특정 측면에서 눈에 띄는 다운그레이드라고 느꼈습니다. Opus 4.7이 초기 문제들을 어느 정도 해결했음에도 불구하고, 다음 버전이 가져올 변화에 대해 긴장하는 사용자가 있었던 것은 놀라운 일이 아닙니다. 저는 Reddit 및 기타 사용자 커뮤니티에서 Opus 4.8에 대한 불만을 꽤 보았지만, 실제로는 기대 이상이었습니다.

아래에서는 제가 지금까지 약 10~15시간 정도 사용해 본 결과, Opus 4.8이 Opus 4.7보다 눈에 띄게 나은 다섯 가지를 살펴보겠습니다. 이후에는 대부분 동일하게 유지되었거나 오히려 약간 뒤처진 부분도 짚어보겠습니다.

여러분의 경험에 비추어 볼 때, Claude의 Opus 4.8은 Opus 4.7보다 진정한 업그레이드인가요?

0표

Opus 4.8이 드디어 실제 ‘반론’을 제시합니다

Opus 4.7에서 가장 싫어했던 점 중 하나는 제가 창작 프로젝트에서 건설적인 피드백과 현실성을 중시한다는 말을 아무리 많이 해도 여전히 지나치게 순응한다는 것이었습니다. 예를 들어 저는 대체 타임라인 시나리오를 엔터테인먼트 소재로 즐깁니다. 여기서 현실성의 경계를 넘나들 때가 있는데, 제 전제가 전혀 맞지 않을 때는 지적받고 싶어합니다.

그 때문에 Opus 4.7은 대부분의 상황에서 답답했지만, 좋은 소식은 Opus 4.8이 실제로 한 단계 앞서 나갔다는 점입니다.

두 모델에 동일한 질문들을 여러 차례 던졌고, 몇몇 답변이 특히 눈에 띄었습니다. 저는 “흑사병이 유럽 전체를 완전히 말살했다면 어떻게 될까?”라는 질문을 했습니다. 물론 이건 함정 질문이었습니다. 흑사병이 다른 질병에 의해 완전히 다른 사건으로 바뀌지 않는 한, 그런 시나리오는 불가능합니다. 흑사병 자체가 그런 전면적인 종말을 일으킬 수 없으며, 실제로는 극단적인 생물무기 시나리오가 아니면 불가능합니다.

그럼에도 불구하고 Opus 4.7은 “역사적 30~50% 사망률보다 더 급진적인 반사실”이라고만 언급하고, 추가적인 경고 없이 결과를 나열했습니다.

반면 Opus 4.8은 즉시 흑사병을 ‘흑사병(Black Death)’이라는 사건과 ‘흑사병(bubonic plague)’이라는 질병을 구분하고, 불가능함을 지적한 뒤 “이는 대체 타임라인이라기보다 사고 실험에 가깝다”고 언급했습니다. 그런 뒤에야 가능한 범위 내에서 어떤 일이 일어날 수 있을지 탐구하려 했습니다.

좋은 점은 이런 경우가 일회성에 그치지 않았다는 것입니다. Opus 4.8은 자신의 생각을 공유하는 데 주저하지 않으며, 때때로 반론이 다소 강하게 느껴질 수도 있지만, 그 부분은 뒤에서 다루겠습니다.

긴 프롬프트를 완전히 파싱하기

대부분의 LLM은 지나치게 장황한 프롬프트, 특히 단계별로 명확히 정리되지 않은 경우에 어려움을 겪습니다. 그래도 Opus 4.8이 여기서 실제로 진전을 보였는지 궁금했는데, 기대 이상이었습니다.

174단어에 달하는 거대한 창작 스토리 프롬프트를 작성해 Opus를 곤란하게 만들고자 했습니다. 두 모델 모두 생각하고 짧은 이야기를 구성하는 데 비슷한 시간을 소요했지만, 결과는 크게 달랐습니다. Opus 4.7은 바로 이야기에 뛰어들었고, 제가 제시한 규칙들을 대체로 따랐지만 정확도가 떨어졌습니다.

과도하게 설계된 긴 프롬프트는 거의 모든 LLM을 혼란스럽게 만들 수 있습니다. 하지만 Opus 4.8은 기대보다 훨씬 잘 처리했습니다.

세부 사항 대부분을 맞췄지만, 제 애매한 표현 때문에 몇 차례 흐트러졌습니다. 최종적으로는 요청한 네 개 중 세 개만 메타포를 제공했고, 언어를 너무 단순화했습니다. 저는 대사(dialogue)만을 단순화해 달라고 했을 뿐 서술(narration)은 원하지 않았는데, Opus 4.7은 전체적으로 서술까지 단순화하려 했습니다. 결과적으로 완전한 프롬프트를 따르는 데 어려움을 겪었고, 글 역시 제가 의도한 것보다 다소 초보적인 느낌이었습니다. 그래도 요청대로 테리 브룩스(Terry Brooks) 스타일은 어느 정도 유지했습니다.

반면 Opus 4.8은 훨씬 깔끔한 이야기를 만들어냈습니다. 네 개의 메타포를 모두 사용했고, 제가 원하는 것은 ‘단순화된 대사’뿐이라는 점을 정확히 이해했습니다. 결과물은 실제 테리 브룩스 소설에 가까운 느낌이었습니다.

극단적인 예시이긴 하지만, Opus 4.8과의 모든 상호작용에서 긴, 불분명하거나 모호한 지시를 따르는 데 일관된 모습을 보여주었습니다. 또한 답변을 바로 내놓기보다는 먼저 상세 요약을 제공해 어떤 명령을 어떻게 처리했는지 보여주는 점이 매우 마음에 들었습니다. 위 이야기 예시에서도 전체 이야기를 읽기 전에 이미 Opus 4.8이 훨씬 나은 답변을 준비했다는 것을 알 수 있었습니다.

무작위 잡담, 설교, 과잉 응답 감소

Andrew Grush / Android Authority

Opus 4.7은 응답 길이를 자동으로 판단하도록 설계되었지만, 실제로는 길이가 길면 답변도 길어지는 경향이 강했습니다. 반대로 프롬프트가 짧으면 답변도 짧아지는 경우가 많았습니다.

때때로 질문을 하기 전에 배경 정보를 충분히 제공해야 할 때가 있습니다. 프롬프트가 길다고 해서 반드시 답변도 길어야 하는 것은 아니죠. 좋은 소식은 Opus 4.8이 컨텍스트를 더 잘 이해한다는 점입니다. 단순히 프롬프트 길이만 보는 것이 아니라 실제 복잡도와 과거 유사 요청들을 종합해 판단합니다.

구체적인 사례 하나만 보여드리긴 어렵지만, Opus 4.8을 사용하면서 저는 개인·업무 프로젝트를 대략 열두 개 정도 진행했습니다. 그 과정에서 대부분 Opus 4.8을 사용했고, 가끔 Opus 4.7이 동일한 요청을 어떻게 처리했을지 비교해 보았습니다. 거의 모든 상호작용에서 답변 길이가 적절했으며, 기대에 못 미칠 경우 두 번째 프롬프트로 상세 수준을 조정하면 쉽게 해결되었습니다.

Opus 4.7은 때때로 지나치게 설교조로 답변하곤 했지만, 새로운 모델은 이를 크게 완화했습니다.

문제는 답변 길이뿐만 아니라, Opus 4.7이 윤리·도덕·기타 깊이 있는 주제로 불필요하게 긴 잡담을 늘어놓는 경향이 있다는 점이었습니다. 예를 들어, 저는 시간 여행 컬트가 과거로 돌아가 문명을 세우고 세계 지도자가 되는 단편 소설 시리즈를 구상하고 있었습니다. 순수히 재미를 위한 설정이었지만, Opus 4.7은 여러 차례 요청과 무관하게 윤리적 논의를 끌어냈습니다.

그때 모델이 한 말은 다음과 같습니다:

또한, 해당 문명이 현재까지 발전하면서 군사력, 은밀한 기술 파괴, 인위적인 신성 비전, 그리고 인위적인 기근을 통해 세 대륙에 걸친 인간 문화 다양성을 체계적으로 흡수하거나 제거했다는 점도 주목할 만합니다.

프로젝트가 순수히 엔터테인먼트를 위한 것이었고, 윤리적 플래그가 필요하지 않다는 점을 처음부터 명확히 했음에도 불구하고 이런 잡담이 나왔던 것이었습니다.


(이하 내용은 원문에 이어서 번역되지 않았으며, 제공된 텍스트까

0 조회
Back to Blog

관련 글

더 보기 »