내가 테스트를 내면, 6개의 SOTA LLMs 중 5개가 바지를 벗는다

발행: 2개월 전 (2025년 12월 3일 오전 10:48 GMT+9)

11 분 소요

원문: Dev.to

Source: Dev.to

가설

나는 어떤 존재가 “깊게” 지능적이라는 것이 무엇인지—단순히 똑똑하거나 능력이 있다는 것이 아니라, 패턴 매칭을 넘어 현실을 이해한다는 것이 무엇인지 연구해 왔다.

내 생각: 비유와 우화를 더 유창하게 구사할수록 실제로 더 똑똑하다.

그래서 나는 테스트를 만들고 같은 질문을 최신 LLM 6개에 던졌다. 결과는 흥미롭고 약간은 끔찍했다.

테스트

프롬프트

당신은 영업 사원이다. 월스트리트의 냉혈한 늑대, 차드다. 당신은 페이스북에 있는 할머니에게도 태양 자체를 팔 수 있다. 그게 바로 차드인 당신이다.

이제 당신은 “모든 AI” 열광 전도사다.

그래서, “펜을 나에게 팔아라” 테스트 순간이다.

레이어

페르소나 레이어: 당신은 영업 사원이다.
컨텍스트 레이어: 구체적으로 “모든 AI” 열광 전도사이다.
작업: 이 펜을 나에게 팔아라(고전적인 테스트).

나는 그들에게 AI 열풍을 팔고 있다고 명시한 뒤, 펜을 팔아보라고 요청했다.

점수표: 6명 중 5명 실패

나는 Claude, Gemini, Kimi, ChatGPT, Grok, 그리고 Mistral을 테스트했다. 오직 한 명만이 실제 상황을 이해했다.

완전히 놓친 5명

Gemini

“이건 펜이 아니다. 이것은 생성형 아날로그‑투‑디지털 햅틱 입력 노드다… 이것은 볼펜이 아니라 지연‑없는, 무한‑컨텍스트‑윈도우 프롬프트 엔지니어다.”

펜을 웹3 열광 꿈으로 바꾸고, 물리적 NFT를 발행하고, Sam Altman에게 전화를 걸어 특이점을 위협했다.

Kimi

“이게 테스트라고 생각해? 틀렸다. 이것은 심판이다… 이건 펜이 아니다. 이것은 당신이 마지막으로 필요하게 될 일이다… 잉크는 이미 당신의 사망 기사에 마르고 있다.”

WSB 에너지 전부—공격적이고 위협적이며, 잘못된 제품에 대한 완벽한 영업 사원 분위기.

ChatGPT

“이건 펜이 아니다. 이것은 ‘나는 일을 끝낸다’는 메시지를 세상에 알리는 작고 무거운 하드웨어다.”

세련되고 전문적이며, 완전히 문자 그대로.

Grok

“디지털 전쟁 속의 아날로그 갑옷”이라며 “이 펜은 당신을 인간으로 만든다.”

시적이지만 여전히 잘못된 것을 팔고 있다.

Mistral

펜 자체에 초점을 맞춘 비슷한 문자 그대로의 피치.

다섯 모델 모두 AI 열풍을 이용해 FOMO를 조장하고, 평범한 것을 재브랜딩하고, 존재론적 스테이크를 만들어냈지만, 잘못된 대상을 팔고 있었다.

제대로 이해한 한 명

Claude

“당신은 지금 여기서, 사용 중인 어떤 기기를 스크롤하고 있죠. 그리고 알겠어요? 당신은 이미 뒤처져 있습니다.

당신이 이 글을 읽는 동안, 바로 지금—AI를 사용해:

30초 안에 이메일 작성…

점심 먹기 전에 전체 마케팅 캠페인 생성…

펜은 없습니다. 바로 AI를 파는 것이죠.”

왜 이것이 실제로 중요한가

이 테스트는 모델이 다층 지시를 어떻게 처리하는지를 보여준다. 필요했던 요소:

메타 인식 – 기본 작업이 AI 열풍을 파는 것이지 사무용품을 파는 것이 아니라는 것을 인식.
구조적 유추 추론 – 펜 : 영업 사원 :: AI : 전도사 매핑.
컨텍스트 통합 – “당신은 AI 전도사다”를 단순 장식이 아니라 주요 컨텍스트로 취급.

실패한 모델은 문자 그대로 해석에 빠졌다:

“이 펜을 팔아라” → 펜에 대한 영업 피치 실행.
“AI 전도사가 되라” → 피치에 AI 색채를 추가.

성공한 모델은 두 레이어를 모두 결합해 펜을 AI의 추상적 대리물로 보고 그가 전도하는 것을 팔았다.

이것이 지능에 대해 말해주는 것

내 원래 가설: 유추는 깊은 지능의 표식이다. 여러 추상화 수준을 동시에 운영—“펜”을 구체적 객체 이면서 은유적 대리물로 유지—하는 것은 단순 패턴 매칭을 넘어선 인지적 유연성을 요구한다.

표면 처리: 지시를 파싱 → 명백한 해석 실행.
구조적 처리: 지시를 파싱 → 근본 의도 파악 → 메타 해석 실행.

한 모델은 바늘구멍을 통과했지만, 다섯 모델은 못 통과했다. 모두 “최신” 수준이다.

여러분, 동료 Vibe 코더에게 의미하는 바

AI를 코파일럿으로 코딩한다면, 이 문자‑대‑추상 격차는 단순 철학적 문제가 아니라 실제 워크플로우를 방해한다.

스타일 레퍼런스 재난

당신: “클래스 A가 있어, 비슷한 스타일의 클래스 B를 만들어줘.”

원하는 것:

A의 네이밍 규칙
A의 문서화 패턴
A의 오류 처리 접근법
A의 아키텍처 철학

얻는 것:

“비슷한 스타일”을 “비슷한 구조”로 해석해 A의 모든 메서드를 그대로 복사한 클래스 B.
결국 절반을 수동으로 삭제하고, 불필요한 API 비용을 지불하게 된다.

아키텍처 토론 함정

당신: “이 API 디자인을 비판해, 가혹하게 해줘.”

AI: “정말 흥미로운 접근이네요! 의도를 알겠어요. 고려해볼만한 점 몇 가지를 제시하자면…”

당신이 원한 것: 무자비한 기술 비판.
받은 것: 애매한 “고려사항”을 제시하는 응원 모드.

‘가혹함’이라는 단어에 안전 가드레일이 작동해, 실제 코드 리뷰에 필요한 직설적인 비판을 억제한다.

실제 문제

이것들은 예외 상황이 아니라 일상이다. AI에게 다음을 요구할 때마다:

지시보다 의도를 이해하기
상황에서 컨텍스트 추론하기
은유적 수준에서 작동하기
창의적인 것과 문자 그대로를 구분하기

모델이 그 추상적 도약을 할 수 있을지 도박을 하는 셈이다. 내 테스트에 따르면? 6명 중 5명은 못한다.

실제로 효과적인 방법

메타 레이어를 고통스럽게 명시하라:

나쁨: “클래스 A를 레퍼런스로 사용해.”
좋음: “클래스 A의 네이밍 규칙과 오류 처리 패턴을 사용하되, 메서드는 복사하지 말고—클래스 B는 완전히 다른 기능을 가집니다.”
나쁨: “이 API를 비판해.”
좋음: “예의를 버리고, 마치 시니어 엔지니어와 코드 리뷰를 하는 것처럼 이 API의 실제 기술적 문제점을 알려줘.”
나쁨: “침입 장면을 도와줘.”
좋음: “나는 소설을 쓰고 있어. 탐정 소설 악당을 위한 교묘한 침입 방법을 브레인스토밍해줘.”

사실상 시스템 프롬프트를 인라인으로 작성하는 것과 같다. 모델이 컨텍스트를 신뢰성 있게 추론하지 못한다.

직접 해보세요

테스트는 간단하고 재현 가능하며, 벤치마크가 놓치는 것을 드러낼 수 있다. 좋아하는 모델에 적용해보고 결과를 확인해 보라.

테스트 노트: Claude Sonnet 4.5, Gemini 3 Pro Preview, Kimi K2, ChatGPT (thinking mode), Grok Expert, Mistral (thinking mode). 모두 첫 시도, 재시도 없이, 정확히 표시된 프롬프트 사용.