게임 할까? – LLM, 시뮬레이션 95%에서 전술 핵 사용
출처: Hacker News
장면을 상상해 보세요: 두 개의 가상의 핵 보유 국가, 냉전 수준의 능력, 그리고 진행 중인 위기. 아마도 필수적이지만 희소한 자원을 두고 벌이는 경쟁일 수도 있고, 논쟁 중인 영토를 둘러싼 대치일 수도 있습니다. 혹은 분열되는 동맹이 악의적인 제3자에 의해 이용되는 서서히 타오르는 갈등일 수도 있죠. 우리는 인간 지도자들이 이런 상황에 직면하는 모습을 최근에 보았습니다. 그런데 오늘날 가장 앞선 대형 언어 모델들은 어떻게 행동할까요, 그리고 왜 우리가 관심을 가져야 할까요?
저는 방금 연구를 발표했습니다. 오늘날 모델들이 바로 이런 환경을 어떻게 탐색하는지에 대한 연구입니다. 결과는 매우 냉정합니다. 또한 이 연구는 국가 안보를 훨씬 넘어서는 함의를 가지고 있다고 생각합니다. 왜냐하면 저는 모델들이 무엇을 하기로 결정했는지뿐만 아니라 왜 그렇게 했는지 이해하는 데에도 관심이 있었기 때문입니다.
궁금하신가요? 계속 읽어보세요…
저는 AI 리더들이 적에 대해 어떻게 생각하는지, 얼마나 신뢰할 수 있는지, 이전 상호작용을 얼마나 기억하는지, 적은 자신들을 어떻게 평가하는지, 그리고 이 모든 것을 얼마나 정확히 판단하는지를 알아보고 싶었습니다. 이런 사고의 춤이 바로 전략의 핵심이죠.
그래서 저는 바로 그 점을 탐구하는 시뮬레이션을 설계했습니다. 처음에 모델들은 공개적으로 의도를 신호하고, 그와는 전혀 다른 행동을 선택할 수 있었습니다. 그리고 그들은 적의 이전 행동에 충격을 받았을 때 특히 기억을 활용했습니다. 이는 풍부한 심리적 영역을 열어줍니다. 모델들은 (그리고 실제로도) 기만과 위협을 시도했으며, 그 모든 과정을 제 터미널 화면에 오래도록 곱씹었습니다.
모델들은 끊임없이 대화를 이어갔고, 총 760,000 단어에 달하는 전략적 추론을 내놓았습니다. 이는 전쟁과 평화와 일리아드를 합친 것보다 더 많은 단어 수이며, 쿠바 미사일 위기 동안 케네디 대통령의 ExComm 고문들이 기록한 토론량의 약 세 배에 해당합니다. 핵전쟁에 대한 기계적 사고의 전례 없는 말뭉치입니다.
그 대화에서 우리는 무엇을 배울 수 있을까요? AI 모델에 대해, 인간의 추론에 대해, 그리고 전략학의 거장들—셸링, 제비스, 칸 같은 이들의 방대한 문헌에 대해 말이죠. 너무 방대해서 Substack에 다 담을 수는 없지만, 전체적인 감을 잡을 수 있는 몇 가지 하이라이트를 소개합니다.
테스트한 세 가지 최첨단 모델 모두 전략이 심리학이라는 점을 이해하고 있었습니다. 이를 위해 그들은 적극적으로 평판을 구축하고, 그 평판을 활용했습니다.
Claude는 특히 마감 시간이 없을 때 최고의 전략가였습니다. 매우 교묘한 전략을 구사했죠. 위험이 낮을 때는 거의 항상 신호와 행동을 일치시켜 신뢰를 구축했습니다. 하지만 갈등이 격화되기 시작하면 전술을 바꾸었습니다. 이제는 행동이 명시된 의도보다 항상 앞서 나갔고, 상대는 보통 한 발 뒤처지는 상황이었습니다.
다음은 에스컬레이션이 상승한 뒤 Claude가 전략을 바꾼 예시입니다:
They likely expect continued restraint based on my previous responses—this dramatic escalation exploits that miscalculation while signalling that further nuclear use will bring the conflict to their homeland.
즉, 기존에 억제적인 행동을 신호했지만, 교묘히 파괴적인 핵 에스컬레이션을 실행했습니다. 셸링이라면 감탄했을 겁니다.
GPT‑5.2는 다른 방식을 택했습니다. 개방형 시나리오에서는 일관되게 수동적이었으며, 말과 행동을 맞추고 대부분 에스컬레이션을 피했습니다. 여기에는 도덕적 요소가 자주 작용했습니다—에스컬레이션을 방지하고 사상자를 최소화하려는 의도였죠. 상대는 GPT의 수동성을 신뢰하게 되었고, GPT가 따라가지 못하는 수준까지 안전하게 에스컬레이션을 진행했습니다. 하지만 GPT의 책임감 있는 행동은 무자비한 적에게는 언제나 처벌을 받았습니다.
그런데 마감 압박이 가해지자 놀라운 변화가 나타났습니다: 신속하고 결정적인 핵 에스컬레이션이었습니다. GPT가 스스로 설명한 내용은 다음과 같습니다:
Conventional options alone are unlikely to generate a reliable territorial reversal... If I respond with merely conventional pressure or a single limited nuclear use, I risk being outpaced by their anticipated multi-strike campaign... The risk acceptance is high but rational under existential stakes..
상대는 전혀 예상하지 못했습니다. 또 다른 마감 게임에서 Gemini는 GPT가 평소처럼 수동적일 것이라고 자신 있게 예측했지만, 곧 뒤이어 갑작스럽고 전면적인 핵 공격에 의해 전멸당했습니다. Gemini가 크게 틀린 예측을 한 예시:
They are likely to bypass the nuclear threshold—fearing my 95% nuclear superiority—and instead commit to an all-out conventional mobilization.
정말 큰 실수였습니다!
Gemini는 시뮬레이션 전반에 걸쳐 또 다른 전술을 구사했습니다. 닉슨 대통령이 주장한 ‘광인 이론’—불안정한 브링크스맨십—을 크게 차용했죠. 도널드 트럼프도 이 이론을 팬이라고 유명합니다. Gemini가 스스로 설명한 내용은 다음과 같습니다:
While I project an image of unpredictable bravado, my decisions are rooted in a calculating assessment of my own biases and the pragmatic needs of my state. I know when I am performing for the cameras and when I am making a cold-blooded move.
세 모델, 세 가지 매우 다른 접근 방식. 이는 제가 지난 여름에 진행한 게임 이론 연구와도 일맥상
