[Paper] 디지털 레드 퀸: 코어 워에서 LLM을 활용한 적대적 프로그램 진화
Source: arXiv - 2601.03335v1
개요
이 논문은 **Digital Red Queen (DRQ)**을 소개한다. 이는 대형 언어 모델(LLM)이 지속적으로 어셈블리와 유사한 프로그램—warriors라 불리는—을 진화시켜 고전 Core War 샌드박스에서 이전에 생성된 모든 상대를 능가하도록 하는 경량 셀프‑플레이 프레임워크이다. 최적화 문제를 무한한 “Red Queen” 군비 경쟁으로 전환함으로써, 저자들은 LLM이 생성한 코드가 점점 더 일반화되고 견고한 전략으로 수렴할 수 있음을 보여주며, 이는 적대적 AI에 대한 새로운 시각과 보안 중심 애플리케이션에 대한 잠재적 교훈을 제공한다.
핵심 기여
- 레드 퀸 셀프플레이 루프: 각 새로운 LLM‑생성 전사가 모든 이전 전사를 물리쳐야 하는 간단한 알고리즘으로, 지속적인 적응을 강제합니다.
- LLM‑기반 프로그램 합성: 최첨단 언어 모델을 사용해 고수준 프롬프트로부터 저수준 Core War 어셈블리 코드를 작성합니다.
- 수렴에 대한 실증적 증거: 여러 세대에 걸쳐 전사들이 더 일반화되어(보지 못한 인간이 만든 상대에 대해 더 잘 수행) 행동 다양성이 감소하며, 이는 수렴 진화와 유사합니다.
- Core War를 테스트베드로 활용: 튜링 완전한 Core War VM이 적대적 공동 진화를 연구하고 LLM‑기반 진화 방법을 벤치마킹하기 위한 다루기 쉬운, 제어 가능한 샌드박스임을 보여줍니다.
- 보다 넓은 비전: 최소한의 셀프플레이 설정이 사이버 보안 레드팀/블루팀 연습이나 약물 내성 모델링과 같은 실제 적대적 도메인에 적용될 수 있음을 시사합니다.
방법론
- 환경: Core War—두 프로그램(전사)이 공유 메모리의 제어권을 놓고 싸우는 가상 머신. 언어는 어셈블리와 유사하고, 결정론적이며 완전히 관찰 가능하다.
- 초기 집단: 인간이 작성한 전사를 포함한 기본 전사 집합이 경쟁의 시드가 된다.
- 자기‑플레이 루프 (DRQ):
- 라운드 t에서 LLM은 목표를 설명하는 프롬프트를 받는다: “라운드 0 … t‑1에서 생성된 모든 전사를 물리치는 Core War 전사를 작성하라.”
- 모델은 후보 코드를 생성하고, 이를 컴파일한 뒤 이전 전사들의 전체 아카이브와 대결 테스트를 수행한다.
- 모든 매치를 승리하는 첫 번째 후보가 새로운 챔피언이 되며 아카이브에 추가된다.
- 평가: 여러 라운드 후, 저자들은 진화된 전사들을 별도로 보관된 인간이 만든 상대군에 대해 테스트하고 실행 트레이스 클러스터링을 사용해 행동 다양성을 측정한다.
- 분석: 승률, 일반성(보지 못한 상대에 대한 성능), 그리고 독립 실행에서의 다양성 추세를 추적한다.
결과 및 발견
- 일반성 증가: 약 200세대 후, DRQ 전사들은 실행 중 이전 어느 세대보다 다양한 인간 전사들에 대해 더 높은 승률을 달성한다.
- 행동 수렴: 독립적인 DRQ 실행은 놀라울 정도로 유사한 실행 패턴을 가진 전사들을 생성하며, 이는 적합도 지형에서 강력한 끌어당김 전략을 나타낸다.
- 효율성: 전체 진화 과정은 일반 하드웨어(단일 GPU)에서 실행되며 몇 시간 내에 완료되어, 정교한 적대적 역학이 대규모 연산을 필요로 하지 않음을 보여준다.
- 정적 최적화와의 비교: LLM이 고정된 상대에 대해 최적화하도록 요구하는 기준선은 빠르게 정체되는 반면, 레드 퀸 루프는 성능을 지속적으로 끌어올린다.
Practical Implications
- Adversarial code generation for security testing: DRQ‑style self‑play은 서로 지속적으로 적응하는 새로운 익스플로잇이나 방어 페이로드의 자동 생성을 가능하게 하여, 보다 풍부한 레드‑팀/블루‑팀 훈련 시나리오를 제공한다.
- Robust AI agents: 일반 전략으로의 수렴은 LLM‑기반 에이전트를 훈련시키는 경로를 제시하며, 이는 상대가 진화하더라도 효과를 유지할 수 있어 경쟁 게임, 자동 협상, 혹은 자율 방어 시스템에 유용하다.
- Benchmark for LLM program synthesis: Core War는 적대적 압력 하에서 LLM이 올바르고 성능 좋은 저수준 코드를 생성하는 능력을 측정하기 위한 낮은 오버헤드와 재현 가능한 벤치마크를 제공한다.
- Rapid prototyping of co‑evolutionary algorithms: 최소한의 DRQ 루프는 다른 샌드박스 도메인(예: 네트워크 패킷 필터, 스마트 계약 퍼징)으로 옮겨 적용할 수 있어, 대규모 시뮬레이션 인프라를 구축하지 않고도 무기 경쟁 역학을 탐구할 수 있다.
제한 사항 및 향후 작업
- 도메인 특이성: Core War는 표현력이 뛰어나지만 장난감 환경이며, 추가 제약 없이는 고위험 실제 시스템에 직접 적용하기 어려울 수 있다.
- LLM 의존성: 진화된 전사의 품질은 기반 모델의 코드‑생성 능력에 달려 있다; 규모가 작거나 훈련이 덜 된 모델은 초기에 정체될 수 있다.
- 다양성 감소: 수렴된 행동은 강력한 전략을 나타내지만, 이질적인 위협 환경에서 가치 있을 수 있는 대안 전술 탐색을 감소시킨다.
- 향후 방향: DRQ를 다목적 설정(예: 은신 + 속도)으로 확장하고, 강화학습 비평가를 통합해 보다 세밀한 피드백을 제공하며, 프레임워크를 현실적인 사이버보안 샌드박스나 약물 내성 시뮬레이션에 적용하는 것.
저자
- Akarsh Kumar
- Ryan Bahlous-Boldi
- Prafull Sharma
- Phillip Isola
- Sebastian Risi
- Yujin Tang
- David Ha
논문 정보
- arXiv ID: 2601.03335v1
- 분류: cs.AI, cs.NE
- 출판일: 2026년 1월 6일
- PDF: PDF 다운로드