[논문] 공공재 게임에서의 헌법적 군비 경쟁: 협력‑배반 압력 하 LLM 헌법의 공동 진화
개요
이 논문은 대형 언어 모델(LLM) 에이전트가 고전적인 사회 딜레마인 공공재 게임(PGG)에서 어떻게 “헌법”(자연어 규칙 집합)을 진화시킬 수 있는지를 조사한다. 협력 에이전트(블루)와 무임승차 에이전트(레드)를 공동 진화 루프에 배치함으로써, 저자들은 적대적 압력이 특정 적합도 설계 선택 하에서만 생성될 수 있음을 보여준다. 이 결과는 LLM 기반 시스템에서 정렬 및 협력 전략을 테스트하기 위한 현실적인 레드팀 프롬프트를 생성하는 새로운 방법을 제공한다.
주요 기여
- 적대적 공동 진화 프레임워크: 두 개의 LLM‑생성 헌법 집단(협력자 vs. 무임승차자)이 경쟁하는 30세대 진화 루프를 구현.
- 적합도 함수 분석: 단순 파벌별 점수는 진정한 적대적 압력을 만들지 못함을 입증; 상대 적합도 목표(자신 점수 – 상대 점수)가 경쟁을 회복시킴.
- 평가 예산 효과: 평가 시드 수(K)가 일반적인 솔루션으로의 회귀를 제어함을 보임 – K = 2이면 붕괴, K = 5이면 진화 전반에 걸쳐 특화된 적대적 헌법이 유지됨.
- 경험적 균형 발견: 양측 모두 다양한 공공재 승수(m = 1.2 – 3.0) 범위에서 거의 동등한 협력 수준(S ≈ 0.78)으로 수렴.
- 레드팀 산출물의 해석 가능성: 진화된 레드 헌법은 인간이 읽을 수 있는 정책으로, 향후 협력 설계 테스트 사례로 재사용 가능.
방법론
- 집단 설정 – 두 개의 별도 LLM 집단을 초기화:
- 블루: 협력 지향 프롬프트로 시드.
- 레드: 무임승차 지향 프롬프트로 시드.
- 헌법 생성 – 각 에이전트의 “헌법”은 LLM(예: GPT‑4)이 텍스트를 재작성하거나 보강하는 변이 연산자를 사용해 만든 짧은 자연어 규칙 집합.
- 시뮬레이션 환경 – 에이전트들은 공간 격자 위에서 표준 공공재 게임을 진행: 매 라운드마다 자신의 초기 자산 중 얼마를 공동 풀에 기여할지 결정하고, 풀은 m 배가 되어 재분배됨.
- 적합도 평가 – 두 가지 방식을 비교:
- 독립 점수: 각 파벌의 평균 보상이 별도로 측정.
- 연계 점수: 적합도 = (자신 보상 – 상대 보상).
- 진화 루프 – 30세대 동안:
- 각 헌법을 K개의 무작위 시드(게임 초기화)에서 평가.
- 각 파벌 내 상위 헌법을 선택.
- 변이를 적용해 다음 세대 생성.
- 지표 – 주요 지표 S = 전체 자원 중 기여된 비율(협력 수준). 블루와 레드 점수 간 상관관계 및 진화된 헌법의 안정성을 추적.
결과 및 발견
| 조건 | 협력 수준 S (블루 ≈ 레드) | 상관관계 (S_B, S_R) | 관찰 내용 |
|---|---|---|---|
| 독립 점수 (모든 K) | 변동, 안정적인 균형 없음 | +0.088 (거의 0) | 점수가 통계적으로 연계되지 않아 적대적 압력이 없음. |
| 연계 적합도 (K = 2) | 빠르게 낮은 특수화 수준으로 수렴 | – | 일반적인 헌법으로 회귀, 레드가 “무임승차” 우위를 상실. |
| 연계 적합도 (K = 5) | m ∈ {1.2,1.5,2.0,3.0} 전 범위에서 안정적인 S ≈ 0.78 | 강한 음의 상관관계(적대적) | 레드가 30세대 전체에 걸쳐 뚜렷한 전문 무임승차 정책을 유지. |
- 균형 견고성: 0.78 협력 수준은 승수 m에 관계없이 유지되어, 공동 진화 과정이 기여와 착취 사이의 균형을 찾았음을 시사.
- 레드 헌법: 최종 레드 정책에는 “누수”, “협박”, “사보타지”와 같은 명시적 문구가 포함돼 직접 검토하고 레드팀 테스트 사례로 활용 가능.
실용적 함의
- 레드팀 프롬프트 생성: 개발자는 이 공동 진화 파이프라인을 활용해 정렬 방어를 스트레스 테스트하기 위한 현실적인 적대적 프롬프트를 자동으로 생산할 수 있다.
- 협력 AI 시스템 설계: 상대 적합도 신호가 경쟁을 지속시키는 데 필요하다는 점은 다중 에이전트 학습 체계(예: 자기 플레이, 상대 모델링)가 상대 인식 보상을 포함해야 함을 시사한다.
- 평가 예산: 다양한 평가 시드의 중요성을 강조; 시드 수를 2에서 5로 modest하게 늘리는 것만으로도 진화된 적대 행동의 충실도가 크게 향상돼 정책 탐색에 필요한 시뮬레이션 실행 횟수에 대한 지침을 제공한다.
- 정책 해석 가능성: 헌법이 자연어이므로 감사, 수정, 규칙 기반 시스템으로 변환이 가능해 블랙박스 LLM 출력과 기존 안전 도구 사이의 격차를 메울 수 있다.
제한점 및 향후 연구
- PGG와 단순 격자 세계에 국한 – 결과가 더 복잡하고 계층적인 과제(예: 다단계 계획이나 개방형 대화)로 직접 전이될지는 미확인.
- 고정된 변이 연산자 – 텍스트 재작성만 탐색했으며, 의미적 패러프레이징, 도구 사용 삽입 등 풍부한 연산자가 더 다양한 전략을 이끌어낼 수 있다.
- 평가 시드 수가 5로 제한 – 더 큰 K 혹은 적응형 시드 선택을 적용하면 전문화 진화를 더욱 안정화시킬 가능성이 있다.
- 인간‑인‑루프 검증 부재 – 레드 헌법이 해석 가능하긴 하지만 실제 악의적 행위자를 얼마나 잘 모방하는지는 평가되지 않았다. 향후 연구에서는 사용자 연구나 샌드박스 환경 배치를 통해 검증할 수 있다.
핵심 요약: 적합도 지형과 평가 예산을 신중히 설계함으로써 LLM을 공동 진화시켜 경쟁적인 자연어 “헌법”을 만들 수 있다. 이러한 헌법은 보다 안전하고 협력적인 AI 시스템을 구축하기 위한 강력하고 해석 가능한 레드팀 자산이 된다.
저자
- Ujwal Kumar
- Arth Singh
- Hershraj Niranjani
- Machiko Hirota
- Takehiro Takayanagi
- Alice Saito
- Eiji Kamioka
- Phan Xuan Tan
논문 정보
- arXiv ID: 2605.26448v1
- 분류: cs.MA, cs.GT, cs.NE
- 발표일: 2026년 5월 26일
- PDF: PDF 다운로드