[논문] DNQ: 부분 관측 n-플레이어 게임을 위한 딥 내시 Q‑네트워크

발행: 6일 전 (2026년 6월 5일 AM 02:58 GMT+9)

4 분 소요

원문: arXiv

출처: arXiv - 2606.06480v1

개요

많은 실제 경쟁 시스템에서는 경매, 자원 할당, 보안 경쟁 등에서와 같이 여러 의사결정자가 공유 제약, 제한된 정보, 반복적인 상호작용 하에 동시에 행동해야 합니다. 우리는 이러한 문제들을 위한 제어된 테스트베드로 다중 턴 동시 입찰을 연구하고, 입찰 에이전트를 학습시키기 위한 solver-in-the-loop 균형 감독 프레임워크인 DNQ를 제안합니다. DNQ는 궤적 수집, 비평가 기반 보상 추정, 균형 계산, 정책 모방을 번갈아 수행합니다. 각 방문 상태에서 공유 비평가는 쌍별 보상 행렬 또는 정확한 N‑플레이어 보상 텐서를 예측하고, 외부 솔버가 균형 전략을 계산하며, 에이전트는 마스크된 정책과 솔버가 도출한 균형 목표 간의 KL 발산을 최소화함으로써 학습됩니다. 우리는 정확한 형태에 비해 균형 계산 비용과 학습 시간을 크게 줄이는 확장 가능한 쌍별 형식에 초점을 맞추면서, 공유 비평가가 에이전트와 상태 전반에 걸쳐 보상 학습을 amortize하도록 설계했습니다. 실험에서는 비평가 손실, 정책 엔트로피, 입찰 자원 사용량, 학습 비용 등을 기준으로 쌍별 방식과 정확한 방식을 비교했으며, 쌍별 방법은 더 많은 에이전트 수에 대해 확장 가능하지만 정확한 방법은 공동 게임이 커질수록 계산적으로 실용적이지 않게 됨을 보여줍니다. 이러한 결과는 반복적인 경쟁 환경에서 전략적 충실도와 확장성 사이의 트레이드오프를 명확히 합니다.

핵심 기여

이 논문은 다음 분야의 연구를 제시합니다.

cs.GT
cs.LG

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

이 연구는 cs.GT 분야의 발전에 기여합니다.

저자

Qintong Xie
Edward Koh
Xavier Cadet
Peter Chin

논문 정보

arXiv ID: 2606.06480v1
카테고리: cs.GT, cs.LG
출판일: 2026년 6월 4일
PDF: PDF 다운로드

[논문] DNQ: 부분 관측 n-플레이어 게임을 위한 딥 내시 Q‑네트워크

개요

핵심 기여

방법론

실용적 함의

저자

논문 정보

관련 글

[논문] LLM은 주사위 굴리기에서 얼마나 신뢰할 수 있을까?

[논문] MemDreamer: 계층 그래프 메모리와 에이전트형 검색으로 긴 비디오 이해의 지각·추론 분리

[논문] 작업에 구애받지 않는 지속 학습을 위한 희소 서브스페이스‑전문가 공유

[논문] 강한 볼록 최적화를 위한 가속 분산 확률적 경사 하강법