[논문] CEO‑Bench: 에이전트는 장기 전략을 펼칠 수 있을까?
개요
대화형 언어 모델 에이전트는 소프트웨어 엔지니어링과 고객 서비스와 같은 고립된 단기 작업에서 숙련된 실행자로 부상하고 있다. 그러나 실제 세계의 도전은 복잡한 기술들의 조합을 필요로 하는데, 이는 에이전트에서는 아직 충분히 시험되지 않은 분야이다: (1) 불확실성 속에서도 장시간을 탐색; (2) 노이즈가 많은 환경에서 정보 획득; (3) 변화하는 세계에 적응; (4) 일관된 목표를 향해 여러 요소를 조율.
우리는 CEO‑Bench를 도입했습니다. 이는 대표적인 실제 세계 과제인 스타트업 500일 운영을 시뮬레이션하여 이러한 능력을 종합적으로 평가하도록 설계되었습니다. 에이전트는 프로그래머 가능한 Python 인터페이스를 통해 가상의 회사의 가격 책정, 마케팅, 예산 관리 등 다양한 측면을 담당하며, 인간 CEO와 동일한 환경과 과제에 직면합니다.
성공에는 노이즈가 많고 연결된 비즈니스 데이터베이스 분석, 신호 기반 전략 수립, 프로그래밍을 통한 다수 의사 결정 조정이 요구됩니다.
가장 강력한 에이전트는 고객 집단 시뮬레이션을 통해 미래 현금 흐름을 예측하고, 협상 기록을 채굴하여 숨겨진 고객 선호도를 파악하는 정교한 코드를 작성합니다.
그럼에도 불구하고, 대부분의 최첨단 모델은 이 환경에서 어려움을 겪습니다. 오직 Claude Opus 4.8과 GPT‑5.5만이 $1M 초기 잔액을 초과하여 마무리하고, 둘 다 일관되게 수익을 내지 못합니다.
CEO‑Bench는 지속적이고 적응적인 발전을 위한 필요한 지능을 측정하기 위한 첫걸음을 내딛습니다.
주요 기여
- cs.AI
- cs.CL
- cs.SE
방법론
자세한 방법론은 논문 전체를 참고하십시오.
실용적 함의
이 연구는 cs.AI의 발전을 기여합니다.
저자
- Haozhe Chen
- Karthik Narasimhan
- Zhuang Liu
논문 정보
- arXiv ID: 2606.18543v1
- Categories: cs.AI, cs.CL, cs.SE
- Published: 2026년 6월 16일
- PDF: Download PDF