[논문] 에이전토피아: 에이전트 사회에서의 장기 생활 시뮬레이션 및 학습
Source: arXiv - 2606.07513v1
개요
인간은 사회 생활을 통해 학습합니다. LLM 기반 에이전트로 이 과정을 시뮬레이션하는 것은 유망한 연구 방향이며, 자연스럽게 “LLM이 이러한 가상 사회 경험으로부터 학습하여 인간 행동을 더 잘 이해하고 재현할 수 있을까?”라는 질문이 제기됩니다. 그러나 기존 에이전트 사회 시뮬레이션은 보통 일 단위 규모로 진행돼 사회적 상호작용과 장기 성장의 깊이가 제한됩니다. 본 논문에서는 에이전트 사회에서 장기 생활 시뮬레이션과 LLM 학습을 연구하며 두 가지 목표를 설정합니다: (1) 평생 시뮬레이션에서 나타나는 사회적 행동을 조사하고, (2) 수년간의 가상 사회 경험을 통해 특히 사회 생활에서의 지능을 포함한 인간형 능력을 LLM에 개발하는 것입니다. 구체적으로 우리는 100명의 에이전트가 10년(시뮬레이션) 동안 자율적으로 개인 성장, 사회 관계 형성, 필요와 목표 달성을 추구하는 장기 생활 시뮬레이션을 위한 포괄적 프레임워크 Agentopia를 제시합니다. 인간의 웰빙을 반영하도록 삶의 보상을 정의하고, 이 보상을 이용해 거부 샘플링(rejection sampling) 방식으로 LLM을 훈련합니다. 광범위한 실험 결과, 에이전트들은 풍부한 emergent(자발적) 사회 행동을 보였으며, 삶의 보상 훈련이 기반 LLM을 효과적으로 향상시켜 시뮬레이션 내 에이전트 웰빙을 개선하고, 다운스트림 롤플레잉 벤치마크에서 +15.6% 향상을 달성함을 확인했습니다.
주요 기여
이 논문은 다음 분야의 연구를 다룹니다:
- cs.CL
방법론
자세한 방법론은 전체 논문을 참고하십시오.
실용적 함의
본 연구는 cs.CL 분야의 발전에 기여합니다.
저자
- Xintao Wang
- Sirui Zheng
- Hongqiu Wu
- Weiyuan Li
- Jen-tse Huang
- Minghao Zhu
- Can Zu
- Qi Deng
- Jiawei Wang
- Qianyu He
- Heng Wang
- Xiaojian Wu
- Yunzhe Tao
논문 정보
- arXiv ID: 2606.07513v1
- 분류: cs.CL
- 발표일: 2026년 6월 5일
- PDF: PDF 다운로드