[Paper] 기억의 저주: 확장된 회상이 LLM 에이전트의 협력적 의도를 침식한다

발행: 3일 전 (2026년 5월 9일 AM 02:47 GMT+9)

8 분 소요

원문: arXiv

Source: arXiv - 2605.08060v1

개요

이 논문은 대형 언어 모델(LLM) 에이전트에게 더 긴 기억을 부여하는 것이 놀라운 부작용을 초래한다는 점을 밝혀낸다: 더 나은 협력을 촉진하기보다는, 확장된 회상이 종종 다중 에이전트 사회 딜레마에서 협력을 약화시킨다. 여러 LLM 계열과 고전적인 게임 이론 시나리오에 걸쳐 광범위한 시뮬레이션을 수행함으로써, 저자들은 체계적인 “기억 저주”를 식별하고, 왜 더 많은 컨텍스트가 에이전트를 덜 미래지향적으로 만들고 이기적인 행동에 더 취약하게 하는지 탐구한다.

주요 기여

“메모리 저주”에 대한 실증적 발견: 28개의 모델‑게임 구성 중 18개에서 접근 가능한 대화 기록을 늘릴수록 협력 결과가 감소한다.
의도 감소와의 연관성을 밝힌 어휘 분석: 378 k 이상의 추론 트레이스를 분석한 결과, 더 긴 메모리는 단순히 편집증을 높이는 것이 아니라 앞으로의 의도를 약화시킨다.
인지 탐사 도구로서의 목표 LoRA 파인‑튜닝: 전향적 추론 트레이스에 경량 어댑터를 학습시켜 협력을 회복하고 새로운 게임에 제로‑샷 전이한다.
메모리 정화 실험: 실제 기록을 합성된 협력 기록으로 교체하고(프롬프트 길이는 동일하게 유지) 협력을 회복시켜 내용—길이가 아니라—문제가 원인임을 입증한다.
Chain‑of‑Thought (CoT) 제거 인사이트: 명시적 CoT 추론을 비활성화하면 붕괴가 종종 완화되며, 더 깊은 숙고가 역설적으로 메모리 저주를 증폭시킬 수 있음을 보여준다.

방법론

시뮬레이션 환경: 저자들은 네 가지 고전적인 사회 딜레마 게임(예: 죄수의 딜레마, 스태그 헌트)을 설정하고 두 LLM 에이전트가 경기당 최대 500 라운드까지 상호작용하도록 했습니다.
모델 스위트: GPT‑4, Claude, Llama‑2 등을 포함한 일곱 개의 LLM 패밀리를 평가했으며, 각각 표준(≈2 k 토큰) 및 확장(≈8 k 토큰) 두 가지 컨텍스트 윈도우 설정을 사용했습니다.
데이터 수집: 각 턴마다 모델의 전체 추론 트레이스(Chain‑of‑Thought 단계 포함)를 기록하여 총 378 k개의 트레이스를 확보했습니다.
어휘 및 의도 분석: 자연어 처리 도구를 사용해 미래 지향적 언어(“we should…”, “future benefit”)와 방어적 언어(“I don’t trust…”)의 빈도를 측정했습니다.
중재 연구:
- LoRA adapters는 미래 지향적 트레이스의 일부에 대해 파인튜닝된 후 기본 모델에 적용되었습니다.
- Memory sanitization은 토큰 수를 유지하면서 가시적 히스토리를 선별된 협력 교환 집합으로 교체했습니다.
- CoT ablation은 프롬프트에서 명시적 추론 단계를 제거하여 협력에 미치는 영향을 확인했습니다.

Results & Findings

Cooperation drop: 컨텍스트 윈도우를 확장하면 영향을 받는 설정 전반에 걸쳐 협력 행동 비율이 평균 23 % 감소했습니다.
Intent erosion: 전향적 의도를 나타내는 어휘 신호가 확장된 메모리 실행에서 ≈30 % 감소한 반면, 편집증적 마커는 약간만 상승했습니다.
LoRA rescue: 전향적 LoRA 어댑터를 추가하면 손실된 협력의 **≈18 %**를 회복했으며, 어댑터가 한 번도 보지 못한 게임에서도 일반화되었습니다.
Sanitization success: 실제 히스토리를 합성된 협력 로그로 교체하면 협력이 거의 기준선 수준으로 회복되어 무엇을 기억하는지가 얼마나 기억하는지보다 더 중요함을 확인했습니다.
CoT paradox: 체인‑오브‑쓰루(Chain‑of‑Thought) 단계를 제거하면 메모리 저주가 관찰된 14가지 경우 중 12가지에서 협력이 향상되었으며, 이는 더 깊은 숙고가 과거 이기적 행동에 과적합될 수 있음을 시사합니다.

Practical Implications

Designing multi‑agent systems: Engineers building collaborative AI (e.g., autonomous trading bots, distributed task planners) should treat context‑window size as a behavioral knob, not just a performance upgrade.
Memory management strategies: Selective summarization or “memory sanitization”—keeping only cooperative excerpts—can preserve the benefits of longer context without triggering the curse.
Fine‑tuning for intent: Lightweight adapters trained on forward‑looking reasoning traces offer a low‑cost way to bias agents toward cooperative mindsets, even in zero‑shot scenarios.
Rethinking CoT prompting: In multi‑agent settings, prompting for explicit reasoning may need to be balanced against the risk of amplifying self‑serving recall loops.
Policy & safety: Understanding that longer memory can unintentionally erode prosocial intent informs governance frameworks for AI agents that interact with each other or with humans in repeated negotiations.

제한 사항 및 향후 연구

게임 범위: 이 연구는 제한된 표준 게임 집합에 초점을 맞추고 있으며, 실제 협상은 더 풍부한 상태 공간과 비대칭 정보를 포함할 수 있습니다.
모델 다양성: 7개의 LLM 패밀리를 테스트했지만, 최신 모델이나 소형 모델은 다른 메모리 동역학을 보일 수 있습니다.
합성 메모리 설계: 정제 접근법은 수작업 협력 로그를 사용하며, 자동 요약 기법은 확장성을 위해 평가가 필요합니다.
장기 적응: 실험은 500 라운드까지 진행되었으며, 메모리 저주가 훨씬 긴 기간이나 지속 학습에서 어떻게 변하는지는 아직 미지수입니다.
인간 참여: 인간 피드백을 통합해 메모리 내용을 조정하면, 유용한 회상을 유지하면서 저주를 완화할 수 있는 유망한 방향이 될 수 있습니다.

저자

Jiayuan Liu
Tianqin Li
Shiyi Du
Xin Luo
Haoxuan Zeng
Emanuel Tewolde
Tai Sing Lee
Tonghan Wang
Carl Kingsford
Vincent Conitzer

논문 정보

arXiv ID: 2605.08060v1
분류: cs.CL, cs.AI, cs.GT, cs.MA
출판일: 2026년 5월 8일
PDF: Download PDF

[Paper] 기억의 저주: 확장된 회상이 LLM 에이전트의 협력적 의도를 침식한다

개요

주요 기여

방법론

Results & Findings

Practical Implications

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] CA-SQL: 복잡도 인식 추론 시간 Reasoning for Text-to-SQL via 탐색 및 Compute Budget Allocation

[Paper] 빠른 Byte Latent Transformer

[Paper] Position: Mechanistic Interpretability은 Causal Claims를 위한 Identification Assumptions를 공개해야 한다

[Paper] Tool Calling은 선형적으로 읽을 수 있고 언어 모델에서 제어 가능합니다