[Paper] AgenticPay: 구매자-판매자 거래를 위한 멀티에이전트 LLM 협상 시스템

발행: 3일 전 (2026년 2월 6일 오전 03:50 GMT+9)

10 분 소요

원문: arXiv

Source: arXiv - 2602.06008v1

Overview

이 논문 AgenticPay는 대규모 언어 모델(LLM) 에이전트가 단순한 수치 입찰이 아니라 자연어를 사용해 구매자와 판매자 간 거래를 협상할 수 있게 하는 새로운 벤치마크와 시뮬레이션 플랫폼을 소개합니다. 개인 예산, 제품별 가치 평가, 다중 라운드 대화와 같은 현실적인 시장 제약을 모델링함으로써, 연구자들에게 LLM 기반 에이전트가 경제 거래를 얼마나 잘 수행할 수 있는지를 평가할 수 있는 원칙적인 방법을 제공합니다.

주요 기여

AgenticPay 벤치마크: 양자 협상, 다중 구매자/다중 판매자 시장, 다양한 제품 유형을 포괄하는 110개 이상의 협상 과제로 구성된 포괄적인 스위트.
시뮬레이션 프레임워크: 개인 제약을 강제하고, 실행 가능성, 효율성 및 전체 복지를 추적하며, 자유 형식 대화에서 구조화된 행동을 추출하는 오픈소스 환경.
평가 지표: (i) 실행 가능성(합의가 모든 개인 제약을 준수), (ii) 효율성(총 잉여 확보), (iii) 복지(참가자 간 공정성)를 위한 명확한 정량적 측정값.
실증적 베이스라인: 최첨단 상용 모델(예: GPT‑4) 및 오픈 가중치 LLM(Llama‑2, Mistral)을 벤치마크하여 전략적·장기 협상에서 상당한 성능 격차를 드러냄.
오픈 리소스: 데이터셋, 코드 및 평가 스크립트를 MIT‑스타일 라이선스로 공개하여 재현 가능한 연구와 빠른 프로토타이핑을 가능하게 함.

방법론

시장 모델링 – 각 에이전트(구매자 또는 판매자)는 개인 “유형”을 받습니다: 예산, 비용 곡선, 그리고 제품 속성(예: 품질, 배송 시간)에 따라 달라지는 가치 함수.
대화 엔진 – 에이전트는 다중 턴 자연어 메시지를 통해 소통합니다. 프레임워크는 경량 추출 모델을 사용해 이러한 메시지를 구조화된 의도(제안, 반제안, 수락, 거절, 질문)로 파싱합니다.
협상 프로토콜 – 턴 기반 루프가 합의에 도달하거나 최대 라운드 수에 도달할 때까지 실행됩니다. 각 턴 후 시뮬레이터는 실행 가능성(예산 초과 없음, 가격 ≥ 비용)을 확인하고 상태를 업데이트합니다.
작업 생성 – 참가자 수, 제품 차원, 제약 조건의 엄격성을 다양하게 조정하여 110개 이상의 시나리오가 절차적으로 생성되며, 다양한 전략적 과제를 보장합니다.
평가 – 각 실행에 대해 시스템은 최종 가격, 잉여 분배, 대화 길이를 기록하고, 세 가지 핵심 지표(실행 가능성, 효율성, 복지)를 계산합니다.

전체 파이프라인은 간단한 API(run_negotiation(agent_policy, task_id))를 제공하는 파이썬 라이브러리 형태로 패키징되어 있어 개발자가 어떤 LLM이나 맞춤 정책도 연결할 수 있습니다.

결과 및 발견

모델	실행 가능성	효율성 (최적 잉여 대비 %)	복지 (공정성)
GPT‑4 (proprietary)	92 %	68 %	0.71
Llama‑2‑70B (open)	78 %	45 %	0.58
Mistral‑7B	71 %	38 %	0.53
Baseline rule‑based	85 %	30 %	0.49

전략적 깊이가 중요합니다: 가장 강력한 LLM조차도 장기 계획에 어려움을 겪으며, 종종 너무 일찍 양보하거나 숨겨진 제약을 감지하지 못합니다.
프롬프트 엔지니어링이 도움이 되지만 충분하지 않다: 명시적인 “예산 알림” 프롬프트를 추가하면 실행 가능성이 약간 향상되지만 (≈+5 %) 효율성에는 거의 영향을 주지 않는다.
다대다 시장은 난이도를 증폭시킨다: 세 명 이상의 에이전트가 상호작용할 때 성공률이 급격히 떨어져 협조 문제를 강조한다.

전반적으로, 이 연구는 현재 LLM 에이전트가 현실적인 상업 환경에서 신뢰할 수 있는 자율 협상가가 되기에는 아직 멀었다는 것을 보여준다.

Practical Implications

E‑commerce bots: AI 영업 어시스턴트를 도입하려는 기업은 AgenticPay를 사용해 실시간 적용 전에 대화 정책을 스트레스 테스트함으로써 봇이 가격 제약을 준수하고 불리한 거래를 피하도록 할 수 있습니다.
Supply‑chain automation: 다중 에이전트 협상은 자동화된 조달의 핵심 요소이며, 이 벤치마크는 비용 절감과 공급업체 공정성을 균형 있게 맞추는 협상 전략을 프로토타이핑할 수 있는 샌드박스를 제공합니다.
Marketplace platforms: P2P 플랫폼(예: 프리랜서 마켓플레이스)은 가격 발견을 촉진하기 위해 LLM 협상자를 통합할 수 있지만, 현재 성능 격차로 인해 인간이 개입하는 하이브리드 접근 방식이 여전히 필요합니다.
Regulatory compliance: 복지와 실행 가능성을 정량화함으로써 기업은 AI 기반 협상이 공정성과 법적 준수(예: 가격 폭등 방지)를 충족하는지 감시할 수 있습니다.
Developer tooling: 오픈소스 프레임워크를 CI 파이프라인에 통합하면 팀이 새로운 LLM 파인튜닝이나 인간 피드백 기반 강화학습(RLHF) 정책을 표준화된 경제 과제 세트에 대해 벤치마크할 수 있습니다.

제한 사항 및 향후 연구

합성 환경: 시장 시나리오는 절차적으로 생성되며 실제 계약(법적 조항, 다중 모달 자산)의 모든 뉘앙스를 포착하지 못할 수 있습니다.
행동 추출 의존성: 현재 파서는 비교적 깔끔한 언어를 전제로 합니다; 잡음이 있거나 적대적인 발화는 구조화된 의도 추출을 깨뜨릴 수 있습니다.
확장성: 벤치마크는 현재 참가자 수가 제한된 수준(≤5)까지이며; 대규모 마켓플레이스로 확장하려면 보다 효율적인 시뮬레이션과 가능하면 계층적 협상 프로토콜이 필요합니다.
전략적 학습: 논문은 많은 턴에 걸쳐 계획할 수 있는 에이전트의 필요성을 강조합니다; 향후 연구에서는 다중 에이전트 강화 학습, 게임 이론적 추론, 혹은 하이브리드 심볼릭‑신경 접근법을 탐구할 수 있습니다.

이러한 격차를 드러냄으로써, AgenticPay는 개발자가 궁극적으로 프로덕션에서 신뢰할 수 있는 진정한 에이전시 기반 언어 구동 상거래 시스템을 구축하기 위한 명확한 연구 과제를 제시합니다.

저자

Xianyang Liu
Shangding Gu
Dawn Song

논문 정보

arXiv ID: 2602.06008v1
Categories: cs.AI, cs.LG
Published: February 5, 2026
PDF: PDF 다운로드

[Paper] AgenticPay: 구매자-판매자 거래를 위한 멀티에이전트 LLM 협상 시스템

Overview

주요 기여

방법론

결과 및 발견

Practical Implications

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[논문] Pseudo-Invertible Neural Networks

[Paper] 거의 엄격한 지속 학습을 위한 공유 LoRA 서브스페이스

[Paper] DyTopo: 시맨틱 매칭을 통한 다중 에이전트 추론을 위한 동적 토폴로지 라우팅

[Paper] CommCP: 효율적인 다중 에이전트 협조를 위한 LLM 기반 커뮤니케이션과 컨포멀 프레딕션