[Paper] AgenticPay: 구매자-판매자 거래를 위한 멀티에이전트 LLM 협상 시스템

발행: (2026년 2월 6일 오전 03:50 GMT+9)
10 분 소요
원문: arXiv

Source: arXiv - 2602.06008v1

Overview

이 논문 AgenticPay는 대규모 언어 모델(LLM) 에이전트가 단순한 수치 입찰이 아니라 자연어를 사용해 구매자와 판매자 간 거래를 협상할 수 있게 하는 새로운 벤치마크와 시뮬레이션 플랫폼을 소개합니다. 개인 예산, 제품별 가치 평가, 다중 라운드 대화와 같은 현실적인 시장 제약을 모델링함으로써, 연구자들에게 LLM 기반 에이전트가 경제 거래를 얼마나 잘 수행할 수 있는지를 평가할 수 있는 원칙적인 방법을 제공합니다.

주요 기여

  • AgenticPay 벤치마크: 양자 협상, 다중 구매자/다중 판매자 시장, 다양한 제품 유형을 포괄하는 110개 이상의 협상 과제로 구성된 포괄적인 스위트.
  • 시뮬레이션 프레임워크: 개인 제약을 강제하고, 실행 가능성, 효율성 및 전체 복지를 추적하며, 자유 형식 대화에서 구조화된 행동을 추출하는 오픈소스 환경.
  • 평가 지표: (i) 실행 가능성(합의가 모든 개인 제약을 준수), (ii) 효율성(총 잉여 확보), (iii) 복지(참가자 간 공정성)를 위한 명확한 정량적 측정값.
  • 실증적 베이스라인: 최첨단 상용 모델(예: GPT‑4) 및 오픈 가중치 LLM(Llama‑2, Mistral)을 벤치마크하여 전략적·장기 협상에서 상당한 성능 격차를 드러냄.
  • 오픈 리소스: 데이터셋, 코드 및 평가 스크립트를 MIT‑스타일 라이선스로 공개하여 재현 가능한 연구와 빠른 프로토타이핑을 가능하게 함.

방법론

  1. 시장 모델링 – 각 에이전트(구매자 또는 판매자)는 개인 “유형”을 받습니다: 예산, 비용 곡선, 그리고 제품 속성(예: 품질, 배송 시간)에 따라 달라지는 가치 함수.
  2. 대화 엔진 – 에이전트는 다중 턴 자연어 메시지를 통해 소통합니다. 프레임워크는 경량 추출 모델을 사용해 이러한 메시지를 구조화된 의도(제안, 반제안, 수락, 거절, 질문)로 파싱합니다.
  3. 협상 프로토콜 – 턴 기반 루프가 합의에 도달하거나 최대 라운드 수에 도달할 때까지 실행됩니다. 각 턴 후 시뮬레이터는 실행 가능성(예산 초과 없음, 가격 ≥ 비용)을 확인하고 상태를 업데이트합니다.
  4. 작업 생성 – 참가자 수, 제품 차원, 제약 조건의 엄격성을 다양하게 조정하여 110개 이상의 시나리오가 절차적으로 생성되며, 다양한 전략적 과제를 보장합니다.
  5. 평가 – 각 실행에 대해 시스템은 최종 가격, 잉여 분배, 대화 길이를 기록하고, 세 가지 핵심 지표(실행 가능성, 효율성, 복지)를 계산합니다.

전체 파이프라인은 간단한 API(run_negotiation(agent_policy, task_id))를 제공하는 파이썬 라이브러리 형태로 패키징되어 있어 개발자가 어떤 LLM이나 맞춤 정책도 연결할 수 있습니다.

결과 및 발견

모델실행 가능성효율성 (최적 잉여 대비 %)복지 (공정성)
GPT‑4 (proprietary)92 %68 %0.71
Llama‑2‑70B (open)78 %45 %0.58
Mistral‑7B71 %38 %0.53
Baseline rule‑based85 %30 %0.49
  • 전략적 깊이가 중요합니다: 가장 강력한 LLM조차도 장기 계획에 어려움을 겪으며, 종종 너무 일찍 양보하거나 숨겨진 제약을 감지하지 못합니다.
  • 프롬프트 엔지니어링이 도움이 되지만 충분하지 않다: 명시적인 “예산 알림” 프롬프트를 추가하면 실행 가능성이 약간 향상되지만 (≈+5 %) 효율성에는 거의 영향을 주지 않는다.
  • 다대다 시장은 난이도를 증폭시킨다: 세 명 이상의 에이전트가 상호작용할 때 성공률이 급격히 떨어져 협조 문제를 강조한다.

전반적으로, 이 연구는 현재 LLM 에이전트가 현실적인 상업 환경에서 신뢰할 수 있는 자율 협상가가 되기에는 아직 멀었다는 것을 보여준다.

Practical Implications

  • E‑commerce bots: AI 영업 어시스턴트를 도입하려는 기업은 AgenticPay를 사용해 실시간 적용 전에 대화 정책을 스트레스 테스트함으로써 봇이 가격 제약을 준수하고 불리한 거래를 피하도록 할 수 있습니다.
  • Supply‑chain automation: 다중 에이전트 협상은 자동화된 조달의 핵심 요소이며, 이 벤치마크는 비용 절감과 공급업체 공정성을 균형 있게 맞추는 협상 전략을 프로토타이핑할 수 있는 샌드박스를 제공합니다.
  • Marketplace platforms: P2P 플랫폼(예: 프리랜서 마켓플레이스)은 가격 발견을 촉진하기 위해 LLM 협상자를 통합할 수 있지만, 현재 성능 격차로 인해 인간이 개입하는 하이브리드 접근 방식이 여전히 필요합니다.
  • Regulatory compliance: 복지와 실행 가능성을 정량화함으로써 기업은 AI 기반 협상이 공정성과 법적 준수(예: 가격 폭등 방지)를 충족하는지 감시할 수 있습니다.
  • Developer tooling: 오픈소스 프레임워크를 CI 파이프라인에 통합하면 팀이 새로운 LLM 파인튜닝이나 인간 피드백 기반 강화학습(RLHF) 정책을 표준화된 경제 과제 세트에 대해 벤치마크할 수 있습니다.

제한 사항 및 향후 연구

  • 합성 환경: 시장 시나리오는 절차적으로 생성되며 실제 계약(법적 조항, 다중 모달 자산)의 모든 뉘앙스를 포착하지 못할 수 있습니다.
  • 행동 추출 의존성: 현재 파서는 비교적 깔끔한 언어를 전제로 합니다; 잡음이 있거나 적대적인 발화는 구조화된 의도 추출을 깨뜨릴 수 있습니다.
  • 확장성: 벤치마크는 현재 참가자 수가 제한된 수준(≤5)까지이며; 대규모 마켓플레이스로 확장하려면 보다 효율적인 시뮬레이션과 가능하면 계층적 협상 프로토콜이 필요합니다.
  • 전략적 학습: 논문은 많은 턴에 걸쳐 계획할 수 있는 에이전트의 필요성을 강조합니다; 향후 연구에서는 다중 에이전트 강화 학습, 게임 이론적 추론, 혹은 하이브리드 심볼릭‑신경 접근법을 탐구할 수 있습니다.

이러한 격차를 드러냄으로써, AgenticPay는 개발자가 궁극적으로 프로덕션에서 신뢰할 수 있는 진정한 에이전시 기반 언어 구동 상거래 시스템을 구축하기 위한 명확한 연구 과제를 제시합니다.

저자

  • Xianyang Liu
  • Shangding Gu
  • Dawn Song

논문 정보

  • arXiv ID: 2602.06008v1
  • Categories: cs.AI, cs.LG
  • Published: February 5, 2026
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »

[논문] Pseudo-Invertible Neural Networks

Moore‑Penrose Pseudo‑inverse (PInv)는 선형 시스템에 대한 근본적인 해법으로 작용한다. 본 논문에서는 PInv의 자연스러운 일반화를 제안한다.