**Matrix:点对点多代理合成数据生成框架**

发布: (2025年11月27日 GMT+8 02:59)
3 min read
原文: arXiv

Source: arXiv - 2511.21686v1

Overview

合成数据在训练大语言模型时变得日益重要,尤其是在真实数据稀缺、成本高昂或涉及隐私的情况下。许多此类生成任务需要协同的多代理工作流,专门的代理相互合作,以产生质量更高、更多样且结构更丰富的数据。然而,现有的多代理合成框架往往依赖于中心化的调度器,导致可扩展性瓶颈,或为特定领域硬编码,限制了灵活性。

我们提出 Matrix,一个去中心化的框架,将控制流和数据流都表示为通过分布式队列传递的序列化消息。该点对点设计消除了中心调度器。每个任务在轻量级代理之间独立推进,而计算密集型操作(如 LLM 推理或容器化环境)则由分布式服务处理。Matrix 基于 Ray 构建,能够扩展到数万条并发的代理工作流,并提供模块化、可配置的设计,使其能够轻松适配各种数据生成工作流。

我们在多种合成场景下评估了 Matrix,包括多代理协作对话、基于网页的推理数据提取以及客户服务环境中的工具使用轨迹生成。所有案例中,Matrix 在相同硬件资源下实现了 2–15 倍 的数据生成吞吐量提升,且未牺牲输出质量。

Authors

  • Dong Wang
  • Yang Li
  • Ansong Ni
  • Ching‑Feng Yeh
  • Youssef Emad
  • Xinjie Lei
  • Liam Robbins
  • Karthik Padthe
  • Hu Xu
  • Xian Li
  • Asli Celikyilmaz
  • Ramya Raghavendra
  • Lifei Huang
  • Carole‑Jean Wu
  • Shang‑Wen Li

Categories

  • cs.CL
  • cs.AI
  • cs.LG

Paper Information

  • arXiv ID: 2511.21686v1
  • Published: November 27, 2025
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »