[Paper] TREX：通过代理驱动的基于树的探索实现 LLM 微调自动化

发布: 3周前 (2026年4月16日 GMT+8 01:38)

8 分钟阅读

原文: arXiv

Source: arXiv - 2604.14116v1

概述

本文提出了 TREX，一个多代理框架，能够自动化大语言模型（LLMs）微调的完整生命周期。通过将迭代微调过程视为树结构搜索，TREX 能够在无需人工干预的情况下计划、执行并从多个训练实验中学习，在一系列真实任务中表现出持续的性能提升。

关键贡献

Agent‑driven pipeline – 引入两个协作代理（Researcher 与 Executor），负责从需求收集到模型评估的全部工作。
Tree‑based exploration – 将多轮微调建模为可搜索的树结构，实现系统化规划、结果复用和高层次洞察提取。
FT‑Bench – 一个包含 10 种真实微调场景（例如能力升级、领域特定适配）的新基准，用于评估自动化训练系统。
Empirical validation – 实验证明 TREX 在所有 FT‑Bench 任务上均优于基线手动和朴素自动化流水线。
Open‑source potential – 该架构模块化，便于插入不同的 LLM 后端、数据源或评估指标。

方法论

Problem framing – Fine‑tuning is cast as a sequential decision problem: each experiment (choice of data, hyper‑parameters, curriculum, etc.) leads to a new state (model performance).
问题框定 – 微调被视为一个序列决策问题：每一次实验（数据选择、超参数、课程等）都会产生一个新状态（模型性能）。
Researcher agent
- Parses a high‑level user requirement (e.g., “improve medical QA”).
- Conducts open‑domain literature and data searches, curates candidate datasets, and proposes a training strategy (data mix, learning rate schedule, etc.).
  研究员代理
- 解析高级用户需求（例如，“提升医学问答”）。
- 进行开放领域的文献和数据检索，策划候选数据集，并提出训练策略（数据混合、学习率调度等）。
Executor agent
- Materializes the Researcher’s plan: builds data pipelines, launches training jobs, and collects evaluation metrics.
- Returns results and logs back to the Researcher.
  执行者代理
- 将研究员的计划落实：构建数据管道、启动训练任务并收集评估指标。
- 将结果和日志返回给研究员。
Tree‑based search
- Each node represents a specific fine‑tuning configuration and its outcome.
- The system expands promising nodes, prunes under‑performing branches, and re‑uses artifacts (e.g., pre‑processed datasets) across branches.
- A lightweight meta‑learner distills patterns from visited nodes to guide future proposals (e.g., “learning rate 2e‑5 works well for domain X”).
  基于树的搜索
- 每个节点代表一种特定的微调配置及其结果。
- 系统扩展有前景的节点，剪枝表现不佳的分支，并在分支之间复用制品（例如，预处理的数据集）。
- 轻量级元学习器从已访问的节点中提炼模式，以指导未来的提案（例如，“学习率 2e‑5 在领域 X 上表现良好”）。
Iterative loop – The agents repeat the propose‑execute‑evaluate cycle until a stopping criterion (budget, convergence, or target metric) is met.
迭代循环 – 代理们重复提议‑执行‑评估的循环，直至满足停止条件（预算、收敛或目标指标）。

结果与发现

FT‑Bench 任务	基线（手动）	Naïve Auto‑Tune	TREX（最佳叶子）
通用问答改进	+3.2 % EM	+4.1 % EM	+6.8 % EM
法律文档摘要	+2.5 % ROUGE‑L	+3.0 % ROUGE‑L	+5.4 % ROUGE‑L
代码生成（Python）	+1.8 % Pass@1	+2.2 % Pass@1	+4.7 % Pass@1
…（另外7项）	…	…	…

持续增益：TREX 在每个任务上都超越了人工构建的基线和简单网格搜索自动调优器。
效率提升：通过复用数据配方并剪枝低产出分支，TREX 将总 GPU 时长相比穷举搜索降低约 30 %。
洞察提取：元学习器提出了可操作的规则（例如“对法律任务，将 70 % 领域数据与 30 % 通用数据混合”），这些规则随后在作者的独立消融研究中得到验证。

实际意义

快速原型 – 团队只需提供一个高层目标（例如，“提升产品评论的情感分析”），即可让 TREX 自动生成微调模型，无需手动构建数据管道或进行超参数搜索。
成本效益的扩展 – 树搜索会复用中间产物，减少冗余的预处理和训练运行，从而降低云计算费用。
持续改进循环 – TREX 可以集成到 LLM 产品的 CI/CD 流水线中，当新数据到达或性能出现漂移时自动重新训练。
让 LLM 定制化大众化 – 缺乏深度机器学习经验的中小组织也能利用该代理系统获得领域适配模型，而无需专业人员的投入。
集成点 – 这些模块化代理可以替换为专有的数据爬虫、内部评估套件或自定义硬件调度器，使 TREX 能够适配现有的 MLOps 堆栈。

限制与未来工作

搜索空间爆炸 — 虽然树剪枝可以缓解，但极大的超参数或数据混合空间仍可能在没有更严格先验的情况下压垮系统。
依赖外部数据质量 — 研究员的文献和数据集挖掘依赖开源资源；噪声或偏见来源可能传播到微调模型中。
评估瓶颈 — 对每个叶子节点进行准确评估通常需要在任务特定基准上运行模型，对大型模型而言耗时。
作者提出的未来方向 包括：
1. 引入基于强化学习的策略搜索，以更好地平衡探索与利用。
2. 将 TREX 扩展至处理多模态模型（例如视觉‑语言）。
3. 在搜索过程中将安全性和对齐检查作为一等约束加入。

作者

Zerun Ma
Guoqiang Wang
Xinchen Xie
Yicheng Chen
He Du
Bowen Li
Yanan Sun
Wenran Liu
Kai Chen
Yining Li

Paper Information

arXiv ID: 2604.14116v1
类别: cs.AI, cs.CL
发布日期: 2026年4月15日
PDF: 下载 PDF

[Paper] TREX：通过代理驱动的基于树的探索实现 LLM 微调自动化

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

Paper Information

相关文章

[Paper] 学习具备洞察的推理用于非形式定理证明

[Paper] VEFX-Bench：全方位基准用于通用视频编辑与视觉特效

[Paper] 从基准测试到推理：对越南法律文本的双维度大规模 LLM 评估

[Paper] 检测与抑制 Reward Hacking 的 Gradient Fingerprints