[Paper] 交互式 LLM 辅助的课程学习用于多任务进化策略搜索

发布: 3天前 (2026年2月11日 GMT+8 22:21)

8 分钟阅读

原文: arXiv

Source: arXiv - 2602.10891v1

概述

本文介绍了一种新颖的框架，使大语言模型（LLMs）能够作为 交互式 课程设计师，用于多任务进化策略搜索。通过向 LLM 提供来自优化器的实时反馈，系统可以动态生成训练场景，持续推动机器人策略向更好的泛化能力发展——这在以前需要手工制作课程或使用静态离线 LLM 建议才能实现。

问题设定 – 通过进化算法（遗传编程）的多任务策略搜索，其中每个“任务”是二维世界中的导航场景。
课程循环
- 进化优化器运行短时间间隔并产生反馈（例如成功率、适应度曲线、轨迹快照）。
- 将此反馈打包并发送给大型语言模型（如 GPT‑4）。
- LLM 在提供当前策略表现描述和期望学习目标的提示下，生成新的训练案例（障碍布局、起点/目标位置、难度参数）。
- 将新案例重新输入优化器，循环重复。
反馈模式
- 仅数值：原始分数和标量指标。
- 数值 + 图表：适应度曲线、代际成功率。
- 数值 + 图表 + 可视化：轨迹视频或机器人行为的渲染快照。
基线
- 静态 LLM 课程：在优化开始前一次性生成 LLM 课程。
- 专家课程：由机器人研究人员手动设计的任务进程。
评估指标 – 在保留的测试集上的最终成功率、学习速度（达到阈值所需代数）以及课程“平滑度”（难度提升的渐进程度）。

课程类型	测试集成功率 ↑	达到80 %成功所需代数 ↓	定性备注
专家设计	92 %	45	难度平滑递增，障碍直观易懂
交互式（多模态）	90 %	48	LLM 在观察到失败模式后快速学习提升障碍密度
交互式（仅数值）	78 %	62	课程变得不稳定；LLM 缺乏视觉上下文
静态 LLM	71 %	70	未能适应优化器的实际困难
无课程（随机任务）	55 %	120	策略未能泛化

Domain specificity of prompts – LLM仍然需要精心设计的提示和结构化的反馈格式；尚未有通用的“即插即用”解决方案。
Scalability to high‑dimensional tasks – 本研究使用了一个简单的二维导航基准；该方法在三维机器人或具有更丰富感知输入的任务中的可扩展性仍不明确。
Reliance on visualisation quality – 低质量的轨迹渲染可能误导LLM；需要稳健的可视化流水线。
Potential for hallucination – LLM可能会提出不可能或不安全的情景；在将任务交给优化器之前需要加入验证层。
Future directions suggested by the authors include: extending the framework to other evolutionary algorithms (CMA‑ES, NEAT), testing on real‑world robots, and exploring reinforcement‑learning‑style reward shaping as an additional feedback channel.