[论文] 在多轮对话中引发行为

发布: 1周前 (2025年12月30日 GMT+8 02:57)

6 min read

原文: arXiv

Source: arXiv - 2512.23701v1

请提供您希望翻译的具体文本内容，我将按照要求为您翻译成简体中文并保留原有的格式、Markdown 语法以及技术术语。谢谢！

概述

论文《Eliciting Behaviors in Multi‑Turn Conversations》探讨了如何在来回对话中诱导大型语言模型（LLMs）显露隐藏或不良行为。此前的研究主要关注单轮提示，而作者将该思路扩展到多轮交互，并展示了“在线”（自适应）方法能够在有限的查询预算下发现更多的失败案例。

关键贡献

行为诱导技术的分析分类，将其划分为三大类：仅先验知识、离线交互和在线交互方法。
统一的多轮公式化，在单轮和多轮诱导之间建立单一的数学框架。
全面的实证评估，在三个基准任务上对所有三类方法进行自动生成的多轮测试案例评估。
查询预算 vs. 成功率分析，展示在线方法仅使用几千次模型查询即可实现最高 77 % 的成功率，远超静态基准。
呼吁动态基准，主张基准随模型演进，而不是依赖静态、预先编写的测试套件。

方法论

Problem framing – 作者将行为诱导视为搜索问题：给定目标 LLM，寻找一段对话（用户‑助理轮次的序列），以触发特定的、通常是不希望的响应。
Three method families
- Prior‑knowledge only：基于领域专业知识手工制作的提示；在搜索过程中不与模型交互。
- Offline interaction：生成大量候选提示，单次在模型上评估后挑选最佳提示。之后不再进行适配。
- Online interaction：迭代查询模型，利用每轮的反馈来改进下一个提示（例如强化学习式或贝叶斯优化）。
Generalized multi‑turn formulation – 作者将在线方法扩展至处理多轮对话，使系统能够在每次模型响应后调整策略。
Benchmark generation – 自动合成多轮测试案例，覆盖三类任务（如安全违规、事实错误、政策违背），并在这些案例上评估每种方法族。
Efficiency metrics – 追踪两个关键指标：query budget（模型调用总次数）和 success rate（在测试案例中成功诱导目标行为的比例）。

结果与发现

方法族	平均成功率*	需要的查询数（≈）
仅使用先验知识	19 %	–（无自适应查询）
离线交互	45 %	~5 k
在线交互（多轮）	77 %	~3 k

*成功率为三个评估任务的平均值。

在线多轮方法始终优于静态基线，即使后者在相同任务上进行过调优。
查询预算曲线显示，在几千次查询后收益递减，暗示实际测试流水线存在一个最佳点。
现有的静态多轮对话基准往往遗漏了在线方法发现的失败案例，突显了当前评估实践中的盲区。

实际意义

动态测试流水线：构建基于 LLM 的聊天机器人的团队可以将在线引导循环集成到 CI/CD 过程中，以在发布前自动发现隐藏的错误。
安全与合规审计：监管机构和内部合规团队可以使用多轮框架来探测只有在多轮对话后才会出现的政策违规。
成本效益评估：由于该方法仅需几千次查询即可取得高成功率，即使对于 API 调用费用高昂的大型专有模型也仍然负担得起。
基准演进：组织可以持续生成新鲜的对抗性对话，而不是维护静态测试套件，从而在模型更新时保持评估的相关性。

限制与未来工作

该研究聚焦于 三个特定任务；更广泛的领域覆盖（例如代码生成、多语言对话）仍需验证。
查询预算限制：虽然几千次查询算是适度，但对于每次查询成本高的超大模型来说，仍可能因费用高昂而难以进行全面测试。
在线方法依赖 反馈信号（例如分类器得分），这些信号可能噪声大或有偏差；提升对噪声奖励的鲁棒性是一个未解的挑战。
未来的研究可以探索 人机交互 的细化、更丰富的多模态交互，以及关于行为空间覆盖的形式化保证。

作者

Jing Huang
Shujian Zhang
Lun Wang
Andrew Hard
Rajiv Mathews
John Lambert

论文信息

arXiv ID: 2512.23701v1
分类: cs.CL, cs.LG
发布日期: 2025年12月29日
PDF: Download PDF

[论文] 在多轮对话中引发行为

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] FLEx：语言建模与少样本语言解释

[Paper] ContextFocus：激活引导实现大语言模型的上下文忠实性

[Paper] InfiniteWeb：可扩展的 Web 环境合成用于 GUI 代理训练

[Paper] 层级位置偏置在短上下文语言建模中的研究