[Paper] 多轮人机协作与用户指定需求
发布: (2026年2月20日 GMT+8 02:54)
8 分钟阅读
原文: arXiv
Source: arXiv - 2602.17646v1
概述
本文提出了一个原则性、用户驱动的多轮人‑AI 协作框架,保证 AI 助手遵守两个直观的安全规则:counterfactual harm(AI 绝不能让人类处境变差)和 complementarity(AI 只在人工可能出错的地方介入)。通过让用户将这些规则编码为简单约束,作者提供了一种在线算法,能够在实时中强制执行这些规则,即使交互动态随时间变化。
关键贡献
- 以人为本的安全原则形式化 – 反事实伤害和互补性被表达为用户指定的约束,可针对任何任务进行定制。
- 无分布假设的在线算法 – 一种可证明的有限样本程序,在不假设特定的人类行为模型或数据分布的前提下执行约束。
- 双重实证验证 – (1) 在医学诊断任务中模拟大型语言模型的协作,(2) 对图像推理问题进行的实时众包研究。
- 可控权衡的演示 – 收紧或放宽约束会可预测地改变下游的人类准确率,表明这些约束可作为实际的“调节旋钮”来引导性能。
- 对非平稳性的鲁棒性 – 即使在人类或 AI 行为在交互过程中漂移,算法仍能保持约束满足。
方法论
- 用户‑指定的约束 – 实践者编写简单规则,捕捉何为有害的 AI 建议(counterfactual harm)以及何时需要 AI 辅助(complementarity)。这些规则以可观测结果的阈值形式表达(例如,“AI 不得导致最终决策比人类未受帮助的选择更差”)。
- 在线决策‑制定 – 在每轮交互中,算法观察当前状态(人类的答案、AI 的建议、任务上下文),并决定是让人类单独行动还是介入提供 AI 辅助。
- 分布‑无关的保证 – 通过浓度不等式和“online learning with constraints”框架的变体,方法提供了关于约束违规频率的有限样本界限,且不依赖底层数据分布。
- 评估设置
- Medical diagnosis: 一个 LLM 生成诊断建议,这些建议要么展示给模拟临床医生,要么隐藏;算法决定何时揭示该建议。
- Pictorial reasoning: 众包工作者解答视觉谜题;系统依据相同约束决定何时提供 AI 提示。
结果与发现
| 设置 | 反事实伤害违规率 | 互补性违规率 | 人类准确率变化 |
|---|---|---|---|
| 医学诊断(LLM) | ≤ 2 %(目标 5 %) | ≤ 3 %(目标 5 %) | +7 % 当约束收紧时,–4 % 当约束放宽时 |
| 图像推理(众包) | ≤ 1.5 %(目标 3 %) | ≤ 2 %(目标 3 %) | +5 % 在严格约束下,–3 % 在宽松约束下 |
关键要点
- 即使底层的人类或 AI 性能出现漂移,算法仍能始终如一地遵守用户定义的安全上限。
- 调整约束的严格程度会产生可预测的、单调的整体决策质量变化,证实了“旋钮”按预期工作。
- 无需显式的人类错误模型;系统仅通过观察到的结果学习满足约束。
实际意义
- 安全优先的 AI 助手 – 开发者可以将约束语言嵌入聊天机器人、决策支持工具或推荐引擎,以确保它们永远不会降低人类的基线表现。
- 任务特定定制 – 由于规则由用户指定,团队可以根据监管或领域特定需求(例如“绝不建议降低患者生存概率的治疗”)来定制安全边界。
- 动态环境 – 分布无关的特性使该方法适用于快速变化的场景,如实时监控、金融交易或紧急响应,其中人类行为可能会变化。
- 低开销部署 – 该算法在线运行,计算成本适中,意味着可以在现有 LLM API 或其他 AI 服务之上直接添加,而无需重新训练底层模型。
- 可调节的性能 – 产品经理可以通过调节约束阈值,在积极性(更多 AI 干预)和保守性(更少干预)之间进行有意识的权衡,提供一种透明的方式来平衡风险与收益。
限制与未来工作
- 约束表达能力 – 虽然规则语言简单,但在“伤害”是多维或依赖上下文的高度细微任务中可能不足。
- 对大量约束的可扩展性 – 当前理论只能处理适度数量的约束;若扩展到大量可能冲突的规则集,计算负担可能会增加。
- 人类行为建模 – 该方法刻意不对人类进行建模,这提升了鲁棒性,但可能错失通过利用可预测的人类模式进一步提升性能的机会。
- 真实世界部署研究 – 论文在模拟的 LLM 和众包环境中验证了该方法;需要在高风险领域(如临床决策支持)进行现场试验,以评估可用性和监管接受度。
未来方向 包括更丰富的约束语言(例如概率或时序规范)、与能够学习提出更佳干预的强化学习代理的集成,以及大规模用户研究,以了解实践中从业者如何设置和调整安全“旋钮”。
作者
- Sima Noorani
- Shayan Kiyani
- Hamed Hassani
- George Pappas
论文信息
- arXiv ID: 2602.17646v1
- 分类: cs.LG
- 出版日期: 2026年2月19日
- PDF: 下载 PDF