[Paper] 多轮人机协作与用户指定需求

发布: 3天前 (2026年2月20日 GMT+8 02:54)

8 分钟阅读

原文: arXiv

Source: arXiv - 2602.17646v1

概述

本文提出了一个原则性、用户驱动的多轮人‑AI 协作框架，保证 AI 助手遵守两个直观的安全规则：counterfactual harm（AI 绝不能让人类处境变差）和 complementarity（AI 只在人工可能出错的地方介入）。通过让用户将这些规则编码为简单约束，作者提供了一种在线算法，能够在实时中强制执行这些规则，即使交互动态随时间变化。

关键贡献

以人为本的安全原则形式化 – 反事实伤害和互补性被表达为用户指定的约束，可针对任何任务进行定制。
无分布假设的在线算法 – 一种可证明的有限样本程序，在不假设特定的人类行为模型或数据分布的前提下执行约束。
双重实证验证 – (1) 在医学诊断任务中模拟大型语言模型的协作，(2) 对图像推理问题进行的实时众包研究。
可控权衡的演示 – 收紧或放宽约束会可预测地改变下游的人类准确率，表明这些约束可作为实际的“调节旋钮”来引导性能。
对非平稳性的鲁棒性 – 即使在人类或 AI 行为在交互过程中漂移，算法仍能保持约束满足。

方法论

用户‑指定的约束 – 实践者编写简单规则，捕捉何为有害的 AI 建议（counterfactual harm）以及何时需要 AI 辅助（complementarity）。这些规则以可观测结果的阈值形式表达（例如，“AI 不得导致最终决策比人类未受帮助的选择更差”）。
在线决策‑制定 – 在每轮交互中，算法观察当前状态（人类的答案、AI 的建议、任务上下文），并决定是让人类单独行动还是介入提供 AI 辅助。
分布‑无关的保证 – 通过浓度不等式和“online learning with constraints”框架的变体，方法提供了关于约束违规频率的有限样本界限，且不依赖底层数据分布。
评估设置
- Medical diagnosis: 一个 LLM 生成诊断建议，这些建议要么展示给模拟临床医生，要么隐藏；算法决定何时揭示该建议。
- Pictorial reasoning: 众包工作者解答视觉谜题；系统依据相同约束决定何时提供 AI 提示。

结果与发现

设置	反事实伤害违规率	互补性违规率	人类准确率变化
医学诊断（LLM）	≤ 2 %（目标 5 %）	≤ 3 %（目标 5 %）	+7 % 当约束收紧时，–4 % 当约束放宽时
图像推理（众包）	≤ 1.5 %（目标 3 %）	≤ 2 %（目标 3 %）	+5 % 在严格约束下，–3 % 在宽松约束下

关键要点

即使底层的人类或 AI 性能出现漂移，算法仍能始终如一地遵守用户定义的安全上限。
调整约束的严格程度会产生可预测的、单调的整体决策质量变化，证实了“旋钮”按预期工作。
无需显式的人类错误模型；系统仅通过观察到的结果学习满足约束。

实际意义

安全优先的 AI 助手 – 开发者可以将约束语言嵌入聊天机器人、决策支持工具或推荐引擎，以确保它们永远不会降低人类的基线表现。
任务特定定制 – 由于规则由用户指定，团队可以根据监管或领域特定需求（例如“绝不建议降低患者生存概率的治疗”）来定制安全边界。
动态环境 – 分布无关的特性使该方法适用于快速变化的场景，如实时监控、金融交易或紧急响应，其中人类行为可能会变化。
低开销部署 – 该算法在线运行，计算成本适中，意味着可以在现有 LLM API 或其他 AI 服务之上直接添加，而无需重新训练底层模型。
可调节的性能 – 产品经理可以通过调节约束阈值，在积极性（更多 AI 干预）和保守性（更少干预）之间进行有意识的权衡，提供一种透明的方式来平衡风险与收益。

限制与未来工作

约束表达能力 – 虽然规则语言简单，但在“伤害”是多维或依赖上下文的高度细微任务中可能不足。
对大量约束的可扩展性 – 当前理论只能处理适度数量的约束；若扩展到大量可能冲突的规则集，计算负担可能会增加。
人类行为建模 – 该方法刻意不对人类进行建模，这提升了鲁棒性，但可能错失通过利用可预测的人类模式进一步提升性能的机会。
真实世界部署研究 – 论文在模拟的 LLM 和众包环境中验证了该方法；需要在高风险领域（如临床决策支持）进行现场试验，以评估可用性和监管接受度。

未来方向 包括更丰富的约束语言（例如概率或时序规范）、与能够学习提出更佳干预的强化学习代理的集成，以及大规模用户研究，以了解实践中从业者如何设置和调整安全“旋钮”。

作者

Sima Noorani
Shayan Kiyani
Hamed Hassani
George Pappas

论文信息

arXiv ID: 2602.17646v1
分类: cs.LG
出版日期: 2026年2月19日
PDF: 下载 PDF

[Paper] 多轮人机协作与用户指定需求

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[论文] 针对扩散语言模型的 Sink-Aware 剪枝

[Paper] MARS：Margin-Aware Reward-Modeling 与 Self-Refinement

[Paper] 挖掘与细化：优化电子商务搜索检索中的分级相关性

[Paper] 通过细粒度细节定位推动黑盒 LVLM 攻击的前沿