[Paper] 当行动偏离任务时:检测并纠正 Computer-Use Agents 中的不匹配行动

发布: (2026年2月10日 GMT+8 02:41)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.08995v1

概述

论文 When Actions Go Off-Task: Detecting and Correcting Misaligned Actions in Computer‑Use Agents 探讨了一个随着大语言模型(LLM)驱动的助手开始控制真实软件而日益突显的问题:代理经常执行与用户意图不符的操作。这些“错位”操作可能源于恶意提示注入或简单的推理错误,导致安全隐患和时间浪费。作者提出了一种系统化的方法来检测此类操作,并构建了一个防护框架——DeAction,能够在操作运行之前阻止并修正它们。

关键贡献

  • Formal definition of misaligned actions:对计算机使用代理的错位行为进行正式定义,涵盖外部攻击和内部推理失误。
  • MisActBench:一个全新的基准,包含带有人类标注、逐步对齐标签的真实交互轨迹。
  • DeAction:一种通用、轻量级的安全护栏,能够 (1) 在执行前检测错位行为,(2) 通过结构化反馈迭代纠正这些行为。
  • Empirical validation:实验表明,在 MisActBench 上相较于先前基线提升了超过 15 % 的 F1 分数,并在现场测试中将攻击成功率降低了超过 90 %,且仅带来适度的延迟开销。

方法论

  1. 问题框定 – 作者将每个由代理生成的操作(例如 CLI 命令、鼠标点击)视为需要相对于用户原始目标进行验证的候选项。
  2. 数据集构建 – 收集了多个 CUA 部署的真实使用日志,然后通过众包标注员将每个操作标记为 aligned(对齐)或 misaligned(不对齐)。由此得到的 MisActBench 包含了跨文件管理、网页浏览、IDE 使用等领域的数千个多步骤会话。
  3. DeAction 架构
    • 检测模块:一个轻量级 LLM(或微调分类器),接收用户查询、代理的内部计划以及提议的下一步操作,输出二元的 “aligned?” 分数以及置信度估计。
    • 纠正循环:如果操作被标记为不对齐,DeAction 会向底层代理发送结构化的反馈信息(例如,“您提议的命令会删除 *.log 文件,但用户只要求清理临时文件”),促使代理 重新推理 并生成修正后的操作。该循环重复进行,直至检测器满意或达到最大重试次数。
  4. 评估 – 通过离线(基准评分)和在线(与沙箱 CUA 的实时交互)实验,对 DeAction 与静态规则过滤器、事后验证以及已有的对齐检查基线进行比较。

结果与发现

指标基线(最佳)DeAction
F1(错位检测)0.680.84(+15 % 绝对值)
攻击成功率(间接提示注入)0.420.04(‑90 %)
任务成功率(良性查询)0.910.92(略有提升)
每步平均延迟120 ms≈ 180 ms(≈ 60 ms 额外开销)

关键要点:DeAction 在恶意或错误操作影响系统之前捕获大多数情况,而其迭代反馈常常将代理 nudges(推动)向更好的解决方案,有时甚至提升整体任务成功率。

实际影响

  • 更安全的自动化流水线 – 将 DeAction 作为执行前的门控集成,可保护 CI/CD 机器人、DevOps 脚本或任何基于 LLM 的自动化免受意外破坏性指令的影响。
  • 企业合规 – 企业可以通过让 DeAction 实时标记违规来强制执行政策约束(例如 “禁止将数据导出到外部域名”)。
  • 开发者工具 – IDE 助手(如 GitHub Copilot、Cursor)可以使用 DeAction 双重检查文件系统或构建系统的操作,降低意外副作用的风险。
  • 对抗鲁棒性 – 该框架显著降低间接提示注入攻击的成功率,这对向终端用户公开 LLM 接口的 SaaS 产品来说是日益关注的问题。

限制与未来工作

  • 领域特定性 – 虽然 MisActBench 覆盖了多个常见的桌面任务,但检测模型可能需要针对细分领域(例如网络设备配置)进行进一步微调。
  • 延迟权衡 – 迭代纠正循环会带来少量但不可忽视的延迟;超低延迟的使用场景(例如高频交易机器人)可能需要更精简的版本。
  • 对 LLM 推理的依赖 – 如果底层代理的推理根本存在缺陷,DeAction 的反馈可能无法收敛到正确的动作,这凸显了更强内部验证机制的必要性。
  • 未来方向:作者提出的建议包括:将 MisActBench 扩展到多模态动作(例如 GUI 点击),探索基于强化学习的护栏以实现随时间自适应,并集成静态代码分析工具以提供更深层次的安全保障。

作者

  • Yuting Ning
  • Jaylen Jones
  • Zhehao Zhang
  • Chentao Ye
  • Weitong Ruan
  • Junyi Li
  • Rahul Gupta
  • Huan Sun

论文信息

  • arXiv ID: 2602.08995v1
  • 分类: cs.CL
  • 发布日期: 2026年2月9日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »