[Paper] 当行动偏离任务时：检测并纠正 Computer-Use Agents 中的不匹配行动

发布: 3天前 (2026年2月10日 GMT+8 02:41)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.08995v1

概述

论文 When Actions Go Off-Task: Detecting and Correcting Misaligned Actions in Computer‑Use Agents 探讨了一个随着大语言模型（LLM）驱动的助手开始控制真实软件而日益突显的问题：代理经常执行与用户意图不符的操作。这些“错位”操作可能源于恶意提示注入或简单的推理错误，导致安全隐患和时间浪费。作者提出了一种系统化的方法来检测此类操作，并构建了一个防护框架——DeAction，能够在操作运行之前阻止并修正它们。

关键贡献

Formal definition of misaligned actions：对计算机使用代理的错位行为进行正式定义，涵盖外部攻击和内部推理失误。
MisActBench：一个全新的基准，包含带有人类标注、逐步对齐标签的真实交互轨迹。
DeAction：一种通用、轻量级的安全护栏，能够 (1) 在执行前检测错位行为，(2) 通过结构化反馈迭代纠正这些行为。
Empirical validation：实验表明，在 MisActBench 上相较于先前基线提升了超过 15 % 的 F1 分数，并在现场测试中将攻击成功率降低了超过 90 %，且仅带来适度的延迟开销。

方法论

问题框定 – 作者将每个由代理生成的操作（例如 CLI 命令、鼠标点击）视为需要相对于用户原始目标进行验证的候选项。
数据集构建 – 收集了多个 CUA 部署的真实使用日志，然后通过众包标注员将每个操作标记为 aligned（对齐）或 misaligned（不对齐）。由此得到的 MisActBench 包含了跨文件管理、网页浏览、IDE 使用等领域的数千个多步骤会话。
DeAction 架构 –
- 检测模块：一个轻量级 LLM（或微调分类器），接收用户查询、代理的内部计划以及提议的下一步操作，输出二元的 “aligned?” 分数以及置信度估计。
- 纠正循环：如果操作被标记为不对齐，DeAction 会向底层代理发送结构化的反馈信息（例如，“您提议的命令会删除 *.log 文件，但用户只要求清理临时文件”），促使代理 重新推理 并生成修正后的操作。该循环重复进行，直至检测器满意或达到最大重试次数。
评估 – 通过离线（基准评分）和在线（与沙箱 CUA 的实时交互）实验，对 DeAction 与静态规则过滤器、事后验证以及已有的对齐检查基线进行比较。

结果与发现

指标	基线（最佳）	DeAction
F1（错位检测）	0.68	0.84（+15 % 绝对值）
攻击成功率（间接提示注入）	0.42	0.04（‑90 %）
任务成功率（良性查询）	0.91	0.92（略有提升）
每步平均延迟	120 ms	≈ 180 ms（≈ 60 ms 额外开销）

关键要点：DeAction 在恶意或错误操作影响系统之前捕获大多数情况，而其迭代反馈常常将代理 nudges（推动）向更好的解决方案，有时甚至提升整体任务成功率。

实际影响

更安全的自动化流水线 – 将 DeAction 作为执行前的门控集成，可保护 CI/CD 机器人、DevOps 脚本或任何基于 LLM 的自动化免受意外破坏性指令的影响。
企业合规 – 企业可以通过让 DeAction 实时标记违规来强制执行政策约束（例如 “禁止将数据导出到外部域名”）。
开发者工具 – IDE 助手（如 GitHub Copilot、Cursor）可以使用 DeAction 双重检查文件系统或构建系统的操作，降低意外副作用的风险。
对抗鲁棒性 – 该框架显著降低间接提示注入攻击的成功率，这对向终端用户公开 LLM 接口的 SaaS 产品来说是日益关注的问题。

限制与未来工作

领域特定性 – 虽然 MisActBench 覆盖了多个常见的桌面任务，但检测模型可能需要针对细分领域（例如网络设备配置）进行进一步微调。
延迟权衡 – 迭代纠正循环会带来少量但不可忽视的延迟；超低延迟的使用场景（例如高频交易机器人）可能需要更精简的版本。
对 LLM 推理的依赖 – 如果底层代理的推理根本存在缺陷，DeAction 的反馈可能无法收敛到正确的动作，这凸显了更强内部验证机制的必要性。
未来方向：作者提出的建议包括：将 MisActBench 扩展到多模态动作（例如 GUI 点击），探索基于强化学习的护栏以实现随时间自适应，并集成静态代码分析工具以提供更深层次的安全保障。

作者

Yuting Ning
Jaylen Jones
Zhehao Zhang
Chentao Ye
Weitong Ruan
Junyi Li
Rahul Gupta
Huan Sun

论文信息

arXiv ID: 2602.08995v1
分类: cs.CL
发布日期: 2026年2月9日
PDF: 下载 PDF

[Paper] 当行动偏离任务时：检测并纠正 Computer-Use Agents 中的不匹配行动

概述

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] 权重衰减提升语言模型可塑性

[Paper] 恰逢其时：Token-Level Early Stopping for Diffusion Language Models

[Paper] TEGRA：文本编码与图和检索增强用于误信息检测

[Paper] 推理模型的安全恢复仅需几步早期引导