[Paper] 在 Web Agents 中建模不同的人类交互

发布: (2026年2月20日 GMT+8 02:11)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.17588v1

Overview

本文解决了一个出乎意料的实用问题:何时网页自动化代理应向人类寻求帮助,何时应自行继续? 通过分析真实的网页导航会话,作者展示了用户与代理的四种不同交互方式,并且基于语言模型的预测器能够学习这些模式。其结果是一个更具协作性的 “human‑in‑the‑loop” 代理,在实际部署中显得明显更有用。

关键贡献

  • CowCorpus – 一个新公开发布的数据集,包含 400 条真实用户网页导航会话(≈4,200 条交错的人类 ↔ 代理动作)。
  • 交互分类法 – 确定了四种重复出现的用户‑代理交互风格:
    1. 无干预监督(代理自主运行,用户观看)
    2. 有干预监督(用户介入以纠正或确认)
    3. 协同任务解决(用户和代理共享工作负荷)
    4. 完全用户接管(代理完全退后)。
  • 干预预测器 – 微调的语言模型,能够预测下一次用户干预,准确率比基线语言模型高 61–63 %
  • 现场用户研究 – 将预测器嵌入网页导航助手后,用户评分的有用性提升 26.5 %,验证了“干预感知”行为的实际价值。

方法论

  1. 数据收集 – 参与者执行真实的网页任务(例如预订旅行、购物),同时一个半自主代理会建议操作。每一次点击、表单填写或导航步骤都会被记录,生成交替出现的人类和代理动作的序列。
  2. 模式发现 – 作者手动检查日志并对交互序列进行聚类,得出四种风格的分类法。
  3. 模型训练 – 他们使用现成的语言模型(例如 T5、GPT‑2),在 CowCorpus 上进行微调,以预测下一步的二元“干预”标签,条件是最近的动作历史和已识别的交互风格。
  4. 评估
    • 离线:使用标准分类指标(准确率、F1)与未适配的语言模型进行比较。
    • 在线:将预测器嵌入实时网页代理;30 多名参与者完成任务并对代理的有用性、响应性和可信度进行评分。

结果与发现

指标基线语言模型干预感知语言模型
准确率(干预预测)~45 %61.4 % – 63.4 %
F1 分数0.480.66
用户评分的有用性(5 点 Likert 量表)3.24.0 (↑ 26.5 %)
平均不必要确认次数7.84.2 (↓ 46 %)

该预测器不仅减少了多余的提示,还捕捉到了关键时刻,避免用户必须手动介入,从而实现更流畅的任务流程并提升信任度。

实际影响

  • 更智能的助理 – 开发浏览器扩展、RPA 机器人或 AI 驱动的帮助台的开发者可以集成“干预模型”,决定何时请求澄清,何时自主执行。
  • 降低认知负荷 – 通过避免不必要的确认,代理让用户专注于高价值决策,这对生产力工具和企业工作流是个优势。
  • 个性化交互风格 – 该分类法使代理能够适应用户偏好的协作模式(例如,高手用户可能更倾向于放手监督,而新手可能需要更多的亲手监督)。
  • 数据驱动的 UX 设计 – CowCorpus 提供了测试新提示策略的基准,使得在混合主动系统的 UI/UX 上迭代更为容易。

限制与未来工作

  • 领域范围 – 本研究聚焦于一般网页导航;专业领域(例如医疗门户、金融仪表盘)可能呈现不同的干预模式。
  • 模型粒度 – 预测器在“干预 vs. 不干预”的层面上工作,但尚未提出 如何 干预(例如,突出显示哪个 UI 元素)。
  • 数据收集的可扩展性 – 收集高质量、交错的人机日志需要大量人力;更广泛的众包管道可以扩大数据集。
  • 长期适应性 – 未来工作可以探索持续学习,使代理在用户数周或数月的交互风格演变过程中细化其干预预测。

底线:将人为中断视为一等信号而非烦扰,本研究展示了网页代理如何成为真正的协作伙伴——这是下一代自动化工具开发者今天就应在产品中构建的功能。

作者

  • Faria Huq
  • Zora Zhiruo Wang
  • Zhanqiu Guo
  • Venu Arvind Arangarajan
  • Tianyue Ou
  • Frank Xu
  • Shuyan Zhou
  • Graham Neubig
  • Jeffrey P. Bigham

论文信息

  • arXiv ID: 2602.17588v1
  • 分类: cs.CL, cs.HC
  • 发表时间: 2026年2月19日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »