[Paper] 在 Web Agents 中建模不同的人类交互
发布: (2026年2月20日 GMT+8 02:11)
7 分钟阅读
原文: arXiv
Source: arXiv - 2602.17588v1
Overview
本文解决了一个出乎意料的实用问题:何时网页自动化代理应向人类寻求帮助,何时应自行继续? 通过分析真实的网页导航会话,作者展示了用户与代理的四种不同交互方式,并且基于语言模型的预测器能够学习这些模式。其结果是一个更具协作性的 “human‑in‑the‑loop” 代理,在实际部署中显得明显更有用。
关键贡献
- CowCorpus – 一个新公开发布的数据集,包含 400 条真实用户网页导航会话(≈4,200 条交错的人类 ↔ 代理动作)。
- 交互分类法 – 确定了四种重复出现的用户‑代理交互风格:
- 无干预监督(代理自主运行,用户观看)
- 有干预监督(用户介入以纠正或确认)
- 协同任务解决(用户和代理共享工作负荷)
- 完全用户接管(代理完全退后)。
- 干预预测器 – 微调的语言模型,能够预测下一次用户干预,准确率比基线语言模型高 61–63 %。
- 现场用户研究 – 将预测器嵌入网页导航助手后,用户评分的有用性提升 26.5 %,验证了“干预感知”行为的实际价值。
方法论
- 数据收集 – 参与者执行真实的网页任务(例如预订旅行、购物),同时一个半自主代理会建议操作。每一次点击、表单填写或导航步骤都会被记录,生成交替出现的人类和代理动作的序列。
- 模式发现 – 作者手动检查日志并对交互序列进行聚类,得出四种风格的分类法。
- 模型训练 – 他们使用现成的语言模型(例如 T5、GPT‑2),在 CowCorpus 上进行微调,以预测下一步的二元“干预”标签,条件是最近的动作历史和已识别的交互风格。
- 评估 –
- 离线:使用标准分类指标(准确率、F1)与未适配的语言模型进行比较。
- 在线:将预测器嵌入实时网页代理;30 多名参与者完成任务并对代理的有用性、响应性和可信度进行评分。
结果与发现
| 指标 | 基线语言模型 | 干预感知语言模型 |
|---|---|---|
| 准确率(干预预测) | ~45 % | 61.4 % – 63.4 % |
| F1 分数 | 0.48 | 0.66 |
| 用户评分的有用性(5 点 Likert 量表) | 3.2 | 4.0 (↑ 26.5 %) |
| 平均不必要确认次数 | 7.8 | 4.2 (↓ 46 %) |
该预测器不仅减少了多余的提示,还捕捉到了关键时刻,避免用户必须手动介入,从而实现更流畅的任务流程并提升信任度。
实际影响
- 更智能的助理 – 开发浏览器扩展、RPA 机器人或 AI 驱动的帮助台的开发者可以集成“干预模型”,决定何时请求澄清,何时自主执行。
- 降低认知负荷 – 通过避免不必要的确认,代理让用户专注于高价值决策,这对生产力工具和企业工作流是个优势。
- 个性化交互风格 – 该分类法使代理能够适应用户偏好的协作模式(例如,高手用户可能更倾向于放手监督,而新手可能需要更多的亲手监督)。
- 数据驱动的 UX 设计 – CowCorpus 提供了测试新提示策略的基准,使得在混合主动系统的 UI/UX 上迭代更为容易。
限制与未来工作
- 领域范围 – 本研究聚焦于一般网页导航;专业领域(例如医疗门户、金融仪表盘)可能呈现不同的干预模式。
- 模型粒度 – 预测器在“干预 vs. 不干预”的层面上工作,但尚未提出 如何 干预(例如,突出显示哪个 UI 元素)。
- 数据收集的可扩展性 – 收集高质量、交错的人机日志需要大量人力;更广泛的众包管道可以扩大数据集。
- 长期适应性 – 未来工作可以探索持续学习,使代理在用户数周或数月的交互风格演变过程中细化其干预预测。
底线:将人为中断视为一等信号而非烦扰,本研究展示了网页代理如何成为真正的协作伙伴——这是下一代自动化工具开发者今天就应在产品中构建的功能。
作者
- Faria Huq
- Zora Zhiruo Wang
- Zhanqiu Guo
- Venu Arvind Arangarajan
- Tianyue Ou
- Frank Xu
- Shuyan Zhou
- Graham Neubig
- Jeffrey P. Bigham
论文信息
- arXiv ID: 2602.17588v1
- 分类: cs.CL, cs.HC
- 发表时间: 2026年2月19日
- PDF: 下载 PDF