[Paper] 在 Web Agents 中建模不同的人类交互

发布: 3天前 (2026年2月20日 GMT+8 02:11)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.17588v1

Overview

本文解决了一个出乎意料的实用问题：何时网页自动化代理应向人类寻求帮助，何时应自行继续？ 通过分析真实的网页导航会话，作者展示了用户与代理的四种不同交互方式，并且基于语言模型的预测器能够学习这些模式。其结果是一个更具协作性的 “human‑in‑the‑loop” 代理，在实际部署中显得明显更有用。

关键贡献

CowCorpus – 一个新公开发布的数据集，包含 400 条真实用户网页导航会话（≈4,200 条交错的人类 ↔ 代理动作）。
交互分类法 – 确定了四种重复出现的用户‑代理交互风格：
1. 无干预监督（代理自主运行，用户观看）
2. 有干预监督（用户介入以纠正或确认）
3. 协同任务解决（用户和代理共享工作负荷）
4. 完全用户接管（代理完全退后）。
干预预测器 – 微调的语言模型，能够预测下一次用户干预，准确率比基线语言模型高 61–63 %。
现场用户研究 – 将预测器嵌入网页导航助手后，用户评分的有用性提升 26.5 %，验证了“干预感知”行为的实际价值。

方法论

数据收集 – 参与者执行真实的网页任务（例如预订旅行、购物），同时一个半自主代理会建议操作。每一次点击、表单填写或导航步骤都会被记录，生成交替出现的人类和代理动作的序列。
模式发现 – 作者手动检查日志并对交互序列进行聚类，得出四种风格的分类法。
模型训练 – 他们使用现成的语言模型（例如 T5、GPT‑2），在 CowCorpus 上进行微调，以预测下一步的二元“干预”标签，条件是最近的动作历史和已识别的交互风格。
评估 –
- 离线：使用标准分类指标（准确率、F1）与未适配的语言模型进行比较。
- 在线：将预测器嵌入实时网页代理；30 多名参与者完成任务并对代理的有用性、响应性和可信度进行评分。

结果与发现

指标	基线语言模型	干预感知语言模型
准确率（干预预测）	~45 %	61.4 % – 63.4 %
F1 分数	0.48	0.66
用户评分的有用性（5 点 Likert 量表）	3.2	4.0 (↑ 26.5 %)
平均不必要确认次数	7.8	4.2 (↓ 46 %)

该预测器不仅减少了多余的提示，还捕捉到了关键时刻，避免用户必须手动介入，从而实现更流畅的任务流程并提升信任度。

实际影响

更智能的助理 – 开发浏览器扩展、RPA 机器人或 AI 驱动的帮助台的开发者可以集成“干预模型”，决定何时请求澄清，何时自主执行。
降低认知负荷 – 通过避免不必要的确认，代理让用户专注于高价值决策，这对生产力工具和企业工作流是个优势。
个性化交互风格 – 该分类法使代理能够适应用户偏好的协作模式（例如，高手用户可能更倾向于放手监督，而新手可能需要更多的亲手监督）。
数据驱动的 UX 设计 – CowCorpus 提供了测试新提示策略的基准，使得在混合主动系统的 UI/UX 上迭代更为容易。

限制与未来工作

领域范围 – 本研究聚焦于一般网页导航；专业领域（例如医疗门户、金融仪表盘）可能呈现不同的干预模式。
模型粒度 – 预测器在“干预 vs. 不干预”的层面上工作，但尚未提出如何干预（例如，突出显示哪个 UI 元素）。
数据收集的可扩展性 – 收集高质量、交错的人机日志需要大量人力；更广泛的众包管道可以扩大数据集。
长期适应性 – 未来工作可以探索持续学习，使代理在用户数周或数月的交互风格演变过程中细化其干预预测。

底线：将人为中断视为一等信号而非烦扰，本研究展示了网页代理如何成为真正的协作伙伴——这是下一代自动化工具开发者今天就应在产品中构建的功能。

作者

Faria Huq
Zora Zhiruo Wang
Zhanqiu Guo
Venu Arvind Arangarajan
Tianyue Ou
Frank Xu
Shuyan Zhou
Graham Neubig
Jeffrey P. Bigham

论文信息

arXiv ID: 2602.17588v1
分类: cs.CL, cs.HC
发表时间: 2026年2月19日
PDF: 下载 PDF

[Paper] 在 Web Agents 中建模不同的人类交互

Overview

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[论文] 针对扩散语言模型的 Sink-Aware 剪枝

[Paper] 这是什么语言？问问你的 Tokenizer

[Paper] 通过细粒度细节定位推动黑盒 LVLM 攻击的前沿

[Paper] 揭示波斯语语言模型中的事实-概念鸿沟