[Paper] 理解 AI 驱动的科学研究工具的使用与参与度:Asta 交互数据集
发布: (2026年2月27日 GMT+8 02:40)
8 分钟阅读
原文: arXiv
Source: arXiv - 2602.23335v1
概述
本文介绍了 Asta Interaction Dataset,这是一个庞大且匿名化的日志,记录了研究人员实际使用 AI‑驱动的文献检索和问答工具的方式。通过分析来自真实检索增强生成(RAG)平台的超过 200 K 条查询和交互痕迹,作者揭示了科学家们将这些系统视为协作伙伴,而非单纯的搜索引擎。研究结果为开发者提供了设计更有用的 AI 研究助理的具体线索。
关键贡献
- 大规模、真实世界数据集:>200 K 用户查询和交互日志,来源于两个已部署的 AI 研究工具,公开发布供社区使用。
- 查询意图分类法:细粒度分类(例如“起草”、“差距识别”、“引用验证”),捕捉 AI 辅助研究的多样化目的。
- 行为洞察:实证证据表明研究者提出更长、更复杂的查询,将生成的文本视为持久性产出,并以非线性方式浏览引用。
- 经验曲线分析:展示查询具体性和引用参与度随用户熟悉工具而演变的情况。
- 设计建议:为构建支持起草、迭代细化和引用管理的 AI 研究助理提供具体指南。
方法论
- Data collection – 作者对两个生产工具(一个文献发现 UI 和一个科学 QA 界面)进行了仪器化,这些工具基于 LLM‑支持的 RAG 架构。所有用户交互(查询、点击、滚动、引用展开以及会话时间戳)在数月期间被记录。
- Anonymization & preprocessing – 去除个人标识符和敏感内容;对查询进行分词和标准化。
- Taxonomy development – 采用混合方法,将随机查询样本的人工标注与语义嵌入的聚类相结合,生成一个包含 12 类的意图模式。
- Quantitative analysis – 计算查询长度、词元多样性、会话深度、引用点击率以及“文献重访”频率等指标。通过根据会话次数将用户划分为新手、中级和专家群体,分析时间趋势。
- Statistical validation – 使用 ANOVA 和事后 Tukey 检验对不同群体和工具类型之间的差异进行检验,确保结果不是随机变异的产物。
结果与发现
| 发现 | 含义 |
|---|---|
| 平均查询长度 = 12.4 个 token(相较于传统网页搜索约 5 个 token) | 研究人员提出更详细的多句问题,期待 AI 提供更丰富的上下文。 |
| 约 38% 的会话涉及“起草”意图(例如,让模型撰写摘要或相关工作段落) | AI 被用作写作协作者,而不仅仅是检索引擎。 |
| 引用点击率 = 62%,且 27% 的用户在多个会话中重新访问相同的生成答案 | 生成的回答成为“黏性”产物;用户将其视为值得再次查阅的参考材料。 |
| 有经验的用户(≥10 次会话)提出的目标查询多出 22%(例如,“比较方法 X 与 Y 在数据集 Z 上的表现”) | 熟悉度导致更精确的提示,但关键词式查询仍然存在。 |
| 非线性导航——45% 的会话涉及在答案章节、引用论文之间跳转,然后返回答案 | 用户通过迭代方式深化理解,将 AI 作为链接到原始文献的枢纽。 |
| 持续的“差距识别”查询——所有查询中有 15% 要求模型指出缺失的文献或未解决的问题 | AI 正被用于研究规划和假设生成。 |
实际意义
- 面向草稿的设计:UI 应提供便捷的方式来导出、编辑和版本控制 AI 生成的文本(例如 markdown 导出、Git 集成)。
- 引用管理集成:在答案 UI 中直接嵌入引用元数据,并支持一键导入到参考文献管理工具(Zotero、Mendeley)。
- 会话持久化:将每个答案视为一等公民的工件——允许书签、标签以及答案之间的链接,以支持观察到的非线性工作流。
- 提示引导:提供随用户熟练度演进的动态提示模板,在引导新手进行更有针对性的查询的同时,仍支持探索性的关键词式搜索。
- 评估基准:发布的分类法和数据集为开发者提供了一个真实的测试平台,用于衡量“研究助理”性能,超越标准 QA 指标(例如包括引用相关性、草稿质量和用户参与度)。
- 隐私‑优先设计:由于数据集需要彻底匿名化,任何生产系统在记录研究者交互时都应采用类似的安全措施。
Limitations & Future Work
- Domain bias: 数据来自单一的 RAG 平台,专注于生命科学文献,因此在其他领域(如计算机科学、人文)中的模式可能不同。
- Self‑selection: 选择使用该工具的用户可能更具技术背景,这可能会导致高级提示行为的出现率被高估。
- Static analysis: 本研究捕捉的是交互的快照;对数年跨度的纵向研究可能揭示更深层的学习曲线。
- Future directions: 作者提出的未来工作包括将数据集扩展到多学科语料库,加入眼动追踪或口述思考协议以更好地理解认知负荷,并测试能够响应已识别使用阶段(探索 → 起草 → 引文验证)的自适应 UI 组件。
作者
- Dany Haddad
- Dan Bareket
- Joseph Chee Chang
- Jay DeYoung
- Jena D. Hwang
- Uri Katz
- Mark Polak
- Sangho Suh
- Harshit Surana
- Aryeh Tiktinsky
- Shriya Atmakuri
- Jonathan Bragg
- Mike D’Arcy
- Sergey Feldman
- Amal Hassan-Ali
- Rubén Lozano
- Bodhisattwa Prasad Majumder
- Charles McGrady
- Amanpreet Singh
- Brooke Vlahos
- Yoav Goldberg
- Doug Downey
论文信息
- arXiv ID: 2602.23335v1
- 分类: cs.HC, cs.AI, cs.IR
- 发布日期: 2026年2月26日
- PDF: 下载 PDF